
-
生物通官微
陪你抓住生命科技
跳動的脈搏
PacBio RS第三代單分子測序系統全球訪談紀要(一)[心得點評]
主題一:PacBio單分子實時測序技術存在的價值
【字體: 大 中 小 】 時間:2012年12月05日 來源:生物通
編輯推薦:
第三代單分子測序技術還值得繼續關注嗎?當然!PacBio最新升級的商品化試劑使得用戶平均測序讀長達到了前所未有的5000bp!PacBio單分子實時測序到底怎么樣?生物通就幾個廣受關注的主題征詢收集了眾多聲名赫赫的PacBio用戶的心得意見,以用戶現身說法的方式,“原汁原味”為您呈上這一第三代單分子測序系統全球訪談紀要系列報道。
序
第三代單分子測序概念一經提出,就在全球范圍內引起了巨大反響,被譽為“未來測序應用的基準線”。然而,幾年過去了,這一類創新的技術并未如預期般攻城略地得到普及,反而有點“出師未捷”的味道——Helicos已申請破產保護,Complete Genomics難逃被收購的命運,Oxford Nanopore雖然呼聲很高,但宛若空中樓閣遲遲不見現身。唯有PacBio還在奮力前行。單分子測序技術還值得繼續關注嗎?
當然!PacBio最新升級的商品化試劑使得用戶平均測序讀長達到了前所未有的5000bp! 堪稱測序史的又一個新里程碑!
新技術有多好?誰用誰知道。內行看門道。生物通就幾個廣受關注的主題征詢收集了眾多聲名赫赫的PacBio用戶的心得和經驗之談,以用戶現身說法的方式,“原汁原味”為您呈上這一第三代單分子測序系統全球訪談紀要系列報道。這些實力雄厚的用戶,個個成績斐然,堪稱權威,手頭擁有的各種最新型號第一代第二代測序儀可以排成行,絕對經驗豐富,目光犀利,他們的寶貴心得,不可錯過!

發明人 Stephen Turner 發明人 Jonas Korlach
主題一:PacBio單分子實時測序技術存在的價值
Mauricio Carneiro:
Broad研究院之前在系統誤差糾錯過程中吃了很多虧,二代測序數據尤其容易在高GC和同聚物的區域出現層出不窮的錯誤,而這些錯誤對付起來非常棘手,我們無法簡單地通過數學模型來解讀。
“而隨機誤差就完全不是一回事,任何儀器如果只有隨機誤差,那反而顯得太棒了、太完美了,因為多測幾次或者提高覆蓋度就可以把隨機錯誤稀釋掉。所以當其他人被PacBio的原始高錯誤率嚇退的時候,我反而毫無顧慮。”
目前研究人員對于突變數據的驗證一般采用Sequenom質譜、Sanger測序法。雖然這兩種方法的準確性很高,但是Sequenom方法對未知位點突變無法進行檢測,且很多分析仍然需要借助人工方法,而Sanger測序法通量低、花費大且同樣存在人工誤差的問題。此外采用多種測序平臺進行交叉驗證也大大降低了效率,且產生新的突變類型導致更加復雜的分析。所以,最好是利用已有的測序平臺直接產生高質量的測序數據,最大程度避免其他方法的交叉驗證。“基于這些考慮,我們對PacBio給予了厚望。隨著項目進展,現在它已經成為我們的標準工具。”
我們從千人基因組計劃產生的SNP數據中挑選了98個已經用其他方法驗證過的難測SNP位點,盡管之前沒人知道為什么這些位點那么難測,“但事實就是,這些位點在一般其他的測序儀上測的話總是一如既往地出錯”,所以這些位點就成了測試測序儀性能的標準。我們分別利用PacBio平臺和Illumina MiSeq平臺進行對比驗證,結果發現PacBio數據有著更好的準確性和假陽性檢出率,相對而言是一種更為有效的驗證工具。
在認為PacBio比MiSeq有效之前,我們發現PacBio數據中存在相當程度的參考偏好性(Reference Bias)。“這個參考偏好性后來發現是我們人為導致的。當我們把PacBio數據與參考序列進行程序比對時,因為隨機誤差中大部分都是插入導致,程序糾錯過程就特別傾向于去反轉插入誤差,這里面就可能把真實存在的SNP誤解為插入誤差給‘糾正’了,結果反而掩蓋了真實檢出的SNP。” 我們發現這一現象后修正了的算法,最近將心得都整理了一下,發布了beta版HapltoytpeCaller作為補充算法,并整合到GATK基因組分析工具包中。
注:詳情請見參考文獻4、參考影像1 & 3。此外,Sanger研究院在2012年7月刊的BMC Genomics上也發表了新一代測序技術的評測文章,正好比Broad研究院的文章早一個月,根據Sanger的結果PacBio只能檢測出71%的SNP。Sanger當時使用的試劑版本是C1(Broad用的是升級后的C2),他們在建庫實驗過程和數據分析設置中也出現了些問題。看到Broad這篇文章發表后,雙方也有技術交流,之后Sanger研究院的Paul Coupland 8月專程到PacBio的總部Menlo Park去訪問,觀摩研討如何優化實驗方案。

Michael Schatz:
開始的時候我們曾對PacBio公布的單分子測序相對的高錯誤率也表示過擔憂,但等弄明白這個是隨機錯誤的時候,我們便釋然了。“對于一個精通算法的信息學高手而言,隨機錯誤里的世界完全不同于系統性誤差,隨機錯誤是相對比較容易用概率算法進行修正的,但修復系統性誤差就不是統計學能夠解決的范疇了。”我們開發的算法“將PacBio錯誤率從15%減少為不到千分之一”,而且我們把這個算法以開放源代碼的形式發布到萬維網上,讓任何人都可以使用它。
“短讀長測序的優點是得到高質量的深度覆蓋,然而,它的缺陷也很明顯,比如無法對高重復區域和單倍體型或雜合子序列等這些復雜區域進行測序。”其結果是,很多具有重要生物學功能的序列(比如某些特定基因和啟動子區域),用基于短讀長的二代測序法只能給出大量支離破碎的片段。“短讀長局限同時還給其他諸如全轉錄組測序(包含可變剪切信息)和宏基因組測序(基于16S核糖體RNA基因測序)等項目中的計算解析帶來困難,甚至有時候根本無法進展下去。”
注:詳情請見參考文獻1、參考影像5。
Tim Hunkapiller:
“數據質量是個相對的概念。在我看來,PacBio產出的10 Kb讀長數據所包含的信息量要遠遠超過Illumina產出的200 bp的讀長數據,況且在微生物基因組測序應用中,PacBio明顯更能勝任,還能做堿基修飾的動力學分析,這些都是有目共睹的。另外,從原理上來看,Illumina的讀長永遠無法超越PacBio,正如它的準確性也永遠無法超越CE一樣。所以,懂PacBio的人總是更看重其讀長優勢,而非拘泥于單分子測序的錯誤率,正所謂瑕不掩瑜。”
“再談錯誤率,其實這方面業內已慢慢達成共識,Illumina產生的錯誤率是系統誤差,而PacBio是隨機的。隨機即意味著它可以通過增加次數來抹平誤差,何況PacBio的CCS環形比對模式已經在很大程度上可以自行糾錯,如果不計投入,最終達到的數據質量將超過Illumina。”
David Munroe:
“這是一個漸進的過程,人們需要時間慢慢習慣三代測序的數據產出形式,以及安裝合適的軟件來分析它。”
Adam Phillippy:
“第三代測序儀正在生成一種全新類型的測序數據。過去5年或更長時間以來算法開發幾乎完全集中于高通量、高準確度的短讀長數據。將軟件開發過程轉向另一個新焦點還需要相當長的時間。”所以我們這個算法的誕生可以認為是朝著這一正確方向邁出了重要的一步。
“從454 和 Illumina技術引入到被廣泛接受,并將Sanger測序推至小角色之前,也存在相似的兩至三年的滯后。”一旦這些障礙被克服,第三代測序技術將使研究人員能夠深入了解其他不容易用第二代測序技術研究的大型結構變異相關的疾病,例如癌癥、自閉癥和染色體疾病等。長讀長單分子測序也可以揭示對包含在基因組中的Junk DNA的認識,這些Junk DNA被認為起著重要的調控作用,但由于無法正確組裝而沒有得到廣泛研究。
“我期望第二代和第三代技術將可以和平共存直至產生另一個巨變。”

Michael Schatz:
“事實上,當今大量的測序項目集中在人類基因組重測序項目或者其他類似研究,這些項目有參考基因組存在,因此使用Illumina的短讀長數據就可以完成了。但當你手頭上沒有參考基因組,或者你正好對大片段結構變異比較感興趣,抑或你必須要拿到一個高質量的完整基因組圖,比如在司法鑒定場合需要獲得每個堿基的詳盡信息,那么三代長讀長數據就顯得不可或缺了。”
Lance Price:
我們目前遇到的最大瓶頸是,我們太需要完整的基因圖譜了,在家畜流行病領域尤為如此。“我們需要一個足夠強大、數據足夠豐富的參考基因組系列,最好是全封閉的基因圖譜,任何的缺失都可能讓我們丟掉關鍵的信息,這樣我們才能把現有工作獲得的草圖和參考序列進行精細的對比分析,才能真正揭示家畜流行病的歷史淵源。”現在興起的第三代單分子測序對我們而言的確是一個契機,依靠長度長數據去填充或矯正早期的參考序列,同時也能完善我們現有的家畜個體基因組草圖。“聽上去很美好,這樣我們的工作才有意義,家畜流行病進化史才更真實,更容易預測未來的發展軌跡。”
Dave Rasko:
“高質量的參考基因組信息無疑是重要的,它能真正告訴你什么是真什么是假。”15-20年間我們在這方面做了很多努力,測了大量的微生物基因組,“然而真正我們能稱之高質量的并不多,而且可以說很少”。我們過去一味強調單次數據質量,而二代測序確實可以提供短讀長方面的高質量數據質量,但這跟最終的高質量參考基因組圖譜是兩個概念。“再好的數據質量,如果換來的只是Scaffold,遺留大量Gap的話,我們至少現在認為并不可取,所以我們現在開始傾向于犧牲一部分的數據質量,去換取高質量的參考圖譜,這樣在今后的工作,這些高質量的圖譜可以幫我們以高通量的模式對單次測序結果去偽存真。”
“我們現在就是把二代和三代測序結合起來用,用Illumina數據提供高覆蓋度,用PacBio數據提供長讀長,然后混合拼接,基本上就可以拿到越來越符合我們要求的高質量圖譜了。”
Richard Gibbs:
就目前的數據來說,各種已測序物種的基因組中缺口所占的百分比從1.3%至13%不等,這是由于NGS生成的片段過短,無法跨越高度重復和高GC含量的基因組區域。“大量的基因組空白區域中可能存在重要的生物學信息,如果無法補齊Gap,不僅不能獲得完整的基因圖譜,還會給后續的關鍵信息解讀造成很大的困難。”目前人們主要使用步進PCR結合Sanger測序或者Illumina/454 Pair-end測序數據來填充空白區域,但是這些方法費時費力、成本高、填充效率低,無法從根本上解決問題。
Adam English:
我們團隊另辟蹊徑,利用PacBio單分子測序和長讀長數據對模式生物的基因組草圖進行升級。“我們的目標是準確、自動化、快速且可重復的進行基因組升級。”此外,我們還專門開發了高度自動化的工具PBJelly,能夠將PacBio長片段與基因組草圖進行比對,填補或減少草圖中的缺口,從而完善基因組草圖。
“目前我們對兩個果蠅種、虎皮鸚鵡、白眉猴的基因草圖組進行了升級,測序深度從4X到24X不等,其中果蠅基因組Gap數減少了15倍,虎皮鸚鵡和白眉猴的基因組Gap數減少了1.3至2.8倍,且這些基因組的Gap大小也減少了3-6倍。”提高測序深度還有進一步提高Gap填補效率的空間。
注:詳情請見參考文獻2、參考影像2。

Eric Schadt:
“從樣本制備到測序結果,平均只需8小時,平均讀長為2,900 bp,而最長的讀長達到7,800 bp,再結合CCS環形一致序列測序模式,實現了非常高的單分子準確性,最后完整拼接。在此項目證實了PacBio在復雜微生物病原體的de novo測序的能力,以及在多個基因組快速測序上的威力,這些有助于闡明病原體微生物的進化史。”
注: 詳情請見參考文獻3、參考影像4。
Karen Krogfelt:
在PacBio之前,還沒有哪一種測序方法可以在8個小時之內完成一個基因組測序,后續的拼接與分析也非常迅速,從拿到樣本到文章發表只用了2個月時間,令業內為之震驚。我不是否認其他測序方法無法完成這項工作,只是那些方法花費大、耗時長,不太適合作為傳染病爆發時對病原體的快速監測和分析。
“PacBio不僅反應迅速,而且提供的這些高質量的數據將更便利科學家去揭示致病菌株的其他深層次信息。這種病原體的全面進化分析將協助鑒定出抗生素耐藥性的標志物,以便在未來出現相關菌株導致疾病暴發時及時應對。”
Dave Rasko:
“多菌株測序數據分析顯著深化了人們對這個新型致死大腸桿菌菌株的科學認識,并掀開了深入探索其進化起源和致病性起源的新篇章。”
“這一結果是迄今為止提供的最為完整的爆發菌株的基因組譜圖,同時也強調了DNA測序對疫情研究的突出貢獻,唯有一套完整的測序方案才能深刻認識細菌基因組可塑性的程度,從而知道它以何種方式促成新型病原體的出現。”

Michael Hunkapiller:
“自2011年4月至今,全球已擁有70多套PacBio RS系統正式進入客戶端運行。”
Nick Bergman:
“PacBio RS系統是NBACC測序項目的重大擴展,其長讀長和通量靈活性為我們鑒定微生物病原體提供了很多新的選擇。我們非常激動能在多個應用中率先使用它。”
Harold Swerdlow:
“過去我常常建議人們買什么樣的測序儀合適,但現在我也開始糾結了。這完全決定于你想拿它干什么——市面上的測序儀都各有千秋,各有獨門絕技。”
對于大的測序中心而言,只要新的測序技術出來,我們的反應就很直截了當,那就是“買下來趕緊試”。“我們傾向于測試絕大部分上市的測序儀,只要有理由相信新參數能帶來一定程度的技術革新。”
“為了維持基因組學的前沿地位,我們探索基因組測序中的新機會。我們計劃使用PacBio來改善病原體的de novo拼接,并提高一些物種的序列信息覆蓋度,在未來,我們將通過甲基化位點的直接檢測來探索表觀遺傳學。”
Eddy Rubin:
“我們的重點之一是de novo測序,用de novo測序的方法解析我們之前不了解的基因組,如宏基因組、真菌、植物等,長讀長將是一個極大優勢,因此PacBio對我們的確有幫助。”
“我們能夠用Illumina更經濟地開展多個應用,在多個長讀長應用中我們將使用PacBio平臺,在這之前我們使用羅氏454的測序技術,但現在我們希望能夠用PacBio做之前454所做的許多事情。”
W. Richard McCombie:
“我們非常看重PacBio長讀長在多個項目中的價值,這些項目包括了解人類基因組中的結構變異,以及植物基因組的de novo測序。”
Brewster Kingham:
“2011年9月我們投入安裝了PacBio RS系統,我想,我們這的應該是全球第25臺吧。我們用PacBio測病毒、細菌以及真核樣品,我們也有一些基因組測序項目,比如用于海洋微生物的宏基因組。”
PacBio最適合的場合,主要在de novo測序或配合二代數據組裝、堿基修飾直接識別、以及應用于靶向重測序中發現稀有突變、SNP、結構性變異(大片段插入或缺失)、單倍體型等等。“當然,我們的興趣主要在宏基因組分析,單分子測序無需擴增,理論上就可以把環境中的任何微生物種群準確無誤地鑒定出來。目前而言我們還是先從擴增開始,但我們正想往無需擴增的道路邁進。”
“C1和C2試劑我們都嘗試過,C2太棒了,我敢說,和C1相比簡直是‘白天與黑夜’的區別。”以前可能還有人對PacBio或者第三代測序持懷疑態度,C2的推出,可以在一定程度上逆轉這樣的邏輯。“我們用C2獲得了4000 bp的平均讀長,每個SMRT Cell的數據產出達到300 M,這比PacBio的官方數據還要好,我們沒理由不滿意。就連樣品起始量也有所改進,比如我們現在可以嘗試從500 ng做起。”
“錯誤率高?!我并不這么認為。起碼我們的平均讀長達到了4000 bp,以16S 核糖體擴增子測序為例,我們主要通過CCS環形比對測序模式,基因長度在600-700 bp,可以在單分子測序狀態下實現4-6個Reads。覆蓋度一提高,單分子的正確率就大大提高了。”還是同一個例子,我們測試的結果是,“2X覆蓋對應的正確率為97%,3X為98%,如果采用5X以上,正確率就可以突破99%”。
“人們總是很喜歡拿第三代測序數據和第二代甚至第一代進行比較,但我認為,這實在不公平,三個階段的數據類型完全不是一個概念。”你可以選擇在Sanger、Illuminated和PacBio之間進行對比,甚至可以在每兆堿基多少費用的問題上糾纏不清。但不要忘了,我們從來不否認:Sanger法的超強精確性,盡管它目前是最昂貴的;Illumina是便宜,但讀長太短,準確性也不比Sanger法高;PacBio可以將你引入單分子測序的境界,你的最大好處是可以獲得4000 bp的平均讀長,錯誤率總體看是隨機的。“我只能說,任何東西都有缺陷,取決于你怎么去用好它。”
談到測序費用,實際操作下來,對完成整個項目從測序、拼接、精細圖、甚至到完整圖,PacBio和Illumina結合起來的耗費最節約。
參考文獻
1. Hybrid error correction and de novo assembly of single-molecule sequencing reads. Koren S, Schatz MC, Walenz BP, Martin J, Howard JT, Ganapathy G, Wang Z, Rasko DA, McCombie WR, Jarvis ED, Adam M Phillippy. Nat Biotechnol. 2012 Jul 1;30(7):693-700.
http://www.nature.com/nbt/journal/v30/n7/full/nbt.2280.html
2. Mind the Gap: Upgrading Genomes with Pacific Biosciences RS Long-Read Sequencing Technology. English AC, Richards S, Han Y, Wang M, Vee V, Qu J, Qin X, Muzny DM, Reid JG, Worley KC, Gibbs RA. PLoS One. 2012;7(11):e47768.
http://www.plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0047768)
3. Origins of the E. coli strain causing an outbreak of hemolytic-uremic syndrome in Germany. Rasko DA, Webster DR, Sahl JW, Bashir A, Boisen N, Scheutz F, Paxinos EE, Sebra R, Chin CS, Iliopoulos D, Klammer A, Peluso P, Lee L, Kislyuk AO, Bullard J, Kasarskis A, Wang S, Eid J, Rank D, Redman JC, Steyert SR, Frimodt-M?ller J, Struve C, Petersen AM, Krogfelt KA, Nataro JP, Schadt EE, Waldor MK. N Engl J Med. 2011 Aug 25;365(8):709-17.
http://www.nejm.org/doi/full/10.1056/NEJMoa1106920
4. Pacific biosciences sequencing technology for genotyping and variation discovery in human data. Carneiro MO, Russ C, Ross MG, Gabriel SB, Nusbaum C, DePristo MA. BMC Genomics. 2012 Aug 5;13:375.
http://www.biomedcentral.com/1471-2164/13/375
參考影像
1. PacBio AGBT 2012 Carneiro
2. PacBio AGBT 2012 English
3. PacBio AGBT 2012 Testimonial Carneiro
4. Webinar: The Role of Adenine Methylation in Determining the Pathogenicity of a Bacteria, Eric Schadt (Mt. Sinai School of Medicine)
5. Webinar: Mike Schatz (CSHL) - Error Correction and De Novo Assembly of Complex Genomes.