牛津大學(xué)納菲爾德骨科、風(fēng)濕病學(xué)和肌肉骨骼科學(xué)系(NDORMS)的一個(gè)研究小組開發(fā)了一種新方法,可以顯著提高RNA測序的準(zhǔn)確性。他們指出短讀和長讀RNA測序中不準(zhǔn)確定量的主要來源,并引入了“majority vote”糾錯(cuò)的概念,從而大大提高了RNA分子計(jì)數(shù)的準(zhǔn)確性。

研究重點(diǎn):

  • 過往科學(xué)家沒有重視的PCR循環(huán)是很多精準(zhǔn)測序當(dāng)中的一個(gè)重要錯(cuò)誤源頭;
  • 新研究發(fā)明了一種新型的同源三聚體的分子生物標(biāo)記法來達(dá)到精準(zhǔn)測序的目的。研究人員報(bào)告了再批量測序和單細(xì)胞測序下的99%和98%的測序精度。這稱之為幾乎逼近絕對精準(zhǔn)定量的測序水平。這是該領(lǐng)域目前最為精準(zhǔn)的糾錯(cuò)測序技術(shù)。

短讀和長讀RNA測序目前主要存在的問題

遺傳物質(zhì)的準(zhǔn)確測序在現(xiàn)代生物學(xué)中是至關(guān)重要的,特別是對于理解和解決與遺傳異常有關(guān)的疾病方面。然而,目前的方法遇到了很大的限制。

論文一作Jianfeng Sun博士解釋道:“短讀長測序技術(shù)在常規(guī)RNA測序中的精度是很高的,然而其在單細(xì)胞RNA測序中的精度根據(jù)不同的測序條件設(shè)置忽高忽低。比如,將PCR體外擴(kuò)增次數(shù)增高后再去測序的精度其實(shí)并不高。長讀長RNA測序目前在單細(xì)胞和常規(guī)RNA測序中的精度均比短讀長要低一些。因?yàn)闇y序平臺(tái)在不斷推陳出新,所以目前在一般情況下開展的測序精度不會(huì)出現(xiàn)過低的情況。

但是,無論短讀長還是長讀長測序中只要出現(xiàn)一定量的錯(cuò)誤,那么這可能就會(huì)潛在地影響數(shù)據(jù)分析的質(zhì)量,從而可能潛在地影響生物研究結(jié)論。

所以最主要的問題還是精度問題。

另外,短讀長測序的價(jià)格要比長讀長低很多。但是長讀長的價(jià)格普遍還是居高不下。如何在測序精度和價(jià)格之間尋找平衡是其中一個(gè)重要的議題。”

創(chuàng)新新方法

這項(xiàng)具有里程碑意義的研究由牛津大學(xué)計(jì)算生物學(xué)副教授Adam Cribbs和Jianfeng Sun領(lǐng)導(dǎo)完成,他們開發(fā)了一種創(chuàng)新的方法,用于糾正高通量測序中廣泛出現(xiàn)的PCR擴(kuò)增錯(cuò)誤。

研究發(fā)表在《自然方法》(Nature Methods)雜志上,指出PCR人工產(chǎn)物是定量不準(zhǔn)確的主要原因,這解決長期以來在生成準(zhǔn)確的RNA分子絕對計(jì)數(shù)方面所面臨的挑戰(zhàn),這對基因組學(xué)研究的各種應(yīng)用至關(guān)重要。

在這篇文章中,研究人員重點(diǎn)研究了特異性分子標(biāo)記(Unique Molecular Identifiers, UMIs,生物通注),這是一種隨機(jī)的寡核苷酸序列,用于消除PCR擴(kuò)增過程中引入的偏差。雖然UMIs已被廣泛應(yīng)用于測序方法,但該研究表明,PCR錯(cuò)誤可能會(huì)破壞分子定量的準(zhǔn)確性,特別是在不同的測序平臺(tái)上。

Sun說:“PCR擴(kuò)增對于大多數(shù)RNA測序技術(shù)來說都是必不可少的,但它可能會(huì)引入誤差,損害數(shù)據(jù)的完整性。我們通過使用同源三聚體核苷酸塊合成UMI條形碼來解決這個(gè)問題,增強(qiáng)了糾錯(cuò)能力,實(shí)現(xiàn)了近乎絕對的RNA分子定量,顯著提高了分子計(jì)數(shù)的準(zhǔn)確性。”

“測序一般需要使用聚合酶鏈?zhǔn)椒磻?yīng)(PCR)對分子序列進(jìn)行擴(kuò)增。PCR擴(kuò)增后的分子進(jìn)入測序池子后會(huì)影響正確的分子計(jì)數(shù)。所以待測分子需要用一些分子序列條形碼對其進(jìn)行身份標(biāo)記,在PCR擴(kuò)增后進(jìn)行剔除。但是PCR這個(gè)過程會(huì)引入錯(cuò)誤,稱為PCR錯(cuò)誤。如果條形碼也錯(cuò)了,PCR擴(kuò)增的分子的正確識(shí)別可能就會(huì)遇到困難,所以可能會(huì)破壞分子定量的準(zhǔn)確性。在不同的測序平臺(tái)上,PCR錯(cuò)誤的影響是很不同的。例如,在短讀測序平臺(tái),錯(cuò)誤率并不高。但是基于電信號(hào)識(shí)別堿基從而測序的牛津納米孔測序會(huì)相對高。”

“majority vote”方法

同源三聚體是由三個(gè)相同堿基組成的核苷酸序列,如AAA、CCC、GGG。通過評估同源三聚體核苷酸相似性,研究人員可以通過“majority vote”方法檢測和糾正錯(cuò)誤(圖1)。

圖1:顯示同源三聚體UMI majority vote錯(cuò)誤糾正的示意圖。我們用同源三聚體核苷酸塊(由AAA、CCC、GGG、TTT組成的組合)構(gòu)建了UMIs。通過評估三聚體核苷酸的相似性,通過“majority vote”系統(tǒng)識(shí)別和糾正刪除、插入或替代的錯(cuò)誤,選擇最常見的核苷酸。

“‘majority vote’糾錯(cuò)這一概念具體是指使用多數(shù)投票法對同源三聚體中的錯(cuò)誤測序的堿基進(jìn)行糾錯(cuò)。比如,同源三聚體AAA在測序后變成了AGA,那么就可以使用多數(shù)投票法將其投票為A。不同的同源三聚體均可以按照這樣的方式進(jìn)行一一糾錯(cuò),最后形成一條連續(xù)的序列,” Sun補(bǔ)充說。

該研究表明,在分析差異表達(dá)基因和轉(zhuǎn)錄本(DEGs和DETs)時(shí),同源三聚體UMIs在減少假陽性折疊富集方面明顯優(yōu)于傳統(tǒng)單體UMIs。這種增強(qiáng)對于DEGs或DETs的準(zhǔn)確識(shí)別和定量至關(guān)重要,特別是在批量測序方法中。此外,在單細(xì)胞測序中,通常需要廣泛的PCR擴(kuò)增,同源三聚體UMIs已被證明可以有效減輕PCR人工產(chǎn)物的影響,從而大大提高測序數(shù)據(jù)的可靠性。

“通過構(gòu)建同源核苷塊的UMIs,我們的目標(biāo)是提高短讀和長讀測序的糾錯(cuò)能力,這是我們對提高測序技術(shù)應(yīng)用的承諾,”Cribbs說。

意義深遠(yuǎn)

這項(xiàng)研究具有深遠(yuǎn)的意義。通過糾正UMIs中的PCR誤差,極大地提高了各種測序應(yīng)用中的分子定量準(zhǔn)確性。它是大量RNA、單細(xì)胞RNA和DNA測序研究人員的重要工具,可以實(shí)現(xiàn)準(zhǔn)確的基因表達(dá)和分子譜分析。增強(qiáng)的UMI糾錯(cuò)不僅減少了假陽性的發(fā)生率,而且還提供了多種診斷應(yīng)用,特別是在需要對樣本進(jìn)行縱向分析的情況下。

Sun解釋說:“UMI糾錯(cuò)是PCR糾錯(cuò)的其中一種方式。如果UMI糾錯(cuò)情況得到改善,那么PCR錯(cuò)誤的分子計(jì)數(shù)就會(huì)變好。這樣PCR擴(kuò)展的分子被錯(cuò)誤歸入原始待測分子的可能性就低,所以假陽性就低。從而,分子表達(dá)量測準(zhǔn)了之后就會(huì)幫助后續(xù)的疾病診斷(判斷表達(dá)量是否異常等),并且可能會(huì)增加更多的診斷應(yīng)用的可能性(例如,疾病診斷中的假陰性問題,使用測序錯(cuò)誤較少精度高的表達(dá)數(shù)據(jù)做鑒定會(huì)幫助排除出現(xiàn)假陰性的鑒定結(jié)果,可靠度高應(yīng)用存在的可能性就越高)。在縱向研究中,不同的樣本或是實(shí)驗(yàn)重復(fù)之間存在的差異有可能很大。普通的糾錯(cuò)方法在底/高錯(cuò)誤率的情況下魯棒性可能差異比較大。然而我們在不同的樣本或是實(shí)驗(yàn)重復(fù)中得到的魯棒性是比較強(qiáng)的,也證明了該方法在應(yīng)用階段的穩(wěn)定性。”

這篇論文目前是《Nature Methods》有數(shù)據(jù)追蹤以來與同期發(fā)表文章相比最受歡迎的文章,排名第1,而且在所有期刊當(dāng)中發(fā)表的同期可追蹤的202,746篇文章中網(wǎng)絡(luò)熱度位居1962名(詳情請看https://www.nature.com/articles/s41592-024-02168-y/metrics)。

同時(shí)該文章也吸引了各媒體的報(bào)道,牛津大學(xué)也詳細(xì)報(bào)道了這項(xiàng)研究:

https://www.ox.ac.uk/news/2024-02-08-new-research-improves-accuracy-molecular-quantification-high-throughput-sequencin