
-
生物通官微
陪你抓住生命科技
跳動的脈搏
體外轉錄測序揭示RNA-seq的終極誤差
【字體: 大 中 小 】 時間:2014年07月14日 來源:生物通
編輯推薦:
最近,美國賓夕法尼亞大學、土耳其科克大學、美國三角研究園和約翰霍普金斯大學的研究人員,共同在國際生物學權威期刊《Genome Biology》發表的一項研究中,提出并應用體外轉錄測序(IVT-seq),來更好地理解RNA-seq中出現的偏差。
生物通報道:高通量RNA測序(RNA-seq)是了解轉錄調控的一種強大技術。利用RNA-seq,我們不僅可以更好地進行傳統的基因差異表達分析,而且還可以全面地研究可變剪接、RNA編輯、等位基因特異性表達和確定新的轉錄本(編碼RNA和非編碼RNA)。
與更成熟的、以RNA表達分析為基礎的微陣列相反,RNA-seq的靈活性可讓研究人員針對不同的目標(例如據腺苷酸化轉錄本、小RNA測序、總RNA測序等),開發出許多不同的方案。然而,這種靈活性同樣可能有復雜的技術偏差,因為研究人員經常使用不同的方法,進行RNA提取、大小選擇、片段化、轉換為cDNA、擴增和最后測序。
盡管在生成和分析RNA序列數據方面已經取得了進展,但是我們對于各種方案所引入的技術偏差了解相對較少。了解這些偏差對于差異分析至關重要,以避免實驗假象并實現這一強大技術的所有潛能。
研究人員一直都在試圖了解這些誤差,以往的工作確定了幾個來源,包括GC含量和PCR富集、通過隨機引物的反轉錄啟動、在邊合成邊測序反應中引入的讀長誤差、以及各種核糖體RNA(rRNA)subtraction方法引起的偏差。揭示這些偏差來源的研究,通常使用計算方法對現有的測序數據進行分析,以評估各種測序技術和文庫構建的性能。這種方法的一個缺點是,它可能很難知道覆蓋中的異常現象是自然存在還是由技術問題引起。例如,幾乎所有的RNA-seq研究有外顯子內覆蓋的差異,這可能來自于共有外顯子部分的自然發生的剪接變體,或者可能是由文庫構建或測序過程中的技術誤差引起。
考慮到研究人員正在不斷開發新的測序方法和文庫構建方案,我們需要一種方法來評估該技術中每種新方案所引起的技術偏差。一種有吸引力的選擇是,從已在體外轉錄(vitro transcribed,IVT)自cDNA克隆的RNA,來生成文庫,其中每個堿基的核苷酸序列是已知的,剪接模式被建立并不能違反,轉錄本之間的表達水平已知是一致的。
因此,在覆蓋或表達中任何觀察到的偏差,一定是技術性的,而非生物性的。這是計算機研究人員通常用來開發和評估比對算法的模擬數據的實驗對應物。2011年,Jiang及其同事使用類似的方法,分析了來自于枯草桿菌(Bacillus subtilis)的96個合成序列或深海噴口微生物Methanocaldococcus jannaschii基因組,這些生物沒有RNA剪接或聚腺苷酸化。然而,這項工作的重點是構建一套有用的標準,能用于下游分析,而不是探索一組復雜哺乳動物樣本中的文庫構建偏差。
最近,美國賓夕法尼亞大學、土耳其科克大學、美國三角研究園和約翰霍普金斯大學的研究人員,共同在國際生物學權威期刊《Genome Biology》發表的一項研究中,提出并應用IVT-seq,來更好地理解RNA-seq中出現的偏差。簡而言之,就是首先產生、匯集單個質粒,并進行體外轉錄。其次,將這種RNA與復雜的小鼠總RNA以不同的濃度混合,然后在Illumina平臺上,利用兩種最常見的RNA測序方案(polyA seq或total RNA seq)進行測序。
研究人員在大多數IVT轉錄本中發現了覆蓋偏差,超過50%在轉錄本覆蓋范圍內表現出超過2倍的變化,10%具有大于10倍的、由文庫準備和測序引起的差異。此外,研究人員發現6%以上的IVT轉錄本包含高的、不可預測的測序覆蓋區域,它們在樣本之間顯著不同。這些偏差在復制之間是高度可重復的,表明外顯子水平的量化可能是不可取的。
此外,研究人員利用幾種不同的RNA選擇方法(rRNA去除、polyA選擇和非選擇),構建了來自原始質粒模板的測序文庫。他們發現,rRNA去除和polyA選擇是這種覆蓋偏差的一個重要原因,計算分析表明,轉錄本代表性差的區域與低復雜度的序列相關。總之,這些結果,IVT-seq方法用于描述和識別測序技術中的覆蓋偏差源是實用的。
(生物通:王英)
延伸閱讀:解讀單細胞RNA-seq技術
生物通推薦原文摘要:
IVT-seq reveals extreme bias in RNA-sequencing
Background: RNA-seq is a powerful technique for identifying and quantifying transcription and splicing events, both known and novel. However, given its recent development and the proliferation of library construction methods, understanding the bias it introduces is incomplete but critical to realizing its value.
Results: We present a method, in vitro transcription sequencing (IVT-seq), for identifying and assessing the technical biases in RNA-seq library generation and sequencing at scale.
We created a pool of over 1000 in vitro transcribed (IVT) RNAs from a full-length human cDNA library and sequenced them with polyA and total RNA-seq, the most common protocols. Because each cDNA is full length, and we show IVT is incredibly processive, each base in each transcript should be equivalently represented.
However, with common RNA-seq applications and platforms, we find 50% of transcripts have more than 2-fold and 10% have more than 10-fold differences in within-transcript sequence coverage. We also find greater than 6% of transcripts have regions of dramatically unpredictable sequencing coverage between samples, confounding accurate determination of their expression.
We use a combination of experimental and computational approaches to show rRNA depletion is responsible for the most significant variability in coverage, and several sequence determinants also strongly influence representation.
Conclusions: These results show the utility of IVT-seq for promoting better understanding of bias introduced by RNA-seq. We find rRNA depletion is responsible for substantial, unappreciated biases in coverage introduced during library preparation.
生物通微信公眾號
知名企業招聘