
-
生物通官微
陪你抓住生命科技
跳動的脈搏
如何解決RNA-seq量化誤差?
【字體: 大 中 小 】 時間:2015年09月08日 來源:生物通
編輯推薦:
九月四日,英國愛丁堡大學的Christelle Robert和Mick Watson在國際知名生物學期刊《Genome Biology》發表的一項研究,采用12種常見的方法,評估來自RNA-Seq的基因表達,發現有幾百個基因的表達被一種或更多方法所低估。研究人員繼而提出了一種兩階段的RNA-seq數據分析法,并將這種方法應用于最近發表的小鼠癌癥研究,證實這種方法能夠從被丟棄的數據中,提取到相關的生物學信號。
生物通報道:RNA-Seq已經成為測量基因表達的標準,以及用于人類疾病研究的一種重要技術。基因表達量化分析涉及,測序序列與一個已知基因組或轉錄組參考序列的比對。這種量化的準確度取決于,序列中要有足夠多的獨特信息,才能使生物信息學工具能夠準確地將測序序列分配到正確的基因位置上。
九月四日,英國愛丁堡大學的Christelle Robert和Mick Watson在國際知名生物學期刊《Genome Biology》發表題為“Errors in RNA-Seq quantification affect genes of relevance to human disease”的研究成果。在這項研究中,研究人員采用12種常見的方法,評估來自RNA-Seq的基因表達,發現有幾百個基因的表達被一種或更多方法所低估。研究人員繼而提出了一種兩階段的RNA-seq數據分析法,并將這種方法應用于最近發表的小鼠癌癥研究,證實這種方法能夠從被丟棄的數據中,提取到相關的生物學信號。延伸閱讀:發現RNA-seq隱藏信息的新方法。
轉錄組學是幫助研究人員了解各種疾病分子基礎的一種重要途徑。多年來,芯片一直是基因組表達分析的中堅力量,現在,RNA-seq已經成為轉錄組分析的標準方法,出現在成千上萬的生物醫學文獻出版物中。
高通量的新一代測序儀,通常可以非常低的成本輸出上億個序列讀長,RNA-Seq將這些測序儀應用于RNA(已被轉化為cDNA)。其結果是,研究人員可以根據樣本,非常低廉地產生上億個序列讀長,從而使它們能夠測量基因表達和重建剪接異構體。現在,RNA-Seq對于許多大型功能注釋項目非常的重要,如ENCODE——一個大型的跨國項目,旨在確定人類基因組中的功能元件。
目前,有許多生物信息學方法用于RNA-Seq定量——未加工的測序序列到基因表達估量的轉換。最流行的方法包括,使用拼接校準軟件,如TopHat或STAR,將測序序列與參考基因組(或轉錄組)比對。校準步驟是非常計算密集型的,每一個樣品要花費幾小時的時間,取決于選擇的工具和參數。其結果是,每個讀長(或片段)被指定為參考序列中的零個、一個或多個假定的位置。
定位在多個位置的測序序列,被描述為多定位;此外,任何給定的定位位置都可能與注釋中的多個基因重疊,這些被描述為模糊定位的序列讀長。如何處理和報告多定位/模糊的序列讀長,取決于選擇軟件的,是RNA-Seq量化誤差的一個主要來源。給定一組比對,需要額外的工具來將序列讀長分配到基因中,以量化基因表達。
短序列讀長的校正是一個復雜的問題,在RNA-Seq中,基因家族進一步加劇了這一情況。有許多基因成員具有相同或接近相同的序列,基因家族往往是富集了多定位的序列讀長;因此,RNA-Seq的量化結果取決于校準軟件的選擇、參考的選擇、大量的參數和算法細節。量化工具的選擇也有很大的影響。
最近,Patro等人描述了一種新的方法,構建了轉錄本內的一種獨特的kmers指數,并用其來評估直接來自原始讀長的基因表達。這種算法比其他方法的速度快25倍,具有相當的精度。然而,它無法發現新的轉錄異構體或剪接點(RNA-Seq的一個關鍵好處),并依托kmers,這必然小于讀長長度,很可能會出現多定位序列讀長引起的相同問題。
RNA-Seq的關鍵在于,假設這種方法會產生基因表達的可靠測量,最近的一篇論文表明,可能并非如此。在這項研究中,研究人員測試了RNA-Seq量化的生物信息學方面所引入的偏差,也就是說,原始測序序列讀長到基因表達估量的轉換。研究人員應用12種常見的方法,來評估RNA-Seq數據的基因表達,并表明有數百個基因的表達被一種或多種方法所低估。這些基因當中有許多基因與人類疾病有關,而且,研究人員描述了它們的功能。
研究人員繼續提出了一種兩階段的RNA-Seq分析法,并將這種方法應用于一項最近發表的小鼠癌癥研究,證明能夠從已被丟棄的數據中提取到相關的生物學信號。
(生物通:王英)
生物通推薦原文摘要:
Errors in RNA-Seq quantification affect genes of relevance to human disease
Abstract
Background
RNA-Seq has emerged as the standard for measuring gene expression and is an important technique often used in studies of human disease. Gene expression quantification involves comparison of the sequenced reads to a known genomic or transcriptomic reference. The accuracy of that quantification relies on there being enough unique information in the reads to enable bioinformatics tools to accurately assign the reads to the correct gene.
Results
We apply 12 common methods to estimate gene expression from RNA-Seq data and show that there are hundreds of genes whose expression is underestimated by one or more of those methods. Many of these genes have been implicated in human disease, and we describe their roles. We go on to propose a two-stage analysis of RNA-Seq data in which multi-mapped or ambiguous reads can instead be uniquely assigned to groups of genes. We apply this method to a recently published mouse cancer study, and demonstrate that we can extract relevant biological signal from data that would otherwise have been discarded.
Conclusions
For hundreds of genes in the human genome, RNA-Seq is unable to measure expression accurately. These genes are enriched for gene families, and many of them have been implicated in human disease. We show that it is possible to use data that may otherwise have been discarded to measure group-level expression, and that such data contains biologically relevant information.