
-
生物通官微
陪你抓住生命科技
跳動的脈搏
零成本大幅提高蛋白質(zhì)組鑒定能力?暨大研發(fā)另類質(zhì)譜鑒定算法策略
【字體: 大 中 小 】 時間:2017年10月24日 來源:暨南大學(xué)
編輯推薦:
暨南大學(xué)的研究人員利用翻譯組測序(RNC-seq)數(shù)據(jù)作為穩(wěn)態(tài)細(xì)胞內(nèi)蛋白質(zhì)的“標(biāo)準(zhǔn)答案”,并另辟蹊徑,提出了蛋白水平上的一種簡單有效的多算法結(jié)果整合策略,不用做額外的實驗,零成本輕松提高蛋白質(zhì)組鑒定數(shù)量,同時有效降低假陽性率。
鳥槍法質(zhì)譜(shotgun mass spectrometry)是蛋白質(zhì)組研究的標(biāo)準(zhǔn)研究方法。從質(zhì)譜譜圖中鑒定蛋白質(zhì)需要依賴搜庫算法,現(xiàn)有許多算法被開發(fā)出來,常見的如Andromeda(Maxquant), Mascot, COMPASS, X!Tandem, pFind, InsPecT, ProVerB, Dispec, MassWiz等,算法原理各不相同,各種搜庫算法對同一質(zhì)譜數(shù)據(jù)的鑒定結(jié)果互相存在很大差異,于是研究人員經(jīng)常會面臨“搜庫算法哪家強(qiáng)”的糾結(jié)。也有一些策略試圖在肽段水平上整合各算法的結(jié)果,如Scaffold, iProphet等,但效果都很一般。
之所以難以研發(fā)有效的整合算法,關(guān)鍵原因之一是所有的搜庫算法都會產(chǎn)生一定的假陽性率(FDR),而由于長期以來受限于蛋白質(zhì)組學(xué)技術(shù)的精度局限,某一細(xì)胞內(nèi)總共有多少種蛋白質(zhì)一直就沒有標(biāo)準(zhǔn)答案,從而難以準(zhǔn)確評價各種方法所帶來的FDR,只能毛估,這樣一來就存在著很大的不確定性。在沒有標(biāo)準(zhǔn)答案的情況下,貿(mào)然合并多種算法的結(jié)果將導(dǎo)致假陽性率的迅速累積,使得最終結(jié)果變得很不可靠。
針對這一蛋白質(zhì)組學(xué)界的“老大難”問題,暨南大學(xué)翻譯組學(xué)實驗室利用翻譯組測序(RNC-seq)數(shù)據(jù)作為穩(wěn)態(tài)細(xì)胞內(nèi)蛋白質(zhì)的“標(biāo)準(zhǔn)答案”,并另辟蹊徑,提出了蛋白水平上的一種簡單有效的多算法結(jié)果整合策略,不用做額外的實驗,零成本輕松提高蛋白質(zhì)組鑒定數(shù)量,同時有效降低假陽性率。
由于翻譯組測序具有遠(yuǎn)高于蛋白質(zhì)質(zhì)譜的靈敏度和準(zhǔn)確性,可以基本窮盡細(xì)胞中正在合成的蛋白質(zhì),因此被作為人類蛋白質(zhì)組計劃的核心支柱之一(Zhong et al., Journal of Proteome Research 2014),可以用作“標(biāo)準(zhǔn)答案”的基準(zhǔn)來評價與整合各算法的蛋白質(zhì)鑒定結(jié)果。分析顯示,7種主流搜庫算法各行其是,只有一半的蛋白質(zhì)被所有算法鑒定到;與翻譯組“標(biāo)準(zhǔn)答案”相比,其假陽性率都高達(dá)4-5%,遠(yuǎn)超過其自身預(yù)估的1%。因此,若取各算法的并集將導(dǎo)致假陽性率的進(jìn)一步累積上升,若取各算法結(jié)果的交集將大幅度降低鑒定的蛋白質(zhì)數(shù)量,皆不可取。
研究者注意到,那些僅被一個算法所鑒定到的蛋白質(zhì),其鑒定質(zhì)量普遍較低,因此提出一種簡便得出奇的整合策略:若有2個或更多個算法鑒定到了同一個蛋白質(zhì),則認(rèn)為此蛋白質(zhì)鑒定是可靠的。再次采用翻譯組“標(biāo)準(zhǔn)答案”進(jìn)行評價,發(fā)現(xiàn)此方法不但顯著提高了蛋白質(zhì)鑒定數(shù)量,也同時顯著降低了假陽性率,提高了鑒定的可靠性。這一成績大大優(yōu)于傳統(tǒng)的圖譜或肽段水平的整合策略Scaffold和iProphet。
不僅如此,確認(rèn)了可靠鑒定的蛋白質(zhì)后,還可以發(fā)揮將各算法數(shù)學(xué)模型各自的優(yōu)勢,將所鑒定出的肽段直接全算在一起,取長補(bǔ)短,從而大幅度提高蛋白質(zhì)的肽段覆蓋率。此項能力不但優(yōu)于所有的搜庫算法,更是傳統(tǒng)整合策略所望塵莫及的。
這項“7個算法中有2個算法鑒定到就算數(shù)”的蛋白質(zhì)鑒定策略可以被應(yīng)用于任何場合,發(fā)揮這種新策略的優(yōu)勢根本不需要任何額外的實驗,只需要計算機(jī)多計算一會兒,幾乎是零成本的。因此,這項成果將造福所有需要用到蛋白質(zhì)組學(xué)的研究者,輕松實現(xiàn)“又要馬兒跑,又要馬兒不吃草”。
所以今后如果有人再問你“搜庫算法哪家強(qiáng)?”你可以回答“取長補(bǔ)短見真章!”
該項成果2017年10月1日發(fā)表于人類蛋白質(zhì)組計劃的官方刊物Journal of Proteome Research, C-HPP Special Issue. 通訊作者是暨南大學(xué)翻譯組學(xué)實驗室的負(fù)責(zé)人張弓教授,翻譯組學(xué)領(lǐng)域的建立者,其成果被選入國家統(tǒng)編教材。目前,張弓教授是中國生化與分子生物學(xué)學(xué)會蛋白質(zhì)組學(xué)專業(yè)委員會(CNHUPO)理事,中國分子系統(tǒng)生物學(xué)專業(yè)委員會委員,國家優(yōu)秀青年基金獲得者,國家863青年科學(xué)家,國家****“青年拔尖人才”,深圳市龍華區(qū)第一屆政協(xié)常委。
原文標(biāo)題:
Protein-Level Integration Strategy of Multiengine MS Spectra Search Results for Higher Confidence and Sequence Coverage
生物通微信公眾號
知名企業(yè)招聘