《PLOS Computational Biology》:Assessment of dispersion metrics for estimating single-cell transcriptional variability
編輯推薦:
這篇研究性文章(非綜述)通過系統比較Gini指數、方差均值比(VMR/Fano因子)、方差、變異系數(CV、CV2)和香農熵等六種離散度度量指標,評估了它們在量化單細胞RNA測序(scRNA-seq)數據中轉錄變異性(或噪聲)的性能。研究發現,Fano因子在大多數情況下是衡量轉錄變異性最穩健且可解釋性強的指標,能夠識別出與差異表達基因(DEGs)正交的、具有生物學相關性的基因和通路,為理解發育、疾病等復雜生物過程提供了超越均值表達的新見解。
模擬評估單細胞計數變異性的相對敏感性
研究人員首先通過模擬單細胞數據,系統比較了六種常用離散度度量指標對轉錄變異性的量化性能。這些指標包括常用于衡量經濟不平等的Gini指數、衡量偏離泊松分布程度的方差均值比(VMR/Fano因子)、衡量信息不確定性的香農熵、標準化離散度度量變異系數(CV)及其平方(CV2),以及簡單直觀的樣本方差。研究模擬了多種分布,包括泊松分布、負二項分布、Beta-泊松分布、跨欄負二項分布和均勻分布,以涵蓋scRNA-seq數據可能的各種情況。
模擬結果顯示,Fano因子、方差、CV和CV2具有尺度不變性,即不依賴于數據集大小,而香農熵值會隨數據集增大而增加。更重要的是,研究發現Gini指數、CV和CV2會隨抽樣分布離散度的增加而降低,這與一個變異度量指標預期應與數據離散度同向變化的直覺相悖。相比之下,Fano因子和方差隨著分布離散度的增加近似線性增長,且獨立于數據集大小。由于噪聲度量關注的是變異而非均值表達,因此捕捉相對變異性的Fano因子比捕捉絕對變異性的方差更適合量化轉錄變異性。在模擬的過離散(泊松-對數正態)和零膨脹(跨欄負二項)數據場景中,Fano因子也表現穩健。這些模擬結果表明,在所測試的統計指標中,Fano因子是量化轉錄變異性的一個穩健指標。
Gini指數隨模擬scRNA-seq計數變異性增加而降低的悖論行為
研究觀察到了Gini指數在負二項分布等抽樣分布中的“悖論行為”:當分布的理論方差增加時,Gini指數反而降低。這可以從分布形態和Gini指數的經濟學起源來理解。Gini指數源于洛倫茲曲線,衡量的是種群內的相對差異(不均衡),而非分布的絕對展寬。在生物學語境下,這引出了一個根本問題:當一個基因在某些細胞中表達而在其他細胞中不表達(“數字”噪聲),與在所有細胞中表達但水平不同(“模擬”噪聲)時,哪種情況意味著基因“噪聲”更大?研究表明,根據感興趣的特征,不同的統計異質性度量可作為轉錄噪聲的代理。例如,Gini指數可能適用于捕捉具有快速開關動力學特性的基因,但在一般情況下,Fano因子可能是更穩健的轉錄變異性度量。
轉錄變異性與基因特征的關聯
接下來,研究將Fano因子應用于一個公開的scRNA-seq數據集,該數據集分析了母體高血糖癥(matHG)對胚胎小鼠心臟先天性心臟病(CHD)的影響。研究人員量化了心肌細胞在E9.5和E11.5時間點基因特異性的轉錄變異性,并檢驗了轉錄變異性變化與轉錄水平、基因長度、啟動子GC含量和進化基因年齡等基因特征之間的相關性。結果顯示,轉錄變異性的絕對變化與這些基因水平因素之間缺乏顯著相關性,表明通過測量轉錄變異性捕捉到的基因表達方面,與這些特征相對獨立。
轉錄變異性揭示不同于差異基因表達的生物學見解
研究進一步評估了Fano因子在量化轉錄變異性中的應用。通過分析matHG數據集,發現轉錄變異性變化最大的基因與差異表達基因(DEGs)重疊度很低。例如,在E9.5和E11.5時間點,前100個最顯著的DEGs與前100個VMR絕對變化最大的基因重疊率均低于4.2%。
基因集富集分析(GSEA)顯示,基于DEGs和基于轉錄變異性基因集富集的通路截然不同。例如,在E9.5時間點,DEGs富集于與活性氧和糖尿病相關疾病狀態的通路,而轉錄變異性基因集則富集于與增殖和生長相關的信號通路,如Hippo信號通路。轉錄因子(TF)基序富集分析也發現了兩組基因上游調控因子的差異。在轉錄變異性大的基因中富集的基序包括Tead、Fos、Jun和Ctcf等,其中Tead、Fos和Jun是Hippo信號通路調節的Tead-AP1軸的組成部分,該通路在妊娠期糖尿病與CHD的關聯中已有涉及。值得注意的是,Hippo通路中的許多基因并非DEGs,這表明轉錄變異性分析可以捕獲差異表達分析所遺漏的信息。
研究還在其他數據集上驗證了這些發現。在對21三體(T21)小鼠心肌細胞數據集的分析中,同樣觀察到轉錄變異性大的基因揭示了不同于差異表達分析的通路。此外,為了檢驗不同測序平臺間轉錄變異性估計的穩健性,研究將Fano因子應用于一個Drop-seq的鼠神經元數據集,同樣發現利用Fano因子變化進行GSEA和TF基序分析,能夠識別出差異表達分析之外的其他通路和基因。
最后,研究探討了VMR變化反映的潛在表達模式。通過分析三個不同數據集,發現VMR的變化與平均表達水平的變化以及表達該基因的細胞比例的變化呈負相關。然而,具體的模式因基因和平臺而異。有些基因(如Neurod6)表現出表達細胞比例的較大變化,而另一些基因(如Stmn2)則在表達細胞比例變化相對較小的情況下,顯示出UMI計數分布形狀的改變。這表明轉錄變異性作為一個工具,能夠捕捉到由“數字”或“模擬”表達變化驅動的生物學差異。
討論
本研究通過比較六種度量單細胞數據離散度指標的敏感性和行為,為更穩健地量化和研究轉錄變異性提供了依據。總體而言,Fano因子是所測試指標中可靠的單細胞數據離散度度量。研究還通過在兩個測序技術、三個scRNA-seq數據集中的應用證明,量化轉錄變異性可用于識別候選基因和通路,從而拓寬我們對生物過程的理解。這項工作強調了在單細胞數據分析中加入轉錄變異性計算分析的價值,其能夠提供超越差異表達分析所觀察到的生物學見解。未來的工作可以致力于開發原則性的統計檢驗來評估條件或數據集之間VMR的差異,以進一步擴展scRNA-seq數據中噪聲建模的適用性。