【佳學基因測序技術】RNAseq統(tǒng)計程序、軟件數據模板:基因檢測機構培訓教材
RNA差異化表達分析的輸入數據是基于計數的統(tǒng)計方法,共享開源軟件如DESeq2、edgeR、limma、voom、DSS、EBSeq和baySeq采用的數據是RNA seq或其他高通量測序實驗。這些數據需要以整數值矩陣的形式。矩陣行是基因名稱,矩陣的列是樣本名稱,而數值是信號讀取值。類似地,對于其他類型的分析,矩陣行可能對應于例如結合區(qū)(具有芯片序列)、細菌種類(具有宏基因組數據集),或肽序列(使用定量質譜)。
矩陣中的值應為序列讀取/片段計數。這對于保持DESeq2的統(tǒng)計模型很重要,因為只有計數才能正確評估測量精度。先進不要提供針對測序深度/庫大小預先標準化的計數,因為統(tǒng)計模型在應用于未標準化計數時賊為強大,其目的是在內部解釋庫大小差異。
在基因檢測和測序機構學習如何將測序結果匹配到參考基因組,并對RNA測序片段進行計數之前,佳學基因向大家介紹一種先進的轉錄本(基因表達)豐度量化方法,比如Salmon、Sailfish、kallisto、和RSEM等方法??梢栽诓贿M行序列匹配的情況下對轉錄本序列的表達進行計數。然后使用tximport軟件包進行基因組組裝并生成表達計數和偏移矩陣,從而為使用差異基因表達分析準備好數據。
關于如何使用Salmon軟件量化轉錄本豐度的教程可以參閱佳學基因的其他基因檢測基因測序技術文章。佳學基因建議使用--gcBias來估計RNA-seq數據中普遍存在的系統(tǒng)偏差的校正因子。在采用Salmon數據處理之后,可以使用tximport構建DESeqDataSet。這是佳學基因為基因測序學員單位推薦的RNA測序分析流程。
結合轉錄物豐度量化和tximport以產生基因水平計數矩陣和標準化偏移量的優(yōu)點是:該方法校正了樣本間基因長度的任何潛在變化(例如,同一基因的不同轉錄本);與基于對齊的方法相比,其中一些方法速度更快,所需的內存和磁盤使用量更少;而且可以避免丟棄那些可以與多個具有同源序列的基因對齊的片段。請注意,轉錄本豐度量詞跳過存儲讀取比對的大型文件的生成,而生成存儲每個轉錄本的豐度、計數和有效長度的較小文件。
(責任編輯:佳學基因)