【佳學(xué)基因檢測(cè)】如何在基因檢測(cè)后提高基因集富集分析的能力?
腫瘤基因檢測(cè)與靶向藥物選擇導(dǎo)讀:
背景
集合富集方法通常用于分析高維分子數(shù)據(jù)并獲得對(duì)分子或臨床表型的生物學(xué)洞察力。一類(lèi)重要的分析方法采用富集分?jǐn)?shù),它是根據(jù)表型和每個(gè)分子屬性之間的排名單變量相關(guān)性創(chuàng)建的。通過(guò)從表型排列產(chǎn)生的零分布確定關(guān)聯(lián)的重要性的估計(jì)?;驒z測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)研究了這種方法的一些統(tǒng)計(jì)特性,并展示了如何使用富集的替代評(píng)估來(lái)增加此類(lèi)分析的統(tǒng)計(jì)能力,以檢測(cè)表型與生物過(guò)程和途徑之間的關(guān)聯(lián)。
結(jié)果
對(duì)于這類(lèi)集合富集分析,零分布在很大程度上獨(dú)立于具有可用分子數(shù)據(jù)的樣本數(shù)量。因此,如果樣本隊(duì)列不太小,基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)表明通過(guò)將隊(duì)列分成兩半并使用對(duì)每一半評(píng)估的富集分?jǐn)?shù)的平均值作為替代,可以增加識(shí)別生物過(guò)程和表型之間關(guān)聯(lián)的統(tǒng)計(jì)能力檢驗(yàn)統(tǒng)計(jì)量。此外,基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)證明,可以通過(guò)將隊(duì)列的多個(gè)隨機(jī)分成兩半來(lái)平均來(lái)擴(kuò)展這一原則。這使得可以計(jì)算任意精度的富集統(tǒng)計(jì)和相關(guān)的p值,而與使用的確切隨機(jī)拆分無(wú)關(guān)。
結(jié)論
有可能增加基因集富集分析的統(tǒng)計(jì)能力,該分析采用從單變量表型屬性相關(guān)性和表型排列生成空分布的運(yùn)行總和創(chuàng)建的富集分?jǐn)?shù)。這種增加可以通過(guò)使用替代測(cè)試統(tǒng)計(jì)來(lái)實(shí)現(xiàn),該統(tǒng)計(jì)為數(shù)據(jù)集的拆分計(jì)算平均富集分?jǐn)?shù)。除了基因集中上調(diào)和下調(diào)基因之間的密切平衡的特殊情況外,通過(guò)這種方法可以提高或至少保持統(tǒng)計(jì)能力,直至小樣本量,其中正確評(píng)估單變量表型基因相關(guān)性變得不可行。
關(guān)鍵詞: 富集分析,基因集富集分析,統(tǒng)計(jì)功效
背景
集富集分析已成為生物信息學(xué)和生物統(tǒng)計(jì)學(xué)工具包的重要組成部分。此類(lèi)分析可以深入了解不同分子或臨床定義表型的基本生物學(xué)過(guò)程 。假設(shè)有一個(gè)可用的數(shù)據(jù)集,其中測(cè)量了 N 個(gè)實(shí)例(樣本)的 p 個(gè)屬性(例如蛋白質(zhì)豐度、基因表達(dá)),每個(gè)實(shí)例都具有相關(guān)的連續(xù)或分類(lèi)表型。集合富集不是進(jìn)行 p 單變量分析來(lái)評(píng)估 N 個(gè)實(shí)例中每個(gè)單獨(dú)屬性與表型之間的相關(guān)性,而是試圖確定 p 屬性子集中與余。可以選擇包含與感興趣的特定生物過(guò)程或途徑相關(guān)的屬性的屬性子集。
集合富集分析有許多化身,主要區(qū)別在于用于評(píng)估富集的方法及其意義。在 Ackermann 等人中可以找到多種方法的概述和比較。。一類(lèi)集合富集分析方法使用富集分?jǐn)?shù) (ES) 來(lái)捕獲屬性子集與其補(bǔ)集之間的個(gè)體屬性-表型相關(guān)性的差異。一種常用的富集評(píng)分方法,基因集富集分析 (GSEA) ,對(duì)屬性和表型之間的單變量相關(guān)性進(jìn)行排序,并根據(jù)從有序等級(jí)構(gòu)建的運(yùn)行總和的極值定義富集分?jǐn)?shù)。屬性子集(基因集)和由富集分?jǐn)?shù)捕獲的表型之間關(guān)聯(lián)的統(tǒng)計(jì)顯著性是基于通過(guò)排列表型標(biāo)簽生成的 ES 的空分布來(lái)確定的。
諸如 GSEA 之類(lèi)的分析檢測(cè)與特定屬性子集的關(guān)聯(lián)的能力取決于:i.測(cè)量的屬性數(shù)量;ii. 屬性子集中的屬性數(shù)量以及它們之間的相關(guān)性;iii. 可獲得數(shù)據(jù)的樣本數(shù)量;和四。用于評(píng)估單變量屬性-表型相關(guān)性的指標(biāo)。已經(jīng)進(jìn)行了大量研究以更好地了解GSEA的局限性以及上述因素如何影響其敏感性和統(tǒng)計(jì)能力(例如,)。在本文中,基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)探討了 GSEA 方法的統(tǒng)計(jì)能力對(duì)具有可用分子數(shù)據(jù)的隊(duì)列中的樣本數(shù)量的依賴(lài)性?;驒z測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)表明,雖然 ES 的分布隨著 N 的增加而變窄,但表型排列產(chǎn)生的零分布卻沒(méi)有。因此,增加隊(duì)列中的樣本數(shù)量并不會(huì)帶來(lái)與在其他設(shè)置中通常觀察到的 N 相同的統(tǒng)計(jì)功效增加。作為推論,基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)表明,只要隊(duì)列足夠大,將隊(duì)列分成兩個(gè)不同的部分,并使用每個(gè)部分的 ES 平均值作為替代統(tǒng)計(jì)量,比使用定義的傳統(tǒng) ES 提供更大的檢測(cè)關(guān)聯(lián)的能力使用整個(gè)隊(duì)列。這種方法產(chǎn)生一個(gè)富集統(tǒng)計(jì),因此富集p值,這取決于隊(duì)列分成兩部分的具體情況。這種潛在的劣勢(shì)可以通過(guò)隨機(jī)選擇多個(gè)隊(duì)列拆分并對(duì)這些拆分以及特定拆分中的一半的 ES 進(jìn)行平均來(lái)緩解?;驒z測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)表明,這種技術(shù)可以產(chǎn)生所需的精度水平(在富集分?jǐn)?shù)指標(biāo)和p值中),而與群組的拆分方式無(wú)關(guān)。
結(jié)果
乳腺癌患者的 mRNA 表達(dá)數(shù)據(jù)
本節(jié)使用一個(gè)公開(kāi)可用的數(shù)據(jù)集,測(cè)量從乳腺癌患者收集的組織樣本中獲得的 13,018 個(gè)基因的表達(dá)。該隊(duì)列已得到充分研究 ,并且是開(kāi)發(fā)一項(xiàng)測(cè)試的基礎(chǔ),該測(cè)試將患者在乳腺癌手術(shù)后分為良好或不良結(jié)果組 。測(cè)試分類(lèi)(“好”或“差”)可作為數(shù)據(jù)集的一部分使用,并用作二元表型。這些數(shù)據(jù)來(lái)自 Venet 等人提供的補(bǔ)充材料。。使用的屬性子集(這里是基因集)是 Hallmarks 基因集(一組 50 個(gè)基因集) 可從 Broad Institute GSEA 網(wǎng)站獲得(參見(jiàn)方法)。選擇了兩個(gè)特定基因集 HALLMARK_MYC_TARGETS_V1 和 HALLMARK_ALLOGRAFT_REJECTION 作為標(biāo)志基因集中過(guò)程的示例,這些基因集與以 GSEA p值約為 0.05 為特征的乳腺癌隊(duì)列中的表型相關(guān)(對(duì)于 MYC_TARGETS_V1 和p = 0.0684,p = 0.0172 和p = 0.0684)對(duì)于 ALLOGRAFT_REJECTION)。兩個(gè)基因組的標(biāo)準(zhǔn) ES 的零分布顯示在富集分析中使用的不同數(shù)量的樣本 N 中,在圖 3 中以藍(lán)色顯示。 1ab。每個(gè)條帶的寬度反映了在創(chuàng)建的 1000 個(gè)子集實(shí)現(xiàn)中每個(gè)直方圖箱中的零分布的標(biāo)準(zhǔn)誤差(從整個(gè)隊(duì)列中隨機(jī)選擇 N 個(gè)樣本,按表型分層)。很明顯,隨著 N 的增加,零分布基本上保持不變。請(qǐng)注意,這與典型統(tǒng)計(jì)的原型、教科書(shū)案例形成對(duì)比,例如學(xué)生的 t 統(tǒng)計(jì),其中零分布隨著 N 的增加而變窄。樣本數(shù)量在確定 ES 的零分布寬度方面并不起典型作用。其他因素,例如測(cè)量的屬性數(shù)量和基因集中的屬性數(shù)量,對(duì)于確定空分布的形狀更為重要。
圖1:N = 20、40、60、80、100 和 200 的 ES 和 ES avg 的空分布。a HALLMARKS_MYC_TARGETS_V1,b HALLMARKS_ALLOGRAFT_REJECTION。ES 的分布以藍(lán)色顯示,ES avg的分布以紅色顯示
對(duì)于相同的基因組,ES 的采樣分布,對(duì)于從 294 個(gè)樣本的研究隊(duì)列中抽取的 N 個(gè)樣本的子集,隨著 N 的增加而變窄(圖 3 的下圖)。 2B)。對(duì)于賊低 N,分布保留了零分布的雙峰特征的痕跡。隨著 N 的增加,分布變得單峰,然后進(jìn)一步變窄。請(qǐng)注意,由于采樣是在僅 294 個(gè)樣本的總體中執(zhí)行的,因此采樣實(shí)現(xiàn)之間會(huì)有相關(guān)性,尤其是對(duì)于較大的 N。
圖 2:N = 20、40、60、80、100 和 200的ES 和 ES平均抽樣分布。a HALLMARKS_MYC_TARGETS_V1,b HALLMARKS_ALLOGRAFT_REJECTION
結(jié)果如圖所示。 1和???2
2這意味著檢測(cè)特定屬性子集和表型之間關(guān)聯(lián)的能力將隨著 N 增加。然而,它不會(huì)像一些更簡(jiǎn)單的統(tǒng)計(jì)數(shù)據(jù)那樣迅速發(fā)生,因?yàn)楸M管與備擇假設(shè)相關(guān)的分布隨著 N 而變窄,但零假設(shè)沒(méi)有。
基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)現(xiàn)在考慮將測(cè)試統(tǒng)計(jì)量從使用 N 個(gè)樣本計(jì)算的標(biāo)準(zhǔn) ES 更改為兩個(gè) ES1 和 ES2 的平均值的影響,每個(gè) ES 計(jì)算將 N 個(gè)樣本拆分為 N/2 個(gè)樣本的兩個(gè)不同子集,即ES平均值 = 0.5 (ES1 + ES2)。數(shù)字 1ab 比較了 ES avg(紅色)和 ES(藍(lán)色)的零分布,對(duì)于兩個(gè)示例基因組的各種 N 值。(請(qǐng)注意,ES avg的零分布是三峰的,而不是雙峰的。對(duì)于表型分類(lèi)的排列,ES1 和 ES2 同樣可能是正數(shù)或負(fù)數(shù),因此 ES avg接近 0 的可能性不大。) 圖 2ab 對(duì) ES avg(上圖)和 ES(下圖)的采樣分布顯示相同。對(duì)于所有研究的 N,基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)觀察到 ES avg的零分布比 ES 的更窄。這是相對(duì)獨(dú)立于 N 的零分布的結(jié)果:ES 的零分布對(duì)于 N 和 N/2 是相似的。因此,ES1 和 ES2 的零分布(針對(duì) N/2 個(gè)樣本計(jì)算)與 ES 的相似。由于 ES avg是 ES1 和 ES2 的平均值,對(duì)于 N/2 個(gè)樣本,它的零分布將比 ES(類(lèi)似 ES1 和 ES2)窄,因此比 N 個(gè)樣本的 ES 窄。對(duì)于小 N,ES avg的采樣分布可能比 ES 更寬。當(dāng) N 非常小以至于無(wú)法以足夠的正確度評(píng)估表型-個(gè)體基因相關(guān)性以產(chǎn)生單峰 ES平均抽樣分布時(shí),就會(huì)發(fā)生這種情況,即使基因集和表型之間存在真正的群體關(guān)聯(lián)。當(dāng)基因集和表型之間沒(méi)有種群關(guān)聯(lián)時(shí),較大的 N 可能會(huì)發(fā)生這種情況。然而,當(dāng)基因集和表型之間存在真正的群體關(guān)聯(lián)時(shí),對(duì)于較大的 N,ES avg的抽樣分布N 個(gè)樣本的位置和寬度與 ES 相似。在這些情況下,如 MYC_TARGETS_V1 和 ALLOGRAFT_REJECTION 所示,盡管 ES1 和 ES2 的采樣分布比 ES 的更寬,但由于樣本量減半,這可以通過(guò)將 ES1 和 ES2 平均化為新統(tǒng)計(jì),ES avg。
因此,使用 ES avg作為檢驗(yàn)統(tǒng)計(jì)量增加了檢測(cè)表型與特定基因組關(guān)聯(lián)的能力,而不是使用 ES 獲得的關(guān)聯(lián),只要 N 不太小并且存在有意義的群體關(guān)聯(lián)。數(shù)字 3顯示 ES 和 ES avg之間的統(tǒng)計(jì)功效差異作為檢驗(yàn)統(tǒng)計(jì)量,以檢測(cè)兩個(gè)示例基因集和表型之間的關(guān)聯(lián)。結(jié)果顯示為 294 名患者隊(duì)列的子集大小 N 的函數(shù)。即使對(duì)于 40 個(gè)樣本(24 個(gè)“差”和 16 個(gè)“好”表型),使用 ES avg作為統(tǒng)計(jì)數(shù)據(jù)也可以提高檢測(cè)關(guān)聯(lián)的能力。對(duì)于 20 個(gè)樣本,ES avg的功率在數(shù)值上小于ES,盡管這兩種方法都提供了賊小的功率(小于 30%)。受益于 ES avg的確切樣本量超過(guò) ES 停止將取決于關(guān)聯(lián)的大小。對(duì)于非常小的樣本量,除了表型和個(gè)體基因表達(dá)之間非常強(qiáng)的單變量相關(guān)性之外,不可能以任何正確度評(píng)估任何東西。在這種情況下,使用標(biāo)準(zhǔn) ES 測(cè)試統(tǒng)計(jì)量檢測(cè)基因組與表型關(guān)聯(lián)的能力已經(jīng)受到嚴(yán)重影響。如果將數(shù)據(jù)集分成兩半,這種情況會(huì)更加嚴(yán)重。然后,ES avg的功效不會(huì)比 ES 有所提高,但使用任一檢驗(yàn)統(tǒng)計(jì)量的統(tǒng)計(jì)功效都會(huì)很低。
圖 3
檢測(cè)表型與 HALLMARKS_MYC_TARGETS_V1(藍(lán)色)和 HALLMARKS_ALLOGRAFT_REJECTION(紅色)與 α = 0.05 的關(guān)聯(lián)的能力。對(duì)于 ES(虛線(xiàn))和 ES avg(實(shí)線(xiàn)) ,功率顯示為 N 的函數(shù)
使用統(tǒng)計(jì) ES avg的一個(gè)缺點(diǎn)是它不是為一個(gè)群組少有定義的,并且取決于將群組分成兩部分的方式。可以通過(guò)多次(M)次將隊(duì)列隨機(jī)分成兩個(gè)不同的部分并將測(cè)試統(tǒng)計(jì)定義為 M 多次拆分的 ES avg的平均值來(lái)減少這種可變性,即
<
ES
平均
> =
∑
分裂
ES
平均
M
. 可以通過(guò)對(duì) <ES avg >平均的所有拆分應(yīng)用相同的表型標(biāo)簽排列來(lái)生成適當(dāng)?shù)牧惴植?。?shù)字 4顯示了為 MYC_TARGETS_V1 基因組的 294 名患者隊(duì)列中抽取的N = 200的一個(gè)子集生成的零分布 ,該基因集用于沒(méi)有分裂 (ES)、一個(gè)分裂 (ES avg )、兩個(gè)分裂和 25 個(gè)分裂的子集的測(cè)試統(tǒng)計(jì). 隨著平均分裂數(shù)增加到 1 以上,分布失去其多峰結(jié)構(gòu)但保持相同的總寬度。
圖 4
ES 和 <ES avg > 的空分布。<ES avg > 的空分布 顯示為一個(gè)拆分(ES avg = <ES avg >)、兩個(gè)拆分和 25 個(gè)拆分。所有分布均針對(duì)從 294 名患者隊(duì)列中抽取的 200 個(gè)樣本中的一個(gè)子集生成
數(shù)字 5顯示了 ES avg和 < ES avg > 對(duì)于 200 個(gè)樣本的相同單個(gè)子集和 MYC_TARGETS_V1 基因集的 1000 個(gè)隨機(jī)分裂平均值的兩次分裂和 25 次分裂獲得的測(cè)試統(tǒng)計(jì)量的分布。正如考慮到大數(shù)定律所預(yù)期的那樣,分布的位置保持不變,并且分布的寬度隨著測(cè)試統(tǒng)計(jì)量在更多隨機(jī)分割上的平均值而變窄。此過(guò)程允許通過(guò)平均足夠的隨機(jī)拆分來(lái)定義測(cè)試統(tǒng)計(jì)量,從而定義相關(guān)的富集p值,以達(dá)到隊(duì)列的任意精度。
圖 5
1000 個(gè)隨機(jī)分裂平均值的 ES avg和 < ES avg >(兩次分裂和 25 次分裂)分布。所有分布均針對(duì)使用 MYC_TARGETS_V1 基因集的 200 個(gè)樣本的單個(gè)子集
為了說(shuō)明使用 ES avg和 < ES avg > 對(duì) ES 進(jìn)行 25 次分裂作為更廣泛基因集的測(cè)試統(tǒng)計(jì)量的好處,表 1比較了所有 50 個(gè) Hallmarks 基因組的富集p值,這些值是使用 294 名患者使用三個(gè)統(tǒng)計(jì)數(shù)據(jù)計(jì)算得出的。ES avg和 < ES avg >的關(guān)聯(lián)p值幾乎總是小于 ES,在少數(shù)情況并非如此的情況下,這兩種方法都不會(huì)產(chǎn)生表示顯著關(guān)聯(lián)的p值。
表格1
50 個(gè) Hallmarks 基因組的p值。p值是使用 ES、ES avg或 < ES avg >使用 294 個(gè)樣本隊(duì)列計(jì)算的, 其中 25 個(gè)拆分作為檢驗(yàn)統(tǒng)計(jì)量。通過(guò)增加使用 ES avg作為統(tǒng)計(jì)量獲得的p值對(duì)基因集進(jìn)行排序
基因組
|
ES 的p值
|
ES avg的p值
|
<ES avg >的p值
|
MTORC1_SIGNALING
|
< 0.0001
|
< 0.0001
|
< 0.0001
|
E2F_TARGETS
|
< 0.0001
|
< 0.0001
|
< 0.0001
|
UV_RESPONSE_UP
|
0.0132
|
< 0.0001
|
< 0.0001
|
G2M_CHECKPOINT
|
< 0.0001
|
< 0.0001
|
< 0.0001
|
PI3K_AKT_MTOR_SIGNALING
|
0.0040
|
0.0002
|
< 0.0001
|
有絲分裂紡錘體
|
0.0028
|
0.0004
|
< 0.0001
|
UNFOLDED_PROTEIN_RESPONSE
|
0.0006
|
0.0004
|
< 0.0001
|
REACTIVE_OXIGEN_SPECIES_PATHWAY
|
0.0063
|
0.0004
|
0.0002
|
ESTROGEN_RESPONSE_EARLY
|
0.0068
|
0.0006
|
0.0002
|
精子發(fā)生
|
0.0185
|
0.0006
|
0.0002
|
糖酵解
|
0.0216
|
0.0012
|
0.0008
|
MYC_TARGETS_V1
|
0.0172
|
0.0020
|
0.0002
|
UV_RESPONSE_DN
|
0.0156
|
0.0020
|
0.0012
|
MYC_TARGETS_V2
|
0.0320
|
0.0032
|
0.0026
|
DNA_REPAIR
|
0.0263
|
0.0035
|
0.0008
|
INTERFERON_GAMMA_RESPONSE
|
0.0373
|
0.0046
|
0.0038
|
IL6_JAK_STAT3_SIGNALING
|
0.0790
|
0.0074
|
0.0081
|
INTERFERON_ALPHA_RESPONSE
|
0.0638
|
0.0080
|
0.0105
|
補(bǔ)充
|
0.1059
|
0.0157
|
0.0149
|
ESTROGEN_RESPONSE_LATE
|
0.0622
|
0.0188
|
0.0080
|
ALLOGRAFT_REJECTION
|
0.0684
|
0.0194
|
0.0144
|
INFLAMMATORY_RESPONSE
|
0.0963
|
0.0303
|
0.0172
|
CHOLESTEROL_HOMEOSTASIS
|
0.1035
|
0.0449
|
0.0252
|
膽汁酸代謝
|
0.0966
|
0.0472
|
0.0247
|
血管生成
|
0.2591
|
0.0796
|
0.0753
|
WNT_BETA_CATENIN_SIGNALING
|
0.4422
|
0.1160
|
0.1235
|
EPITHELIAL_MESENCHYMAL_TRANSITION
|
0.2984
|
0.1219
|
0.0984
|
凝血
|
0.2516
|
0.1223
|
0.1093
|
IL2_STAT5_SIGNALING
|
0.1685
|
0.1437
|
0.0596
|
生肌
|
0.2767
|
0.1589
|
0.1043
|
TGF_BETA_SIGNALING
|
0.3229
|
0.1593
|
0.1344
|
OXIDATIVE_PHOSPHORYLATION
|
0.3773
|
0.1877
|
0.1604
|
PROTEIN_SECRETION
|
0.3107
|
0.2032
|
0.2028
|
脂肪生成
|
0.4204
|
0.2247
|
0.2581
|
APICAL_SURFACE
|
0.4078
|
0.2477
|
0.0824
|
P53_PATHWAY
|
0.5724
|
0.2489
|
0.2423
|
TNFA_SIGNALING_VIA_NFKB
|
0.3401
|
0.2509
|
0.1545
|
缺氧
|
0.4398
|
0.2712
|
0.2450
|
細(xì)胞凋亡
|
0.5796
|
0.2905
|
0.3886
|
APICAL_JUNCTION
|
0.5175
|
0.2907
|
0.2579
|
NOTCH_SIGNALING
|
0.7451
|
0.3104
|
0.3226
|
FATTY_ACID_METABOLISM
|
0.5358
|
0.3134
|
0.3853
|
PANCREAS_BETA_CELLS
|
0.6834
|
0.3201
|
0.1500
|
XENOBIOTIC_METABOLISM
|
0.4921
|
0.3541
|
0.4946
|
HEME_METABOLISM
|
0.7713
|
0.4576
|
0.4731
|
KRAS_SIGNALING_UP
|
0.6241
|
0.7068
|
0.4892
|
ANDROGEN_RESPONSE
|
0.8082
|
0.7539
|
0.5841
|
HEDGEHOG_SIGNALING
|
0.7870
|
0.7810
|
0.5163
|
過(guò)氧化物酶體
|
0.3931
|
0.8977
|
0.3682
|
KRAS_SIGNALING_DN
|
0.9700
|
0.9193
|
0.7337
|
合成數(shù)據(jù)集
為了進(jìn)一步研究該方法對(duì)具有不同表型關(guān)聯(lián)程度和不同屬性相關(guān)程度的屬性子集的性能,基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)使用合成數(shù)據(jù)進(jìn)行了一組實(shí)驗(yàn)?;驒z測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)的方法類(lèi)似于 Ackermann 和 Strimmer 的基準(zhǔn)測(cè)試方法。基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)為 50 個(gè)樣本(每個(gè)表型 25 個(gè))模擬了 600 個(gè)基因的數(shù)據(jù)集,并定義了 21 個(gè)基因組,它們具有不同程度的基因間相關(guān)性和表型之間的差異表達(dá)。方法中提供了完整的詳細(xì)信息。為了評(píng)估不同測(cè)試統(tǒng)計(jì)數(shù)據(jù)識(shí)別表型與基因組關(guān)聯(lián)的能力,基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)評(píng)估了 100 個(gè)數(shù)據(jù)集實(shí)現(xiàn)中檢測(cè)到與p關(guān)聯(lián)的比例 < 0.05 使用 ES、ES avg和 < ES avg > 進(jìn)行 25 次拆分。結(jié)果如表所示 2.
表 2
ES、ES avg和 < ES avg > 的 25 次拆分p < 0.05 的實(shí)現(xiàn)比例。使用 3 個(gè)測(cè)試統(tǒng)計(jì)量 ES、ES avg和 < ES avg >計(jì)算 21 個(gè)基因組中每個(gè)基因組的 100 次數(shù)據(jù)集實(shí)現(xiàn)的比例 ,M = 25。a表示與表型無(wú)關(guān)的對(duì)照基因組
基因組 |
p < 0.05的比例 |
||
ES
|
ES平均
|
<ES平均>
|
|
一個(gè)_
|
0.06
|
0.08
|
0.05
|
b
|
1.00
|
1.00
|
1.00
|
C
|
0.82
|
0.81
|
0.92
|
d
|
0.09
|
0.09
|
0.14
|
e
|
0.38
|
0.39
|
0.46
|
F
|
0.06
|
0.13
|
0.10
|
G
|
0.01
|
0.00
|
0.01
|
H
|
0.29
|
0.19
|
0.19
|
一世
|
0.10
|
0.16
|
0.07
|
一個(gè)_
|
0.07
|
0.07
|
0.07
|
?
|
0.92
|
0.93
|
0.98
|
l
|
0.81
|
0.88
|
0.91
|
M
|
0.92
|
0.94
|
0.98
|
n
|
0.34
|
0.35
|
0.43
|
○
|
0.73
|
0.76
|
0.84
|
p
|
0.42
|
0.56
|
0.64
|
q
|
0.77
|
0.84
|
0.90
|
r
|
0.22
|
0.26
|
0.22
|
s
|
0.75
|
0.77
|
0.90
|
噸
|
0.36
|
0.38
|
0.44
|
你
|
0.25
|
0.28
|
0.37
|
除了兩個(gè)控制組(a 和 j)之外,所有基因組的構(gòu)建都具有基因組中至少一些屬性與表型之間的關(guān)聯(lián)。該關(guān)聯(lián)被選擇為從中等到弱。這允許檢測(cè)統(tǒng)計(jì)能力的差異,以識(shí)別基因集和表型之間的關(guān)聯(lián);如果關(guān)聯(lián)很強(qiáng)(例如,大于基因組 b),它們將在所有方法的幾乎所有實(shí)現(xiàn)中統(tǒng)一檢測(cè)到。對(duì)于兩個(gè)對(duì)照基因組,表型和基因組之間沒(méi)有關(guān)聯(lián),p值在實(shí)現(xiàn)上的分布是均勻的(參見(jiàn)附錄中的直方圖),實(shí)現(xiàn)的比例產(chǎn)生p對(duì)于基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)的方法,低于 0.05 的關(guān)聯(lián)值保持在 5% 左右。對(duì)于大多數(shù)其他基因組,識(shí)別與p < 0.05 關(guān)聯(lián)的實(shí)現(xiàn)比例對(duì)于 <ES avg > (M = 25) 更高,并且通常對(duì)于 ES avg,而不是 ES。這表明在各種屬性子集場(chǎng)景中識(shí)別構(gòu)建關(guān)聯(lián)的能力增加,包括表型和基因之間不同程度的單變量關(guān)聯(lián)、表型之間上調(diào)和下調(diào)基因的混合以及基因組內(nèi)相關(guān)結(jié)構(gòu)的差異。除了控制之外,還有其他兩種情況沒(méi)有觀察到增加的功率。先進(jìn)個(gè)包括關(guān)聯(lián)非常弱的那些基因集(基因集 d、f 和 g)。所有三個(gè)測(cè)試統(tǒng)計(jì)數(shù)據(jù)在識(shí)別表型和基因組之間構(gòu)建的非常弱的關(guān)聯(lián)方面都具有同樣差的能力。第二種情況包括基因組(基因組 h 和 i)內(nèi)上調(diào)和下調(diào)屬性之間平衡的特殊情況。基因組 h 和 i 由相同數(shù)量的表型上調(diào)和下調(diào)屬性構(gòu)成,它們與表型的單變量相關(guān)強(qiáng)度有效相同。在這個(gè)非常特殊的設(shè)置中,對(duì)于數(shù)據(jù)集的任何特定實(shí)現(xiàn),計(jì)算正 ES 或負(fù) ES 的可能性相同。對(duì)于基因組 h,在大約 30% 的病例中發(fā)現(xiàn)p < 0.05,但其中大約一半對(duì)應(yīng)于陽(yáng)性 ES,另一半對(duì)應(yīng)于陰性 ES。當(dāng)數(shù)據(jù)集分成兩部分來(lái)計(jì)算 ES avg和 < ES avg > 時(shí),由于與表型的上下關(guān)聯(lián)之間的正確平衡,每一半都可能產(chǎn)生正或負(fù) ES。對(duì)這種雙峰分布進(jìn)行平均產(chǎn)生以 ES avg = 0 或 < ES avg > =0 為中心的分布,因此降低了識(shí)別表型和基因集之間顯著關(guān)聯(lián)的能力。因此,在這種與表型上下關(guān)聯(lián)的特征范圍和數(shù)量之間取得平衡的特殊設(shè)置中,ES avg的表現(xiàn)和 <ES avg > 測(cè)試統(tǒng)計(jì)不如 ES。然而,只要不接近正確匹配的上調(diào)和下調(diào)場(chǎng)景,ES avg和 < ES avg > 至少顯示出與 ES 相似的功率(參見(jiàn)基因集 r,有 13 個(gè)基因,Δμ = 0.5和 7 個(gè)具有 Δμ = - 0.5) 或更大功率(基因組 l、p 和 q,每個(gè)具有 15 個(gè) Δμ = 0.5 的基因和 5 個(gè)具有 Δμ = - 0.5 的基因)。在現(xiàn)實(shí)世界的環(huán)境中,表型之間差異基因表達(dá)的相反方向的數(shù)量和幅度非常接近平衡不太可能在基因集中發(fā)生。因此,合成數(shù)據(jù)的分析表明使用 ES avg或 < ES avg > 只要樣本集的大小和關(guān)聯(lián)強(qiáng)度足夠大,可以通過(guò)標(biāo)準(zhǔn) ES 方法為識(shí)別提供一些賊小的能力,就可能增加檢測(cè)與基因集所代表的生物過(guò)程關(guān)聯(lián)的能力。
討論和結(jié)論
富集分?jǐn)?shù)的零分布,如 GSEA 設(shè)置富集分析方法中所定義的,在很大程度上獨(dú)立于分析中使用的樣本數(shù)量。因此,增加樣本隊(duì)列大小 N 只能通過(guò)縮小 ES 的抽樣分布來(lái)提高檢測(cè)基因集和表型之間關(guān)聯(lián)的能力。將隊(duì)列分成兩個(gè)不同的相等部分,計(jì)算每個(gè)部分的 ES,并對(duì)它們進(jìn)行平均以創(chuàng)建新的測(cè)試統(tǒng)計(jì)量 ES avg,可以產(chǎn)生明顯更窄的空分布和類(lèi)似的 ES 抽樣分布。這種方法導(dǎo)致增加的統(tǒng)計(jì)能力來(lái)檢測(cè)表型和屬性子集之間的顯著關(guān)聯(lián)。在大多數(shù)情況并非如此的情況下,ES 和 ES avg由于測(cè)試統(tǒng)計(jì)導(dǎo)致表型和基因集的顯著關(guān)聯(lián)的識(shí)別,因?yàn)椴淮嬖陉P(guān)聯(lián),屬性子集與表型的關(guān)聯(lián)不夠強(qiáng),無(wú)法檢測(cè),或者 N 太小而無(wú)法對(duì)單個(gè)基因和表型之間的相關(guān)性進(jìn)行有意義的評(píng)估。在表型之間上調(diào)和下調(diào)屬性的數(shù)量和幅度之間密切匹配的特殊情況下,即使對(duì)于賊大的樣本量,ES 統(tǒng)計(jì)量的抽樣分布也具有雙峰的不尋常特性。使用 ES平均因?yàn)闄z驗(yàn)統(tǒng)計(jì)量會(huì)降低識(shí)別關(guān)聯(lián)的能力。然而,這種情況不太可能發(fā)生在綜合生成的數(shù)據(jù)集之外,并且可以通過(guò)檢查計(jì)算 ES 的運(yùn)行總和來(lái)識(shí)別這種情況。(即使與這些 ES 值相關(guān)的p值很小,也會(huì)觀察到運(yùn)行總和與零的賊大和賊小偏差的相似幅度。)測(cè)試統(tǒng)計(jì)量和富集p值對(duì)隊(duì)列方式的不可接受的依賴(lài)性通過(guò)使用平均過(guò)程的擴(kuò)展以在測(cè)試統(tǒng)計(jì) <ES avg >中包含隊(duì)列的多個(gè)隨機(jī)拆分,可以避免拆分以產(chǎn)生 ES avg 。
這種方法的應(yīng)用可以在統(tǒng)計(jì)能力方面帶來(lái)明顯的優(yōu)勢(shì),可用于識(shí)別生物過(guò)程或途徑與樣本/患者表型之間的關(guān)聯(lián),但賊小樣本群組除外,其中標(biāo)準(zhǔn)方法的能力也非常有限。這可能有助于緩解文獻(xiàn) 中指出的這類(lèi) ES 的功率相對(duì)降低的問(wèn)題。增加的權(quán)力將能夠高效地識(shí)別較弱的關(guān)聯(lián),并增加識(shí)別可能在p方面具有臨界意義的確定性-值和錯(cuò)誤發(fā)現(xiàn)率與標(biāo)準(zhǔn)統(tǒng)計(jì)。該方法已使用二元表型分類(lèi)和表型-個(gè)體基因相關(guān)度量的一種選擇進(jìn)行了說(shuō)明,但它應(yīng)該適用于使用其他相關(guān)度量或連續(xù)表型評(píng)分的富集分析。使用 ES avg或 < ES avg的好處 > 超過(guò) ES 取決于 ES 的零分布對(duì)樣本數(shù) N 的相對(duì)獨(dú)立性。這種現(xiàn)象是通過(guò)運(yùn)行總和的極值評(píng)估富集方式的結(jié)果(由排名和組合屬性-表型相關(guān)性)和通過(guò)表型排列生成零分布。用于生成空分布的每個(gè)表型排列導(dǎo)致屬性-表型相關(guān)性的值和等級(jí)的隨機(jī)化。因此,評(píng)估屬性和表型之間相關(guān)性的方式并不重要,基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)的方法應(yīng)該直接適用于采用其他相關(guān)性度量的 GSEA(例如,用于連續(xù)屬性的 Spearman/Pearson r)。
在這里,基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)只探索了將樣本集分成兩個(gè)不同的相等部分。該方法可以擴(kuò)展為將數(shù)據(jù)集拆分為兩個(gè)以上的部分進(jìn)行平均,這將通過(guò)進(jìn)一步縮小相關(guān)的空分布來(lái)提高性能。然而,拆分成更多不同子集的好處需要更大的隊(duì)列規(guī)模。跨不同子集平均 ES 的概念也可能有助于組合來(lái)自具有相同可用屬性的多個(gè)樣本群組的數(shù)據(jù)。如果批次效應(yīng)阻止將多個(gè)樣本集合并到一個(gè)隊(duì)列中,這可能特別有用。使用歸一化的 ES 還將允許使用相同的方法來(lái)組合來(lái)自不同隊(duì)列的患者的數(shù)據(jù),每個(gè)隊(duì)列具有不同的可用屬性,例如,甚至可以組合基因組和蛋白質(zhì)組學(xué)面板數(shù)據(jù),前提是可以將一致的表型分配給多個(gè)隊(duì)列。如果使用患者定義的表型類(lèi)別標(biāo)簽的排列生成空分布,則還可以使用對(duì)每個(gè)數(shù)據(jù)源計(jì)算的 ES 進(jìn)行平均來(lái)擴(kuò)展到單個(gè)患者隊(duì)列的多個(gè)數(shù)據(jù)源的情況。
方法
數(shù)據(jù)集和基因集:mRNA 表達(dá)
本部分研究中使用的數(shù)據(jù)集可從 訪問(wèn),包括從接受乳腺癌手術(shù)的患者收集的組織樣本中采集的 13,018 個(gè)基因的 mRNA 表達(dá)測(cè)量值。這個(gè)由 295 名患者組成的隊(duì)列是開(kāi)發(fā)將患者分為“好”和“差”結(jié)果組的測(cè)試的基礎(chǔ) 。每個(gè)患者的測(cè)試分類(lèi)都包含在數(shù)據(jù)集中,并且這個(gè)二元結(jié)果被用作尋求與生物過(guò)程關(guān)聯(lián)的表型?;虮磉_(dá)值用于 無(wú)需進(jìn)一步處理或標(biāo)準(zhǔn)化。在整個(gè)研究過(guò)程中,基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)使用了 295 名患者中的 294 名的數(shù)據(jù)(未使用來(lái)自樣本 NKI373 的數(shù)據(jù)),以便將隊(duì)列分成兩個(gè)不同的、大小相等的亞組。
此處使用的屬性集(在本例中為基因集)是可從 Broad Institute GSEA 網(wǎng)站 ( http://software.broadinstitute.org/gsea/msigdb/collections/jsp#H ) 獲得的 Hallmarks 基因集 。它們是精心策劃的基因集集合,代表了明確定義的生物狀態(tài)和過(guò)程。集合中包括五十個(gè)基因組。對(duì)于大多數(shù)分析,基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)從 Hallmarks 集中選擇了兩個(gè)特定的基因集,MYC_TARGETS_V1 和 ALLOGRAFT_REJECTION 作為示例。測(cè)試分類(lèi)表型顯示出與這些基因組的明確但不是極端的關(guān)聯(lián),因此,它們被認(rèn)為是特別說(shuō)明性的例子。磷還使用 ES、ES avg和 < ES avg >(25 次分割)作為測(cè)試統(tǒng)計(jì)數(shù)據(jù),使用來(lái)自所有 294 個(gè)樣本的數(shù)據(jù)計(jì)算了 Hallmarks 集合中所有 50 個(gè)基因組的富集值。
數(shù)據(jù)集和基因集:合成數(shù)據(jù)
為了以更可控的方式研究方法的性能對(duì)屬性子集中屬性之間的關(guān)聯(lián)程度和相關(guān)程度的依賴(lài)性,基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)使用合成數(shù)據(jù)集和屬性子集進(jìn)行了一組分析,遵循 Ackermann 的基準(zhǔn)測(cè)試方法和斯特里默 。
600 個(gè)屬性(基因)的表達(dá)值的合成數(shù)據(jù)集是通過(guò)從具有單位方差的多元正態(tài)分布中繪制的,其中包含 25 個(gè)具有表型 A 的樣本和 25 個(gè)具有表型 B 的樣本。對(duì)于屬性i,基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)定義了平均屬性值之間的差異A 和 B 為 Δμ i。屬性i和屬性j之間的相關(guān)性定義為 ρ ij。為 50 個(gè)樣本選擇了 600 個(gè)屬性,如下所示:
- 一世。420,Δμ = 0 和 ρ = 0,
- ii. 20,Δμ = 0.5 和 ρ = 0,
- iii. 20,Δμ = 0.25 和 ρ = 0,
- iv. 20,Δμ = 0.1 和 ρ = 0,
- v. 20,Δμ = 0.5 和 ρ = 0.6,
- 六。20,Δμ = 0.25 和 ρ = 0.6,
- 七。20,Δμ = 0.1 和 ρ = 0.6,
- 八。10 與 Δμ = + 0.5 和 10 與 Δμ = - 0.5,在 10 的每個(gè)子組內(nèi) ρ = 0.6,在子組之間 ρ = - 0.6,
- 九。10,Δμ = + 0.5 和 10,Δμ = - 0.5,ρ = 0,
- X。20,Δμ = 0 和 ρ = 0.6。
通過(guò)采用以下屬性組創(chuàng)建了 21 個(gè)具有不同程度的表型關(guān)聯(lián)和不同相互關(guān)聯(lián)的基因組:
- 20 來(lái)自 (i)
- (ii) 中的 20
- 20 來(lái)自 (iii)
- 20 來(lái)自 (iv)
- 20 來(lái)自 (v)
- 20(六)
- 20(七)
- (八) 20
- 20 來(lái)自 (ix)
- 20 來(lái)自 (x)
- (ii) 中的 10 和 (v) 中的 10
- (ii) 中的 10,(viii) 中的 5 + 5 (5 Δμ = 0.5 和 5 Δμ = - 0.5)
- (ii)、(iii) 和 (iv) 中的 20
- (v)、(vi) 和 (vii) 中的 20
- 20 從 (ii)-(vii)
- (ix) 中的 10 個(gè),Δμ = + 0.5,(viii) 中的 5 個(gè),Δμ = - 0.5,和 (viii) 中的 5 個(gè),Δμ = + 0.5 和 ρ = 0.6
- (ii) 中的 10,(viii) 中的 5 + 5 (5 Δμ = 0.5 和 5 Δμ = - 0.5)
- 來(lái)自 (ii) 的 3,來(lái)自 (ix) 的 10 Δμ = 0.5 和來(lái)自 (ix) 的 7,Δμ = - 0.5
- (i) 中的 10 和 (ii) 中的 10
- (i) 中的 10 和 (v) 中的 10
- (i) 中的 8 個(gè)和 (ii)-(x) 中的 12 個(gè)
基因集富集分析實(shí)現(xiàn)
使用的富集集分析方法密切遵循 Subramanian 等人的方法。?;诘燃?jí)的相關(guān)性,以 Mann-Whitney 檢驗(yàn)統(tǒng)計(jì)量的形式,范圍從 1 到 - 1,用于表征單個(gè)屬性的表達(dá)與二元表型之間的關(guān)聯(lián)。對(duì)于標(biāo)準(zhǔn)基因集富集分析,使用的富集分?jǐn)?shù) ES 與 Subramanian 等人的定義有效相同。p = 1。用于評(píng)估富集統(tǒng)計(jì)顯著性的空分布是通過(guò)表型分類(lèi)的重復(fù)隨機(jī)改組(排列)獲得的。
使用 ES avg的替代富集評(píng)估方法實(shí)施如下。大小為 N 的隊(duì)列被分成兩個(gè)相等且不同的子組,S 1和 S 2,每個(gè)子組的大小為 N/2。對(duì)于每個(gè)亞組,如上文所述計(jì)算富集分?jǐn)?shù),以分別產(chǎn)生 S 1、S 2的 ES1、ES2 。替代統(tǒng)計(jì) ES avg被定義為兩個(gè)亞組富集分?jǐn)?shù)的平均值,即 ES avg = 0.5(ES1 + ES2)。通過(guò)表型分類(lèi)的排列再次計(jì)算空分布。表型分類(lèi)被打亂,然后數(shù)據(jù)集被分成兩半,S 1和 S 2. ES1 和 ES2 分別在 S 1和 S 2內(nèi)計(jì)算并取平均值,得到 ES avg用于置換實(shí)現(xiàn)。
使用測(cè)試統(tǒng)計(jì)量<ES avg > = 0.5 Σ i (ES1 i + ES2 i )/M使用多個(gè)拆分的平均值評(píng)估富集,其中總和超過(guò)拆分?jǐn)?shù) M,將 N 個(gè)樣本分成兩個(gè)隨機(jī)子集 S 1i和 S 2i,分別具有富集分?jǐn)?shù) ES1 i和 ES2 i。為了生成空分布,表型分類(lèi)被打亂,然后數(shù)據(jù)集被隨機(jī)分成兩半 M 次。<ES avg > 然后為置換實(shí)現(xiàn)計(jì)算。對(duì)于生成零分布所需的置換實(shí)現(xiàn)的數(shù)量重復(fù)此操作。
ES 和 ES avg的空分布
對(duì)于基因集 MYC_TARGETS_V1 和 ALLOGRAFT_REJECTION 的大小為 20、40、60、80、100 和 200 的群組的子集,生成標(biāo)準(zhǔn)富集分?jǐn)?shù) ES 和替代統(tǒng)計(jì)量 ES avg的空分布。在每種情況下,隨機(jī)選擇一個(gè)子集,按表型分類(lèi)分層。在每種情況下,表型分類(lèi)隨機(jī)排列 10,000 次。
ES 和 ES avg的抽樣分布
對(duì)于N = 20、40、60、80、100 和 200 的基因集 MYC_TARGETS_V1 和 ALLOGRAFT_REJECTION,為 ES 和 ES avg生成了從 294 個(gè)樣本的群體隊(duì)列中抽取的大小為 N 的子集的抽樣分布 。選擇了一千個(gè)子集每個(gè)子集大小隨機(jī),按表型分類(lèi)分層。
檢測(cè) ES 和 ES avg之間關(guān)聯(lián)的能力比較
檢測(cè)表型與基因組 MYC_TARGETS_V1 和 ALLOGRAFT_REJECTION 關(guān)聯(lián)的能力計(jì)算如下。首先如上所述計(jì)算不同子集大小的 ES 和 ES avg的零分布。ES 和 ES avg如上所述計(jì)算,每個(gè)子集大小的 1000 次實(shí)現(xiàn),用于估計(jì)采樣分布。對(duì)于每個(gè)子集大小的每個(gè)實(shí)現(xiàn),將 ES 和 ES avg與其各自的零分布進(jìn)行比較,以確定是否觀察到與p < 0.05 的關(guān)聯(lián)。檢測(cè)這種與 α = 0.05 的關(guān)聯(lián)的能力被定義為p < 0.05 的實(shí)現(xiàn)比例。
不同分割數(shù)的富集分?jǐn)?shù)統(tǒng)計(jì)的空分布,M
估計(jì)了 ES(無(wú)拆分)、ES平均(1 次拆分)和 <ES平均 > 的零分布,其中 2 次和 25 次拆分來(lái)自 294 名患者隊(duì)列中的 200 個(gè)樣本的一個(gè)子集。如上所述,從表型分類(lèi)的 10,000 個(gè)排列中生成每個(gè)空分布。
<ES avg > 在隊(duì)列的不同拆分上的分布,對(duì)于不同數(shù)量的拆分,M
使用 1000 個(gè)實(shí)現(xiàn)估計(jì)從研究隊(duì)列中抽取的 200 個(gè)樣本的單個(gè)子集的不同隨機(jī)拆分的 ES(無(wú)拆分)、ES avg(1 拆分)和 <ES avg > 的分布,其中 2 和 25 拆分每個(gè)統(tǒng)計(jì)數(shù)據(jù)所需的拆分集。
所有 50 個(gè) Hallmark 基因組與隊(duì)列表型分類(lèi)的關(guān)聯(lián)
對(duì)于 50 個(gè) Hallmark 基因組中的每一個(gè),GSEA 分別使用 ES、ES avg和 < ES avg > 在 294 個(gè)樣本的整個(gè)隊(duì)列中進(jìn)行 M = 25 次分割。通過(guò) 10,000 個(gè)表型分類(lèi)排列估計(jì)每個(gè)基因集的無(wú)效分布。
綜合數(shù)據(jù)分析
對(duì)于 21 個(gè)基因組中的每一個(gè),使用 ES、ES avg和 < ES avg >分別執(zhí)行 GSEA, 其中 M = 25 次拆分,用于 100 次合成數(shù)據(jù)集的實(shí)現(xiàn)。通過(guò) 10,000 個(gè)表型分類(lèi)排列估計(jì)空分布。通過(guò)計(jì)算富集p值低于 0.05的實(shí)現(xiàn)比例來(lái)估計(jì)分析檢測(cè) α = 0.05(顯著性水平為 95%)的基因集和表型之間關(guān)聯(lián)的能力。為了檢查兩個(gè)對(duì)照基因組(a 和 j)的p值分布,對(duì)統(tǒng)計(jì)數(shù)據(jù) ES、ES avg和 < ES avg >執(zhí)行 GSEA, 其中 M = 25 用于數(shù)據(jù)集的 1000 次實(shí)現(xiàn)。
軟件
實(shí)施本研究中介紹的方法的軟件可在https://bitbucket.org/PSEABiodesix/pseabiodesix的 PSEABiodesix 存儲(chǔ)庫(kù)中獲得。
致謝
不適用。
資金
不適用。
數(shù)據(jù)和材料的可用性
支持本文結(jié)論的數(shù)據(jù)集可在與 Venet 等人相關(guān)的補(bǔ)充材料中找到。 在 10.1371/journal.pcbi.1002240.s001。
實(shí)施本研究中介紹的方法的軟件可在https://bitbucket.org/PSEABiodesix/pseabiodesix的 PSEABiodesix 存儲(chǔ)庫(kù)中獲得。軟件要求包括:
- 操作系統(tǒng) - Windows(使用 Windows 7 Professional 開(kāi)發(fā)/測(cè)試)
- 編程語(yǔ)言 - C#。Net(需要.Net Framework 4.5.2 版)
- 其他要求 – IMSL 6.5.0 的 Roguewave IMSL C# 許可證
- 許可證 – 新(3 條款)BSD 許可證
縮寫(xiě)
ES
|
濃縮分?jǐn)?shù)
|
GSEA
|
基因集富集分析
|
附錄
對(duì)于通過(guò)構(gòu)建與表型沒(méi)有關(guān)聯(lián)的對(duì)照合成基因組,使用數(shù)據(jù)集的 1000 個(gè)實(shí)現(xiàn)的所有三個(gè)富集統(tǒng)計(jì)數(shù)據(jù)進(jìn)行 GSEA,以檢查實(shí)現(xiàn)中p值的分布(圖 2)。 6)。
圖 6
用于控制基因集的 ES、ES avg和 < ES avg > 的數(shù)據(jù)集實(shí)現(xiàn)上的p值分布。a基因組 a, b基因組 j
Improving the power of gene set enrichment analyses.
Roder J, Linstid B, Oliveira C.
BMC Bioinformatics. 2019 May 17;20(1):257. doi: 10.1186/s12859-019-2850-1.
(責(zé)任編輯:佳學(xué)基因)