【佳學(xué)基因檢測(cè)】如何在基因檢測(cè)后提高基因集富集分析的能力？

腫瘤基因檢測(cè)與靶向藥物選擇導(dǎo)讀：

背景

集合富集方法通常用于分析高維分子數(shù)據(jù)并獲得對(duì)分子或臨床表型的生物學(xué)洞察力。一類(lèi)重要的分析方法采用富集分?jǐn)?shù)，它是根據(jù)表型和每個(gè)分子屬性之間的排名單變量相關(guān)性創(chuàng)建的。通過(guò)從表型排列產(chǎn)生的零分布確定關(guān)聯(lián)的重要性的估計(jì)?；驒z測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)研究了這種方法的一些統(tǒng)計(jì)特性，并展示了如何使用富集的替代評(píng)估來(lái)增加此類(lèi)分析的統(tǒng)計(jì)能力，以檢測(cè)表型與生物過(guò)程和途徑之間的關(guān)聯(lián)。

結(jié)果

對(duì)于這類(lèi)集合富集分析，零分布在很大程度上獨(dú)立于具有可用分子數(shù)據(jù)的樣本數(shù)量。因此，如果樣本隊(duì)列不太小，基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)表明通過(guò)將隊(duì)列分成兩半并使用對(duì)每一半評(píng)估的富集分?jǐn)?shù)的平均值作為替代，可以增加識(shí)別生物過(guò)程和表型之間關(guān)聯(lián)的統(tǒng)計(jì)能力檢驗(yàn)統(tǒng)計(jì)量。此外，基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)證明，可以通過(guò)將隊(duì)列的多個(gè)隨機(jī)分成兩半來(lái)平均來(lái)擴(kuò)展這一原則。這使得可以計(jì)算任意精度的富集統(tǒng)計(jì)和相關(guān)的p值，而與使用的確切隨機(jī)拆分無(wú)關(guān)。

結(jié)論

有可能增加基因集富集分析的統(tǒng)計(jì)能力，該分析采用從單變量表型屬性相關(guān)性和表型排列生成空分布的運(yùn)行總和創(chuàng)建的富集分?jǐn)?shù)。這種增加可以通過(guò)使用替代測(cè)試統(tǒng)計(jì)來(lái)實(shí)現(xiàn)，該統(tǒng)計(jì)為數(shù)據(jù)集的拆分計(jì)算平均富集分?jǐn)?shù)。除了基因集中上調(diào)和下調(diào)基因之間的密切平衡的特殊情況外，通過(guò)這種方法可以提高或至少保持統(tǒng)計(jì)能力，直至小樣本量，其中正確評(píng)估單變量表型基因相關(guān)性變得不可行。

關(guān)鍵詞：富集分析，基因集富集分析，統(tǒng)計(jì)功效

背景

集富集分析已成為生物信息學(xué)和生物統(tǒng)計(jì)學(xué)工具包的重要組成部分。此類(lèi)分析可以深入了解不同分子或臨床定義表型的基本生物學(xué)過(guò)程。假設(shè)有一個(gè)可用的數(shù)據(jù)集，其中測(cè)量了 N 個(gè)實(shí)例（樣本）的 p 個(gè)屬性（例如蛋白質(zhì)豐度、基因表達(dá)），每個(gè)實(shí)例都具有相關(guān)的連續(xù)或分類(lèi)表型。集合富集不是進(jìn)行 p 單變量分析來(lái)評(píng)估 N 個(gè)實(shí)例中每個(gè)單獨(dú)屬性與表型之間的相關(guān)性，而是試圖確定 p 屬性子集中與余。可以選擇包含與感興趣的特定生物過(guò)程或途徑相關(guān)的屬性的屬性子集。

集合富集分析有許多化身，主要區(qū)別在于用于評(píng)估富集的方法及其意義。在 Ackermann 等人中可以找到多種方法的概述和比較。。一類(lèi)集合富集分析方法使用富集分?jǐn)?shù) (ES) 來(lái)捕獲屬性子集與其補(bǔ)集之間的個(gè)體屬性-表型相關(guān)性的差異。一種常用的富集評(píng)分方法，基因集富集分析 (GSEA) ，對(duì)屬性和表型之間的單變量相關(guān)性進(jìn)行排序，并根據(jù)從有序等級(jí)構(gòu)建的運(yùn)行總和的極值定義富集分?jǐn)?shù)。屬性子集（基因集）和由富集分?jǐn)?shù)捕獲的表型之間關(guān)聯(lián)的統(tǒng)計(jì)顯著性是基于通過(guò)排列表型標(biāo)簽生成的 ES 的空分布來(lái)確定的。

諸如 GSEA 之類(lèi)的分析檢測(cè)與特定屬性子集的關(guān)聯(lián)的能力取決于：i．測(cè)量的屬性數(shù)量；ii. 屬性子集中的屬性數(shù)量以及它們之間的相關(guān)性；iii. 可獲得數(shù)據(jù)的樣本數(shù)量；和四。用于評(píng)估單變量屬性-表型相關(guān)性的指標(biāo)。已經(jīng)進(jìn)行了大量研究以更好地了解GSEA的局限性以及上述因素如何影響其敏感性和統(tǒng)計(jì)能力（例如，）。在本文中，基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)探討了 GSEA 方法的統(tǒng)計(jì)能力對(duì)具有可用分子數(shù)據(jù)的隊(duì)列中的樣本數(shù)量的依賴(lài)性?；驒z測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)表明，雖然 ES 的分布隨著 N 的增加而變窄，但表型排列產(chǎn)生的零分布卻沒(méi)有。因此，增加隊(duì)列中的樣本數(shù)量并不會(huì)帶來(lái)與在其他設(shè)置中通常觀察到的 N 相同的統(tǒng)計(jì)功效增加。作為推論，基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)表明，只要隊(duì)列足夠大，將隊(duì)列分成兩個(gè)不同的部分，并使用每個(gè)部分的 ES 平均值作為替代統(tǒng)計(jì)量，比使用定義的傳統(tǒng) ES 提供更大的檢測(cè)關(guān)聯(lián)的能力使用整個(gè)隊(duì)列。這種方法產(chǎn)生一個(gè)富集統(tǒng)計(jì)，因此富集p值，這取決于隊(duì)列分成兩部分的具體情況。這種潛在的劣勢(shì)可以通過(guò)隨機(jī)選擇多個(gè)隊(duì)列拆分并對(duì)這些拆分以及特定拆分中的一半的 ES 進(jìn)行平均來(lái)緩解?；驒z測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)表明，這種技術(shù)可以產(chǎn)生所需的精度水平（在富集分?jǐn)?shù)指標(biāo)和p值中），而與群組的拆分方式無(wú)關(guān)。

結(jié)果

乳腺癌患者的 mRNA 表達(dá)數(shù)據(jù)

本節(jié)使用一個(gè)公開(kāi)可用的數(shù)據(jù)集，測(cè)量從乳腺癌患者收集的組織樣本中獲得的 13,018 個(gè)基因的表達(dá)。該隊(duì)列已得到充分研究，并且是開(kāi)發(fā)一項(xiàng)測(cè)試的基礎(chǔ)，該測(cè)試將患者在乳腺癌手術(shù)后分為良好或不良結(jié)果組。測(cè)試分類(lèi)（“好”或“差”）可作為數(shù)據(jù)集的一部分使用，并用作二元表型。這些數(shù)據(jù)來(lái)自 Venet 等人提供的補(bǔ)充材料。。使用的屬性子集（這里是基因集）是 Hallmarks 基因集（一組 50 個(gè)基因集）可從 Broad Institute GSEA 網(wǎng)站獲得（參見(jiàn)方法）。選擇了兩個(gè)特定基因集 HALLMARK_MYC_TARGETS_V1 和 HALLMARK_ALLOGRAFT_REJECTION 作為標(biāo)志基因集中過(guò)程的示例，這些基因集與以 GSEA p值約為 0.05 為特征的乳腺癌隊(duì)列中的表型相關(guān)（對(duì)于 MYC_TARGETS_V1 和p = 0.0684，p = 0.0172 和p = 0.0684）對(duì)于 ALLOGRAFT_REJECTION）。兩個(gè)基因組的標(biāo)準(zhǔn) ES 的零分布顯示在富集分析中使用的不同數(shù)量的樣本 N 中，在圖 3 中以藍(lán)色顯示。 1ab。每個(gè)條帶的寬度反映了在創(chuàng)建的 1000 個(gè)子集實(shí)現(xiàn)中每個(gè)直方圖箱中的零分布的標(biāo)準(zhǔn)誤差（從整個(gè)隊(duì)列中隨機(jī)選擇 N 個(gè)樣本，按表型分層）。很明顯，隨著 N 的增加，零分布基本上保持不變。請(qǐng)注意，這與典型統(tǒng)計(jì)的原型、教科書(shū)案例形成對(duì)比，例如學(xué)生的 t 統(tǒng)計(jì)，其中零分布隨著 N 的增加而變窄。樣本數(shù)量在確定 ES 的零分布寬度方面并不起典型作用。其他因素，例如測(cè)量的屬性數(shù)量和基因集中的屬性數(shù)量，對(duì)于確定空分布的形狀更為重要。

圖1：N = 20、40、60、80、100 和 200 的 ES 和 ES avg 的空分布。a HALLMARKS_MYC_TARGETS_V1，b HALLMARKS_ALLOGRAFT_REJECTION。ES 的分布以藍(lán)色顯示，ES avg的分布以紅色顯示

對(duì)于相同的基因組，ES 的采樣分布，對(duì)于從 294 個(gè)樣本的研究隊(duì)列中抽取的 N 個(gè)樣本的子集，隨著 N 的增加而變窄（圖 3 的下圖）。 2B）。對(duì)于賊低 N，分布保留了零分布的雙峰特征的痕跡。隨著 N 的增加，分布變得單峰，然后進(jìn)一步變窄。請(qǐng)注意，由于采樣是在僅 294 個(gè)樣本的總體中執(zhí)行的，因此采樣實(shí)現(xiàn)之間會(huì)有相關(guān)性，尤其是對(duì)于較大的 N。

圖 2:N = 20、40、60、80、100 和 200的ES 和 ES平均抽樣分布。a HALLMARKS_MYC_TARGETS_V1，b HALLMARKS_ALLOGRAFT_REJECTION

結(jié)果如圖所示。 1和???2

2這意味著檢測(cè)特定屬性子集和表型之間關(guān)聯(lián)的能力將隨著 N 增加。然而，它不會(huì)像一些更簡(jiǎn)單的統(tǒng)計(jì)數(shù)據(jù)那樣迅速發(fā)生，因?yàn)楸M管與備擇假設(shè)相關(guān)的分布隨著 N 而變窄，但零假設(shè)沒(méi)有。

基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)現(xiàn)在考慮將測(cè)試統(tǒng)計(jì)量從使用 N 個(gè)樣本計(jì)算的標(biāo)準(zhǔn) ES 更改為兩個(gè) ES1 和 ES2 的平均值的影響，每個(gè) ES 計(jì)算將 N 個(gè)樣本拆分為 N/2 個(gè)樣本的兩個(gè)不同子集，即ES平均值 = 0.5 (ES1 + ES2)。數(shù)字 1ab 比較了 ES avg（紅色）和 ES（藍(lán)色）的零分布，對(duì)于兩個(gè)示例基因組的各種 N 值。（請(qǐng)注意，ES avg的零分布是三峰的，而不是雙峰的。對(duì)于表型分類(lèi)的排列，ES1 和 ES2 同樣可能是正數(shù)或負(fù)數(shù)，因此 ES avg接近 0 的可能性不大。）圖 2ab 對(duì) ES avg（上圖）和 ES（下圖）的采樣分布顯示相同。對(duì)于所有研究的 N，基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)觀察到 ES avg的零分布比 ES 的更窄。這是相對(duì)獨(dú)立于 N 的零分布的結(jié)果：ES 的零分布對(duì)于 N 和 N/2 是相似的。因此，ES1 和 ES2 的零分布（針對(duì) N/2 個(gè)樣本計(jì)算）與 ES 的相似。由于 ES avg是 ES1 和 ES2 的平均值，對(duì)于 N/2 個(gè)樣本，它的零分布將比 ES（類(lèi)似 ES1 和 ES2）窄，因此比 N 個(gè)樣本的 ES 窄。對(duì)于小 N，ES avg的采樣分布可能比 ES 更寬。當(dāng) N 非常小以至于無(wú)法以足夠的正確度評(píng)估表型-個(gè)體基因相關(guān)性以產(chǎn)生單峰 ES平均抽樣分布時(shí)，就會(huì)發(fā)生這種情況，即使基因集和表型之間存在真正的群體關(guān)聯(lián)。當(dāng)基因集和表型之間沒(méi)有種群關(guān)聯(lián)時(shí)，較大的 N 可能會(huì)發(fā)生這種情況。然而，當(dāng)基因集和表型之間存在真正的群體關(guān)聯(lián)時(shí)，對(duì)于較大的 N，ES avg的抽樣分布N 個(gè)樣本的位置和寬度與 ES 相似。在這些情況下，如 MYC_TARGETS_V1 和 ALLOGRAFT_REJECTION 所示，盡管 ES1 和 ES2 的采樣分布比 ES 的更寬，但由于樣本量減半，這可以通過(guò)將 ES1 和 ES2 平均化為新統(tǒng)計(jì)，ES avg。

因此，使用 ES avg作為檢驗(yàn)統(tǒng)計(jì)量增加了檢測(cè)表型與特定基因組關(guān)聯(lián)的能力，而不是使用 ES 獲得的關(guān)聯(lián)，只要 N 不太小并且存在有意義的群體關(guān)聯(lián)。數(shù)字 3顯示 ES 和 ES avg之間的統(tǒng)計(jì)功效差異作為檢驗(yàn)統(tǒng)計(jì)量，以檢測(cè)兩個(gè)示例基因集和表型之間的關(guān)聯(lián)。結(jié)果顯示為 294 名患者隊(duì)列的子集大小 N 的函數(shù)。即使對(duì)于 40 個(gè)樣本（24 個(gè)“差”和 16 個(gè)“好”表型），使用 ES avg作為統(tǒng)計(jì)數(shù)據(jù)也可以提高檢測(cè)關(guān)聯(lián)的能力。對(duì)于 20 個(gè)樣本，ES avg的功率在數(shù)值上小于ES，盡管這兩種方法都提供了賊小的功率（小于 30%）。受益于 ES avg的確切樣本量超過(guò) ES 停止將取決于關(guān)聯(lián)的大小。對(duì)于非常小的樣本量，除了表型和個(gè)體基因表達(dá)之間非常強(qiáng)的單變量相關(guān)性之外，不可能以任何正確度評(píng)估任何東西。在這種情況下，使用標(biāo)準(zhǔn) ES 測(cè)試統(tǒng)計(jì)量檢測(cè)基因組與表型關(guān)聯(lián)的能力已經(jīng)受到嚴(yán)重影響。如果將數(shù)據(jù)集分成兩半，這種情況會(huì)更加嚴(yán)重。然后，ES avg的功效不會(huì)比 ES 有所提高，但使用任一檢驗(yàn)統(tǒng)計(jì)量的統(tǒng)計(jì)功效都會(huì)很低。

圖 3

檢測(cè)表型與 HALLMARKS_MYC_TARGETS_V1（藍(lán)色）和 HALLMARKS_ALLOGRAFT_REJECTION（紅色）與 α = 0.05 的關(guān)聯(lián)的能力。對(duì)于 ES（虛線(xiàn)）和 ES avg（實(shí)線(xiàn)），功率顯示為 N 的函數(shù)

使用統(tǒng)計(jì) ES avg的一個(gè)缺點(diǎn)是它不是為一個(gè)群組少有定義的，并且取決于將群組分成兩部分的方式。可以通過(guò)多次（M）次將隊(duì)列隨機(jī)分成兩個(gè)不同的部分并將測(cè)試統(tǒng)計(jì)定義為 M 多次拆分的 ES avg的平均值來(lái)減少這種可變性，即

平均

> =

∑

分裂

平均

. 可以通過(guò)對(duì) <ES avg >平均的所有拆分應(yīng)用相同的表型標(biāo)簽排列來(lái)生成適當(dāng)?shù)牧惴植?。?shù)字 4顯示了為 MYC_TARGETS_V1 基因組的 294 名患者隊(duì)列中抽取的N = 200的一個(gè)子集生成的零分布，該基因集用于沒(méi)有分裂 (ES)、一個(gè)分裂 (ES avg )、兩個(gè)分裂和 25 個(gè)分裂的子集的測(cè)試統(tǒng)計(jì). 隨著平均分裂數(shù)增加到 1 以上，分布失去其多峰結(jié)構(gòu)但保持相同的總寬度。

圖 4

ES 和 <ES avg > 的空分布。<ES avg > 的空分布顯示為一個(gè)拆分（ES avg = <ES avg >）、兩個(gè)拆分和 25 個(gè)拆分。所有分布均針對(duì)從 294 名患者隊(duì)列中抽取的 200 個(gè)樣本中的一個(gè)子集生成

數(shù)字 5顯示了 ES avg和 < ES avg > 對(duì)于 200 個(gè)樣本的相同單個(gè)子集和 MYC_TARGETS_V1 基因集的 1000 個(gè)隨機(jī)分裂平均值的兩次分裂和 25 次分裂獲得的測(cè)試統(tǒng)計(jì)量的分布。正如考慮到大數(shù)定律所預(yù)期的那樣，分布的位置保持不變，并且分布的寬度隨著測(cè)試統(tǒng)計(jì)量在更多隨機(jī)分割上的平均值而變窄。此過(guò)程允許通過(guò)平均足夠的隨機(jī)拆分來(lái)定義測(cè)試統(tǒng)計(jì)量，從而定義相關(guān)的富集p值，以達(dá)到隊(duì)列的任意精度。

圖 5

1000 個(gè)隨機(jī)分裂平均值的 ES avg和 < ES avg >（兩次分裂和 25 次分裂）分布。所有分布均針對(duì)使用 MYC_TARGETS_V1 基因集的 200 個(gè)樣本的單個(gè)子集

為了說(shuō)明使用 ES avg和 < ES avg > 對(duì) ES 進(jìn)行 25 次分裂作為更廣泛基因集的測(cè)試統(tǒng)計(jì)量的好處，表 1比較了所有 50 個(gè) Hallmarks 基因組的富集p值，這些值是使用 294 名患者使用三個(gè)統(tǒng)計(jì)數(shù)據(jù)計(jì)算得出的。ES avg和 < ES avg >的關(guān)聯(lián)p值幾乎總是小于 ES，在少數(shù)情況并非如此的情況下，這兩種方法都不會(huì)產(chǎn)生表示顯著關(guān)聯(lián)的p值。

表格1

50 個(gè) Hallmarks 基因組的p值。p值是使用 ES、ES avg或 < ES avg >使用 294 個(gè)樣本隊(duì)列計(jì)算的，其中 25 個(gè)拆分作為檢驗(yàn)統(tǒng)計(jì)量。通過(guò)增加使用 ES avg作為統(tǒng)計(jì)量獲得的p值對(duì)基因集進(jìn)行排序

基因組	ES 的p值	ES avg的p值	<ES avg >的p值
MTORC1_SIGNALING	< 0.0001	< 0.0001	< 0.0001
E2F_TARGETS	< 0.0001	< 0.0001	< 0.0001
UV_RESPONSE_UP	0.0132	< 0.0001	< 0.0001
G2M_CHECKPOINT	< 0.0001	< 0.0001	< 0.0001
PI3K_AKT_MTOR_SIGNALING	0.0040	0.0002	< 0.0001
有絲分裂紡錘體	0.0028	0.0004	< 0.0001
UNFOLDED_PROTEIN_RESPONSE	0.0006	0.0004	< 0.0001
REACTIVE_OXIGEN_SPECIES_PATHWAY	0.0063	0.0004	0.0002
ESTROGEN_RESPONSE_EARLY	0.0068	0.0006	0.0002
精子發(fā)生	0.0185	0.0006	0.0002
糖酵解	0.0216	0.0012	0.0008
MYC_TARGETS_V1	0.0172	0.0020	0.0002
UV_RESPONSE_DN	0.0156	0.0020	0.0012
MYC_TARGETS_V2	0.0320	0.0032	0.0026
DNA_REPAIR	0.0263	0.0035	0.0008
INTERFERON_GAMMA_RESPONSE	0.0373	0.0046	0.0038
IL6_JAK_STAT3_SIGNALING	0.0790	0.0074	0.0081
INTERFERON_ALPHA_RESPONSE	0.0638	0.0080	0.0105
補(bǔ)充	0.1059	0.0157	0.0149
ESTROGEN_RESPONSE_LATE	0.0622	0.0188	0.0080
ALLOGRAFT_REJECTION	0.0684	0.0194	0.0144
INFLAMMATORY_RESPONSE	0.0963	0.0303	0.0172
CHOLESTEROL_HOMEOSTASIS	0.1035	0.0449	0.0252
膽汁酸代謝	0.0966	0.0472	0.0247
血管生成	0.2591	0.0796	0.0753
WNT_BETA_CATENIN_SIGNALING	0.4422	0.1160	0.1235
EPITHELIAL_MESENCHYMAL_TRANSITION	0.2984	0.1219	0.0984
凝血	0.2516	0.1223	0.1093
IL2_STAT5_SIGNALING	0.1685	0.1437	0.0596
生肌	0.2767	0.1589	0.1043
TGF_BETA_SIGNALING	0.3229	0.1593	0.1344
OXIDATIVE_PHOSPHORYLATION	0.3773	0.1877	0.1604
PROTEIN_SECRETION	0.3107	0.2032	0.2028
脂肪生成	0.4204	0.2247	0.2581
APICAL_SURFACE	0.4078	0.2477	0.0824
P53_PATHWAY	0.5724	0.2489	0.2423
TNFA_SIGNALING_VIA_NFKB	0.3401	0.2509	0.1545
缺氧	0.4398	0.2712	0.2450
細(xì)胞凋亡	0.5796	0.2905	0.3886
APICAL_JUNCTION	0.5175	0.2907	0.2579
NOTCH_SIGNALING	0.7451	0.3104	0.3226
FATTY_ACID_METABOLISM	0.5358	0.3134	0.3853
PANCREAS_BETA_CELLS	0.6834	0.3201	0.1500
XENOBIOTIC_METABOLISM	0.4921	0.3541	0.4946
HEME_METABOLISM	0.7713	0.4576	0.4731
KRAS_SIGNALING_UP	0.6241	0.7068	0.4892
ANDROGEN_RESPONSE	0.8082	0.7539	0.5841
HEDGEHOG_SIGNALING	0.7870	0.7810	0.5163
過(guò)氧化物酶體	0.3931	0.8977	0.3682
KRAS_SIGNALING_DN	0.9700	0.9193	0.7337

合成數(shù)據(jù)集

為了進(jìn)一步研究該方法對(duì)具有不同表型關(guān)聯(lián)程度和不同屬性相關(guān)程度的屬性子集的性能，基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)使用合成數(shù)據(jù)進(jìn)行了一組實(shí)驗(yàn)?；驒z測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)的方法類(lèi)似于 Ackermann 和 Strimmer 的基準(zhǔn)測(cè)試方法。基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)為 50 個(gè)樣本（每個(gè)表型 25 個(gè)）模擬了 600 個(gè)基因的數(shù)據(jù)集，并定義了 21 個(gè)基因組，它們具有不同程度的基因間相關(guān)性和表型之間的差異表達(dá)。方法中提供了完整的詳細(xì)信息。為了評(píng)估不同測(cè)試統(tǒng)計(jì)數(shù)據(jù)識(shí)別表型與基因組關(guān)聯(lián)的能力，基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)評(píng)估了 100 個(gè)數(shù)據(jù)集實(shí)現(xiàn)中檢測(cè)到與p關(guān)聯(lián)的比例 < 0.05 使用 ES、ES avg和 < ES avg > 進(jìn)行 25 次拆分。結(jié)果如表所示 2.

表 2

ES、ES avg和 < ES avg > 的 25 次拆分p < 0.05 的實(shí)現(xiàn)比例。使用 3 個(gè)測(cè)試統(tǒng)計(jì)量 ES、ES avg和 < ES avg >計(jì)算 21 個(gè)基因組中每個(gè)基因組的 100 次數(shù)據(jù)集實(shí)現(xiàn)的比例，M = 25。a表示與表型無(wú)關(guān)的對(duì)照基因組

基因組	p < 0.05的比例
基因組	ES	ES平均	<ES平均>
一個(gè)_	0.06	0.08	0.05
b	1.00	1.00	1.00
C	0.82	0.81	0.92
d	0.09	0.09	0.14
e	0.38	0.39	0.46
F	0.06	0.13	0.10
G	0.01	0.00	0.01
H	0.29	0.19	0.19
一世	0.10	0.16	0.07
一個(gè)_	0.07	0.07	0.07
?	0.92	0.93	0.98
l	0.81	0.88	0.91
M	0.92	0.94	0.98
n	0.34	0.35	0.43
○	0.73	0.76	0.84
p	0.42	0.56	0.64
q	0.77	0.84	0.90
r	0.22	0.26	0.22
s	0.75	0.77	0.90
噸	0.36	0.38	0.44
你	0.25	0.28	0.37

除了兩個(gè)控制組（a 和 j）之外，所有基因組的構(gòu)建都具有基因組中至少一些屬性與表型之間的關(guān)聯(lián)。該關(guān)聯(lián)被選擇為從中等到弱。這允許檢測(cè)統(tǒng)計(jì)能力的差異，以識(shí)別基因集和表型之間的關(guān)聯(lián)；如果關(guān)聯(lián)很強(qiáng)（例如，大于基因組 b），它們將在所有方法的幾乎所有實(shí)現(xiàn)中統(tǒng)一檢測(cè)到。對(duì)于兩個(gè)對(duì)照基因組，表型和基因組之間沒(méi)有關(guān)聯(lián)，p值在實(shí)現(xiàn)上的分布是均勻的（參見(jiàn)附錄中的直方圖），實(shí)現(xiàn)的比例產(chǎn)生p對(duì)于基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)的方法，低于 0.05 的關(guān)聯(lián)值保持在 5% 左右。對(duì)于大多數(shù)其他基因組，識(shí)別與p < 0.05 關(guān)聯(lián)的實(shí)現(xiàn)比例對(duì)于 <ES avg > (M = 25) 更高，并且通常對(duì)于 ES avg，而不是 ES。這表明在各種屬性子集場(chǎng)景中識(shí)別構(gòu)建關(guān)聯(lián)的能力增加，包括表型和基因之間不同程度的單變量關(guān)聯(lián)、表型之間上調(diào)和下調(diào)基因的混合以及基因組內(nèi)相關(guān)結(jié)構(gòu)的差異。除了控制之外，還有其他兩種情況沒(méi)有觀察到增加的功率。先進(jìn)個(gè)包括關(guān)聯(lián)非常弱的那些基因集（基因集 d、f 和 g）。所有三個(gè)測(cè)試統(tǒng)計(jì)數(shù)據(jù)在識(shí)別表型和基因組之間構(gòu)建的非常弱的關(guān)聯(lián)方面都具有同樣差的能力。第二種情況包括基因組（基因組 h 和 i）內(nèi)上調(diào)和下調(diào)屬性之間平衡的特殊情況。基因組 h 和 i 由相同數(shù)量的表型上調(diào)和下調(diào)屬性構(gòu)成，它們與表型的單變量相關(guān)強(qiáng)度有效相同。在這個(gè)非常特殊的設(shè)置中，對(duì)于數(shù)據(jù)集的任何特定實(shí)現(xiàn)，計(jì)算正 ES 或負(fù) ES 的可能性相同。對(duì)于基因組 h，在大約 30% 的病例中發(fā)現(xiàn)p < 0.05，但其中大約一半對(duì)應(yīng)于陽(yáng)性 ES，另一半對(duì)應(yīng)于陰性 ES。當(dāng)數(shù)據(jù)集分成兩部分來(lái)計(jì)算 ES avg和 < ES avg > 時(shí)，由于與表型的上下關(guān)聯(lián)之間的正確平衡，每一半都可能產(chǎn)生正或負(fù) ES。對(duì)這種雙峰分布進(jìn)行平均產(chǎn)生以 ES avg = 0 或 < ES avg > =0 為中心的分布，因此降低了識(shí)別表型和基因集之間顯著關(guān)聯(lián)的能力。因此，在這種與表型上下關(guān)聯(lián)的特征范圍和數(shù)量之間取得平衡的特殊設(shè)置中，ES avg的表現(xiàn)和 <ES avg > 測(cè)試統(tǒng)計(jì)不如 ES。然而，只要不接近正確匹配的上調(diào)和下調(diào)場(chǎng)景，ES avg和 < ES avg > 至少顯示出與 ES 相似的功率（參見(jiàn)基因集 r，有 13 個(gè)基因，Δμ = 0.5和 7 個(gè)具有 Δμ = - 0.5) 或更大功率（基因組 l、p 和 q，每個(gè)具有 15 個(gè) Δμ = 0.5 的基因和 5 個(gè)具有 Δμ = - 0.5 的基因）。在現(xiàn)實(shí)世界的環(huán)境中，表型之間差異基因表達(dá)的相反方向的數(shù)量和幅度非常接近平衡不太可能在基因集中發(fā)生。因此，合成數(shù)據(jù)的分析表明使用 ES avg或 < ES avg > 只要樣本集的大小和關(guān)聯(lián)強(qiáng)度足夠大，可以通過(guò)標(biāo)準(zhǔn) ES 方法為識(shí)別提供一些賊小的能力，就可能增加檢測(cè)與基因集所代表的生物過(guò)程關(guān)聯(lián)的能力。

討論和結(jié)論

富集分?jǐn)?shù)的零分布，如 GSEA 設(shè)置富集分析方法中所定義的，在很大程度上獨(dú)立于分析中使用的樣本數(shù)量。因此，增加樣本隊(duì)列大小 N 只能通過(guò)縮小 ES 的抽樣分布來(lái)提高檢測(cè)基因集和表型之間關(guān)聯(lián)的能力。將隊(duì)列分成兩個(gè)不同的相等部分，計(jì)算每個(gè)部分的 ES，并對(duì)它們進(jìn)行平均以創(chuàng)建新的測(cè)試統(tǒng)計(jì)量 ES avg，可以產(chǎn)生明顯更窄的空分布和類(lèi)似的 ES 抽樣分布。這種方法導(dǎo)致增加的統(tǒng)計(jì)能力來(lái)檢測(cè)表型和屬性子集之間的顯著關(guān)聯(lián)。在大多數(shù)情況并非如此的情況下，ES 和 ES avg由于測(cè)試統(tǒng)計(jì)導(dǎo)致表型和基因集的顯著關(guān)聯(lián)的識(shí)別，因?yàn)椴淮嬖陉P(guān)聯(lián)，屬性子集與表型的關(guān)聯(lián)不夠強(qiáng)，無(wú)法檢測(cè)，或者 N 太小而無(wú)法對(duì)單個(gè)基因和表型之間的相關(guān)性進(jìn)行有意義的評(píng)估。在表型之間上調(diào)和下調(diào)屬性的數(shù)量和幅度之間密切匹配的特殊情況下，即使對(duì)于賊大的樣本量，ES 統(tǒng)計(jì)量的抽樣分布也具有雙峰的不尋常特性。使用 ES平均因?yàn)闄z驗(yàn)統(tǒng)計(jì)量會(huì)降低識(shí)別關(guān)聯(lián)的能力。然而，這種情況不太可能發(fā)生在綜合生成的數(shù)據(jù)集之外，并且可以通過(guò)檢查計(jì)算 ES 的運(yùn)行總和來(lái)識(shí)別這種情況。（即使與這些 ES 值相關(guān)的p值很小，也會(huì)觀察到運(yùn)行總和與零的賊大和賊小偏差的相似幅度。）測(cè)試統(tǒng)計(jì)量和富集p值對(duì)隊(duì)列方式的不可接受的依賴(lài)性通過(guò)使用平均過(guò)程的擴(kuò)展以在測(cè)試統(tǒng)計(jì) <ES avg >中包含隊(duì)列的多個(gè)隨機(jī)拆分，可以避免拆分以產(chǎn)生 ES avg 。

這種方法的應(yīng)用可以在統(tǒng)計(jì)能力方面帶來(lái)明顯的優(yōu)勢(shì)，可用于識(shí)別生物過(guò)程或途徑與樣本/患者表型之間的關(guān)聯(lián)，但賊小樣本群組除外，其中標(biāo)準(zhǔn)方法的能力也非常有限。這可能有助于緩解文獻(xiàn) 中指出的這類(lèi) ES 的功率相對(duì)降低的問(wèn)題。增加的權(quán)力將能夠高效地識(shí)別較弱的關(guān)聯(lián)，并增加識(shí)別可能在p方面具有臨界意義的確定性-值和錯(cuò)誤發(fā)現(xiàn)率與標(biāo)準(zhǔn)統(tǒng)計(jì)。該方法已使用二元表型分類(lèi)和表型-個(gè)體基因相關(guān)度量的一種選擇進(jìn)行了說(shuō)明，但它應(yīng)該適用于使用其他相關(guān)度量或連續(xù)表型評(píng)分的富集分析。使用 ES avg或 < ES avg的好處 > 超過(guò) ES 取決于 ES 的零分布對(duì)樣本數(shù) N 的相對(duì)獨(dú)立性。這種現(xiàn)象是通過(guò)運(yùn)行總和的極值評(píng)估富集方式的結(jié)果（由排名和組合屬性-表型相關(guān)性）和通過(guò)表型排列生成零分布。用于生成空分布的每個(gè)表型排列導(dǎo)致屬性-表型相關(guān)性的值和等級(jí)的隨機(jī)化。因此，評(píng)估屬性和表型之間相關(guān)性的方式并不重要，基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)的方法應(yīng)該直接適用于采用其他相關(guān)性度量的 GSEA（例如，用于連續(xù)屬性的 Spearman/Pearson r）。

在這里，基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)只探索了將樣本集分成兩個(gè)不同的相等部分。該方法可以擴(kuò)展為將數(shù)據(jù)集拆分為兩個(gè)以上的部分進(jìn)行平均，這將通過(guò)進(jìn)一步縮小相關(guān)的空分布來(lái)提高性能。然而，拆分成更多不同子集的好處需要更大的隊(duì)列規(guī)模。跨不同子集平均 ES 的概念也可能有助于組合來(lái)自具有相同可用屬性的多個(gè)樣本群組的數(shù)據(jù)。如果批次效應(yīng)阻止將多個(gè)樣本集合并到一個(gè)隊(duì)列中，這可能特別有用。使用歸一化的 ES 還將允許使用相同的方法來(lái)組合來(lái)自不同隊(duì)列的患者的數(shù)據(jù)，每個(gè)隊(duì)列具有不同的可用屬性，例如，甚至可以組合基因組和蛋白質(zhì)組學(xué)面板數(shù)據(jù)，前提是可以將一致的表型分配給多個(gè)隊(duì)列。如果使用患者定義的表型類(lèi)別標(biāo)簽的排列生成空分布，則還可以使用對(duì)每個(gè)數(shù)據(jù)源計(jì)算的 ES 進(jìn)行平均來(lái)擴(kuò)展到單個(gè)患者隊(duì)列的多個(gè)數(shù)據(jù)源的情況。

方法

數(shù)據(jù)集和基因集：mRNA 表達(dá)

本部分研究中使用的數(shù)據(jù)集可從訪問(wèn)，包括從接受乳腺癌手術(shù)的患者收集的組織樣本中采集的 13,018 個(gè)基因的 mRNA 表達(dá)測(cè)量值。這個(gè)由 295 名患者組成的隊(duì)列是開(kāi)發(fā)將患者分為“好”和“差”結(jié)果組的測(cè)試的基礎(chǔ) 。每個(gè)患者的測(cè)試分類(lèi)都包含在數(shù)據(jù)集中，并且這個(gè)二元結(jié)果被用作尋求與生物過(guò)程關(guān)聯(lián)的表型?；虮磉_(dá)值用于無(wú)需進(jìn)一步處理或標(biāo)準(zhǔn)化。在整個(gè)研究過(guò)程中，基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)使用了 295 名患者中的 294 名的數(shù)據(jù)（未使用來(lái)自樣本 NKI373 的數(shù)據(jù)），以便將隊(duì)列分成兩個(gè)不同的、大小相等的亞組。

此處使用的屬性集（在本例中為基因集）是可從 Broad Institute GSEA 網(wǎng)站 ( http://software.broadinstitute.org/gsea/msigdb/collections/jsp#H ) 獲得的 Hallmarks 基因集。它們是精心策劃的基因集集合，代表了明確定義的生物狀態(tài)和過(guò)程。集合中包括五十個(gè)基因組。對(duì)于大多數(shù)分析，基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)從 Hallmarks 集中選擇了兩個(gè)特定的基因集，MYC_TARGETS_V1 和 ALLOGRAFT_REJECTION 作為示例。測(cè)試分類(lèi)表型顯示出與這些基因組的明確但不是極端的關(guān)聯(lián)，因此，它們被認(rèn)為是特別說(shuō)明性的例子。磷還使用 ES、ES avg和 < ES avg >（25 次分割）作為測(cè)試統(tǒng)計(jì)數(shù)據(jù)，使用來(lái)自所有 294 個(gè)樣本的數(shù)據(jù)計(jì)算了 Hallmarks 集合中所有 50 個(gè)基因組的富集值。

數(shù)據(jù)集和基因集：合成數(shù)據(jù)

為了以更可控的方式研究方法的性能對(duì)屬性子集中屬性之間的關(guān)聯(lián)程度和相關(guān)程度的依賴(lài)性，基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)使用合成數(shù)據(jù)集和屬性子集進(jìn)行了一組分析，遵循 Ackermann 的基準(zhǔn)測(cè)試方法和斯特里默。

600 個(gè)屬性（基因）的表達(dá)值的合成數(shù)據(jù)集是通過(guò)從具有單位方差的多元正態(tài)分布中繪制的，其中包含 25 個(gè)具有表型 A 的樣本和 25 個(gè)具有表型 B 的樣本。對(duì)于屬性i，基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)定義了平均屬性值之間的差異A 和 B 為 Δμ i。屬性i和屬性j之間的相關(guān)性定義為 ρ ij。為 50 個(gè)樣本選擇了 600 個(gè)屬性，如下所示：

一世。420，Δμ = 0 和 ρ = 0，
ii. 20，Δμ = 0.5 和 ρ = 0，
iii. 20，Δμ = 0.25 和 ρ = 0，
iv. 20，Δμ = 0.1 和 ρ = 0，
v. 20，Δμ = 0.5 和 ρ = 0.6，
六。20，Δμ = 0.25 和 ρ = 0.6，
七。20，Δμ = 0.1 和 ρ = 0.6，
八。10 與 Δμ = + 0.5 和 10 與 Δμ = - 0.5，在 10 的每個(gè)子組內(nèi) ρ = 0.6，在子組之間 ρ = - 0.6，
九。10，Δμ = + 0.5 和 10，Δμ = - 0.5，ρ = 0，
X。20，Δμ = 0 和 ρ = 0.6。

通過(guò)采用以下屬性組創(chuàng)建了 21 個(gè)具有不同程度的表型關(guān)聯(lián)和不同相互關(guān)聯(lián)的基因組：

20 來(lái)自 (i)
(ii) 中的 20
20 來(lái)自 (iii)
20 來(lái)自 (iv)
20 來(lái)自 (v)
20（六）
20（七）
(八) 20
20 來(lái)自 (ix)
20 來(lái)自 (x)
(ii) 中的 10 和 (v) 中的 10
(ii) 中的 10，(viii) 中的 5 + 5 (5 Δμ = 0.5 和 5 Δμ = - 0.5)
(ii)、(iii) 和 (iv) 中的 20
(v)、(vi) 和 (vii) 中的 20
20 從 (ii)-(vii)
(ix) 中的 10 個(gè)，Δμ = + 0.5，(viii) 中的 5 個(gè)，Δμ = - 0.5，和 (viii) 中的 5 個(gè)，Δμ = + 0.5 和 ρ = 0.6
(ii) 中的 10，(viii) 中的 5 + 5 (5 Δμ = 0.5 和 5 Δμ = - 0.5)
來(lái)自 (ii) 的 3，來(lái)自 (ix) 的 10 Δμ = 0.5 和來(lái)自 (ix) 的 7，Δμ = - 0.5
(i) 中的 10 和 (ii) 中的 10
(i) 中的 10 和 (v) 中的 10
(i) 中的 8 個(gè)和 (ii)-(x) 中的 12 個(gè)

基因集富集分析實(shí)現(xiàn)

使用的富集集分析方法密切遵循 Subramanian 等人的方法。?；诘燃?jí)的相關(guān)性，以 Mann-Whitney 檢驗(yàn)統(tǒng)計(jì)量的形式，范圍從 1 到 - 1，用于表征單個(gè)屬性的表達(dá)與二元表型之間的關(guān)聯(lián)。對(duì)于標(biāo)準(zhǔn)基因集富集分析，使用的富集分?jǐn)?shù) ES 與 Subramanian 等人的定義有效相同。p = 1。用于評(píng)估富集統(tǒng)計(jì)顯著性的空分布是通過(guò)表型分類(lèi)的重復(fù)隨機(jī)改組（排列）獲得的。

使用 ES avg的替代富集評(píng)估方法實(shí)施如下。大小為 N 的隊(duì)列被分成兩個(gè)相等且不同的子組，S 1和 S 2，每個(gè)子組的大小為 N/2。對(duì)于每個(gè)亞組，如上文所述計(jì)算富集分?jǐn)?shù)，以分別產(chǎn)生 S 1、S 2的 ES1、ES2 。替代統(tǒng)計(jì) ES avg被定義為兩個(gè)亞組富集分?jǐn)?shù)的平均值，即 ES avg = 0.5(ES1 + ES2)。通過(guò)表型分類(lèi)的排列再次計(jì)算空分布。表型分類(lèi)被打亂，然后數(shù)據(jù)集被分成兩半，S 1和 S 2. ES1 和 ES2 分別在 S 1和 S 2內(nèi)計(jì)算并取平均值，得到 ES avg用于置換實(shí)現(xiàn)。

使用測(cè)試統(tǒng)計(jì)量<ES avg > = 0.5 Σ i (ES1 i + ES2 i )/M使用多個(gè)拆分的平均值評(píng)估富集，其中總和超過(guò)拆分?jǐn)?shù) M，將 N 個(gè)樣本分成兩個(gè)隨機(jī)子集 S 1i和 S 2i，分別具有富集分?jǐn)?shù) ES1 i和 ES2 i。為了生成空分布，表型分類(lèi)被打亂，然后數(shù)據(jù)集被隨機(jī)分成兩半 M 次。<ES avg > 然后為置換實(shí)現(xiàn)計(jì)算。對(duì)于生成零分布所需的置換實(shí)現(xiàn)的數(shù)量重復(fù)此操作。

ES 和 ES avg的空分布

對(duì)于基因集 MYC_TARGETS_V1 和 ALLOGRAFT_REJECTION 的大小為 20、40、60、80、100 和 200 的群組的子集，生成標(biāo)準(zhǔn)富集分?jǐn)?shù) ES 和替代統(tǒng)計(jì)量 ES avg的空分布。在每種情況下，隨機(jī)選擇一個(gè)子集，按表型分類(lèi)分層。在每種情況下，表型分類(lèi)隨機(jī)排列 10,000 次。

ES 和 ES avg的抽樣分布

對(duì)于N = 20、40、60、80、100 和 200 的基因集 MYC_TARGETS_V1 和 ALLOGRAFT_REJECTION，為 ES 和 ES avg生成了從 294 個(gè)樣本的群體隊(duì)列中抽取的大小為 N 的子集的抽樣分布。選擇了一千個(gè)子集每個(gè)子集大小隨機(jī)，按表型分類(lèi)分層。

檢測(cè) ES 和 ES avg之間關(guān)聯(lián)的能力比較

檢測(cè)表型與基因組 MYC_TARGETS_V1 和 ALLOGRAFT_REJECTION 關(guān)聯(lián)的能力計(jì)算如下。首先如上所述計(jì)算不同子集大小的 ES 和 ES avg的零分布。ES 和 ES avg如上所述計(jì)算，每個(gè)子集大小的 1000 次實(shí)現(xiàn)，用于估計(jì)采樣分布。對(duì)于每個(gè)子集大小的每個(gè)實(shí)現(xiàn)，將 ES 和 ES avg與其各自的零分布進(jìn)行比較，以確定是否觀察到與p < 0.05 的關(guān)聯(lián)。檢測(cè)這種與 α = 0.05 的關(guān)聯(lián)的能力被定義為p < 0.05 的實(shí)現(xiàn)比例。

不同分割數(shù)的富集分?jǐn)?shù)統(tǒng)計(jì)的空分布，M

估計(jì)了 ES（無(wú)拆分）、ES平均（1 次拆分）和 <ES平均 > 的零分布，其中 2 次和 25 次拆分來(lái)自 294 名患者隊(duì)列中的 200 個(gè)樣本的一個(gè)子集。如上所述，從表型分類(lèi)的 10,000 個(gè)排列中生成每個(gè)空分布。

<ES avg > 在隊(duì)列的不同拆分上的分布，對(duì)于不同數(shù)量的拆分，M

使用 1000 個(gè)實(shí)現(xiàn)估計(jì)從研究隊(duì)列中抽取的 200 個(gè)樣本的單個(gè)子集的不同隨機(jī)拆分的 ES（無(wú)拆分）、ES avg（1 拆分）和 <ES avg > 的分布，其中 2 和 25 拆分每個(gè)統(tǒng)計(jì)數(shù)據(jù)所需的拆分集。

所有 50 個(gè) Hallmark 基因組與隊(duì)列表型分類(lèi)的關(guān)聯(lián)

對(duì)于 50 個(gè) Hallmark 基因組中的每一個(gè)，GSEA 分別使用 ES、ES avg和 < ES avg > 在 294 個(gè)樣本的整個(gè)隊(duì)列中進(jìn)行 M = 25 次分割。通過(guò) 10,000 個(gè)表型分類(lèi)排列估計(jì)每個(gè)基因集的無(wú)效分布。

綜合數(shù)據(jù)分析

對(duì)于 21 個(gè)基因組中的每一個(gè)，使用 ES、ES avg和 < ES avg >分別執(zhí)行 GSEA，其中 M = 25 次拆分，用于 100 次合成數(shù)據(jù)集的實(shí)現(xiàn)。通過(guò) 10,000 個(gè)表型分類(lèi)排列估計(jì)空分布。通過(guò)計(jì)算富集p值低于 0.05的實(shí)現(xiàn)比例來(lái)估計(jì)分析檢測(cè) α = 0.05（顯著性水平為 95%）的基因集和表型之間關(guān)聯(lián)的能力。為了檢查兩個(gè)對(duì)照基因組（a 和 j）的p值分布，對(duì)統(tǒng)計(jì)數(shù)據(jù) ES、ES avg和 < ES avg >執(zhí)行 GSEA，其中 M = 25 用于數(shù)據(jù)集的 1000 次實(shí)現(xiàn)。

軟件

實(shí)施本研究中介紹的方法的軟件可在https://bitbucket.org/PSEABiodesix/pseabiodesix的 PSEABiodesix 存儲(chǔ)庫(kù)中獲得。

致謝

不適用。

資金

不適用。

數(shù)據(jù)和材料的可用性

支持本文結(jié)論的數(shù)據(jù)集可在與 Venet 等人相關(guān)的補(bǔ)充材料中找到。在 10.1371/journal.pcbi.1002240.s001。

實(shí)施本研究中介紹的方法的軟件可在https://bitbucket.org/PSEABiodesix/pseabiodesix的 PSEABiodesix 存儲(chǔ)庫(kù)中獲得。軟件要求包括：

操作系統(tǒng) - Windows（使用 Windows 7 Professional 開(kāi)發(fā)/測(cè)試）
編程語(yǔ)言 - C#。Net（需要.Net Framework 4.5.2 版）
其他要求 – IMSL 6.5.0 的 Roguewave IMSL C# 許可證
許可證 – 新（3 條款）BSD 許可證

縮寫(xiě)

ES	濃縮分?jǐn)?shù)
GSEA	基因集富集分析

附錄

對(duì)于通過(guò)構(gòu)建與表型沒(méi)有關(guān)聯(lián)的對(duì)照合成基因組，使用數(shù)據(jù)集的 1000 個(gè)實(shí)現(xiàn)的所有三個(gè)富集統(tǒng)計(jì)數(shù)據(jù)進(jìn)行 GSEA，以檢查實(shí)現(xiàn)中p值的分布（圖 2）。 6）。

圖 6

用于控制基因集的 ES、ES avg和 < ES avg > 的數(shù)據(jù)集實(shí)現(xiàn)上的p值分布。a基因組 a, b基因組 j

Improving the power of gene set enrichment analyses.

Roder J, Linstid B, Oliveira C.

BMC Bioinformatics. 2019 May 17;20(1):257. doi: 10.1186/s12859-019-2850-1.

(責(zé)任編輯：佳學(xué)基因)

【佳學(xué)基因檢測(cè)】如何在基因檢測(cè)后提高基因集富集分析的能力？

【佳學(xué)基因檢測(cè)】如何在基因檢測(cè)后提高基因集富集分析的能力？

腫瘤基因檢測(cè)與靶向藥物選擇導(dǎo)讀：

背景

結(jié)果

結(jié)論

背景

結(jié)果

乳腺癌患者的 mRNA 表達(dá)數(shù)據(jù)

表格1

合成數(shù)據(jù)集

表 2

討論和結(jié)論

方法

數(shù)據(jù)集和基因集：mRNA 表達(dá)

數(shù)據(jù)集和基因集：合成數(shù)據(jù)

基因集富集分析實(shí)現(xiàn)

ES 和 ES avg的空分布

ES 和 ES avg的抽樣分布

檢測(cè) ES 和 ES avg之間關(guān)聯(lián)的能力比較

不同分割數(shù)的富集分?jǐn)?shù)統(tǒng)計(jì)的空分布，M

<ES avg > 在隊(duì)列的不同拆分上的分布，對(duì)于不同數(shù)量的拆分，M

所有 50 個(gè) Hallmark 基因組與隊(duì)列表型分類(lèi)的關(guān)聯(lián)

綜合數(shù)據(jù)分析

軟件

致謝

資金

數(shù)據(jù)和材料的可用性

縮寫(xiě)

附錄

<ES avg > 在隊(duì)列的不同拆分上的分布，對(duì)于不同數(shù)量的拆分，M