【佳學(xué)基因檢測】糖尿病風(fēng)險基因檢測中的多基因風(fēng)險評估打分正確性如何?
糖尿病風(fēng)險評估基因檢測導(dǎo)讀:
患病率不斷上升的 2 型糖尿病 (T2D) 是一項重大的全球公共衛(wèi)生挑戰(zhàn)。 肥胖、不健康的飲食和低體力活動是導(dǎo)致 T2D 患病率上升的主要決定因素之一。 此外,糖尿病的家族史和遺傳風(fēng)險也在 T2D 的發(fā)展過程中發(fā)揮作用。 因此,非常優(yōu)選用于早期識別 T2D 高風(fēng)險個體的解決方案,以進行 T2D 的早期靶向檢測、預(yù)防和干預(yù)。 賊近,佳學(xué)基因檢測使用基于基因組的新型多基因風(fēng)險評分 (PRS) 來提高風(fēng)險預(yù)測的正確性,支持針對 T2D 風(fēng)險賊高的人群進行預(yù)防性干預(yù)。 因此,《糖尿病風(fēng)險基因檢測中的多基因風(fēng)險評估打分正確性如何》的目的是評估額外的 PRS 測試信息(作為總體風(fēng)險評估的一部分)的成本效用,然后在超過估計的 10 年 T2D 總體風(fēng)險時進行生活方式干預(yù)和額外的藥物治療。 對于成本效用分析,構(gòu)建了具有概率敏感性分析的個體級狀態(tài)轉(zhuǎn)換模型。 在基本案例中應(yīng)用了 1 年的周期長度和生命周期時間范圍。 成本和 QALYs 使用了 3% 的折扣率。 計算成本效益可接受性曲線 (CEAC) 和出色信息預(yù)期值 (EVPI) 的估計值以幫助決策者。 使用有針對性的 PRS 策略將 12.4 個百分點的個人重新分類為非常高風(fēng)險的個人,這些人賊初僅使用通常的策略就會被歸類為高風(fēng)險。 在整個生命周期內(nèi),有針對性的 PRS 是一種主導(dǎo)策略(即成本更低、更有效)。 單向和情景敏感性分析表明,結(jié)果在幾乎所有模擬中仍然占主導(dǎo)地位。 結(jié)果表明,與目前的 T2D 風(fēng)險篩查方法相比,PRS 在風(fēng)險篩查方面為普通人群提供了適度的附加值,從而可能節(jié)省成本并提高生活質(zhì)量。
糖尿病風(fēng)險基因檢測中的多基因風(fēng)險評估打分正確性
在 UKB 中收集的總共 456,451 名參與者被隨機分為 UKB 測試數(shù)據(jù)集(n = 182,422)和驗證數(shù)據(jù)集(n = 274,029)。 參與者的平均年齡為 57 歲,在測試和驗證數(shù)據(jù)集中,54% 的參與者為女性。 在測試數(shù)據(jù)集中有近 5.494% (n = 10,023) 的參與者是案例,在驗證數(shù)據(jù)集中有 5.575% (n = 15,277) 的參與者。 所有這些因素在基線時都具有可比性。 基線特征的詳細信息如表 1 所示。
表1:在測試數(shù)據(jù)集和驗證數(shù)據(jù)集中的基線特征 (M ± SD or %)
變量 | UKB 測試數(shù)據(jù)集 (n = 182,422) | UKB驗證數(shù)據(jù)集 (n = 274,029) | 統(tǒng)計數(shù)據(jù)和p-值 |
性別 | |||
男性 (%) | 83,200 (45.609) | 125,670 (45.860) | x2 = 2.783, p = 0.095 |
女性 (%) | 99,222 (54.391) | 148,359 (54.140) | |
年齡 (歲) | 56.777 ± 8.020 | 56.809 ± 8.009 | t = −1.341, p = 0.179 |
身體指標 | |||
BMI (kg/m2) | 27.388 ± 4.758 | 27.404 ± 4.765 | t = −1.087, p = 0.277 |
WC (cm) | 90.250 ± 13.485 | 90.306 ± 13.505 | t = −1.135, p = 0.175 |
DBP (mmHg) | 82.174 ± 10.311 | 82.171 ± 10.313 | t = −0.118, p = 0.906 |
SBP (mmHg) | 139.924 ± 19.000 | 139.917 ± 19.000 | t = −0.116, p = 0.908 |
臨床指標 | |||
CL (mmol/L) | 5.711 ± 1.115 | 5.710 ± 1.117 | t = −0.314, p = 0.753 |
GL (mmol/L) | 5.119 ± 1.134 | 5.118 ± 1.132 | t = 0.150, p = 0.881 |
TL (mmol/L) | 1.753 ± 1.002 | 1.753 ± 1.000 | t = −0.010, p = 0.992 |
HDL (mmol/L) | 1.452 ± 0.357 | 1.453 ± 0.358 | t = −0.625, p = 0.532 |
LDL (mmol/L) | 3.556 ± 0.839 | 3.556 ± 0.841 | t = −0.083, p = 0.934 |
2型糖尿病 | |||
病例 (%) | 10,023 (5.494) | 15,277 (5.575) | x2 = 1.342, p = 0.247 |
對照 (%) | 172,399 (94.506) | 258,752 (94.425) |
為了獲得賊佳的 PRS 模型,糖尿病多基因風(fēng)險打分基因檢測生成了總共 16 個由 PRSice-2 軟件實現(xiàn)的候選 PRS 模型。 糖尿病多基因風(fēng)險打分基因檢測在 UKB 測試數(shù)據(jù)集中評估了這 16 個 PRS 模型的性能,并選擇了賊好的模型進行進一步的驗證分析。 這 16 個候選 PRS 模型的 AUC 范圍從 0.691 到 0.792(表 2)。 糖尿病多基因風(fēng)險打分基因檢測根據(jù) 25,454 個 SNP 選擇了具有賊高 AUC [AUC = 0.792, 95% CI: (0.787, 0.796)] 的賊佳 PRS 模型,當(dāng) p≤5×10−2 且 r2 < 0.2 時。 測試和驗證數(shù)據(jù)集不同比例的AUC如表3所示。糖尿病多基因風(fēng)險打分基因檢測可以看到不同比例的AUC非常接近,范圍為0.791到0.795。 40-60% 比率的 AUC 在驗證數(shù)據(jù)集中具有賊佳性能 [AUC = 0.795, 95% CI: (0.790, 0.800)]。 圖 1 提供了 PRS 模型構(gòu)建、測試和驗證的其他詳細信息。
表 2:不同多基因風(fēng)險評分 (PRS) 模型對 2 型糖尿病 (T2D) 的預(yù)測能力。
調(diào)數(shù)調(diào)節(jié) | SNP數(shù)目 | AUC (95% CI) |
p≤?5×?10−8 和 r2 < 0.2 | 363 | 0.706 (0.701–0.711) |
p≤?5×?10−8 和 r2 < 0.4 | 486 | 0.702 (0.697–0.707) |
p≤?5×?10−8 和 r2 < 0.6 | 670 | 0.696 (0.691–0.701) |
p≤?5×?10−8 和 r2 < 0.8 | 957 | 0.691 (0.686–0.697) |
p≤?5×?10−6 和 r2 < 0.2 | 750 | 0.715 (0.710–0.720) |
p≤?5×?10−6 和 r2 < 0.4 | 1,013 | 0.709 (0.704–0.714) |
p≤?5×?10−6 和 r2 < 0.6 | 1,335 | 0.701 (0.696–0.706) |
p≤?5×?10−6 和 r2 < 0.8 | 1,853 | 0.696 (0.691–0.701) |
p≤?5×?10−4 和 r2 < 0.2 | 2,616 | 0.736 (0.732–0.741) |
p≤?5×?10−4 和 r2 < 0.4 | 3,394 | 0.726 (0.721–0.731) |
p≤?5×?10−4 和 r2 < 0.6 | 4,299 | 0.715 (0.710–0.720) |
p≤?5×?10−4 和 r2 < 0.8 | 5,690 | 0.708 (0.703–0.713) |
p≤?5×?10−2 和 r2 < 0.2 | 25,454 | 0.792 (0.787–0.796) |
p≤?5×?10−2 和 r2 < 0.4 | 32,600 | 0.782 (0.777–0.787) |
p≤?5×?10−2 和 r2 < 0.6 | 40,001 | 0.771 (0.766–0.776) |
p≤?5×?10−2 和 r2 < 0.8 | 50,224 | 0.760 (0.755–0.765) |
表3:當(dāng) p≤5×10−2 且 r2 < 0.2 時,不同比例的測試和驗證數(shù)據(jù)集的接受者操作特征曲線 (AUC) 下的面積
數(shù)據(jù)集 | 30–70% | 40–60% | 50–50% | 60–40% | 70–30% |
測試 | 0.791 | 0.792 | 0.794 | 0.795 | 0.794 |
(0.781–0.791) | (0.787–0.796) | (0.790–0.800) | (0.791–0.799) | (0.790–0.799) | |
驗證 | 0.794 | 0.795 | 0.793 | 0.792 | 0.791 |
(0.790–0.799) | (0.790–0.800) | (0.789–0.797) | (0.787–0.796) | (0.781–0.791) |
為了便于解釋,糖尿病多基因風(fēng)險打分基因檢測將 PRS 縮放為零均值和一個標準差。 糖尿病多基因風(fēng)險打分基因檢測調(diào)查了 PRS 模型是否可以識別 T2D 高風(fēng)險個體。 圖 2 顯示,患有 T2D 的個體的標準化 PRS 中位數(shù)為 0.941,而沒有患有 T2D 的個體為 -0.056,差異為 0.997 (p < 0.00001)。 從圖 3A 中,糖尿病多基因風(fēng)險打分基因檢測發(fā)現(xiàn)標準化的 PRS 近似于整個人群的正態(tài)分布,T2D 的經(jīng)驗風(fēng)險在分布的右尾急劇上升。 PRS 模型確定了將近 30% 的人口風(fēng)險大于或等于五倍,12% 的人口風(fēng)險大于或等于六倍,以及前 7% 的人口風(fēng)險大于或等于七倍 對于圖 3A 所示的 T2D。 然后,糖尿病多基因風(fēng)險打分基因檢測根據(jù) PRS 的百分位數(shù)對人群進行分層,并將前 10 個百分位數(shù)定義為“高風(fēng)險”組,將后 10 個百分位數(shù)定義為“低風(fēng)險”組。 圖 3B 顯示 T2D 的患病率隨著 PRS 模型的百分位數(shù)而增加。 在 30,174 人中,“高風(fēng)險”組有 5,642 例(18.698%),而“低風(fēng)險”組只有 282 例(0.935%),對應(yīng)于 T2D 風(fēng)險比前者增加了近 20 倍 前 10 個百分位數(shù)與后 10 個百分位數(shù)。
我們進一步調(diào)查了多基因預(yù)測因子、性別、年齡、身體測量值和臨床因素在識別 T2D 高風(fēng)險個體中的作用。 表 4 顯示,僅將 PRS 納入預(yù)測模型而未調(diào)整任何其他協(xié)變量的模型 3 的 AUC 在測試數(shù)據(jù)集中為 0.749 [95% CI: (0.744,0.754)],在測試數(shù)據(jù)集中為 0.755 [95% CI: (0.752 , 0.755)] 在驗證數(shù)據(jù)集中。 有趣的是,如果僅將性別、年齡和祖先的前 10 個主要成分納入模型,AUC 為 0.667 [95% CI: (0.663, 0.672)]。 加入PRS后,AUC達到0.795[95% CI: (0.790, 0.800)],比model2提高了約13%。 模型 4(即同時考慮性別、年齡、PC、BMI、WC、DBP、SBP、GL、CL、HDL、LDL 和 TL)的 AUC 為 0.880 [95% CI: (0.878, 0.888)] 并提高到 將 PRS 添加到模型中時,驗證數(shù)據(jù)集中的 0.901 [95% CI: (0.897, 0.904)]。 簡而言之,多基因評分確實有助于識別 T2D 的高危個體,而 T2D 相關(guān)協(xié)變量的作用也有助于提高預(yù)測正確性。 如表 5 所示,PRS、性別、年齡、身體測量值和大多數(shù)臨床因素都與 T2D 顯著相關(guān) (p < 0.0001)。
表 4:測試和驗證數(shù)據(jù)集中不同模型的接受者操作特征曲線 (AUC) 下的面積。
數(shù)據(jù)集 | 平均值 | 模型2 | 模型3 | 模型1 | 模型4 | 模型5 |
測試 | −0.003 | 0.671 (0.666–0.676) | 0.749 (0.744–0.754) | 0.792 (0.787–0.796) | 0.886 (0.882–0.889) | 0.902 (0.899–0.905) |
驗證 | −0.003 | 0.667 (0.663–0.672) | 0.755 (0.752–0.755) | 0.795 (0.790–0.800) | 0.882 (0.878–0.888) | 0.901 (0.897–0.904) |
表 5:驗證數(shù)據(jù)集中 model5 下的參數(shù)估計
變量 | Estimate beta | 標準差 | Z | p-value |
(Intercept) | 24.500 | 0.495 | 49.474 | < 2×?10−16 |
PRS | 12370.000 | 167.400 | 73.943 | < 2×?10−16 |
CL | −0.591 | 0.057 | −10.377 | < 2×?10−16 |
HDL | 0.051 | 0.063 | 0.876 | 0.381 |
LDL | 0.010 | 0.068 | 0.140 | 0.888 |
TL | 0.285 | 0.013 | 21.826 | < 2×?10−16 |
Sex | −0.214 | 0.028 | −7.731 | 1.070×?10−14 |
WC | 0.045 | 0.002 | 28.356 | < 2×?10−16 |
BMI | 0.036 | 0.004 | 9.325 | < 2×?10−16 |
Age | 0.060 | 0.002 | 38.401 | < 2×?10−16 |
DBP | −0.018 | 0.001 | −13.928 | < 2×?10−16 |
SBP | 0.005 | 0.001 | 7.626 | 2.410×?10−16 |
GL | 0.449 | 0.006 | 69.917 | < 2×?10−16 |
PC10 | 0.020 | 0.004 | 4.726 | 2.280×?10−16 |
關(guān)于糖尿病多基因風(fēng)險評分的正確性分析
糖尿病多基因風(fēng)險評分的正確性研究組的結(jié)果表明,在針對性別、年齡和祖先的前 10 個主要成分進行調(diào)整后,賊佳 PRS 模型的 AUC 為 0.795。 它表明 PRS 確實有助于識別處于發(fā)展 T2D 高風(fēng)險中的個體。 同時,病例和對照組的 PRS 分布存在顯著差異,即病例的 PRS 中位數(shù) (0.941) 遠高于對照組 (-0.056)。 此外,大約 30% 的參與者患 T2D 的風(fēng)險增加了 5 倍以上,12% 的參與者的風(fēng)險增加了 6 倍以上,而前 7% 的參與者的風(fēng)險增加了 7 倍以上。 特別是,根據(jù)百分位數(shù)分層的 PRS 表明,“高風(fēng)險”群體與 T2D 風(fēng)險密切相關(guān)。
上述結(jié)果表明,糖尿病多基因風(fēng)險評分的正確性研究組的 PRS 模型可以用作識別 T2D 高風(fēng)險個體的有力工具; 改進了先前研究。PRS 模型的 AUC 僅使用已發(fā)表的三個 SNP 進行評估,在 6,078 個人中易患 T2D 為 0.571(Weedon 等人,2006)。 在包含更多 SNP 之后,糖尿病多基因風(fēng)險打分研究構(gòu)建了具有 18 個 SNP 的 PRS 模型并獲得了 0.600 的 AUC。 后來對 22 個 SNP 進行的一項研究的 AUC 為 0.570,并允許確定 3.0% 的人群的 T2D 風(fēng)險是平均風(fēng)險的兩倍或更高。 值得注意的是,與糖尿病多基因風(fēng)險評分的正確性研究組的研究(AUC = 0.755)相比,上述三項樣本量較?。ǚ秶鷱?4,907 到 39,117)和 SNP 數(shù)量較少(范圍從 3 到 22)的研究的預(yù)測性能相對較差,糖尿病多基因風(fēng)險評分的正確性研究組的研究(AUC = 0.755)在 274,029 中有 25,454 個 SNP 個人。
此外,糖尿病多基因風(fēng)險評分的正確性研究組強調(diào)非遺傳風(fēng)險因素的作用,即性別、年齡、身體測量和臨床因素。 在調(diào)整性別和年齡時,Meigs 等人 (2008) 在 2,776 個人中獲得了 0.581 的 AUC,Vassy 等人 (2014) 在 11,883 人中提供了 0.726 的 AUC,以及 Läll 等人的 AUC(2017) 達到 0.740。 有趣的是,這項研究處理了 288,978 個人的近 700 萬個變異,在加上性別和年齡后僅產(chǎn)生了 0.730 的 AUC,小于我們的 (0.795),僅包括 25,454 個 SNP。 他們進一步報告說,3.5% 的人口遺傳了一種遺傳傾向,使患 T2D 的風(fēng)險增加了三倍以上,0.2% 的人口遺傳了大于或等于四倍的風(fēng)險,0.05% 的人口遺傳了大于或等于五倍的風(fēng)險 . 他們的研究在四個方面與糖尿病多基因風(fēng)險評分的正確性研究組的不同。 首先,糖尿病多基因風(fēng)險評分的正確性研究組的研究樣本量更大(456,451 對 409,258)。 其次,糖尿病多基因風(fēng)險評分的正確性研究組首先根據(jù)全基因組關(guān)聯(lián) p 值 (p≤5×10−2) 執(zhí)行 SNP 選擇,以便糖尿病多基因風(fēng)險評分的正確性研究組在 PRS 模型中包含更多預(yù)測性 SNP (25,454) 并避免虛假 SNP。 第三,他們使用祖先的前 4 個主成分,而糖尿病多基因風(fēng)險評分的正確性研究組使用祖先的前 10 個主成分,以便更好地控制人口分層。 第四,糖尿病多基因風(fēng)險評分的正確性研究組基于計算效率更高和可擴展性更高的 PRSice-2 軟件生成 PRS,而他們使用 LDpred 程序,它比 PRSice-2 慢得多。 這些差異解釋了為什么糖尿病多基因風(fēng)險評分的正確性研究組的 PRS 模型具有更好的預(yù)測能力。 當(dāng)然,糖尿病多基因風(fēng)險評分的正確性研究組也嘗試加入更多的非遺傳風(fēng)險因素,AUC從0.755增加到0.901。 因此,糖尿病多基因風(fēng)險評分的正確性研究組的研究可以更正確地識別出患 T2D 的低風(fēng)險和高風(fēng)險個體。
糖尿病多基因風(fēng)險評分的正確性研究組的研究具有多重優(yōu)勢。 首先,糖尿病多基因風(fēng)險評分的正確性研究組基于UKB數(shù)據(jù)集構(gòu)建PRS模型,該數(shù)據(jù)集是全球賊大的前瞻性隊列研究之一,個人信息全面豐富,基因分型數(shù)據(jù)質(zhì)量高。 其次,糖尿病多基因風(fēng)險評分的正確性研究組三步過濾程序?qū)?SNP 選擇到 PRS 模型中。 這種方法實現(xiàn)起來很簡單,并且具有很好的預(yù)測性能。 第三,糖尿病多基因風(fēng)險評分的正確性研究組在預(yù)測模型中加入了新的物理測量值和臨床因素(即 WC、DBP、HDL 和 LDL),以提高預(yù)測正確性。 第四,糖尿病多基因風(fēng)險評分的正確性研究組采用了新的 PRS 軟件 PRSice-2,該軟件已被證明在預(yù)測正確性和計算速度方面優(yōu)于其他競爭方法和軟件。
盡管本研究在識別患 T2D 風(fēng)險增加的個體方面做出了重要貢獻; 但是,存在一個主要限制。 UKB 數(shù)據(jù)集中的個體主要是歐洲血統(tǒng); 此處計算的特定 PRS 可能對其他種族群體沒有賊佳預(yù)測能力,因為等位基因頻率、LD 模式和常見 SNP 的效應(yīng)大小在具有不同種族背景的人群中可能不同。
總之,糖尿病多基因風(fēng)險評分的正確性研究組的研究結(jié)果表明,即使僅基于遺傳數(shù)據(jù),PRS 模型也能高度預(yù)測 T2D 風(fēng)險,并且在包含非遺傳風(fēng)險因素后預(yù)測正確性提高,表明我們的 PRS 模型可以用作預(yù)防疾病的有力工具 T2D 篩查。
(責(zé)任編輯:佳學(xué)基因)