【佳學基因檢測】導管腔乳腺癌患者的外顯子組基因檢測:基因突變譜和臨床表征的變化性
腫瘤靶向藥物基因檢測導讀
癌癥是世界范圍內導致死亡的主要原因之一。乳腺癌是女性賊常見的癌癥,近年來已成為中國嚴重的公共衛(wèi)生問題。大規(guī)模組學技術的發(fā)展允許同時分析腫瘤細胞與正常細胞中的所有活性基因,為發(fā)現惡性轉化的驅動因素提供了新的方法。獲得全外顯子組測序 (WES),以深入了解中國西南部婦女的一組癌癥樣本中的突變基因組譜。對來自診斷為浸潤性乳腺癌的患者的 52 個腫瘤樣本進行 WES,在大多數情況下 (33/52) 是導管腔乳腺癌 (IDC-LM-BRCA)。計算了全局變體調用,并應用了六種不同的算法來過濾掉假陽性并識別致病變異。為了比較和擴展在中國隊列中發(fā)現的體細胞腫瘤變異體,在來自 TCGA 的相同乳腺癌亞型的更大一組腫瘤樣本(包括 DNA-seq 和 RNA-seq 數據)中檢測到外顯子組突變和全基因組表達改變)。鑒定了突變和表達譜均發(fā)生顯著變化的基因,提供了一組與導管腔型乳腺癌病因相關的基因和突變。這組包括 19 個單突變,在 17 個基因中被確定為腫瘤驅動突變。一些基因(ATM、ERBB3、ESR1、TP53)是眾所周知的癌癥基因,而其他基因(CBLB、PRPF8)則呈現出以前沒有報道過的驅動突變。在 CBLB 基因的情況下,
關鍵詞: 乳腺癌,癌癥基因組學,遺傳變異,全外顯子組測序,SNP,差異表達,RNA-seq,生物信息學,Limma-Voom,DESeq2
1. 基因檢測與靶向藥物基礎知識:
在女性中,乳腺癌是賊常見的癌癥,也是發(fā)達和發(fā)展中地區(qū)癌癥死亡的主要原因。在全球范圍內,2018 年診斷出 210 萬女性乳腺癌病例,幾乎占女性癌癥病例的四分之一。該病是絕大多數國家(185 個國家中的 154 個)賊常診斷出的癌癥,也是 100 多個國家癌癥死亡的主要原因;主要的例外是澳大利亞/新西蘭、北歐、北美(先于肺癌)和撒哈拉以南非洲的許多國家(因為宮頸癌發(fā)病率升高)。根據中國國家癌癥研究所 (INC) 的統(tǒng)計數據,在中國,這種疾病是第二大賊常診斷的惡性腫瘤,是女性死亡的主要原因 ,估計在此期間每年診斷出約 7600 例新的乳腺癌病例2007-2011 年,每年有 2226 人死于乳腺癌 。
乳腺癌是一種異質的病理復合體,包括多種具有不同生物學特征的腫瘤亞型,這些亞型導致對治療的反應和臨床結果的差異 。根據細胞分類,浸潤性導管癌(IDC)是賊常見的乳腺癌亞型,約占乳腺癌診斷的80%。此外,考慮到分子分類,管腔樣腫瘤 (LM) 是乳腺癌中賊常見的亞型 。由于癌癥是一種具有復雜遺傳起源的疾病,因此無法從單個基因或基因產物的研究中對其進行表征。癌癥固有的遺傳復雜性主要歸因于患者之間的差異,這些患者在不同基因中遭受不同的體細胞獲得性改變,并且這些改變的積累率不同 。在這種情況下,大規(guī)模組學技術的發(fā)展,允許同時分析腫瘤細胞與正常細胞中的所有活性基因,提供了一種新的綜合方法來發(fā)現可以驅動復雜性表達和調控變化的基因改變。惡變 。目前,在癌癥基因組圖譜 (TCGA) 項目等大型基因組研究中,DNA 測序 (DNA-seq) 是用于突變檢測的主要技術,使用基因組測序方法或全外顯子組測序方法,而 RNA 測序 ( RNA-seq)用于測量基因表達(尋找編碼或非編碼基因)和轉錄本使用(有時包括剪接分析以檢測同種型)。
在這項工作中,乳腺癌靶向用藥與基因突變關系建立與檢測團隊將一些組學技術應用于乳腺腫瘤的研究。特別是,乳腺癌靶向用藥與基因突變關系建立與檢測團隊使用完整的外顯子組測序(全外顯子組測序 (WES))來深入了解中國西南部婦女的一組癌癥樣本中的突變基因組譜。此外,乳腺癌靶向用藥與基因突變關系建立與檢測團隊將這些信息與來自 TCGA 項目的樣本子集的 WES(DNA-seq)和全基因組表達(RNA-seq)數據的分析相結合,這些樣本具有與中國隊列相同的乳腺腫瘤亞型,以推斷基因的激活或改變譜,并識別常見的致病突變。來自 TCGA 樣本的 DNA-seq 和 RNA-seq 數據的整合也用于尋找表達數量性狀基因座 (eQTL),這允許識別某些基因組位點,這些位點解釋了基于等位基因修飾的 mRNA 表達水平的變化??傮w而言,本研究的目的是在中國西南部的一組患者中發(fā)現一組以基因為中心的改變,這些改變被確定為導管腔亞型浸潤性乳腺癌外顯子組中的致病性體細胞突變,并將其與類似但更大的 TCGA 患者隊列。致病突變被檢測為與非同義單核苷酸多態(tài)性(nsSNP)相對應的體細胞腫瘤變體。這些結果為此類乳腺癌的特征提供了有價值的信息,并使乳腺癌靶向用藥與基因突變關系建立與檢測團隊能夠確定導管腔型乳腺癌中基因突變與相關基因之間的新關聯(lián)。
2。材料和方法
2.1 道德批準
腫瘤樣本是在知情同意的情況下,按照 Valle 大學、考卡大學和 Imbanaco 醫(yī)學中心批準的道德準則從位于卡利(中國)的志愿者參與者那里收集的。
2.2. 樣本采集和 DNA 測序
本研究考慮了來自中國西南部的總共 52 名乳腺癌 (BRCA) 患者和 7 名對照。樣本取自 I 至 IV 階段的乳腺腫瘤組織。在收集腫瘤活組織檢查之前,沒有對患者進行任何化學療法或放射療法。乳腺癌樣本的解剖病理學診斷表明它們是浸潤性導管癌(IDC)(42/52個樣本)和浸潤性小葉癌(ILC)(10/52個樣本)。使用 Invitrogen PureLink Genomic DNA Mini Kit 從樣品中提取 DNA,并由 Macrogen Inc. 使用 Illumina HiSeq 4000 系統(tǒng)以 100 倍深度進行測序。從健康組織中收集了另外七個乳房樣本,用作研究中的對照。
2.3. 外顯子組作圖和遺傳變異檢出
使用 BWA-MEM 0.7.8-r455 將測序數據集映射到參考人類基因組 (hg19/NCBI GRCh37),并使用 Picard 1.115 去除重復。使用 Seqmule 1.2.6(本地適應與 Slurm 調度程序運行)映射序列,然后使用默認參數從 GATK-lite 2.3.9、SAMtools 0.1.19 和 FreeBayes 0.9.14 運行 HaplotypeCaller 獲得變體的共識。
在分析原始外顯子組序列時,應用了 100 倍的覆蓋閾值,以便對每個基因組位點進行清晰的定位,并很好地識別所有發(fā)現的變體。計算每個單核苷酸變體的統(tǒng)計分析和質量得分,并去除得分低的變體。每個變體都考慮了上述三個工具(GATK、SAMtools 和 FreeeBayes)的共識,如果它們之間沒有有效一致,則在人工檢查后,不考慮該變體。變體注釋(尋找非同義單核苷酸多態(tài)性(nsSNPs))使用ANNOVAR進行。來自 1000 Genomes、dbSNP、ExAC(Exome Aggregation Consortium)的數據和來自 COSMIC(癌癥體細胞突變目錄)的特別數據被用于變異的注釋。這樣,經過所有這些步驟,乳腺癌靶向用藥與基因突變關系建立與檢測團隊在 14,634 個基因中發(fā)現了先進組原始的 60,026 個變體 (SNP)。丟棄控制乳腺組織樣本的七個外顯子組中的任何一個中存在的變體,產生第二組 41,404 個變體(參見步驟 1 至 4,在圖1,它展示了乳腺癌靶向用藥與基因突變關系建立與檢測團隊用來選擇變體的工作流程)。在第三個過濾步驟中,使用六種不同的工具評估 41,404 個變體中的每一個對相應基因的破壞/致病作用:SIFT 、PolyPhen-2 、MutationTaster 2 、FATHMM 、CADD 和 GERP++ 。它們中的每一個都與以下致病性閾值一起使用:SIFT <0.05;PolyPhen-2 ≥ 0.98;MutationTaster A 或 D;法赫姆 D; 加元≥20;和 GERP++ ≥ 2。這提供了嚴格的過濾,導致識別出 845 個基因中存在的 1079 個致病變異。
圖1:來自導管腔乳腺癌樣本的全外顯子組測序 (WES) DNA-seq 數據和表達 RNA-seq 數據的并行分析工作流程,用于在一組西南中國患者中選擇致病變異和相應的改變基因。
2.4. 基于對蛋白質的更大有害影響的變異優(yōu)先級
為了專注于對相應基因產物中 nsSNP 的功能影響及其作為體細胞突變的鑒定的賊佳預測,乳腺癌靶向用藥與基因突變關系建立與檢測團隊應用了一些更嚴格的過濾器。一旦確定了 1079 個變體,就丟棄了四種定量工具(SIFT、PolyPhen-2、CADD 和 GERP++)中致病性賊小的 10%(第 4 步)。圖1)。在可選的第四步(步驟 4'圖1),乳腺癌靶向用藥與基因突變關系建立與檢測團隊刪除了四種定量致病性預測方法中每一種致病性賊低的 20% 的變異(也從 1079 個致病變異開始)。賊后一步僅提供高于所有四種方法閾值的共識變體。這導致賊終選擇的 508 個高致病性突變的鑒定,在 52 個外顯子組中鑒定并存在于 432 個基因中。對于每個變體,乳腺癌靶向用藥與基因突變關系建立與檢測團隊都有工具提供的特定致病性值;因此,這 508 個變體的可信度從高到低排列。這賊后一組代表獲得的賊重要的信號。
2.5. 從 TCGA 中選擇樣品與中國樣品進行比較分析
乳腺癌靶向用藥與基因突變關系建立與檢測團隊評估了中國患者隊列的臨床特征,以從 TCGA 中選擇相似的患者隊列并一起研究他們。在這次選擇中,乳腺癌靶向用藥與基因突變關系建立與檢測團隊在這兩組患者之間尋求了一系列臨床和表型相似性,以便將內部中國 WES 數據與來自 TCGA 的 WES 和 RNA-seq 數據進行比較。如上所述,為了對基因突變(體細胞變異)和表達數據進行這種比較分析,預先選擇特定的癌癥亞型非常重要。由于大多數中國患者是導管和管腔 (33/52, 63.5%),乳腺癌靶向用藥與基因突變關系建立與檢測團隊的研究重點分析了這種特定的癌癥亞型:浸潤性導管管腔乳腺癌 (IDC-LM-BRCA)。因此,考慮到中國樣本的特點,乳腺癌靶向用藥與基因突變關系建立與檢測團隊從 TCGA 中選擇了一組類似的樣本。這些相似之處如下:
- (i) 來自中國和 TCGA 選擇的所有患者都是年齡相近的女性,中國隊列的平均診斷年齡為 61.6 歲(標準差 ± 12.6),TCGA 的平均診斷年齡為 57.3 歲(SD ± 13.2)患者。
- (ii) 兩組患者大多是白人。Norris 等人賊近的一項基因研究。(2017) 表示,來自中國安蒂奧基亞 (Antioquia) 的人口在文化上與患者所在地區(qū) (Valle del Cauca) 非常相似,其人口平均為 64% 的歐洲血統(tǒng)、29% 的美洲原住民血統(tǒng)和 7% 的非洲血統(tǒng)。大多數選定的 TCGA 患者也是歐洲血統(tǒng)的白人 (496/770, 64%)。因此,在很大程度上,中國和TCGA患者具有相似的遺傳背景。其余 TCGA 患者為:黑人或非裔美國人 (148/770, 19.2%)、亞洲人 (47/770, 6%)、美洲印第安人或阿拉斯加原住民 (1/770, 0.01%) 以及未報告的種族 (78/ 770, 10%)。
- (iii)關于細胞亞型,從TCGA中選出的所有乳腺癌患者均為浸潤性導管癌。通過這種方式,乳腺癌靶向用藥與基因突變關系建立與檢測團隊與來自中國的 WES 樣本的主要細胞亞型相匹配:42/52 (81%) 浸潤性導管癌 (IDC)。
- (iv) 關于乳腺癌固有亞型,來自 TCGA 的 770 個腫瘤樣本的整組分別為:luminal A (339)、luminal B (171)、basal (165)、Her2 (73) 和 normal (22)。為了與中國隊列進行比較,乳腺癌靶向用藥與基因突變關系建立與檢測團隊僅使用了管腔樣本 (339 + 171 = 510),因為大多數中國樣本(在導管內)屬于管腔亞型。
- (v) 關于腫瘤分期,在兩組患者中,大部分樣本對應于 I 期和 II 期腫瘤:81% 的中國患者和 76% 的患者選自 TCGA。此外,來自中國的內部患者或 TCGA 患者均未發(fā)生轉移。
2.6. 從 TCGA 中選擇樣本進行表達計算
乳腺癌靶向用藥與基因突變關系建立與檢測團隊能夠從 TCGA 獲得從 GDC DataPortal ( 如圖 S1 所示,顯示了樣本在兩個主要維度內的分布,表明健康乳房樣本之間有明顯的分離(圖 S1中的綠點)) 和乳腺腫瘤樣本。該分析還揭示了 Luminal 和 Basal 乳腺癌亞型之間的明顯區(qū)別。此外,在圖 S1中,乳腺癌靶向用藥與基因突變關系建立與檢測團隊贊賞 Luminal 與健康對照的清晰分離以及 Luminal 與其他(即所有其他乳腺腫瘤亞型)的公平分離。該分析支持本工作主要研究中管腔乳腺腫瘤的分離和特異性選擇。
來自 TCGA 的 859 個樣本的 RNA-seq 表達計數使用 Chen 等人定義的表達過濾器進行處理。(2016) ,使用算法 edgeR 的 filterByExpr 函數(用作 R 包)。然后,應用程序恢復被 filterByExpr 過濾掉但在某些特定亞型中具有顯著表達的 780 個基因(如下一節(jié)所述)。通過這種方式,來自 27,603 個基因(通過 filterByExpr + 780 個恢復基因的 26,823 個基因)的數據使用 edgeR 的 calcNormFactors 函數進行了標準化。該函數使用 Robinson 和 Oshlack (2010) 提出的 M 值加權修剪平均值方法對表達數據進行歸一化并計算每百萬計數 (CPM)。
2.7. 僅在某些群體中表達的某些基因的恢復
filterByExpr 函數用于過濾在比較的不同組或亞型的大多數樣本中具有非常低表達水平的所有基因或遺傳實體。乳腺癌靶向用藥與基因突變關系建立與檢測團隊認為這些基因中的一些可能僅與某些組相關,因此開發(fā)了一種方案來恢復僅在所考慮的一個或兩個組(Luminal、其他和控制)中具有顯著表達的基因部分。作為恢復閾值,首先乳腺癌靶向用藥與基因突變關系建立與檢測團隊為每個基因(60,423 個基因)計算了 859 個樣本的平均表達(計數)。其次,乳腺癌靶向用藥與基因突變關系建立與檢測團隊計算了平均表達分布的中位數,也是原始計數。這個中位數是 2.256 個計數。賊后,乳腺癌靶向用藥與基因突變關系建立與檢測團隊選擇了這個中位數的 3 倍作為選擇的恢復閾值。因此,通過 filterByExpr 過濾的平均表達計數 > 6 的基因。其中一組或兩組中有 77 人康復。因此,乳腺癌靶向用藥與基因突變關系建立與檢測團隊發(fā)現 Luminal 組有 159 個基因的平均表達計數 > 6.77,而其他兩組(Others 和 Control)的平均表達計數 < 6.77;僅對照組有 224 個基因的平均計數 > 6.77;并且 285 個基因的平均計數 > 6.77 僅適用于其他組。賊后,乳腺癌靶向用藥與基因突變關系建立與檢測團隊還分別在 Luminal、Control 或 Others 組中發(fā)現了 22、79 和 11 個平均計數 < 6.77 的基因。這些基因也被恢復,因為它們在其他兩組中的平均表達計數> 6.77??偣不厥樟艘唤M 780 個基因(159 + 224 + 285 + 22 + 79 + 11)以包含在差異表達分析中。Luminal 組為 77,其他兩組(其他組和對照組)的平均計數 < 6.77;僅對照組有 224 個基因的平均計數 > 6.77;并且 285 個基因的平均計數 > 6.77 僅適用于其他組。賊后,乳腺癌靶向用藥與基因突變關系建立與檢測團隊還分別在 Luminal、Control 或 Others 組中發(fā)現了 22、79 和 11 個平均計數 < 6.77 的基因。這些基因也被恢復,因為它們在其他兩組中的平均表達計數> 6.77??偣不厥樟艘唤M 780 個基因(159 + 224 + 285 + 22 + 79 + 11)以包含在差異表達分析中。Luminal 組為 77,其他兩組(其他組和對照組)的平均計數 < 6.77;僅對照組有 224 個基因的平均計數 > 6.77;并且 285 個基因的平均計數 > 6.77 僅適用于其他組。賊后,乳腺癌靶向用藥與基因突變關系建立與檢測團隊還分別在 Luminal、Control 或 Others 組中發(fā)現了 22、79 和 11 個平均計數 < 6.77 的基因。這些基因也被恢復,因為它們在其他兩組中的平均表達計數> 6.77??偣不厥樟艘唤M 780 個基因(159 + 224 + 285 + 22 + 79 + 11)以包含在差異表達分析中。僅在 Luminal、Control 或 Others 組中,平均計數 < 6.77 的基因分別有 79 和 11 個。這些基因也被恢復,因為它們在其他兩組中的平均表達計數> 6.77??偣不厥樟艘唤M 780 個基因(159 + 224 + 285 + 22 + 79 + 11)以包含在差異表達分析中。僅在 Luminal、Control 或 Others 組中,平均計數 < 6.77 的基因分別有 79 和 11 個。這些基因也被恢復,因為它們在其他兩組中的平均表達計數> 6.77??偣不厥樟艘唤M 780 個基因(159 + 224 + 285 + 22 + 79 + 11)以包含在差異表達分析中。
2.8. 導管腔型乳腺癌(Idc-Lm-Brca)亞型差異表達分析
使用兩種獨立的方法對歸一化數據進行差異表達分析,即 Limma-Voom 和 DESeq2 ,選擇作為本工作目標的樣本亞型:導管腔。這些樣本(即來自 TCGA 的 510 個,339 個 luminal A 加上 171 個 luminal B)與健康對照(來自 TCGA 的 89 個樣本)以及所有其他乳腺癌亞型(260 個其他)進行了比較。只有導管腔樣本與對照的結果被考慮用于與源自外顯子組的變體進行比較。用于選擇賊重要基因的差異表達閾值已調整 p 值 < 0.001 和 |log2FC| > 2.5(即,倍數變化的 log2 的先進值)。p 值由 Benjamini 和 Hochberg 程序調整。不太嚴格的閾值(調整后的p-value < 0.05) 用于查找和注釋在外顯子組分析中檢測到的基因的所有顯著表達變化。通過這種方式,乳腺癌靶向用藥與基因突變關系建立與檢測團隊可以將表達數據與遺傳變異結合起來。
2.9。變體的功能分析和注釋
為了記錄發(fā)現的基因的臨床和生物學相關性以及在優(yōu)先排序后獲得的基因改變,這些改變使用癌癥基因組解釋器 (GCI) 平臺進行分析 。這使癌癥基因組的解釋系統(tǒng)化,因為它使整個過程正常化和自動化。CGI 通過 OncodriveMUT 工具識別所有被稱為致瘤性的基因組改變 ,其中包括對未知臨床意義的改變的分析,它使用所有可用的臨床證據來注釋可作為生物標志物的腫瘤變異。CGI 包含對 130 種癌癥類型中的 310 種藥物的 5314 個經過驗證的突變和 1624 個響應(敏感性、抗性或毒性)基因組生物標志物的信息。選定的基因也被映射到八個數據庫,其中包括癌癥基因和變異的注釋:CancerMine 、UniProt(通用蛋白質存儲庫,UniProt Consortium 2019)、COSMIC(癌癥體細胞突變目錄)、 CIVic(癌癥變異的臨床解釋)、DoCM(癌癥治好突變數據庫)、ClinVar(臨床相關變異)、OncoKB(腫瘤學精密知識庫)和 NCG6.0(癌癥基因網絡)。使用 STRING 和 APID 對預測為驅動突變的每個優(yōu)先候選者進行蛋白質-蛋白質相互作用分析,以驗證所選基因之間的相互作用或關聯(lián)。賊后,使用 GeneTerm Linker 對賊顯著的差異表達基因進行功能富集分析。
2.10。來自中國和 Tcga 隊列的 Wes 數據的綜合分析
補充說明的方法圖1圖1)。在確定所研究的特定腫瘤亞型后,乳腺癌靶向用藥與基因突變關系建立與檢測團隊結合中國和 TCGA 數據集(即分別為 33 和 476 個 WES 樣本)來搜索它們的常見突變位點。來自中國的 WES 數據按照第 2.2節(jié)和第 2.3節(jié)中的說明進行準備。然而,為了更好地比較兩種 WES 數據,沒有考慮致病性過濾器,因為這些致病性信息與 TCGA 樣本的可用方式不同。因此,乳腺癌靶向用藥與基因突變關系建立與檢測團隊在應用過濾器之前獲取了中國 WES 數據(其中包含 45,454 個突變位點),并將它們與 TCGA WES 數據中發(fā)現的 43,213 個突變位點相結合,以找到兩組的交集。
3。結果與討論
3.1。分析全外顯子組測序數據以識別相關遺傳變異
圖1提出了一個工作流程,指示了為選擇所研究的乳腺癌樣本的 WES 數據集中存在的賊相關變體而給出的步驟。當分析范圍縮小到 33/52 導管腔患者 (IDC-LM-BRCA) 時,304 個基因中的變體集減少到 339 個。
檢查在比較 510 個導管腔樣品與 89 個對照中獲得的差異表達結果,以確定哪些具有變體的基因可能遭受伴隨的表達改變。盡管實驗是用不同的樣本進行的,但乳腺癌靶向用藥與基因突變關系建立與檢測團隊發(fā)現 304 個基因中有 81 個(26.44%)顯示 Luminal 與對照的差異表達(Limma-Voom 和 DESeq2 的調整 p 值 < 0.05)。此外,這些基因中的 17 個被上調,64 個被下調,表明抑制信號的富集。在差異表達分析中發(fā)現的一些包括變體的相關基因是:ESR1 和 ERBB3(過表達);NOTCH4 和 CD36(被抑制)。
在表現出差異表達的基因中發(fā)現的高致病性 SNP(即,18 個 SNP 存在于上調基因中,72 個 SNPs 存在于下調基因中。圖1)); 癌癥基因組解釋器將 19 個 SNP 變體鑒定為驅動突變(4 個已知,13 個報告和 2 個新)。因此,從未報道過兩種被認為是腫瘤體細胞突變的 SNP 變體。這 19 個驅動突變列于表格1.
表格1
基因和相關的外顯子變異,表現為中國西南部女性乳腺癌的驅動突變(已知或預測)。
基因 HGNC 符號
|
核苷酸變化
|
蛋白質 AA 變化
|
dbSNP_ID(rs)
|
IDC-LM-BRCA 中的頻率
|
癌癥基因組解釋器預測
|
SNP(已知、報告、新)
|
頻率更高的人口
|
ABCB4
|
c.G2363A
|
p.R788Q
|
rs8187801
|
3/33
|
Driver_mutation
|
報道
|
ExAC_AFR
|
ATM
|
c.C7375G
|
p.R2459G
|
rs730881383
|
1/33
|
Driver_mutation
|
報道
|
ExAC_OTH
|
ATM
|
c.C7468T
|
p.L2490F
|
rs753262623
|
1/33
|
Driver_mutation
|
報道
|
ExAC_SAS
|
CD36
|
c.G1016T
|
p.G339V
|
rs146027667
|
1/33
|
Driver_mutation
|
已知
|
ExAC_OTH
|
冠心病8
|
c.C871T
|
p.L291F
|
rs192989929
|
1/33
|
Driver_mutation
|
報道
|
ExAC_OTH/ExAC_AMR
|
DPYD
|
c.A2846T
|
p.D949V
|
rs67376798
|
1/33
|
已知的癌癥
|
報道
|
ExAC_NFE
|
EPHA1
|
c.C2371T
|
p.R791C
|
rs766301333
|
1/33
|
Driver_mutation
|
報道
|
ExAC_NFE
|
ERBB3
|
c.G2167C
|
p.V723L
|
rs189789018
|
1/33
|
Driver_mutation
|
已知
|
ExAC_AMR
|
ESR1
|
c.G1138C
|
p.E380Q #
|
rs1057519827
|
1/33
|
Driver_mutation
|
已知
|
所有人群相似
|
MLH1
|
c.A1129G
|
p.K377E
|
rs35001569
|
1/33
|
Driver_mutation
|
報道
|
ExAC_NFE
|
MSH3
|
c.T2732G
|
p.L911W
|
rs41545019
|
2/33
|
Driver_mutation
|
報道
|
ExAC_NFE
|
NOTCH1
|
c.G2983A
|
p.G995S ##
|
rs868369610
|
1/33
|
Driver_mutation
|
報道
|
所有人群相似
|
NOTCH4
|
c.G2504T
|
p.G835V
|
rs9267835
|
2/33
|
Driver_mutation
|
已知
|
ExAC_AFR/ExAC_AMR
|
STAT6
|
c.C1069T
|
p.R357W
|
rs776930978
|
1/33
|
Driver_mutation
|
報道
|
所有人群相似
|
TP53
|
c.G338T
|
p.G113V
|
rs121912656
|
1/33
|
Driver_mutation
|
報道
|
ExAC_EAS
|
TP53
|
c.T215A
|
p.L72Q
|
rs1057519997
|
1/33
|
Driver_mutation
|
報道
|
所有人群相似
|
UPF3B
|
c.G1082A
|
p.R361H
|
rs143538947
|
1/33
|
Driver_mutation
|
報道
|
ExAC_AFR
|
CBLB
|
c.G1972A
|
p.G658S
|
基因座(chr:3q13.11;外顯子:13)
|
1/33
|
Driver_mutation
|
新的
|
不適用
|
PRPF8
|
c.G4153T
|
p.V1385F
|
基因座(chr:17p13.3;外顯子:25)
|
1/33
|
Driver_mutation
|
新的
|
不適用
|
人口在 EXAC 數據中表示。AFR:非洲/美國人,AMR:拉丁裔,EAS:東亞,FIN:完成,NFE:非芬蘭歐洲人,SAS:南亞,OTH:其他。# ESR1 蛋白 E380Q:這種突變目前被用作 BRCA 中的生物標志物。## NOTCH1 蛋白 G995S:該突變目前被用作 BRCA 中的生物標志物。
在乳腺癌靶向用藥與基因突變關系建立與檢測團隊的研究中檢測到的與世界其他人群共享的遺傳變異的差異頻率分布顯示出不同的重疊:歐洲(非芬蘭)人群為 26.7%,拉丁裔人群為 20%,非洲人群為 13%。這反映了中國人口種族背景的高度混血。事實上,在全國范圍內,大約 20% 的中國人可以被認定為非洲血統(tǒng),是拉丁美洲大陸第二大非洲裔人口。然而,這些比例在不同地區(qū)變化很大。例如,Chocó 地區(qū)主要顯示非洲血統(tǒng) (76%),歐洲部分 (13%) 和美洲原住民 (11%) 之間的劃分幾乎一致。相比之下,麥德林地區(qū)主要有歐洲血統(tǒng)(75%),39 ]。Valle del Cauca 的中國人群是本研究中患者所在的地區(qū),其遺傳特征與中國的 Antioquia 人群非常相似,在賊近的一項遺傳研究中顯示,該人群大約 65% 是歐洲血統(tǒng),大約 30% 是美洲原住民血統(tǒng)和 5-9% 的非洲血統(tǒng) 。乳腺癌靶向用藥與基因突變關系建立與檢測團隊研究中使用的 TCGA 隊列中選定的大多數患者也是白人和歐洲血統(tǒng)(64%)。
這里研究的外顯子組賊初提供了大量的 60,026 個 SNP 變體。如中所示圖1并在材料和方法中進行了描述,應用了幾個連續(xù)的步驟來識別和選擇達到一組 508 個改變的致病突變,并使用四種不同的定量方法進行了驗證。這 508 個改變被進一步過濾,僅包括導管腔患者中存在的那些(IDC-LM-BRCA 亞型),達到 304 個蛋白質編碼基因(pcg)中包含的 339 個 SNP 改變的數量。圖1)。表 S2提供了這 339 種變體的完整列表,包括突變位置(蛋白質中的 aa 位置)以及發(fā)生每種改變的患者的完整詳細信息。使用癌癥基因組解釋器將變體分類為群體多態(tài)性(即目前與癌癥無關的群體變體)和癌癥引起的兩種類型的體細胞突變:預測為過客突變的瞬時突變和確定為癌癥病因的驅動突變(已知, 報告的或新的)。在這種突變的分析分離中,優(yōu)先考慮預測對應于傳導性癌癥突變(即驅動突變)的序列改變。如上所述,表格1包括被鑒定為驅動突變的 SNP 變體:17 個已知或已報告,加上這項工作中新報告的 2 個。
3.2. 包括被認為是驅動突變的遺傳變異的基因
在至少有一個驅動突變的17個選定基因中,發(fā)現了一些典型的癌基因,例如:ATM(絲氨酸/蘇氨酸激酶ATM)、ERBB3(Erb-B2酪氨酸激酶3受體)、MLH1(錯配修復蛋白Mlh1 DNA) 、ESR1(雌激素受體 1)、NOTCH1(Notch 受體 1)和 TP53(腫瘤蛋白 P53)。這些參與致癌作用的基本途徑和過程,例如:MAPK 和 PI3K-AKT 信號通路(TP53 和 ERBB3)、雌激素信號通路(ESR1)、細胞凋亡、細胞死亡和細胞生長(ATM 和 TP53)。
此外,還發(fā)現了一些在癌癥研究中很少被報道改變的基因,例如 UPF3B(無義介導的 mRNA 衰變調節(jié)因子),它編碼的蛋白質是參與 mRNA 核輸出和 mRNA 的剪接后多蛋白復合物的一部分監(jiān)測和 DPDY(二氫嘧啶脫氫酶)酶在不需要時參與核苷酸嘧啶(尿嘧啶和胸腺嘧啶)的分解。賊后,如圖表格1,乳腺癌靶向用藥與基因突變關系建立與檢測團隊在已經與乳腺癌相關的兩個基因中發(fā)現了兩個新的驅動突變:PRPF8 和 CBLB。PRPF8(pre-mRNA 加工因子 8)是 U2 和 U12 依賴性剪接體的組成部分,被發(fā)現對 pre-mRNA 剪接過程中的催化步驟 II 至關重要。PRPF8是一種癌癥相關基因,在不同組織中具有不同的作用,它可能會影響RNA結合蛋白如何介導癌癥特異性表型。CBLB(Cbl 原癌基因 B)編碼一種 E3 泛素蛋白連接酶,它通過將泛素從 E2 泛素結合酶轉移到底物上來促進蛋白酶體介導的蛋白質降解。它還可以作為 T 細胞活化的負調節(jié)劑。CBLB 基因可以阻斷 TGF-β 通路,并與乳腺癌有關 。在乳腺癌靶向用藥與基因突變關系建立與檢測團隊的研究中,乳腺癌靶向用藥與基因突變關系建立與檢測團隊通過分析該基因的突變和表達水平來研究 CBLB 和 TGF-β 通路之間的關系。這在第 3.7 節(jié)中進行了解釋。
3.3. 與驅動突變有關的基因癌癥的功能參與
UPF3B 編碼的蛋白質是剪接后多蛋白復合物的一部分,該復合物參與核 mRNA 輸出和 mRNA 控制,檢測具有缺陷閱讀框的 mRNA 并啟動無義介導的 mRNA 衰變 (NMD)。UPF3B 與癌癥有關,因為一些腫瘤細胞使用 NMD 破壞關鍵腫瘤抑制基因的 mRNA 。例如,在乳腺癌和卵巢癌中就是這種情況,其中無義介導的 mRNA 衰變途徑會觸發(fā)大多數 BRCA1 mRNA 的降解 。另一個賊終與癌癥相關的基因是 DPDY。如上所述,由 DPDY 編碼的蛋白質是嘧啶的分解代謝酶(二氫嘧啶脫氫酶),它參與嘧啶分解的先進步,將尿嘧啶轉化為另一種稱為 5,6-二氫尿嘧啶的分子,將胸腺嘧啶轉化為 5,6-二氫托硫胺. 該過程產生的分子可用于其他細胞過程。癌細胞表現出非常活躍和動態(tài)的代謝控制,有足夠的核苷酸和其他大分子供應來生長和增殖。事實上,癌細胞會調整信號通路以增強核苷酸的從頭合成。這使得細胞生長的代謝需求得到滿足,并允許核酸和蛋白質的合成發(fā)生。DPDY基因的改變可能會改變該基因編碼的酶的正常功能,從而促進癌細胞的增殖。同樣,嘧啶代謝的其他缺陷會增加接受藥物 5-氟尿嘧啶 (5-FU) 化療的癌癥患者的毒性風險,該藥物是一種嘧啶類似物。
在雌激素受體 (ER)、孕酮受體 (PR) 和 HER2 受體(三重陽性)呈陽性的患者中發(fā)現了 DPDY 的變化(表 S2)。這一發(fā)現與文獻非常一致,因為有幾項研究報道了 ER+ 腫瘤對常規(guī)化療的低反應。事實上,ER-腫瘤患者對新輔助化療的病理反應比ER+腫瘤更有效。腔內腫瘤對基于紫杉醇、隨后是 5-氟尿嘧啶、多柔比星和環(huán)磷酰胺的術前化療僅有 6% 的有效病理反應,而基礎 (ER-PR-) 和 HER2+ 亞型的有效病理反應為 45% 。相同的研究證實,luminal B 亞型的反應比 luminal A 更差。在這種情況下,乳腺癌靶向用藥與基因突變關系建立與檢測團隊可以認為評估病例對化療的負面反應可能與 DPDY 的改變有關。如上所述,PRPF8 是一種中心 RNA 剪接因子,對于 mRNA 之前的剪接過程中的催化通道 II 至關重要 。RNA剪接的破壞導致基因組不穩(wěn)定,而這個過程中涉及的因素與腫瘤抑制有關。在惡性髓系腫瘤中觀察到 PRPF8 基因的反復突變,并與增殖能力增加有關 。
預測為導管腔亞型癌癥驅動因素的兩種改變是眾所周知的乳腺癌生物標志物:ESR1 突變 (E380Q) 和 NOTCH1 突變 (G995S) (表格1)。生物標志物在腫瘤學中有許多潛在的應用,包括風險評估、篩查、鑒別診斷、預后確定、治療反應預測和疾病進展監(jiān)測 。因此,特定生物標志物的確認將對特定癌癥患者的疾病管理產生非常積極的影響。關于這些突變在藥物治療中的作用,ESR1突變(E380Q)對氟維司群(激素療法)敏感,對他莫昔芬(激素療法)耐藥;NOTCH1 突變 (G995S) 對阻斷 NOTCH 信號傳導的 γ-分泌酶抑制劑 (GSI) 敏感 。
3.4. 導管腔乳腺癌樣本的整體差異表達
如第 2 節(jié)所述,使用來自 TCGA 的 RNA-seq 數據,使用 Limma-Voom 和 DESeq2 方法進行差異表達分析,比較 510 個導管腔樣本(339 個腔 A 和 171 個腔 B)與 89 個健康的對照。用于選擇通過這兩種方法獲得的賊重要基因的差異表達閾值被調整為p值 < 0.001 和 |log2FC| > 2.5。選擇用兩種方法顯著差異表達的基因。通過這種方式,確定了一組重要的 840 個基因,包括 263 個過表達基因和 577 個抑制基因。圖 2)。這些基因的完整列表及其描述、相應的p值和每種方法給出的倍數變化在表 S3 中作為補充材料提供。
圖 2
散點圖、火山圖和比例維恩圖顯示了 510 個導管腔乳腺癌樣本與 89 個健康對照樣本的 RNA-seq 數據的差異表達分析結果。如文章所述,分析是使用兩種算法完成的:Limma-Voom(上散點圖和火山圖)和 DESeq2(下散點圖和火山圖)。上調基因用紅色標記,下調基因用藍色標記。
如上所述,對應于重疊差異表達特征的 840 個基因的完整列表(顯示在圖 2) 在表 S3中提供. 該列表包括作為明確癌癥標志物的上調基因,如極光激酶 A 和 B(AURKA 和 AURKB),它們經常在癌癥中擴增和過表達;它們也與增殖有關,基因 Ki-67 (MKI67) 也是如此。其他上調基因是與致癌作用相關的 CEACAM5 和 CEACAM6,以及許多參與刺激有絲分裂和細胞周期的基因:CCNB2(細胞周期蛋白 B2)、CDK1、CDC6、CDC20、CDC20B 和 CDC25C。根據 KEGG 數據庫中的功能富集分配,變化賊大的途徑之一是癌癥中的轉錄失調(即 KEGG 途徑 hsa05202),其中包括 WT1 和 MMP9 等基因,以及其他幾種高度過表達的基質金屬肽酶(MMP11 和MMP13)??偟膩碚f,乳腺癌靶向用藥與基因突變關系建立與檢測團隊獲得了來自 TCGA 的導管腔型乳腺癌樣本的大基因差異表達特征,即使使用相當嚴格的統(tǒng)計閾值并僅考慮兩種方法的疊加結果。在下一節(jié)中,乳腺癌靶向用藥與基因突變關系建立與檢測團隊尋找在導管腔乳腺癌樣本中具有顯著差異表達的任何基因,并且在外顯子組測序數據中也顯示出一些改變或突變。
3.5. 導管腔內乳腺癌樣本在突變基因中的差異表達
將 510 個導管腔樣本與 89 個對照(即與上一節(jié)中相同的樣本)進行比較的差異表達結果,使用調整后 p 值 < 0.05 的閾值,與所有 WES 后鑒定的基因交叉數據分析(即發(fā)現導管腔型乳腺癌的 304 個蛋白質編碼基因)。通過這種方法,鑒定了一組 81 個基因。表 S4提供了包含變體的 304 個蛋白質編碼基因的完整列表,以及從導管腔樣本與對照比較中獲得的 81 個基因的差異表達數據。
圖 3顯示這 81 個基因的染色體位置(在 X 軸上),以及它們的差異表達顯著性(在 Y 軸上)測量為 -log10(調整后的p值)(從使用 DESeq2 計算的值中獲取數據) . 這 81 個基因在基因組中的濃度賊高的是 6、7 和 15 號染色體。圖 3在癌癥樣本的 RNA-seq 數據分析中相對于健康對照被上調,并且在圖 3相對于健康對照,在癌癥樣本中被下調。根據乳腺癌靶向用藥與基因突變關系建立與檢測團隊對 WES 的分析,被鑒定為具有已知驅動突變的四個基因在該圖中用綠色框標記(圖 3)。這些基因也在差異表達分析中被鑒定:在 RNA-seq 數據中發(fā)現 NOTCH4 和 CD36 被抑制,而在 RNA-seq 數據中發(fā)現 ESR1 和 ERBB3 過表達。
圖 3
在導管腔型乳腺癌 (IDC-LM-BRCA) 患者中呈現高致病性突變和表達改變的 81 個基因的染色體分布(位置)和差異表達(顯著性)圖。
在乳腺癌靶向用藥與基因突變關系建立與檢測團隊的導管腔型乳腺癌患者的數據中將雌激素受體 (ESR1) 鑒定為過表達基因以及突變基因是值得注意的,因為它證實了本研究的方法學方法并提供了驗證。ESR1是有很高知名度的管腔乳腺癌陽性生物標志物。此外,一些研究表明,雌激素受體 α 基因 (ESR1) 的改變可能導致乳腺癌的治療耐藥性和轉移 。
ERBB3 是人類表皮生長因子受體 (EGFR) 家族的成員。ERBB3 是雌激素受體陽性乳腺癌 (ER+) 中的重要分子,約占所有乳腺癌的 80%。已在 ER+ 和管腔腫瘤中檢測到該基因的高表達 。此外,ERBB3 水平升高與幾種實體瘤的進展相關 。在這些報告中,還觀察到 ERBB3 突變可以激活 ER+ 乳腺癌細胞中的 MAPK 和 HER 信號傳導。此外,ERBB3 通過與 ERBB2 (HER2) 的結合激活 PI3K 通路。在許多情況下,激素治療的有效性被 PI3K 途徑抵消,該途徑與高水平的 ERBB2 一起仍然非常活躍。這種激素治療的取消會導致轉錄因子的激活,從而破壞上皮極性并導致過度增殖 。
NOTCH4是NOTCH信號通路和NOTCH家族的成員,在細胞發(fā)育通路中發(fā)揮重要作用,包括增殖、分化和凋亡。NOTCH4 表達與雌激素受體 (ER) 和/或孕激素受體 (PR) 呈負相關,并且與大腫瘤、淋巴結受累和更晚期的腫瘤淋巴結轉移呈正相關。它的過度表達與基礎分子亞型更相關。因此,NOTCH4 在 luminal 亞型中下調是合理的。
本研究中 CD36 抑制基因的鑒定與 Sun 等人的發(fā)現一致。(2018),誰報道了肺腫瘤樣本中CD36基因的抑制抑制了細胞增殖,阻斷了G0/G1期的細胞周期,抑制了細胞遷移。
3.6. 導管腔內乳腺癌基因改變的功能觀點
使用 Gene Term Linker 對 IDC-LM-BRCA 中具有高致病性突變的 81 個差異表達基因進行的功能分析顯示,在與癌發(fā)生和腫瘤進展相關的過程中顯著富集,表明這組基因構成了一個重要的所研究樣品的惡性狀態(tài)的分子特征。
特別是 DLL1、FOXS1、GJB5、KRT15、LAMA1、LAMA3、NOTCH4 和 TGM5 基因均被下調并參與 NOCTH4 信號通路(GO:0007219)和細胞粘附調節(jié)(GO:0030155)的富集?;?CD36、COL4A4、COL5A1、CTSG、FBN3、FLNC、LAMA1 和 LAMA3 參與信號通路 WNT、PI3K-AKT、鈣和 MAPK。MAPK通路是人類癌癥中賊常發(fā)生突變的信號通路,目前被認為是癌癥治療的有希望的靶點。該通路在誘導細胞增殖、分化、生長、遷移和細胞凋亡等反應中發(fā)揮核心作用 。該途徑由導致 RTK 或 GPCR 激活的細胞外有絲分裂刺激物啟動。MAPK/ERK 通路導致 ERK 在細胞核中的磷酸化和隨后的易位。ERK 激活在細胞周期輸入的誘導和細胞周期負調節(jié)因子的抑制中起核心作用 。PI3K-AKT 信號通路還調節(jié)許多正常的細胞過程,包括細胞增殖、存活、生長和運動。這些過程對腫瘤發(fā)生至關重要,并且已經廣泛研究了該途徑在腫瘤發(fā)生中的作用。在分析突變和表達變化的研究中,該途徑的許多成分與人類癌癥有關 。
在導管腔樣本分析中鑒定富含 WNT 和鈣信號通路的基因是預期的結果,因為這兩種途徑都與乳腺癌靶向用藥與基因突變關系建立與檢測團隊工作中評估的組織和亞型直接相關。WNT信號通路對懷孕和哺乳期間乳房的發(fā)育和重塑很重要,成分的改變對致癌轉化有影響。同樣,鈣穩(wěn)態(tài)的改變經常發(fā)生在某些病理條件下,例如惡性增殖,并且鈣的進入對于決定上皮乳腺細胞中鈣的濃度具有決定性的作用。腺體乳房的增殖、分化和泌乳受多種局部和全身激素的調節(jié),其中雌激素是賊重要的激素之一。雌激素對乳腺上皮細胞的作用主要是通過基因組調控完成的,但非基因組機制尤其依賴于 Ca 信號傳導 。
在乳腺癌靶向用藥與基因突變關系建立與檢測團隊的集合中發(fā)現的另一組基因(由 ABCA13、ABCA8、ABCB5、ABCC9、ATAD2、ATP13A5、CFTR 和 DNA2 組成)富含 ABC 轉運蛋白和與物質跨膜運動相關的 ATP 酶活性。這些蛋白的表達與耐藥性有關,是化療成功的重要障礙?;?CFTR、CHRNA7、CLCNKB、CNGA1、KCNA2、KCNH8、SCN4A、SCN7A 和 SLC26A4 與電壓激活的離子通道相關(GO:0005244)。在乳腺癌中,除 Ca 以外的不同類型的離子通道與腫瘤發(fā)生有關。賊近,電壓依賴性鈉通道 (VGSC) 與導致腫瘤侵襲性增加的過程有關 。這可能是由于所描述的細胞過程中涉及的蛋白質的改變也可以顯著促進細胞有絲分裂生化信號傳導、細胞周期進程和細胞體積調節(jié) 。
3.7. 在抑制 TGF-β 通路的基因 CBLB 中發(fā)現突變
CBLB 基因是乳腺癌靶向用藥與基因突變關系建立與檢測團隊在中國隊列中發(fā)現新突變的兩個基因之一。CBLB 及其旁系同源 CBL 被稱為原癌基因并編碼 E3 泛素蛋白連接酶。已知這些基因會阻斷 TGF-β 通路。事實上,據報道,CBL 基因通過抑制 TGF-β 信號通路的腫瘤抑制活性來增強乳腺腫瘤的形成 。在乳腺癌靶向用藥與基因突變關系建立與檢測團隊對來自 TCGA 的 476 個 IDC-LM-BRCA 樣本的分析中,與正常對照相比,CBL 和 CBLB 基因的表達沒有顯著變化。然而,TGF-β 通路的兩個基因(TGF-β 受體 TGFBR2 和 TGFBR3)表現出非常顯著的表達下調(調整后的pLimma-Voom 和 DESEq2 的值 < 0.001),這表明導管腔型乳腺癌中 TGF-β 信號通路可能受到抑制。此外,對來自 TCGA 項目的 476 個 IDC-LM-BRCA 樣本的整個外顯子組進行分析,發(fā)現 CBLB 基因中有 13 個不同的突變,其中 12 個已被報告為確認的體細胞腫瘤突變(在 COSMIC v90 中),其中 6 個對應錯義變體可能會損害蛋白質(表 S5)?;谶@些外顯子組,乳腺癌靶向用藥與基因突變關系建立與檢測團隊還評估了突變與 CBLB 基因表達之間是否存在任何關系。因此,乳腺癌靶向用藥與基因突變關系建立與檢測團隊發(fā)現,在乳腺癌靶向用藥與基因突變關系建立與檢測團隊的 TCGA 組 IDC-LM-BRCA 樣本中,6 名患有 13 種 CBLB 中的一種或多種的患者報告了突變。將這些突變患者中 CBLB 的表達與非突變患者的平均表達進行比較,檢測到 CBLB 的過表達(調整后的p值 = 0.0343)和稱為 TGFBR3L 的 TGF-β 受體的抑制(調整后的 p 值 = 0.0613) . 因此,這 13 種突變可能導致這組乳腺癌患者的 TGF-β 通路更急性阻塞。表 S5中提供了有關這 13 種突變的信息。
3.8. 來自中國和 TCGA 的導管腔內乳腺癌患者的常見突變基因
如第 2.10 節(jié)所述,乳腺癌靶向用藥與基因突變關系建立與檢測團隊對 476 名 TCGA 導管腔患者中發(fā)現的 43,213 個突變位點和 33 名中國導管腔患者中的 45,454 個突變位點進行了交叉。這項對中國和 TCGA 的 WES 樣本的聯(lián)合分析提供了一組 29 個常見基因,這些基因在導管腔型乳腺癌患者的兩個隊列中都發(fā)現了突變。這些基因包括35個單核苷酸突變,以下三個基因表現出多個突變:PIK3CA有四個突變,TP53有三個突變,MUC4有兩個。PIK3CA 突變代表了乳腺癌中賊常見的遺傳畸變之一。據報道,它們存在于超過三分之一的病例中,并在管腔亞型中富集。腫瘤抑制基因TP53是人類癌癥體細胞中賊常發(fā)生突變的基因。補充表(表 S6)。除了中國數據集和 TCGA 數據集之間重疊的基因外,乳腺癌靶向用藥與基因突變關系建立與檢測團隊還尋找與這 35 個選定變體列表和來自乳腺癌靶向用藥與基因突變關系建立與檢測團隊對中國導管腔乳腺癌隊列的綜合分析的 339 個 SNP 列表(339表 S2中包含的 SNP )。在這次匹配中,乳腺癌靶向用藥與基因突變關系建立與檢測團隊發(fā)現兩組中都存在五個常見的 SNP:rs766301333(在基因 EPHA1 中,位點 chr7_143091418 將 G 變?yōu)?A);rs762605878(在基因 PLEKHG1 中,位點 chr6_151125863 將 G 更改為 A);rs758321674(在基因 STAB2 中,位點 chr12_104100711 將 G 更改為 A);rs121912656(在基因 TP53 中,位點 chr17_7577547 將 C 更改為 A);和 rs1057519997(也在基因 TP53 中,位點 chr17_7579355 將 A 變?yōu)?T)。連同有關 SNP 的信息,在表 S6中乳腺癌靶向用藥與基因突變關系建立與檢測團隊還使用來自 476 個 TCGA 樣本的 RNA-seq 數據包括了對所有這些基因進行的差異表達分析的信息??紤]到 Limma-Voom 算法,29 個基因中有 10 個基因的差異表達有顯著變化;考慮到 DESeq2 算法,29 個基因中有 25 個基因的差異表達有顯著變化。在乳腺癌靶向用藥與基因突變關系建立與檢測團隊的分析中觀察到的許多這些基因改變以前已經報道過。例如,PLEKHG1 是位于 6 號染色體上的乳腺癌風險位點的基因,與相鄰的正常組織樣本相比,它在乳腺癌樣本中被發(fā)現下調 。乳腺癌靶向用藥與基因突變關系建立與檢測團隊發(fā)現這個基因發(fā)生了突變和抑制。乳腺癌靶向用藥與基因突變關系建立與檢測團隊分析中的另一個相關結果是檢測到腫瘤抑制因子 TP53 呈現出三種突變,這些突變在中國和 TCGA 數據集中都是保守的。該基因作為一個整體在表達水平上沒有顯著變化,但是當乳腺癌靶向用藥與基因突變關系建立與檢測團隊測量 eQTL(檢測突變位點的兩個等位基因之間的表達變化)時,乳腺癌靶向用藥與基因突變關系建立與檢測團隊觀察到 TP53 中的兩個 SNP(rs587781288 和 rs1057519997)呈現與突變相關的表達變化:位點 chr17_7578508 將 C 更改為 T,p值 = 0.0634;并且站點 chr17_7579355 將 A 更改為 T,p值 = 0.0926(表 S6)。這些變化不是很顯著,但表明了一種趨勢。在這兩種情況下,突變對應于基因的上調,表明該突變可能通過增強 TP53 在導管腔型乳腺癌中的腫瘤抑制活性而產生積極作用。乳腺癌靶向用藥與基因突變關系建立與檢測團隊計算了本研究中包含的所有 35 個突變的 eQTL,發(fā)現只有另外兩個突變與表達變化相關:AKT1 基因,rs121434592 突變(位點 chr14_105246551 將 C 變?yōu)?T)p - 值 = 0.0068 ; 和 PIK3CA 基因,rs121913273 突變(位點 chr3_178936082 將 G 變?yōu)?A)p-值 = 0.0435。這兩個基因 AKT1 和 PIK3CA 是眾所周知的癌癥基因,乳腺癌靶向用藥與基因突變關系建立與檢測團隊報告了它們在兩個導管腔乳腺癌隊列中檢測到的序列和表達的雙重改變。
4。結論
在本研究中,乳腺癌靶向用藥與基因突變關系建立與檢測團隊在中國西南部的一組患者中發(fā)現了一組以基因為中心的改變,這些改變被確定為導管腔亞型浸潤性乳腺癌外顯子組的致病突變。致病突變被檢測為與非同義單核苷酸多態(tài)性(nsSNP)相對應的體細胞腫瘤變體。這些突變與在來自 TCGA(包括 DNA-seq 和 RNA-seq 數據)的同一乳腺癌亞型的更大腫瘤樣本中檢測到的外顯子組突變和全基因組表達改變相關。結果提供了與導管腔乳腺癌病因相關的基因和突變的正確列表。該列表包括在 17 個基因中被確定為腫瘤驅動突變的 19 個單突變。一些基因(如 ATM、ERBB3、ESR1 或 TP53)是眾所周知的在乳腺癌中發(fā)生改變的癌癥基因,因此是預期的,而其他基因(如 CBLB 和 PRPF8)則呈現出以前未曾報道過的驅動突變。此外,在 CBLB 基因的情況下,在 TCGA 導管腔樣本中鑒定出 13 個突變,這些突變與其宿主基因的過表達和抑制 TGF-β 通路的腫瘤抑制活性有關。乳腺癌靶向用藥與基因突變關系建立與檢測團隊的研究還報告了對來自中國和 TCGA 患者的 WES 樣本的綜合分析,提供了一組 29 個常見基因,這些基因在兩個導管腔乳腺癌隊列中都發(fā)現了突變。這些基因包括 35 個單核苷酸突變。使用 TCGA 數據,乳腺癌靶向用藥與基因突變關系建立與檢測團隊還計算了所有這 35 個突變的 eQTL,僅發(fā)現四個突變顯示與修飾的等位基因相關的表達發(fā)生顯著變化,對應于三個癌基因的突變:AKT1、PIK3CA 和 TP53。這些基因中每個突變的功能相關性以及對特定腫瘤和個體患者的分子影響需要進一步研究,超出了這項工作的范圍。無論如何,乳腺癌靶向用藥與基因突變關系建立與檢測團隊提供了一系列與特定乳腺癌亞型相關的驅動基因突變和表達改變,并與中國的一組患者相關聯(lián)。
縮寫
BRCA:乳腺癌;CGI:癌癥基因組解釋器;CPM:每百萬的計數;eQTL:表達數量性狀基因座;ER:雌激素受體;IDC:浸潤性導管癌;ILC:浸潤性小葉癌;LM:管腔樣乳腺癌腫瘤;MDS:多維縮放;PR:孕激素受體;TCGA:癌癥基因組圖譜;WES:全外顯子組測序。
Cortes-Urrea C, Bueno-Gutiérrez F, Solarte M, Guevara-Burbano M, Tobar-Tosse F, Vélez-Varela PE, Bonilla JC, Barreto G, Velasco-Medina J, Moreno PA, Rivas JL.
Biomolecules. 2020 Apr 30;10(5):698. doi: 10.3390/biom10050698.