【佳學(xué)基因檢測】癌癥與腫瘤基因檢測的數(shù)據(jù)庫介紹
癌癥是由于父母基因組合或者是體細(xì)胞突變產(chǎn)生的細(xì)胞增殖增生失去控制的慢性、難治性疾病。癌癥基因突變賊簡單的形式一個(gè)細(xì)胞基因組變化而導(dǎo)致的遺傳性疾病??梢则?qū)動(dòng)腫瘤產(chǎn)生的基因突變包括點(diǎn)突變、插入突變、缺失突變和染色體易位、染色體數(shù)量增加等。這些基因信息的變化可以導(dǎo)致細(xì)胞和組織生長異常,這就是腫瘤所表現(xiàn)出來的臨床表現(xiàn)的基礎(chǔ)。對控制癌癥發(fā)生的分子機(jī)制研究已經(jīng)進(jìn)行了50多年,在這些研究過程中使用了很多分子生物學(xué)手段的研究,使得人們對于癌癥的發(fā)生的機(jī)制有了深入了解。而且在細(xì)胞轉(zhuǎn)化基礎(chǔ)上,人們已經(jīng)了解了許多分子遺傳學(xué)和表觀遺傳學(xué)改變,而且開始解析導(dǎo)致腫瘤表型的復(fù)雜過程。目前,癌癥發(fā)生的基因信息學(xué)、腫瘤發(fā)生的基因解碼,正在帶領(lǐng)著腫瘤的診斷和治療發(fā)生一場深刻的革命。
這些都促進(jìn)了后基因組時(shí)代科技的進(jìn)步,從而令分子生物學(xué)家能夠更加精細(xì)地研究DNA(基因組)、mRNA(轉(zhuǎn)錄組)和蛋白序列(蛋白質(zhì)組)。全面背景下描述癌癥的機(jī)理為研究人員獲得更多有用的數(shù)據(jù)進(jìn)行分析,并將之以全新的方式結(jié)合起來提供了一個(gè)機(jī)遇。盡管存在很多實(shí)際困難,但人們?nèi)匀慌﹂_展更多項(xiàng)目,目的是整合數(shù)百個(gè)樣本以研究來自不同資源的數(shù)據(jù)類型。表1描述了癌癥生物信息學(xué)和系統(tǒng)生物學(xué)的基因組數(shù)據(jù)庫資源。
表1 癌癥生物信息學(xué)和系統(tǒng)生物學(xué)的基因組數(shù)據(jù)庫資源
類型 | 數(shù)據(jù)庫資源 | 數(shù)據(jù)庫類型 | 網(wǎng)址 |
基因組 | 癌癥基因組計(jì)劃(Sanger 中心) | 癌癥基因調(diào)查統(tǒng)計(jì)、體細(xì)胞突變、失雜合圖譜、缺失圖譜、小的基因內(nèi)體細(xì)胞突變 | http://www.sanger.ac.uk/genetics/CGP |
美國人類基因組資源(NCBI) | 人類基因組數(shù)據(jù)的整合信息資源 | http://www.ncbi.nlm.nih.gov/genome/guide/human | |
Genome Browser(加州大學(xué)圣克魯茲分校) | 可視化和查詢工具 | http://genome.ucsc.edu | |
核型 | 癌癥染色體(NCBI) | SKY/M-FISH and CGH數(shù)據(jù)庫、Mitelman數(shù)據(jù)庫、癌癥NCI周期性畸變 | http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=cancerchromosomes |
Progenetix(佛羅里達(dá)大學(xué)) | 不同癌癥類型的CGH 數(shù)據(jù)庫 | http://www.progenetix.net | |
單核苷酸多態(tài)性 | NCBI的單核苷酸多態(tài)性數(shù)據(jù)庫 | 單核苷酸多態(tài)性 | http://www.ncbi.nlm.nih.govprojects/SNP |
SNP500cancer(NCBI) | 癌癥流行病學(xué)有關(guān)的單核苷酸多態(tài)性 | http://snp500cancer.nci.nih.gov | |
基因表達(dá) | NCBI的基因表達(dá)數(shù)據(jù)庫 | 基因表達(dá)數(shù)據(jù)庫瀏覽、搜索和數(shù)據(jù)檢索的策劃資源 | http://www.ncbi.nlm.nih.gov/geo |
Oncomine(美國密歇根大學(xué)) | 定位、搜索和可視化某種基因或癌癥類型的工具 | http://141.214.6.50/oncomine/main/index.jsp | |
癌腫基因組解剖計(jì)(CGAP) | 基因、染色體畸變、SNP 500cancer、組織、SAGE表達(dá)材料(正常的、癌癥前期生物和癌細(xì)胞的)整合資源 | http://cgap.nci.nih.gov | |
臨床基因組 | 癌癥的分子水平分析計(jì)劃(CMAP) | 分子表達(dá)譜、靶標(biāo)、靶向藥物和測試 | http://cmap.nci.nih.gov |
癌癥基因組剖析計(jì)劃(The Cancer Genome Anatomy Project, CGAP)是由美國癌癥研究所(the National Cancer Institute, NCI)在1996年發(fā)起并維持的一項(xiàng)計(jì)劃。至今,它已經(jīng)成為癌癥遺傳學(xué)研究領(lǐng)域的首創(chuàng)。該計(jì)劃已經(jīng)從多種腫瘤樣品和正常樣品中研究出了超過300多萬的表達(dá)序列標(biāo)簽(EST)。
癌癥基因組剖析計(jì)劃(The Cancer Genome Anatomy Project, CGAP)是由美國癌癥研究所(the National Cancer Institute, NCI)在1996年發(fā)起并維持的一項(xiàng)計(jì)劃。至今,它已經(jīng)成為癌癥遺傳學(xué)研究領(lǐng)域的首創(chuàng)。該計(jì)劃已經(jīng)從多種腫瘤樣品和正常樣品中研究出了超過300多萬的表達(dá)序列標(biāo)簽(EST)。
除此之外,該計(jì)劃還利用新的技術(shù)構(gòu)建了數(shù)以百計(jì)的圖書館。提及的新技術(shù)包括基因表達(dá)系列分析(SAGE)和大規(guī)模平行測序技術(shù)(massively parallel signalure sequencing, MPSS)。
SAGE技術(shù)是近幾年發(fā)展起來的一種快速分析基因表達(dá)信息的綜合分析方法,它是公認(rèn)的轉(zhuǎn)錄學(xué)圖譜(Transcriptome profiling)研究的賊佳方法之一。MPSS是以DNA測序?yàn)榛A(chǔ)的大規(guī)模、高通量的基因分析新技術(shù)。它通過標(biāo)簽庫的建立、微珠與標(biāo)簽的連接、酶切連接反應(yīng)和生物信息分析等步驟,可以獲得基因表達(dá)序列。MPSS具有測定表達(dá)水平低、基因差異小,無需預(yù)先知道基因的序列、自動(dòng)化和高通量等特點(diǎn),是一項(xiàng)值得推廣的技術(shù)。在巴西,F(xiàn)APESP/LICR的人類癌癥基因組計(jì)劃(Human Cancer Genome Project, HCGP)利用一種稱為開放閱讀框EST的新技術(shù),研究了超過100萬個(gè)流行腫瘤的EST。由CGAP和HCGP研究的表達(dá)序列,被整合到了國際癌癥基因表達(dá)的數(shù)據(jù)庫(International Database Cancer Gene Expression)。這個(gè)數(shù)據(jù)庫是基因組研究機(jī)構(gòu)(Institute of Genomic Research)(http://www.tigr.org)中人類癌癥索引的基礎(chǔ)。CGAP和HCGP兩個(gè)計(jì)劃已經(jīng)結(jié)合起來。它們本質(zhì)上有一個(gè)共同的目標(biāo)——創(chuàng)建癌癥的表達(dá)目錄,而且它們還注解并向GenBank提交了數(shù)以百萬的腫瘤和正常組織的序列。這兩個(gè)計(jì)劃的目的是確定正常細(xì)胞、前癌細(xì)胞和癌細(xì)胞基因的獨(dú)特表達(dá)模式,以期達(dá)到改善檢測、診斷和治療病人的目的。
癌癥生物醫(yī)學(xué)信息網(wǎng)絡(luò)(Cancer Biomedical Informatics Grid, caBIG)(http://cabig.nci.nih.gov)是一個(gè)雄心勃勃的、由美國癌癥研究所(NCI,http://cancergenome.nih.gov)資助和維護(hù)的一項(xiàng)新計(jì)劃。它旨在建立一個(gè)癌癥網(wǎng)絡(luò),從而整合四類信息:信息接口、詞匯/術(shù)語和本體論、數(shù)據(jù)元素和信息模型等。
caBIG計(jì)劃是一個(gè)由研究人員和組織機(jī)構(gòu)自愿組織的網(wǎng)格項(xiàng)目,目標(biāo)是“創(chuàng)造癌癥研究的全球網(wǎng)絡(luò)”。為了這個(gè)目標(biāo),大家努力為應(yīng)用和分析過程制定了標(biāo)準(zhǔn),以便能更容易地開展合作、分享數(shù)據(jù)。此外,caBIG承擔(dān)了不同領(lǐng)域的開發(fā)項(xiàng)目,例如,開發(fā)臨床試驗(yàn)管理系統(tǒng)、Ontology采集工具和體內(nèi)成像系統(tǒng)等。
自2004年成立以來,caBIG在80個(gè)組織機(jī)構(gòu)的800多名工作人員的合作下,已經(jīng)取得了70 多項(xiàng)成果,包括報(bào)告書、用語、數(shù)據(jù)規(guī)范、軟件工具(例如一種基于網(wǎng)絡(luò)的臨床試驗(yàn)與多重試驗(yàn)數(shù)據(jù)管理應(yīng)用程序)、一種微陣列數(shù)據(jù)庫、一種基因定義元數(shù)據(jù)采集工具以及許多其它成果。
caBIG將個(gè)人和機(jī)構(gòu)聯(lián)系在一起,共享很多數(shù)據(jù)和工具,它構(gòu)建了全球范圍的癌癥研究資源。caBIG是癌基因組阿特拉斯計(jì)劃的一部分,由美國癌癥研究所 (http://cancergenome.nih.gov)資助和維持,它可以加速癌癥預(yù)防或治療方面的新方法問世。
如上所述,caBIG的目標(biāo)是:
(1) 通過一種可共享和可操作的基礎(chǔ)設(shè)施,將科學(xué)家和醫(yī)生聯(lián)系起來;
(2) 通過開發(fā)標(biāo)準(zhǔn)規(guī)則和共同語言,能夠更容易地共享信息;
(3) 建立或調(diào)整工具收集、分析、綜合和傳播與癌癥相關(guān)的研究和護(hù)理的信息。
該caBIG項(xiàng)目旨在建立一個(gè)協(xié)作信息網(wǎng)絡(luò),以加速開發(fā)新的辦法以改善對患者的治療效果。caBIG 所創(chuàng)建的基礎(chǔ)設(shè)施和工具在癌癥社區(qū)之外也有很廣泛的應(yīng)用。
因此,癌癥生物信息學(xué)處理的是組織和數(shù)據(jù),以便重要的趨勢和模式可以被識別,賊終目標(biāo)是發(fā)現(xiàn)新的治療和/或診斷癌癥的方案。實(shí)現(xiàn)這一目標(biāo)的先進(jìn)步就是尋找表現(xiàn)特定癌癥條件的基因表達(dá)藍(lán)圖。人們普遍認(rèn)為生物狀態(tài)和生理不可能由一個(gè)基因的表達(dá)所代表。因此,為了揭示代表癌癥發(fā)生和進(jìn)展的分子標(biāo)記,研究人員進(jìn)行了廣泛的基因組分析,例如基因表達(dá)的微陣列、微陣列-比較基因組雜交技術(shù)(Array CGH)和組織芯片等。然而,在特定的癌變時(shí)期有相當(dāng)多的改變,包括基因組復(fù)制后階段、轉(zhuǎn)錄階段、翻譯階段或翻譯后階段和修改階段,如基因擴(kuò)增、RNA剪接改變、磷酸化、甲基化和蛋白質(zhì)分泌和穩(wěn)定性差異,這些都不能被基因組分析設(shè)想到。蛋白質(zhì)組的分析鑒定,能夠鑒定和定量分析生物樣品中的全部蛋白質(zhì)。
目前蛋白質(zhì)分析技術(shù)包括:二維聚丙烯酰胺凝膠電泳(2DE法)、同位素編碼親合性標(biāo)簽(isotope-coded affinity tag, ICAT)、基質(zhì)輔助激光解析電離質(zhì)譜(MALDI-MS)、液相色譜-串聯(lián)質(zhì)譜(LC/MS/MS)、質(zhì)譜成像(imaging MS)、蛋白質(zhì)芯片(Protein array)和自體抗體表達(dá)等技術(shù)等。要組織和分析由這些高通量技術(shù)產(chǎn)生的具體數(shù)據(jù),需要發(fā)展相當(dāng)數(shù)量的計(jì)算軟件和數(shù)據(jù)庫。人們通過計(jì)算統(tǒng)計(jì)分析輔助和建立蛋白質(zhì)或基因圖譜,已經(jīng)可以鑒別遺傳特點(diǎn),這對發(fā)展新的和個(gè)性化的癌癥治療方法非常有價(jià)值。
生物信息學(xué)方法和臨床驗(yàn)證已用于識別多種癌癥指示性表達(dá)譜。Kim等人分析了SAGE和EST數(shù)據(jù),從而發(fā)現(xiàn)了一系列肺癌中差異表達(dá)的基因。在一個(gè)系統(tǒng)檢測注解基因功能的實(shí)驗(yàn)中,他們找到了29個(gè)基因,隨后借助肺癌病人的臨床標(biāo)本發(fā)現(xiàn)了這些基因?qū)?shí)驗(yàn)驗(yàn)證很敏感。
Sjoblom 等人確定了在大腸癌和乳腺癌腫瘤中已經(jīng)經(jīng)過注解的人類蛋白質(zhì)編碼基因序列。他們分析了11個(gè)乳腺癌患者和11個(gè)大腸癌患者個(gè)體的13023個(gè)基因,結(jié)果揭示單個(gè)腫瘤積累了大約平均90個(gè)突變基因,但它們中只有一部分會導(dǎo)致腫瘤惡化。用嚴(yán)格的標(biāo)準(zhǔn)來界定這些基因,Sjoblom 等人發(fā)現(xiàn)共有189個(gè)基因(平均每個(gè)腫瘤11個(gè))突變頻率很高。
統(tǒng)計(jì)和生物信息學(xué)工具可以幫助確定突變在腫瘤形成中的作用。鑒定分子標(biāo)記和表達(dá)譜正被人們用于腫瘤分類、診斷和臨床結(jié)果的預(yù)測。癌細(xì)胞依賴的特殊基因、蛋白質(zhì)和細(xì)胞路徑的鑒定,加速了人們對更有效的治療藥物的研發(fā)進(jìn)程。通過設(shè)計(jì)、整合來自多個(gè)應(yīng)用和平臺的資料,如GeneSpring分析平臺(http://www.chem.agilent.com/en-US/Pages/HomePage.aspx),或開發(fā)資源和開發(fā)軟件計(jì)劃(Bioconductor,http://www.bioconductor.org,一項(xiàng)使用R語言進(jìn)行基因組數(shù)據(jù)計(jì)算的開源&可擴(kuò)展軟件計(jì)劃),不僅可以用于專門回答生物學(xué)方面的基因組、遺傳學(xué)、蛋白質(zhì)組和生物標(biāo)志物篩選的交叉問題,還能夠提供全面的統(tǒng)計(jì)分析、數(shù)據(jù)挖掘和可視化工具。此外,基于群體的分子和遺傳變異研究可能會成為個(gè)體化治療的基礎(chǔ)。目前已在臨床上成功應(yīng)用于治療的藥物有Gleevec(格列衛(wèi))(一種激酶抑制劑,可用于成人和兒童慢性髓性白血?。–ML)的治療)與單克隆抗體美羅華(Rituxan)(治療非霍奇金淋巴瘤),另外還有阿瓦斯?。ˋvastin)(治療結(jié)直腸癌和非小細(xì)胞肺癌)和赫賽汀(Herceptin )(治療乳腺癌)。
(責(zé)任編輯:佳學(xué)基因)