【佳學(xué)基因檢測】HAIL,一個(gè)基于數(shù)據(jù)庫的生物信息分析途徑算得上是基因解碼嗎?
HAIL的特點(diǎn):
簡化分析
HAIL是一個(gè)開源的Python庫,簡化了基因組數(shù)據(jù)分析。它提供了強(qiáng)大、易于使用的數(shù)據(jù)科學(xué)工具,可用于甚至用于詢問生物庫規(guī)模的基因組數(shù)據(jù)(例如英國生物庫、gnomAD、TopMed、FinnGen 和日本生物庫)。
基因組數(shù)據(jù)框架
現(xiàn)代數(shù)據(jù)科學(xué)是由數(shù)字矩陣(參見Numpy)和表(參見R和熊貓)驅(qū)動(dòng)的。 雖然這些工具足以完成許多任務(wù),但這些工具都沒有充分捕獲遺傳數(shù)據(jù)的結(jié)構(gòu)。遺傳數(shù)據(jù)結(jié)合了多個(gè)軸(變體和樣本),如矩陣和結(jié)構(gòu)化條目(基因型),如表或數(shù)據(jù)框。為了支持基因組分析,Hail 引入了一種強(qiáng)大的分布式數(shù)據(jù)結(jié)構(gòu),結(jié)合了矩陣和數(shù)據(jù)幀(稱為MatrixTable)的功能。
輸入統(tǒng)一
Hail MatrixTable統(tǒng)一了各種輸入格式(例如.vcf、bgen、plink、tsv、gtf、床文件),并支持可擴(kuò)展查詢,即使在 PB 大小的數(shù)據(jù)集上。通過利用 MatrixTable,Hail 為科學(xué)提供了一個(gè)集成的、可擴(kuò)展的分析平臺(tái)。
注釋數(shù)據(jù)庫
警告
HAIL中的所有功能都是在不斷創(chuàng)新中完善和改變。
此數(shù)據(jù)庫包含一個(gè)精心策劃的變體注釋集合,其格式可訪問且便于海爾使用,用于 Hail 分析管道。
若要將這些注釋合并到您自己的 Hail 分析管道中,請(qǐng)選擇要從下表中查詢的批注,然后復(fù)制并將 Hail 生成的代碼粘貼到您自己的分析腳本中。
查看數(shù)據(jù)庫類文檔,了解有關(guān)創(chuàng)建注釋數(shù)據(jù)庫實(shí)例和注釋MatrixTable或表的更多詳細(xì)信息。
谷歌云存儲(chǔ)
請(qǐng)注意,這些注釋存儲(chǔ)在 Google云存儲(chǔ)上的"請(qǐng)求者付費(fèi)"存儲(chǔ)桶中。存儲(chǔ)桶現(xiàn)在在美國和歐盟區(qū)域都可用,因此,如果您的群集不在創(chuàng)建注釋數(shù)據(jù)庫實(shí)例時(shí)指定的區(qū)域之外,則可能會(huì)收取出口費(fèi)用。
若要訪問以 開始的群集上的這些存儲(chǔ)桶,可以使用附加參數(shù),如下所示:hailctl dataproc
--requester-pays-annotation-db
hailctl dataproc start my-cluster --requester-pays-allow-annotation-db
亞馬遜 S3
注釋數(shù)據(jù)集現(xiàn)在也通過AWS 上的開放數(shù)據(jù)進(jìn)行共享,并且可以在 AWS 上運(yùn)行 Hail 的用戶訪問。請(qǐng)注意,在 AWS 上,注釋數(shù)據(jù)集目前僅在美國區(qū)域的存儲(chǔ)桶中可用。
數(shù)據(jù)庫查詢
通過單擊表中的復(fù)選框選擇注釋,將在下面的面板中生成相應(yīng)的 Hail 命令。
此外,如果在我們的精心策劃的集合中查找特定的注釋,則提供搜索欄。
使用"復(fù)制到剪貼板"按鈕復(fù)制生成的 Hail 代碼,然后將命令粘貼到您自己的 Hail 腳本中。
名字 | 描述 | 版本 | 參考基因組 | |
---|---|---|---|---|
CADD | 組合注釋依賴消耗 (CADD):一種用于注釋編碼和非編碼變體的算法。鏈接 |
1.4 1.4 |
GRCh37 GRCh38 |
|
DANN | DANN:一種用于注釋基因變異的致病性的深度學(xué)習(xí)方法。鏈接 |
無 無 |
GRCh37 GRCh38 |
|
Ensembl_homo_sapiens_low_complexity_regions | Ensembl:脊椎動(dòng)物基因組的基因組瀏覽器,支持比較基因組學(xué)、進(jìn)化、序列變異和轉(zhuǎn)錄調(diào)控方面的研究。鏈接 |
release_95 release_95 |
GRCh37 GRCh38 |
|
Ensembl_homo_sapiens_reference_genome | Ensembl:脊椎動(dòng)物基因組的基因組瀏覽器,支持比較基因組學(xué)、進(jìn)化、序列變異和轉(zhuǎn)錄調(diào)控方面的研究。鏈接 |
release_95 release_95 |
GRCh37 GRCh38 |
|
clinvar_gene_summary | Clinvar:匯總有關(guān)基因組變異及其與人類健康的關(guān)系的信息。鏈接 | 2019-07 | 沒有 | |
clinvar_variant_summary | Clinvar:匯總有關(guān)基因組變異及其與人類健康的關(guān)系的信息。鏈接 |
2019-07 2019-07 |
GRCh37 GRCh38 |
|
dbNSFP_genes | dbNSFP:為人類基因組中所有nsSNV的功能預(yù)測和注釋而開發(fā)的數(shù)據(jù)庫。鏈接 | 4.0 | 沒有 | |
dbNSFP_variants | dbNSFP:為人類基因組中所有nsSNV的功能預(yù)測和注釋而開發(fā)的數(shù)據(jù)庫。鏈接 |
4.0 4.0 |
GRCh37 GRCh38 |
|
基因代碼 | GENCODE:旨在通過計(jì)算分析、人工注釋和實(shí)驗(yàn)驗(yàn)證的組合來識(shí)別人類基因組中的所有基因特征。鏈接 |
v19 v31 |
GRCh37 GRCh38 |
|
gerp_elements | GERP:通過量化替代赤字,在多個(gè)對(duì)齊方式中識(shí)別受約束的元素。鏈接 |
hg19 hg19 |
GRCh37 GRCh38 |
|
gerp_scores | GERP:通過量化替代赤字,在多個(gè)對(duì)齊方式中識(shí)別受約束的元素。鏈接 |
hg19 hg19 |
GRCh37 GRCh38 |
|
gnomad_exome_sites | gnomAD:一種資源,其目標(biāo)是聚合和協(xié)調(diào)來自各種大規(guī)模測序項(xiàng)目的外顯組和基因組測序數(shù)據(jù)。鏈接 |
2.1.1 2.1.1 |
GRCh37 GRCh38 |
|
gnomad_genome_sites | gnomAD:一種資源,其目標(biāo)是聚合和協(xié)調(diào)來自各種大規(guī)模測序項(xiàng)目的外顯組和基因組測序數(shù)據(jù)。鏈接 |
2.1.1 2.1.1 3.1 |
GRCh37 GRCh38 GRCh38 |
|
gnomad_lof_metrics | gnomAD:一種資源,其目標(biāo)是聚合和協(xié)調(diào)來自各種大規(guī)模測序項(xiàng)目的外顯組和基因組測序數(shù)據(jù)。鏈接 | 2.1.1 | 沒有 | |
ldsc_baselineLD_annotations | LDSC 基線 LD 模型:包含 75 個(gè)注釋(在后期版本中包含的其他注釋),包括功能區(qū)域、組蛋白標(biāo)記、GERP 分?jǐn)?shù)、與 LD 相關(guān)的種群遺傳學(xué)力注釋、MAF bin 等。鏈接 | 2.2 | Grch37 |
- 上一篇:【佳學(xué)基因檢測】基因解碼基礎(chǔ):如何從VCF格式文件中獲取基因測序數(shù)據(jù)?
- 下一篇:【佳學(xué)基因檢測】將基因解碼頂起的數(shù)據(jù)庫前輩:gnomAD數(shù)據(jù)庫介紹
- 【佳學(xué)基因檢測】什么是MLPA基因檢測?有什么優(yōu)點(diǎn)?...
- 【佳學(xué)基因檢測】如何將全基因組測序(WGS)基因檢測數(shù)據(jù)定位到人的標(biāo)準(zhǔn)基因組上?...
- 【佳學(xué)基因檢測】FISH基因檢測中的探針類型選擇...
- 【佳學(xué)基因檢測】腫瘤基因檢測生物信息分析注意事項(xiàng)...
- 【佳學(xué)基因檢測】癌癥基因組檢測要點(diǎn):一定要知道!...
- 【佳學(xué)基因檢測】什么是基因組檢測?...
- 【佳學(xué)基因檢測】TP53突變基因檢測...
- 【佳學(xué)基因檢測】基因解碼對(duì)Y染色體的進(jìn)一步解密...
- 【佳學(xué)基因檢測】腫瘤基因檢測需要包括重復(fù)或反復(fù)區(qū)域的分析嗎?...
- 【佳學(xué)基因檢測】如何采用液體活檢檢進(jìn)行細(xì)胞學(xué)檢測與NGS測序...
- 【佳學(xué)基因檢測】臨床科研服務(wù):GWAS課題中的統(tǒng)計(jì)分析...
- 【佳學(xué)基因檢測】腫瘤靶向藥物Regorafenib (Stivarga) 及其在結(jié)直腸癌治療中的作用...
- 【佳學(xué)基因檢測】ALDOA的群體遺傳學(xué)結(jié)果對(duì)基因檢測正確性的影響...
- 【佳學(xué)基因檢測】SLC25A4的雙生子遺傳學(xué)分析結(jié)果簡介...
- 【佳學(xué)基因檢測】ASIC1的分子遺傳學(xué)分析成果...
- 【佳學(xué)基因檢測】ANXA6分子病理學(xué)成果概要...
- 【佳學(xué)基因檢測】檢驗(yàn)科醫(yī)師晉升考試關(guān)于ADRA2C的知識(shí)...
- 【佳學(xué)基因檢測】醫(yī)學(xué)院碩士研究考試關(guān)于ACVR2A基因檢測的知識(shí)要點(diǎn)...
- 【佳學(xué)基因檢測】醫(yī)學(xué)博士ANK1基因檢測的知識(shí)結(jié)構(gòu)準(zhǔn)備...
- 【佳學(xué)基因檢測】醫(yī)學(xué)院專升本關(guān)于ADCYAP1R1基因檢測的基本技能...
- 【佳學(xué)基因檢測】病例分析會(huì)中需要知道的關(guān)于ACLY基因的知識(shí)...
- 【佳學(xué)基因檢測】病案討論中需要知道的關(guān)于AIF1的知識(shí)...
- 【佳學(xué)基因檢測】質(zhì)譜基因檢測AGTR2基因存在基因突變?cè)撛趺蠢斫猓?/strong>...
- 【佳學(xué)基因檢測】飛行質(zhì)譜基因檢測發(fā)現(xiàn)ADRA2A有突變,嚴(yán)重嗎?...
- 【佳學(xué)基因檢測】核型分析發(fā)現(xiàn)NAT1突變了,是什么意思?...
- 【佳學(xué)基因檢測】遺傳學(xué)檢測結(jié)果指出ALOX15突變,該找誰咨詢?...
- 【佳學(xué)基因檢測】高精度基因檢測為什么包含ADD1基因?...
- 【佳學(xué)基因檢測】基因檢測包中為什么一定要有ACTA2基因?...
- 【佳學(xué)基因檢測】基因檢測時(shí)查看是否包含ADH1C重要嗎?...
- 【佳學(xué)基因檢測】NR0B1基因間序列存在突變是否需要阻斷遺傳?...
- 來了,就說兩句!
-
請(qǐng)自覺遵守互聯(lián)網(wǎng)相關(guān)的政策法規(guī),嚴(yán)禁發(fā)布色情、暴力、反動(dòng)的言論。評(píng)價(jià):表情:用戶名: 驗(yàn)證碼:
- 賊新評(píng)論 進(jìn)入詳細(xì)評(píng)論頁>>