佳學基因遺傳病基因檢測機構排名,三甲醫(yī)院的選擇

基因檢測就找佳學基因!

熱門搜索
  • 癲癇
  • 精神分裂癥
  • 魚鱗病
  • 白癜風
  • 唇腭裂
  • 多指并指
  • 特發(fā)性震顫
  • 白化病
  • 色素失禁癥
  • 狐臭
  • 斜視
  • 視網(wǎng)膜色素變性
  • 脊髓小腦萎縮
  • 軟骨發(fā)育不全
  • 血友病

客服電話

4001601189

在線咨詢

CONSULTATION

一鍵分享

CLICK SHARING

返回頂部

BACK TO TOP

分享基因科技,實現(xiàn)人人健康!
×
查病因,阻遺傳,哪里干?佳學基因準確有效服務好! 靶向用藥怎么搞,佳學基因測基因,優(yōu)化療效 風險基因哪里測,佳學基因
當前位置:????致電4001601189! > 關于佳學 > 技術優(yōu)勢 >

【佳學基因檢測】基因解碼如何使用UCSC/Ensembl數(shù)據(jù)庫進行基因檢測結果的分析

基因解碼說明:從技術上講,RefSeq 基因和 UCSC 基因是基于轉錄本的基因定義。 該數(shù)據(jù)庫根據(jù)轉錄數(shù)據(jù)建立了基因模型,然后將基因模型同人類基因組序列進行比對。 相比之下,Ensemble Gene 和 Gencode Gene 是基于組裝的基因定義,試圖直接從人類基因組的參考序列構建基因的判斷。 這兩個數(shù)據(jù)分析方法從不同的角度出發(fā),試圖做同一件事:將基因測序獲得的DNA序列給矛盾適當?shù)幕?/div>

佳學基因檢測】基因解碼如何使用UCSC/Ensembl數(shù)據(jù)庫進行基因檢測結果的分析


ANNOVAR 可以選擇處理 UCSC 已知基因注釋或 Ensembl 基因注釋,這兩種注釋都比 RefSeq 更全面,包括許多注釋不良或計算預測的基因。 下面顯示了使用 UCSC 已知基因注釋變體的示例:

[jiaxuejiyin@genejiedu ~/]$ annotate_variation.pl -out ex1 -build hg19 example/ex1.avinput humandb/ -dbtype knownGene
NOTICE: The --geneanno operation is set to ON by default
NOTICE: Reading gene annotation from humandb/hg19_knownGene.txt ... Done with 78963 transcripts (including 18502 without coding sequence annotation) for 28495 unique genes
NOTICE: Reading FASTA sequences from humandb/hg19_knownGeneMrna.fa ... Done with 45 sequences
WARNING: A total of 43 sequences will be ignored due to lack of correct ORF annotation
NOTICE: Finished gene-based annotation on 15 genetic variants in example/ex1.avinput
NOTICE: Output files were written to ex1.variant_function, ex1.exonic_variant_function
 

轉錄本名稱(在 ex1.exonic_variant_function 文件中)看起來像 uc002eg1.1 等,它們是 UCSC 基因標識符。

要使用 Ensembl 基因注釋變體,請使用以下命令。 輸出格式與上面描述的類似。 “ENSG”和“ENST”是注釋基因和轉錄本的 Ensembl 標識符。

[jiaxuejiyin@genejiedu ~/]$ annotate_variation.pl -out ex1 -build hg19 ex1.hg19.avinput humandb/ -dbtype ensGene
NOTICE: The --geneanno operation is set to ON by default
NOTICE: Reading gene annotation from humandb/hg19_ensGene.txt ... Done with 196501 transcripts (including 101155 without coding sequence annotation) for 57905 unique genes
NOTICE: Reading FASTA sequences from humandb/hg19_ensGeneMrna.fa ... Done with 20 sequences
WARNING: A total of 6780 sequences will be ignored due to lack of correct ORF annotation
NOTICE: Finished gene-based annotation on 15 genetic variants in example/ex1.avinput
NOTICE: Output files were written to ex1.variant_function, ex1.exonic_variant_function

由于輸出僅包含 Ensembl 標識符,因此如果想將其翻譯為基因同義詞,可以下載 hg19 的此文件并自行使用兩列文件進行翻譯。

比較來自三個不同基因定義系統(tǒng)的程序消息(“Done with xxxtranscripts for yyy uniquegenes”),可以看到,Ensembl 注釋了人類基因組中賊多數(shù)量的基因,而 RefSeq 注釋了賊少數(shù)量的基因。

基因解碼說明:從技術上講,RefSeq 基因和 UCSC 基因是基于轉錄本的基因定義。 該數(shù)據(jù)庫根據(jù)轉錄數(shù)據(jù)建立了基因模型,然后將基因模型同人類基因組序列進行比對。 相比之下,Ensemble Gene 和 Gencode Gene 是基于組裝的基因定義,試圖直接從人類基因組的參考序列構建基因的判斷。 這兩個數(shù)據(jù)分析方法從不同的角度出發(fā),試圖做同一件事:將基因測序獲得的DNA序列給矛盾適當?shù)幕蛎Q。

然而,這兩種分析方法會產(chǎn)生不同的分析結果。 例如,RefSeq 通過組裝群體中的轉錄數(shù)據(jù)來構建基因模型,但參考人類基因組可能有一個等位基因是一個次要等位基因。 在這種情況下,獲得的序列可能無法與基因組 100% 對齊,從而導致基因測序結果的 FASTA 文件與從全基因組序列(通過將外顯子連接在一起)生成的 FASTA 文件之間存在差異。

由于這些原因,外顯子變異的正確注釋不能依賴于公共數(shù)據(jù)庫中的cDNA序列,而只能基于基因組本身中實際的chr:start-end位點。 為此,基因解碼針對幾個特定基因組構建了FASTA序列,基因檢測機構可以直接從ANNOVAR網(wǎng)站下載序列; 基因解碼還提供程序 (retrieve_seq_from_fasta.pl) 來為未提供預構建文件的任何其他基因組構建 FASTA 序列。

由于這些原因,基因解碼提供的文件中的 FASTA 序列可能與您從 RefSeq 獲得的 FASTA 序列不同。 ANNOVAR 使用的序列是基于特定基因組構建和組裝的“理論”序列,但 RefSeq 編譯的 FASTA 序列是來自大型數(shù)據(jù)庫的“觀察到”序列,與特定組裝版本沒有任何關系。 它們可能具有相同的標識符,但它們是不同的東西。

(責任編輯:佳學基因)
頂一下
(1)
100%
踩一下
(0)
0%
推薦內(nèi)容:
來了,就說兩句!
請自覺遵守互聯(lián)網(wǎng)相關的政策法規(guī),嚴禁發(fā)布色情、暴力、反動的言論。
評價:
表情:
用戶名: 驗證碼: 點擊我更換圖片

Copyright © 2013-2033 網(wǎng)站由佳學基因醫(yī)學技術(北京)有限公司,湖北佳學基因醫(yī)學檢驗實驗室有限公司所有 京ICP備16057506號-1;鄂ICP備2021017120號-1

設計制作 基因解碼基因檢測信息技術部