【佳學(xué)基因檢測(cè)】基因解碼如何構(gòu)建人的標(biāo)準(zhǔn)基因序列數(shù)據(jù)庫(kù)的?
人類標(biāo)準(zhǔn)基因數(shù)據(jù)庫(kù)導(dǎo)讀:
佳學(xué)基因通過編輯人類全基因測(cè)序數(shù)據(jù),消除測(cè)序誤差和個(gè)體特意性序列,為人類基因信息的每一個(gè)位點(diǎn)規(guī)范數(shù)字化坐標(biāo),再將人體組織結(jié)構(gòu)和功能的組成成分的編碼序列按照坐標(biāo)、及其基因信息的傳遞方式注釋清楚。在進(jìn)行人的致病基因鑒定基因解碼、用藥指導(dǎo)基因解碼等應(yīng)用的過程中,先采用商用的高通量測(cè)序儀器,獲得沒有定位的基因片段序列。隨后采用生物信息學(xué)工具,將片段化的基因序列與標(biāo)準(zhǔn)序列進(jìn)行比對(duì)。將大部分正確的序列進(jìn)行忽略,只顯示出個(gè)體異常序列。再通過對(duì)個(gè)體異常序列生物學(xué)意義、在用藥指導(dǎo)上的作用,致病性分析,從而獲得基因檢測(cè)報(bào)告。由此而知,佳學(xué)基因人類基因組標(biāo)準(zhǔn)序列是基因檢測(cè)的參照序列。參照序列的完整性是基因檢測(cè)完整性高效的先進(jìn)步。
人類標(biāo)準(zhǔn)基因組數(shù)庫(kù)的數(shù)據(jù)結(jié)構(gòu)
人類標(biāo)準(zhǔn)基因組數(shù)據(jù)庫(kù)的基礎(chǔ)數(shù)據(jù)以文本文件的形式存儲(chǔ),通常含有refgene以區(qū)分其他數(shù)據(jù)庫(kù),同時(shí)含有版本號(hào),以區(qū)分不同時(shí)期采用的不同形式。佳學(xué)基因在開發(fā)升級(jí)新的參照基因組時(shí),常常編寫版本轉(zhuǎn)換程序,以確?;蚪獯a過程的向前兼容。
字段名 | 數(shù)據(jù)樣例 | SQL數(shù)據(jù)庫(kù)數(shù)據(jù)形式 | 數(shù)據(jù)形式 | 描述說明 |
---|---|---|---|---|
bin | 2085 | smallint(5) unsigned | range | 索引字段,以加快大容量數(shù)據(jù)根據(jù)基因信息區(qū)進(jìn)行索引。 |
name | NR_046630 | varchar(255) | values | 基因名稱 (通常是轉(zhuǎn)錄本代碼) |
chrom | chr3 | varchar(255) | values | 標(biāo)準(zhǔn)基因組的染色體坐代碼或基因信息框架編號(hào) |
strand | + | char(1) | values | +號(hào)和 -號(hào)被用來表示在所示區(qū)域內(nèi)的基因信息存方方式 |
txStart | 196666747 | int(10) unsigned | range | 轉(zhuǎn)錄區(qū)域的起始坐標(biāo) (反義鏈上的終止坐標(biāo)) |
txEnd | 196669405 | int(10) unsigned | range | 轉(zhuǎn)錄區(qū)域的終止坐標(biāo) (反義鏈上的起點(diǎn)坐標(biāo)) |
cdsStart | 196669405 | int(10) unsigned | range | 編碼區(qū)域的起始坐標(biāo) (反義鏈上的終點(diǎn)坐標(biāo)) |
cdsEnd | 196669405 | int(10) unsigned | range | 編碼區(qū)域的終點(diǎn)坐標(biāo) (反義鏈上的起點(diǎn)坐標(biāo)) |
exonCount | 3 | int(10) unsigned | range | 外顯子數(shù)目 |
exonStarts | 196666747,196667841,196669263, | longblob | 外顯子起點(diǎn)坐標(biāo) (反義鏈上的終點(diǎn)坐標(biāo)) | |
exonEnds | 196666995,196668013,196669405, | longblob | 外顯子終點(diǎn)坐示 (反應(yīng)鏈上的起點(diǎn)坐標(biāo)) | |
score | 0 | int(11) | range | 評(píng)分 |
name2 | NCBP2-AS1 | varchar(255) | values | 其他基因名稱 (比如GTF采用的基因編碼) |
cdsStartStat | unk | enum('none', 'unk', 'incmpl', 'cmpl') | values | Status of CDS start annotation (none, unknown, incomplete, or complete) |
cdsEndStat | unk | enum('none', 'unk', 'incmpl', 'cmpl') | values | Status of CDS end annotation (none, unknown, incomplete, or complete) |
exonFrames | -1,-1,-1, | longblob | Exon frame {0,1,2}, or -1 if no frame for exon |
人類標(biāo)準(zhǔn)基因序列數(shù)據(jù)庫(kù)數(shù)據(jù)展示
bin | name | chrom | strand | txStart | txEnd | cdsStart | cdsEnd | exonCount | exonStarts | exonEnds | score | name2 | cdsStartStat | cdsEndStat | exonFrames |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2085 | NR_046630 | chr3 | + | 196666747 | 196669405 | 196669405 | 196669405 | 3 | 196666747,196667841,196669263, | 196666995,196668013,196669405, | 0 | NCBP2-AS1 | unk | unk | -1,-1,-1, |
2051 | NR_046598 | chr3 | + | 192232810 | 192234362 | 192234362 | 192234362 | 2 | 192232810,192234269, | 192233297,192234362, | 0 | FGF12-AS2 | unk | unk | -1,-1, |
1312 | NR_046514 | chr13 | + | 95364969 | 95368199 | 95368199 | 95368199 | 2 | 95364969,95365891, | 95365647,95368199, | 0 | SOX21-AS1 | unk | unk | -1,-1, |
585 | NR_106918 | chr1 | - | 17368 | 17436 | 17436 | 17436 | 1 | 17368, | 17436, | 0 | MIR6859-1 | unk | unk | -1, |
585 | NR_107062 | chr1 | - | 17368 | 17436 | 17436 | 17436 | 1 | 17368, | 17436, | 0 | MIR6859-2 | unk | unk | -1, |
585 | NR_107063 | chr1 | - | 17368 | 17436 | 17436 | 17436 | 1 | 17368, | 17436, | 0 | MIR6859-3 | unk | unk | -1, |
585 | NR_128720 | chr1 | - | 17368 | 17436 | 17436 | 17436 | 1 | 17368, | 17436, | 0 | MIR6859-4 | unk | unk | -1, |
585 | NR_036051 | chr1 | + | 30365 | 30503 | 30503 | 30503 | 1 | 30365, | 30503, | 0 | MIR1302-2 | unk | unk | -1, |
585 | NR_036266 | chr1 | + | 30365 | 30503 | 30503 | 30503 | 1 | 30365, | 30503, | 0 | MIR1302-9 | unk | unk | -1, |
585 | NR_036267 | chr1 | + | 30365 | 30503 | 30503 | 30503 | 1 | 30365, | 30503, | 0 | MIR1302-10 | unk | unk |
-1, |
(責(zé)任編輯:佳學(xué)基因)