【佳學(xué)基因檢測(cè)】基因解碼基礎(chǔ)：VCF格式文件是怎么貯存基因信息的？

遺傳病、罕見病基因檢測(cè)導(dǎo)讀：

正確理解并應(yīng)用基因信息包含兩個(gè)階段，一是基因測(cè)序階段，一個(gè)是建立《人的基因序列變化與人體疾病表征》的關(guān)系兩個(gè)階段。盡管后者有數(shù)據(jù)庫(kù)比對(duì)法和基因解碼法，但是獲取基因序列，并對(duì)基因序列進(jìn)行正確記錄和傳遞是第一個(gè)階段。本文介紹了用來來貯存人體基因序列的一種格式文件，理解VCF格式文件及其貯存基因序列的方式，是基因庫(kù)比對(duì)方法和基因解碼的基礎(chǔ)。

1. 什么是VCF？

VCF是用于描述SNP，INDEL和SV結(jié)果的文本文件。在GATK軟件中得到賊好的支持，當(dāng)然SAMtools得到的結(jié)果也是VCF格式，和GATK的VCF格式有點(diǎn)差別。

2. VCF的主體結(jié)構(gòu)

先給出一個(gè)VCF文件的范例：

##fileformat=VCFv4.0
##FILTER=<ID=LowQual,Description="QUAL < 50.0">
##FORMAT=<ID=AD,Number=.,Type=Integer,Description="Allelic depths for the ref and alt alleles in the order listed">
##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth (only filtered reads used for calling)">
##FORMAT=<ID=GQ,Number=1,Type=Float,Description="Genotype Quality">
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
##FORMAT=<ID=PL,Number=3,Type=Float,Description="Normalized, Phred-scaled likelihoods for AA,AB,BB genotypes where A=ref and B=alt; not applicable if site is not biallelic">
##INFO=<ID=AC,Number=.,Type=Integer,Description="Allele count in genotypes, for each ALT allele, in the same order as listed">
##INFO=<ID=AF,Number=.,Type=Float,Description="Allele Frequency, for each ALT allele, in the same order as listed">
##INFO=<ID=AN,Number=1,Type=Integer,Description="Total number of alleles in called genotypes">
##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP Membership">
##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth">
##INFO=<ID=DS,Number=0,Type=Flag,Description="Were any of the samples downsampled?">
##INFO=<ID=Dels,Number=1,Type=Float,Description="Fraction of Reads Containing Spanning Deletions">
##INFO=<ID=HRun,Number=1,Type=Integer,Description="Largest Contiguous Homopolymer Run of Variant Allele In Either Direction">
##INFO=<ID=HaplotypeScore,Number=1,Type=Float,Description="Consistency of the site with two (and only two) segregating haplotypes">
##INFO=<ID=MQ,Number=1,Type=Float,Description="RMS Mapping Quality">
##INFO=<ID=MQ0,Number=1,Type=Integer,Description="Total Mapping Quality Zero Reads">
##INFO=<ID=QD,Number=1,Type=Float,Description="Variant Confidence/Quality by Depth">
##INFO=<ID=SB,Number=1,Type=Float,Description="Strand Bias">
##INFO=<ID=VQSLOD,Number=1,Type=Float,Description="log10-scaled probability of variant being true under the trained gaussian mixture model">
##UnifiedGenotyperV2="analysis_type=UnifiedGenotyperV2 input_file=[TEXT CLIPPED FOR CLARITY]"
#CHROM  POS ID      REF ALT QUAL    FILTER  INFO    FORMAT  NA12878
chr1    873762  .       T   G   5231.78 PASS    AC=1;AF=0.50;AN=2;DP=315;Dels=0.00;HRun=2;HaplotypeScore=15.11;MQ=91.05;MQ0=15;QD=16.61;SB=-1533.02;VQSLOD=-1.5473 GT:AD:DP:GQ:PL   0/1:173,141:282:99:255,0,255
chr1    877664  rs3828047   A   G   3931.66 PASS    AC=2;AF=1.00;AN=2;DB;DP=105;Dels=0.00;HRun=1;HaplotypeScore=1.59;MQ=92.52;MQ0=4;QD=37.44;SB=-1152.13;VQSLOD= 0.1185 GT:AD:DP:GQ:PL  1/1:0,105:94:99:255,255,0
chr1    899282  rs28548431  C   T   71.77   PASS    AC=1;AF=0.50;AN=2;DB;DP=4;Dels=0.00;HRun=0;HaplotypeScore=0.00;MQ=99.00;MQ0=0;QD=17.94;SB=-46.55;VQSLOD=-1.9148 GT:AD:DP:GQ:PL  0/1:1,3:4:25.92:103,0,26
chr1    974165  rs9442391   T   C   29.84   LowQual AC=1;AF=0.50;AN=2;DB;DP=18;Dels=0.00;HRun=1;HaplotypeScore=0.16;MQ=95.26;MQ0=0;QD=1.66;SB=-0.98 GT:AD:DP:GQ:PL  0/1:14,4:14:60.91:61,0,255

從范例上看，VCF文件分為兩部分內(nèi)容：以“#”開頭的注釋部分；沒有“#”開頭的主體部分。

值得注意的是，注釋部分有很多對(duì)VCF的介紹信息。實(shí)際上不需要本文章，只是看看這個(gè)注釋部分就有效明白了VCF各行各列代表的意義。我們先講VCF文件主題部分的結(jié)構(gòu)，如下所示：

[HEADER LINES]
#CHROM  POS ID      REF ALT QUAL    FILTER  INFO          FORMAT          NA12878
chr1    873762  .       T   G   5231.78 PASS    [ANNOTATIONS] GT:AD:DP:GQ:PL  0/1:173,141:282:99:255,0,255
chr1    877664  rs3828047   A   G   3931.66 PASS    [ANNOTATIONS] GT:AD:DP:GQ:PL  1/1:0,105:94:99:255,255,0
chr1    899282  rs28548431  C   T   71.77   PASS    [ANNOTATIONS] GT:AD:DP:GQ:PL  0/1:1,3:4:25.92:103,0,26
chr1    974165  rs9442391   T   C   29.84   LowQual [ANNOTATIONS] GT:AD:DP:GQ:PL  0/1:14,4:14:60.91:61,0,255

以上去掉了頭部的注釋行，只留下了代表每一行意義的注釋行。主體部分中每一行代表一個(gè)Variant的信息。

3. VCF格式文件怎么記錄一個(gè)人的基因信息？

CHROM 和 POS：記錄的是基因序列染色體和坐標(biāo)，如果是INDEL的話，位置是INDEL的第一個(gè)堿基位置，有這兩個(gè)參數(shù)，就可以將測(cè)序結(jié)果與人體的特定的一個(gè)基因信息固定下來。

ID：數(shù)據(jù)庫(kù)中已經(jīng)有過的變異序列的代碼。比如在dbSNP中有該SNP的代碼，則會(huì)在此行給出；若沒有，則用’.’表示這是一個(gè)受檢者所特有的突變序列，在其他人身上沒有。由于這是是用一個(gè)"."來表示，經(jīng)過測(cè)序后，這樣的點(diǎn)有很多，數(shù)據(jù)庫(kù)比對(duì)就無(wú)法對(duì)這一突變對(duì)體的影響進(jìn)行分析，需要采用新的分析策略。

REF 和 ALT：參考序列的DNA字母和可能出現(xiàn)的不同的DNA字母。

QUAL：Phred格式(Phred_scaled)的質(zhì)量值，表示在該位點(diǎn)存在variant的可能性；該值越高，則variant的可能性越大；計(jì)算方法：Phred值 = -10 * log (1-p) p為variant存在的概率; 通過計(jì)算公式可以看出值為10的表示錯(cuò)誤概率為0.1，該位點(diǎn)為variant的概率為90%。

FILTER：使用上一個(gè)QUAL值來進(jìn)行過濾的話，是不夠的。GATK能使用其它的方法來進(jìn)行過濾，過濾結(jié)果中通過則該值為”PASS”;若variant不高效，則該項(xiàng)不為”PASS”或”.”。

INFO：這一行是variant的詳細(xì)信息，內(nèi)容很多，以下再具體詳述。

FORMAT 和 NA12878：這兩行合起來提供了’NA12878’這個(gè)sample的基因型的信息。’NA12878’代表這該名稱的樣品，是由BAM文件中的@RG下的 SM 標(biāo)簽決定的。

4. 基因型信息

chr1    873762  .       T   G   [CLIPPED] GT:AD:DP:GQ:PL    0/1:173,141:282:99:255,0,255
chr1    877664  rs3828047   A   G   [CLIPPED] GT:AD:DP:GQ:PL    1/1:0,105:94:99:255,255,0
chr1    899282  rs28548431  C   T   [CLIPPED] GT:AD:DP:GQ:PL    0/1:1,3:4:25.92:103,0,26

看上面賊后兩列數(shù)據(jù)，這兩列數(shù)據(jù)是對(duì)應(yīng)的，前者為格式，后者為格式對(duì)應(yīng)的數(shù)據(jù)。

GT：樣品的基因型（genotype）。兩個(gè)數(shù)字中間用’/’分開，這兩個(gè)數(shù)字表示雙倍體的sample的基因型。0 表示樣品中有ref的allele； 1 表示樣品中variant的allele； 2表示有第二個(gè)variant的allele。因此： 0/0 表示sample中該位點(diǎn)為純合的，和ref一致； 0/1 表示sample中該位點(diǎn)為雜合的，有ref和variant兩個(gè)基因型； 1/1 表示sample中該位點(diǎn)為純合的，和variant一致。

AD 和 DP：AD(Allele Depth)為sample中每一種allele的reads覆蓋度,在diploid中則是用逗號(hào)分割的兩個(gè)值，前者對(duì)應(yīng)ref基因型，后者對(duì)應(yīng)variant基因型； DP（Depth）為sample中該位點(diǎn)的覆蓋度。

GQ：基因型的質(zhì)量值(Genotype Quality)。Phred格式(Phred_scaled)的質(zhì)量值，表示在該位點(diǎn)該基因型存在的可能性；該值越高，則Genotype的可能性越大；計(jì)算方法：Phred值 = -10 * log (1-p) p為基因型存在的概率。

PL：指定的三種基因型的質(zhì)量值(provieds the likelihoods of the given genotypes)。這三種指定的基因型為(0/0,0/1,1/1)，這三種基因型的概率總和為1。和之前不一致，該值越大，表明為該種基因型的可能性越小。 Phred值 = -10 * log (p) p為基因型存在的概率。

5. VCF第8列的信息

該列信息賊多了，都是以 “TAG=Value”,并使用”;”分隔的形式。其中很多的注釋信息在VCF文件的頭部注釋中給出。以下是這些TAG的解釋

AC，AF 和 AN：AC(Allele Count) 表示該Allele的數(shù)目；AF(Allele Frequency) 表示Allele的頻率； AN(Allele Number) 表示Allele的總數(shù)目。對(duì)于1個(gè)diploid sample而言：則基因型 0/1 表示sample為雜合子，Allele數(shù)為1(雙倍體的sample在該位點(diǎn)只有1個(gè)等位基因發(fā)生了突變)，Allele的頻率為0.5(雙倍體的sample在該位點(diǎn)只有50%的等位基因發(fā)生了突變)，總的Allele為2；基因型 1/1 則表示sample為純合的，Allele數(shù)為2，Allele的頻率為1，總的Allele為2。

DP：reads覆蓋度。是一些reads被過濾掉后的覆蓋度。

Dels：Fraction of Reads Containing Spanning Deletions。進(jìn)行SNP和INDEL calling的結(jié)果中，有該TAG并且值為0表示該位點(diǎn)為SNP，沒有則為INDEL。

FS：使用Fisher’s正確檢驗(yàn)來檢測(cè)strand bias而得到的Fhred格式的p值。該值越小越好。一般進(jìn)行filter的時(shí)候，可以設(shè)置 FS < 10～20。

HaplotypeScore：Consistency of the site with at most two segregating haplotypes

InbreedingCoeff：Inbreeding coefficient as estimated from the genotype likelihoods per-sample when compared against the Hard-Weinberg expectation

MLEAC：Maximum likelihood expectation (MLE) for the allele counts (not necessarily the same as the AC), for each ALT allele, in the same order as listed

MLEAF：Maximum likelihood expectation (MLE) for the allele frequency (not necessarily the same as the AF), for each ALT alle in the same order as listed

MQ：RMS Mapping Quality

MQ0：Total Mapping Quality Zero Reads

MQRankSum：Z-score From Wilcoxon rank sum test of Alt vs. Ref read mapping qualities

QD：Variant Confidence/Quality by Depth

RPA：Number of times tandem repeat unit is repeated, for each allele (including reference)

RU：Tandem repeat unit (bases)

ReadPosRankSum：Z-score from Wilcoxon rank sum test of Alt vs. Ref read position bias

STR：Variant is a short tandem repeat

(責(zé)任編輯：佳學(xué)基因)

頂一下

(0)

踩一下

(0)

推薦內(nèi)容：

【佳學(xué)基因檢測(cè)】飛行質(zhì)譜基因檢測(cè)發(fā)現(xiàn)ADRA2A有突變，嚴(yán)重嗎？...

【佳學(xué)基因檢測(cè)】核型分析發(fā)現(xiàn)NAT1突變了，是什么意思？...

【佳學(xué)基因檢測(cè)】遺傳學(xué)檢測(cè)結(jié)果指出ALOX15突變，該找誰(shuí)咨詢？...

【佳學(xué)基因檢測(cè)】高精度基因檢測(cè)為什么包含ADD1基因？...

【佳學(xué)基因檢測(cè)】基因檢測(cè)包中為什么一定要有ACTA2基因？...

【佳學(xué)基因檢測(cè)】基因檢測(cè)時(shí)查看是否包含ADH1C重要嗎？...

【佳學(xué)基因檢測(cè)】NR0B1基因間序列存在突變是否需要阻斷遺傳？...

收藏

挑錯(cuò)

推薦

打印

來了，就說兩句！

請(qǐng)自覺遵守互聯(lián)網(wǎng)相關(guān)的政策法規(guī)，嚴(yán)禁發(fā)布色情、暴力、反動(dòng)的言論。
評(píng)價(jià): 好評(píng) 中立差評(píng)

表情:

用戶名: 驗(yàn)證碼: 匿名?

賊新評(píng)論 進(jìn)入詳細(xì)評(píng)論頁(yè)>>

【佳學(xué)基因檢測(cè)】基因解碼基礎(chǔ)：VCF格式文件是怎么貯存基因信息的？

【佳學(xué)基因檢測(cè)】基因解碼基礎(chǔ)：VCF格式文件是怎么貯存基因信息的？

遺傳病、罕見病基因檢測(cè)導(dǎo)讀：

1. 什么是VCF？

2. VCF的主體結(jié)構(gòu)

3. VCF格式文件怎么記錄一個(gè)人的基因信息？

4. 基因型信息

5. VCF第8列的信息

【佳學(xué)基因檢測(cè)】基因解碼基礎(chǔ)：VCF格式文件是怎么貯存基因信息的？

【佳學(xué)基因檢測(cè)】基因解碼基礎(chǔ)：VCF格式文件是怎么貯存基因信息的？

1. 什么是VCF？

3. VCF格式文件怎么記錄一個(gè)人的基因信息？