【佳學(xué)基因檢測(cè)】如何貯存用于基因序列比對(duì)的全部基因組序列？

人類(lèi)全基因組參照序列的組成成分

Analysis set 參照基因組分析數(shù)據(jù)集

分析集參考基因組的設(shè)計(jì)參照了與讀取序列進(jìn)行比對(duì)地需求，它與出于瀏覽目的基因序列可能不同。

Contig 連續(xù)序列單元

連續(xù)序列單元，有時(shí)候被稱(chēng)為重疊群，是指沒(méi)“物理”間隙的連續(xù)序列（“N”堿基的延伸在這種情況下不被認(rèn)為是間隙），例如染色體。也可以是還沒(méi)有有效組裝的支架、細(xì)菌基因組中的質(zhì)粒等。

Alternate contigs, alternate scaffolds

或者是alternate loci：替代連續(xù)序列單元、替代支架、替代位點(diǎn)

替代重疊群、替代支架或替代基因座是指在一種表示方案無(wú)法有效正確表示的不同的單倍型。

Primary Assembly 主要組裝體

主要組裝體由 (i) 組裝的染色體、(ii) 未定位（已知屬于特定染色體但順序或方向未知）的基因組序列和 (iii) 未歸屬染色體的序列組成。它是一個(gè)非冗余的單倍體基因組序列。

PAR

PAR 是指假常染色體區(qū)域。哺乳動(dòng)物 X 和 Y 染色體中的 PAR 區(qū)域允許性染色體之間進(jìn)行重組。因?yàn)?PAR 序列一起創(chuàng)建了一個(gè)二倍體或偽常染色體序列區(qū)域，所以 X 和 Y 染色體序列在基因組的組裝中是相同的。分析集基因組通過(guò)遮蔽Y染色體上的兩個(gè)PAR區(qū)域，從而使基因測(cè)序數(shù)據(jù)僅僅被定位到X染色體的PAR區(qū)域。

不同的主要組裝體會(huì)改變基因座的坐標(biāo)，并且這種改變很少發(fā)布。對(duì)于人類(lèi)基因組來(lái)說(shuō)，Hg19 和 GRCh38/hg38是兩個(gè)不同的組裝體。比較來(lái)自不同組裝體的數(shù)據(jù)需要采用提升工具來(lái)調(diào)整基因組坐標(biāo)，從而實(shí)現(xiàn)基因組的匹配，但有時(shí)并不出色。

PATCHES修復(fù)補(bǔ)丁

補(bǔ)丁是針對(duì)特定的組裝體的的特定區(qū)域的修改。它們旨在在不破壞染色體坐標(biāo)的情況下提示基因組的組裝或者是添加信息。有兩種類(lèi)型的補(bǔ)丁，修改補(bǔ)丁和新補(bǔ)定，它們是指不同類(lèi)型的序列變化。

修復(fù)補(bǔ)丁表示將在下一個(gè)主要裝配版本中替換主要裝組裝體的序列。在解釋數(shù)據(jù)時(shí)，修復(fù)補(bǔ)丁應(yīng)優(yōu)先于染色體。

新補(bǔ)丁代表替代基因座。在解釋數(shù)據(jù)時(shí)，將新補(bǔ)丁視為種群序列變體。

主要參照基因組組裝體的組成成分示意圖

GRCh38/hg38 是佳學(xué)基因自 2013 年 12 月開(kāi)始的人類(lèi)基因組的序列組體。在這一基因組裝體中，使用替代或 ALT 重疊群來(lái)表示常見(jiàn)的復(fù)雜變異，包括 HLA 位點(diǎn)。替代重疊群也出現(xiàn)在過(guò)去的組件中，但沒(méi)有達(dá)到在 GRCh38 中看到的程度。在改進(jìn)GRCh38的正確性和有效性的過(guò)程中，使用了自其他基因組測(cè)序和分析的結(jié)果。除了添加許多替代重疊群外，GRCh38 還糾正了數(shù)以千計(jì)的序列錯(cuò)誤，這些錯(cuò)誤會(huì)導(dǎo)致產(chǎn)生錯(cuò)誤的SNP 和插入缺失檢測(cè)結(jié)果。GRCh38版本它還包括合成著絲粒序列和對(duì)非核基因組序列的更新。

GRCh38版本的主要內(nèi)容介紹

主要組裝體：

hg38 的組裝染色體是染色體 1–22 (chr1–chr22)、X (chrX)、Y (chrY) 和線(xiàn)粒體 (chrM)。

未定位的序列

是指在組裝GRCh38初組組裝體時(shí)，已明確來(lái)自于特定的染色體，但在特定染色體的坐標(biāo)和方向嘗未明確的基因序列，在參照基因組數(shù)據(jù)庫(kù)中采用_random 后綴來(lái)表示。

未放置的序列

對(duì)于基因序列來(lái)源于哪一條染色體還沒(méi)有明確的堿基序列，由 chrU_ 前綴來(lái)標(biāo)識(shí)。

GRCh38 ALT 重疊群

GRCh38 ALT 重疊群可通過(guò)其 _alt 后綴識(shí)別；它們的總長(zhǎng)度為 109Mb，跨越了 60Mb 的主要組裝序列。替代重疊群序列可以是新穎的、也可以是高度變化的，也會(huì)與相應(yīng)的主要組裝序列幾乎相同。與主要組裝高度不同的序列僅有幾百萬(wàn)個(gè)堿基。大多數(shù) ALT 重疊群的子序列與主要組裝體非常相似。這意味著如果盲目地將測(cè)序序列定位到 GRCh38+ALT 序列上，那么我們將獲得許多測(cè)序質(zhì)理為零的多定位結(jié)果。許多基因檢測(cè)機(jī)構(gòu)在對(duì)測(cè)序序列進(jìn)行分析時(shí)，會(huì)采用 GATK 工具中的ZeroMappingQuality 過(guò)濾器，因此會(huì)錯(cuò)過(guò)與此類(lèi)位點(diǎn)對(duì)應(yīng)的基因突變序列。

佳學(xué)基因解碼介紹了如何以檢測(cè)替代重疊群的方式對(duì)測(cè)序序列進(jìn)行比對(duì)分析，并討論使用參考基因組替代重疊群進(jìn)行比對(duì)對(duì)基因測(cè)序結(jié)果的影響。

偽常染色體區(qū)域

X 和 Y 上的偽常染色體區(qū)域 (PAR) 序列共同創(chuàng)建了一個(gè)二倍體區(qū)域，因此它們?cè)诨蚪M組裝體中是相同的。在基因組的分析集版本中，對(duì)兩個(gè) Y 染色體 PAR 區(qū)域采用了硬掩蔽技術(shù)，以便允許將基因測(cè)序結(jié)果僅僅定位到X 染色體 PAR 區(qū)域。 PAR1和PAR2在GRCh38上的chrY位置是chrY:10,000-2,781,479和chrY:56,887,902-57,217,415。在下面采用 IGV 查看基因組序列的圖中，可以看到在分析集基因組中，chrY PAR1區(qū)域部分被硬遮蔽。

參考集中的序列是大小寫(xiě)字母的混合。小寫(xiě)字母是采用RepeatMasker 和 Tandem Repeats Finder發(fā)現(xiàn)的重復(fù)序列，采用了軟遮蔽形式。

同源著絲粒和基因組重復(fù)陣列

5、14、19、21 和 22 號(hào)染色體上具有同源著絲粒和基因組重復(fù)陣列的一些其他區(qū)域在分析用基因組組裝中也采用了硬掩蔽方式被遮蔽。

EBV 和誘餌

GRCh38 分析集還包括一個(gè)重疊群，用于獲取對(duì)應(yīng)于 Epstein-Barr 病毒序列的測(cè)序序列，以及誘餌重疊群。 EBV 重疊群可以幫助糾正因 EBV 轉(zhuǎn)化使人血淋巴細(xì)胞永生化而產(chǎn)生的假序。它還可以用來(lái)識(shí)別人體基因組中的內(nèi)源性 EBV 序列，因?yàn)樵谧匀磺闆r下，EBV感染人類(lèi)約 90% 的 B 細(xì)胞。

補(bǔ)丁序列

補(bǔ)丁序列是指在不破壞染色體坐標(biāo)的情況下，用提高基因組組裝的質(zhì)量，并向組裝本添加信息。如：GRCh38.p7 表示 GRCh38 的第七個(gè)補(bǔ)丁版本。

染色體	全長(zhǎng)(bp)	基因庫(kù)數(shù)據(jù)獲取代碼	參照基因組獲取代碼
1	248,956,422	CM000663.2	NC_000001.11
2	242,193,529	CM000664.2	NC_000002.12
3	198,295,559	CM000665.2	NC_000003.12
4	190,214,555	CM000666.2	NC_000004.12
5	181,538,259	CM000667.2	NC_000005.10
6	170,805,979	CM000668.2	NC_000006.12
7	159,345,973	CM000669.2	NC_000007.14
8	145,138,636	CM000670.2	NC_000008.11
9	138,394,717	CM000671.2	NC_000009.12
10	133,797,422	CM000672.2	NC_000010.11
11	135,086,622	CM000673.2	NC_000011.10
12	133,275,309	CM000674.2	NC_000012.12
13	114,364,328	CM000675.2	NC_000013.11
14	107,043,718	CM000676.2	NC_000014.9
15	101,991,189	CM000677.2	NC_000015.10
16	90,338,345	CM000678.2	NC_000016.10
17	83,257,441	CM000679.2	NC_000017.11
18	80,373,285	CM000680.2	NC_000018.10
19	58,617,616	CM000681.2	NC_000019.10
20	64,444,167	CM000682.2	NC_000020.11
21	46,709,983	CM000683.2	NC_000021.9
22	50,818,468	CM000684.2	NC_000022.11
X	156,040,895	CM000685.2	NC_000023.11
Y	57,227,415	CM000686.2	NC_000024.10

(責(zé)任編輯：佳學(xué)基因)

【佳學(xué)基因檢測(cè)】如何貯存用于基因序列比對(duì)的全部基因組序列？

【佳學(xué)基因檢測(cè)】如何貯存用于基因序列比對(duì)的全部基因組序列？

人類(lèi)全基因組參照序列的組成成分

Analysis set 參照基因組分析數(shù)據(jù)集

Contig 連續(xù)序列單元

Primary Assembly 主要組裝體

PAR

PATCHES修復(fù)補(bǔ)丁

主要參照基因組組裝體的組成成分示意圖

GRCh38版本的主要內(nèi)容介紹

主要組裝體：

未定位的序列

未放置的序列

GRCh38 ALT 重疊群

偽常染色體區(qū)域

同源著絲粒和基因組重復(fù)陣列

EBV 和誘餌

補(bǔ)丁序列

【佳學(xué)基因檢測(cè)】如何貯存用于基因序列比對(duì)的全部基因組序列？

【佳學(xué)基因檢測(cè)】如何貯存用于基因序列比對(duì)的全部基因組序列？