Etnično pomemben konsenzusni korejski referenčni genom je korak k osebnim referenčnim genomom | narave komunikacije

Etnično pomemben konsenzusni korejski referenčni genom je korak k osebnim referenčnim genomom | narave komunikacije

Anonim

Predmeti

  • Informatika o genomu
  • Genomika
  • Zaporedje
  • Popravek tega članka je bil objavljen 9. oktobra 2017

Ta članek je bil posodobljen

Izvleček

Človeške genome rutinsko primerjamo z univerzalno referenco. Vendar bi ta strategija lahko izpustila specifične populacije in osebne genomske razlike, ki bi jih bilo mogoče učinkoviteje zaznati z etnično pomembnimi ali osebnimi sklici. Tu poročamo o hibridnem sklopu korejskega referenčnega genoma (KOREF) za konstruiranje osebnih in etničnih referenc s kombiniranjem metod zaporedja in preslikave. Prav tako gradimo njegovo referenco za variome soglasja, ki zagotavlja informacije o milijonih različic 40 dodatnih etnično homogenih genomov iz korejskega projekta osebnega genoma. Ugotavljamo, da je za učinkovito odkrivanje variant lahko koristno sklicevanje na etnično ustrezen konsenz. Sistematična primerjava človeških sklopov kaže na pomembnost kakovosti montaže, kar kaže na nujnost novih tehnologij za celovito preslikavo etničnih in osebnih sprememb genomske strukture. V dobi obsežnih projektov genskih populacij bo vplivanje na sklope genomov, specifičnih za etnično pripadnost, in človeški referenčni genom pospešilo preslikavo vse raznolikosti človeškega genoma.

Uvod

Standardna referenca za ljudi (trenutno GRCh38), ki večinoma temelji na kavkaški in afriški rodu 1, 2, je natančna, natančna in obsežna. Zaradi razmeroma majhne dolgoročno učinkovite velikosti prebivalstva anatomsko sodobnih ljudi (ocenjena na 10 000) 10 je taka referenca primerna za večino namenov in se rutinsko uporablja pri raziskavah in biomedicinskih aplikacijah. Vendar pa bi lahko s tako univerzalnimi referencami zamudili nekatere različice, značilne za populacijo, in sedanja raziskovalna prizadevanja za preslikavo človeške raznolikosti, vključno z nizkofrekvenčnimi in strukturnimi različicami, bi imela koristi od etnično ustreznih referenc 5, 6 . Od objave prvega osnutka človeškega referenčnega genoma leta 2001 (ref. 7) so tehnologije zaporedja hitro napredovale. Leta 2007 je bil diploidni genom kavkaškega samca sekvenciran in sestavljen z uporabo tehnologije Sanger sekvenciranja (HuRef) 8 . Kasneje so bili uporabljeni kitajski (YH), ​​afriški (2009), kavkaški (HsapALLPATHS1, tukaj imenovan NA12878_Allpaths, 2011) in mongolski (2014) z uporabo kratkih bralnih podatkov sekvenciranja Illumina 9, 10, 11 . Leta 2014 je bil sestavljen celoten hidatidiformni molekularni genom (CHM1_1.1), čeprav referenčno voden, s pomočjo Illumina kratkih odčitkov in indeksiranih kloniranih bakterijskih umetnih kromosomov (BAC) 12 . V letu 2015 smo diploidno razrešeni diploidni YH genom sestavili s pomočjo fosmidnega združevanja skupaj s kratkoročno prebranimi podatki zaporedja 13 . Ti sklopi, čeprav so koristni in pomembni za genomične raziskave, niso dovolj natančni ali splošne kakovosti, da bi jih lahko šteli za splošni standardni referenčni genom 14 .

Nedavno povečana razpoložljivost metod sledenja in preslikave na dolge razdalje ima pomembne posledice za ustvarjanje referenc za etnične skupine in celo osebne genome, zlasti za strukturne variacije, povezane z boleznijo (SV). Podatki z dolgim ​​razponom lahko izboljšajo sklope genomov s povečanjem velikosti ogrodja, učinkovito zapiranjem vrzeli, reševanjem zapletenih regij in identifikacijo SV-jev 15, 16, 17, 18, 19, 20, 21, 22 z relativno nizkimi stroški. Pomembni pristopi so eno-molekularna tehnologija zaporedja v realnem času (SMRT) in visoko vzporedna priprava knjižnice ter lokalna sestava kratkih odčitkov (sintetična dolga branja) za razrešitev kompleksnih regij DNK in zapolnitev genskih vrzeli 15, 16, 17 . Na primer, posamezni haplotipni človeški genomi so bili konstruirani z uporabo eno-molekularnih dolgo berenih sekvenc (CHM1_PacBio_r2 in CHM13). Metode z dolgim ​​branjem lahko dopolnimo in potrdimo z dvema načinoma preslikave z veliko pretočnostjo: optičnim preslikavanjem in kartiranjem genoma na osnovi nanokanalcev. Najbolj reprezentativni primeri sta NA12878 (ASM101398v1; tukaj imenujemo NA12878_single) in HX1 (kitajski posameznik) genoma, ki sta bila hibridno sestavljena z združevanjem eno-molekulskih dolgih odčitkov z eno-molekularnimi kartami genom 21, 22 . Sklopi, ki vključujejo kratkoročne odčitke s kratkimi odčitki in podatki o preslikavi ali sekvenciranju na dolge dosege ali hibridne sklope, lahko izboljšajo kakovost in tako zagotavljajo veliko daljše odri z validacijo in prilagoditvijo zapletenih genskih regij 19, 20, 21, 22 .

Komplementarni referenčni projekti genoma, ki zagotavljajo natančne predloge, populacijski projekti genoma, kot sta Projekt osebnega genoma (PGP) 23 in Projekt 1.000 genomov (1KGP) 24, 25, zagotavljajo dragocene informacije o variomih, ki so temeljne za številne biomedicinske raziskovalne projekte. PGP je bil ustanovljen leta 2005 za javno izmenjavo osebnih podatkov o genomu, zdravju in lastnostih, ki so ključnega pomena za razumevanje različnih funkcionalnih posledic, povezanih z gensko variacijo. Nedavno so bili v Veliki Britaniji in na Nizozemskem začeti obsežni projekti genskih populacij, da bi prepoznali redke genetske variacije in bolezenske različice, značilne za populacijo 26, 27 . Tipi in frekvence genomskih variacij, dobljeni s posameznimi referencami in populacijo (variome), so stebri genomike.

Tu poročamo o dveh različicah korejskega referenčnega (KOREF) genoma (KOREF_S: en sam referenčni sklop in KOREF_C: enojna referenčna + konsenzus variom), proizvedenih kot del PGP, z uporabo hibridnega zaporedja in preslikave podatkov. KOREF ponuja še eno kakovostno vzhodnoazijsko referenco, ki dopolnjuje GRCh38. Korejsko ministrstvo za znanost in tehnologijo je leta 2006 sprožilo podjetje KOREF, da bi ustvarilo nacionalne reference za genom in variome. Za reševanje vprašanj, ki so značilna za kratka branja, uporabljamo podatke iz številnih različnih tehnologij (kratke in dolge zaporedne sezname s sintetičnimi sintetičnimi in eno-molekularnimi dolgimi odčitki ter optične in nanokanalne genomove karte) za izdelavo visokokakovostnega hibridnega sklopa moškega darovalca, KOREF_S (slika 1). Poleg tega integriramo informacije iz 40 celotnih genomov z visoko pokritostjo (na osnovi kratkih odčitkov) iz korejskega PGP (KPGP) 28, da bi ustvarili soglasno korejsko referenco za celotno populacijo, KOREF_C. Primerjamo gensko strukturo KOREF_C z drugimi sklopi človeškega genoma in odkrivamo številne strukturne razlike, vključno z zelo pogostimi strukturnimi različicami, ki so značilne za etnično skupino. Pomembno je, da na identifikacijo SV v veliki meri vplivata uporabljena platforma za zaporedje in kakovost montaže, kar kaže na potrebo po dolgo prebranih zaporedjih in bolj kakovostni sestavi za celovito preslikavo etničnih in osebnih genskih struktur. V prihodnje bodo številni poceni osebni, nacionalni in etnični referenci genoma pospremljeni s podatki o večetničnih PGP pospešili dokončanje preslikave vse raznolikosti človeškega genoma tako v enojedrnih različicah (SNV) kot v SV.

Image

( a ) Knjižnice s kratkimi in dolgimi vstavljivimi velikostmi s strategijo sekvenciranja celotnega genoma Illumina. ( b ) Sestavite sklop z uporabo K -mers iz knjižnic s kratkimi vstavki. ( c ) Montaža odrov z uporabo knjižnic z dolgimi vstavki. ( d ) Montaža super ogrodja s pristopom OpGen kartiranja celotnega genoma. ( e ) Zaprtje vrzeli z uporabo PacBio long reads in Illumina TSLR. ( f ) ocena sestavljanja z uporabo konsenzusnih kart BioNano. ( g ) Gradnja zaporedja kromosomov z uporabo podatkov o poravnavi celotnega genoma v človeški referenci (GRCh38). ( h ) Nadomestitev pogostih variant z uporabo 40 sekvenc celotnega korejskega gena.

Slika v polni velikosti

Rezultati

Izbira reprezentativnega darovalca genoma

Zaposlili smo 16 korejskih prostovoljcev, ki so podpisali informirano soglasje (na podlagi PGP protokola z manjšimi prilagoditvami za posamezne države) za uporabo svojih genskih podatkov in so se strinjali z njihovo javno objavo. Po odvzemu DNK iz periferne krvi (dodatna tabela 1) smo genotipizirali vsakega prostovoljca z uporabo štirikolesnega čipa Infinium Omni1. Izdelane so bile večdimenzionalne karte za merjenje parnih genetskih razdalj z uporabo dodatnih 34 korejskih zaporedij celotnega genoma iz baze podatkov KPGP ter 86 podatkov o genotipih Japonskih, 84 Kitajcev, 112 kavkazov in 113 Afričanov iz faze 3 HAPMAP (ref. 29; dopolnilni podatki) Slika 1). Vseh 16 korejskih vzorcev je padlo v tesno populacijsko skupino, kar pomeni, da predstavljajo eno etnično skupino. Zdravi moški darovalec je bil izbran za KOREF_S z upoštevanjem seznama parametrov, kot so centralnost genske razdalje, starost udeleženca, razpoložljivost starševskih vzorcev, razpoložljivost za neprekinjeno darovanje vzorcev krvi in ​​normalnost kariotipa z G-pasom (dopolnilo Slika 2 ). Za dobavo referenčnega materiala je bila iz darovalne krvi KOREF_S zgrajena ovekovečena celična linija in deponirana v korejski banki celičnih linij (KCLB, # 60211).

KOREF_S sklop

Podatke o zaporedju na kratko smo prejeli s platformi Illumina HiSeq2000 in HiSeq2500 z uporabo istega pristopa, ki so ga sprejeli drugi osnutki projektov referenčnih genomov 9, 10, 11, 13, 30 . Skupnih 964 Gb odčitanih DNK bralcev je bilo ustvarjenih iz 24 knjižnic z različnimi velikostmi fragmentov (170, 500 in 700 bp kratke velikosti vstavka ter 2, 5, 10, 15 in 20 Kb dolge velikosti vstavka), kar daje skupna globinska pokritost globine 311 krat (dodatni tabeli 2 in 3). Iz K -mer analize smo ocenili, da je velikost KOREF_S znašala b 3, 03 Gb (dodatna tabela 4). Skupaj je bilo ustvarjenih 68.170 odrov (≥200 bp), katerih skupna dolžina je 2, 92 Gb, dosegla je dolžino N50 skoraj 20 Mb (19, 85 Mb) in je vsebovala le 1, 65% vrzeli (preglednica 1 in dodatna slika 3). Približno 90% osnutka genoma (N90) je zajelo 178 odrov, vsaka večja od 3, 09 Mb, največja razpona pa je bila na Kromosomu 6 nad 80 Mb (81, 9).

Tabela polne velikosti

Za nadaljnje razširitev odrov smo uporabili instrument za optično kartiranje z velikim pretokom celotnega genoma, kot je bilo že predlagano 18 . Iz 67 kartic visoke gostote smo ustvarili visoko molekularno DNK in ustvarili 745, 5 Gb eno-molekulskih restrikcijskih kart (približno dva milijona molekul s 360 Kb povprečne velikosti), kar je povzročilo 240-kratno optično pokritost zemljevidov (dodatni tabeli 5 in 6). Za pridružitev odrov so bile eno molekularne optične karte primerjane z sestavljenimi odri, ki so jih s presnovo s silikonskim restrikcijskim encimom pretvorili v restrikcijske karte. Rezultat je bilo skupno 67 odrov (> 200 Kb) (dodatna tabela 7). To je povzročilo povečanje dolžine ogrodja N50 z 19, 85 na 25, 93 Mb (tabela 1). Poleg tega smo ustvarili dve vrsti daljših odčitkov za KOREF_S: PacBio SMRT (∼ 31, 1 Gb, ∼ 10-krat pokritost; Dopolnilna slika 4 in dodatna tabela 8) ter Illumina TruSeq Synthetic Long Reads (TSLR, ∼ 16, 3 Gb, ∼ 5, 3- pokritost; dodatna slika 5 in dodatna tabela 9). Obe vrsti sta bili uporabljeni hkrati, kar je povzročilo zmanjšanje števila vrzeli z 1, 75 na 1, 06% pričakovane velikosti genoma in majhno povečanje dolžine končne skele N50 s 25, 93 na 26, 08 Mb (tabela 1). Sumimo, da je majhna količina dolgih odčitkov (le 1, 2% številk prebranih števil v primerjavi s pari pari) eden od razlogov za majhno povečanje dolžine odra (dodatna tabela 10).

Odri običajno vsebujejo misas 14 . Kakovost KOREF_S smo skrbno in sistematično ocenjevali tako, da smo ustvarili podatke o kartiranju genoma na osnovi nanokanalcev (∼ 145 Gb eno-molekulskih zemljevidov> 150 Kb). Podatke preslikave smo zbrali v 2, 8 Gb zemljevidov genoma z N50 dolžino 1, 12 Mb (dodatna tabela 11). Karte 93, 1% odrov KOREF_S (≥10 Kb) so zajele s temi zemljevidi genomov, kar potrjuje njihovo kontinuiteto (dodatna slika 6). Za natančno določitev misastih sklopov odrov KOREF_S smo ročno preverili vse rezultate poravnave zemljevidov genoma (3.216 primerov z zaupanjem poravnave ≥ 20) na KOREF_S in GRCh38. V KOREF_S so odkrili sedem razstavljenih regij in jih razdelili zaradi popravka (dopolnilna slika 6). Nato smo izvedli poravnavo celotnega genoma KOREF_S in GRCh38, da smo odkrili možne inter- ali intra-kromosomske translokacije (kar kaže na ponovno sestavljene sekvence). Skupaj 280 odrov KOREF_S (≥10 Kb) je pokrivalo 93, 5% kromosomskih zaporedij GRCh38 (brez vrzeli). Nismo našli obsežnih inter- ali intrahromosomskih translokacij. Poleg tega smo kot natančno oceno poravnali podatke o zaporedju kratkega in dolgo branega ogrodja KOREF_S (poravnava samostojno). Skupno 98, 85% zaporedj odrov (> 2 Kb) je bilo pokritih več kot 20-krat. Za kromosome smo dodelili odseke KOREF_S z uporabo podatkov o poravnavi celotnega genoma (kromosomska lokacija in informacije o naročanju odrov na kromosomih GRCh38), da dobimo KOREF_S zaporedje kromosomov (.12 3, 12 Gb skupne dolžine; Tabela 1).

KOREF_C konstrukcija in pripis genoma

Nedavno sta Dewey in sod . so pokazali veliko izboljšano natančnost genotipa za različice, povezane z boleznijo, z uporabo glavnih referenčnih sekvenc alelov 5, ki so bile zgrajene z nadomeščanjem glavnega alela, specifičnega za etnično pripadnost (ene osnovne baze z 1KGP), v evropsko, afriško in vzhodnoazijsko referenco z nizko pokritostjo genomi. Sledili smo istemu pristopu za KOREF_S tako, da smo zamenjali sekvence tako SNV-jev kot majhnih vstavkov ali izbrisov (indel), ki so jih običajno našli v 40-ih KPGP-globinskih (povprečnih 31-kratnih preslikanih odčitkih) celih genomov. To je odpravilo posamezne pristranskosti in tako bolje predstavljalo običajne različice korejske populacije kot referenco za soglasje (KOREF_C; Dodatna tabela 12). Vgrajenih je bilo približno dva milijona različic (1, 951, 986 SNV-jev in 219, 728 modelov), ki jih pogosto najdemo v 40 visokokakovostnih kratkih prebranih podatkih korejskega genoma. Poleg tega je bila mitohondrijska DNA (mtDNA) KOREF_S neodvisno sekvencirana in sestavljena, zaradi česar je bil mitogenom 16, 570 bp, ki je bil po strukturi podoben kot GRCh38. Skupaj 34 položajev KOREF_S mtDNA se je razlikovalo od položaja GRCh38 (dodatna tabela 13). KOREF_S-jeva mtDNA bi lahko bila dodeljena haplogrupi D4e, ki je pogosta pri vzhodnoazijskih, medtem ko GRCh38 mtDNA pripada evropski haplogrupi H.

Vsebina in distribucija KOREF_C GC sta bili podobni drugim skupinam ljudi, razen afriške skupščine, ki ima med njimi najnižjo kakovost (dopolnilna slika 7). KOREF_C smo pripomnili za ponavljajoče se elemente z vključevanjem de novo napovedovanja in homologije na podlagi poravnav. Ponavljajoči se elementi so zavzeli 1, 51 Gb (47, 13%) KOREF_C (dopolnilna tabela 14), kar je nekoliko manj kot v GRCh38 (1, 59 Gb). Po drugi strani je KOREF_C vseboval več ponovitev kot mongolski genom (1, 36 Gb), ki ga je sestavil samo zaporedje kratke branja naslednje generacije. Napovedali smo 20.400 genov za kodiranje beljakovin za KOREF_C (dopolnilna tabela 15 in razdelek "Metode"). S primerjavo KOREF_C z drugimi skupinami ljudi (GRCh38, CHM1_1.1, HuRef, afriška, mongolska in YH) je bilo skupno 875, 8 Kb KOREF_C zaporedja (≥100 bp fragmentov) opredeljenih kot novo (Dopolnjena tabela 16 in razdelek o metodah) .

KOREF_C v primerjavi z drugimi človeškimi genomi

Kakovost devetih javno dostopnih sklopov človeškega genoma (CHM1_PacBio_r2, CHM1_1.1, NA12878_single, NA12878_Allpaths, HuRef, mongolščina, YH_2.0, afriška in KOREF_C) smo primerjali statistiko sestavljanja in stopnje obnovitve za genom GRCh38, segmentirano podvojeno in zaporedja, ki se ponavljajo (Tabela 2, Dodatne tabele 17-19). Rezultati so pokazali, da je bil KOREF_C bolj zasnovan (26, 46 Mb N50) kot kateri koli od novo sestavljenih na kratko prebranih sklopov, vendar primerljiv s sklopi, ki so jih že dolgo brali (26, 83 Mb N50 za NA12878_single; 26, 90 Mb N50 za CHM1_PacBio_r2); KOREF_C je bil hibrid sestavljen z zbiranjem heterogenih tehnologij sekvenciranja in preslikave, vendar je večina KOREF_C sekvenc izhajala iz kratkih odčitkov zaporedja nove generacije. Vendar je velikost stika KOREF_C majhna (47, 86 Kb N50 in 17 749 L50; dopolnilna tabela 17) v primerjavi z sklopi, ki temeljijo na dolgo branje, zaradi nizke ravni informacij o neprekinjenosti kratkih brank. KOREF_C je pokazal primerljivo hitrost obnavljanja GRCh38 z drugimi sklopi, ki so jih dolgo brali (tabela 2 in dodatna tabela 18). KOREF (ogrodje KOREF_S) je obnovil podvojena in ponavljajoča se območja učinkoviteje kot druge sklope novih novosti, ki so temeljili na kratkem branju, vendar manj kot dva sklopa PacBio, ki sta jih dolgo brala (dodatna tabela 19). Zlasti večja globina prebranega sklopa CHM1_PacBio_r2 je obnovila najbolj segmentirano podvojena območja, skoraj tako kot GRCh38, kar kaže, da so dolgoročno prebrane informacije pomembne za obnovo takšnih zahtevnih genomskih regij. Tudi strukturni polimorfizmi med obema haplotipomoma pri darovalcu so eden najpomembnejših dejavnikov, ki vplivajo na kakovost montaže 15, 31 . Zato je bilo pričakovati, da je CHM1_PacBio_r2, haploidni sklop, pokazal boljše obnavljanje genoma za segmentno podvojena območja kot drugi sklopi z uporabo diploidnega vira. Poleg tega smo primerjali kakovost sestavljanja tako, da smo presodili podatke o sekvenciranju genoma enega haplotipa (CHM1) na človeške sklope (dopolnilna slika 8). V idealnem primeru bi CHM1 moral primanjkovati heteroroznih različic, če bi človeški sklop dobro obnovil celoten genom. CHM1_PacBio_r2 je bil najbolj natančen (z najnižjim številom heteroroznih različic) pri razreševanju celotnega človeškega genoma, KOREF_C pa je bil najbolj natančen med kratkoročno prebranimi sklopi. Ti rezultati potrjujejo, da kratki odčitani sklopi de novo temeljijo na zmanjšanju moči za natančno reševanje celotnih sekvenc genoma 14 .

Tabela polne velikosti

Opravljali smo tudi presojo genske vsebine s primerjavo števila odkritih genov, ki kodirajo protein RefSeq (ref. 32), v vsakem človeškem sklopu (preglednica 2 in dodatna tabela 20). Geni RefSeq so bili najbolje dobljeni v CHM1_1.1 (18, 040), ki je bil sestavljen s pomočjo te reference kot vodiča. Med novo sestavljenimi genomi je KOREF_C vseboval največje število (17, 758) nepoškodovanih RefSeq genov, celo več kot sklopi, ki so jih že dolgo brali (, 6 17, 657). Zlasti je genom NA12878_single, ki je bil hibrid sestavljen z združevanjem eno-molekulskih daljinskih odčitkov z zemljevidi o genomu, imel najnižje število (6 610) nepoškodovanih proteinov, ki kodirajo beljakovine, celo nižje od afriškega genoma nizke kakovosti (9, 167). Potrdili smo, da je imel NA12878_single v svojih kodirnih območjih veliko premikov okvirja. To je mogoče razložiti z višjimi stopnjami napak pri dolgih odčitkih enojnih molekul PacBio, ki jih ni bilo mogoče popraviti s korakom popravljanja napak zaradi majhne globine zaporedja (46 × pokritost) 21, 33 .

Primerjava strukturnih variacij

V teh osmih človeških sklopih smo primerjali SV, kot so velike vstavitve, brisanja in inverzije, s primerjavo z GRCh38 (ker ni bilo nobenih podatkov o branju v seznamu, HuRef v tej analizi ni bil uporabljen). Naša analiza je pokazala, da kakovost montaže določa predvsem platforma za zaporedje (torej dolžine branja zaporedja), zato smo morali upoštevati, da napačne sestave lahko ustvarijo napačne SV-je. Dva kavkaška vzorca (CHM1 in NA12878) sta bila sestavljena z zaporedji kratkega branja in dolgih odčitkov, zato omogočata preverjanje povezave med kakovostjo montaže in identifikacijo SV. Pri etnični pripadnosti vzorca CHM1 je bilo potrjeno, da je kavkaški z uporabo označevalcev DNA, ki so občutljivi na prednike, v avtosomih 34 in sekvencah mitohondrijskih DNK (dopolnilna slika 9). SV-ji, ki jih je mogoče izvesti iz možnih misas-sestav, smo filtrirali s primerjanjem razmerja poravnanih bralcev v enem koncu in branja v seznamih (razmerje S / P), kot je bilo že predlagano 35 (glejte poglavje "Metode").

V primerjavi s GRCh38 je bilo v skupini KOREF_C ugotovljenih 6.397 vstavitev (> 50 bp), 3.399 izbrisov (> 50 bp) in 42 inverzij, za skupno 9.838 SV. To je nekoliko manj, kot ga najdemo v mongolskih (12.830 SV) in afriških (10.772 SV) sklopih, vendar večje od tistih, ki jih najdemo v sklopih CHM1 in NA12878 (∼ 5.179 SV; tabela 3, dopolnilni tabeli 21 in 22). Zlasti YH_2.0 (5.027 SV) je imelo podobno število SV kot tiste v kavkaških sklopih v primerjavi z drugimi azijskimi sklopi. Porazdelitev dolžine SV-jev, ki jih najdemo v teh sklopih, je pokazala podoben vzorec (dodatni sliki 10 in 11), z vrhom v območju velikosti 200–400 bp zaradi vstavitev in izbrisov elementov Alu 15, 35 . Frakcije SV v ponavljajočih se območjih so bile v sklopih, ki so temeljile na kratkem branju, višje (69, 6–81, 9%) kot sklopi z dolgim ​​branjem (67, 7–68, 7%; preglednica 3 in dodatna tabela 23). Po drugi strani so deleži SV-jev v segmentirano podvojenih regijah precej višji v sklopih, ki so jih brali dolgoročno (21, 4–29, 0%), kot sklopi, ki so jih prebrali kratkoročno (3, 9–12, 6%; tabela 3 in dodatna tabela 24).

Tabela polne velikosti

93, 8% vstavitev in 70, 4% izbrisov ni bilo najdenih v javnih bazah podatkov SV in so bile torej opredeljene kot nove (Tabela 3, Dopolnilna slika 10, Dopolnilna tabela 25 in razdelek "Metode"). Delež novih SV-jev v KOREF_C je bil podoben tistim, ki jih najdemo v drugih človeških sklopih, vendar manjši od drugih samo na novo sestavljenih sestavkov. Ne glede na platformo za zaporedje so vsi sklopi pokazali večje deleže novih SV-jev od tistih, ki so jih našli s preslikavo očitkov PacBio SMRT CHM1 na človeški referenčni genom (tukaj imenovan CHM1_mapping) 15 . Zlasti CHM1_PacBio_r2, ki je bil sestavljen z PacBio odčitki istega vzorca, je prav tako pokazal veliko večji delež novih SV. Ugotovili smo povezavo med dolžino fragmentov N50 in deležem novih SV-jev ( R 2 = 0, 44; slika 2a). Ko smo primerjali SV-je človeških sklopov s SV-ji po CHM1_mappingu, smo delili le majhne dele SV-jev (∼ 12, 51%) (tabela 3 in dodatna tabela 26). Delež SV-jev (8, 85%) med CHM1_PacBio_r2 in CHM1_mapping je bil majhen, deljeni deli sklopov NA12878 pa so bili precej različni (NA12878_single: 8, 32%, NA12878_Allpaths: 5, 27%). Med kakovostjo sestavljanja (dolžina N50) in deljenim delom je obstajala korelacija ( R 2 = 0, 71; slika 2b). Ti rezultati kažejo, da je tudi pri istem vzorcu obstajala velika razlika med metodami poravnave celotnega genoma, ki so bile dolgo prebrane, in de novo sestavljeno na osnovi.

Image

( a ) Povezava med N50 dolžino fragmentov (ogrodja ali kontig) in deležem novih SV. ( b ) Povezava med dolžino fragmentov N50 in deležem SV-jev, ki se delijo z metodo branja CHM1 PacBio za branje. ( c ) Ekskluzivno deljene SV-je med skupinami ljudi. Na tej sliki so bili upoštevani SV-ji, ki jih delijo (vzajemno 50%) samo označeni sklopi. ( d ) Primer SV, ki si ga je delilo devet človeških sklopov. Sive regije označujejo strukturne razlike, deljene med vsemi sklopi, vodoravne črte pa pomenijo homologna zaporedna področja.

Slika v polni velikosti

Človeški genomi vsebujejo populacijsko specifične sekvence in populacijsko stratificirano število kopiranih spremenljivih regij 6, 36 . Zato smo domnevali, da bi morali etnično pomembni človeški sklopi imeti podobne strukture genomov. Za raziskovanje genomske strukture med skupinami ljudi smo razvrstili SV, ki so jih delili človeški sklopi (slika 2c). Večina SV-jev (nad 61, 6%) je bila specifičnih za montažo (dodatna tabela 27). Če upoštevamo SV, ki sta jih delila samo dva sklopa, sta dva azijska genoma (KOREF_C in mongolski) delila največje število SV (Dopolnilna slika 12). Vendar pa je YH_2.0 s KOREF_C in mongolskimi sklopi delil le majhno število SV. Zlasti sta YH_2.0 in afriški genomi obilno delila SV, kar ni mogoče razložiti z našo domnevo, da bi morali imeti podobni etnični genomi večjo podobnost strukture genoma. CHM1_PacBio_r2 in NA12878_single, ki sta kavkaška sklopa, ki uporabljata PacBio dolgo prebrano zaporedje, sta delila več SV-jev kot tistih med sklopi istega vzorca (NA12878 sklopi in sklopi CHM1). V primerih SV, ki jih delijo samo trije sklopi, so imeli afriški, NA12878_Allpaths in YH_2.0 največje število SV, medtem ko so imeli trije azijski genom manjše število skupnih SV (slika 2c in dodatna slika 12). Ko pa so bili izločeni SV-ji v ponavljajočih segmentiranih in segmentirano podvojenih regijah izključeni, so imeli trije azijski sklopi največje število skupnih vstavkov, medtem ko so afriški, NA12878_Allpaths in YH_2.0 delili nobenih vstavkov sploh (dodatna slika 13). Ti rezultati kažejo, da je na identifikacijo SV kritično vplivala platforma za zaporedje in kakovost montaže. Zato predlagamo, da so za boljšo karakterizacijo strukturnih razlik v genomu potrebne izboljšane metode sestavljanja in identifikacija SV.

Glede na te omejitve smo še naprej identificirali najpogosteje skupne SV po etničnih skupinah. Da bi to naredili, smo preverili razmerja S / P za SV s pomočjo podatkov o ponovnem zaporedju celotnega genoma petih Korejcev, štirih vzhodnoazijskih, štirih belcev in enega Afričana iz KPGP, 1KGP, projekta raznolikosti človeškega genoma (HGDP) 37, in Panazijska pobuda za genomiko prebivalstva (PAPGI). Najprej smo našli eno SV, ki so si jo delili vsi človeški sklopi (slika 2d). Ta SV se je pogosto pojavljala tudi pri ponovnem zaporedju podatkov (13 od 14 podatkov o nadaljnjem zaporedju). Od 110 SV-ov, ki so jih delili trije azijski sklopi, jih je bilo 18 pogosto najdenih v enajstih azijskih genomih (en mongolski sklop, en kitajski zbor in devet azijskih ponovnih zaporednih podatkov) v primerjavi z 10 neazijskimi genomi (pet neazijskih genomov) sklopi in pet podatkov o nadaljnjem zaporedju, vrednost P <0, 05, Fisherjev natančen test; dodatna tabela 28). Čeprav so bile analize SV omejene zaradi heterogenosti sekvence plošč in kakovosti sestavljanja, lahko ti rezultati kažejo, da je genska struktura podobnejša v isti etnični skupini 6, 36, kar kaže na to, da so etnično ustrezni referenčni genomi potrebni za učinkovito izvajanje velikih oz. primerjalna genomika lestvice.

Primerjalna primerjava, preslikana na KOREF

Za natančno odkrivanje genskih variacij 22 so lahko pomembne genomske sekvence, specifične za narodnost, ki so odsotne v referenčnem genomu 22 . Znano je tudi, da trenutno človeško referenčno zaporedje vsebuje tako običajne kot redke različice tveganja za bolezen 38, uporaba trenutne reference za človeka za identifikacijo variante pa lahko zaplete odkrivanje alelov tveganja redke bolezni 5 . S ponovnim zaporedjem podatkov o petih celih genomih iz vsake populacije (kavkaški, afriški, vzhodnoazijski in korejski) smo primerjali število različic (SNV-jev in majhnih indeksov), odkritih s pomočjo KOREF_S, KOREF_C, GRCh38 in soglasnega azijskega GRCh38 (GRCh38_C, izvajanje referenc 5 za azijski glavni alel Dewey et al ., vendar vključuje majhne indekse za našo študijo; Dodatni tabeli 29 in 30). Ugotovili smo, da se je število različic znatno razlikovalo, odvisno od uporabljene reference. Različne številke vseh posameznikov (kavkaške, afriške in vzhodnoazijske) so se zmanjšale, ko je bila referenca uporabljena KOREF_C. Ker pa bi lahko manjše število dejanskih podlag (brez vrzeli) v KOREF (KOREF_S in KOREF_C) vplivalo na natančnost rekonstrukcije genotipa, primerjali številke variant samo v regijah, ki jih delijo KOREFs, GRCh38 in GRCh38_C (Dodatna tabela 31). Kot je bilo pričakovano, se je število homozigotnih različic iz vseh azijskih genomov (dva kitajska, dva japonska, ena mongolska in pet korejskih) močno zmanjšalo (35, 5% SNV-jev in 43, 9% indeklov), ko je bil KOREF_C uporabljen kot referenca v primerjavi z GRCh38 (Slika 3a, b); nasprotno, število homozigotnih različic iz kavkaškega in afriškega genoma se je malo zmanjšalo. V primerih homozigotnih SNV-jev smo opazili podoben vzorec med GRCh38_C in KOREF_C. Vendar pa je bilo število homozigotnih indeklov pri uporabi GRCh38_C večje kot pri referenčni uporabi KOREF_C. Ugibamo, da je to zato, ker je bilo manj skupnih indeksov nadomeščenih za GRCh38_C v primerjavi s KOREF_C zaradi majhnih globin zaporedja 1KGP podatkov. Število homozigotnih različic, ki jih najdemo v azijskih Korejah, je bilo podobno kot pri Korejah, kar kaže, da se lahko KOREF uporabljajo tudi za druge vzhodnoazijske genome. Po drugi strani je bilo število heteroroznih SNV nekoliko višje pri KOREF-ih, kar je skladno z rezultatom preslikave podatkov o ponovnem zaporedju CHM1, kot je opisano zgoraj (dopolnilna slika 8). Vendar smo potrdili, da je bilo število heteroroznih SNV podobno, če smo analizo omejili na regije, ki se ne ponavljajo. Tudi število heterozigotih indeklov je bilo v veliki meri konstantno, ne glede na uporabljeno referenco (slika 3c, d).

Image

Številke različic (SNV in majhni indeksi) v regijah, ki si jih delijo KOREFs, GRCh38 in GRCh38_C, so primerjali s podatki o ponovnem zaporedju celotnega genoma iz treh različnih etničnih skupin (Afričani: Mandenka, Yoruba, San, Mbuti in Dinka; Kavkaki: sardinski, dr. Francoski in trije CEPH / Utah (CEU); Vzhodnoazijski: mongolski, dva Kitajca, dva Japonca in pet Korejcev). ( a ) Število homozigotnih SNV-jev. ( b ) Število homozigotnih majhnih indeklov. ( c ) Število heteroroznih SNV-jev. ( d ) Število heteroroznih majhnih indeklov. ( e ) Število različic (na katere se sklicujeta GRCh38 in KOREF_C) na različnih ravneh skupne rabe. ( f ) Število referenčnih specifičnih različic na različnih ravneh skupne rabe.

Slika v polni velikosti

Če smo se osredotočili na različno imenovane različice (različice, ki jih najdemo v GRCh38, vendar jih ne najdemo v KOREF_C, in obratno), smo ugotovili, da so se razlike v številu različic med populacijami (to je stratifikacija prebivalstva glede na število različic). Razlike različic med populacijami so bile izrazitejše pri uporabi KOREF_C, posebej imenovanih variant (dodatna tabela 32). Število pogosto deljenih različic KOREF_C, imenovanih različic (> 6 posameznikov), v 20 celih genomih je bilo veliko manjše, medtem ko je bilo število manj pogostih različic KOREF_C, imenovanih različic, imenovanih KOREF_C, vključno s posameznimi specifičnimi, večje (slika 3e, f). Prav tako je bilo število KOREF_C posebej imenovanih različic pri 10 Azijih precej manjše kot pri 10 neazijskih. Ti rezultati odražajo komponente konsenznih različic KOREF_C in tudi potrjujejo, da GRCh38 nima azijskih specifičnih sekvenc 5 . Večina (92, 3%) GRCh38 posebej imenovanih variant je bila najdena v bazi ene nukleotidne polimorfizme (dbSNP) 39 (dopolnilna tabela 32), medtem ko je bila manjša frakcija (56, 17%) različic KOREF_C, posebej imenovanih, opredeljena kot znana. Ko so bile izključene različice v ponavljajočih segmentiranih in segmentirano podvojenih regijah, je bila znana veliko večja frakcija (86, 21%) KOREF_C, posebej imenovanih različic (dopolnilna tabela 33), kar kaže, da je bila večina novih različic, ki jih najdemo v KOREF_C, posledica nepopolnosti ponavljajočih se in segmentirano podvojena območja. Therefore, we conclude that although KOREFs have an advantage for efficient variant detection for the same ethnic genomes, KOREFs need to be improved using longer sequence reads to reconstruct genotypes properly.

Additionally, we found that the number of variants identified following substitution in the reference with the dominant variant (KOREF_S versus KOREF_C) is much higher than the change caused by the ethnicity difference (KOREF_S versus GRCh38; Fig. 3a, b). Also, the East-Asians' homozygous variant number decreased only slightly when the KOREF_S was used, compared with GRCh38 (87.0% of homozygous SNVs and 77.9% of homozygous indels remained), while it was greatly decreased when KOREF_C was used (36.1% of homozygous SNVs and 44.5% of homozygous indels remained). On the other hand, the number of non-East Asians' homozygous variants increased when the KOREF_S was used, compared with when GRCh38 was used. These results indicate that, at the whole-genome variation level, intra-population variation is higher than the inter-population variation in terms of number of variants, supporting the notion that Homo sapiens is one population with no genomically significant subspecies.

Ethnicity-specific reference and functional markers

We also found that depending on the reference used, different numbers of non-synonymous SNVs (nsSNVs) and small indels were found in genic regions (Supplementary Tables 34 and 35). With the aforementioned ten East-Asian whole genomes, the number of homozygous nsSNVs (from 3, 644 to 1, 280 on average) and indels (from 95 to 40 on average) decreased most when using KOREF_C as a reference instead of GRCh38; whereas a smaller decrease was observed in the five Caucasians (nsSNVs from 3, 467 to 2, 098; indels from 89 to 65) and five Africans (nsSNVs from 4, 216 to 3, 007; indels from 134 to 109). When KOREF_C was used as the reference, predicted functionally altered (or damaged) genes by the homozygous variants also decreased the most among the East-Asians (East Asians, from 490 to 246 on average; Caucasians, from 448 to 362; Africans, from 448 to 415; Supplementary Table 36). Notably, in the 10 East-Asians, the functionally altered genes, which were found only against GRCh38 but not KOREF_C, were enriched in several disease terms (myocardial infarction, hypertension and genetic predisposition to disease), and olfactory and taste transduction pathways (Supplementary Tables 37 and 38). Additionally, 13 nsSNVs, which are known as disease- and phenotype-associated variants, were called against GRCh38 but not KOREF_C (Supplementary Table 39); we verified these loci by manually checking short reads alignment to both GRCh38 and KOREF_C (Supplementary Fig. 14).

Diskusija

In the era of large-scale population genome projects, leveraging ethnicity-specific reference genomes alongside GRCh38 could bring additional benefits in detecting variants. This is because each ethnic group has a specific variation repertoire, including single-nucleotide polymorphisms and larger structural deviations 6, 40 . Population stratification (systematic difference in allele frequencies) can be a problem for association studies, where the association could be found due to the underlying structure of the population and not a disease-associated locus 41 . Ethnicity-specific genomic regions such as novel sequences and copy number variable regions can affect precise genotype reconstruction. We demonstrate an example of a better genotype reconstruction in the copy number variable regions using KOREF (Supplementary Fig. 15). Hence, our ethnicity-specific reference genome, KOREF, may also be useful for detecting disease-relevant variants in East-Asians.

De novo assembly based on Sanger sequencing is still too expensive to be used routinely. We have demonstrated that it is possible to produce a de novo assembly of relatively high quality at a fraction of the cost by combining the latest sequencing and bioinformatics methods. Additionally, we have shown that optical and nano technologies can extend the size of the large scaffolds while validating the initial assembly. We found that the identification of structural differences based on the genome assembly is largely affected by assembly quality, suggesting a need for new technologies and higher quality of assembly from additional individuals in various populations to better understand comprehensive maps of genomic structure. Also, it is important that the same coordinate system on the GRCh38 allows comparison of different individuals, to leverage the vast amount of previously established knowledge and annotations. Therefore, it is also crucial to investigate how to transfer those annotations to personal or ethnic reference genomes by preferentially supplementing additional references into GRCh38 to gain additional biological insights. KOREFs cannot, and are not meant to, replace the human reference, and some of its genomic regions, such as centromeric and telomeric regions, and many gaps, are largely incomplete. However, KOREFs still can be useful in improving the alignment of East-Asian personal genomes, in terms of fast and efficient variant-calling and detecting individual- and ethnic-specific variations for large-scale genome projects.

Metode

Priprava vzorcev

All sample donors in this study signed written informed consent to participate, and the Institutional Review Board on Genome Research Foundation (IRB-201307-1 and IRB-201501-1 for KOREF and 20101202-001 for KPGP) provided approval for this study. Genomic DNA and RNA used for genotyping, sequencing, and mapping data were extracted from the peripheral blood of sample donors. We conducted genotyping experiments with 16 Korean male participants using Infinium Omni1 quad chip to check if the 16 donors had certain genetic biases. A total of 45 Korean whole genomes (40 for variant substitution and five for variant comparison) were used in this study (from the KPGP), sequenced using Illumina HiSeq2000/2500. For the comparison with the 16 donors, 34 Korean whole-genome sequences from the KPGP and 86 Japanese, 84 Chinese, 112 Caucasians and 113 Africans genotyping data from HAPMAP phase 3 were used. After filtering for MAF (<5%), genotyping rate (<1%), and LD ( R 2 ≤0.2) using PLINK 42, 90, 462 and 72, 578 shared nucleotide positions were used to calculate genetic distances for three ethnic groups (East-Asians, Caucasians and Africans) and three East-Asian groups (Koreans, Chinese and Japanese), respectively.

Epstein–Barr virus (EBV)-transformed B-cell line was constructed from the KOREF_S donor's blood 43, with minor modification. Briefly, peripheral blood mononuclear cells were purified by Ficoll-Paque Plus (GE Healthcare, UK) density gradient centrifugation. For EBV infection, the cells were pre-incubated for 1 h with spent supernatant from the EBV producer cell line B95-8, and then cultured in RPMI-1640 containing 10–20% foetal bovine serum, 2 mM L -glutamine, 100 U ml −1 penicillin, 0.1 mg ml −1 streptomycin, 0.25 μg ml −1 amphotericin B (all from Gibco, Grand Island, NY, USA). The EBV-transformed B-cells were maintained at a concentration between 4 × 10 5 –1 × 10 6 cells ml −1 and expanded as needed.

Genome sequencing and scaffold assembly

For the de novo assembly of KOREF_S, 24 DNA libraries (three libraries for each insert size) with multiple insert sizes (170 bp, 500 bp, 700 bp, 2 Kb, 5 Kb, 10 Kb, 15 Kb and 20 Kb) were constructed according to the protocol of Illumina sample preparation. The libraries were sequenced using HiSeq2500 (three 20 Kb libraries) and HiSeq2000 (others) with a read length of 100 bp. PCR duplicated, sequencing and junction adaptor contaminated, and low quality (

Super-scaffold assembly

We used whole-genome optical mapping data to generate a restriction map of the KOREF_S and assemble scaffolds into super-scaffolds 18 . First, 13 restriction enzymes were evaluated for compatibility with the Korean genome draft assembly, and SpeI enzyme was deemed suitable for the Korean genome analysis. High molecular weight DNA was extracted, and 4, 217, 937 single-molecule restriction maps (62, 954 molecules on each map card on overage) were generated from 67 high density MapCards. Among them, 2, 071, 951 molecules exceeding 250 Kb with ∼ 360 Kb of average size were collected for the genome assembly. The Genome Builder bioinformatics tool of OpGen 18 was used to compare the optical mapping data to the scaffolds. The distance between restriction enzyme sites in the scaffolds were matched to the lengths of the optical fragments in the optical maps, and matched regions were linked into super-scaffolds. Only scaffolds exceeding 200 Kb were used in this step.

Additionally, we generated two types of long reads for KOREF_S building: PacBio long reads and TSLRs. The PacBio long reads were generated using a Pacific Biosciences RSII instrument (P4C2 chemistry, 78 SMRT cells; P5C3 chemistry and 51 SMRT cells), and the TSLRs were sequenced by Illumina HiSeq2500. Both long reads were simultaneously used in additional scaffolding and gap closing processes using PBJelly2 programme 44 with default options.

Assembly assessment and chromosome building

For a large-scale assessment of the scaffolds, we generated nanochannel-based genome mapping data ( ∼ 145 Gb of single-molecule maps exceeding 150 Kb) on five irysChips and assembled the mapping data into 2.8 Gb of consensus genome maps using BioNano Genomics Irys genome mapping system. The consensus genome maps were compared with KOREF_S scaffolds and GRCh38 using irysView software package 21 (version 2.2.1.8025). To identify misassembles in KOREF_S scaffolds in detail, we manually checked alignment results of the consensus genome map into KOREF_S scaffolds and human reference. For a smaller resolution assessment, we aligned all the filtered short and long reads into the scaffolds using BWA-MEM 45 (version 0.7.8) with default options. We conducted a whole-genome alignment between KOREF_S scaffolds (≥10 Kb) and human reference (soft repeat masked) using SyMap 46 with default comparison parameters (mapped anchor number ≥7) to detect possible inter- or intra-chromosomal rearrangements. We manually checked all the whole-genome alignment results.

To build the chromosome sequence of KOREF_S, first we used the whole-genome alignment information (chromosomal location and ordering information) of the final scaffolds (≥10 Kb) onto GRCh38 chromosomes. Then, unmapped scaffolds were re-aligned to GRCh38 chromosome with a mapped anchor number ≥4 option. Small length scaffolds (from 200 bp to 10 Kb) were aligned to GRCh38 chromosomes using BLASR 47, and only alignments with mapping quality=254 were used. Unused scaffolds (a total 88.3 Mb sequences) for this chromosome building process were located in an unplaced chromosome (chrUn). Gaps between the aligned scaffolds were estimated based on the length information of the human reference sequences. If some scaffold locations overlapped, 10 Kb was used as the size of gap between the scaffolds. We added 10 Kb gaps on both sides of KOREF_S chromosome sequences as telomeric regions just as done for GRCh38. The mitochondrial sequences of KOREF_S were independently sequenced using Nextera XT sample prep kit and then assembled using ABySS (ref. 48) (version 1.5.1) with K =64. Haplogroup of the mitochondrial DNA was assigned using MitoTool 49 .

The 40 Korean whole-genome sequences from KPGP database were aligned onto KOREF_S chromosomes using BWA-MEM with default options, to remove individual-specific sequence biases of KOREF_S and generate KOREF_C. SNVs and small indels in the 40 Koreans were called using the Genome Analysis Toolkit (GATK, version 2.3.9) 50 . IndelRealigner was conducted to enhance mapping quality, and base quality scores were recalibrated using the TableRecalibration algorithm of GATK. Commonly found variants in the 40 Korean genomes were used to substitute KOREF_S sequences. For the SNV substitution, we calculated allele ratio of each position, and then we substituted any KOREF_S sequence with the most frequent allele only if the KOREF_S sequence and most frequent allele were different. For the indel substitution, we used only indels that were found in over 40 haploids out of the 40 Korean whole genomes (80 haploids). In cases of sex chromosomes, we used 25 male (25 haploids) whole genomes for Y chromosome and 15 female whole genomes (30 haploids) for X chromosome comparison.

Opomba o genomu

KOREF_C was annotated for repetitive elements and protein-coding genes. For the repetitive elements annotation, we searched KOREF_C for tandem repeats and transposable elements using Tandem Repeats Finder (version 4.07) 51, Repbase (version 19.02) 52, RepeatMasker (version 4.0.5) 53 and RepeatModeler (version 1.0.7) 54 . For the protein-coding gene prediction, homology-based gene prediction was first conducted by searching nucleotides of protein-coding genes in Ensembl database 79 against KOREF_C using Megablast 55 with identity 95 criterion. The matched sequences were clustered based on their positions in KOREF_C, and a gene model was predicted using Exonerate software 56 (version 2.2.0). We also conducted de novo gene prediction. To certify expression of a predicted gene, we sequenced three different timeline whole transcriptome data of the KOREF_S sample using a TruSeq RNA sample preparation kit (v2) and HiSeq2500. We predicted protein-coding genes with the integrated transcriptome data using AUGUSTUS 57 (version 3.0.3). We filtered out genes shorter than 50 amino acids and possible pseudogenes having stop-codons. We searched de novo predicted genes against primate (human, bonobo, chimpanzee, gorilla and orangutan) protein sequences from NCBI, and filtered out de novo predicted genes if identity and coverage were below 50%. For the assembly quality comparison purpose, we only used homology-based search for RefSeq (ref. 32) human protein-coding genes and repetitive elements. The homology-based segmental duplicated region search was conducted using DupMasker programme 58 . To calculate GRCh38 genome recovery rates of human assemblies, we conducted whole-genome alignments between each assembly (KOREF_S final contigs, KOREF_S final scaffolds and other assemblies) and GRCh38 using LASTZ 59 (version 1.03.54) and Kent utilities (written by Jim Kent at UCSC) 60 with GRCh38 self-alignment options (--step 19 --hspthresh 3000 --gappedthresh 3000 --seed=12of19 --minScore 3000 --linearGap medium). After generating a MAF file, we calculated genome recovery rates using mafPairCoverage in mafTools 61 .

To estimate the amount of novel KOREF_C sequences, we aligned the short insert size and long mate pair library sequences into GRCh38 using BWA-MEM with default options and then extracted unmapped reads using SAMtools 62 (version 0.1.19) and Picard (version 1.114, //picard.sourceforge.net) programs. We filtered out possible microbial contamination by searching against Ensembl databases of bacterial genomes and fungal genomes using BLAST with default options. The remaining reads were sequentially aligned into other human genome assemblies (CHM1_1.1, HuRef, African, Mongolian and YH sequentially) using BWA-MEM with default options, and then removed duplicated reads using MarkDuplicate programme in Picard. The alignment results were extracted to an unmapped BAM file using SAMtools view command with -u -f 4 options. We extracted final unmapped reads from the unmapped BAM file using SamToFastq programme in Picard. Finally, unmapped reads to the other human genome assemblies were aligned to KOREF_C. The regions with length ≥100 bp and covered by at least three unmapped reads were considered as novel in KOREF_C.

Variant and genome comparison

A total of 15 whole-genome re-sequencing data results (five Caucasians, five Africans and five East-Asians) were downloaded from the 1KGP, HGDP and PAPGI projects. The re-sequencing data (five Caucasians, five Africans, five East-Asians and five Koreans from KPGP) was filtered (low quality with a Q20 criterion and PCR duplicated reads) and then mapped to KOREFs (KOREF_S and KOREF_C) with unplaced scaffolds, GRCh38, and GRCh38_C chromosomes using BWA-MEM with default options. To generate GRCh38_C, common variants (2, 043, 259 SNVs and 197, 885 small indels) of East-Asians were collected from the 1KGP database and used to substitute GRCh38 sequences. The variants (SNVs and small indels) were called for only chromosome sequences using GATK, to exclude variants in unmatched and partially assembled repetitive regions 14 . Variants were annotated using SnpEff 63, and biological function altering was predicted using PROVEAN 64 . We considered all of the nsSNVs causing stop codon changes and frame shift indels as function altered. Enrichment tests and annotation of variants were conducted using WebGestalt 65 and ClinVar 66 . The variants were compared with dbSNP 39 (version 144) to annotate known variants information.

For linking variants found compared with KOREFs, GRCh38 and GRCh38_C, the genome to genome alignment was conducted between GRCh38 and KOREF_C reference genomes using LASTZ 59 . The LASTZ scoring matrix used was with M =254 (--masking=254), K =4500 (--hspthresh=4, 500), L =3, 000 (--gappedthresh=3, 000), Y =15, 000 (--ydrop=15, 000), H=0 (--inner=9), E=150/O=600 (--gap=), and T =2 options. The LASTZ output was translated to the chain format with axtChain, then merged and sorted by the chainMerge and chainSort programs, respectively. The alignable regions were identified with chainNet, and then selected by netChainSubSet programs for creating a lift-over file. All programs run after LASTZ were written by Jim Kent at UCSC 60 .

To detect SVs among the human genome assemblies, we conducted whole-genome alignments between each assembly and GRCh38 using LASTZ. Then, the whole-genome alignment results were corrected and re-aligned based on a dynamic-programming algorithm using SOAPsv package. SVs that could be derived from possible misassembles were filtered out by comparing the S/P ratio for each SV region in the assembly and GRCh38; authentic SVs would be covered by sufficient paired-end reads, whereas spurious SVs would be covered by wrongly mapped single-end reads. We implemented the S/P ratio filtering system according to the previous published algorithm 35, because the S/P ratio filtering step in the SOAPsv package is designed for only assembled sequences by SOAPdenovo. P value was calculated by performing Fisher's exact test to test whether the S/P ratio of each SV and the S/P ratio of the whole genome are significantly different ( P value<0.001). We confirmed that commonly shared SVs were not caused by the mis-assembly by checking the mapping status of KOREF_S short and long reads into both GRCh38 and KOREF_C. SVs by mapping CHM1's PacBio SMRT reads to the human reference genome were derived by lift-over SV results found against GRCh37 in the published paper 15 . When we compared SVs in the different genome assemblies and available database, we considered SVs to be the same if SVs were reciprocally 50% covered and had the same SV type. Novel SVs were determined as not found in dbVar, Database of Genomic Variants (DGV) 67, Database of Retrotransposon Insertion Polymorphisms (dbRIP) 68, dbSNP146, Mills 69, and 1000 Genome phase 3 database.

Razpoložljivost podatkov

The Korean reference genome project has been deposited at DDBJ/ENA/GenBank under the accession LWKW00000000. The version described in this paper is version LWKW01000000. Raw DNA and RNA sequence reads for KOREF and KPGP have been submitted to the NCBI Sequence Read Archive database (SRA292482, SRA268892). The immortalized cell line of KOREF was deposited in the Korean Cell Line Bank (KCLB, #60211). All other data can be obtained from the authors upon reasonable request. All future KOREF updates will be available from www.koreanreference.org.

Spremeni zgodovino

Dodatne informacije

Datoteke PDF

  1. 1.

    Dodatne informacije

    Supplementary Figures 1-15 and Supplementary Table 1-39

Pripombe

Z oddajo komentarja se strinjate, da se boste držali naših pogojev in smernic skupnosti. Če se vam zdi nekaj zlorabe ali ne ustreza našim pogojem ali smernicam, označite to kot neprimerno.