Sestav fizičnega, genetskega in funkcionalnega zaporedja genom ječmena | naravo

Sestav fizičnega, genetskega in funkcionalnega zaporedja genom ječmena | naravo

Anonim

Predmeti

  • Funkcionalna genomika
  • Rastlinska genetika

Izvleček

Ječmen ( Hordeum vulgare L.) spada med najzgodnejše udomačene in najpomembnejše rastline rastlin. Je diploiden z velikim haploidnim genomom 5, 1 gigabaz (Gb). Tukaj predstavljamo integriran in urejen vir fizičnih, genetskih in funkcionalnih sekvenc, ki opisuje genski prostor ječmena v strukturiranem kontekstu celotnega genoma. Razvili smo fizični zemljevid 4, 98 Gb z več kot 3, 90 Gb, zasidran na genetski zemljevid z visoko ločljivostjo. Projektiranje globokega sklopa celih genomov puške, dopolnilnih podatkov DNK in globokih RNK ​​zaporedja na ta okvir podpira 79.379 prepisnih grozdov, vključno s 26.159 „visokozavestnimi“ geni s homologno podporo drugih rastlinskih genomov. Obilno alternativno spajanje, kodoni za prezgodnje prenehanje in nove transkripcijsko aktivne regije kažejo, da je post-transkripcijska obdelava pomembna regulativna plast. Zaporedja raziskav iz različnih pristopov razkrivajo pokrajino obsežne variacije posameznih nukleotidov. Naši podatki zagotavljajo platformo za raziskave, podprte z genomi, in omogočajo izboljšanje sodobnega pridelka.

Glavno

Gojen ječmen, pridobljen iz njegovega divjega potomca Hordeum vulgare ssp. spontaneum , spada med najstarejše vrste domačih rastlinskih pridelkov 1 in danes predstavlja četrto najbolj obilno žito tako na območju kot v tonaži (//faostat.fao.org). Približno tri četrtine svetovne proizvodnje se uporablja za krmo živali, 20% slad se uporablja za alkoholne in brezalkoholne pijače, 5% pa kot sestavino v vrsti živilskih izdelkov 2 . Ječmen je široko prilagojen različnim okoljskim razmeram in je bolj odporen na stres kot njegov pšenica 3 . Zaradi tega ječmen ostaja glavni vir hrane v revnejših državah 4, pri čemer vzdržuje pridelke v težkih in obrobnih okoljih. V razvitejših družbah so ga v zadnjem času uvrstili med resnično funkcionalno živilo. Ječmenovo zrnje je še posebej veliko topnih prehranskih vlaknin, kar znatno zmanjšuje tveganje za resne človeške bolezni, vključno s sladkorno boleznijo tipa II, srčno-žilnimi boleznimi in rakom debelega črevesa in danke, ki trpijo na stotine milijonov ljudi po vsem svetu 5 . Ameriška uprava za hrano in zdravila dovoljuje trditev o zdravju ljudi za polisaharide celične stene iz ječmenovega zrna.

Ječmen že tradicionalno velja za model genskega raziskovanja rastlin kot diploidni, inbreeding, zmerni pridelek. Obstajajo velike zbirke zarodnih plazmov, ki vsebujejo geografsko raznolike elitne sorte, zemeljske krajine in divji pristop 6 in nedvomno vsebujejo alele, ki bi lahko izboljšali učinek podnebnih sprememb in še povečali prehranske vlaknine v zrnju. Z obogatitvijo naravne raznolikosti so nastale, značilne in natančno vzdrževane obsežne zbirke mutantov, ki vsebujejo vse morfološke in razvojne variacije, ki so jih opazili pri vrsti. Glavna ovira pri izkoriščanju teh virov v temeljni in razmnoževalni znanosti je bila odsotnost referenčnega genomskega zaporedja ali primerna možna alternativa. Zagotavljanje katerega koli od teh je bil glavni raziskovalni izziv za svetovno ječmenovo skupnost.

Kot odgovor na ta izziv predstavljamo nov model za zagotavljanje virov genoma, potrebnih za okrepitev položaja ječmena kot modela za Triticeae, pleme, ki vključuje kruh in trdo pšenico, ječmen in rž. Predstavljamo genski prostor ječmenovega genoma, ki ga definiramo kot integriran večplastni informacijski vir, ki omogoča dostop do večine ječmenovih genov v visoko strukturiranem fizičnem in genetskem okviru. V povezavi s primerjalnimi podatki o zaporedju in transkriptom genetski prostor zagotavlja nov molekularni in celični vpogled v biologijo vrste, s čimer zagotavlja platformo za pospeševanje odkrivanja genov in izboljšanje pridelka.

Fizična karta ječmena, obogatena z zaporedjem

Sestavili smo fizični zemljevid sorte ječmena (cv.) Z genom na celotnem genomu s pomočjo odtisa prstnih odtisov z visoko informacijsko vsebino 7 in kontagmenta 8 od 571.000 klonov bakterijskega umetnega kromosoma (BAC) (∼ 14-kratna haploidna pokritost genoma), ki izvira iz šestih neodvisne knjižnice BAC 9 . Po avtomatizirani montaži in ročnem kuriranju je fizični zemljevid vseboval 9 265 BAC kontigov z ocenjeno velikostjo N50 904 kilobaz in kumulativno dolžino 4, 98 Gb (Metode, dodatna opomba 2). Predstavlja ga minimalna ploščica (MTP), ki znaša 67.000 klonov BAC. Glede na velikost genoma 5, 1 Gb 10 je več kot 95% genom ječmena predstavljeno na fizični karti, v primerjavi s 1.036 kontigami, ki predstavljajo 80% 1 Gb kromosoma pšenice 3B 11 .

Fizični zemljevid smo izboljšali tako, da smo integrirali informacije o zaporedjih puško iz 5.341 genov, ki vsebujejo 12, 13 in 937 naključno izbranih klonov BAC (metode, dopolnilni opombi 2 in 3 in dopolnilna tabela 4) ter 304, 523 parov zaporedja BAC (BES) ( Dopolnilna tabela 3). Ti so zagotovili 1136 megabaz (Mb) genskega zaporedja, integriranega neposredno v fizični zemljevid (dodatni tabeli 3 in 4). Ta okvir je omogočil vključitev podatkov o zaporedju celih genomov puške in integracijo fizičnih in genetskih zemljevidov. Podatke o sekvenci puško-celih genomov smo ustvarili iz genomske DNK cv. „Morex“ po tehnologiji Illumina GAIIx, ki je na kratko bral, s pomočjo kombinacije 300 baznih parov (bp) parnih koncev in 2, 5 kb matematičnih parov matematičnih parov do> 50-kratnega pokritja haploidnega genoma (dodatna opomba 3.3). De novo sestavljanje je privedlo do kontigov zaporedja v skupni vrednosti 1, 9 Gb. Zaradi visokega deleža ponavljajoče se DNK je znaten del podatkov o puško v celotnem genomu strnil v razmeroma majhne stike, za katere je značilna izjemno velika odčitana globina. Na splošno je bilo 376.261 contigov večje od 1 kb (N50 = 264.958 contigov, N50 dolžina = 1.425 bp). Od tega je bilo 112, 989 (308 Mb) mogoče zasidrati neposredno na fizikalni zemljevid, ki je obogaten z zaporedjem, s homologijo zaporedja.

Izvedli smo hierarhični pristop za nadaljnje zasidranje fizikalnih in genetskih zemljevidov (Metode, dodatna opomba 4). Skupno 3.241 gensko preslikanih eno-nukleotidnih različic, ki temeljijo na genu in 498.165 genetskih markerjev zaporednih oznak 14 nam je omogočilo uporabo homologije sekvenc za dodelitev 4, 556 zaporedja fizikalnih zemljevidov, ki segajo 3, 9 Gb v genetske položaje vzdolž vsakega kromosoma ječmena. Dodatnih 1881 kontigov je bilo dodeljenih kromosomskim zabojnikom po homologiji zaporedja v nizu podatkov 15 zaporedja, ki so značilni za kromosomsko roko (dodatna opomba 4.4). Tako je bilo 6.437 fizičnih zemljevidov v skupni vrednosti 4, 56 Gb (90% genoma) dodeljenih posodam za kromosomske roke, večina v linearnem vrstnem redu. Kontige, ki niso zasidrane, so običajno kratke in nimajo gensko informativnih sekvenc, potrebnih za dodelitev položaja.

Skladno z zaporedji genomov drugih vrst 16, pericentromerne in centromerne regije ječmenovih kromosomov kažejo znatno zmanjšano rekombinacijsko frekvenco, kar je značilnost, ki ogroža izkoriščanje genske raznolikosti in negativno vpliva na genetske študije in rejo rastlin. Tem regijam je bilo dodeljenih približno 1, 9 Gb ali 48% gensko zasidrane fizične karte (3, 9 Gb) (slika 1 in dodatna slika 11).

Image

Sledenje a daje sedem kromosomov ječmena. Zelena / siva barva prikazuje strinjanje zasidranih prstnih odtisov (FPC) s pripadajočimi kromosomskimi ročicami, ki temeljijo na odčitanih zaporedjih strelnih pušk, ki so značilne za kromosom in roko (za dodatne podrobnosti glej dodatno opombo 4). Za 1H je bila na voljo samo dodelitev zaporedja celotnega kromosoma. Sledenje b, porazdelitev genov z visoko samozavestjo po genetskem zemljevidu; skladba c, konektorji povezujejo položaje genov med genetskim in integriranim fizičnim zemljevidom, navedenim v posnetku d . Navedena je pozicija in porazdelitev retroelementov LTR razreda E in I in transpononov DNK razreda f razreda II. Spremljajte g, distribucijo in pozicioniranje zaporednih BAC-ov.

Slika v polni velikosti

  • Prenesite diapozitiv PowerPoint

Ponavljajoča se vrsta genom ječmena

Značilnost genoma ječmena je obilje ponavljajoče se DNK 17 . Opazili smo, da približno 84% genoma sestavljajo mobilni elementi ali druge ponavljajoče se strukture (dodatna opomba 5). Večino (76% naključnih BAC-ov) sestavljajo retrotranspozoni, od katerih je 99, 6% retrotransposonov z dolgo končno ponovitvijo (LTR). Retrotranspozoni, ki niso LTR, prispevajo le 0, 31%, DN-transpozoni pa 6, 3% naključnega zaporedja BAC. V deležu genoma z visokim deležem ponavljajočih se elementov je bila LTR Gypsy retrotransposon superdružina v primerjavi z opazovanji v Brachypodium 18 in rižu 19 za 1, 5-krat pogostejša od superdružine Copia . Vendar pa so BAC-ji, ki nosijo gen, nekoliko osiromašeni z retrotranspozoni, kar je skladno z Brachypodium 18, kjer so mladi Copia retroelementi prednostno najdeni v gensko bogatih rekombinogenih območjih, iz katerih so z rekombinacijo LTR-LTR izgubili neaktivni ciganski retroelementi. Na splošno vidimo zmanjšano vsebnost ponavljajoče se DNK znotraj terminalnih 10% fizične karte vsake kraka kromosoma ječmena (slika 1). Elementa razreda I in II prikazujeta nekvanitativno porazdelitev povratne slike po ječmenovih kromosomih (slika 1), značilnost, ki je v skupni rabi z drugimi travniškimi genomi 16, 20 in prikazana s kartiranjem s fluorescenco in situ hibridizacija (FISH) 17 . Ni presenetljivo, da sestava celih genomov puške kaže manjše število LTR retrotransposonov (povprečno 53%) kot BAC-ji, ki nosijo gen. Da so retrotransposoni LTR dolgi (∼ 10 kb), zelo ponavljajoči se in pogosto ugnezdeni 21, podpira našo domnevo, da so se kratka branja strla ali niso zbrala. Kratki interspersed elementi (SINE) 22, kratki (80–600 bp) neavtonomni retrotranspozoni, ki se močno ponavljajo v ječmenu, niso pokazali diferencialne izključitve iz sklopov. Vendar pa so bili miniaturni obrnjeni ponovljivi elementi (MITE), majhni neavtonomni transpozoni DNA 23, dvakrat obogateni v sklopih celih genomov v primerjavi z BES-ovimi bralci ali naključnimi BAC-ji, skladno z genskim bogastvom sklopov in njihovo povezanostjo z geni 23 . Tako MITE kot SINE sta 1, 5 do 2-krat obogatena z genoma BAC-ji, kar lahko pomeni, da so SINE prednostno vključeni v gensko bogata območja ali ker so starejši od retroelementov LTR, lahko preprosto ostanejo vidni v genih in okoli njih, kjer so retro vstavki so bili izbrani proti.

Prepisan del genom ječmena

Prepisani komplement genskega prostora ječmena je bil označen s preslikavo 1, 67 milijarde RNA-seq odčitkov (167 Gb), pridobljenih iz osmih stopenj razvoja ječmena, kot tudi 28, 592 ječmenskih celovitih cDNA 24 na celoten genomski sestav puške (Metode, dopolnilo) Opombe 6, 7 in dodatne tabele 20–22). Odkrivanje eksonov in konsenzusno modeliranje genov sta razkrili 79.379 transkriptnih grozdov, od katerih je bilo 75.258 (95%) zasidranih v celoten genomski sestav puške (dodatni opombi 7.1.1 in 7.1.2). Na podlagi primerjave z gensko družino z genomi Sorghum , riž, Brachypodium in Arabidopsis 26.159 teh prepisanih lokusov spada v grozde in imajo homologno podporo vsaj enemu referenčnemu genomu (Dopolnilna slika 16); bili so opredeljeni kot geni z visoko zaupanjem. Primerjava z naborom podatkov o presnovnih genih pri Arabidopsis thaliana 25 je pokazala stopnjo odkrivanja 86%, kar je omogočilo oceno gena ječmena na približno 30.400 genov. Zaradi pomanjkanja homologije in manjkajoče podpore genskega družinskega združevanja so 53.220 transkriptnih lokusov ocenili z nizko samozavestjo (tabela 1). Ječmenovi geni z visoko in samozavestjo so imeli različne značilnosti: 75% visoko-zaupnih genov je imelo strukturo z več eksoni v primerjavi s samo 27% genov z nizko zaupnostjo (tabela 1). Povprečna velikost genov z visoko zaupnostjo je bila 3.013 bp v primerjavi z 972 bp za gene z nizko zaupnostjo. Skupno 14.481 genov z nizko zaupnostjo je pokazalo oddaljeno homologijo rastlinskih beljakovin v javnih bazah podatkov (dopolnilne opombe 7.1.2, 7.1.4 in dopolnilne slike 18), ki so jih identificirali kot potencialne fragmente genov, za katere je znano, da naseljujejo genom Triticeae z velikim številom kopij in ki so pogosto posledica aktivnosti premičnih elementov 26 .

Tabela polne velikosti

Skupaj 15.719 visokozavestnih genov bi lahko bilo neposredno povezano z gensko zasidranim fizičnim zemljevidom (dodatna opomba 4). Dodatnih 3.743 je bilo vključenih s sklicevanjem na ohranitev sintetičnega modela (dodatna opomba 4.5) in nadaljnjih 4.692, povezanih s kromosomskimi kraki polnih genskih podatkov o puško (dodatna opomba 4.4 in dodatna tabela 15). Pomembno je, da je bila N50 dolžina celovitih genomskih sekvenc pušk, ki vsebujejo visoko zaupljive gene, 8, 172 bp, kar na splošno zadostuje za vključitev celotnega zaporedja kodiranja ter 5 ′ in 3 ´ neprevedenih regij (UTR). Skupno je bilo 24.154 genov z visoko samozavestjo (92, 3%) povezanih in nameščenih v fizično / gensko ogrodje, kar predstavlja gensko gostoto petih genov na Mb. Proksimalni in distalni konci kromosomov so bolj gensko bogati, v povprečju vsebujejo 13 genov na Mb (slika 1).

V primerjavi s sekvenciranimi modelnimi rastlinskimi genomi je analiza genske družine (dodatna opomba 7.1.3) razkrila nekatere genske družine, ki so pokazale širjenje ječmena. Funkcije članov teh družin smo definirali z uporabo genske ontologije (GO) in proteinov PFAM (dodatna tabela 25). Družine genov z izrazito preveč zastopanimi izrazi GO / PFAM so vključevale gene, ki kodirajo (1, 3) -β-glukan sintaze, zaviralce proteaze, beljakovine, ki vežejo sladkor, in prenašalce sladkorja. NB-ARC (adapter za vezavo nukleotidov, ki ga delijo APAF-1, nekateri R genski produkti in CED-4 27 ) domene proteinov, za katere je znano, da so vključeni v obrambne odzive, so bili prav tako preveč zastopani, vključno z 191 geni vrste NBS-LRR. Te so se nagibale proti distalnim območjem kromosomov ječmena (dopolnilna slika 17), vključno z glavno skupino na ječmenovem kromosomu 1HS, ki se sokaliziralo z gensko skupino gensko odpornosti proti praškasti plesni 28 . Prednostna dodelitev regijam, bogata z rekombinacijo, zagotavlja gensko okolje za ustvarjanje raznolikosti zaporedja, ki je potrebna za obvladovanje dinamične populacije patogenov 29, 30 . Treba je omeniti, da so bili zelo prezastopljeni geni (1, 3) -β-glukan sintaze vključeni tudi v interakcije rastlin in patogen 31 .

Regulacija izražanja genov

Podatki o globljih zaporedjih RNA (RNA-seq) so omogočili vpogled v prostorsko in časovno regulacijo izražanja genov (dodatna opomba 7.2). Ugotovili smo, da je 72–84% visokozavestnih genov izraženih v vseh prostorskotemporalnih vzorcih RNA-seq (slika 2a), nekoliko nižji kot poročani pri rižu 32, pri katerem je bilo v več kot enem razvojnem ali tkivnem vzorcu najdenih 95% prepisov . Še pomembneje je bilo, da se zdi, da je bilo 36–55% ječmenovih genov z visoko zaupnostjo različno reguliranih med vzorci (slika 2b), kar poudarja prirojeno dinamiko izražanja gena ječmena.

Image

a, Ekspresija gena ječmena v različnih prostorskih in časovnih vzorcih segmenta RNA (Dodatne opombe 6, 7). Številke se nanašajo na gene z visoko zaupanjem. b, Dendrogram, ki prikazuje sorodnost vzorcev in barvno kodirano matrico, ki prikazuje število bistveno neurejenih genov z visoko zaupnostjo v parnih primerjavah. Σ, skupno število neodvečnih genov z visoko samozavestjo, ki se ne regulirajo v primerjavi z vsemi drugimi vzorci. Višina, celotna razdalja grozdne povezave (log 2 (fragmenti na kilobazo eksona na milijon preslikanih fragmentov)); glej dopolnilno opombo 7.2.5.1. c, porazdelitev in prekrivanje medsebojno prepletenih ječmenskih prepisov med vzorci RNA-seq. d, porazdelitev in prekrivanje nadomestnih transkriptov, ki izpolnjujejo merila za PTC +, kot so zaznani v različnih prostorskih in časovnih vzorcih sekve RNA (dodatna opomba 7.4).

Slika v polni velikosti

  • Prenesite diapozitiv PowerPoint

Dve pomembni značilnosti podpirata pomen post-transkripcijske obdelave kot osrednjega regulativnega sloja (dodatni opombi 7.3 in 7.4). Najprej smo opazili dokaze za obsežno alternativno spajanje. 73% genov z ječmenom, ki vsebujejo intron, je imelo dokaze o alternativnem spajanju (55% celotnega sklopa z visoko zaupnostjo). Prostorska in časovna porazdelitev alternativnih spojnih zapisov je znatno odstopala od splošnega pojavljanja prepisov v različnih analiziranih tkivih (slika 2c). Med vsemi vzorci je bilo deljenih le 17% zapisov alternativnih zmesi, 17–27% pa je bilo odkritih le v posameznih vzorcih, kar kaže na izrazito regulacijo alternativnega spajanja. Našli smo 2466 nadomestnih transkriptov, ki vsebujejo kodon (PTC +), alternativnih spojev (9, 4% visokozaupljivih genov) (sl. 2d in tabela 2), podoben odstotku neregistriranih genov, ki jih nadzira razpad (NMD) vrsta 33, 34 . Kodoni za prezgodnjo ukinitev aktivirajo NMD pot 35, kar vodi v hitro razgradnjo prepisov PTC + in so povezani z regulacijo transkripcije med boleznijo in stresnim odzivom pri človeku oziroma Arabidopsisu 34, 36, 37, 38, 39 . Porazdelitev prepisov PTC + je bila presenetljivo različna, tako prostorsko kot časovno, le 7, 4% deljenih in med 31% in 40% izključno le v enem samem vzorcu (slika 2d). Geni, ki kodirajo prepise, ki vsebujejo PTC +, kažejo širok spekter izrazov GO in domen PFAM in so bolj razširjeni v razširjenih genskih družinah. Ta opažanja podpirajo osrednjo vlogo za alternativno razkroj / NMD-odvisno razpadanje PTC + transkriptov kot mehanizma, ki nadzira ekspresijo številnih različnih ječmenovih genov.

Tabela polne velikosti

Drugič, nedavna poročila so poudarila številnost novih transkripcijsko aktivnih regij riža, ki nimajo homologije z geni, ki kodirajo beljakovine, ali odprtih bralnih okvirov ( 40 ). V ječmenu lahko kar 27.009 prednostno eno-eksonskih genov z nizko zaupnostjo označimo kot domnevne nove transkripcijsko aktivne regije (dodatna opomba 7.1.4). Preučevali smo njihov potencialni pomen s primerjavo homologije ječmenovih novih transkripcijsko aktivnih regij z riževim in brahipodijevim genomom, ki predstavljata 50 in 30 milijonov let evolucijske razhajanja 18 . Skupno 4.830 in 2450 novih transkripcijsko aktivnih regij je dalo homologno ujemanje genoma Brachypodium in riž (presečišče 2.046; BLAST P vrednost ≤ 10 - 5 ), kar kaže na domnevno funkcionalno vlogo pri pre-mRNA obdelavi ali drugih regulativnih RNA procesi 41, 42 .

Naravna raznolikost

Ječmen je bil udomačen pred približno 10.000 leti 1 . Obsežna genotipska analiza raznovrstne zarodne plazme je pokazala, da je omejeno prekrivanje (0–1, 8%) 43 v kombinaciji z nizko rekombinacijo v pericentromernih regijah povzročilo moderno germplazmo, ki kaže na omejeno regionalno raznolikost haplotipa 44 . Raziskovali smo pogostost in porazdelitev genske raznolikosti z raziskavo, ki je nadaljevala štiri raznovrstne sorte ječmena ("Bowman", "Barke", "Igri" in "Haruna Nijo") in pristop H. spontane (metode in dodatna opomba 8) v globino s 5–25-kratnim pokritjem in zaporedjem preslikav se glasi na genski prostor sorte ječmena „Morex“. Identificirali smo več kot 15 milijonov nerendantnih variant z enim nukleotidom (SNV). H. spontaneum je prispeval skoraj dvakrat več SNV-a od vsake od kultivarjev (dodatna tabela 28). Kromosomskim orožjem bi bilo mogoče dodeliti do 6 milijonov SNV na pristop, vključno do 350.000, povezanih z eksoni (dodatna tabela 29). Približno 50% SNV, ki se nahaja v eksonu, je bilo vključenih v genetski / fizični okvir (slika 3, dodatna tabela 30 in dodatna slika 31), kar je zagotovilo platformo za vzpostavitev resnične markerske tehnologije za genetiko in genom visoke ločljivosti - vzreja s pomočjo.

Image

Ječmenovi kromosomi so označeni kot notranji krog sivih palic. Priključne črte dajejo genetski / fizični odnos v genomu ječmena. Porazdelitev frekvenc SNV je prikazana kot pet barvnih krožnih histogramov (lestvica, relativno število SNV-jev v času pristopa; številčnost, skupno število SNV-jev v intervalih, ki se prekrivajo 50 kb, povezanega "Morexovega" genskega odra; razpon od nič do največjega števila SNV-jev na Interval 50 kb). Izbrani vzorci frekvence SNV, označeni z barvnimi puščicami (za nadaljnje podrobnosti glej dopolnilno opombo 8). Barvanje puščic se nanaša na sorto z odklonsko frekvenco SNV za posamezno regijo.

Slika v polni velikosti

  • Prenesite diapozitiv PowerPoint

Opazili smo zmanjšanje frekvence SNV proti centromernim in pericentromernim regijam vseh krompiromov ječmena, vzorec, ki je bil pri gojenicah ječmena bolj izrazit. Ta trend so podprli SNV, identificirani v RQ-seq podatkih iz šestih dodatnih kultivarjev, preslikanih na gensko skupino Morex (dodatna opomba 8.2). Ta vzorec erodirane genske raznovrstnosti pripisujemo nizki rekombinaciji v pericentromernih regijah, kar zmanjšuje učinkovito velikost populacije in posledično raznolikost haplotipov. Medtem ko lahko H. spontaneum tu služi kot rezervoar genske raznolikosti, bi lahko uporaba te raznolikosti ogrožena z omejeno rekombinacijo in posledično nezmožnostjo prekinitve tesnih povezav med zaželenimi in škodljivimi aleli. Presenetljivo je, da je imel kratek krak kromosoma 4H bistveno nižjo frekvenco SNV kot vsi drugi ječmenovi kromosomi (dopolnilna slika 33). To je lahko posledica nadaljnjega zmanjšanja pogostosti rekombinacije na tem kromosomu, ki je gensko (vendar fizično) najkrajši. Zmanjšana raznolikost SNV je bila opažena tudi v regijah, za katere razlagamo, da so bodisi posledice novejše rejske zgodovine ali pa lahko kažejo na mejnike udomačevanja (slika 3).

Diskusija

Velikost žitnih genomov Triticeae je zaradi njihove zelo ponavljajoče sestave DNK močno ogrozila sestavljanje celih semen puščic in ustvarila oviro pri ustvarjanju kakovostnih referenčnih genomov. Te težave smo zaobšli z integracijo komplementarnih in heterogenih nizov genskih in genetskih podatkov, ki temeljijo na zaporedju. To je vključevalo povezovanje globoke fizične karte z genetskimi kartami z visoko gostoto, prikrivanje globokih kratko prebranih sklopov celih genomov puščic in zapisovanje nastalega linearnega, čeprav poudarjenega, genomskega zaporedja z globoko zajetimi podatki, pridobljenimi z RNA (celovita cDNA in RNA -seq). To nam je omogočilo sistematično razmejitev približno 4 Gb (80%) genoma, vključno z več kot 90% izraženih genov. Tako dobljeni genski okvir omogoča podroben vpogled v fizično porazdelitev genov in ponavljajočo se DNK ter kako se te lastnosti nanašajo na genetske značilnosti, kot so pogostost rekombinacije, izražanje genov in vzorci genske variacije.

Centromerna in pericentromerna območja ječmenovih kromosomov vsebujejo veliko funkcionalnih genov, ki so zaklenjeni v rekombinantno 'inertne' genomske regije 45, 46 . Porazdelitev genskega prostora poudarja, da se te regije širijo na skoraj 50% fizične dolžine posameznih kromosomov. Glede na dobro uveljavljene ravni ohranjene sinteze bo to verjetno značilnost povezanih travnih genomov, ki bodo imeli pomembne praktične posledice. Na primer, redka rekombinacija bi lahko delovala za vzdrževanje evolucijsko izbranih in usklajenih genskih kompleksov. Zagotovo bo omejilo sproščanje genske raznolikosti, ki je potrebna za ločitev prednosti od škodljivih alelov, kar je potencialni ključ za izboljšanje genetske pridobitve. Razumevanje teh učinkov bo imelo pomembne posledice za izboljšanje pridelka. Poleg tega za odkrivanje genov v teh regijah ne bodo učinkovite genetske strategije, ki temeljijo na rekombinaciji. Medtem ko obstajajo alternativni pristopi za nekatere cilje (na primer s povezovanjem ponovnega izbiranja tehnologij z zbirkami naravnih ali induciranih mutantnih alelov), za večino lastnosti ostaja resna ovira. Nekatere obljube se lahko skrivajo v manipuliranju z vzorci rekombinacije z genetskimi ali okoljskimi intervencijami 47 . Precej presenetljivi tudi naši podatki razkrivajo, da bo treba pri poskusu povezave ječmenovih genov s funkcijami upoštevati zapleteno plast post-transkripcijske regulacije. Povezave med post-transkripcijsko ureditvijo, kot so alternativno spajanje in funkcionalne biološke posledice, ostajajo omejene na nekaj konkretnih primerov 48, vendar obseg naših opažanj kaže, da se bo ta seznam precej razširil.

Za zaključek je tukaj prikazan genski prostor ječmena, ki je bistvena referenca za genske raziskave in rejo. Predstavlja vozlišče za izolacijo lastnosti, razumevanje in izkoriščanje naravne genske raznolikosti in raziskovanje edinstvene biologije in razvoja ene prvih udomačenih rastlin na svetu.

Povzetek metod

Metode so na voljo v spletni različici prispevka.

Spletne metode

Izdelava fizičnega zemljevida

Kloni BAC šestih knjižnic sorte „Morex“ 9, 49 so bili analizirani s prstnim odtisom vsebine z visoko informacijsko vsebino (HICF) 7, 9 . S pomočjo FPC v9.2 8 (dodatna tabela 2) je bilo sestavljenih 571.000 urejenih profilov (prag Sulstonove ocene 10 -90, toleranca = 5, tolerirani Q-kloni = 10%). Devet iterativnih avtomatiziranih ponovnih sklopov je bilo izvedeno z zaporedno zmanjšano strogostjo (ocena Sulstona od 10-85 do 10-45 ). Zadnji korak ročnega združevanja kontigov FPC je bil izveden pri manjši strogosti (Sulstonov prag za oceno 10-25) ob upoštevanju genetskih sidrnih informacij za markerje z genetsko razdaljo ≤ ± 5 cM. To je ustvarilo 9 265 FPcontigov (približno 14-kratna pokritost haploidnega genoma) (dodatna tabela 2).

Genomsko zaporedje

BAC-konec zaporedja (BES). Konci vstavkov BAC so bili zaporedni z uporabo Sangerjevega zaporedja (dodatna opomba 2.1). Vektorsko in kakovostno obrezovanje datotek sledenja zaporedja je bilo izvedeno z uporabo programa LUCY 50 (//www.jcvi.org/cms/research/software/). Kratka branja (to je <100 bp) so bila odstranjena. Zaporedja DNK in patogenov ječmena smo filtrirali s primerjavami BLASTN v bazah javnih sekvenc (//www.ncbi.nlm.nih.gov/).

Zaporedje puško BAC (BACseq). Semenski BAC-ji na karti FPC so bili sekvencirani, da bi razkrili informacije o zaporedjih genov za fizično sidranje zemljevidov. 4.095 BAC klonov je bilo sekvencirano v pulovih 2 × 48 posamično barkodiranih BAC-ov na Roche / 454 GS FLX ali FLX Titanium 51, 52 . Zaporedja so bila sestavljena z uporabo MIRA v3.2.0 (//www.chevreux.org/projects_mira.html) pri privzetih parametrih s funkcijami 'natančno', '454', 'genom', 'denovo'. Dodatnih 2.183 genskih BAC-jev (dodatna opomba 3.2) so bili sekvencirani z uporabo Illumina HiSeq 2000 v 91 kombinatoričnih bazenih 13 . Dekonvolucijsko branje smo sestavili z uporabo VELVET 53 . Statistični podatki o montaži so podani v dodatni tabeli 4.

Zaporedje puško v celotnem genomu. Knjižnice s seznami v osvetlitvi (PE; velikost fragmenta ∼ 350 bp) in mate-par (MP; velikost fragmenta ∼ 2, 5 kb) so bile ustvarjene iz razdrobljene genomske DNK 54 različnih kultivarjev ječmena („Morex“, „Barke“, „Bowman“, „Igri“) in enosemensko selekcijo S3 divjega ječmena B1K-04-12 55 ( Hordeum vulgare ssp. Spontaneum). Knjižnice sta sekvencirala Illumina GAIIx in Hiseq 2000. Genomsko DNK kultivarja „Haruna Nijo“ (velikostni razpon 600–1000 bp) je bilo sekvencirano z uporabo kemije Roche 454 GSFLX Titanium.

Sklop zaporedja celih genov

Knjižnice celih genomov puške PE in MP smo kalibrirali za velikosti fragmentov s preslikavo parov glede na kloroplast zaporedje ječmena (NC_008590) z uporabo BWA 56 . Zaporedja so bila kakovostno obrezana in novo na novo sestavljena z uporabo CLC Assembly Cell v3.2.2 (//www.clcbio.com/). Iz podatkov o kultivarjih „Morex“, „Bowman“ in „Barke“ so bili izvedeni neodvisni sestavi de novo .

Prepisovanje zaporedja

Za globoko sekvenco RNA (RNA-seq) je bilo izbranih osem tkiv sorte „Morex“ (vsaka tri biološke replikacije), ki so določile faze življenjskega cikla ječmena od kalitve zrnja do zorenja caryopsis. Rast rastlin, vzorčenje in zaporedje rastlin je podrobno opisano v dopolnilnih informacijah (dodatna opomba 6). Nadaljnji podatki o sekvenciranju mRNA so bili pridobljeni iz osmih dodatnih kultivarjev spomladanskega ječmena v posebni študiji in so bili tukaj uporabljeni za analizo raznolikosti zaporedja (dodatna opomba 8.2).

Genetski okvir fizikalne karte

Genetski okvir za zasidranje fizičnega zemljevida ječmena je bil zgrajen na enojni nukleotidni variaciji (SNV) map 57 (dodatna opomba 4.3), ki je zagotovila najvišjo gostoto markerjev (3.973) in ločljivost ( N = 360, RIL / F8) za enotna populacija za starševsko kartiranje v ječmenu. Dodatne zemljevide z visoko gostoto označevalcev (dodatna opomba 4.3) smo primerjali in poravnali na podlagi skupnih označevalcev. Poleg tega smo uporabili genotipizacijsko zaporedje (GBS) 58, da smo ustvarili genetske karte z visoko gostoto, ki vsebujejo 34.396 SNV in 21.384 SNV ter 241.159 in 184.796 prevladujočih oznak (prisotnost / odsotnost) za dve podvojeni haploidni populaciji Oregon Wolfe Barley 14 in Morex × Barke 45 oz. Skupno je bilo uporabljenih 498.165 oznak zaporedja markerjev (dodatna tabela 11).

Genetsko sidranje

Genska integracija fizičnega zemljevida je vključevala postopke neposrednega in posrednega zasidranja.

Neposredno sidranje. Genskim markerjem smo klone BAC / BAC dodelili s tremi različnimi postopki (dodatna opomba 4.3 in dodatna tabela 9). 2.032 označevalcev, ki temeljijo na PCR, iz objavljenih genetskih zemljevidov 59, 60 so bili s PCR pregledovani na večdimenzionalnih (MD) bazenih DNK (//ampliconexpress.com/), pridobljenih iz knjižnice BAC HVVMRXALLeA 9 . Enkratni haploidni genomski ekvivalent teh skupin MD je bil uporabljen za multipleksno presejanje 42302 ječmenovih unigenov, pridobljenih z EST, predstavljenih na prilagojenem 44K Agilent mikrorašču, kot je bilo prej opisano 61 . 27.231 ječmenov unigenov, ki obsegajo 1.121 s položajem genetske karte 45, 62, bi lahko dodelili 12.313 BAC. Pregledali smo 14.600 klonov iz knjižnice BAC HVVMRXALLhA s 3.072 markerji SNP v preskusih Illumina GoldenGate 45, kar je privedlo do 1.967 markerjev, ki so bili neposredno dodeljeni BAC-om 13 ; približno tretjina teh informacij je bila vključena v to delo.

Posredno sidranje. Viri zaporedja, povezani z okvirom FPCmap, so bili podlaga za obsežno integracijo informacij o genetskem markerju v siliko (dodatna opomba 4.3 in dodatna tabela 11). Ponavljajoče se maskirane sekvence BES, zaporedja zasidranih označevalcev in 6.295 zaporednih BAC-ov omogočajo vključitev 307 Mb celovitih genomskih pušk 'Morex' na zemljevid FPC. Genetski markerji in genske sekve ječmena so bili postavljeni na to referenco s povezavo stroge homologije zaporedja. Skupno 8.170 (∼ 4, 6 Gb) BAC kontigov je prejelo zaporedje in / ali podatke za sidranje (dodatna opomba 4). 4, 556 kontigov FPC (Σ = 3, 9 Gb) je bilo zasidrano v genetskem okviru.

Analiza ponavljajoče se DNK in ponavljajoče maskiranje

Ponovno odkrivanje in analiza je bila izvedena, kot je bilo predhodno opisano 18, 20, razen posodobljene knjižnice ponavljanja, dopolnjene z novimi odkritimi ponavljajočimi se elementi iz ječmena (dodatna opomba 5).

Opomba genov, funkcionalna kategorizacija in diferencialno izražanje

Za klicanje strukturnih genov so bili uporabljeni javno dostopni ječmenski cDNA 24 in jeklena RQ-seq, pridobljeni v projektu (dodatna opomba 6) (dodatna opomba 7). Podatki cDNA s celotno dolžino in RNA-seq so bili zasidrani, da se ponavljajo zamaskirane zaporedje puške celotnega genoma z uporabo GenomeThreader 63 in CuffLinks 64, pri čemer slednji zagotavljajo tudi informacije o alternativno spojenih prepisih. Strukturni klici genov so bili kombinirani in najdaljši ORF za vsak lokus je bil uporabljen kot reprezentativen za analizo genske družine (dodatna opomba 7.1.2).

Gensko družinsko grozdenje je bilo izvedeno z uporabo OrthoMCL (dodatna opomba 7.1.3) s primerjavo glede na genome Oryza sativa (RAP2), Sorghum bicolor , Brachypodium distachyon (v 1.4) in Arabidopsis thaliana (izpust TAIR10).

Analiza diferencialne ekspresije genov (dodatna opomba 7.2) je bila izvedena na RNA-seq podatkih z uporabo CuffDiff 65 .

Analiza raznolikosti zaporedja

SNV na celotnem genomu je bil ocenjen s preslikavo (BWA v0.5.9-r16 56 ) prvotno zaporedje branja sekvenciranih genotipov na novo skupino kultivarja „Morex“. Odčitavanja zaporedja iz sekve RNA so bila preslikana v sklop 'Morex'. Podrobnosti so navedene v dodatni opombi 8.

Pridružitve

Vloge podatkov

Viri v sekvenci, ustvarjeni ali zbrani v tej študiji, so bili deponirani pri EMBL / ENA ali NCBI GenBank. Celoten seznam zaporednih pristopnih številk neobdelanih podatkov ter URL-jev za prenos, vizualizacijo ali iskanje podatkov so na voljo v dopolnilni opombi 1 in dodatni tabeli 1.

Dodatne informacije

Datoteke PDF

  1. 1.

    Dodatne informacije

    Ta datoteka vsebuje dopolnilno besedilo, dodatne slike 1-33, dopolnilni tabeli 1-24 in 26-33 (glejte ločeno datoteko za dodatno tabelo 25) in dodatne reference - za več podrobnosti glejte Vsebina.

Excel datoteke

  1. 1.

    Dopolnilni podatki

    Ta datoteka vsebuje dopolnilno tabelo 25, ki prikazuje GO izraze in PFAM domene, ki so preveč in premalo predstavljene v grozdnih skupinah, razširjenih z ječmenom.

Pripombe

Z oddajo komentarja se strinjate, da se boste držali naših pogojev in smernic skupnosti. Če se vam zdi nekaj zlorabe ali ne ustreza našim pogojem ali smernicam, označite to kot neprimerno.