Informatie

Volledige menselijke rDNA-sequentie


Ik heb geprobeerd de volledige menselijke rDNA-sequentie (niet-spacers en spacers), die ongeveer 43 kb lang zou moeten zijn, op te halen met behulp van Biomart, NCBI en rnacentral, maar ik heb alleen de niet-spacers van 13 kb kunnen vinden. -spacer volgorde. Zijn de spacer-regio's nog niet gesequenced vanwege de moeilijkheid om een ​​repetitieve regio te sequencen? Bedankt voor je hulp.


Het is gelukt om de volledige reeks van de herhalende eenheid te vinden:

https://www.ncbi.nlm.nih.gov/nuccore/U13369


Voor zover ik weet, is van de geschatte 500 kopieën van rDNA-herhalingen in het menselijk genoom slechts anderhalve herhalingen gesequenced en gepubliceerd. Zoogdier-rDNA-herhalingen zijn moeilijk te klonen en lijken onstabiel in gist en e coli.


Menselijke genoomsequentie voltooid: wetenschappers zeggen dat de sequentie van het hele menselijke genoom is voltooid met ontbrekende stukjes

Een samenwerking tussen internationale wetenschappers beweert dat ze met succes het hele menselijke genoom hebben gesequenced, inclusief de ontbrekende stukjes, en nauwkeuriger zijn dan de eerste menselijke genoomsequencing ongeveer twee decennia geleden.

Indien bevestigd, zal de sequencing de prestaties van leiders van het Human Genome Project en Celera Genomics, White House Lawn, in 2000 ver overtreffen, toen wetenschappers de eerste concept-sequencing van het menselijk genoom aankondigden. De historische schets van de gehele menselijke DNA-sequentie en andere pogingen om het gehele menselijke genoom te sequencen, hebben allemaal ongeveer 8% van het genoom gemist.


Honderden genomen om te volgen

T2T-CHM13 vertegenwoordigt het genoom van slechts één persoon. Maar het T2T-consortium werkt samen met een groep genaamd het Human Pangenome Reference Consortium, dat de komende 3 jaar tot doel heeft meer dan 300 genomen van mensen over de hele wereld te sequensen. Miga zegt dat de teams T2T-CHM13 als referentie kunnen gebruiken om te begrijpen welke delen van het genoom verschillen tussen individuen. Ze zijn ook van plan om een ​​volledig genoom te sequencen dat chromosomen van beide ouders bevat, en de groep van Miga heeft gewerkt aan het sequencen van het Y-chromosoom, met behulp van dezelfde nieuwe methoden om hiaten op te vullen.

Miga verwacht dat genetica-onderzoekers snel zullen ontdekken of een van de nieuw gesequenced gebieden en mogelijke genen geassocieerd zijn met menselijke ziekten. "Toen het menselijk genoom naar buiten kwam, hadden we de tools niet paraat en klaar voor gebruik", zegt ze, maar informatie over de functie van de nieuw gesequenced genen zou nu veel sneller moeten komen, omdat "we een ton hebben opgebouwd van middelen".

Ze hoopt dat toekomstige menselijke genoomsequenties alles zullen omvatten, inclusief de nieuw gesequenced secties - niet alleen de delen die gemakkelijk te lezen zijn. Dit zou gemakkelijker moeten zijn nu het referentiegenoom is voltooid en enkele technische problemen zijn uitgewerkt. "We moeten een nieuwe standaard in genomics bereiken waar dit niet speciaal is, maar routine", zegt ze.


Onderzoekers beweren het hele menselijke genoom te hebben gesequenced

Krediet: CC0 Publiek Domein

Een groot internationaal team van onderzoekers beweert eindelijk het hele menselijke genoom te hebben gesequenced. Gezamenlijk staat het team bekend als het Telomere-to-Telomere (T2T) Consortium, en ze hebben een paper geschreven waarin ze hun inspanningen beschrijven en hebben het geüpload naar de bioRxiv preprint-server.

In 2000 kondigde een team van het Human Genome Project dat samenwerkte met biotechbedrijf Celera Genomics aan dat ze de eerste versie van een sequencing van het menselijk genoom hadden voltooid. In die eerste versie ontbrak ongeveer 15% van het genoom. Sinds die tijd heeft het werk het percentage teruggebracht tot slechts 8%. En nu beweert het T2T-consortium het tot nul te hebben teruggebracht, hoewel er nog steeds enkele kanttekeningen zijn. De groep erkent dat ze wat problemen hadden met ongeveer 0,3% van het genoom, en dat er hier en daar een paar fouten zouden kunnen zijn, maar geen hiaten, daarom heeft de groep zichzelf het Telomere-to-Telomere Consortium genoemd. Als onderdeel van hun werk ontdekte het team ongeveer 115 nieuwe genen die coderen voor eiwitten, wat een nieuw totaal van 19.969 oplevert.

De onderzoekers suggereren dat hun werk alleen mogelijk was omdat ze gebruik maakten van nieuwe technologie die is ontwikkeld door Oxford Nanopore en Pacific Biosciences - de nieuwe technologie maakte sequencing mogelijk zonder het DNA in stukjes te snijden. In plaats daarvan liet het het DNA door een nanoscopisch gat lopen met lasers die de sequenties herhaaldelijk lazen om fouten te verminderen. Ze beweren ook dat het aantal bekende basen nu is gegroeid van 2,92 miljard naar 3,05 miljard en dat het aantal bekende genen met 0,4% is toegenomen.

De onderzoekers merken ook op dat het genoom dat ze hebben gesequenced niet afkomstig was van een persoon, maar eerder van een hydatidiform, een groei die zich in zeldzame gevallen aan de binnenkant van de baarmoeder van een vrouw vormt. Dergelijke gezwellen doen zich voor wanneer een spermacel erin slaagt een eicel te bevruchten die dus geen kern heeft, het heeft dus slechts 23 chromosomen in plaats van de normale 46 die in de meeste menselijke cellen worden aangetroffen. De onderzoekers kozen ervoor om de hydatidiform te sequensen omdat het hun berekeningen gemakkelijker maakte.

De resultaten moeten nog door vakgenoten worden beoordeeld, daarom wacht de genomics-gemeenschap met commentaar - in de tussentijd maakt het T2T-team plannen om hun werk verder te brengen door meerdere mensen van over de hele wereld te sequencen.


Wetenschappers zeggen dat ze eindelijk het hele menselijke genoom hebben gesequenced. Ja, alles.

Eenentwintig jaar geleden kondigden onderzoekers de eerste &ldquodraft&rdquo aan om het volledige menselijke genoom te sequencen. Het was een monumentale prestatie, maar de sequentie ontbrak nog steeds ongeveer 8 procent van het genoom. Nu zeggen wetenschappers die over de hele wereld samenwerken dat ze eindelijk die teruggetrokken 8 procent hebben ingevuld.

➡ Jij denkt dat wetenschap een badass is. Wij ook. Laten we nerds er samen over praten.

Als hun werk de peer review doorstaat en het blijkt dat ze echt deed het menselijk genoom in zijn geheel, met leemten en al, opeenvolgen en samenstellen, zou het de toekomst van de geneeskunde kunnen veranderen.

Wat zit er in een genoom?

Het sequencen van het menselijk genoom is lange tijd een enorm project geweest met waardige doelen. Waarom? Omdat mensen hun genetische code beter begrijpen, kunnen ze betere, meer op maat gemaakte medicijnen maken, bijvoorbeeld & mdash, inclusief het soort gengerichte geneeskunde dat de eerste effectieve COVID-19-vaccins mogelijk maakte.

Mensen hebben 46 chromosomen, in 23 paren, die tienduizenden individuele genen vertegenwoordigen. Elk gen bestaat uit een aantal basenparen gemaakt van adenine (A), thymine (T), guanine (G) en cytosine (C). Er zijn miljarden basenparen in het menselijk genoom.

In juni 2000 hebben het Human Genome Project (HGP) en het particuliere bedrijf Celera Genomics bekend gemaakt dat eerste "ontwerp" van het menselijk genoom. Dit was het resultaat van jarenlang werk dat het tempo opgevoerd terwijl mensen betere computers en algoritmen bleven maken voor het verwerken van het genoom. Destijds waren wetenschappers verrast dat van de meer dan 3 miljard individuele &ldquo-letters&rdquo van basenparen, ze schatten dat mensen slechts 30.000 tot 35.000 genen hebben. Tegenwoordig is dat aantal veel lager, zweeft net boven de 20.000.

Drie jaar later voltooide HGP zijn missie om het hele menselijke genoom in kaart te brengen en definieerde de termen op deze manier:

&ldquoDe huidige technologie&rdquo doet hier veel zwaar werk. Op het moment, HGP een proces gebruikt genaamd bacterieel kunstmatig chromosoom (BAC), waarbij wetenschappers een bacterie gebruikten om elk stuk van het genoom te klonen en ze vervolgens in kleinere groepen te bestuderen. Een complete &ldquoBAC-bibliotheek&rdquo is 20.000 zorgvuldig voorbereide bacteriën met daarin gekloonde genen.

Maar dat BAC-proces mist inherent enkele delen van het hele genoom. De reden waarom is een geweldige aanloop naar wat het nieuwe team van wetenschappers heeft helpen bereiken.

Een doorbraak in sequentiëring

Wat schuilt er in de geheimzinnige 8 procent van het genoom dat de 2000 &ldquodraft&rdquo van het genoom onaangeroerd heeft gelaten? De basenparen in deze sectie zijn gemaakt van vele, vele herhaalde patronen die het gewoon te onpraktisch maakten om te bestuderen met behulp van de methode voor het klonen van bacteriën.

BAC en andere benaderingen waren gewoon goed voor de herhalingszware resterende 8 procent van het genoom. &ldquoDe huidige werkpaard-DNA-sequencers, gemaakt door Illumina, nemen kleine DNA-fragmenten, decoderen ze en zetten de resulterende puzzel weer in elkaar,&rdquo Stat&rsquos Matthew Herper rapporten. &ldquoDit werkt prima voor het grootste deel van het genoom, maar niet in gebieden waar de DNA-code het resultaat is van lange herhalende patronen.&rdquo

Dat is intuïtief logisch, stel je voor dat je telt van 1 tot 50 versus simpelweg 1, 2, 1, 2, . . . opnieuw en opnieuw. Een deel van wat de BAC-methode succesvol maakte, is dat wetenschappers ervoor zorgden om de overlappingen te minimaliseren en op elkaar af te stemmen, wat bijna onmogelijk werd in het herhalingszware onontgonnen deel van het genoom.

Dus, wat is er anders in de nieuwe benaderingen? Laten we eerst kijken wat ze zijn. Het in Californië gevestigde Pacific Biosciences (PacBio) en het in het VK gevestigde Oxford Nanopore hebben verschillende technologieën, maar streven naar hetzelfde doel.

PacBio gebruikt een systeem genaamd HiFi, waar basenparen worden gecirculeerd, letterlijk als cirkels, totdat ze volledig en in hoge betrouwbaarheid worden gelezen, vandaar de naam. Het systeem dateert van slechts een paar jaar oud en vertegenwoordigt een grote stap voorwaarts in zowel lengte als nauwkeurigheid voor die langere sequenties.

Oxford Nanopore gebruikt ondertussen elektrische stroom in zijn eigen apparaten. Strengen basenparen worden door een microscopisch kleine nanoporie gedrukt en slechts één molecuul per keer, waar een stroom ze zapt om te zien wat voor soort molecuul ze zijn. Door elk molecuul te zappen, kunnen wetenschappers de volledige streng identificeren.

In de nieuwe studie gepubliceerd in de biologie preprint server bioRxiv, gebruikte een internationaal consortium van ongeveer 100 wetenschappers zowel PacBio- als Oxford Nanopore-technologieën om enkele van de resterende onbekende delen van het menselijk genoom op te sporen.

De hoeveelheid grond die het consortium heeft bestreken, is onthutsend. &ldquoHet consortium zei dat het het aantal DNA-basen verhoogde van 2,92 miljard naar 3,05 miljard, een stijging van 4,5 [procent]. Maar het aantal genen steeg met slechts 0,4 [procent] tot 19.969,&rdquo Stat rapporten. Dit laat zien hoe groot de sterk herhalende basenpaarsequenties in deze zone zijn in vergelijking met de genen die ze vertegenwoordigen.

De ontbrekende schakels

Sequentie peetvader George kerk, vertelde een bioloog aan de Harvard University: Stat als dit werk met succes door peer review gaat, zal het de eerste keer zijn ieder het genoom van gewervelde dieren is volledig in kaart gebracht. En de reden lijkt eenvoudig te zijn dat beide nieuwe technologieën het mogelijk maken om zeer lange reeksen basenparen tegelijk te lezen.

Waarom is de ontbrekende geninformatie zo belangrijk? Welnu, de studie van genen kent veel vriendjespolitiek, waarbij een handvol van de meest populaire genen het grootste deel van de onderzoeksinteresse en financiering op zich neemt. De over het hoofd geziene genen bevatten veel belangrijke mechanismen die bijvoorbeeld ziekte veroorzaken.

Er is een klein probleempje, hoewel het ook een probleem was voor de aankondiging van de eerste versie van het genoom in 2000. Beide projecten bestudeerden cellen die slechts 23 chromosomen hadden in plaats van de volledige 46. Dat komt omdat ze cellen gebruiken die afkomstig zijn van het voortplantingssysteem, waar eieren en sperma elk de helft van een volledige chromosomale lading dragen.

De cel is afkomstig van een hydatidiforme mol, een soort reproductieve groei die een extreem vroege, niet-levensvatbare vereniging vertegenwoordigt tussen een sperma en een eicel zonder kern. Het kiezen van dit soort cel, dat bewaard en gekweekt is als een "cellijn" die voor onderzoeksdoeleinden wordt gebruikt, halveert het enorme sequentiëringswerk.

De volgende stap is dat het onderzoek in een peer-reviewed publicatie verschijnt. Daarna proberen zowel PacBio als Oxford het volledige menselijke genoom met 46 chromosooms te sequensen. Maar misschien wachten we nog even.


Bijna compleet menselijk genoom gesequenced

Jef Aksto
8 juni 2021

H et Human Genome Project was een hoogstandje dat in 2000 resulteerde in het eerste ontwerp van de menselijke genoomsequentie, maar het was niet echt compleet. Het werk liet lacunes in de sequentie achter die genomicist Karen Miga van de Universiteit van Californië, Santa Cruz, de "laatste onbekende" noemt in opmerkingen aan STAT. In totaal is ongeveer 8 procent van het menselijke genoom van meer dan 3 miljard basenparen - meestal herhalingen die rekenkundig uitdagend zijn om te assembleren - in de twee decennia sinds die eerste versie niet gesequenced.

Het opvullen van die lacunes is "nooit eerder gedaan", vertelt Miga STAT, "en de reden dat het nog niet eerder is gedaan, is omdat het moeilijk is." Maar met een internationale groep medewerkers plaatste Miga vorige maand (27 mei) een preprint die precies dat begint te doen, door bijna 200 miljoen DNA-basen toe te voegen aan de bekende menselijke genoomsequentie en daarbij zo'n 115 potentieel eiwitcoderende genen te ontdekken.

"Het is opwindend om een ​​oplossing te hebben voor de probleemgebieden", vertelt Kim Pruitt, een bio-informaticus bij het Amerikaanse National Center for Biotechnology Information in Bethesda, Maryland, die niet betrokken was bij het onderzoek. Natuur.

Miga en haar collega's gebruikten langgelezen sequentietechnologieën van Pacific Biosciences en Oxford Nanopore om het DNA te ondervragen dat was geëxtraheerd uit een cellijn die was afgeleid van een baarmoedergroei die een hydatidiforme mol wordt genoemd. Deze structuur wordt gevormd door de bevruchting van een eicel zonder kern, wat betekent dat de moedervlek alleen DNA van het sperma draagt, en niets van de persoon in wiens baarmoeder het groeide - een genetische afwijking die het gemakkelijker maakte om meer van het genoom te ontcijferen omdat het ging niet om het uitzoeken van de genetische bijdragen van twee ouders.

Onderzoekers hadden jaren geleden cellijnen gegenereerd uit deze hydatidiforme mol, en daarom is het mogelijk dat er mutaties in het genoom zijn ontstaan ​​voordat het werd gesequenced voor dit laatste project, zodat de nieuwe genetische informatie "grotendeels het afval kan zijn dat zich ophoopt als een cellijn gedurende vele jaren in de cultuur gepropageerd”, vertelt Elaine Mardis, de mede-uitvoerend directeur van het Institute for Genomic Medicine in het Nationwide Children's Hospital, die niet aan het werk heeft deelgenomen. STAT.

Omdat de cellen jarenlang bevroren waren en de hele tijd niet serieel werden gepasseerd, vertelt Miga STAT, denkt ze dat de nieuwe sequenties biologisch relevant zijn. Ze merkt echter op dat Natuur dat er een paar regio's zijn die verdere bevestiging nodig hebben. Omdat het sperma dat de eicel bevruchtte om de mol te vormen een X-chromosoom droeg, heeft het team niet gegraven in de genomische gaten die bestaan ​​in de menselijke Y-chromosoomsequentie - iets waar de onderzoekers nu aan werken.


Titel: De volledige sequentie van een 43 Kb menselijk ribosomaal RNA-gen en het mysterie van de secundaire vernauwing

De tandem gerangschikte rRNA-genen worden gevonden op 5 chromosomen, in regio's die secundaire vernauwingen vanwege hun kleureigenschappen in de metafase. Hun verschijning in de metafase is toegeschreven aan de schijnbaar hoge G+C-basesamenstelling van de coderende regio's van de genen. De volledige nucleotidesequentie van een menselijke rDNA-herhaling is nu bepaald en deze sequentie kan worden vergeleken met nieuwe modellen van chromosoomstructuur. De basesamenstelling langs de gehele rDNA-herhaling is niet G+C-rijk: in het 13 kb getranscribeerde gedeelte wisselen G+C-rijke gebieden af ​​met gebieden met een gemiddelde basesamenstelling. In de intergene spacer van 30 kb zijn er lange stukken van eenvoudige pyrimidine-rijke sequenties, meer dan 30 Alu-elementen en één pseudogen van 2,3 kb, er zijn ook stukken T/A-rijke sequenties met een periodiciteit van 10 basen, die mogelijk een gebogen DNA kunnen aannemen conformatie. Een onlangs door Saitoh en Laemmli voorgesteld chromosoomstructuurmodel integreert informatie over de nucleotidesamenstelling van DNA met kleuring en verpakking van DNA in de metafase om ofwel G-banding of R-banding te verkrijgen. Cruciale lokale elementen voor het verpakken zijn de A+T-rijke scaffold-bevestigingsgebieden (SAR), die gebogen DNA bevatten, en de bandkenmerken bepalen door de manier waarop ze ten opzichte van elkaar zijn georganiseerd in strak gewonden (G-banden) of uitgerekt (R-banden) wachtrijen rDNA bevindt zich in een gezwollen R-band in voorzichtig geïsoleerde Indiase muntjak-chromosomen. Omdat gebogen DNA ook aanwezig is in humaan rDNA, kan het zijn organisatie richten op een vergelijkbare band die instort onder routinematige bereidingsmethoden. « minder


Resultaten

Selectie van soorten voor fylogenetische voetafdruk

We wilden fylogenetische footprinting gebruiken om regio's in de menselijke IGS te identificeren die potentieel functioneel zijn maar aan detectie zijn ontsnapt vanwege de moeilijkheden bij het werken met de zeer repetitieve rDNA-regio. Om dit te doen, hebben we besloten om de menselijke rDNA-sequentie te vergelijken met rDNA-sequenties van verschillende primaten. Ondanks dat de genomen van verschillende primatensoorten zijn gesequenced, is de volledige rDNA-sequentie niet geïdentificeerd, daarom hebben we rDNA-sequenties geconstrueerd voor geselecteerde primatensoorten met behulp van hele genoomassemblages (WGA). We gebruikten twee criteria om de primatensoort voor analyse te selecteren. Ten eerste was er de beschikbaarheid van Sanger WGS-gegevens (Whole Genome Sequence), aangezien voorlopige analyse suggereerde dat kortgelezen sequentiegegevens van de volgende generatie ongevoelig zijn voor de assemblage van complete rDNA-eenheden. Het bereik van soortverwantschap is van cruciaal belang voor fylogenetische voetafdruk [88], daarom was ons tweede criterium het opnemen van soorten met een variërende verwantschap met de mens. Op basis van deze criteria selecteerden we zes primaten (van de ongeveer 300 levende soorten primaten verdeeld over 13 families [89]) die over volledige genoomsequentiegegevens van Sanger beschikten [90]: Pan-holbewoners (chimpansee), Gorilla gorilla (gorilla), en Pongo abelii (orang-oetan) van de Hominidae, Nomascus leucogenys (gibbon) van de Hylobatidae, Macaca mulatta (rhesus makaak) van de apen uit de oude wereld, en Callithrix jacchus (gewone zijdeaap) van de apen van de nieuwe wereld. Deze primaten omvatten beide soorten die nauw verwant zijn aan de mens (Hominidae en Hylobatidae), samen met verder verwante soorten (oude en nieuwe wereldapen) (Afb. 2A).

EEN) Fylogenetische boom die de relaties toont tussen primatensoorten geselecteerd voor rDNA fylogenetische footprinting [aangepast van 91]. B) Menselijke en primaat rDNA-eenheidsstructuren worden getoond. Het rRNA-coderende gebied (zwarte lijn), inclusief de 18S, 5.8S en 28S rRNA-subeenheden (zwarte dozen), en de IGS (grijze lijn) worden aangegeven samen met de posities van herhalende elementen en een cdc27-pseudogen. Elementen boven de lijn bevinden zich op de voorwaartse streng en die eronder op de achterwaartse streng. De rRNA-coderende regio/IGS-coördinaten en rDNA-eenheidslengtes zijn aangegeven.

Referentie menselijke rDNA-sequentie

De veelgebruikte menselijke referentie-rDNA-eenheid (Genbank-toetreding U13369) werd geconstrueerd door verschillende partiële sequenties te assembleren die door verschillende laboratoria waren verkregen [1]. Het is bekend dat deze sequentie fouten bevat [25,92], daarom wilden we een menselijke rDNA-sequentie gebruiken uit een enkele bron die waarschijnlijk minder fouten bevat. We kozen de volledige menselijke rDNA-eenheidssequentie (43.972 bp) die aanwezig is in een niet-geannoteerde BAC-kloon (Genbank-toetreding GL000220.1 hetzelfde als Genbank AL592188 S1 Bijlage) [36] die aanwezig is als een niet-geplaatste scaffold in het GRCh38 menselijke referentiegenoom en een volledige en gedeeltelijke rDNA-eenheid bevat samen met een deel van het distale flankerende gebied van rDNA. We verwijzen naar deze rDNA-sequentie als het "menselijke rDNA", en het omvat een coderend gebied van 13.357 bp en een IGS van 30.615 bp (zoals bepaald door vergelijking met de menselijke rDNA-sequentie van Genbank). [36]. Exclusief kopie-aantal variatie in microsatelliet en andere herhalingen in de IGS (S4 Bijlage), vertoont het humane rDNA 98,1% sequentie-identiteit met U13369. Deze menselijke rDNA-sequentie heeft 96,6% sequentie-identiteit (S5 Bijlage) naar een andere recent gepubliceerde menselijke rDNA-referentiesequentie [Genbank-toelating KY962518.1 39] ook afgeleid van een BAC-kloon waarvan de sequentie is bepaald die het distale flankerende gebied van rDNA omvat (Genbank-toelating FP236383). De verschillen zijn voornamelijk verschillen in lengtes van microsatellietkanalen (S5-bijlage oranje gemarkeerd)), maar onze referentie heeft twee verwijderingen vergeleken met KY962518 (KY962518.1-coördinaten 13923-14720 en 28.378-28.580 S5-bijlage, blauw gemarkeerd) die in totaal ongeveer 1 kb bedragen. Een daarvan is een verwijdering van één herhaalde kopie uit het tandem-R-herhalingsgebied. De chimpansee heeft ongeveer de helft van dit extra herhalingsexemplaar, maar geen van de andere primaten. De andere is een deletie van één herhalingskopie uit een set van drie tandemherhalingen die zich in het langere Long Repeat/Butterfly-herhalingsgebied bevinden, waarbij geen van de primatensoorten in deze studie deze extra herhalingskopie deelt. Het moet nog worden bepaald of dit natuurlijke polymorfismen van het aantal kopieën of assemblage-artefacten zijn.

Het construeren van rDNA-sequenties van primaten

Om fylogenetische footprinting uit te voeren, hebben we eerst rDNA-sequenties geconstrueerd voor de geselecteerde primatensoorten met behulp van WGA. Het hoge niveau van sequentie-identiteit tussen rDNA-eenheden binnen een genoom [93–95] leidt genoom-assembleurs ertoe om een ​​enkele, goed dekkende "consensus" rDNA-eenheidsequentie te construeren uit de meerdere rDNA-herhalingen. Het dekkingsniveau zal een factor van het aantal rDNA-kopieën groter zijn dan dat van unieke regio's (ongeveer 200-500 bij primaten [96,97]). We hebben daarom WGA uitgevoerd op openbaar beschikbare WGS-gegevens voor de primatensoort (S1- en S2-tabellen) en geselecteerde contigs met hoge dekking. Deze contigs werden gescreend met behulp van de menselijke rDNA-sequentie om rDNA-bevattende contigs te identificeren, werden en samengevoegd om volledige rDNA-sequenties te produceren. Hieruit verkregen we rDNA-eenheden voor de zes primatensoorten, variërend in grootte van 37,5-42,9 kb (Afb. 2B), en de regio's die overeenkomen met het rRNA-coderende gebied en IGS werden geïdentificeerd door vergelijking met het menselijke rDNA (S4-tafel). Het menselijke coderende gebied is volledig uitgelijnd (van begin tot eind) met alle rDNA-sequenties van primaten, behalve zijdeaapje, waarvoor de 5 'extern getranscribeerde spacer (ETS) 272 bp korter is dan de menselijke 5' ETS. Dit kan zijn omdat de marmoset 5' ETS eigenlijk korter is dan de mens, of omdat de WGA deze regio niet goed heeft samengesteld.

Gebruik van het menselijke rDNA om rDNA-contigs in de WGA's van primaten te identificeren, maakt het mogelijk dat regio's die aanwezig zijn in andere primaten, maar niet in de mens, werden gemist. Verder kan de aanwezigheid van repetitieve elementen in de IGS die ook in andere regio's van het genoom worden gevonden [98] hebben geleid tot WGA-fouten [99]. Om deze mogelijkheden te elimineren, identificeerden we eerst rDNA-bevattende BAC-klonen voor de primatensoort (behalve chimpansee, die een hoog niveau van genomische sequentie-identiteit heeft met de mens) door BAC-genoombibliotheken te screenen (S3-tafel). We vergeleken de grootte van de WGA- en BAC-rDNA-eenheden door de BAC-klonen te verteren met I-PpoI, een homing-enzym dat slechts één keer in het rDNA knipt (in de 28S), de fragmenten scheidt met behulp van veldinversiegelelektroforese (FIGE) en Southern-hybridisatie uitvoert (S1 Afb). De geschatte lengtes van de BAC (via FIGE) en de WGA-rDNA-sequenties zijn vergelijkbaar (S1 Fig en S5 Tabel), waarbij de FIGE-formaten consistent zijn

1 kb groter dan de WGA maten (S5 Tafel). De

Een verschil van 1 kb in grootte tussen onze rDNA-referentie en de gepubliceerde KY962518-referentie zou dit verschil kunnen verklaren als deze ontbrekende sequentie niet kon worden geassembleerd in al onze rDNA-sequenties van primaten, inclusief onze menselijke referentie. Zoals hierboven uiteengezet, zijn sommige van deze ontbrekende sequenties echter aanwezig in chimpansees, wat suggereert dat ze correct kunnen worden samengesteld. Daarom geven we de voorkeur aan de interpretatie dat de FIGE-gels de grootte enigszins overschatten en dat de rDNA-sequenties van primaten nauwkeurig zijn. Om de integriteit van de WGA-rDNA-sequenties verder te bevestigen, werd de sequentie van de rDNA BAC-klonen van primaten bepaald, en werden consensus-rDNA-sequenties van primaten verkregen door de uitlezingen in kaart te brengen met de overeenkomstige WGA-rDNA-sequenties. Gemiddeld zijn de consensus BAC-rDNA-sequenties >97% identiek aan de WGA-sequenties (S6 Tafel). De variatie is voornamelijk te wijten aan hiaten in de rRNA-coderende regio's die worden veroorzaakt door het ontbreken van uitlezingen van deze regio's in de NGS-gegevens. Het hoge niveau van sequentie-identiteit (waar uitlezingen aanwezig zijn) suggereert dat de WGS-rDNA-sequenties nauwkeurige weergaven zijn van de echte rDNA-sequenties en, aangezien regio's van het rDNA niet worden weergegeven in de NGS-uitlezingen, hebben we de WGA-sequenties als referentie-rDNA gebruikt sequenties voor alle niet-menselijke primatensoorten.

Vervolgens hebben we deze nieuwe rDNA-sequenties van primaten gekarakteriseerd om hun structurele overeenkomst met het menselijke rDNA te bepalen (S1 Bijlage). De lengte van het coderende gebied in de zes soorten primaten is vergelijkbaar met die van de mens l.e. ongeveer 13 kb, behalve gibbon die iets kleiner is (S4-tafel). Zoals verwacht, als we van chimpansee naar gewone zijdeaap gaan, neemt de paarsgewijze sequentie-identiteit met de mens af voor het coderende gebied (S4 Tafel). De microsatellietcomponent van de rDNA-eenheid in alle zes primatensoorten is hoger dan het genoombrede gemiddelde voor elke soort (tafel 1), en de mens heeft het hoogste microsatellietgehalte vanwege twee lange, unieke [TC]N herhaal blokken (Afb. 2B). Alu-elementen zijn het meest voorkomende herhalingselement in de primaat-IGS (tafel 1), en een aantal zijn ortholoog tussen mens, apen en resusaap (S2 Fig en S7 Tabel en S4 Bijlage). We ontdekten dat, in overeenstemming met een eerder rapport [56], Aluhuman22, Aluhuman25 en Aluhuman27 aanwezig zijn in chimpansee, gorilla, orang-oetan, gibbon en rhesus makaak, terwijl Aluhuman23 aanwezig is in apen maar niet in rhesus makaak. Er is ook gemeld dat orthologen van Aluhuman26 en Aluhuman28 aanwezig zijn in rhesus makaak [56], maar onze resultaten laten zien dat hoewel deze twee Alus geconserveerd zijn in apen, de Alu-elementen die aanwezig zijn in vergelijkbare regio's in rhesus makaak zich op de tegenovergestelde streng bevinden. Er zijn verschillende herhalingen met onbekende functie geïdentificeerd in het menselijke rDNA (lange herhalingen en vlinderherhalingen genoemd [1]). Deze vertonen verschillende distributies onder de primaten (Afb. 2B), wat suggereert dat ze op verschillende punten in de evolutie van primaten zijn ontstaan. Het pseudogen van cdc27 in de menselijke IGS is ook aanwezig bij apen, maar niet bij apen, zoals eerder gemeld [56], en de rDNA-sequentie van de rhesusmakaak bevat grote LTR-retrotransposons en satellietherhalingen die afwezig zijn bij de andere soorten (Afb. 2B). Over het algemeen laten deze resultaten zien dat een duidelijk signaal van orthologie en syntenie wordt behouden in de rDNA-sequenties van de geselecteerde primaten, maar er is ook voldoende diversiteit om fylogenetische footprinting effectief te laten zijn.

Geconserveerde gebieden in de menselijke IGS geïdentificeerd door fylogenetische voetafdruk

Om nieuwe geconserveerde regio's te identificeren die mogelijk functioneel zijn in het menselijke rDNA door middel van fylogenetische footprinting, hebben we de rDNA-sequenties van de mens en de primaat op één lijn gebracht. Hoewel de rDNA-sequenties van de mens en de gewone zijdeaapje op één lijn liggen, wordt de uitlijning gecompromitteerd door het relatief lage niveau van sequentie-identiteit (S4-tafel). Daarom is een uitlijning met de gewone zijdeaap weggelaten (MSAmenselijke makaak) werd gebruikt voor de fylogenetische footprinting. de MSAmenselijke makaak heeft lange reeksen gaten die voornamelijk het gevolg zijn van satellietblokkeringen in het rhesusmakaak-rDNA (S6 Bijlage). Omdat het doel was om geconserveerde gebieden in het menselijke rDNA te identificeren, werden alle kolommen in de meervoudige sequentie-uitlijning (MSA) met hiaten in het menselijke rDNA verwijderd. Om het niveau van sequentiebehoud te observeren, werd een overeenkomstplot gegenereerd met behulp van Synplot (Afb. 3). Vervolgens identificeerden we de regio's die zijn geconserveerd met behulp van phastCons, die maximale waarschijnlijkheid gebruikt om een ​​fylogenetisch verborgen Markov-model op de uitlijning te passen [77]. Negenenveertig geconserveerde regio's (c-1 tot c-49) werden geïdentificeerd in de menselijke IGS (Afb. 3 en S8-tabel), wat overeenkomt met 21,9% van zijn lengte. Deze geconserveerde regio's zijn toegewezen aan zowel unieke regio's als Alu-elementen in het rDNA (Afb. 3). We hebben gekeken of deze regio's ook geconserveerd zijn in het gewone rDNA voor zijdeaapjes en muizen (met behulp van Genbank rDNA-referentietoegang BK000964.3). Drieëntwintig geconserveerde regio's toegewezen aan het gewone marmoset-rDNA, en vier toegewezen aan het muis-rDNA, met drie gevonden in beide, met behulp van een identiteitsdrempel van >50% (Afb. 3 en S9-tabel). Interessant is dat twee van de drie regio's die zijn geconserveerd met zowel muis als gewone zijdeaapje (c35-36) een enkele Alu-herhaling bedekken (Alumenselijk20) zonder beschreven functie. Samen onthult deze fylogenetische voetafdrukbenadering geconserveerde regio's in de menselijke IGS, inclusief enkele diep geconserveerde regio's, die potentieel functionele elementen vertegenwoordigen.

De horizontale as vertegenwoordigt de positie in het menselijke rDNA, de verticale as het niveau van sequentieovereenkomst tussen 0 (geen identiteit) en 1 (alle basen hetzelfde). Een schuifvenster van 50 bp met een toename van 1 bp werd gebruikt om de overeenkomstplot te genereren. Geconserveerde gebieden in de IGS (paarse dozen) werden geïdentificeerd met behulp van phastCons. De posities van Alu-elementen (groene vakken), microsatellieten (grijze vakken), een cdc27-pseudogen (roze vak), de rRNA-promotor (blauwe lijnen), eerder geïdentificeerde IGS-niet-coderende transcripten (groene kronkelige lijnen), c-Myc-bindingsplaatsen (oranje lijnen), p53-bindingsplaats (groene lijn) en Sal-vakken (rode lijnen terminatorelementen) zijn aangegeven. Geconserveerde gebieden met een zwarte cirkel of driehoek eronder zijn geconserveerd in respectievelijk rDNA voor gewone zijdeaapjes en muizen.

Behoud van eerder bekende kenmerken in de menselijke IGS

Om te verifiëren dat de fylogenetische footprinting in staat is om functionele elementen in het menselijke rDNA te identificeren, hebben we gekeken of bekende menselijke rDNA-elementen geconserveerd zijn bij de primaten. Zoals verwacht, zijn de 18S- en 5.8S-rRNA-coderende regio's in hoge mate geconserveerd over de primaten, terwijl de 28S-rRNA-coderende regio bestaat uit geconserveerde blokken afgewisseld met variabele regio's, zoals eerder gemeld (Afb. 3) [100 Afb. 3.101.102]. De rRNA-promotor heeft twee gekarakteriseerde elementen: een stroomopwaarts controle-element (UCE) van positie -156 tot -107 en een kerncontrole-element (CCE) van positie -45 tot +18 [54], en beide elementen zijn behouden (Figuren 3 en S3A). Verschillende potentiële rRNA-transcriptieterminators (Sal-boxen) zijn stroomafwaarts van het 28S-rRNA-coderende gebied [55,103] aanwezig en ze zijn allemaal geconserveerd (S3B Afb). Bovendien is de Sal-box proximaal van de rRNA-promoter [55] geconserveerd, hoewel de functionele betekenis van een terminator op deze positie niet duidelijk is. De c-Myc-bindingsplaatsen die rond de rRNA-promoter zijn geïdentificeerd, vallen in een geconserveerd gebied (c49 Afb. 3), waarbij is aangetoond dat dit gebied c-Myc bindt [57]. Verschillende andere voorspelde c-Myc-bindingsplaatsen in de IGS vallen ook in geconserveerde regio's, hoewel de meerderheid (inclusief plaatsen nabij de terminator waarvan is aangetoond dat ze c-Myc binden) dat niet doet (Afb. 3) [57]. Conservering van het eigenlijke bindingsmotief zelf vertaalt zich echter niet automatisch naar een geconserveerd gebied vanwege de drempels die worden gebruikt om geconserveerde blokken te definiëren (S4 Afb)en sommige c-Myc-bindingsmotieven rond de terminator die zich niet in een geconserveerd gebied bevinden, zijn niettemin geconserveerd. Het gebied dat overeenkomt met het pRNA, een niet-coderend RNA-transcript dat een rol speelt bij rDNA-silencing bij muizen [104], valt samen met geconserveerd gebied c49, hoewel het niet is geconserveerd bij muis (Afb. 3). Twee menselijke IGS-transcripten die worden geproduceerd als gevolg van stress [genaamd IGS21RNA en IGS28RNA 18]) overlappen respectievelijk geconserveerde regio's c20-c23 en c28-c30 (Afb. 3). De conservering van deze niet-coderende IGS-transcripten suggereert dat hun functie bij stressrespons bij primaten behouden kan blijven. Samen laten onze resultaten zien dat een aantal elementen in het rDNA waarvan bekend is of waarvan is gesuggereerd dat ze functioneel zijn, verschijnen als geconserveerde pieken, wat suggereert dat onze fylogenetische voetafdrukbenadering het vermogen heeft om functionele elementen in de IGS te identificeren.

Associatie van onbekende geconserveerde regio's met transcriptie

Eerder bekende functionele elementen zijn verantwoordelijk voor 11 (c1-c3, c20-c23, c28-c30 en c49) van de geïdentificeerde 49 geconserveerde gebieden. De resterende geconserveerde regio's blijven niet gekarakteriseerd en deze regio's kunnen nieuwe functionele elementen vertegenwoordigen. Daarom hebben we vervolgens gezocht naar mogelijke functies van deze nieuwe geconserveerde regio's. De aanwezigheid van gekarakteriseerde niet-coderende transcripten in de humane IGS [18,104,105], evenals hun prominentie in het rDNA van andere organismen [11,106-108], bracht ons ertoe te onderzoeken of sommige van de geconserveerde regio's geassocieerd zijn met niet-coderende transcriptie. We hebben openbaar beschikbare lange poly(A+) en poly(A-) (>200bp), en kleine RNA (< 200 bp) RNA-seq-gegevens [109] van alle zes cellijnen van de eerste twee lagen van het ENCODE-project in kaart gebracht op een gemodificeerde menselijke genoomassemblage waaraan we de menselijke rDNA-sequentie hebben toegevoegd ("gemodificeerde menselijke genoomassemblage"), zonder gemaskeerde herhalingen. De cellijnen omvatten twee normale cellijnen (HUVEC en GM12878), één embryonale stamcellijn (H1-hESC) en drie kankercellijnen (K562, HeLa-S3 en HepG-2). Er werden verschillende nieuwe poly(A+)- en poly(A-)-transcripten geïdentificeerd, waaronder gemeenschappelijke transcripten voor alle cellijnen, en transcripten die beperkt zijn tot een subset van cellijnen (S5 Fig en S10–S21 tabellen). Om potentiële transcriptionele startplaatsen (TSS) voor deze niet-coderende transcripten te identificeren, hebben we openbaar beschikbare CAGE-gegevens van het FANTOM5-project [82] in kaart gebracht op de gemodificeerde menselijke genoomassemblage met gemaskeerde herhalingen (om valse uitlijning van de korte CAGE-sequentielezingen te voorkomen). Er werden verschillende CAGE-pieken geïdentificeerd die de aanwezigheid van enkele van de nieuwe IGS-transcripten ondersteunen (S5 Fig en S22 Table Bed-bestanden voor RNA-seq-transcripten en BedGraph-bestanden voor CAGE-pieken zijn beschikbaar op de locatie van figshare https://doi.org/10.17608/k6.auckland.6159395.v1).

De aanwezigheid van transcripten die afkomstig zijn van het menselijke IGS impliceert dat transcriptionele regulatoren (bijv. promoters, versterkers en isolatoren) aanwezig zijn in het IGS en mogelijk overeenkomen met enkele van de geconserveerde regio's. Daarom hebben we openbaar beschikbare ENCODE ChIP-seq-gegevens in kaart gebracht voor histon-modificaties, RNA-polymerase-II en III, transcriptiefactoren (TBP, c-Myc en ZNF143), en het isolatorbindende eiwit CTCF, een sterk geconserveerd eiwit dat betrokken is bij de driedimensionale organisatie van chromatine [110-112], tot de gemodificeerde menselijke genoomassemblage. We gebruikten ChIP-seq-gegevens van de zes cellijnen die werden onderworpen aan RNA-seq-analyse, evenals van een extra kankercellijn (A549) van tier-3 van het ENCODE-project. Er werden verschillende verrijkingspieken voor deze factoren geïdentificeerd (S6–S12 Figs BedGraph-bestanden voor ChIP-seq-pieken zijn beschikbaar op de locatie van figshare https://doi.org/10.17608/k6.auckland.6159395.v1), waarbij die geassocieerd met actieve transcriptie duidelijk en scherp zijn, terwijl die geassocieerd met transcriptionele repressie relatief breed zijn, zoals eerder waargenomen [59]. Cellijn HeLa-S3 is een uitzondering omdat de histonmodificatiepieken die geassocieerd zijn met actieve transcriptie ook breed zijn. De GM12878-cellijn heeft minder prominente histon-modificatiepieken dan de andere cellijnen, waarschijnlijk vanwege het verlies van een aanzienlijk aantal ChIP-seq-lezingen tijdens de kwaliteitscontrolestap voor deze cellijn. Vervolgens integreerden we de histonmodificatie-, CTCF- en Pol-II-profielen voor alle zeven cellijnen met behulp van Segway [113] om vermeende chromatinetoestanden in de IGS te bepalen (S13 Fig en S23 Tabel). Ten slotte hebben we de RNA-seq-, CAGE- en chromatine-statusdatasets doorgesneden met de geconserveerde regio's om transcripten en chromatinestaten te identificeren die mogelijk functioneel geconserveerd zijn. Deze analyse onthulde drie prominente zones in de IGS die verschillende geconserveerde regio's bevatten die ofwel bewijs vertonen voor actieve transcriptie of chromatinetoestanden hebben die geassocieerd zijn met transcriptie (Afb. 4). Samen zijn deze zones goed voor 18 van de 38 onbekende geconserveerde regio's, waaronder 14 van de 23 regio's die zijn geconserveerd met de gewone zijdeaap. De eerste zone bevindt zich in de buurt van de rRNA-transcriptieterminator en we noemen deze zone-1. Het omvat geconserveerde regio's c6 tot c23 (

14,8 kb—21,1 kb) (Afb. 4) en bevat een aantal van zowel poly(A+) als poly(A-) transcripten die alle cellijnen gemeen hebben (S5 Afb), waarvan er veel lijken te zijn gesplitst. Er zijn een aantal pieken van histonmodificaties die wijzen op chromatinetoestanden geassocieerd met transcriptie, het meest prominent in de H1-hESC- en HepG2-cellijnen. Een aantal van de vermeende transcripten lijkt stroomopwaarts van deze zone te ontstaan, in een regio die is verrijkt met chromatinetoestanden die zijn geassocieerd met actieve transcriptie en met CAGE-pieken, maar geen sequentieconservering vertoont. Zone-1 bevat ook de eerder geïdentificeerde IGS21RNA niet-coderend transcript (Afb. 3).

De menselijke IGS wordt bovenaan weergegeven, met de posities van Alu-elementen (groene vakken), microsatellieten (grijze vakken), geconserveerde gebieden (paarse vakken) en eerder geïdentificeerde IGS niet-coderende transcripten (zwarte pijlen) aangegeven. Hieronder staan ​​chromatine- en transcriptionele kenmerken van zeven menselijke cellijnen. De posities van de geconserveerde gebieden worden aangegeven door bleke arcering. Voor elke cellijn wordt de aanwezigheid van transcriptionele startplaats (TSS), promotor (Prom), enhancer (Enh) en CTCF-segmentatietoestanden, verkregen door het samenvoegen van pieken voor histonmodificatie, Pol II en CTCF met behulp van Segway, aangegeven. Daaronder worden CAGE-pieken getoond voor de voorwaartse (zwarte dozen) en omgekeerde (rode dozen) strengen (CAGE-stamcelgegevens komen van H9-hESC, niet H1-hESC), gevolgd door lange poly(A+) en poly(A- ) transcripten (respectievelijk groene en blauwe pijlen) met FPKM-waarden >1 grijze pijlen geven transcripten aan met FPKM < 1. Pijlpunten geven de richting van transcriptie aan. Pieken van klein RNA worden in roze weergegeven. Zones 1 en 2 die zijn verrijkt voor geconserveerde regio's en transcriptie-geassocieerde factoren zijn in rood omkaderd. Niet voor alle functies zijn gegevens beschikbaar voor alle cellijnen.

De tweede zone ligt ongeveer in het midden van de IGS, en we noemen dit zone-2. Het omvat geconserveerde regio's c28-c34 (

28,2 tot 32,6 kb Afb. 4) en vertoont een sterke verrijking voor chromatinetoestanden geassocieerd met transcriptie en transcriptionele regulatie. Geconserveerde regio's c28-c30 komen overeen met de eerder geïdentificeerde IGS28RNA niet-coderend transcript [18,59], en, in overeenstemming met eerdere resultaten [59], tonen chromatinetoestanden geassocieerd met transcriptionele activiteit (Afb. 4). Hoewel we geen IGS detecteren28Met name RNA vinden we transcripten die het overlappen. Geconserveerde regio's c31-c32 vertonen een verrijking van actieve chromatinetoestanden, zoals eerder gerapporteerd [59], evenals transcripten in veel cellijnen (Figuren 4 en S5). Deze regio vertoont ook een piek van CAGE-tags op dezelfde positie in alle cellijnen waarvoor CAGE-gegevens beschikbaar zijn (Figuren 4 en S5). Interessant is dat er twee tegengesteld getranscribeerde kleine RNA-pieken in geconserveerd gebied c31 zijn die transcriptie van een bidirectionele promotor kunnen vertegenwoordigen en alleen worden waargenomen in H1-hESC (Figuren 4 en S5). Over het algemeen komen er meer CAGE-tagpieken in kaart in de stamcellijn dan in de andere cellijnen, wat genoombrede patronen van embryonale stamcelexpressie weerspiegelt [114] en suggereert dat het rDNA zich in een ongewoon permissieve chromatinetoestand bevindt voor niet-coderende transcriptie in deze cel type. Bovendien was zone-2 het enige deel van de IGS waarvoor CTCF-segmentatietoestanden werden voorspeld in alle cellijnen die gegevens hadden.

De laatste zone omvat de rRNA-promotor (Afb. 4). Niet-coderende transcripties zijn te vinden in deze zone (S6–S11 Afb.), inclusief kleine RNA-pieken in de HUVEC-cellijn. Sommige van deze transcripten kunnen functioneren als het muizen-pRNA, een klein RNA dat de rRNA-transcriptie beïnvloedt [104], waarbij pRNA-achtige transcripten eerder zijn gedetecteerd in het menselijke rDNA [59]. Deze zone vertoont ook chromatinekenmerken die kenmerkend zijn voor TSS's, promotors en versterkers, afhankelijk van de cellijn (Afb. 4), en nogmaals, sommige van deze kenmerken kunnen verband houden met de aanwezigheid van het pRNA. Of mensen een pRNA hebben dat functioneel equivalent is aan het muizen-pRNA is echter nog niet vastgesteld.

Our analyses also show a number of poly(A+) and poly(A-) transcripts, small RNAs, and chromatin states associated with transcriptional activity outside of these zones. In some cases these overlap with conserved regions, but in other cases they do not, and it is difficult to determine whether the transcriptional features that overlap conserved regions are associated with the conservation or not. A number of the nonconserved transcriptional features correspond to microsatellite regions (S12 Fig), suggesting they might be artifacts of the spurious alignment of reads to IGS microsatellites [99]. However, microsatellites have been shown to act as promoters and/or enhancers [115–119], hence we cannot completely rule out that the chromatin states at these sites are real.

Replication and double strand break association

The presence of origin of replication activity is a conserved feature of the rDNA [46,120–124]. Genome-wide mammalian origins of replication are not defined by sequence and there is not agreement on precisely where replication initiates in the rDNA [122,125–128]. We looked to see whether origin of replication complex association overlaps with conserved regions in case the rDNA initiates replication in a sequence-specific manner. We mapped publicly available origin of replication complex (ORC) ChIP-seq data [79] to the modified human genome assembly. The majority of ORC signal in the rDNA is found distributed across the rRNA coding region and the regions immediately flanking this (Fig 5). However, six smaller peaks of ORC enrichment are seen in the IGS, with five of them falling in conserved regions (Fig 5). These results suggest that the majority of replication in the human rDNA initiates in the rRNA coding region and/or the regions flanking it, consistent with reports that mammalian origins of replication are enriched in transcriptionally active regions [79]. Whether there is any biological significance to the minor ORC peaks at the conserved regions in the IGS is unclear.

The black plot represents enrichment of ORC in Hela-S3 cells and grey boxes below represent the position of peaks. Scale on the left is the -fold enrichment, and the scale above shows the position in the rDNA. Purple boxes represent conserved regions. The predicted chromatin states: transcription start site (TSS green boxes), promoter (pink boxes), and enhancer (orange boxes) are shown. CAGE peaks are shown as black boxes (positive strand). Long poly(A+) and poly(A-) transcripts with FPKM values > 1 are shown as green and blue boxes, respectively. Gray arrows show transcripts with FPKM < 1. Arrows indicate the direction of transcription. The purple plot at bottom represents the DSB sites in HEK293T cells.

A key feature of the rDNA repeats in yeast is the presence of double strand breaks (DSB) at a conserved site of unidirectional replication fork stalling known as the replication fork barrier site [49,50,129]. We examined whether recently reported DSB sites in the human rDNA [130] are located around conserved regions, but found no consistent pattern of association (Fig 5). Interestingly, however, the major DSB site in the rDNA lies in a region that is close to one peak of ORC enrichment, potentially suggesting the DSB site is a region of replication restart, such as observed at the yeast rDNA [131]. However, this site is at the opposite end of the IGS to where human replication fork barrier activity has been reported [132].

Long noncoding RNAs are conserved among primates

Finally, we reasoned that the presence of transcripts and chromatin states associated with active transcription in conserved regions of the human IGS suggests that similar transcripts should be present in other primates. To test this, we took publicly available paired end total RNA-seq data from liver, lung, and skeletal muscle of chimpanzee [83], and single end poly(A+) RNA-seq data from liver, heart, and cerebellum of chimpanzee, orangutan, and macaque [84]. These data were mapped to the corresponding species’ genome assembly to which the appropriate rDNA sequence had been inserted. We found IGS transcripts in all tissues from chimpanzee and orangutan (S14–S16 Figs and S24–S27 Tables), but in macaque such transcripts were only present in liver and heart tissue. We compared the primate IGS transcripts to HUVEC IGS transcripts, as HUVEC is a primary cell line that has a normal karyotype and is not artificially immortalized, hence is likely to be the closest to a “normal” human cell state. Transcripts similar to those found around the human promoter region are also found in chimpanzee and orangutan. In addition, transcripts similar to those found in zone-1 in the human IGS are found in all primate species we analyzed (Fig 6). Strikingly, there is conservation of splice junctions between human, chimpanzee and orangutan, even though the full lengths of the transcripts are not the same. No transcripts corresponding to zone-2 were found for the non-human primates analyzed here, and only one IGS transcript was found in macaque in zone-1, although this transcript does not overlap the HUVEC transcripts. Therefore, some but not all of the IGS transcripts that emanate from conserved regions in human are conserved across the apes, supporting the idea that these regions may have been conserved to maintain this transcriptional function. However, the lack of IGS transcripts in macaque suggests that transcriptional conservation does not extend as far as the monkeys, although we cannot rule out that the appropriate macaque tissues have not been sampled to find these IGS transcripts, or that their absence simply reflects a loss that is unique to macaque. The lack of transcripts from zone-2 in apes suggests that enrichment of transcriptional regulatory features in conserved regions in this zone may be involved with determining a specific chromatin structure, or that the production of transcripts is tissue-specific, such as the potentially stem cell-specific bidirectional RNA we identified in this region.

The human IGS is indicated at top along with the conserved regions (purple boxes), Alu elements (green boxes) and cdc27 pseudogene (pink box). Below are poly(A+) IGS transcripts from the HUVEC cell line, followed by total RNA chimpanzee IGS transcripts (orange), and poly(A+) IGS transcripts from chimpanzee, orangutan, and rhesus macaque (green boxes). Only transcripts that are in common with human are shown. Transcript names and their start/end coordinates are indicated alongside, as are percent identities between each transcript and the human IGS (in parentheses). Arrowheads indicate direction of transcription.


Discussie

The 45S rDNA gives origin to the nucleolus, the nuclear organelle that is the site of ribosome assembly, and transcription and processing of 45S rRNA transcripts to mature rRNAs (Warner 1999 Grummt 2003 Moss etਊl. 2007 Pederson 2011 Woolford and Baserga 2013 Henras etਊl. 2015). The 5S rDNA resides on a single human chromosome, is required for ribosome function, and is transcribed outside of the nucleolus (Sorensen and Frederiksen 1991). Here we examined the genomic architecture and repeat content of the 5S array in multiple human genome assemblies and ascertained contacts between both rDNA arrays (5S and 45S) and the rest of the genome in two human cell lines (erythroleukemia K562 and lymphoblastoid cells). The analyses revealed that 5S and 45S arrays each have thousands of contacts in the folded genome. The analysis also identified an intriguing organization in the 5S array with Alu elements and 5S units adjacent to one another, and organized in opposite orientation along the array. The rDNA contact map displayed conserved and disparate features between two cell types, and pointed to specific chromosomes, genomic regions, and genes with evidence of spatial proximity to the rDNA arrays. The contacts include cell-type specific associations with non-repetitive elements of all human chromosomes. Interestingly, rDNA-associated genes were dispersed across all chromosomes. Moreover, the data showed a lack of direct physical interaction between non-repetitive elements of the 5S and 45S rDNA arrays in K562 and LCLs. This observation suggests that the correlation in copy number between the 5S and 45S array, which has been reported for LCLs (Gibbons etਊl. 2015), might not require direct physical contact between these two arrays. Finally, 5S and 45S contacts with a wide range of chromosome regions and genes are consistent with the global regulatory consequence of rDNA copy number (Gibbons etਊl. 2014).

The substructure of the nucleolus has been carefully described in classical ultra-structural studies (Bouteille etਊl. 1967 Goessens 1984 Fischer etਊl. 1991 Scheer etਊl. 1993), and 45S rDNA units are presumed to form chromosomal loops within the organelle (Raška etਊl. 2006). Hence, the observation that 㸰% of reads containing rDNA sequences had both ends mapping to the 45S arrays is expected. It could reflect rDNA arrays looping in active arrays or be due to a tight packing of array units adopting a silenced state. This is because rDNA array looping has been suggested as a mechanism facilitating coordinate transcription among repeat units of the rDNA array (Henderson etਊl. 1973 Wicke etਊl. 2011). On the other hand, tight packaging of the rDNA array in silenced heterochromatic states is to be expected because not all 10 alleles are presumed to be active at the same time. Both looping to facilitate coordinated transcription as well as tight packaging for silencing could also operate among 45S rDNA arrays on different human chromosomes. Because of the widespread distribution of Alu and other repeats (Batzer and Deininger 2002 Jurka 2004), masking these elements is necessary to remove potential sources of read ambiguity that could confound analyses of Hi-C data. In this regard, analyses with masked repeats indicate a lack of 5S�S rDNA contacts. However, the procedure excluded the possibility that the 5S and 45S arrays might be connected through Alu elements. Hence, we also studied 5S�S rDNA contacts without masking for repeats. The procedure identified only a limited number of hits suggesting a minor contribution of 5S�S contacts even when Alu and other repeats are not masked. Our simulation study was carried out to evaluate this bias and showed that the number of observed contacts between 5S and 45S rDNA is not higher than the number expected from random selected regions with the same length. Finally, when we considered read pairs for which only one end mapped to the 45S rDNA, we found that in 㹰% of the cases the other end cannot be mapped to libraries of human DNA repeats that include Alu and Line1 repeats.

Recent observations of concerted rDNA copy number variation between the 5S and 45S rDNA arrays raise the possibility of cellular processes that promote co-variation in the 5S and 45S arrays. One clue might come from the co-localization of 5S and 45S array subunits in the genome of some fungi and plant species. It suggests that their co-existence in shared 5S�S arrays could have benefits. In yeast, the 5S and 45S units are physically linked in a common array in chromosome XII (Petes 1979 Ganley and Kobayashi 2007). This feature is puzzling in view of 5S and 45S transcription from different RNA polymerases it has been suggested that functional demands contributed to maintain their association. Similarly, in some plant lineages, the conserved linkage of two rDNA clusters (5S and 35S) is thought to be evolutionary ancient (Wicke etਊl. 2011 Barros etਊl. 2012 Galián etਊl. 2012). For instance, in some species of moss (bryophytes) the 5S gene resides in the 26S�S spacers (Sone etਊl. 1999 Wicke etਊl. 2011 Liu etਊl. 2013). These are called L-type rDNA arrays. Observations in gymnosperms (ginkgo and conifers) and angiosperms (flowering plants) suggested that the L-type might have evolved independently at least three times (Garcia etਊl. 2010 Garcia and Kovařík 2013). On the other hand, S-type arrays in which the 5S and 35S elements are located in different chromosomes have also evolved independently in multiple plant lineages (Wicke etਊl. 2011 Garcia and Kovařík 2013). More detailed phylogenetic sampling in plants is necessary to ascertain the multiple evolutionary transitions to and from L-type arrays that appear to be frequent in plants (Garcia etਊl. 2014). Although pseudogenized copies of the 5S rDNA unit exist in animals (Borsuk etਊl. 1988 Sorensen and Frederiksen 1991 Matsuda etਊl. 1994 Martins etਊl. 2002 Kapitonov and Jurka 2003 Kalendar etਊl. 2008) tight physical clustering between functional 5S and 45S elements have not evolved in animals. In humans, the 1q42 rDNA cluster appears to be the only source of mature 5S rRNA species assembled into the ribosome (Barciszewska etਊl. 2001 Ciganda and Williams 2011). Hence, evolutionary evidence of linear co-localization of rDNA clusters in plants and yeast need to be reconciled with data from other eukaryotes.

Studies in plant groups with L and S types of rDNA arrays have yet to find evidence that natural selection favors either case (Garcia and Kovařík 2013). Notwithstanding this, costs and benefits to linked and separated rDNA arrays can be readily envisioned. Evolutionary integration of all rDNA components into a common array suggests that benefits of linked 5S�S might sometimes override potential costs. One plausible advantage of linked 5S�S structures might be to facilitate mechanisms maintaining balance in rRNAs, either through coordinated expression of rRNA units or through co-variation in the abundance of rDNA copies. On the other hand, separation of the arrays might diminish costs from transcription interference due to the high activity of distinct RNA polymerases operating within the same array. For instance, separated 5S and 45S clusters could facilitate the partition of the intracellular environment that are best suited for expression from RNA polymerase I (45S rDNA) or RNA polymerase III (5S rDNA) and diminish resource competition from these two transcriptionally demanding arrays.

In the case of separated 5S and 45S arrays of humans, Drosophila and other eukaryotes, the evolution of cellular functions that promote regulatory and copy number coordination might be expected. In this regard, rDNA centered nuclear organization raises the prospect that spatial co-localization might contribute to resolving tradeoffs of having separated 5S and 45S rDNA arrays with correlated copy number variation and balanced expression of rRNAs. Collectively, the data highlight rDNA array interactions with the rest of the genome and point to cell-line specific rDNA associations with non-repetitive elements of human chromosomes. Portraits of genome folding centered on the ribosomal DNA can help understand the emergence of concerted variation, the control of 5S and 45S expression, as well as provide insights into an organelle that contributes to the spatial localization of human chromosomes during interphase.


Bekijk de video: 16s rDNA Workshop (November 2021).