Informatie

Is er een goede analogie die het verschil illustreert tussen vroege DNA-sequencing-technieken en shotgun-sequencing?


Mijn eerste universitaire biologielessen beginnen in september. Ter voorbereiding, maar steeds meer uit nieuwsgierigheid, heb ik wat basisbiologie bestudeerd. Dat gezegd hebbende, ik weet net zoveel over DNA-replicatie als de Khan Academy-video's leren.

Momenteel lees ik over de twee pogingen om het genoom te sequensen. Van wat ik heb gelezen, gebruikte Collins' project "polymerase-katalyse en nucleotide-labeling"; terwijl Venter's project "shotgun sequencing" gebruikte. Ik wist niet genoeg om het artikel te begrijpen dat ik las over "shotgun sequencing" en kon er geen vinden die de andere techniek beschreef.

Ik vermoed dat, om een ​​beknopte beschrijving van de twee technieken te begrijpen, ik meer zou moeten leren dan ik zou kunnen leren van een antwoord op deze vraag. Dat gezegd hebbende, zou het nog steeds leuk zijn om een ​​heel ruw idee te hebben van wat elk proces inhoudt en hoe ze van elkaar verschillen. Een grove analogie met iets concreets zou geweldig zijn.


De publieke inspanning, geleid door Collins, was gebaseerd op een fysieke kaart van elk chromosoom. Zeer grote stukken genomisch DNA werden gesubkloneerd in kloneringsvectoren en gebruikt om genomische bibliotheken te creëren in cosmiden, BAC's en YAC's. De subklonen worden geordend met gebruikmaking van hybridisatieprobes van bekende genen of genetische RFLP-merkers. Op deze manier werd een fysieke kaart van elk chromosoom opgebouwd, waarna het project langs de geordende klonen zou marcheren en de subklonen zou rangschikken. Als de fysieke kaart goed is, heb je een heel goed idee van waar de reeks vandaan komt.

Shotgun-sequencing daarentegen houdt in dat het hele genoom willekeurig in kleine fragmenten wordt gefragmenteerd (bijvoorbeeld met behulp van sonicatie), die stukjes subklonen en alles sequencen.

In de eerste methode wordt elke base een minimaal aantal keren gesequenced, terwijl in de tweede benadering elke base uiteindelijk vele malen (gemiddeld) wordt gesequenced.

Voor een heel genoom vereist shotgun-sequencing een uitstekend computeralgoritme om de resulterende gegevens in overlappende contigs te "assembleren".


PCR (polymeraze kettingreactie) en shotgun-sequencing zijn twee enigszins complementaire benaderingen van sequencing. In het eerste geval gebruikt men een chemische reactie om meerdere kopieën van het genoom van belang te maken, wat het mogelijk maakt om de fout bij het sequencen van dit genoom te verminderen. Dit laatste wordt gedaan door de gegevens direct te sequencen, d.w.z. zonder enige genoomvermenigvuldiging.

PCR is meer geschikt wanneer we een bepaald genoom of enkele genomen bestuderen, bijvoorbeeld bij het sequensen van het genoom van een bepaalde persoon of een bepaald type organisme. Wanneer er echter enkele zeer verschillende genomen aanwezig zijn, kan de amplificatie erg ongelijk zijn en in feite extra fouten introduceren. Dit is de reden waarom men in sommige situaties de voorkeur geeft aan shotgun-sequencing, bijvoorbeeld bij het bestuderen van het microbioom, dat veel verschillende soorten bacteriën, archaea, virussen, enz.

Beide termen verwijzen naar de zogenaamde High-Throughput Sequencing (HTS). U kunt iets meer te weten komen over sequencing-technologieën in dit populairwetenschappelijke artikel.


Verbetering van de nauwkeurigheid van next-generation sequencing voor het detecteren van zeldzame en subklonale mutaties

Het vermogen om laagfrequente genetische varianten te identificeren onder heterogene populaties van cellen of DNA-moleculen is belangrijk op veel gebieden van de fundamentele wetenschap, klinische geneeskunde en andere toepassingen, maar de huidige high-throughput DNA-sequencing-technologieën hebben een foutenpercentage tussen 1 per 100 en 1 per 1.000 basenparen gesequenced, wat hun aanwezigheid onder dit niveau verhult.

Naarmate de volgende generatie sequencing-technologieën in de loop van het decennium zijn geëvolueerd, is de doorvoer aanzienlijk verbeterd, maar de ruwe nauwkeurigheid is over het algemeen onveranderd gebleven. Onderzoekers met een behoefte aan hoge nauwkeurigheid ontwikkelden gegevensfiltermethoden en incrementele biochemische verbeteringen die de detectie van laagfrequente varianten enigszins verbeteren, maar achtergrondfouten blijven op veel gebieden beperkend.

De meest ingrijpende manier om fouten te verminderen, die ongeveer 7 jaar geleden voor het eerst werd ontwikkeld, was het concept van consensus-sequencing met één molecuul. Dit houdt een redundante sequencing in van meerdere kopieën van een bepaald specifiek DNA-molecuul en het buiten beschouwing laten van varianten die niet in alle of de meeste kopieën voorkomen als waarschijnlijke fouten.

Consensus-sequencing kan worden bereikt door elk molecuul te labelen met een unieke moleculaire streepjescode voordat kopieën worden gegenereerd, wat een latere vergelijking van deze kopieën of schema's mogelijk maakt waarbij kopieën fysiek worden samengevoegd en aan elkaar worden gesequenced. Vanwege de compromissen in kosten, tijd en nauwkeurigheid, is geen enkele methode optimaal voor elke toepassing en moet elke methode van geval tot geval worden bekeken.

Belangrijke toepassingen voor zeer nauwkeurige DNA-sequencing zijn onder meer niet-invasieve kankerdiagnostiek, kankerscreening, vroege detectie van kankerterugval of dreigende resistentie tegen geneesmiddelen, toepassingen voor infectieziekten, prenatale diagnostiek, forensisch onderzoek en mutagenese.

Toekomstige vorderingen op het gebied van ultranauwkeurige sequencing zullen waarschijnlijk worden aangedreven door een opkomende generatie van sequencers met één molecuul, met name degene die onafhankelijke sequentievergelijking van beide strengen van natieve DNA-duplexen mogelijk maken.


Invoering

Het genoom bevat alle informatie die een organisme nodig heeft om te bestaan, zich voort te planten en te evolueren. Het menselijk genoom bevat bijvoorbeeld 3,2 miljard basen. Als we de analogie van een boek gebruiken, dan zou het 3,2 miljard letters bevatten (de grondtalen A, C, G, T) zonder spaties verdeeld in 46 hoofdstukken (het aantal chromosomen), wat neerkomt op ongeveer 70 miljoen letters (bp ) per hoofdstuk. Om dit in context te plaatsen: dit artikel bevat ongeveer 58 000 brieven. Wanneer een organisme sterft, zal de combinatie van tijd en omgeving de reeks letters breken of veranderen, waardoor het moeilijk te lezen en te begrijpen is. Tot de introductie van next-generation sequencing (NGS) waren we vaak in staat om enkele van de grotere resterende zinnen te lezen - en dit is met veel moeite en kosten. Maar naarmate de technologie vorderde, zijn we nu veel gemakkelijker in staat om zeer korte zinnen te lezen en deze te combineren tot volledige hoofdstukken en soms het hele boek. De vooruitgang die in het afgelopen decennium is geboekt, is verbluffend, het veld is van het herstellen van honderden bp naar honderd miljoen bp gegaan. Deze technologische vooruitgang heeft ons niet alleen in staat gesteld om complexere vragen te beantwoorden, maar heeft ook geleid tot een overdaad aan informatie, die niet allemaal nuttig is.


2 - Genomen en varianten

Een van de bepalende prestaties van het begin van de 21e eeuw is de sequentiebepaling en uitlijning van meer dan 90% van het menselijk genoom. Natuurlijk is er niet één menselijk genoom: individuen verschillen ongeveer 0,1% van elkaar en van andere primaten ongeveer 1%. Variatie komt in veel verschillende vormen voor, waaronder veranderingen van enkele basen en veranderingen in kopienummers in grote DNA-segmenten. Nog uitdagender dan het sequencen van het hele genoom is het documenteren en begrijpen van de klinische betekenis van menselijke sequentievariatie. We zijn nog erg vroeg in ons begrip van het menselijk genoom.

Vanuit een historisch perspectief wordt de structuur van het menselijk genoom in detail beschreven, gevolgd door vergelijking met andere interessante soorten. Vervolgens worden verschillende soorten genomische variaties behandeld, waaronder veranderingen van enkelvoudige basen (substituties, deleties, inserties), variaties in kopienummers, translocaties en fusies, korte tandemherhalingen van verschillende grootte en aantal, en grotere zich herhalende segmenten, waarvan sommige rond de genoom als transposons. De functie van verschillende genomische elementen wordt beschouwd samen met veel verschillende klassen van RNA dat van het DNA wordt getranscribeerd. Het is een ontmoedigende taak om alle verschillende genen, varianten en elementen een naam te geven en de geaccepteerde nomenclatuur wordt gepresenteerd. Er zijn veel databases beschikbaar om geaccumuleerde genomische informatie te ontginnen. We eindigen met een beschrijving van elementaire informaticahulpmiddelen die een pijplijn bieden van de onbewerkte gegevens van massaal parallelle DNA-sequencing tot de voltooide sequentie met annotaties op de waargenomen variaties.


Technologische vooruitgang: diepe sequencing + dichte botten = paleonomics

Het is al lang bekend dat het correct uitvoeren van archeogenetisch onderzoek buitengewoon moeilijk is [38, 45, 46, 48,49,50]. Tegelijkertijd heeft de uitdagende aard van aDNA-onderzoek de afgelopen drie decennia echter geleid tot aanzienlijke technische innovatie en snelle inzet van ultramoderne genomica en ondersteunende technologieën [46, 50, 88,89,90,91 ,92,93]. De belangrijkste wetenschappelijke vooruitgang was ongetwijfeld de introductie van high-throughput sequencing (HTS) in de archeogenetica [94,95,96,97]. High-throughput sequencing-technologieën zijn commercieel beschikbaar sinds 2005 [98] en tussen 2007 en 2019 is er een bijna 100.000-voudige reductie in de ruwe, per megabase (Mb) kosten van DNA-sequencing [99]. Momenteel is de dominante commerciële HTS-technologie gebaseerd op massaal parallelle sequencing-door-synthese van relatief korte DNA-segmenten [100, 101], wat bij uitstek geschikt is voor gefragmenteerde aDNA-moleculen die zijn geëxtraheerd uit archeologische en museumspecimens. Bovendien kunnen de enorme hoeveelheden sequentiegegevens die worden gegenereerd - letterlijk honderden gigabases (Gb) uit een enkele instrumentrun - kosteneffectieve analyses vergemakkelijken van archeologische specimens die relatief bescheiden hoeveelheden endogeen aDNA bevatten (voor technische beoordelingen zie [89,90, 91,92,93, 102]).

De introductie van HTS en aanvullende gespecialiseerde methoden voor monsterbehandeling, aDNA-extractie, zuivering en bibliotheekvoorbereiding hebben geleid tot een werkelijk transformerende paradigmaverschuiving in de archeogenetica. Het heeft het tijdperk van paleonomica ingeluid en het vermogen om SNP-gegevens van duizenden genomische locaties robuust te genotyperen, analyseren en integreren in gezuiverd aDNA van menselijke en dierlijke subfossielen [103,104,105,106,107,108,109,110,111,112,113]. Op een vergelijkbare manier als de menselijke archeogenetica [84], waren de eerste HTS-paleogenetica-onderzoeken van huisdieren of verwante soorten gericht op een enkel of een klein aantal "gouden monsters" [10, 69, 109, 114, 115].

Een van de eerste HTS-onderzoeken die direct relevant waren voor huisdieren was een technisch hoogstandje dat het tijdsbestek voor het ophalen van aDNA en reconstructie van paleogenen voorbij 500 kya naar de vroege stadia van het Midden-Pleistoceen [109] duwde. In deze studie waren Ludovic Orlando en collega's in staat om een ​​1,12 × dekkingsgenoom te genereren van een paardenbot dat was opgegraven uit permafrost op de Thistle Creek-site in het noordwesten van Canada en gedateerd op ongeveer 560-780 kya. Gebruik van dit Midden-Pleistoceen paardengenoom in combinatie met een ander oud genoom van een 43 kya Laat-Pleistoceen paard, en genoomsequentiegegevens van het Przewalski-paard (Equus ferus przewalskii), de ezel (Equus asinus) en een reeks moderne paarden, toonden deze auteurs aan dat alle bestaande paardachtigen minstens vier miljoen jaar geleden een gemeenschappelijke voorouder deelden (mya), wat tweemaal de eerder aanvaarde leeftijd is voor de Equus geslacht. Ze toonden ook aan dat de demografische geschiedenis van het paard sterk is beïnvloed door de klimaatgeschiedenis, vooral tijdens warmere periodes zoals het interval na de LGM (Fig. 1), toen het aantal populaties dramatisch terugliep in de 15 millennia voorafgaand aan domesticatie 5,5 kya. Ten slotte, door te focussen op genomische regio's die ongebruikelijke patronen van afgeleide mutaties bij gedomesticeerde paarden vertonen, was het mogelijk om voorlopig genen te identificeren die mogelijk onderhevig waren aan door mensen gemedieerde selectie tijdens en na domesticatie [109].

De oorsprong van de huishond (C. vertrouwd) en de verspreiding van honden over de hele wereld tijdens de Laat-Pleistoceen en Holoceen perioden waren uiterst controversieel, vooral omdat populatiegenetische, archeogenetische en paleogenomische datasets zich de afgelopen twee decennia hebben opgehoopt [8, 116, 117]. Nogmaals, zoals het paardenbot van Thistle Creek, heeft een klein aantal belangrijke subfossiele exemplaren kritisch paleogenomisch bewijs geleverd met betrekking tot de evolutionaire oorsprong van gedomesticeerde honden en hun genetische relaties met laat-Pleistocene Euraziatische wolvenpopulaties [10, 11, 115]. Pontus Skoglund en collega's waren in staat om een ​​lage dekking te genereren (

1×) nucleair genoom van een 35 kya wolf (C. lupis) van het Taimyr-schiereiland in Noord-Siberië [115]. Analyse van dit Taimyr-exemplaar met WGS-gegevens van moderne hondachtigen toonde aan dat deze oude wolf tot een populatie behoorde die genetisch dicht bij de voorouder van moderne grijze wolven en honden stond. De resultaten ondersteunden een scenario waarbij de voorouders van gedomesticeerde honden 27 kya van wolven afweken, met domesticatie op een bepaald moment na die gebeurtenis. Bovendien leverde deze studie overtuigend bewijs dat hondenrassen op hoge breedtegraden, zoals de Siberische Husky, een deel van hun voorouders herleiden tot de uitgestorven wolvenpopulatie die wordt vertegenwoordigd door het Taimyr-dier [115].

Een ander belangrijk paleogenoomonderzoek, dat een jaar na de Taimyr-wolvenpaper werd gepubliceerd, beschreef een hoge dekkingsgraad (

28×) nucleair genoom van een laat-neolithisch (4,8 kya) huishondspecimen uit Newgrange, een monumentaal grafgraf in het oosten van Ierland [10]. Analyses van het oude Newgrange-hondengenoom, aanvullende mtDNA-genomen van oude Europese honden en moderne SNP-gegevens over het hele genoom van wolven en honden suggereerden dat honden in het laat-Pleistoceen onafhankelijk werden gedomesticeerd uit verschillende Oost- en West-Euraziatische wolvenpopulaties en dat Oost-Euraziatische honden, migrerend naast mensen op een bepaald moment tussen 6,4 en 14 kya, vervingen gedeeltelijk inheemse Europese honden [10]. In 2017, na publicatie van het Newgrange-hondengenoom, genereerden Laura Botigué en collega's twee

9× dekking binnenlandse hond nucleaire genomen van Early (Herxheim,

7 kya) en Late (Cherry Tree Cave,

4.7 kya) Neolithische vindplaatsen in het huidige Duitsland [11]. Vergelijking van deze twee oude hondengenomen met bijna 100 moderne volledige genomen van honden en een grote genoom-brede SNP-dataset van moderne honden en wolven ondersteunde de door Frantz et al voorgestelde dubbele domesticatie-hypothese niet. een jaar eerder [10], of de voorgestelde Oost-Euraziatische gedeeltelijke vervanging van laat-paleolithische of vroeg-neolithische Europese honden.

De oorsprong en het lot van de gedomesticeerde hondenpopulaties van Amerika voorafgaand aan contact met Europese en Afrikaanse volkeren is het onderwerp geweest van een recent paleonomics-onderzoek waarbij oude en moderne honden werden vergeleken. Máire Ní Leathlobhair en collega's hebben 71 mitochondriale en zeven nucleaire genomen van oude Noord-Amerikaanse en Siberische honden gesequenced [118]. Vergelijkende populatiegenomics-analyses van deze gegevens toonden aan dat de eerste Amerikaanse huishonden hun voorouders niet konden herleiden tot Amerikaanse wolven. In plaats daarvan vertegenwoordigen deze pre-contact Amerikaanse honden (PCD's) echter een duidelijke afstamming die vanuit Noordoost-Azië over de Beringiaanse steppe migreerde met mensen van meer dan 10 kya [118]. Deze analyses toonden ook aan dat PCD-populaties bijna volledig werden vervangen door Europese honden als gevolg van grootschalige kolonisatie van Noord- en Zuid-Amerika in de afgelopen 500 jaar. Op een vergelijkbare manier als de demografische transitie na contact met mensen in Amerika [119, 120], veronderstellen de auteurs dat infectieziekten waarschijnlijk een belangrijke rol hebben gespeeld bij de vervanging van PCD's door Europese honden. Ten slotte laten ze ook zien dat het genoom van de canine overdraagbare geslachtstumor (CTVT) kankerlijn, die is geëvolueerd tot een obligate soortgenoten aseksuele parasiet [121], het nauwste genomische familielid is van de eerste Amerikaanse honden.

Zoals eerder is opgemerkt, is het begrijpen van de oorsprong en vroege gedomesticeerde geschiedenis van honden bemoeilijkt door knelpunten in de populatie, uitbreidingen, lokale uitstervingen en vervangingen en geografisch gelokaliseerde gene flow onder wolven en honden en genetisch verschillende hondenpopulaties [8]. Het zal daarom systematische grootschalige opvraging en analyse van oude genomen van wolven en honden in ruimte en tijd vereisen om de evolutionaire geschiedenis van het eerste gedomesticeerde dier nauwkeurig te reconstrueren [122]. Deze en soortgelijke ondernemingen voor andere gedomesticeerde soorten zullen echter aanzienlijk worden vergemakkelijkt door een andere recente technische doorbraak die hieronder wordt beschreven.

In 2014 toonde een team van Ierse genetici en archeologen aan dat het rotsachtige deel van het slaapbeen - het dichtste bot in het skelet van zoogdieren - in sommige gevallen de hoogste opbrengsten aan endogeen DNA produceerde, tot 183 keer hoger dan andere skeletelementen [ 123]. De impact van deze ontdekking was zo groot dat de oude DNA-gemeenschap de periode vóór 2014 nu "BP" ("vóór petrous") noemt [124]. Gedurende de laatste 5 jaar heeft DNA-extractie uit rotsbeenderen, in combinatie met voortdurend verbeterende HTS en ondersteunende technologieën, geleid tot een dramatische opschaling van de menselijke archeogenetica, waarvan de voorhoede nu het statistisch rigoureuze veld van populatie-palogenomica met hoge resolutie is. [82, 125.126.127.128.129]. Een ander opmerkelijk resultaat is een aanzienlijke toename van het aandeel van het aardoppervlak waar archeologische opgravingen geschikt materiaal kunnen blootleggen voor succesvolle aDNA-extractie en paleonomica-analyse. Voorheen was aDNA-onderzoek voor het grootste deel beperkt tot regio's van de wereld waar klimaat en topografie bevorderlijk waren voor tafonomisch behoud van skelet-DNA (Fig. 3) [90, 130]. De afgelopen jaren zijn echter met succes menselijke paleonomics-onderzoeken uitgevoerd met monsters uit droge, subtropische en zelfs tropische zones [131,132,133,134,135,136,137,138,139,140,141,142].

Geografie van archeologische DNA-overleving voorafgaand aan de ontdekking van een hoog endogeen DNA-gehalte in het rotsbeen van zoogdieren. een Verwachte DNA-overleving na 10.000 jaar voor fragmenten van 25 bp en fragmenten van 150 bp dicht bij het grondoppervlak (aangepast met toestemming van [90]). B Illustratie van een schaap (Ovis Ram) rotsbeen teruggevonden op een Midden-neolitische vindplaats in Le Peuilh, Frankrijk (aangepast met toestemming van [269])


2010 markeert de 10e verjaardag van de voltooiing van de eerste genoomsequentie van planten (Arabidopsis thaliana). Geactiveerd door vooruitgang in sequentietechnologieën, zijn er veel genoomsequenties van gewassen geproduceerd, waarvan er sinds 2008 acht zijn gepubliceerd. Tot op heden zijn echter alleen de rijst (Oryza sativa) genoomsequentie is afgewerkt tot een kwaliteitsniveau vergelijkbaar met dat van de Arabidopsis volgorde. Deze trend om conceptgenomen te produceren zou van invloed kunnen zijn op het vermogen van onderzoekers om biologische vragen over soortvorming en recente evolutie aan te pakken of om sequentievariatie nauwkeurig te koppelen aan fenotypes. Hier bekijken we de huidige sequentiebepalingsactiviteiten van het gewasgenoom, bespreken we hoe variabiliteit in sequentiekwaliteit het nut voor verschillende onderzoeken beïnvloedt en bieden we een perspectief voor een paradigmaverschuiving bij het selecteren van gewassen voor sequencing in de toekomst.

We gebruiken cookies om onze service te bieden en te verbeteren en om inhoud en advertenties aan te passen. Door verder te gaan ga je akkoord met de gebruik van cookies .


Conclusie

In dit rapport hebben we beschreven hoe NGS-gegevens worden verzameld en geanalyseerd. We toonden aan dat het mechanisme van NGS geen fundamentele afwijking is van zijn voorganger, maar eerder een verbeterde en geschaalde versie van Sanger-sequencing die een verbluffende toename van de gegevenskwaliteit en doorvoer mogelijk maakt. We stellen dat minimale diepte een betere weerspiegeling is van het variant-call-vertrouwen van een test dan gemiddelde diepte, en demonstreren dat SNP's, indels en del/dups met vertrouwen kunnen worden geïdentificeerd met behulp van intuïtieve analysetechnieken. Onze eerste hoop is dat we op NGS gebaseerde genetische tests toegankelijker kunnen maken voor patiënten door de innerlijke werking van de technologie zelf toegankelijker te maken voor beoefenaars van genetische geneeskunde.


Achtergrond

Hi-C, een methode voor het kwantificeren van fysieke interacties op lange afstand in het genoom, werd geïntroduceerd door Lieberman-Aiden et al. [1], en het werd besproken in Dekker et al. [2]. Een Hi-C-assay levert een zogenaamde genoomcontactmatrix op, die bij een bepaalde resolutie bepaald door sequencingdiepte de mate van interactie tussen twee loci in het genoom meet. In de afgelopen 5 jaar zijn er aanzienlijke inspanningen geleverd om Hi-C-kaarten te verkrijgen met steeds hogere resoluties [3-8]. Momenteel zijn de kaarten met de hoogste resolutie 1 kb [7]. Bestaande Hi-C-experimenten zijn grotendeels uitgevoerd in cellijnen of voor monsters waar onbeperkt inputmateriaal beschikbaar is.

In Lieberman Aiden et al. [1] werd vastgesteld dat het genoom op megabaseschaal is verdeeld in twee compartimenten, de zogenaamde A/B-compartimenten. Interacties tussen loci zijn grotendeels beperkt tot optreden tussen loci die tot hetzelfde compartiment behoren. Het A-compartiment bleek geassocieerd te zijn met open chromatine en het B-compartiment met gesloten chromatine. Lieberman Aiden et al. [1] toonde ook aan dat deze compartimenten celtype-specifiek zijn, maar beschreef de verschillen tussen celtypes in het genoom niet volledig. In het meeste latere werk met behulp van de Hi-C-assay hebben de A/B-compartimenten weinig aandacht gekregen, de focus lag grotendeels op het beschrijven van kleinere domeinstructuren met behulp van gegevens met een hogere resolutie. Onlangs werd aangetoond dat 36% van het genoom van compartiment verandert tijdens de ontwikkeling van zoogdieren [8] en dat deze compartimentveranderingen geassocieerd zijn met genexpressie. Ze concluderen "dat de A- en B-compartimenten een bijdragende maar niet deterministische rol spelen bij het bepalen van het celtype -specifieke patronen van genexpressie”.

De A/B-compartimenten worden geschat door een eigenvectoranalyse van de genoomcontactmatrix na normalisatie volgens de waargenomen-verwachte methode [1]. In het bijzonder treden grensveranderingen tussen de twee compartimenten op waar de ingangen van de eerste eigenvector van teken veranderen. De waargenomen-verwachte methode normaliseert banden van de genoomcontactmatrix door te delen door hun gemiddelde. Dit standaardiseert effectief interacties tussen twee loci gescheiden door een bepaalde afstand door de gemiddelde interactie tussen alle loci gescheiden door dezelfde hoeveelheid. Het is van cruciaal belang dat de genoomcontactmatrix op deze manier wordt genormaliseerd, zodat de eerste eigenvector de A/B-compartimenten oplevert.

Open en gesloten chromatine kunnen op verschillende manieren worden gedefinieerd met behulp van verschillende assays zoals DNase-overgevoeligheid of chromatine-immunoprecipitatie (ChIP) -sequencing voor verschillende histon-modificaties. Terwijl Lieberman-Aiden et al. [1] vaststelde dat het A-compartiment geassocieerd is met open chromatineprofielen van verschillende testen, waaronder overgevoeligheid voor DNase, werd niet bepaald in welke mate deze verschillende datatypes dezelfde onderliggende fenomenen meten, inclusief of de domeingrenzen geschat met verschillende testen samenvallen met het genoom -breed.

In dit manuscript laten we zien dat we op betrouwbare wijze A/B-compartimenten kunnen schatten zoals gedefinieerd met behulp van Hi-C-gegevens door Illumina 450 k DNA-methylatie-microarray-gegevens [9] te gebruiken, evenals DNase-overgevoeligheidssequencing [10, 11], eencellig geheel -genoom bisulfiet sequencing (scWGBS) [12] en single-cell assay voor transposase-toegankelijke chromatine (scATAC) sequencing [13]. Gegevens van de eerste twee tests zijn algemeen beschikbaar voor een groot aantal celtypen. In het bijzonder is de 450 k-array gebruikt om een ​​groot aantal primaire monsters te profileren, waaronder veel menselijke kankers. Meer dan 20.000 monsters zijn direct beschikbaar via de Gene Expression Omnibus (GEO) en The Cancer Genome Atlas (TCGA) [14]. We laten zien dat onze methoden celtypeverschillen kunnen herstellen. Dit werk maakt het mogelijk om A/B-compartimenten uitgebreid te bestuderen in vele celtypen, inclusief primaire monsters, en om de relatie tussen genoomcompartimentering en transcriptionele activiteit of andere functionele uitlezingen verder te onderzoeken.

Als toepassing laten we zien hoe de somatische mutatiesnelheid in prostaatadenocarcinoom (PRAD) verschilt tussen compartimenten en we laten zien hoe de A/B-compartimenten veranderen tussen verschillende menselijke kankers. Momenteel bevat TCGA geen tests die de toegankelijkheid van chromatine meten. Bovendien onthult ons werk niet-gewaardeerde aspecten van de structuur van lange-afstandscorrelaties in DNA-methylatie en DNase-overgevoeligheidsgegevens. In het bijzonder zien we dat zowel DNA-methylatie als het DNase-signaal sterk gecorreleerd zijn tussen verre loci, op voorwaarde dat de twee loci zich beide in het gesloten compartiment bevinden.


Voordat we de verschillen tussen de twee machines onderzochten, wilden we de mogelijkheid uitsluiten dat het grotere aantal duplicaten dat door de HiSeq 4000 werd gedetecteerd eenvoudigweg het gevolg was van het sequencen van meer di-tags – dwz hoe meer een monster werd gesequenced, hoe groter de kans dat elke gegeven read was een duplicaat. Om dit te controleren, werd het HiSeq 4000 FASTQ-bestand willekeurig verkleind tot hetzelfde aantal reads als gevonden in het bestand dat door de HiSeq 2500 werd gegenereerd. Tijdens de HiCUP-verwerking werd 25% van de di-tags nu weggegooid tijdens de ontdubbelingsstap, nog steeds veel meer dan de weggegooide 2% dan bij het verwerken van de HiSeq 2500-gegevens.
Om de mogelijke oorzaak van de duplicatie te onderzoeken, analyseerden we de ruimtelijke verdeling van dubbele di-tags op de stroomcellen. Voor beide machines waren de duplicaten op een uniforme manier verspreid en vertoonden ze geen significante duplicatie "hotspots". Hoewel duplicaten niet waren gelokaliseerd in bepaalde regio's van een stroomcel, was het nog steeds mogelijk dat, in het algemeen, dubbele di-tags samen met hun exacte kopieën waren gelokaliseerd. Om deze hypothese te testen, identificeerden we di-tags die aanwezig waren in twee exemplaren en registreerden we of ze werden toegewezen aan één of twee tegels (elke Illumina-stroomcel omvat meerdere tegels). Opvallend is dat 1% van de HiSeq 2500-duplicaten di-tags bevatten die afkomstig zijn van dezelfde tegel. Daarentegen bevond 92% van de dubbele paren zich op een enkele tegel voor de HiSeq 4000. Deze nabijheid suggereert dat de duplicaten die werden waargenomen op de HiSeq 4000 grotendeels machinespecifieke artefacten waren.

Om deze tweedimensionale scheiding verder te karakteriseren, hebben we duplicaten geëxtraheerd die zich op slechts één tegel hebben gelokaliseerd en vervolgens de relatieve positie van een di-tag tot het exacte duplicaat hebben vastgelegd (dit is mogelijk omdat FASTQ-bestanden de coördinaten van elk cluster vastleggen). De onderstaande figuren tonen deze bevindingen als dichtheidsgrafieken (voor elke di-tag werd één aflezing gespecificeerd als de oorsprong en de grafiek toont de relatieve positie van de "andere uiteinden" ten opzichte van de oorsprong).

Voor de HiSeq 2500 is er over het algemeen een uniforme verdeling over het perceel, behalve voor een gebied met een hoge dichtheid in de buurt van de oorsprong. Deze verhoogde dichtheid rond de oorsprong is veel meer uitgesproken bij het analyseren van de HiSeq 4000-gegevens, waarin bijna alle andere uiteinden zich in deze regio bevinden. We veronderstellen dat de andere uiteinden die ver van de oorsprong zijn gepositioneerd, echte biologische duplicaten of experimentele PCR-duplicaten zijn. Daarentegen is de kans groter dat die andere uiteinden dicht bij de oorsprong door de machine zelf worden gegenereerd. Nogmaals, dit wijst erop dat de HiSeq 4000 meer duplicatie-artefacten genereert.
Vervolgens hebben we onderzocht of dergelijke duplicaten op de HiSeq 4000 beperkt waren tot aangrenzende nanowells of meerdere nanowells in hetzelfde lokale gebied van een stroomcel. Hoewel we geen directe informatie konden verkrijgen met betrekking tot het FASTQ-coördinatensysteem met individuele nanowells, was het mogelijk, door een dichtheidsplot van het gebied direct rond de oorsprong te maken, om de geordende array van de HiSeq 4000-stroomcel te visualiseren. De plot laat duidelijk zien dat duplicaten worden gevonden in meerdere putten rond de oorsprong, en deze trend neemt af naarmate men zich van de oorsprong verwijdert. Hieronder wordt ook dezelfde plot weergegeven, maar van de HiSeq 2500-gegevens. Zoals verwacht is er geen patroon van nanowells zichtbaar.


De noodzaak van barcodes

Taxonomie van levende wezens is gemaakt door Carl von Linné, die het formaliseerde door een binomiaal classificatiesysteem te gebruiken om organismen te differentiëren. Binominale nomenclatuur werd gebruikt om een ​​geslacht en een soortnaam aan elk organisme te beschrijven om een ​​identiteit te verschaffen. Tegenwoordig wordt de classificatie van organismen steeds belangrijker als een maatstaf voor diversiteit in het licht van de vernietiging van habitats en de wereldwijde klimaatverandering. Er is geen consensus over hoeveel levensvormen er op deze planeet bestaan, maar de geschatte uitstervingssnelheid is ongeveer 1 soort per 100-1000 miljoen soorten. Classificatie in Linnès-dag gebeurde meestal op basis van morfologische verschillen. Dit werd voortgezet in fossielen. Morfologie heeft echter veel nadelen, vooral bij seksueel dimorfe soorten of soorten met meerdere ontwikkelingsmorfologieën.

Larve (boven) van de Groene Gaasvlieg en de adult (onder).

Moleculaire biologie en DNA-technologieën hebben een revolutie teweeggebracht in het classificatiesysteem van levende wezens, vooral door de mogelijkheid te bieden om verwantschap van deze soorten te evenaren. DNA-barcodering , zoals de naam al aangeeft, probeert DNA-markers te gebruiken om organismen differentieel te identificeren. Maar welke DNA-markers moeten worden gebruikt? Welke criteria gebruiken we om barcodes te ontwikkelen? Discriminatie, Universaliteit en Robuustheid zijn de criteria die worden gebruikt om het nut van barcodes te definiëren.

Aangezien het doel van barcodes is om specifieke organismen te definiëren, is discriminatie de hoofddoel. Discriminatie verwijst naar het verschil in sequenties die voorkomen tussen soorten. Wetenschap is echter gemakkelijker als er enige universaliteit is in de plaats die wordt gebruikt voor discriminatie. Zoals het klinkt, universaliteit is een poging om dezelfde locus te gebruiken in ongelijksoortige genomen. Terwijl discriminatie gaat over de uniciteit van sequenties, streeft universaliteit naar het gebruik van een enkele set PCR-primers die in staat zullen zijn om datzelfde afzonderlijke gebied te amplificeren met variabele sequentie-overeenkomst. Als een bepaald DNA-gebied absoluut geen sequentie-afwijking tussen soorten heeft, heeft dit een grote universaliteit, maar een slecht onderscheidingsvermogen. Maar als een sequentie een zeer lage sequentieovereenkomst heeft, is dit geweldig voor discriminatie, maar het heeft absoluut geen universaliteit en kan niet worden geamplificeerd met dezelfde set primers. robuustheid verwijst naar de betrouwbaarheid van PCR-amplificatie van een regio. Sommige DNA-gebieden amplificeren gewoon niet goed of het is te moeilijk om geschikte en unieke primers voor die locus te ontwerpen.

Een geval waar er universaliteit is voor het ontwerpen van primers, maar geen gebied waar discriminatie kan optreden. Hoewel er in deze situatie onderscheid kan worden gemaakt tussen verschillende organismen, zou het gebrek aan overeenstemming in sequentie het moeilijk maken om primers te ontwerpen. Dat wil zeggen, het gebrek aan universaliteit in volgorde zou deze PCR ook niet robuust maken. Voldoende variabiliteit in deze sequenties geeft ons het vermogen om onderscheid te maken tussen soorten. De hoge gelijkenis biedt ons de universaliteit die nodig is om primers te ontwerpen die robuust genoeg kunnen zijn om door PCR te amplificeren.

Soms lijken soorten voor één sequentie zo op elkaar dat een tweede marker nodig is. Just as the standard UPC barcode has a series of vertical line of different spacing and width, a 2-dimensional barcode adds that second dimension of information into a square of dots like in a QR code (Quick Response code). We can also utilize a second or a third or a fourth set of loci that will aid in increased discrimination just as CoDIS utilizes multiple STR sites to define individual people. In animals, the most commonly used barcode is the mitochondrial gene, Cytochrome Oxidase I ( COI ). Since all animals have mitochondria and have this mitochondrial gene, it offers high universality. It is a robust locus that is easy to amplify and has high copy number with enough sequence deviation between species to discriminate between them.

Animal mitochondrial genomes vary from 16kb-22kb. However, plants, fungi and protists have wildly different and larger mitochondrial genomes. For plants, we use a chloroplast gene, ribulose-bisphosphate carboxylase large subunit ( rbcL ) or maturase K ( matK ) (Hollingsworth et al. 2011). Prokaryotes are often discriminated by their 16s rRNA gene while eukaryotes can be identified by 18s rRNA. COI (a maternally transmitted gene) will not create a clear picture of species identity in the case of hybrid animals (mules, ligers, coydogs, etc.). Sometimes, closely related species are also indistinguishable by a single barcode, so the inclusion of 18s with COI may be necessary to define the identity of the species. Since it is so difficult to meet the three criteria (robustness, universality and discrimination) for all species, having these multiple barcodes is important. Fungi prove to be difficult in identification by COI, so another marker called the internal transcribed spacer ( ZIJN ) is used to aid in their identification. We must also remember that not everything with chloroplasts are plants and therefore additional markers are used to identify protists.

Mixtures of organisms

Lichens are composite organisms composed of cyanobacteria or other algae with fungi. In this case, a single barcode would incorrectly identify the species. Kefir granules represent colonies of mixed microbes that are used to generate kefir. Credit: A. Kniesel (CC-BY-SA 3.0) A symbiotic colony of bacteria and yeast is used to ferment kombucha. As the name implies, this is a complex composite colony of multiple species that contribute to the qualities of the kombucha. Credit: Lukas Chin (CC-BY-SA 4.0)

Metabarcoding and Microbiomes


Bekijk de video: 75 Days CSIR-UGC NET Crash Course. Next Generation Sequencing Method. Unacademy Live CSIR UGC NET (Januari- 2022).