Informatie

Substitutiesnelheid van neutrale mutaties simuleren


Ik probeer een populatie computationeel te simuleren op basis van het Wright-Fisher-model. Ik zou graag tot het klassieke resultaat van de neutrale theorie van moleculaire evolutie willen komen dat de snelheid van neutrale substitutie gelijk is aan de snelheid van mutatie. De resultaten van mijn simulaties laten dat echter nooit zien. Ik zal in het kort mijn simulatieproces uitleggen en hoe ik de mutatie- en substitutiepercentages bereken. Laat het me weten als er iets mis is in mijn procedure.

Ik heb een niet-gestructureerde haploïde populatie die groeit in discrete tijdstappen. Ik begin met een populatie van N individuen in een omgeving met draagkracht K. Ik gebruik een K-allel-mutatiemodel. Bij elke generatie zal elk individu n nakomelingen voortbrengen en zal het onmiddellijk daarna sterven. Een u-fractie van nakomelingen wordt willekeurig gekozen om in elke generatie een enkele mutatie te hebben (u is de mutatiesnelheid per gen per generatie). Bij elke generatie noteer ik hoeveel mutaties er zijn opgetreden en hoeveel mutaties fixatie hebben bereikt in de populatie (bereikte frequentie van meer dan 99% van de individuen). De mutatiesnelheid en substitutiesnelheid per generatie wordt dus berekend als respectievelijk het aantal mutaties en het aantal substituties gedeeld door de populatiegrootte. Met deze opzet, zelfs met honderden herhalingen, zal de fixatiesnelheid nooit zo groot zijn als de mutatiesnelheid u.

Waar zit volgens jou het probleem? Ik heb hier veel mee geworsteld en ik waardeer alle hulp.

Bewerken: mijn code is geschreven in Python. Dit is mijn pseudo-code:

Parameters: populatiegrootte, genoomgrootte, mutatiesnelheid, generatienummer, fixatiedrempel. "Population_size: hier is het 1500 Genome_size: het aantal loci dat kan worden gemuteerd. Elke locus kan worden gemuteerd naar elk van ACTG. Hier 10^4 Mutation_rate: aantal mutaties per genoom per generatie. Hier 0.05 Generation_number: Het aantal generaties dat de populatie groeit. Hier 1000 Fixation_threshold: De fractie van individuen met een allel in de populatie zodat het allel als vast wordt beschouwd. Hier 0.99 "De initiële populatie wordt gecreëerd. Alle individuen zijn hetzelfde zonder mutaties. Er wordt een vector gemaakt om het aantal mutaties vast te houden en een vector om het aantal fixaties vast te houden. Voor elke generatie: ik bepaal hoeveel individuen in elke generatie moeten worden gemuteerd. Hier 8. Ik kies willekeurig (uniform met vervanging) de individuen die gemuteerd moeten worden. Voor elk individu in de populatie: Het zal een nakomeling opleveren. Het nageslacht erft het genoom van zijn ouder, d.w.z. de mutaties van de ouder. Als het individu een van degenen is die moet worden gemuteerd, ontvangt het nageslacht een mutatie die willekeurig wordt gekozen. De mutatie kan een terugmutatie zijn Het individu zal overlijden Ik noteer het aantal mutaties dat is opgetreden (in dit geval zullen het er altijd 8 zijn) Ik noteer elke mutatie met een frequentie in de populatie van meer dan 0,99 individuen. Dit is het aantal fixaties

Ik voer deze code minstens 100 keer uit. Ik verwacht dat het gemiddelde aantal fixaties gelijk zal zijn aan het gemiddelde aantal mutaties in elke generatie, of ze convergeren over generaties. Omdat de neutrale evolutietheorie van Kimura voorspelt dat voor neutrale plaatsen in het genoom de substitutiesnelheid gelijk is aan de mutatiesnelheid.


Dit werd gewoon te groot voor een opmerking en ik denk dat het misschien in aanmerking komt als een antwoord.

Kun je me een bron geven van wat je leest? Volgens deze, die overeenkomt met de definities die u gebruikt, K=(Nu)/N=u waarbij K de substitutiesnelheid is, u de mutatiesnelheid in de populatie is, Nu de individuele mutatiesnelheid is en N de populatiegrootte is .

Ik ging terug naar Kimura's originele artikel in Nature in 1968 en hij leidt af dat u(p), de substitutiesnelheid in de populatie, (bijna exact) hetzelfde is als de mutatiesnelheid in een individu(p). Maar dit volgt uit een ander artikel (productieve man) waarin hij laat zien dat de fixatiekans voor een bepaald allel ongeveer 1/N is, waarbij N de populatiegrootte is. Uw individuele mutatiesnelheid in uw model is niet u, maar Nu.

Je verwart de mutatie/substitutiesnelheid in de populatie, die wordt gebruikt voor moleculaire klokken en andere dingen, en de individuele mutatiesnelheid. Als de moleculaire mutatiesnelheid bijvoorbeeld 1/20 is (zoals je aanneemt in je model), dan verwacht je in wezen een fixatiesnelheid per mutatie van 1. Als de substitutiesnelheid hetzelfde zal zijn als de moleculaire mutatiesnelheid, moet elke afzonderlijke mutatie fixatie bereiken. Als dezelfde locus twee keer muteert in dezelfde generatie (heel goed mogelijk met genoeg individuen), dan moeten beide op de een of andere manier fixatie bereiken, ook al zal de eerste die fixatie bereikt noodzakelijkerwijs de andere vernietigen.

Ik hoop dat dat je helpt uit te zoeken waarom Nu nooit gelijk zal zijn aan K, en dat het helpt om de resultaten van je model logisch te maken.

(zijbalk: Nu is niet de ruwe moleculaire mutatiesnelheid, maar de individuele mutatiesnelheid, die in feite hoger is omdat de gemiddelde menselijke gameet tijdens het opgroeien naar volwassenheid betrokken is bij ongeveer 50 celdelingen, wat leidt tot nog een paar mutaties per persoon.)


Ik begrijp niet helemaal hoe jouw model werkt

Ik begrijp niet helemaal hoe je je populatie modelleert. Is het een standaard $oop$ (objectgeoriënteerd programmeren) waarbij je elk individu simuleert? Of is het een simulatie waarbij je al een wiskundig model gebruikt? Je zou uiteindelijk je code kunnen kopiëren en plakken. het is waarschijnlijk niet erg lang, toch? Welke taal heb je gebruikt? Heb je maar één locus? Simuleer je meerdere posities binnen deze locus? Staat u rugmutaties toe?

Het lijkt erop dat je de populatiegrootte in de loop van de tijd laat veranderen en ik begrijp niet helemaal hoe je parameter $K$ de groeisnelheid wel beperkt. Daarover zou je wat vergelijkingen moeten opschrijven. In ieder geval zal verandering in populatiegrootte de waarschijnlijkheid van mutatiefixatie wijzigen.

Hier zijn waarschijnlijk enkele belangrijke wijzigingen die u aan uw code kunt doen:

Het is een beetje moeilijk om commentaar te geven op je simulaties zonder een aantal vergelijkingen te zien of de code te zien, maar ik denk echt dat je twee belangrijke wijzigingen in je code nodig hebt.

  1. fix populatiegrootte $N$.
  2. Om reproductie te simuleren, kiest u willekeurig (uniforme verdeling) individuen (met vervanging) uit de populatie. De uitverkoren individuen vormen de nieuwe generatie. Bijvoorbeeld:

In R:

nieuwe_pop = voorbeeld(oude_pop, N, vervangen=T)

of direct

pop = voorbeeld (pop, N, vervang = T)

In Python:

uit willekeurige import randrange new_pop = [] for i in xrange(N): new_pop.append(old_pop[randrange(N)])

Als je je resultaten krijgt, vergeet dan niet dat je het hebt over een stochastisch proces en dat je misschien genoeg simulatie of genoeg onafhankelijke loci wilt uitvoeren om te kunnen vergelijken met de voorspellingen van wiskundige modellen.


Neutrale gentheorie

De neutrale theorie is een nuttig instrument geworden voor het opsporen van darwinistische natuurlijke selectie op moleculair niveau. Dit komt omdat kwantitatieve voorspellingen beschikbaar zijn onder de theorie. Verschillende afwijkingen van de voorspelling worden geïnterpreteerd als het optreden van selectie. Een zeer populaire benadering is om de patronen van synonieme en niet-synonieme substituties in de evolutie van eiwitcoderende regio's te vergelijken. Snelle aminozuursubstituties in vergelijking met synonieme veranderingen worden bijvoorbeeld beschouwd als tekenen van positieve selectie. Ook worden verschillende pogingen ondernomen om patronen van DNA-polymorfismen te onderzoeken. In het bijzonder zijn de vergelijkingen van polymorfismen binnen een populatie en verschillen tussen nauw verwante soorten uitgevoerd om de effecten van natuurlijke selectie te achterhalen.


Inhoud

Charles Darwin becommentarieerde het idee van neutrale mutatie in zijn werk, met de hypothese dat mutaties die geen voor- of nadeel opleveren, kunnen fluctueren of vast komen te zitten los van natuurlijke selectie. Variaties die noch nuttig noch schadelijk zijn, zouden niet worden beïnvloed door natuurlijke selectie, en zouden ofwel een fluctuerend element blijven, zoals we misschien zien bij bepaalde polymorfe soorten, of zouden uiteindelijk vast worden, vanwege de aard van het organisme en de aard van de voorwaarden." Hoewel Darwin alom wordt gecrediteerd voor het introduceren van het idee van natuurlijke selectie, dat de focus van zijn studies was, zag hij ook de mogelijkheid voor veranderingen die een organisme niet ten goede of nadelige gevolgen hadden. [1]

Darwins visie dat verandering voornamelijk wordt aangedreven door eigenschappen die voordeel opleveren, werd tot de jaren zestig algemeen aanvaard. [2] Tijdens het onderzoek naar mutaties die nucleotidesubstituties produceren in 1968, ontdekte Motoo Kimura dat de substitutiesnelheid zo hoog was dat als elke mutatie de conditie zou verbeteren, de kloof tussen het meest geschikte en typische genotype onwaarschijnlijk groot zou zijn. Kimura verklaarde echter deze snelle mutatiesnelheid door te suggereren dat de meeste mutaties neutraal waren, d.w.z. weinig of geen effect hadden op de fitheid van het organisme. Kimura ontwikkelde wiskundige modellen van het gedrag van neutrale mutaties die onderhevig zijn aan willekeurige genetische drift in biologische populaties. Deze theorie is bekend geworden als de neutrale theorie van de moleculaire evolutie. [3]

Omdat technologie een betere analyse van genomische gegevens mogelijk heeft gemaakt, is het onderzoek op dit gebied voortgezet. Hoewel natuurlijke selectie aanpassing aan een veranderende omgeving kan stimuleren, kan neutrale mutatie de divergentie van soorten stimuleren als gevolg van bijna willekeurige genetische drift. [2]

Neutrale mutatie is een onderdeel geworden van de neutrale theorie van moleculaire evolutie, voorgesteld in de jaren zestig. Deze theorie suggereert dat neutrale mutaties verantwoordelijk zijn voor een groot deel van de DNA-sequentieveranderingen in een soort. Zo kunnen runder- en humane insuline, hoewel ze verschillen in aminozuursequentie, nog steeds dezelfde functie vervullen. De aminozuursubstituties tussen soorten werden daarom gezien als neutraal of niet van invloed op de functie van het eiwit. Neutrale mutatie en de neutrale theorie van moleculaire evolutie staan ​​niet los van natuurlijke selectie, maar dragen bij aan Darwins oorspronkelijke gedachten. Mutaties kunnen een voordeel geven, een nadeel creëren of geen meetbaar verschil maken voor de overleving van een organisme. [4]

Een aantal waarnemingen geassocieerd met neutrale mutatie werden voorspeld in de neutrale theorie, waaronder: aminozuren met vergelijkbare biochemische eigenschappen zouden vaker moeten worden vervangen dan biochemisch verschillende aminozuren synonieme basesubstituties zouden vaker moeten worden waargenomen dan niet-synonieme substituties introns zouden met dezelfde snelheid moeten evolueren als synonieme mutaties in coderende exons en pseudogenen zouden ook met een vergelijkbare snelheid moeten evolueren. Deze voorspellingen zijn bevestigd met de introductie van aanvullende genetische gegevens sinds de introductie van de theorie. [2]

Synoniem mutatie van basen

Wanneer een onjuist nucleotide wordt ingevoegd tijdens replicatie of transcriptie van een coderend gebied, kan dit de uiteindelijke vertaling van de sequentie in aminozuren beïnvloeden. Omdat voor dezelfde aminozuren meerdere codons worden gebruikt, kan een verandering in een enkele base toch leiden tot translatie van hetzelfde aminozuur. Dit fenomeen wordt degeneratie genoemd en maakt een verscheidenheid aan codoncombinaties mogelijk die ertoe leiden dat hetzelfde aminozuur wordt geproduceerd. De codes TCT, TCC, TCA, TCG, AGT en AGC coderen bijvoorbeeld allemaal voor het aminozuur serine. Dit kan worden verklaard door het wobble-concept. Francis Crick stelde deze theorie voor om uit te leggen waarom specifieke tRNA-moleculen meerdere codons konden herkennen. Het gebied van het tRNA dat het codon, het anticodon genaamd, herkent, kan vanwege zijn ruimtelijke vrijheid meerdere verwisselbare basen aan het 5'-uiteinde binden. Een vijfde base, inosine genaamd, kan ook op een tRNA worden gesubstitueerd en kan binden met A, U of C. Deze flexibiliteit zorgt voor veranderingen in basen in codons die leiden tot translatie van hetzelfde aminozuur. [5] Het veranderen van een base in een codon zonder het veranderen van het vertaalde aminozuur wordt een synonieme mutatie genoemd. Aangezien het vertaalde aminozuur hetzelfde blijft, wordt een synonieme mutatie traditioneel beschouwd als een neutrale mutatie. [6] Sommige onderzoeken hebben gesuggereerd dat er een bias is bij de selectie van basesubstitutie bij synonieme mutatie. Dit kan te wijten zijn aan selectieve druk om de translatie-efficiëntie te verbeteren die is gekoppeld aan de meest beschikbare tRNA's of gewoon door mutatiebias. [7] Als deze mutaties de translatiesnelheid of het vermogen van een organisme om eiwitten te produceren beïnvloeden, kunnen ze de fitheid van het aangetaste organisme zelfs beïnvloeden. [6]

Aminozuur biochemische eigenschappen niet-polair Polair Basis zuur Beëindiging: stopcodon
Standaard genetische code
1e
baseren
2e honk 3e
baseren
t C EEN G
t TTT (Phe/F) Fenylalanine TCT (Ser/S) Serine TAT (Tyr/Y) Tyrosine TGT (Cys/C) Cysteïne t
TTC TCC TAC TGC C
TTA (Leu/L) Leucine TCA TAA Stop (Oker) [B] TGA Stop (Opaal) [B] EEN
TTG [A] TCG LABEL Stop (Amber) [B] TGG (Trp/W) Tryptofaan G
C CTT CCT (Pro/P) Proline KAT (His/H) Histidine CGT (Arg/R) Arginine t
CTC CCC CAC CGC C
CTA CCA CAA (Gln/Q) Glutamine CGA EEN
CTG [A] CCG CAG CGG G
EEN ATT (Ile/I) Isoleucine HANDELING (Thr/T) Threonine AAT (Asn/N) Asparagine AGT (Ser/S) Serine t
ATC ACC AAC AGC C
ATA ACA AAA (Lys/K) Lysine AGA (Arg/R) Arginine EEN
ATG [A] (Met/M) Methionine ACG AAG AGG G
G GTT (Val/V) Valine GCT (Ala/A) Alanine GAT (Asp/D) Asparaginezuur GGT (Gly/G) Glycine t
AV GCC GAC GGC C
GTA GCA GAA (Glu/E) Glutaminezuur GGA EEN
GTG GCG GRAP GGG G
EEN Het codon ATG codeert beide voor methionine en dient als een initiatieplaats: het eerste ATG in het coderende gebied van een mRNA is waar de translatie in eiwit begint. [8] De andere startcodons die door GenBank worden vermeld, zijn zeldzaam bij eukaryoten en coderen over het algemeen voor Met/fMet. [9] B ^ ^ ^ De historische basis voor het aanwijzen van de stopcodons als amber, oker en opaal wordt beschreven in een autobiografie van Sydney Brenner [10] en in een historisch artikel van Bob Edgar. [11]

Neutrale aminozuursubstitutie

Hoewel vervanging van een base in een niet-coderend gebied van een genoom weinig verschil kan maken en als neutraal kan worden beschouwd, kunnen basensubstituties in of rond genen het organisme beïnvloeden. Sommige basensubstituties leiden tot synonieme mutatie en geen verschil in het aminozuur vertaald zoals hierboven vermeld. Een basensubstitutie kan echter ook de genetische code veranderen zodat een ander aminozuur wordt vertaald. Dit soort substitutie heeft meestal een negatief effect op het eiwit dat wordt gevormd en wordt door zuiverende selectie uit de populatie verwijderd. Als de verandering echter een positieve invloed heeft, kan de mutatie steeds vaker voorkomen in een populatie totdat het een vast genetisch onderdeel van die populatie wordt. Organismen die via deze twee opties veranderen, vormen de klassieke kijk op natuurlijke selectie. Een derde mogelijkheid is dat de aminozuursubstitutie weinig of geen positief of negatief verschil maakt voor het aangetaste eiwit. [12] Eiwitten vertonen enige tolerantie voor veranderingen in de aminozuurstructuur. Dit is enigszins afhankelijk van waar in het eiwit de substitutie plaatsvindt. Als het voorkomt in een belangrijk structureel gebied of op de actieve plaats, kan één aminozuursubstitutie de functionaliteit van het eiwit inactiveren of aanzienlijk veranderen. Vervangingen in andere gebieden kunnen bijna neutraal zijn en willekeurig in de loop van de tijd verlopen. [13]

Neutrale mutaties worden gemeten in populatie- en evolutionaire genetica, vaak door te kijken naar variatie in populaties. Deze zijn historisch gemeten door gelelektroforese om allozymfrequenties te bepalen. [14] Statistische analyses van deze gegevens worden gebruikt om variatie te vergelijken met voorspelde waarden op basis van populatiegrootte, mutatiesnelheden en effectieve populatiegrootte. Vroege waarnemingen die een hoger dan verwachte heterozygotie en algehele variatie binnen de bestudeerde eiwit-isovormen aangaven, leidden tot argumenten over de rol van selectie bij het handhaven van deze variatie versus het bestaan ​​van variatie door de effecten van het ontstaan ​​van neutrale mutaties en hun willekeurige verdeling als gevolg van genetische drift. [15] [16] [17] De accumulatie van gegevens op basis van waargenomen polymorfisme leidde tot de vorming van de neutrale evolutietheorie. [15] Volgens de neutrale evolutietheorie zal de snelheid van fixatie in een populatie van een neutrale mutatie direct gerelateerd zijn aan de snelheid van vorming van het neutrale allel. [18]

In Kimura's originele berekeningen, mutaties met |2 Ns|<1 of |s|≤1/(2N) zijn gedefinieerd als neutraal. [15] [17] In deze vergelijking is N de effectieve populatiegrootte en is het een kwantitatieve meting van de ideale populatieomvang die dergelijke constanten aanneemt als gelijke geslachtsverhoudingen en geen emigratie, migratie, mutatie of selectie. [19] Conservatief wordt vaak aangenomen dat de effectieve populatieomvang ongeveer een vijfde van de totale populatieomvang is. [20] s is de selectiecoëfficiënt en is een waarde tussen 0 en 1. Het is een meting van de bijdrage van een genotype aan de volgende generatie waarbij een waarde van 1 volledig zou worden geselecteerd en geen bijdrage zou leveren en 0 helemaal niet wordt geselecteerd. [21] Deze definitie van neutrale mutatie is bekritiseerd vanwege het feit dat zeer grote effectieve populatiegroottes mutaties met kleine selectiecoëfficiënten niet-neutraal kunnen laten lijken. Bovendien kunnen mutaties met hoge selectiecoëfficiënten in zeer kleine populaties neutraal lijken. [17] De toetsbare hypothese van Kimura en anderen toonde aan dat polymorfisme binnen soorten ongeveer hetzelfde is als verwacht zou worden in een neutraal evolutionair model. [17] [22] [23]

Voor veel moleculair-biologische benaderingen, in tegenstelling tot wiskundige genetica, wordt over het algemeen aangenomen dat neutrale mutaties die mutaties zijn die geen merkbaar effect hebben op de genfunctie. Deze vereenvoudiging elimineert het effect van kleine allelische verschillen in fitheid en voorkomt problemen wanneer een selectie slechts een klein effect heeft. [17]

Vroeg overtuigend bewijs van deze definitie van neutrale mutatie werd aangetoond door de lagere mutatiesnelheden in functioneel belangrijke delen van genen zoals cytochroom c versus minder belangrijke delen [24] en de functioneel uitwisselbare aard van zoogdiercytochroom c in in vitro studies. [25] Niet-functionele pseudogenen leveren meer bewijs voor de rol van neutrale mutaties in de evolutie. Het is aangetoond dat de mate van mutatie in globine-pseudogenen van zoogdieren veel hoger is dan in functionele genen.[26] [27] Volgens de neodarwinistische evolutie zouden dergelijke mutaties zelden voorkomen omdat deze sequenties functieloos zijn en positieve selectie niet zou kunnen werken. [17]

De McDonald-Kreitman-test [28] is gebruikt om selectie over lange perioden van evolutionaire tijd te bestuderen. Dit is een statistische test die polymorfisme op neutrale en functionele plaatsen vergelijkt en schat op welk deel van de substituties is gereageerd door positieve selectie. [29] De test gebruikt vaak synonieme substituties in eiwitcoderende genen als de neutrale component, maar het is aangetoond dat synonieme mutaties in veel gevallen onder zuiverende selectie staan. [30] [31]

Moleculaire klokken kunnen worden gebruikt om de hoeveelheid tijd sinds divergentie van twee soorten te schatten en om evolutionaire gebeurtenissen in de tijd te plaatsen. [32] Pauling en Zuckerkandl stelden in 1962 het idee van de moleculaire klok voor op basis van de waarneming dat het willekeurige mutatieproces met een ongeveer constante snelheid plaatsvindt. Van individuele eiwitten werd aangetoond dat ze lineaire snelheden van aminozuurveranderingen hebben gedurende de evolutionaire tijd. [33] Ondanks de controverse van sommige biologen die beweerden dat de morfologische evolutie niet met een constante snelheid zou verlopen, werd aangetoond dat veel aminozuurveranderingen zich op een constante manier ophopen. Kimura en Ohta verklaarden deze tarieven als onderdeel van het raamwerk van de neutrale theorie. Deze mutaties waren neutraal omdat positieve selectie zeldzaam zou moeten zijn en schadelijke mutaties snel uit een populatie zouden moeten worden geëlimineerd. [34] Door deze redenering zou de accumulatie van deze neutrale mutaties alleen beïnvloed moeten worden door de mutatiesnelheid. Daarom moet de neutrale mutatiesnelheid in individuele organismen overeenkomen met de moleculaire evolutiesnelheid in soorten gedurende de evolutionaire tijd. De neutrale mutatiesnelheid wordt beïnvloed door het aantal neutrale plaatsen in een eiwit- of DNA-sequentie versus de hoeveelheid mutatie op plaatsen die functioneel beperkt zijn. Door deze neutrale mutaties in eiwit en/of DNA te kwantificeren en te vergelijken tussen soorten of andere interessante groepen, kunnen verschillen worden bepaald. [32] [35]

Moleculaire klokken hebben voor controverse gezorgd vanwege de data die ze ontlenen aan gebeurtenissen zoals explosieve stralingen die worden waargenomen na uitstervingsgebeurtenissen zoals de Cambrische explosie en de straling van zoogdieren en vogels. Er bestaan ​​tweevoudige verschillen in data die zijn afgeleid van moleculaire klokken en het fossielenbestand. Terwijl sommige paleontologen beweren dat moleculaire klokken systemisch onnauwkeurig zijn, schrijven anderen de discrepanties toe aan een gebrek aan robuuste fossiele gegevens en vooringenomenheid bij het nemen van monsters. [36] Hoewel niet zonder constantheid en discrepanties met het fossielenarchief, hebben de gegevens van moleculaire klokken aangetoond hoe evolutie wordt gedomineerd door de mechanismen van een neutraal model en minder wordt beïnvloed door de werking van natuurlijke selectie. [32]


Resultaten

De fundamentele componentmodellen van onze simulator hebben elk toepassingen in training, simulatie en inferentie. We stellen voor dat een enkele coherente evolutietheorie, die deze drie aspecten omvat en verenigt, een uiterst wenselijke eigenschap is voor een simulatiekader. Er kan geen simulatie zijn zonder parameters, die moeten worden gemeten met behulp van een of ander model. De parameters worden meestal gemeten aan de hand van gegevens die moeten zijn uitgelijnd of geannoteerd met behulp van een model en de uitlijnings- of annotatietools moeten worden gebenchmarkt met behulp van simulaties, ook met behulp van een of ander model. Het gemeenschappelijke kenmerk van alle hier beschreven benaderingen, die we willen benadrukken, is dat alle drie deze modellen hetzelfde zijn: parameterschatting, annotatie en simulatie kunnen allemaal worden uitgevoerd met hetzelfde probabilistische model.

We beschrijven nu drie tools. GSIMULATOR genereert willekeurig uitlijningen van neutraal evoluerend DNA SIMGRAM genereert willekeurig uitlijningen van generiek gestructureerde kenmerken onder selectie en SIMGENOME combineert deze om willekeurig uitlijningen van syntenische regio's in genomen te genereren, met behulp van een redelijk gedetailleerd model van het landschap van genomische kenmerken. Al deze drie programma's, samen met voorbeelden van invoer-/uitvoerbestanden en gebruik van de opdrachtregel, zijn toegankelijk via de webpagina [37].

GSIMULATOR: een op transducer gebaseerde simulator voor neutraal evoluerend DNA

De GSIMULATOR-tool simuleert de neutrale evolutie van DNA op een fylogenetische boom. Langs elke tak worden substitutie- en insertie-deletiemutaties gemodelleerd met behulp van een contextafhankelijke transducer. De theorie van transducers is beschreven in eerder werk [21] en samengevat in de Materialen en methoden (zie 'Sampling from lexicalized transducers'). In wezen is een transducer een eindige-toestandsmachine, vergelijkbaar met een Pair hidden Markov-model ('Pair-HMM'), dat een reeks muteert door willekeurige substituties en indels te introduceren.

De GSIMULATOR-transducer is contextafhankelijk, wat betekent dat de vervanging en indel 'snelheden' afhankelijk zijn van het verleden K geabsorbeerde en uitgezonden symbolen, waarbij: K is een parameter die kan worden geconfigureerd. Het doel van het toestaan ​​van contextafhankelijkheid is het modelleren van lokale sequentieafhankelijke fluctuaties in substitutie- en indelsnelheden, zoals methylatie-afhankelijke CpG-deaminatie, microsatellietexpansie en -contractie, en 'micro-duplicaties' of 'micro-inversies' die overeenkomen met K nucleotiden of minder.

GSIMULATOR maakt ook flexibele modellering van spleetlengteverdelingen mogelijk, door: N meerdere gedegenereerde invoeg- en deletietoestanden, waarbij: N is een configureerbare parameter. In de afwezigheid van context-afhankelijkheid (dat wil zeggen, wanneer) K = 0), levert dit een mengsel van geometrische verdelingen op voor de lengtes van openingen. De distributie is ingewikkelder voor contextafhankelijke transducers (K ≥ 1), aangezien de lengte van de tussenruimte afhangt van de ingevoegde (of verwijderde) reeks.

Zoals met alle methoden die in dit artikel worden beschreven, is GSIMULATOR een trainbare simulator, wat betekent dat de parameters direct kunnen worden geschat op basis van paarsgewijze uitlijningsgegevens (en niet hoeven te worden 'geschat' door een gebruiker). Compositionele vooroordelen van genvoorspellers, aligners, motiefzoekers en andere annotatietools kunnen buitengewoon gevoelig zijn voor de onderliggende evolutionaire statistieken, dus deze functie is uiterst belangrijk voor een robuuste simulator.

SIMGRAM: een simulatietool voor phylo-grammatica

De SIMGRAM-tool genereert voorbeelduitlijningen van een door de gebruiker gespecificeerde fylogenetische contextvrije grammatica, of 'phylo-grammatica'. In tegenstelling tot de transducers die door GSIMULATOR worden gebruikt, kunnen de phylo-grammatica van SIMGRAM genoomkenmerken modelleren onder fijn gestructureerde selectie, inclusief coördinatie van de relatieve lay-out van deze kenmerken (analoog aan de manier waarop een menselijke taalgrammatica de lay-out specificeert van de verschillende woordsoorten). Voorbeelden van kenmerken die zo kunnen worden gemodelleerd zijn onder meer eiwitcoderende genen [1, 18], niet-coderende RNA-genen [22, 38, 39], eiwitbindingsplaatsen [40], eiwitdomeinen [41, 42] en secundaire eiwitstructuur [22, 43]. De volledige theorie van phylo-grammatica's is uitgebreid beschreven (zie de hierboven geciteerde toepassingen door onszelf en anderen) een korte introductie is te vinden in de Materialen en methoden (zie 'Sampling from phylo-grammars').

Het phylo-grammaticaformaat dat door SIMGRAM wordt gebruikt, is hetzelfde als dat van het XRATE-programma, een eerder beschreven hulpmiddel dat het Expectation Maximization-algoritme gebruikt om de snelheids- en waarschijnlijkheidsparameters van elke aangepaste phylo-grammatica te schatten [22]. Daarom kan XRATE worden gebruikt om simulatieparameters rechtstreeks uit trainingsgegevens te schatten, en vervolgens kan SIMGRAM worden gebruikt om synthetische gegevens te genereren met vergelijkbare eigenschappen, maar geen directe homologie (met uitzondering van gevallen waarin de phylo-grammatica zelf homologie-informatie codeert [41, 42]) . Dit vertegenwoordigt een nieuwe toepassing van XRATE: het SIMGRAM-programma is niet eerder beschreven en bij eerdere toepassingen van XRATE is gebruik gemaakt van de phylo-grammatica om sequenties te annoteren of om substitutiepercentages te meten die zelf van direct belang zijn. (Dus, zoals bij alle methoden hier, kan het generatieve model dat ten grondslag ligt aan SIMGRAM gemakkelijk worden getraind op gegevens en worden gebruikt voor annotatie en gevolgtrekking.)

Een aantrekkelijk kenmerk van phylo-grammatica's voor het simuleren van een evoluerende en feature-rijke genoomsequentie is dat het uiterst eenvoudig is om verschillende submodellen te combineren tot een allesomvattend model. Bovendien biedt het XRATE-formaat verschillende functies die nuttig zijn voor simulatie. Eén zo'n functie zijn parametrische modellen, waarbij de snelheden en kansen worden beperkt om een ​​bepaalde functionele vorm te hebben die afhankelijk is van een kleinere parameterset. Dit is handig om modellen te construeren die gewenste symmetrie-eigenschappen hebben, zoals strengsymmetrische substitutieprocessen, of K een/K scodon modellen. Het XRATE-formaat kan ook contextafhankelijke modellen voor substitutiesnelheid benaderen, met behulp van de techniek van [44]. Ten slotte bestaat er een krachtige macrotaal die kan worden gebruikt om grammatica's met veel toestanden compact te beschrijven, of om afstammingsspecifieke parameterisaties te modelleren.

Het DART-pakket (DNA, Aminozuur en RNA-tests), waarin SIMGRAM wordt gedistribueerd, bevat reproducties van verschillende eerder gepubliceerde phylo-grammatica's die met SIMGRAM kunnen worden gesimuleerd. Voorbeelden zijn modellen van secundaire structuur voor eiwitten [43] en RNA [38], evenals een aantal puntsubstitutiemodellen voor eiwit- en nucleïnezuursequenties. Het phylo-grammaticaformaat wordt volledig online beschreven [45].

SIMGENOME: een functierijke phylo-grammatica voor genoomuitlijning

Tot nu toe hebben we het GSIMULATOR-programma beschreven voor contextafhankelijke mutatie van neutraal DNA en het SIMGRAM-programma voor mutatie van gestructureerde kenmerken onder selectie. Elk model heeft zijn sterke en zwakke punten: GSIMULATOR modelleert rijkelijk neutraal DNA, maar geen functies onder selectie, terwijl SIMGRAM betere modellen heeft voor dergelijke functies, maar de contextafhankelijke snelheden of het geavanceerde indel-model van GSIMULATOR mist. We beschrijven nu een programma dat deze benaderingen combineert, met behulp van een modulair raamwerk dat gemakkelijk kan worden uitgebreid om toekomstige, gespecialiseerde feature-simulators op te nemen.

De gecombineerde simulator, SIMGENOME, begint met het genereren van een meervoudige uitlijning op basis van een sjabloon-phylo-grammatica die een rijk scala aan genoomfuncties bevat. De functies worden hieronder in meer detail beschreven, samen met een overzicht van hoe de sjabloon door een ervaren gebruiker kan worden uitgebreid om nieuwe functies op te nemen.

In de gegenereerde uitlijning worden bepaalde kolommen gemarkeerd als intergeen. Het SIMGENOME-programma roept vervolgens herhaaldelijk GSIMULATOR aan om uitlijningen van neutraal DNA te genereren die overeenkomen met deze intergene regio's, en splitst ze in de hoofduitlijning. Dit proces is uitbreidbaar: de sjabloon-phylo-grammatica kan worden bewerkt om nieuwe functies toe te voegen of de onderliggende parameters van het model te wijzigen. Verder kunnen andere externe feature-simulatoren worden gespecificeerd in de sjabloongrammatica, en hun uitvoeruitlijningen zullen worden gesplitst in de hoofduitlijning op precies dezelfde manier als de uitvoer van GSIMULATOR.

De kenmerken die worden gemodelleerd door de template-fylo-grammatica omvatten eiwitcoderende genen (met een ruwe benadering van de exon-intron-untranslated region (UTR)-structuur die exon-lengteverdelingen omvat), niet-coderende RNA-genen, geconserveerde elementen (zoals transcriptiefactor bindingsplaatsen), pseudogenen en DNA-transposons met terminale omgekeerde herhalingen. Functies kunnen verschijnen op voorwaartse of achterwaartse strengen. Alle kenmerken worden geannoteerd in de gegenereerde uitlijning, zodat hun herstel in geautomatiseerde benchmarks kan worden beoordeeld.

De submodellen die deze functies genereren, gebruiken parameters voor substitutiesnelheid die allemaal rechtstreeks werden geschat op basis van de volgende experimentele datasets, met behulp van het XRATE-programma (en opnieuw konden worden geschat op basis van alternatieve datasets).

Het eiwitcoderende genmodel

Het eiwitcoderende genmodel maakt gebruik van een empirische, volledig omkeerbare en anderszins onbeperkte 61 × 61 snelheidsmatrix over codons, geschat in eerder werk [46]. Verwijderingen met behoud van het frame zijn toegestaan. De trainingsset voor dit model was de PANDIT-database die bestaat uit uitlijningen op DNA-niveau van eiwitdomeinfamilies [19].

Het niet-coderende RNA-genmodel

Het niet-coderende RNA-genmodel behandelt hiaten als een vijfde teken en gebruikt daarom (4 + 1) × (4 + 1) enkelstrengs nucleotide en (4 + 1) 2 × (4 + 1) 2 dubbelstrengs basen- paarsnelheidsmatrices die volledig omkeerbaar en anderszins onbeperkt zijn, en afzonderlijk werden geschat. De trainingsset voor dit model bestond uit uitlijningen geleverd met het programma CONSAN [47], die op hun beurt waren afgeleid van de Europese grote subeenheid rRNA-database [48]. De initiële kansverdeling over basenparen in dubbelstrengs regio's werd ook gebruikt om de terminale omgekeerde herhalingen te genereren in gesimuleerde DNA-transposons (hoewel deze kenmerken vervolgens evolueren onder een neutraal model, zodat ze niet de compenserende mutaties vertonen die kenmerkend zijn voor niet- coderende RNA (ncRNA) genen onder selectie).

Het strengsymmetrische neutrale substitutiemodel

Het strengsymmetrische neutrale substitutiemodel dat ten grondslag ligt aan het pseudogen- en transposonmodel, behandelt hiaten als een vijfde teken en werd getraind op een willekeurige 1% van de uitlijningen van 12 Drosophila genomen [20, 49]. De uitlijningen zelf zijn gemaakt met behulp van het PECAN-programma [50]. Het model was beperkt om streng-symmetrisch en omkeerbaar te zijn met behulp van XRATE's parameterisatiefunctionaliteit. Een langzamere, niet-afgekapte versie van deze substitutiesnelheidsmatrix wordt ook gebruikt om geconserveerde kenmerken te modelleren.

Het transducermodel:

Het transducermodel dat door GSIMULATOR werd gebruikt om intergene sequenties te simuleren die zich ontwikkelen onder een neutraal contextafhankelijk model, werd getraind op een set paarsgewijze uitlijningen getrokken uit een subset van twaalf soorten Drosophila uitlijningen, die werden gemaakt met behulp van het PECAN-programma [50]. De subset werd getrokken uit ongeveer 5% van de oorspronkelijke meervoudige uitlijningsgegevens, waarop een identiteitsdrempel van minimaal 95% werd toegepast.

De frequenties en lengteverdelingen

De frequenties en lengteverdelingen van genomische kenmerken werden geschat op basis van de Drosophila genoomliteratuur [20, 51, 52] met behulp van Minos als model voor DNA-transposons [53, 54].

De onderliggende sjabloon-phylo-grammatica is geschreven in het openbaar gedocumenteerde XRATE-formaat en kan gemakkelijk worden bewerkt. Parameters op hoog niveau, zoals de frequenties waarmee genen of andere kenmerken verschijnen, worden op het hoogste niveau van de grammatica gedeclareerd en kunnen gemakkelijk worden gewijzigd. We nodigen gebruikers uit om te proberen submodellen toe te voegen die nieuwe functies vertegenwoordigen die relevant zijn voor benchmarking (of om met ons in dit proces te overleggen). Nieuwe submodellen kunnen direct worden geparametriseerd uit gegevens met behulp van XRATE, en de parameters kunnen worden gekopieerd en geplakt in de grammatica van SIMGENOME. Dit geldt ook voor de bestaande modellen, die opnieuw kunnen worden getraind en/of opnieuw kunnen worden geparametreerd (bijvoorbeeld om verschillende codons gebruik of GC-inhoud). Nog grotere uitbreidbaarheid wordt geboden door de modulaire plug-in-architectuur die het gebruik van programma's van derden mogelijk maakt om functies te genereren die momenteel niet kunnen worden gesimuleerd door de phylo-grammatica of transducers van SIMGENOME, zoals tandem-arrays, lange-afstandsduplicaties, enzovoort.

Hieronder volgen voorbeelden van functies die momenteel niet zijn opgenomen in het SIMGENOME-model, maar die mogelijk zijn met SIMGRAM en die kunnen worden opgenomen door het grammaticabestand van SIMGENOME te wijzigen.

Codonfrequenties

De PANDIT-dataset die werd gebruikt om het SIMGENOME-codonmodel te schatten, omvat een breed spectrum van vooroordelen op het gebied van samenstelling en codongebruik. In termen van algemene patronen van conservering en onderdrukte mutatiesnelheden, beschouwen we het als een acceptabel algemeen model van codonsubstitutie. Als iemand bijvoorbeeld een hulpmiddel voor het vinden van motieven benchmarkt, zullen de coderende regio's die door SIMGENOME worden gegenereerd, resulteren in meer valse positieven dan niet-coderende regio's (omdat het conserveringsniveau hoger is) en dit kan voldoende zijn voor de doeleinden van die benchmark . Voor andere doeleinden is het echter denkbaar dat men een rijker parametrisch model wil dat rekening houdt met genoomspecifieke effecten zoals samenstellingsbias, codonbias, transitie-transversieverhoudingen of CpG-methylatie-geïnduceerde deaminering. Het gebruik van een dergelijk parametrisch model is een eenvoudig geval van het omwisselen van de relevante tariefmatrix in het SIMGENOME-grammaticabestand. Het model kan op de normale manier worden aangepast aan gegevens met behulp van XRATE. We bereiden een manuscript voor dat een directe vergelijking tussen XRATE en PAML beschrijft voor deze doeleinden, inclusief Perl-code voor het genereren van dergelijke rijkere parametrische modellen (Heger A, Ponting C en Holmes IH, in voorbereiding).

Lineage-specifieke parametrering

De SIMGRAM-macrotaal zorgt voor verschillende parameters op verschillende takken van de boom. We hebben geen gebruik gemaakt van deze functie in de SIMGENOME-grammatica, omdat het gebruik ervan enigszins afhankelijk is van de fylogenetische clade die wordt onderzocht: men kan (bijvoorbeeld) verschillende parameters willen gebruiken op elke tak, op een enkele interne tak, of binnen een specifieke clade. Met verwijzing naar de XRATE-documentatie is het heel goed mogelijk om grammatica's te ontwerpen die gebruik maken van deze functie, zodat het model (bijvoorbeeld) verschillende codonfrequenties of compositorische vooroordelen in verschillende delen van de boom kan gebruiken.

Verlies-van-functie mutaties

Het SIMGRAM-formaat maakt ook afstammingsspecifieke evolutie van hele functies mogelijk, op de manier van het DLESS-programma van Pollard et al. [55]. Intern hebben we phylo-grammatica's ontwikkeld die verlies-van-functie-mutaties in eiwitcoderende genen modelleren, voor onderzoek naar pseudogenevolutie. We hebben geen functieverliesmutaties opgenomen in deze eerste release van SIMGENOME, maar het zou heel goed mogelijk zijn om deze uit te breiden zonder nieuwe code te hoeven schrijven.

Splice sites, initiële methionines, UTR's en andere aspecten van eiwitcoderende genstructuur

De grammatica van SIMGENOME bevat momenteel een ruwe schijn van exon- en intronstructuur, om de brede samenstellingsfluctuaties te reproduceren die geassocieerd zijn met eiwitcoderende genen. Dit omvat momenteel een langzaam evoluerende sequentie aan de exon-introngrenzen, als een mock-up van het behoud van de splitsingsplaats. De huidige release modelleert echter geen voldoende gedetailleerd model voor eiwitcoderende genen om te worden gebruikt als positieve voorbeelden voor een eiwitcoderende genvoorspeller. Men zou de simulator gemakkelijk kunnen aanpassen om dit te doen, door splitsingsplaatsen te modelleren als GT-AG en misschien zelfs AT-AC donor-acceptorparen, en andere kenmerken op te nemen, zoals poly-A-signalen, initiële ATG's, TATA-boxen en UTR's. Dit soort functies zijn eenvoudig toe te voegen aan een phylo-grammatica-raamwerk.

Hogere-orde correlaties tussen codons

De SIMGRAM-distributie omvat voorbeeld-phylo-HMM's die correlaties van hogere orde tussen aminozuren in eiwituitlijningen aantonen. Er is bijvoorbeeld een replica van de Thorne-Goldman-Jones 3-state phylo-HMM voor het modelleren van secundaire structuur [43].Gegeven een geschikte parametrering om van aminozuursubstitutiesnelheidsmatrices naar codonmatrices in kaart te brengen, zou het eenvoudig zijn om zoiets te gebruiken om correlaties op hoger niveau tussen codons in SIMGENOME's coderende DNA-regio's te modelleren. Men kan zich redelijkerwijs afvragen waarom we dergelijke afhankelijkheden van hogere orde niet hebben opgenomen in de eerste release van SIMGENOME, terwijl we contextafhankelijkheden van hogere orde in de intergene regio's hebben opgenomen. Het antwoord is dat intergene kenmerken (zoals microsatellieten of geconserveerde gebieden) sterke vooroordelen over de samenstelling kunnen omvatten die zich over tientallen basen uitstrekken en dus over het algemeen meer bijdragen aan fluctuaties in informatiedichtheid dan correlaties tussen codons, die doorgaans zwak, lokaal en vaak alleen detecteerbaar zijn op het niveau van de gecodeerde aminozuren [43].

Gedetailleerde lengteverdelingen

De meeste lengteverdelingen van kenmerken die in SIMGENOME zijn gemodelleerd, zijn geometrisch (de eenvoudigste soort verdeling die men met een HMM kan modelleren). Door dubbele toestanden aan elkaar te koppelen, is het mogelijk om complexere (realistische) lengteverdelingen te genereren. Het SIMGENOME-grammaticabestand bevat bijvoorbeeld functies voor het genereren van een 'negatieve binomiale' verdeling met pieken (ook bekend als de 'Pascal'-verdeling) voor exonlengten, dus er zijn voorbeelden die hiervoor kunnen worden gebruikt. Er werd echter empirisch gevonden dat een rechttoe rechtaan geometrische verdeling beter past bij gegevens over exonlengte in Drosophila.

Evaluatie: benchmarking van een niet-coderende RNA-voorspeller

Het evalueren van een simulatietool is een iets ander probleem dan het evalueren van een annotatietool, zoals een genvoorspeller. Bij het benchmarken van een voorspeller is men doorgaans geïnteresseerd in het minimaliseren van het aantal valse positieven dat de voorspeller vindt in een nulgegevensset bij een bepaalde drempel van de grenswaarde van de voorspellingsscore. Men kan alle valse positieven elimineren door de scoredrempel willekeurig hoog in te stellen, maar ten koste van het missen van alle echte genen in de dataset. Om een ​​juist beeld te krijgen van de prestaties van de voorspeller, moet men daarom overwegen hoe het aantal fout-positieven varieert als functie van deze drempel of (meer betekenisvol) als een functie van de gevoeligheid van de voorspeller, dat wil zeggen het aantal echte genen dat het correct detecteert bij een bepaalde scoredrempel.

Een gebruikelijke praktijk is om een ​​set echte genen te gebruiken om de gevoeligheid van de voorspeller te evalueren, maar om gesimuleerde nulgegevens te gebruiken om de fout-positieve frequentie te evalueren. De reden om gesimuleerde nulgegevens te gebruiken, in plaats van een echte DNA-sequentie die geen genen bevat, is het gebrek aan negatieve annotaties: het is moeilijk experimenteel aan te tonen dat een bepaalde DNA-sequentie definitief geen genen bevat. Dit geldt met name voor moeilijk te identificeren genen, zoals RNA-genen of korte open leeskaders.

Een goede simulator is daarom een ​​simulator die de statistieken van echt DNA nauwkeurig reproduceert en een vergelijkbaar aantal valse positieven genereert als echt DNA. In de praktijk berust het tweede criterium op de keuze van statistieken voor het eerste criterium. Als het statistische model te simplistisch is (bijvoorbeeld door gebieden met een lage complexiteit weg te laten), zal de complexiteit van het gesimuleerde DNA groter zijn dan zou moeten zijn, wat leidt tot minder valse positieven. Om een ​​specifiek voorbeeld te geven: een DNA-simulator die willekeurig een reeks onafhankelijke, identiek verdeelde symbolen uitzendt, komt overeen met de samenstelling op nucleotideniveau van echt DNA, maar reproduceert niet de korteafstandsfluctuaties in informatie-inhoud die in echt DNA kunnen worden gevonden , en zal dus minder valse positieven genereren in een benchmark voor het vinden van motieven dan een simulator die verschijnselen van complexiteitsfluctuatie op korte afstand omvat (zoals microsatellieten).

Op basis hiervan stellen we dat een maatstaf voor een goede probabilistische simulator is dat zijn model (na te zijn aangepast aan echt DNA) het aantal valse positieven voor een bepaalde voorspeller bij een gegeven gevoeligheid zou moeten maximaliseren. Een andere manier om dit te zeggen is dat de simulator de strengst mogelijke maatstaf voor de genvoorspeller moet bieden, door het gebied onder de curve van de ontvanger-werkingskarakteristiek (ROC) over het interessegebied te minimaliseren (zie hieronder).

Om de hier beschreven simulatie-engines te evalueren, hebben we ze gebruikt om de fout-positieve snelheid (FPR) te schatten voor een computationeel scherm van het hele genoom voor geconserveerde structurele RNA-genen, uitgevoerd met behulp van XRATE [22]. We hebben RNA-genvoorspelling als testcase gekozen omdat het een extreem hoge FPR heeft, waarvan de werkelijke omvang nog onbekend is [39, 56, 57] en omdat de geschatte FPR voor dit scherm zeer gevoelig is voor de onderliggende eigenschappen van de simulatie-engine, waardoor het een goede motivator is voor meer realisme [12, 58].

In het bijzonder werd de FPR geschat door een venster over de gesimuleerde uitlijningen te schuiven en XRATE op elk venster uit te voeren met behulp van een RNA-genvoorspellingsgrammatica. Deze grammatica modelleert de verschillende patronen van nucleotidesubstitutie in RNA-genen, inclusief covariatie van basengepaarde nucleotiden, en is nauw verwant aan het EVOFOLD-programma voor vergelijkende RNA-genvoorspelling [39] en het PFOLD-programma voor vergelijkende RNA-vouwing [59]. De grammatica zelf, samen met gedetailleerde instructies voor het reproduceren van het scherm, zijn online te vinden [37]. De volledige grondgedachte die ten grondslag ligt aan de ontwikkeling van de grammatica, en de kritische evaluatie (als een genefinder) en vergelijking met gerelateerde grammatica's, zal elders worden beschreven (Bradley RK, Uzilov AV, Skinner M, Bendaña YR, Barquist L en Holmes I, ingediend) .

De grafieken tonen ROC-curven waarbij de FPR is uitgezet tegen de gevoeligheid van het scherm (zoals gemeten met behulp van annotaties van bekende ncRNA's in Drosophila melanogaster), als een parametrische functie van de scoredrempel voor het scherm. Omdat ncRNA's positieve resultaten voor dit scherm vertegenwoordigen, en we al een reeks bekende samengestelde ncRNA's hebben voor D. melanogaster, we hebben het ncRNA-submodel weggelaten uit de SIMGENOME-grammatica voor deze tests.

De resultaten zijn weergegeven in figuur 1. De algemene conclusie is dat meer realisme zorgt voor een hogere FPR. In het geval van GSIMULATOR, het verhogen van ofwel N of K verhoogt de FPR radicaal in het geval van SIMGENOME, de opname van geconserveerde genomische kenmerken met langzamere evolutionaire snelheden verhoogt de FPR aanzienlijk ten opzichte van zowel een puur puntsubstitutiemodel als het meest realistische GSIMULATOR-model.

Receiver Operating Characteristic (ROC)-curves voor twee niet-coderende RNA-voorspellingsalgoritmen, ClosingBp (Bradley RK, Uzilov AV, Skinner M, Bendaña YR, Barquist L en Holmes I, ingediend) en EVOFOLD [39] (geïmplementeerd met XRATE), met GSIMULATOR- en SIMGENOME-modellen om de vals-positieve ontdekkingssnelheid te schatten. Deze curven illustreren het algemene principe dat hoe realistischer een simulatiemodel, hoe hoger de geschatte fout-positieve frequentie (FPR). Deze trend is onafhankelijk van het gebruikte gen-voorspellingsalgoritme. De bovenste panelen tonen resultaten voor GSIMULATOR: het blijkt dat meer complexe indellengteverdelingen (N) en in het bijzonder contextafhankelijkheid (K) verhogen beide de FPR. De onderste deelvensters tonen resultaten voor SIMGENOME- en componentmodellen, waarbij de FPR wordt verhoogd door hiaten op te nemen (die fluctuaties in informatie-inhoud versterken, omdat ze doorgaans worden behandeld als 'ontbrekende informatie') en genomische kenmerken (waarvan sommige langzamer evolueren). snelheid dan neutrale reeks). De reden dat de asymptotische gevoeligheid minder dan 1,0 is, is dat onze benchmark een benadering met glijdende vensters gebruikte, waarbij maximaal één niet-coderend RNA (ncRNA) in elk venster werd voorspeld. Onze set echte ncRNA's is afkomstig van multi-genoom Drosophila uitlijningen geproduceerd door het PECAN-programma [50], om een ​​eerlijke vergelijking te garanderen, namen we een venster van de PECAN-uitlijning rond het geannoteerde ncRNA, waarbij de grootte van dit venster overeenkwam met de grootte van het schuifvenster dat werd gebruikt op de gesimuleerde nulgegevens. Sommige van de positieve ncRNA's in deze PECAN-uitgelijnde vensters scoren zo slecht onder het genvoorspellingsmodel - bijvoorbeeld vanwege onnauwkeurigheden in de PECAN-uitlijning van dat venster - dat het voorspelde ncRNA consequent op de verkeerde locatie binnen het venster wordt geplaatst. Deze echte ncRNA's worden daarom nooit gedetecteerd, hoe laag de scoredrempel ook is, waardoor een bovengrens voor de haalbare gevoeligheid wordt ingesteld.

We vergeleken ook onze simulatiemethoden, GSIMULATOR en SIMGENOME, met DAWG [10], een veel geciteerd programma voor simulatie van neutrale substitutie en indel-gebeurtenissen. We hebben voor DAWG gekozen omdat het de doelen die we hier hebben geïdentificeerd het beste weerspiegelt: het is duidelijk gebaseerd op een onderliggend evolutionair model en biedt hulpmiddelen voor het rechtstreeks schatten van de parameters van het indel-model uit sequentiegegevens. Het lijkt op het moment van schrijven de toonaangevende simulator voor algemeen gebruik te zijn. Andere simulatoren (zoals PSPE) zijn rijker, maar bieden niet de parameterschattingsfunctionaliteit die DAWG biedt.

De parameters voor DAWG waren als volgt. We gebruikten hetzelfde algemene-tijd omkeerbare substitutiemodel (REV) dat we hebben geschat op basis van PECAN-uitlijningen van Drosophila genomen. DAWG's 'geometrische' indelmodel (dat wil zeggen, geometrisch verdeelde indellengtes) werd geparametriseerd met behulp van het script dat bij het programma werd geleverd. Hoewel het 'power-law'-model voor indellengtes een betere pasvorm gaf, produceerde het uitlijningen die meestal gaten waren. DAWG maakt heterogene snelheden en invariante sites mogelijk met behulp van de Γ + l model voor snelheidsheterogeniteit [60], dat ook enkele voorbeeldparameters voor dit model geeft (γ = 1, ι = 0.1), die we voor deze simulaties hebben gebruikt.

Figuur 2 vergelijkt DAWG met de meest realistische GSIMULATOR en rijkste SIMGENOME-modellen. De figuur laat zien dat de contextafhankelijkheid gemodelleerd door GSIMULATOR en de genomische kenmerken gemodelleerd door SIMGENOME resulteren in veel strakkere vals-positieve schattingen dan DAWG geproduceerd.

ROC-curves voor twee niet-coderende RNA-voorspellers, ClosingBp (Bradley RK, Uzilov AV, Skinner M, Bendaña YR, Barquist L en Holmes I, ingediend) en EVOFOLD [39] (geïmplementeerd met XRATE), waarbij DAWG [10] wordt vergeleken met de rijkste GSIMULATOR- en SIMGENOME-modellen. De drie curven voor elke genvoorspeller illustreren duidelijk dat verhoogde modelrijkdom (DAWG → GSIMULATOR → SIMGENOME) een hogere geschatte FPR oplevert. Zie het bijschrift bij figuur 1 voor een verklaring waarom de asymptotische gevoeligheid kleiner is dan 1,0.

Aangezien DAWG's voorbeeld γ en ι parameters (die de snelheidsheterogeniteit en de dichtheid van geconserveerde sites bepalen) handmatig werden aangepast voor mens-chimpansee uitlijningen door de auteur van het programma, kunnen ze een onderschatting zijn voor Drosophila (waar geconserveerde elementen dichter bij elkaar liggen dan bij primaten, vanwege kleinere genomen en een hogere deletiesnelheid van niet-functioneel DNA). Er is echter geen geautomatiseerde methode om deze parameters in DAWG in te stellen, noch biedt het DAWG-pakket of document expliciete richtlijnen voor het relateren van deze parameters aan eenvoudige statistieken over de dichtheid van genomische kenmerken. (Het SIMGENOME-grammaticabestand daarentegen bevat opmerkingen die de afleiding van de functiedistributieparameters van gepubliceerde schetsen.) Drosophila annotaties.) Verder bevat het GSIMULATOR-programma een volledig geautomatiseerde trainingsprocedure, heeft het geen model voor geconserveerde sites of snelheidsheterogeniteit (anders dan contextafhankelijke substitutie) en genereert het niettemin een hoger percentage valse voorspellingen dan DAWG, zelfs wanneer deze functies zijn ingeschakeld in DAWG (Figuur 2). Aangezien SIMGENOME op zijn beurt een hogere FPR genereert dan GSIMULATOR (Figuur 1), redeneren we transitief dat SIMGENOME ook een meer realistische simulator is dan DAWG. Dienovereenkomstig merken we op dat dit argument een geautomatiseerde tool (of zelfs een eenvoudige heuristiek) sterk motiveert voor het schatten van de γ- en ι-parameters van het heterogene snelheidsmodel van DAWG. Er is een aanzienlijke analyse van dergelijke modellen [60], dus dit kan een redelijk doel van toekomstig onderzoek zijn.


Invoering

Een van de grootste uitdagingen in de moderne medische en populatiegenetica is het bepalen van de fenotypische en fitnessgevolgen van een bepaalde mutatie. Genoombrede associatiestudies (GWAS) hebben honderden loci in het genoom geïmpliceerd voor het beheersen van vele eigenschappen [1]. Het vinden van causale varianten op deze loci bleef echter een uitdaging vanwege de statistische correlaties tussen markers (koppelingsonevenwicht) en door het feit dat de meeste GWAS-treffers in niet-coderende gebieden van het genoom vallen met weinig duidelijke functie [2]. Kennis van de specifieke causale variant(en) is een belangrijk doel, omdat het de risicovoorspelling zal verbeteren en een meer gedetailleerd begrip mogelijk maakt van het biologische mechanisme achter hoe de variant de eigenschap beïnvloedt. In populatiegenetica is er een enorme interesse om te begrijpen hoeveel van het genoom onder selectie is en de soorten mutaties die ten grondslag liggen aan veel van de fenotypische variatie en aanpassing in verschillende soorten. Verder zijn studies gericht op het nauwkeurig kwantificeren van de hoeveelheid schadelijke variatie die segregeert in populaties om de rol van de bevolkingsgeschiedenis bij het beïnvloeden van schadelijke variatie te beoordelen en om te bepalen of een kleine populatieomvang kan leiden tot een accumulatie van schadelijke varianten, wat mogelijk een mutatie-meltdown en uitsterven veroorzaakt. [3-6].

Een populaire manier om te beoordelen welke mutaties in een genoom biologisch functioneel kunnen zijn en de fitness beïnvloeden, is door te onderzoeken in hoeverre nucleotiden behouden blijven in evolutionair verre taxa. Sites die een tekort aan substituties vertonen in vele geslachten, worden beschouwd als functioneel belangrijk en onderhevig aan zuiverende selectie. Er wordt aangenomen dat sites met een groter aantal substituties zich in een neutraal tempo ontwikkelen en dat ze minder snel functioneel of onder zuiverende selectie zijn. Er zijn een aantal statistische benaderingen ontwikkeld om deze sites in het genoom te vinden die het behoud van verschillende soorten laten zien [7-14]. Bovendien is dit concept gebruikt in verschillende annotatietools zoals SIFT-, PolyPhen- en CADD-scores om te voorspellen welke mutaties waarschijnlijk schadelijk zijn [15-18].

Een specifieke vergelijkende genomische benadering die wijdverbreid is gebruikt, is de Genomic Evolutionary Rate Profiling (GERP)-score [19,20]. De GERP-score wordt gedefinieerd als de vermindering van het aantal substituties in de sequentie-uitlijning van meerdere soorten in vergelijking met de neutrale verwachting. Een GERP-score van 4 zou bijvoorbeeld betekenen dat er op een bepaalde plaats 4 minder substituties zijn dan verwacht op basis van de neutrale evolutiesnelheid over de fylogenie. Als zodanig is de GERP-score een maatstaf voor het behoud van sequenties over meerdere soorten. GERP-scores zijn echter vaak gebruikt in evolutionaire genomische studies als een maat voor de sterkte van selectie die inwerkt op afgeleide mutaties die binnen een soort segregeren. In deze toepassingen wordt aangenomen dat mutaties die voorkomen op plaatsen die in veel soorten sterk geconserveerd zijn, schadelijk zijn en dus bijdragen aan de genetische belasting binnen een soort. Kwantitatief wordt voor elke segregerende plaats binnen een soort de GERP-score toegewezen aan de afgeleide mutatie die op die plaats segregeert. Schubert et al. [3] bestudeerde patronen van schadelijke mutaties bij wilde en gedomesticeerde paarden. Ze berekenden een GERP-scorebelasting voor elk paard, wat de gemiddelde GERP-score was over alle afgeleide varianten binnen dat individu. Ze vonden een toename van de GERP-score bij het gedomesticeerde paard, met het argument dat domesticatie heeft geleid tot een toename van schadelijke variatie. Henn et al. [5] gebruikte GERP om de fitnessimpact van aminozuurveranderende mutaties bij mensen te beoordelen. Ze definieerden mutaties met GERP-scores 4-6 om "grote" schadelijke effecten te hebben, overeenkomend met een selectiecoëfficiënt van 10 −3, en zagen een toename van het aantal van deze afgeleide schadelijke allelen in niet-Afrikaanse populaties. Ze meldden ook dat de GERP-scores opgeteld over alle sites binnen een individu hoger waren in een gemiddeld Maya-inheems Amerikaans genoom in vergelijking met een gemiddeld San Sub-Sahara Afrikaans genoom. Marsden et al. [4] gebruikte GERP om schadelijke aminozuurveranderende mutaties bij honden en wolven te identificeren en vond een toename van schadelijke mutaties (GERP>4) bij honden en dat honden een hogere gesommeerde GERP-score hebben voor alle aminozuurveranderende varianten in vergelijking met wolven. Tot slot, Valk et al. [6] ontdekte dat, in een reeks zoogdieren, soorten met een historisch lage populatieomvang en lage genetische diversiteit een lagere gemiddelde GERP-score van het afgeleide allel hebben dan soorten met grote populatiegroottes, wat suggereert dat het zuiveren van schadelijke allelen de genetische belasting in kleine populaties op de lange termijn.

Hoewel GERP-scores op grote schaal zijn gebruikt in de medische en populatiegenetica, blijven er enkele uitdagingen. Ten eerste verdelen de hierboven beschreven onderzoeken de GERP-scores op een grove manier om de onderliggende schadelijke selectiecoëfficiënt weer te geven. Van die mutaties met een hogere GERP-score werd aangenomen dat ze een meer schadelijke selectiecoëfficiënt hadden. De nauwkeurigheid van het toekennen van GERP-scores aan bepaalde fitnesseffecten blijft echter onduidelijk. GERP-scores leveren mogelijk geen kwantitatief bewijs van de sterkte van selectie, omdat eventuele schadelijke mutaties met een geschaalde selectiecoëfficiënt van Nes < -2 zal niet ophopen als vervangingen [21-24]. Onder deze waarde zullen noch zwakke noch sterk schadelijke mutaties zich ophopen als substituties, en het is daarom misschien niet mogelijk om ze te onderscheiden met behulp van vergelijkende genomische gegevens [23]. Ten tweede gaan de meeste conservatie-detectiemethoden uit van constante selectiedruk over alle takken van een fylogenie [8]. Elke soort van afstammingsspecifieke selectie, of omzet van functionele sequentie (d.w.z. een sequentie heeft een specifieke regulerende rol in de ene afstamming, maar niet in een andere afstamming), kan mogelijk worden gemist door deze vergelijkende genomische benaderingen. Recent bewijs suggereert een behoorlijke hoeveelheid omzet van functionele sequentie in de niet-coderende gebieden van het menselijk genoom [25, maar zie 26]. Ten slotte werd aangetoond dat de kracht van vergelijkende genomics-methoden om sequenties onder selectie te detecteren, kan worden gemaximaliseerd door optimale subsets te selecteren uit een grotere reeks soorten [27]. De optimale subset van soorten om de prestaties onder verschillende selectie- en omzetscenario's te maximaliseren, blijft echter onduidelijk. Dit is vooral vooruitziend in het licht van recente projecten die gericht zijn op het vergroten van het aantal gesequenced genomen over soorten [28,29].

Ten slotte is de omvang van het menselijk genoom onder zuiverende selectie nog steeds onderwerp van hevig debat. Vroege vergelijkende genomische studies suggereerden dat maximaal 15% van het genoom onder selectie was [9,20,30-33].Biochemische studies uitgevoerd door ENCODE hebben echter gesuggereerd dat tot 80% van het genoom activiteit vertoont in ten minste één biochemische test [34]. Het is misschien mogelijk om deze schattingen met elkaar in overeenstemming te brengen door op te merken dat ze verschillende processen meten - functionele testen beoordelen of het nucleotide biochemische activiteit heeft, maar deze activiteit hoeft niet noodzakelijk gerelateerd te zijn aan fitness [35,36]. Als zodanig hebben mutaties op biochemisch actieve plaatsen mogelijk geen evolutionaire impact en kunnen ze dus neutraal lijken in vergelijkende genomische benaderingen. Verder is er bewijs gevonden uit vergelijkende genomische studies van omzetting van sequentie onderworpen aan zuiverende selectie [25,30,33,37,38]. Dit kan op een aantal manieren gebeuren. Ten eerste kunnen sequenties een biologische functie hebben in sommige soorten en niet in andere vanwege veranderingen in de regulerende architectuur tussen soorten [39]. Ten tweede, zelfs als het regulerende gebied de biologische functie behoudt gedurende lange evolutionaire tijden, kunnen selectiecoëfficiënten van mutaties op bepaalde plaatsen in de loop van de tijd veranderen als gevolg van epistatische effecten met andere mutaties [40]. Rand et al. suggereren dat de evolutionaire geschiedenis van het menselijk genoom zeer dynamisch is geweest, waarbij slechts 25% van de elementen onder zuiverende selectie bij mensen de beperking in muizen heeft gehandhaafd [25,30]. Andere studies hebben gesuggereerd dat recentere evolutionaire omzet weinig invloed heeft gehad op de functionele inhoud van het genoom [26]. Het blijft dus een open vraag hoeveel van het genoom onder zuiverende selectie staat en de hoeveelheid omzet van functionele sequentie die optreedt.

Hier voeren we realistische simulaties uit onder populatiegenetische modellen van zuiverende selectie om de prestaties van GERP-scores onder verschillende scenario's te beoordelen. We evalueren eerst of GERP-scores betrouwbare schattingen kunnen geven van selectiecoëfficiënten bij individuele coderende mutaties. Vervolgens beoordelen we de mate waarin sequentieomzetting het vermogen van GERP beïnvloedt om geselecteerde sequenties op niet-coderende plaatsen te identificeren. Ten slotte schatten we dat ten minste 4,51% van het niet-coderende deel van het menselijke genoom onder zuiverende selectie staat en dat mutaties op de meeste van deze niet-coderende plaatsen niet gedurende de hele zoogdierevolutie onder selectie zijn geweest. Onze resultaten wijzen op verschillende belangrijke beperkingen bij het gebruik van vergelijkende genomische benaderingen voor het bepalen van de fitness-effecten van individuele mutaties en dragen bij aan de groeiende literatuur die pleit voor het gebruik van polymorfismegegevens voor het beoordelen van de huidige hoeveelheid selectie binnen soorten [23].


Methoden:

SARS-CoV-2 GISAID-sequentiefiltering

Na het verwijderen van een sequentie met een niet-menselijke gastheer (bijv. vleermuis, pangolin), om de impact van sequentiefouten op selectieanalyse te verminderen, werden de gegevens van GISAID gefilterd door alle sequenties uit te sluiten die aan een van de volgende criteria voldoen: elke sequentie met een lengte van minder dan 29.000 nucleotiden alle sequenties met ambigue nucleotiden groter dan 0,5% van het genoom alle sequenties met meer dan 1% afwijking van de langste bemonsterde sequentie (Wuhan-Hu-1) en elke sequentie met stopcodons. Om codon-uitlijningen te behouden en correcte aminozuursequenties te behouden voor selectieanalyses, werden unieke (identieke sequenties samengevouwen voor uitlijning om de rekenkosten te verminderen "N" wordt behandeld als overeenkomend met elk opgelost karakter in dit proces) in-frame nucleotidesequenties werden vertaald naar amino- zuren en uitgelijnd met MAFFT [69]. De aminozuuruitlijning wordt terug in kaart gebracht naar de samenstellende nucleotidesequenties om een ​​uitlijning op codonniveau te produceren. Alleen unieke haplotypes worden behouden voor vergelijkende fylogenetische analyses, aangezien het opnemen van identieke kopieën niet informatief is voor dit soort gevolgtrekkingen.

SARS-CoV-2 positieve selectie

We gebruikten aanvankelijk een methodologie die de volledige fylogenie omvatte en vonden misleidende handtekeningen zoals sequencing-fouten en lab-gebaseerde recombinatie op de terminale takken, wat de software in de war bracht (S2-tekst). Deze fouten worden weerspiegeld in de verhoogde dN / dS-verhouding die wordt waargenomen op de terminale takken (figuur 1). Vervolgens gebruikten we de FEL [30] en MEME-methoden [36] om respectievelijk negatieve en episodische diversifiërende positieve selectie af te leiden, met behulp van een implementatie die alleen interne takken beschouwde om positieve selectie af te leiden. MEME gebruikt een maximale waarschijnlijkheidsmethodologie en voert een waarschijnlijkheidsratiotest uit voor positieve selectie op elke locatie, waarbij modi worden vergeleken die positieve diversificatieselectie bij een subset van takken (dN/dS > 1) toestaan ​​of verbieden. FEL voert een test uit die uitgaat van uniforme selectiedruk op alle takken (pervasieve selectie). Deze selectieanalyses zijn uitgevoerd in het HyPhy softwarepakket v.2.5.14.

Sarbecovirussen uitlijning en recombinatie

Om de verstorende effecten van recombinatie te voorkomen, hebben we elke ORF afzonderlijk geanalyseerd en de Orf1ab- en Spike-ORF's verdeeld in vermoedelijke niet-recombinante regio's, op basis van de 7 belangrijkste recombinatiebreekpunten gepresenteerd in Boni en collega's [6]. Dit levert 5 niet-recombinante regio's op voor Orf1ab (regio's A tot E) en 5 regio's voor Spike (regio's A tot D en de variabele lus-regio VL). De eiwitsequenties van de niet-recombinante regio's SARS-CoV-2, SARS-CoV-1 en 67 nauw verwante virussen met niet-menselijke gastheren (vleermuizen en schubdieren, S4-tabel), geïdentificeerd op basis van sequentieovereenkomst en opgehaald uit online databases NCBI Genbank en GISAID , werden uitgelijnd met behulp van MAFFT versie 7 (L-INS-i) [69]. Daaropvolgende handmatige correcties werden aangebracht op de eiwituitlijningen en PAL2NAL (//www.bork.embl.de/pal2nal) werd gebruikt om ze om te zetten in codonuitlijningen. Fylogenieën voor elke codonuitlijning werden afgeleid met behulp van RAxML met een GTR+Γ-nucleotidesubstitutiemodel [70].

Sarbecovirus selectie analyse

We hebben een reeks selectiedetectiemethoden gebruikt om te onderzoeken of de afstamming die tot SARS-CoV-2 leidt, episodes van diversifiërende positieve selectie heeft meegemaakt. Elk niet-recombinant gebied werd afzonderlijk onderzocht. We hebben de fylogenie van elke regio gescheiden in een nCoV- en niet-nCoV / SARS-CoV-1-lijn. De nCoV-clade omvat SARS-CoV-2 en de virussen die daarmee een monofylie vormen, met uitzondering van de SARS-CoV-1-bevattende zusterclade. Dit zijn de vleermuis-infecterende virussen CoVZC45, CoVZXC21, RmYN02 en RaTG13, en de pangolin-infecterende virussen Pangolin-CoV en het P2V-, P5L-, P1E-, P5E-, P4L-cluster (S4-tabel). Merk op dat sommige recombinante regio's van CoVZC45, CoVZXC21 en RmYN02 niet tot de nCoV-clade behoren en deze werden uitgesloten van elke analyse van deze regio's.

We hebben getest op bewijs van episodische diversifiërende selectie op de interne takken van de nCoV-clade met behulp van BUSTED [S], goed voor synonieme snelheidsvariatie zoals beschreven in Wisotsky en collega's [71]. We ontwikkelden een extensie voor BUSTED[S], die een HMM bevatte met 3 tariefcategorieën om locatiespecifieke synonieme snelheidsvariatie te beschrijven [43]. Deze HMM maakt expliciete opname van autocorrelatie in synonieme snelheden over codons mogelijk. Een dergelijke autocorrelatie zou worden verwacht als selectie- of mutatiesnelheidsvariatie ruimtelijk gelokaliseerd zou zijn binnen ORF's. De frequentieomschakelingsparameter tussen aangrenzende codons van de HMM beschrijft de mate van autocorrelatie, met waarden onder 1/N (N = aantal snelheidsklassen) die wijzen op autocorrelatie. Standaard HMM-technieken (bijv. het Viterbi-pad) die op deze modellen worden toegepast, kunnen onthullen waar de wisselingen tussen verschillende snelheidstypen plaatsvinden, waardoor de sequentie wordt opgedeeld in regio's met een zwakkere of sterkere beperking op synonieme substituties.

De aBSREL-methode [41] werd gebruikt op alle takken van de nCoV-clade om te bepalen welke specifieke takken de gevolgtrekking van selectie bepalen. Ten slotte hebben we onderzocht welke specifieke codonsites gemiddeld onder negatieve selectie staan ​​over de nCoV-clade met behulp van FEL [30] en onder doordringende of episodische diversifiërende positieve selectie op de nCoV-clade met behulp van MEME [36]. P waarden van ≤0,05 voor de waarschijnlijkheidsratio-tests, specifiek voor elke methode, werden genomen als bewijs van statistische significantie. De meeste selectieanalyses werden uitgevoerd in het HyPhy-softwarepakket v.2.5.14, met BUSTED aangepast om meerdere nucleotidesubstituties mogelijk te maken met v2.5.24 [72].

CpG-uitputting

Om over-/ondervertegenwoordiging van CpG-dinucleotiden in de te kwantificeren Sarbecovirus genomen, ontwikkelden we een aangepaste versie van de synoniem voor gebruik van dinucleotiden (SDU) [55], die nu verantwoordelijk is voor vooringenomen basensamenstelling. De oorspronkelijke SDU-statistiek vergelijkt het waargenomen aandeel van synoniem CpG, O voor elk paar frameposities in een coderende sequentie, H aan die verwacht onder gelijk synoniem codongebruik, e voor elk aminozuur (of aminozuurpaar) dat CpG-bevattende codons (of codonparen) kan hebben, l. De SDU-metriek is het gemiddelde van deze verhoudingen gewogen door het aantal informatieve aminozuren (of paren) in de reeks, N (Vgl. 1).

Om de bevooroordeelde en variabele basissamenstelling van SARS-CoV-2 en andere op te nemen Sarbecovirussen [47], hier hebben we het verwachte codongebruik geschat op basis van de nucleotidesamenstelling van het hele genoom van elk virus. We noemen deze nieuwe metriek het gecorrigeerde synoniem dinucleotide-gebruik (SDUc). We gebruiken waargenomen basisfrequenties van elk virus om de gecorrigeerde nulverwachting van de metriek te genereren, e′, in plaats van uit te gaan van gelijk gebruik (Vgl 1). Het verwachte aandeel, e′, werd voor elk aminozuur/aminozuurpaar geschat door willekeurig codons te simuleren op basis van de enkelvoudige nucleotideverhoudingen van elk virus in het hele genoom. Dit e′ werd vervolgens gebruikt voor alle SDUc-berekeningen van het bijbehorende virus.

Omdat deze metriek gevoelig is voor fouten bij gebruik voor korte coderende sequenties, hebben we SDUc toegepast op de langste ORF (Orf1ab) van alle virussen. Om de mate van fylogenetische onafhankelijkheid tussen synonieme sites over SDUc-gegevenspunten te schatten, hebben we de paarsgewijze synoniemendivergentie (Ks) tussen virussen gemeten. Paarsgewijze Ks-waarden werden berekend met behulp van het seqinr R-pakket [73], dat gebruik maakt van het codonmodel van Li (1993) [74], wat de gedeeltelijke maar niet volledige onafhankelijkheid binnen de 2 lijnen aantoont. De mediaan en het maximum van Ks is 0,54 en 0,89 binnen de nCoV-clade en respectievelijk 0,34 en 1,09 binnen de niet-nCoV/SARS-CoV-1-clade. Eq 1 (Eq 1, N = totaal aantal informatieve aminozuren)

Spike recombinatie analyse

Om het recombinatiebreekpunt op de Spike ORF van het RmYN02-virus te bepalen, hebben we de RDP5-methodesuite [75] gebruikt, waarbij 7 methoden zijn geïmplementeerd: RDP, GENECONV, Chimaera, MaxChi, BootScan, SiScan en 3seq. We hebben eerst de analyse uitgevoerd op de uitlijning van het hele genoom van de Sarbecovirussen en vervolgens het relevante breekpunt binnen de Spike ORF bepaald door de methode opnieuw uit te voeren op de Spike-only uitlijning. Het geaccepteerde breekpunt (positie 24058 in het RmYN02-genoom) werd consequent genoemd door 6 van de 7 geteste methoden (RDP, GENECONV, Maxchi, Chimaeara, SiSscan en 3seq). Evenzo werd het voorgaande breekpunt van het niet-nCoV-gebied genoemd op positie 21248 van het RmYN02-genoom (vóór de start van de Spike ORF).

Bayesiaanse gevolgtrekking onder een lokale moleculaire klok

Om de algehele niet-recombinante fylogenetische relatie tussen de virussen te beoordelen, gebruikten we de langste niet-recombinante genomische regio's beschreven in Boni en collega's [6], NRR1 en NRR2 en voegden we RmYN02 toe aan de uitlijningen. Op basis van de recombinatiebreekpunten die hierboven zijn bepaald voor RmYN02, werd NRR2 aangepast om te eindigen op positie 21266 van Wuhan-Hu-1, in plaats van 21753, wat overeenkomt met het begin van het RmYN02-recombinante gebied (RmYN02-positie 21248). In de tijd gemeten evolutionaire geschiedenissen voor NRR1 en NRR2 werden afgeleid met behulp van een Bayesiaanse benadering, geïmplementeerd via het Markov-keten Monte Carlo (MCMC) -raamwerk dat beschikbaar is in BEAST 1.10 [58]. Gemotiveerd door de waarneming van een grotere divergentie van wortel tot punt voor de nCoV-clade (zie S3 Text en S5 Fig) en door de CpG-kenmerkverschuiving op de voorouderlijke tak van de nCoV-clade (zie hieronder), specificeerden we een vaste lokale klok [76] waardoor een ander tarief mogelijk is op de tak die naar de nCoV-clade leidt. Bij afwezigheid van een sterk temporeel signaal, specificeerden we een informatieve normale eerdere verdeling (met gemiddelde = 0,0005 en standaarddeviatie = 0,0002) op de snelheid op alle andere takken op basis van recente schattingen onder een ontspannen moleculaire klok [77]. Om de algemene topologie onder het lokale klokmodel te behouden, hebben we het Keniaanse (KY352407) vleermuisvirus beperkt als outgroup voor de virussen uit China in NRR1, en het Keniaanse en Bulgaarse vleermuisvirus (NC_014470) als outgroup voor de virussen uit China in NRR2. We hebben de coderende regio's van NRR1 en NNR2 gepartitioneerd op codonpositie en een onafhankelijk algemeen tijdomkeerbaar (GTR) substitutiemodel gespecificeerd met variatie in gamma-distributiesnelheid tussen locaties voor elk van de 3 partities. We gebruikten een coalescentiemodel van constante grootte als boom prior en specificeerden een lognormale prior met gemiddelde = 6,0 en standaarddeviatie = 0,5 op de populatiegrootte. Voor elke dataset werden drie onafhankelijke MCMC-analyses uitgevoerd voor 250 miljoen staten. We gebruikten de BEAGLE-bibliotheek v3 [78] om de rekenprestaties te verbeteren. Voor de volledigheid hebben we dezelfde analyse uitgevoerd, waarbij het lokale klokmodel op de hele nCoV-clade werd gespecificeerd in plaats van alleen de vertakking die ernaartoe leidde. Dit heeft een effect op de substitutiesnelheid en de schattingen van de knooptijd, maar we kunnen formeel niet onderscheiden welk model het beste past (S3-tekst). We hebben ons gericht op het lokale klokmodel met alleen vertakkingen, omdat het direct onze hypothese test dat de snelheidsverandering is gekoppeld aan de CpG-adaptieve verschuiving die specifiek is voor die vertakking. Fig. 3A presenteert de fylogenie voor NRR2 omdat dit het langste intacte niet-recombinante gebied is en mogelijk betrouwbaardere schattingen zou kunnen opleveren. De aanvullende NRR1-fylogenieën en nCoV-clade lokale modelfylogenieën worden gepresenteerd in S3-tekst. BEAST-parameter-XML-bestanden worden geleverd in S1 Data (uitlijning van de volgorde is uitgesloten om te voldoen aan de GISAID-beperkingen voor het delen van gegevens). Continue parameters werden samengevat en effectieve steekproefomvang werd geschat met behulp van Tracer [79]. Schattingen van de divergentietijd voor de nCoV-clade zijn samengevat in S3 Text. Bomen werden samengevat als maximale clade credibility (MCC) bomen met behulp van TreeAnnotator en gevisualiseerd met behulp van FigTree (//tree.bio.ed.ac.uk/software/figtree/).

Verschuivingen in CpG-inhoud identificeren

Verschuivingen in CpG-gehalte werden geïdentificeerd met behulp van een fylogenetische vergelijkende methode die adaptieve verschuivingen in multivariate gecorreleerde eigenschappen afleidt met het R-pakket PhylogeneticEM [56]. Deze benadering modelleert de evolutie van eigenschappen op fylogenieën met behulp van een Ornstein-Uhlenbeck (OU) -proces en gebruikt een rekenkundig hanteerbare versie van het volledige multivariate OU-model (scalaire OU) voor multivariate eigenschappen. Schattingen van de schakelposities worden verkregen met behulp van een Expectation-Maximization (EM) -algoritme. De ploegposities worden geschat voor verschillende aantallen onbekende ploegen, en een selectieprocedure voor het lasso-regressiemodel identificeert het optimale aantal ploegen. We hebben de procedure toegepast op de MCC-bomen voor NRR1 en NRR2 met hun respectievelijke CpG SDUc-waarden (ln getransformeerd zoals vereist door de fylogenetische benadering). De bomen werden gedwongen om ultrametrisch te zijn, zoals vereist voor het scalaire OU-model, door alle buitenranden van de bomen uit te breiden om overeen te komen met de meest recent bemonsterde punt. Met behulp van deze procedure hebben we 3 en 2 CpG-verschuivingen in zowel NRR1 als NRR2 geïdentificeerd (S6 Fig), waarbij de verschuiving op de voorouderlijke tak naar de nCoV-clade de enige consistente is die in beide genomische regio's is geïdentificeerd (Fig 3A).


Resultaten

Beoordeling op gesimuleerde gegevens

Uit alle gegevens hebben we het meest waarschijnlijke model afgeleid, dat de schatting gaf van ω, en vervolgens gebruikten we onze benadering om d . te schattenN, NSS, en d N d S .

Wanneer ω wordt geschat met een stationair model, een afnemend G + C-gehalte langs de boom resulteert in een systematische overschatting van ω, en een toenemend G + C-gehalte resulteert in een systematische onderschatting van ω (zie aanvullende fig. S1 een, Aanvullend materiaal online). We observeren vergelijkbare vooroordelen in de schattingen van d N d S geschat met stochastische mapping (fig. 1e).

schattingen van dN, NSS, en d N d S met een stationair model (links) en met een niet-stationair model (rechts), op gesimuleerde gegevens met veranderende G + C-inhoud en ω = 0,1 ⁠ . θwortel: G + C frequentie in de wortelreeks. θgelijk aan: G + C evenwichtsfrequentie van het simulatiemodel.

schattingen van dN, NSS, en d N d S met een stationair model (links) en met een niet-stationair model (rechts), op gesimuleerde gegevens met veranderende G + C-inhoud en ω = 0,1 ⁠ . θwortel: G + C frequentie in de wortelreeks. θgelijk aan: G + C evenwichtsfrequentie van het simulatiemodel.

Deze onder- of overschattingen kunnen leiden tot een foutieve kwalitatieve interpretatie van selectie, aangezien twijfelachtige positieve selectie kan worden afgeleid bij afnemend GC-gehalte, of twijfelachtige negatieve selectie bij toenemend GC-gehalte (zoals geïllustreerd in simulaties met neutrale en bijna neutrale modellen , zie aanvullende figuren S2-S4, aanvullend materiaal online). We hebben ook simulaties uitgevoerd waarbij het G + C-gehalte van één specifieke codonpositie evolueerde, en de twee andere bleven stationair met 50% G + C. Nogmaals, we hebben waargenomen dat modellen die stationariteit veronderstellen leiden tot vertekende schattingen van substitutiesnelheden en van ω (zie aanvullende figuren S6-S8, aanvullend materiaal online). Interessant is dat de oriëntatie van de bias anders is, of de G + C veranderende positie de derde (d.w.z. de meest synonieme) is of niet. Daarom kunnen verschillende combinaties van positiespecifieke G + C-veranderingen resulteren in verschillende soorten vooroordelen.

Voor zover het (niet) synonieme substitutiepercentages betreft, wordt aangenomen dat stationariteit zowel de schattingen van dN en doeS op vergelijkbare manieren (fig. 1a en c). Deze waarden worden meestal onderschat wanneer het evenwicht GC heel anders is dan 0,5 en het GC-gehalte verandert (naar boven of naar beneden) (fig. 2). Dus in deze gevallen zijn de afgeleide bomen te kort.

Verhouding van substitutiepercentages geschat met stationair model ten opzichte van substitutiepercentages geschat met niet-stationair model. Sequenties werden gesimuleerd met veranderend G + C-gehalte en ω = 0.1 ⁠ . Links: dN. Rechts: dS. θwortel: G + C frequentie in de wortelreeks. θgelijk aan: G + C evenwichtsfrequentie van het simulatiemodel.

Verhouding van substitutiepercentages geschat met stationair model ten opzichte van substitutiepercentages geschat met niet-stationair model. Sequenties werden gesimuleerd met veranderend G + C-gehalte en ω = 0.1 ⁠ . Links: dN. Rechts: dS. θwortel: G + C frequentie in de wortelreeks. θgelijk aan: G + C evenwichtsfrequentie van het simulatiemodel.

Om te controleren of deze vertekeningen niet te wijten zijn aan onze methode, hebben we dezelfde schattingen ook uitgevoerd onder stationaire aanname met codeml (Yang en Nielsen 2000), en de resultaten vertonen vergelijkbare vooroordelen (zie aanvullend fig. S9, aanvullend materiaal online).

Al deze vooroordelen worden gecorrigeerd wanneer onze aanpak wordt gebruikt met een niet-stationair model, zowel voor ω (aanvullend fig. S1 B, Aanvullend materiaal online), dN, NSS, en d N d S (fig. 1b, d en f), en zelfs wanneer de niet-stationariteit verschilt tussen codonposities (zie aanvullende figuren S6-S8, aanvullend materiaal online).

Interessant is dat we hebben waargenomen dat schattingen van dN en doeS afnemen met evenwicht GC-gehalte (fig. 1b en d). Dit is niet te wijten aan onze methode, aangezien bij stationaire processen schattingen van dN en doeS berekend met codeml laten een vergelijkbare trend zien (zie de stippellijn in aanvullend fig. S9, aanvullend materiaal online). Deze relatie tussen dN of dS en evenwicht GC inhoud hangt af van de waarde van omega. Wanneer ω laag is, is deze correlatie negatief (fig. 1b en d), wanneer ω gelijk is aan 1 de correlatie is nul (aanvullend fig. S3, aanvullend materiaal online), en wordt positief als ω hoger wordt dan 1 (bijv. for ω = 2 zie aanvullende afb. S5, Aanvullend materiaal online).

Opgemerkt moet worden dat wanneer de dynamiek van GC-inhoud heterogeen is, de vertekening niet systematisch in dezelfde richting is of GC toeneemt (of afneemt), maar ook afhangt van de GC van andere takken, aangezien een stationaire modellering (en dus homogeen) zal schat het GC-evenwicht van alle takken. Op dezelfde boom hebben we bijvoorbeeld een model in overweging genomen met stationaire GC van de wortel tot de bladeren van de primaten en veranderende GC op de takken die leiden tot hond en knaagdieren. Zoals weergegeven in figuur 3, zijn schattingen van d N d S op takken van primaten vertekend met de hypothese van stationariteit, hoewel het proces inderdaad stationair is op deze takken. Maar de niet-stationariteit op de andere takken misleidt het geschatte stationaire model.

schatting van dN, NSS, en d N d S op takken van primaten met een stationair model (links), en een niet-stationair niet-homogeen model (rechts), op gesimuleerde gegevens met veranderend G + C-gehalte op takken van honden en knaagdieren, en ω = 0.1 ⁠ . θwortel: G + C-frequentie in de wortel- en primatensequenties. θgelijk aan: G + C evenwichtsfrequentie van het simulatiemodel op honden- en knaagdiertakken.

schatting van dN, NSS, en d N d S op takken van primaten met een stationair model (links), en een niet-stationair niet-homogeen model (rechts), op gesimuleerde gegevens met veranderend G + C-gehalte op takken van honden en knaagdieren, en ω = 0.1 ⁠ . θwortel: G + C-frequentie in de wortel- en primatensequenties. θgelijk aan: G + C evenwichtsfrequentie van het simulatiemodel op honden- en knaagdiertakken.

Studie over zoogdierdataset

We hebben twee verschillende maximale waarschijnlijkheidsschattingen van de zoogdiergegevensset uitgevoerd: een stationair homogeen YN98 + F3X4-model (21 vertakkings- en modelparameters) en een niet-stationair niet-homogeen model (31 aanvullende parameters) met drie homogene YN98-modellen, één voor de primatenclade, één voor de knaagdierclade en één voor de hondentak. We gebruikten drie modellen om de heterogeniteit in evenwichts-GC-inhoud te matchen die werd gevonden tussen deze clades Romiguier et al. (2010). We hebben d . berekendN (resp. dS) in de primatenclade door de stochastische afbeelding d . op te tellenN (resp. dS) van alle takken van deze clade.

Omdat de modellen genest zijn, hebben we waarschijnlijkheidsratio-tests uitgevoerd op alle schattingen en meerdere tests gecorrigeerd met behulp van Benjamini-Hochberg-correctie. De toename in waarschijnlijkheid is significant (met een LRT-test met 31 vrijheidsgraden) met een FDR-waarde van 1%, in 83,4% van de genen (fig. 4).

Log10 van de verschillen in log-waarschijnlijkheid tussen stationaire en niet-stationaire modellen op zoogdiergegevens. De rode lijn staat voor de 5% FDR-drempel.

Log10 van de verschillen in log-waarschijnlijkheid tussen stationaire en niet-stationaire modellen op zoogdiergegevens. De rode lijn staat voor de 5% FDR-drempel.

Als we de schattingen van stationaire versus niet-stationaire modellering vergelijken, zien we dat de schattingen van dN zijn meestal lager, maar niet gecorreleerd met de evolutie van het GC-gehalte op de derde codonpositie (GC3) (fig. 5). Integendeel, we zien een invloed van de evolutie in GC3 op de bias in de schatting van dS, en dan een belangrijkere onderschatting van d N d S met genen ver van stationariteit in GC3. Zoals opgemerkt in de simulatiesectie, is de vertekening niet gecorreleerd met het teken van verandering in GC3 omdat we een niet-homogene modellering hebben uitgevoerd, en de vertekening hangt ook af van de evolutie van GC-inhoud in de andere takken. Het effect is echter behoorlijk merkbaar: de relatieve fout op ω schatting is minimaal 10% voor 59% van de genen, of minimaal 33% voor 13,4% van de genen (fig. 6).

log2 van de verhoudingen van schattingen van dN, NSS, en dN/NSS met een stationair model over de schattingen met een niet-stationair model, volgens de verandering in GC3 inhoud in de primatenclade.

log2 van de verhoudingen van schattingen van dN, NSS, en dN/NSS met een stationair model over de schattingen met een niet-stationair model, volgens de verandering in GC3 inhoud in de primatenclade.

Histogram van de verhoudingen in schattingen van ω in stationair model over niet-stationair model op zoogdiergegevens. Gele, oranje en rode lijnen staan ​​voor 12,5%, 25% en 37,5% kwantielen. De paarse lijn geeft de mediaan weer.

Histogram van de verhoudingen in schattingen van ω in stationair model over niet-stationair model op zoogdiergegevens. Gele, oranje en rode lijnen staan ​​voor 12,5%, 25% en 37,5% kwantielen. De paarse lijn geeft de mediaan weer.


Methoden en materialen

Overzicht van het simulatieproces

ALF genereert een reeks soortengenomen uitgaande van een enkele voorouderlijke genoomsequentie. Het voorouderlijke genoom kan worden weergegeven door biologische sequenties die door de gebruiker worden geleverd of willekeurig worden gegenereerd volgens gebruikersspecificaties. Een soortenboom kan ook door de gebruiker worden gespecificeerd of willekeurig worden gegenereerd. In de loop van de simulatie evolueert ALF het wortelgenoom langs de boom, waarbij elk knooppunt een soortvormingsgebeurtenis definieert. De opkomende genomen worden blootgesteld aan de evolutionaire processen die in ALF zijn geïmplementeerd.

Figuur 1 geeft een grafisch overzicht van de ALF-simulatiepijplijn. Karaktersubstituties vinden plaats volgens de substitutiewaarschijnlijkheidsmatrix van een geselecteerd aminozuur-, codon- of nucleotidemodel voor een gegeven vertakkingslengte. Er kunnen verschillende modellen worden gespecificeerd voor simulatie, bijvoorbeeld één codon- en één nucleotidemodel zouden kunnen worden gebruikt om respectievelijk coderende en niet-coderende gebieden te onderscheiden. De substitutiesnelheid kan verschillen over sites en genen. Met ALF kan elke soort zijn eigen onderliggende evenwichtsbasisfrequenties hebben, bijvoorbeeld om drift naar soortspecifieke GC-inhoud te simuleren.

Overzicht van het ALF-simulatieproces. Een wortelgenoom is geëvolueerd langs een soortboom. Gebeurtenissen op locatie-, sequentie- en genoomniveau worden iteratief gesimuleerd.


Mitochondriaal DNA-mutatiesnelheden

Een probleem is dat mutatiesnelheden niet bekend zijn door directe meting, en vaak worden berekend op basis van veronderstelde evolutionaire tijdschalen. Al deze leeftijdsschattingen kunnen dus sterk fout zijn. In feite worden door verschillende biologen veel verschillende mutatiesnelheden geciteerd.

Het zou niet zo moeilijk moeten zijn om expliciet de mate van mutatie van mitochondriaal DNA te meten om een ​​betere schatting te krijgen van deze leeftijd. Uit koninklijke geslachten kon men bijvoorbeeld twee individuen vinden wier meest recente gemeenschappelijke voorouder van moederskant bijvoorbeeld 1000 jaar geleden was. Men zou dan de verschillen in het mitochondriaal DNA van deze individuen kunnen meten om de mutatiesnelheid te binden. Dit schema is aantrekkelijk omdat het niet afhankelijk is van radiometrische datering of andere veronderstellingen over evolutie of mutatiesnelheden. Het is mogelijk dat er over 1000 jaar te weinig verschil is om te meten. Dit zou ons in ieder geval nog wat nuttige informatie geven.

(Een project voor creationistische wetenschappers!)

Langs deze lijn is recentelijk enig werk gedaan om de substitutiesnelheid in mitochondriaal DNA expliciet te meten. De referentie is Parsons, Thomas J., et al., Een hoge waargenomen substitutiesnelheid in het humane mitochondriale DNA-controlegebied, Nature Genetics vol. 15, april 1997, blz. 363-367. De samenvatting volgt:

"De snelheid en het patroon van sequentiesubstituties in het mitochondriale DNA (mtDNA) -controlegebied (CR) is van centraal belang voor studies van menselijke evolutie en forensische identiteitstesten. Hier rapporteren we een directe meting van de intergenerationele substitutiesnelheid bij de mens CR. We vergeleken DNA-sequenties van twee CR-hypervariabele segmenten van naaste verwanten van de moeder, van 134 onafhankelijke mtDNA-lijnen die 327 generatiegebeurtenissen omvatten. Er werden tien substituties waargenomen, resulterend in een empirische snelheid van 1/33 generaties, of 2,5/site/Myr. is ongeveer twintig keer hoger dan schattingen afgeleid van fylogenetische analyses.Deze ongelijkheid kan niet eenvoudig worden verklaard door substituties op mutatiehotspots, wat extra factoren suggereert die de discrepantie veroorzaken tussen de schijnbare mate van sequentiedivergentie op zeer korte termijn en op lange termijn. gegevens geven ook aan dat extreem snelle segregatie van CR-sequentievarianten tussen generaties gebruikelijk is bij mensen, met een zeer kleine mtDN Een knelpunt. Deze resultaten hebben implicaties voor forensische toepassingen en studies van menselijke evolutie." (op. cit. p. 363).

"Het waargenomen substitutiepercentage dat hier wordt gerapporteerd, is erg hoog in vergelijking met de percentages die zijn afgeleid uit evolutionaire studies. Een breed scala aan CR-substitutiepercentages is afgeleid van fylogenetische studies, die ongeveer 0,025-0,26 / site / Myr omvatten, inclusief betrouwbaarheidsintervallen. Een studie die er een opleverde van de snellere schattingen gaf de substitutiesnelheid van de CR-hypervariabele regio's als 0,118 +- 0,031/site/Myr. Uitgaande van een generatietijd van 20 jaar, komt dit overeen met

1/600 generaties en een leeftijd voor het mtDNA MRCA van 133.000 jaar. Onze waarneming van het substitutiepercentage, 2.5/site/Myr, is dus ongeveer 20 keer hoger dan zou worden voorspeld op basis van fylogenetische analyses. Het gebruik van onze empirische snelheid om de moleculaire klok van mtDNA te kalibreren zou resulteren in een leeftijd van de mtDNA MRCA van slechts

6.500 jaar, duidelijk onverenigbaar met de bekende leeftijd van de moderne mens. Zelfs als we erkennen dat de MRCA van mtDNA jonger kan zijn dan de MRCA van de moderne mens, blijft het onwaarschijnlijk om de bekende geografische spreiding van de variatie in mtDNA-sequenties te verklaren door menselijke migratie die pas in de afgelopen jaren heeft plaatsgevonden.

Een bioloog verklaarde de jonge leeftijdsschatting door in wezen aan te nemen dat 19/20 van de mutaties in dit controlegebied enigszins schadelijk zijn en uiteindelijk uit de populatie zullen worden geëlimineerd. Dit lijkt onwaarschijnlijk, omdat dit gebied de neiging heeft veel te variëren en daarom waarschijnlijk weinig functie heeft. Bovendien zou het selectieve nadeel van deze 19/20 van de mutaties ongeveer 1/300 of hoger moeten zijn om te voorkomen dat er meer divergentie in sequenties ontstaat dan in meer dan 6000 jaar wordt waargenomen. Dit betekent dat één op de 300 personen zou moeten sterven aan mutaties in deze regio. Dit lijkt een hoog cijfer voor een regio die grotendeels zonder functie lijkt te zijn. Het is interessant dat dezelfde bioloog van mening is dat 9/10 van de mutaties in coderende DNA-gebieden neutraal zijn. Dit maakt de coderende gebieden van DNA minder beperkt dan het schijnbaar functieloze controlegebied van het mitochondriale DNA!


Elektronisch aanvullend materiaal is online beschikbaar op https://dx.doi.org/10.6084/m9.figshare.c.4084511.

Uitgegeven door de Royal Society. Alle rechten voorbehouden.

Referenties

. 1991 Adaptieve eiwitevolutie aan de Adho locus in Drosophila . Natuur 351, 652-654. (doi:10.1038/351652a0) Crossref, PubMed, ISI, Google Scholar

Eyre-Walker A, Keightley PD

. 2009 Schatting van de snelheid van adaptieve moleculaire evolutie in aanwezigheid van enigszins schadelijke mutaties en verandering in populatiegrootte. Mol. Biol. Evol. 26, 2097-2108. (doi:10.1093/molbev/msp119) Crossref, PubMed, ISI, Google Scholar

. 2013 Frequente aanpassing en de McDonald-Kreitman-test. Proc. Natl Acad. Wetenschap. VS 110, 8615-8620. (doi:10.1073/pnas.1220835110) Crossref, PubMed, ISI, Google Scholar

. 2016 Adaptieve eiwitevolutie bij dieren en de hypothese van de effectieve populatiegrootte. PLoS Genet. 12, e1005774. (doi:10.1371/journal.pgen.1005774) Crossref, PubMed, ISI, Google Scholar

Tataru P, Mollion M, Glémin S, Bataillon T

. 2017 Inferentie van distributie van fitnesseffecten en aandeel van adaptieve substituties uit polymorfismegegevens. Genetica 207, 1103-1119. (doi:10.1534/genetics.117.300323) Crossref, PubMed, ISI, Google Scholar

. 2002 Veranderende effectieve populatieomvang en de McDonald-Kreitman-test. Genetica 162, 2017-2024. PubMed, ISI, Google Scholar

. 1962 Over de waarschijnlijkheid van fixatie van mutante genen in een populatie. Genetica 47, 713-719. PubMed, ISI, Google Scholar

. 1999 Postglaciale herkolonisatie van Europese biota. Biol. J. Linn. soc. 68, 87-112. (doi:10.1111/j.1095-8312.1999.tb01160.x) Crossref, ISI, Google Scholar

. 2001 Cryptische noordelijke refugia en de oorsprong van de moderne biota. Trends Ecol. Evol. 16, 608-613. (doi:10.1016/S0169-5347(01)02338-2) Crossref, ISI, Google Scholar

. 2006 Ecologische en evolutionaire reacties op recente klimaatverandering. Ann. Rev. Ecol. Evol. Syst. 37, 637-669. (doi: 10.1146/annurev.ecolsys.37.091305.110100) Crossref, ISI, Google Scholar

. 2017 SLiM 2: flexibele, interactieve voorwaartse genetische simulaties. Mol. Biol. Evol. 34, 230-240. (doi:10.1093/molbev/msw211) Crossref, PubMed, ISI, Google Scholar

. 2002 Mutatiesnelheden in het genoom van zoogdieren. Proc. Natl Acad. Wetenschap. VS 99, 803-808. (doi:10.1073/pnas.022629899) Crossref, PubMed, ISI, Google Scholar

Stapley J, Feulner PG, Johnston SE, Santure AW, Smadja CM

. 2017 Variatie in recombinatiefrequentie en distributie over eukaryoten: patronen en processen. Fil. Trans. R. Soc. B. 372, 20160455. (doi:10.1098/rstb.2016.0455) Link, ISI, Google Scholar

Eyre-Walker A, Woolfit M, Phelps T

. 2006 De verdeling van fitnesseffecten van nieuwe schadelijke aminozuurmutaties bij mensen. Genetica 173, 891-900. (doi:10.1534/genetics.106.057570) Crossref, PubMed, ISI, Google Scholar

Rousselle M, Mollion M, Nabholz B, Bataillon T, Galtier N

. 2018 Gegevens uit: Overschatting van de adaptieve substitutiesnelheid in fluctuerende populaties. Dryad digitale opslagplaats. (doi:10.5061/dryad.85qb2r1) Google Scholar


Bekijk de video: mutaties en kanker (November 2021).