Informatie

Coalescentietheorie - onafhankelijkheid van coalescentietijden


Laat $T_i$ de tijd zijn om samen te smelten van $n(t)=i+1$ naar $n(t)=i$, waarbij $n(t)$ het aantal sites is dat nog niet is samengevoegd. In het onderstaande voorbeeld is het maximum $n(0)=6$.

Zoals ik het begrijp, hangen veel wiskundige ontwikkelingen in de coalescentietheorie af van het feit dat de willekeurige variabelen $T_i$ onafhankelijk zijn (maar niet identiek verdeeld). Met andere woorden…

$$f_{T_n, T_{n-1},… . T_3, T_2}(t_n, t_{n-1},… .,t_3, t_2) = prod_{i=2}^n f_{T_i}(t_i)$$

Wat zijn de aannames om deze vergelijking waar te maken? Hieronder enkele suggesties

  • Geen selectie
  • Selectie varieert niet door de tijd
  • Stabiele bevolkingsomvang
  • Willekeurige paring
  • Beide geslachten hebben dezelfde genetische achtergrond
  • Beide geslachten hebben dezelfde variantie in fitness

bron


Zolang leden van een generatie "willekeurig" hun voorouder in de vorige generatie kiezen, zal de wet van onafhankelijke waarschijnlijkheid (uw vergelijking) gelden.

Elke studie van de coalescentietheorie begint met het Wright-Fisher-model. De aannames zijn:

  • eindige diploïde populatie van constante grootte N,
  • niet-overlappende generaties (gelijktijdige reproductie),
  • willekeurige paring,
  • geen mutatie, selectie of migratie.

Deze aannames zijn consistent met onafhankelijke niet-identiek verdeelde wachttijden. Een voorbeeld van een veronderstelling waarbij onafhankelijkheid niet langer geldt:

De willekeurige keuze van individu B in generatie 2 van voorouder A in generatie 1 verkleint de kans dat individu C in generatie 2 voor A zal kiezen. Met andere woorden, de kans dat A zijn genen aan de volgende generatie zal geven, neemt af bij elke nieuwe ontvanger. Dan geldt de onafhankelijkheid niet meer.

Zie bijv. Deonier, Computational Genome Analysis (2005, Springer) op blz. 392 e.v.

J. Wakely's paper Coalescentietheorie: een inleiding (Systematic Biology, 58:1, feb. 2009) is misschien wel een van de beste overzichten van dit immense onderwerp dat beschikbaar is. Hij noemt Kingman's wiskundige bewijs uit 1982 (dat ik niet heb doorgenomen) van het coalescentieproces (Stochastic Processes and their Applications 13 (1982) - beschikbaar als gratis download van ScienceDirect).


Asymptotische verdelingen van coalescentietijden en voorouderlijke afstammingsnummers voor populaties met tijdelijk variërende grootte

De verdelingen van coalescentietijden en voorouderlijke afstammingsnummers spelen een essentiële rol bij coalescentiemodellering en voorouderlijke gevolgtrekkingen. Zowel exacte verdelingen van samensmeltingstijden als voorouderlijke afstammingsnummers worden uitgedrukt als de som van afwisselende reeksen, en de termen in de reeks worden numeriek onhandelbaar voor grote steekproeven. Meer computationeel aantrekkelijk zijn hun asymptotische verdelingen, die werden afgeleid in Griffiths (1984) voor populaties met constante grootte. In dit artikel leiden we de asymptotische verdelingen af ​​van samensmeltingstijden en voorouderlijke afstammingsnummers voor populaties met een tijdelijk variërende grootte. Voor een voorbeeld van maat N, duiden door tm de mde coalescentietijd, wanneer? m + 1 lijnen vloeien samen in m geslachten, en EENN(t) het aantal voorouderlijke lijnen op dat moment t terug van de huidige generatie. Net als bij de resultaten in Griffiths (1984), is het aantal voorouderlijke lijnen, EENN(t), en de samensmeltingstijden, tm, zijn asymptotisch normaal, waarbij het gemiddelde en de variantie van deze verdelingen afhankelijk zijn van de functie van de populatiegrootte, N(t). In het zeer vroege stadium van de coalescentie, wanneer t → 0, het aantal samengevoegde geslachten NEENN(t) volgt een Poisson-verdeling, en as mN, N(N − 1)tm/2N(0) volgt een gammaverdeling. We demonstreren de nauwkeurigheid van de asymptotische benaderingen door te vergelijken met zowel exacte verdelingen als coalescentiesimulaties. Verschillende toepassingen van de theoretische resultaten worden ook getoond: het afleiden van statistieken met betrekking tot de eigenschappen van genealogieën, zoals de tijd tot de meest recente gemeenschappelijke voorouder (TMRCA) en de totale vertakkingslengte (TBL) van de genealogie, en het afleiden van de allelfrequentie spectrum voor grote genealogieën. Met de komst van sequentiegegevens op genomisch niveau voor grote steekproeven, wordt verwacht dat de asymptotische distributies brede toepassingen zullen hebben in theoretische en methodologische ontwikkeling voor genetische populatie-inferentie.

COALESCENT-theorie biedt een fundamenteel raamwerk voor stochastische modellering en waarschijnlijkheidsinferentie in populatiegenetische studies (Griffiths 1980 Kingman 1982a Hudson 1990 Nordborg 2001). Een coalescentieproces kan worden ontleed in twee onafhankelijke processen: de topologie van de genealogie van genen en het sequentiële proces van intercoalescentietijden (Kingman 1982a). In dit artikel willen we dit laatste proces onderzoeken en twee belangrijke willekeurige grootheden die met dit proces samenhangen: de samensmeltingstijden en het aantal voorouderlijke lijnen (Kingman 1982a). Het bestuderen van de twee grootheden is zowel biologisch als theoretisch zinvol. Ten eerste helpt het afleiden van de samensmeltingstijden en het aantal oude afstammingslijnen van een hedendaagse steekproef of populatie om de oude demografische geschiedenis op te helderen, inclusief populatievermenging, migratie en oprichterseffect. Het kan ook inzicht verschaffen in medische studies met betrekking tot de oorsprong en genetische architectuur van erfelijke ziekten in verschillende populaties, evenals in ecologische studies, bijvoorbeeld over het onderzoeken van het proces van invasie van soorten (Risch et al. 2003 Anderson en Slatkin 2007 Dlugosch en Parker 2007). Ten tweede zijn de verdelingen van coalescentietijden en voorouderlijke afstammingsnummers de essentiële componenten die nodig zijn om een ​​coalescentiewaarschijnlijkheid te construeren, bijvoorbeeld in de allelfrequentiespectrumgebaseerde benaderingen (Tavar'x000e9 1984 Griffiths en Tavar'x000e9 1998 Polanski en Kimmel 2003 Chen 2012 ).

De exacte verdeling van het aantal voorouderlijke lijnen op t generaties geleden voor N haplotypes die momenteel willekeurig zijn verzameld, EENN(t), t ≥ 0, werd afgeleid in Tavaré (1984) onder het samensmelten van constante populaties (vergelijking 15 onder Asymptotiek van voorouderlijke afstammingsnummers zie ook Griffiths 1980, Donnelly 1984, Watterson 1984 en Takahata en Nei 1985). De exacte verdeling heeft connecties met de Ewens'x02019-steekproefformule onder het oneindig veel-allelen-model (Ewens 1972). In een later onderzoek werd de vergelijking uitgebreid naar populaties met een tijdelijk variërende grootte (Griffiths en Tavar'x000e9 1998). De rudimentaire vergelijkingen in Tavar'x000e9 (1984) en Griffiths en Tavar'x000e9 (1998) zijn zeer nuttig bij de ontwikkeling van methoden. Beide exacte verdelingen worden echter uitgedrukt als de sommen van reeksen met afwisselende tekens, en de coëfficiënten van de reeks worden numeriek onstabiel wanneer N > 50.

Als een andere belangrijke grootheid in het coalescentieproces, de coalescentietijd, tm, gedefinieerd als de tijd waarop m + 1 geslachten fuseren tot m geslachten, staat bekend als een som van Nm intercoalescentie tijden. Deze Nm intercoalescentietijden worden verdeeld als onafhankelijke exponentiële variabelen met verschillende respectieve snelheden k(k − 1)/2, k = N, …, m + 1 onder een model met constante populatiegrootte. Op basis hiervan zijn de analytische uitdrukkingen van veel statistieken afgeleid. Voor populaties met in de tijd variërende grootte zijn de intercoalescentietijden niet langer onafhankelijk. Griffiths en Tavar'x000e9 (1998) en Polanski et al. (2003) hebben de verdeling van de samensmeltingstijden onder een tijdelijk variabel populatieomvangmodel nog steeds afgeleid als een som van reeksen, en de evaluatie van de coëfficiënten lijdt ook onder het numerieke probleem wanneer de steekproefomvang groot is.

Het numerieke probleem dat wordt veroorzaakt door een grote steekproefomvang wordt een onmisbare vraag met de snelle opkomst van grootschalige sequentiegegevens voor steekproeven van duizenden individuen (Mardis 2008 Altshuler et al. 2010 Coventry et al. 2010), wat aan de andere kant een ongekende kans biedt voor populatiegenetisch onderzoek. Er worden grote inspanningen geleverd om computationeel efficiënte benaderingen te ontwikkelen voor de analyse van genomische gegevens met een grote steekproefomvang. De meeste bestaande op coalescentie gebaseerde inferentiemethoden in populatiegenetica zijn gebaseerd op steekproefbenaderingen met intensieve berekening, zoals belangrijkheidssteekproef en Markov-keten Monte Carlo, om te integreren over de ruimte van genealogieën (Griffiths en Tavar'x000e9 1994b Felsenstein et al. 1999), en zijn dus alleen van toepassing voor het analyseren van lokale genomische regio's in kleine steekproeven. Een recent ontwikkelde methode, gecentreerd op een op coalescentie gebaseerd gezamenlijk allelfrequentiespectrum (JAFS) (Chen 2012), wint aan rekenefficiëntie voor de analyse van genomische gegevens van meerdere populaties, aangezien de auteur de afgeleide analytische vorm van de op coalescentie gebaseerde JAFS gebruikte. in plaats van de steekproeven. Een van de beperkingen is dat de auteur de JAFS heeft afgeleid op basis van de vergelijkingen van Tavar'x000e9 (1984) en Griffiths en Tavar'000e9 (1998), en de numerieke problemen van deze vergelijkingen beperken het gebruik van de JAFS tot kleine genealogieën.

Griffiths (2006) vereenvoudigde de berekening van de exacte afstammingsverdeling door de som van afwisselende reeksen te vervangen door de hypergeometrische functie, die een representatie heeft in termen van een complexe integraal en kan worden geëvalueerd door numerieke integratie of simulatie. Omdat de distributie niet in eenvoudige vorm is, kan het het gebruik ervan voor theorie- en methodologieontwikkeling intimideren. Polanski en Kimmel (2003) gebruikten de methoden van hypergeometrische sommatie om het numerieke probleem van grote N bij gebruik van de exacte verdeling van coalescentietijden om het allelfrequentiespectrum (AFS) te verkrijgen onder een in de tijd variërend populatiegroottemodel. Hun methode vermijdt de berekening van de coëfficiënten in de afwisselende reeksen die zullen exploderen wanneer de genealogiegrootte toeneemt. Deze benadering is echter specifiek ontworpen voor de berekening van de AFS voor sommige demografische scenario's en is geen algemene oplossing voor de numerieke instabiliteit in de berekening van de verdelingen van samensmeltingstijden en het aantal voorouderlijke lijnen. Een andere manier om de berekening van de reeks met wisselende tekens te vermijden, is door de asymptotische benadering te gebruiken in plaats van de exacte verdeling. De asymptotische verdelingen hebben als bijkomend voordeel dat ze vaak in eenvoudiger vorm zijn en gemakkelijker voor theorievorming.

De asymptotische theorieën van de samensmeltingstijden en het aantal voorouderlijke lijnen voor grote genealogieën in constante populaties zijn afgeleid door Griffiths (1984). Hij toonde aan dat als t → 0 en de steekproefomvang N, de verdelingen van EENN(t) en tm asymptotisch convergeren naar normale verdelingen. Het essentiële ingrediënt in het bewijs van Griffiths is het toepassen van de stelling van Lyapunov op onafhankelijk verdeelde intercoalescentietijden. Voor populaties met een tijdelijk variërende grootte moet de geldigheid van de stellingen van Griffiths nog worden onderzocht, aangezien de intercoalescentietijden in dit geval afhankelijke variabelen zijn, wat in strijd is met de onafhankelijkheidsaanname van de stelling van Lyapunov (Billingsley 2012). Als we echter de tijd schalen om rekening te houden met de fluctuatie in populatieomvang met ∫ 0 t ( d s / N ( s ) ) ,   t ≥ 0 , waarbij N(⋅) is de functie van de populatiegrootte in de tijd, het coalescentieproces op de nieuwe tijdschaal is gelijk aan het standaard coalescentieproces (Kingman 1982b Griffiths en Tavaré 1994b). De stellingen voor de standaardcoalescentie in Griffiths (1984) kunnen vervolgens worden geleend om asymptotische verdelingen te verkrijgen voor populaties met een tijdelijk variërende grootte. Uitbreiding van de stellingen van Griffiths tot populaties met in de tijd variërende grootte is erg belangrijk voor genetische inferentie van populaties, aangezien de meeste voorouderlijke gevolgtrekkingen gebaseerd zijn op de niet-evenwichts genetische polymorfismepatronen in populaties met temporeel variërende grootte. Ook de bevolkingsomvang en de groeisnelheid zijn zelf demografische parameters van groot belang.

In de volgende paragrafen leiden we eerst af Asymptotische verdelingen voor coalescentietijden en voorouderlijke afstammingsnummers de asymptotische verdelingen van coalescentietijden en het aantal voorouderlijke lijnen voor populaties met een tijdelijk variërende grootte, in het bijzonder voor populaties met exponentiële groei. In Numerieke resultaten we vergelijken vervolgens de asymptotische verdelingen met exacte verdelingen of coalescentiesimulaties als de exacte verdelingen moeilijk te evalueren zijn. We laten zien dat de asymptotische verdelingen van samensmeltingstijden en afstammingsnummers verrassend goed samenvallen met zowel de gesimuleerde als de exacte verdelingen voor een breed scala aan parameters en voor monsters met zelfs een gemiddelde grootte. Laatste in Toepassingen, passen we de asymptotische distributies toe om statistieken af ​​te leiden met betrekking tot de eigenschappen van genealogieën, zoals de verwachte tijd tot de meest recente gemeenschappelijke voorouder (TMRCA) en de totale vertakkingslengtes (TBL), en het afleiden van de AFS voor grote monsters in eenvoudiger analytische formulier. Het artikel wordt afgesloten met een discussie.


Coalescentietheorie: een inleiding

"The Coalescent" is een krachtige uitbreiding van de klassieke populatiegenetica omdat het een verzameling wiskundige modellen is die biologische fenomenen kunnen accommoderen zoals weerspiegeld in genomische gegevens. De theorie werd oorspronkelijk ontwikkeld door Kingman (1982) in drie artikelen die zijn gepubliceerd in tijdschriften over waarschijnlijkheidstheorie, waarin de basis wordt geschetst van de coalescentietheorie als een reeks waarschijnlijkheidsmodellen. Recente publicaties gaan nog steeds in op de wiskundige ontwikkeling van de coalescentie in wiskundige tijdschriften (bijv. Sagitov en Jagers 2005), evenals op vragen in echte biologische systemen. De twee belangrijke punten die uit deze feiten kunnen worden afgeleid, zijn dat, ten eerste, de coalescentietheorie nog steeds een actief en opwindend onderwerp is dat in zijn grondbeginselen en toepassingen verder wordt ontwikkeld, en ten tweede dat elk boek over de coalescentietheorie zwaar zal zijn op de wiskunde.

Het nieuwe boek van John Wakeley wil de fundamenten van de coalescentietheorie samenvatten, en het past zeker in de tweede verwachting. Het primaire publiek zijn populatiegenetici die geïnteresseerd zijn in het verkrijgen van een wiskundig begrip van de coalescentie en de theorie achter "black box" computertoepassingen. Dit boek geeft een overzicht van de wiskundige afleidingen van de belangrijkste aspecten van de coalescentietheorie en enkele specifieke toepassingen in populatiegenetica. De tekst blijft in de eerste plaats in het rijk van de theorie, met slechts enkele punten geïllustreerd met specifieke biologische voorbeelden. Dit boek biedt een uitdagende, maar lonende inleiding tot de coalescentietheorie, en het zal nog geruime tijd een onmisbare tekst blijven.

De nadruk bij het coalescentiedenken ligt op het terugkijken in de tijd van populaties, waarbij de in een populatie waarneembare divergentie wordt gebruikt om de tijd tot een meest recente gemeenschappelijke voorouder (MRCA) te schatten. een enkel biologisch organisme. Coalescentietheorie is afhankelijk van op bomen gebaseerd (genealogisch) denken dat systematisten bekend zijn (Harding 1996). In tegenstelling tot fylogenetische methoden gaat de coalescentietheorie ervan uit dat genealogieën willekeurige variabelen zijn. Dit volgt uit een aanname van mutatieneutraliteit in het basismodel, geen enkele voorouder is meer of minder geschikt of zal waarschijnlijk nakomelingen produceren binnen de genealogie. Ook worden fylogenetische bomen gemeten in termen van substituties of toestandsveranderingen, zonder intrinsieke tijdsdruk. Daarentegen worden coalescentiebomen berekend in termen van tijd, bepaald door een vaste mutatiesnelheid, en coalescentieanalyses gaan daarom uit van een moleculaire klok.

De belangrijkste parameters die worden geschat in coalescentieanalyses zijn de coalescentietijd (het aantal generaties dat is verstreken sinds monsters een voorouder delen) en theta, het geschaalde product van de mutatiesnelheid en effectieve populatiegrootte. Daarom hebben meer diverse populaties langere coalescentietijden en grotere effectieve populatiegroottes dan minder diverse populaties (uitgaande van dezelfde mutatiesnelheid). Het coalescentiemodel kan worden gemanipuleerd om andere deelvragen over populatiediversiteit door de tijd heen te onderzoeken, zoals veranderingen in populatiestructuur en -omvang en de totale lengte van de genealogie (verder terug in de tijd dan de MRCA die momenteel wordt bestudeerd). De modellen gebruiken het uitgangspunt van neutraliteit om de omvang en invloeden van gebeurtenissen op populatieniveau, zoals populatiefluctuatie, migratie, recombinatie en selectie, te simuleren en te testen. Elk wiskundig model belicht, vanwege zijn zwakte of vereenvoudigingen, de niet-gekwantificeerde complexiteit van biologische systemen.

Wakeley's tekst is georganiseerd in 8 hoofdstukken, in 2 helften. De eerste 4 hoofdstukken presenteren de basismodellen of Kingman coalescentie. De tweede helft bevat nieuwer werk en meer complexe toepassingen. Het vereist expliciet een goed begrip van calculus en waarschijnlijkheidstheorie (met name stochastiek), en elke potentiële lezer die zich niet op zijn gemak voelt met die onderwerpen en de bijbehorende wiskundige notatie, wordt aangeraden een kanstheorie-leerboek of een wiskundig ingestelde collega bij de hand te houden. Iedereen die zich op zijn gemak voelt in dit rijk, maar de laatste tijd niet actief stochastische modellen heeft gebruikt, wordt aangeraden de tijd te nemen om de afleidingen door te werken om ze volledig te absorberen.

Hoofdstuk 1 gaat over genealogieën en de algemene aard van genetische processen op populatieniveau. (Als je niet weet wat coalescentietheorie eigenlijk is, en je hebt mijn samenvatting hierboven niet gelezen, dan moet je wachten tot hoofdstuk 3.) Het hoofdstuk bevat een gedetailleerde achtergrond van de modelaannames en een overzicht van relevante literatuur. De paragrafen richten zich met name op achtergrondinformatie over genealogisch denken en het opzetten van de woordenschat voor de coalescentietheorie: mutaties en bespreking van de fundamentele veronderstelling in de basismodellen dat variatie in populatiegenetica selectief neutraal is. Het derde deel gaat over polymorfismen, wat misschien wel het belangrijkste stuk achtergrond van de coalescentietheorie is voor werknemers die geïnteresseerd zijn in genomische gegevens (zie Rosenberg en Nordborg 2002), en wordt in meer detail besproken in hoofdstuk 8. de polymorfismen in de pyruvaatdehydrogenase-subeenheid E1 bij mensen, gebaseerd op een gepubliceerde studie (Harris en Hey 1999).

Hoofdstuk 2 is een beknopte en nuttige opfriscursus kansrekening. Het begint met bekende voorbeelden over gegooide munten en dobbelstenen en gaat snel in dieper water met betrekking tot de eigenschappen van willekeurige variabelen in het algemeen en verder naar basiswaarschijnlijkheidsverdelingen (Bernoulli, binomiale, geometrische en exponentiële verdelingen).Wakeley vindt het onderwerp duidelijk fascinerend en lonend, en dit komt over ondanks de onvermijdelijke snelle destillatie. Het tweede deel van het hoofdstuk gaat in meer detail in op de Poisson-verdeling en de berekening van gebeurtenissen over continue tijd. Bij de bespreking van Poisson-processen is het onderwerp voortdurend en duidelijk gebonden aan toepassingen binnen de coalescentie, maar het vereist toewijding en concentratie van de lezer.

Pas in het derde hoofdstuk pauzeert Wakeley om 'the coalescent' te definiëren (p. 53). Het eerste deel van dit hoofdstuk gaat over basismodellen in de klassieke populatiegenetica: het Wright-Fisher-model en het Moran-model. Net als de wiskundige stof in hoofdstuk 2 is dit zeker bedoeld als opfriscursus en niet als lesgeven vanuit de eerste beginselen. Ten slotte introduceert het tweede deel de afleiding van het standaard coalescentiemodel, in navolging van Kingman (1982) en met gebruikmaking van zowel de wiskundige hulpmiddelen uit hoofdstuk 2 als de theoretische ideeën die eerder in het boek zijn geïntroduceerd. De volgende sectie bespreekt enkele specifieke eigenschappen van de coalescentietheorie voor het onderzoeken van de grootte en structuur van genealogieën. Ten slotte wordt het materiaal uit het hoofdstuk samengevat met een casestudy gebaseerd op het vergelijken van menselijke en Neanderthaler-sequentiegegevens, met behulp van een coalescentiebenadering om te onderzoeken of er een historische kruising tussen de twee was (Nordborg 1998).

De eerste helft van het boek eindigt met een hoofdstuk over neutrale variatie. Dat wil zeggen, hoe de basisaanname van neutraliteit van de coalescentie kan worden gebruikt om patronen van het optreden van polymorfismen af ​​te leiden of te voorspellen. Specifieke paragrafen behandelen metingen van sequentiepolymorfismen en de Ewens-steekproefformule (op zichzelf een substantieel gebied van waarschijnlijkheidstheorie, zoals de auteur vermeldt in hoofdstuk 1, p. 11). Ten slotte behandelt een sectie empirische tests van aannames van neutraliteit en vervolgens een casestudy over positieve selectie in Drosophila.

De tweede helft van de tekst wordt veel meer wiskundig uitdagend en met minder ondersteuning in termen van de uitleg van hoe belangrijke vergelijkingen worden afgeleid. Hoofdstuk 5, over de 'gestructureerde coalescentie', is in feite een hoofdstuk over Markov-ketens en hun toepassing. De laatste 2 secties gaan over biologische toepassingen op geografische barrières, inclusief een case study die genbomen en soortenbomen contrasteert en over het testen van de invloed van sterke selectiedruk op volgende generaties, opnieuw met een uitstekende illustratieve case study van Drosophila literatuur.

Hoofdstuk 6 contrasteert de vroege literatuur over de coalescentiemodellen met zeer recente ontwikkelingen met Markov-processen op 2 tijdschalen. Dit behandelt hoe variatie binnen echte biologische populaties kan worden gemodelleerd en afgeleid. Een ongelijke verhouding van 2 geslachten binnen de populatie versnelt het coalescentieproces omdat de effectieve populatiegrootte kunstmatig kan worden verlaagd. Dat wil zeggen, de effectieve populatieomvang is niet gelijk aan de totale populatieomvang. Dit kan ook worden beïnvloed door grote volumemigratie, gedeeltelijke zelfbevruchting of een groot aantal subpopulaties die niet allemaal volledig overlappen, zoals besproken in andere paragrafen van dit hoofdstuk.

Het zevende hoofdstuk confronteert opnieuw de vroegste basisveronderstelling, selectieve neutraliteit, met meer nauwkeurigheid dan in voorgaande paragrafen. Materiaal hier past de modellen toe op gevallen van selectie en recombinatie met voorouderlijke grafieken. Dit wordt gevolgd door een case study van het menselijk genoom en gaat in feite verder op de gegevens die in de eerste case study zijn gebruikt (hoofdstuk 1).

Ten slotte wordt in hoofdstuk 8 aandacht besteed aan computationele methoden. De voorgaande delen van het boek concentreerden zich volledig op de onderliggende wiskunde van de coalescentietheorie - het doel was om de waarschijnlijkheidstheorie uit te leggen die ten grondslag ligt aan de afleiding van de coalescentie en afgeleide voorouderlijke processen. Door gebruik te maken van theoretische hulpmiddelen, demonstreert Wakeley de robuustheid van de coalescentietheorie en het vermogen om wijzigingen op te nemen die significante afwijkingen van de fundamentele aannames kunnen beschrijven. Dit laatste hoofdstuk gaat dan in op waar de meeste werkende onderzoekers eigenlijk mee omgaan: rekenmodellen en simulaties. Een andere case study, opnieuw van menselijke genetica, introduceert het hoofdstuk. Andere onderwerpen die aan bod komen zijn Monte Carlo-methoden en, van bijzonder belang, het contrast tussen Bayesiaanse en 'frequentistische' (traditionele) statistische modellen. Dit gedeelte had veel uitgebreid kunnen worden, en het wordt aan de geïnteresseerde lezer overgelaten om aanvullende literatuur op een snel groeiend gebied te onderzoeken.

De enige significante tekortkoming van dit boek is een buitengewone hoeveelheid naar voren verwijzende verwijzingen. Op dezelfde manier gaat de auteur vaak uit van te veel vertrouwdheid bij zijn lezers en verwijst hij naar hulpmiddelen en concepten voordat hij ze later in het boek in detail uitlegt. Dit betekent dat het bijna onmogelijk is om het boek vanaf het begin helemaal door te lezen en dat je heen en weer moet springen tussen hoofdstukken om de voortgang van enkele basisideeën te volgen (zoals de definitie van de coalescentietheorie, Markov-processen en genetische polymorfismen).

Dit boek heeft lang op zich laten wachten en secties waren vanaf eind 2004 online beschikbaar. Op het moment van deze recensie biedt de uitgever zelfs nog vroege versies van de eerste 3 hoofdstukken online beschikbaar en een verouderde inhoudsopgave . De vroege, ongepubliceerde versie van dit boek bevatte uitstekende probleemreeksen aan het einde van elk hoofdstuk (opgenomen in de 3 voorbeeldhoofdstukken op de website van de uitgever en aangegeven in de conceptinhoudsopgave). Het is een groot mysterie waarom deze werden uitgesloten van de uiteindelijke publicatie, aangezien probleemoefeningen en oplossingen het boek aanzienlijk toegankelijker zouden hebben gemaakt en zijn bruikbaarheid als leerhulpmiddel drastisch zouden hebben verbeterd.

Het is een beetje verrassend dat er minder leerboeken zijn over het onderwerp coalescentietheorie, gezien het belang van de coalescentie voor de moderne populatiegenetica en de enorme reikwijdte van wetenschappelijke vragen die relevant zijn voor het vakgebied. Er is tot op heden slechts één ander inleidend leerboek gepubliceerd (Hein et al. 2004, zie Sigwart 2005). Dit weerspiegelt de uitdagingen van het presenteren van een middenweg die de noodzakelijke wiskunde toegankelijk maakt voor biologische doelgroepen.

De eerste 2 casestudies die in dit boek zijn opgenomen (gebaseerd op Nordborg 1998 Harris en Hey 1999) worden ook gebruikt als illustratieve voorbeelden in Hein et al. (2004), maar Wakeley behandelt ze aanzienlijk gedetailleerder en verwijst naar actuele primaire literatuur. Aanvullende biologische casestudies zouden zeer welkom zijn (er zijn er 7 in het boek, in 6 hoofdstukken) en zouden de tekst waarschijnlijk toegankelijker maken voor een breder publiek van biologen. Ik hoop dat Wakeley te zijner tijd zal worden overgehaald om de tekst bij te werken, en zeker tegen die tijd zal er een veel bredere literatuurbasis zijn voor mogelijke casestudies.


Toen Charles Darwin voor het eerst zijn ideeën over evolutie en natuurlijke selectie publiceerde, moest het gebied van de genetica nog ontdekt worden. Aangezien het opsporen van allelen en genetica een zeer belangrijk onderdeel is van populatiebiologie en populatiegenetica, heeft Darwin deze ideeën niet volledig in zijn boeken behandeld. Nu, met meer technologie en kennis onder onze riem, kunnen we meer populatiebiologie en populatiegenetica opnemen in de evolutietheorie.

Een manier om dit te doen is door de samensmelting van allelen. Populatiebiologen kijken naar de genenpool en alle beschikbare allelen binnen de populatie. Vervolgens proberen ze de oorsprong van deze allelen terug in de tijd te traceren om te zien waar ze begonnen. De allelen kunnen worden getraceerd via verschillende lijnen op een fylogenetische boom om te zien waar ze samenvloeien of weer bij elkaar komen (een alternatieve manier om ernaar te kijken is wanneer de allelen van elkaar vertakken). Eigenschappen komen altijd samen op een punt dat de meest recente gemeenschappelijke voorouder wordt genoemd. Na de meest recente gemeenschappelijke voorouder, scheidden de allelen zich en evolueerden naar nieuwe eigenschappen en hoogstwaarschijnlijk gaven de populaties aanleiding tot nieuwe soorten.

De Coalescent Theory heeft, net als het Hardy-Weinberg Equilibrium, een paar veronderstellingen die veranderingen in allelen door toevallige gebeurtenissen elimineren. De Coalescent Theory gaat ervan uit dat er geen willekeurige genetische stroom of genetische drift van allelen in of uit de populaties is, natuurlijke selectie werkt niet op de geselecteerde populatie gedurende de gegeven tijdsperiode, en er is geen recombinatie van allelen om nieuwe of complexere vormen te vormen. allelen. Als dit waar is, kan de meest recente gemeenschappelijke voorouder worden gevonden voor twee verschillende geslachten van vergelijkbare soorten. Als een van de bovenstaande zaken in het spel is, zijn er verschillende obstakels die moeten worden overwonnen voordat de meest recente gemeenschappelijke voorouder van die soorten kan worden vastgesteld.

Naarmate de technologie en het begrip van de Coalescent Theory gemakkelijker beschikbaar komen, is het bijbehorende wiskundige model aangepast. Deze veranderingen in het wiskundige model zorgen ervoor dat een aantal van de voorheen remmende en complexe problemen met populatiebiologie en populatiegenetica zijn opgelost en alle soorten populaties kunnen vervolgens worden gebruikt en onderzocht met behulp van de theorie.


Mutatiegebeurtenissen

We beschouwen strikt neutrale mutaties die geen invloed hebben op de fitheid van een individu (het vermogen van het individu om te overleven en nakomelingen te produceren). Dergelijke mutaties zouden geen invloed moeten hebben op de gesimuleerde genealogieën, omdat ze geen effect hebben op het aantal nakomelingen of de neiging van individuen om te migreren. Dit heeft twee consequenties. Het eerste gevolg is een efficiënt computeralgoritme, waarbij het coalescentieproces wordt gemodelleerd door het neutrale mutatieproces te scheiden van het genealogische proces. We kunnen eerst de willekeurige genealogie van de individuen terug in de tijd genereren, en dan mutaties voorwaarts in de tijd over elkaar heen leggen. Het tweede gevolg is dat we kunnen kiezen uit verschillende mutatiemodellen (bijv. oneindig-allel, oneindig-site of eindige-site-model) zonder de statistische eigenschappen van resulterende genealogieën te beïnvloeden.

De oneindige sites model gaat ervan uit dat een mutatie altijd zal plaatsvinden op een nieuwe plaats/positie (dus "oneindige plaatsen"), dus alle mutaties zijn te onderscheiden (d.w.z. geen terugkerende of omgekeerde mutaties). Bovendien zullen er altijd een of twee toestanden in een positie zijn, nooit meer, omdat elke positie maximaal één keer muteert. Allelen worden dus vaak aangeduid als 0 of 1 (en een reeks als een reeks nullen en enen), ongeacht hun specifieke betekenis. Het oneindige-sitesmodel kan worden geïnterpreteerd als een beschrijving van de evolutie van zeer lange DNA-sequenties met een lage mutatiesnelheid op elke positie. Daarentegen is de eindige-sites model geeft toe dat een DNA-sequentie een vaste lengte heeft. Beide modellen gaan ervan uit dat posities (via mutatie) onafhankelijk van elkaar evolueren, d.w.z. een mutatie op de ene positie heeft geen invloed op de kans op een mutatie op een andere positie. In principe zou een mutatiemodel ook mutaties op chromosoomniveau moeten beschrijven (bijv. inserties, deleties, enz.), maar deze gebeurtenissen komen zo zelden voor dat ze normaal gesproken kunnen worden genegeerd. Voor het oneindige-sites-model kunnen we een algemene snelheid instellen om zowel de snelheden van mutaties op nucleotideniveau als op chromosoomniveau te omvatten. Voor het eindige-sitesmodel worden echter gewoonlijk alleen nucleotidesubstituties gemodelleerd.

  • Ttot | : totale beschikbare evolutionaire tijd, weergegeven door de totale vertakkingen van een genealogie. We kunnen het berekenen door het product van elk coalescentie-interval T(k) (zie hierboven) en het aantal lijnen dat dat interval k deelt op te tellen:
  • | theta: mutatiesnelheid per sequentie per generatie. Het is het product van de mutatiesnelheid op een enkele nucleotodenplaats, d.w.z. per basenpaar (bp) en sequentielengte (in termen van bp). De laatste twee zijn beide invoerparameters van CoJava.
  • S | : het aantal segregatieplaatsen, d.w.z. het aantal DNA-sequentieposities waar een paar monstersequenties verschillen. We kunnen het beschouwen als het totale aantal mutaties dat aan de hele genealogie moet worden opgelegd. In het oneindige-sites-model is het verwachte aantal segregerende locaties voor een diploïde monster (θ wordt vaak de SCALED-mutatiesnelheid genoemd):
  • t | : de lengte van een tak in de genealogie, berekend als verschil tussen de geschaalde tijd op de voorouderlijke knoop (d.w.z. in de eenheid van 2N) en die op de afstammeling. Het aantal mutaties op elke tak volgt een Poisson-verdeling met aankomstintensiteit tθ/2.
  1. Voer algoritme 1 uit om de genealogie van n reeksen te simuleren
  2. Trek voor elke tak een getal, Mt, uit een Poissonverdeling met intensiteit tθ/2, waarbij t de lengte van de tak is. Later zullen er Mt-mutatiegebeurtenissen aan deze tak worden toegevoegd.
  3. Begin bij de wortel, ga vooruit in de tijd en wijzig de sequenties die in stap 1 zijn geproduceerd. Voor modellen met oneindige sites, voeg Mt-mutaties toe aan de afstammelingenreeks van elke tak. De positie van een mutatie wordt willekeurig gekozen langs de reeks.

Primaire CoJava-klassen of -functies /geneticEvent/mutations.java /coalSimulator/sim.java/simMutate() Cosi en CoJava zijn standaard een eindige-sites-simulatie in die zin dat mutaties plaatsvinden op afzonderlijke locaties en als er meerdere mutaties optreden op één enkele locatie, is alleen de eerste behouden. Het instellen van de parameter "infinite_sites" op ja (zie het voorbeeldparambestand in dit bericht) converteert de uitvoerposities naar een zwevend punt, waarbij alle mutaties behouden blijven. Bovendien bieden beide programma's gebruikers de mogelijkheid om het (vaste) aantal mutaties in te stellen.


Coalescentietheorie - onafhankelijkheid van coalescentietijden - Biologie

遺 伝 学 に お け る合 祖 理論"coalescentietheorie"

ある集団から得られた複数個体の塩基配列において、ある遺伝子座における全ての対立遺伝子が、時間的に遡って、一つの祖先的なコピー、即ち Meest recente gemeenschappelijke voorouder (MRCA)しようとする。 それぞれの対立遺伝子間の遺伝的関係は遺伝子系図(gene genealogie:系統樹と似た形式)で表される。 coalescent合祖理論の中心は、様々な異なる仮定をおいた条件下で、coalescent ik

ほとんどの場合、遺伝子系図を調べるために、時間的に逆向きの遺伝的浮動モデルでcoalescent シミュレーションは実行される。 [1] 最も単純化されたモデルでは、遺伝的組換えがない、自然選択がな い, 遺 伝 子 流動 や 集 団 構造 が な い と い う こ と が 仮 定 さ れ る. し か し な が ら, よ り 発 展 さ せ た モ デ ル で は, 前述 し た モ デ ル を 拡 張 し, 遺 伝 的 組 換 え, 自然 選 択 を 考慮 に 入 れ る な ど ほ ぼ 任意 に, 集 団 遺 伝学的解析における複雑な進化や個体群動態のモデル化でシミュレーションを実行することができる。coalescent1980年代初期にJohn Kingman [2] によって最初に開発された。

Samensmeltingまでの時間 [3] 編集

二つの対立遺伝子が一世代前でcoalescentieを生じる確率は、二つの対立遺伝子が一世代前の同じ対立遺伝子から由来する確率と等しい。集団サイズN が一定の二倍体生物集団を仮定した場合、それぞれの遺伝子座には2N 個のコピーが存在するので、1/(2N )となる。逆に、coalescentieを生じない確率は1 - 1/(2N ) (Wright - Fisher-model)

次 に 連 続 世代 で 考 え る. 現在 か らt - 1 世代前まで samensmeltingが生じず、t coalescentieが生じる確率は、

N よって、

一般的に、指数分布は期待値と標準偏差が等しく、この場合2N である。 したがって、coalescentie が生じるまでの時間の期待値は2N ik

合祖理論は、中立進化に関する集団遺伝学の古典的概念の拡張から、Wright-Fisher-modelへの近似に至った。理論自体は1980年代に数人の研究者により、それぞれ独自に展開されたが、最終的な形式化は Kingman によってなされたと考えられている。さらに、合祖理論の発展においては、 Peter Donnelly, Robert Griffiths, Richard R Hudson, Simon Tavaré らによる貢献が大きい。この発展とは、集団ik


Coalescentietheorie - Waarom zijn coalescentietijden onafhankelijk?

Ik lees uit dit boek en ik wil er zeker van zijn dat ik begrijp wat er aan de hand is.

Wat ik uit het boek haal

Overweeg een populatie van $ N $ individuen. De populatiegrootte ($N$) is constant. selecteer willekeurig twee individuen in de populatie en stel de vraag: wanneer leefde de meest recente gemeenschappelijke voorouder (MRCA)? Laten we ontkennente deze keer naar de MRCA door de willekeurige variabele $T_2$. Wanneer we terugkijken in de tijd en zien dat twee individuen een gemeenschappelijke voorouder hebben, dan noemen we deze gebeurtenis een gebeurtenis van samensmelting. Met andere woorden, $T_2$ is de willekeurige variabele van de tijd (in generaties) waarin samensmelting optreedt tussen twee willekeurig gekozen individuen in een populatie van constante grootte $N$.

De kans om niet samen te smelten in de vorige generaties (dat is de kans dat de twee willekeurig geselecteerde individuen geen broers en zussen zijn) is $1-frac<1>$ en de kans op samenvloeien (kans om broers en zussen te zijn) is $frac<1>$. De kans dat de samensmeltingsgebeurtenis $t$ generaties geleden plaatsvindt, is de kans om gedurende $t-1$ generaties niet samen te smelten en dan samen te smelten. Daarom heeft $T$ de verdeling

Meer in het algemeen, laten we $M_n$ de tijd aanduiden waarin $n$ individuen samensmelten. Als $T_n$ de tijd is totdat $n$ individuen samensmelten tot $n-1$ individuen (de tijd waarin één paar individuen onder $n$ individuen samensmelten), dan is $M_n = sum_^n T_i$

Ik denk dat $M_n = sum_^n T_i$ is alleen waar als alle $T_i$ onafhankelijke variabelen zijn. Zijn ze onafhankelijk? Waarom?


De G-kat

Coalescentietheorie

Een terugkerende analysemethode, zowel binnen De G-CAT en de bredere ecologische genetische literatuur, is gebaseerd op: coalescentie theorie. Dit is gebaseerd op het wiskundige idee dat mutaties binnen genen (die leiden tot nieuwe allelen) kunnen worden getraceerd achteruit in de tijd, tot het punt waarop de mutatie zich aanvankelijk voordeed. Aangezien dit een retrospectief is, verschijnen deze mutatiemomenten niet als ‘divergentie’-gebeurtenissen (zoals typisch zou zijn voor de fylogenetica), maar als momenten waarop mutaties kom weer bij elkaar d.w.z. samenvloeien.

Wiskunde van de coalescentie

Voordat we de veelheid aan toepassingen van de coalescentie kunnen verkennen, moeten we het fundamentele onderliggende model begrijpen. Het aanvankelijke coalescentiemodel werd in de jaren tachtig beschreven, op basis van een aantal verschillende ecologen, genetici en wiskundigen. John Kingman wordt echter vaak toegeschreven aan de vorming van het originele coalescentiemodel, en de Kingman's coalescentie wordt beschouwd als de meest elementaire, oervorm van het coalescentiemodel.

Vanuit een wiskundig perspectief is het coalescentiemodel eigenlijk (relatief) eenvoudig. Als we een enkel gen van twee verschillende individuen hebben bemonsterd (omwille van de eenvoud zullen we zeggen dat ze haploïde zijn en slechts één kopie per gen hebben), kunnen we statistisch de waarschijnlijkheid meten dat deze allelen terug in de tijd versmelten (samenvloeiend) op een gegeven moment. generatie. Dit is dezelfde kans dat de twee steekproeven een voorouder delen (denk aan een veel, veel kortere versie van het delen van een evolutionaire voorouder met een chimpansee).

Normaal gesproken, als we zouden proberen de ouders van onze twee steekproeven te kiezen, zou het aantal potentiële ouders de grootte van de voorouderlijke populatie zijn (aangezien elk individu in de vorige generatie een gelijke kans heeft om hun ouder te zijn). Maar vanuit een genetisch perspectief is dit gebaseerd op de genetisch (effectieve) populatieomvang (nee), vermenigvuldigd met 2 aangezien elk individu twee kopieën per gen draagt ​​(één vaderlijk en één moederlijk). Daarom is het aantal potentiële ouders 2nee.

Een grafiek van de waarschijnlijkheid van een samensmeltingsgebeurtenis (d.w.z. twee allelen die een voorouder delen) in de onmiddellijk voorafgaande generatie (d.w.z. ouders) in verhouding tot de grootte van de populatie. Zoals je zou verwachten, is er bij grotere populaties een kleine kans om een ​​voorouder te delen in de onmiddellijk voorafgaande generatie, aangezien de pool van 'potentiële ouders'8217 toeneemt.

Als we een idealistische bevolking hebben, met grote nee, willekeurige paring en geen natuurlijke selectie op onze allelen, de kans dat hun voorouder hierin zit onmiddellijk generatie eerder (d.w.z. een ouder delen) is 1/(2nee). Omgekeerd is de kans dat ze niet doen deel een ouder is 1 − 1/(2nee). Als we een temporele component toevoegen (d.w.z. het aantal generaties), kunnen we dit uitbreiden met de kans op hoeveel generaties zou het duren voordat onze allelen samenvloeien als (1 – (1/2nee)) t-1 x 1/2Nee.

De kans dat twee allelen een samenvloeiende gebeurtenis terug in de tijd delen onder verschillende populatiegroottes. Net als hierboven is er een grotere kans op een eerdere coalescentie-gebeurtenis in kleinere populaties, aangezien het verminderde aantal voorouders betekent dat allelen een grotere kans hebben om een ​​voorouder te delen. In de loop van de tijd neemt dit patroon echter consequent af onder alle scenario's voor populatieomvang.

Hoewel dit wiskundig ingewikkeld lijkt, biedt het coalescentiemodel ons een scenario van hoe we dat zouden doen verwachten verschillende mutaties om terug in de tijd samen te smelten indien die idealistische scenario's zijn waar. Biologie is echter zelden handig en het is onwaarschijnlijk dat onze onderzoekspopulaties deze patronen perfect volgen. Door te bestuderen hoe onze empirische gegevens varieert uit de verwachtingen kunnen we echter enkele interessante dingen afleiden over de geschiedenis van populaties en soorten.

Testen van veranderingen in Ne en knelpunten

Een van de meest voorkomende toepassingen van de coalescentie is het bepalen van historische veranderingen in de effectieve populatieomvang van soorten, met name bij het proberen genetische knelpunten te detecteren. Dit is gebaseerd op het idee dat allelen waarschijnlijk in verschillende snelheden samenvloeien in scenario's van genetische knelpunten, aangezien het verminderde aantal individuen (en ook genetische diversiteit) geassocieerd met knelpunten de frequentie van allelen en samensmeltingssnelheden verandert.

Voor een setje k verschillende allelen, wordt de mate van samensmelting bepaald als: k(k – 1)/4Nee. Dus de coalescentiesnelheid is intrinsiek gekoppeld aan het aantal beschikbare genetische varianten: nee. Tijdens genetische knelpunten worden de sterk verminderde nee geeft de schijn van samensmeltingssnelheid; versnellen. Dit komt omdat allelen die tijdens de bottleneck-gebeurtenis worden verwijderd door genetische drift ervoor zorgen dat slechts een paar (meestal veel voorkomende) allelen door de bottleneck komen, met de mutatie en verspreiding van deze allelen na de bottleneck. Dit kan een beetje moeilijk te bedenken zijn, dus het onderstaande diagram laat zien hoe dit eruit ziet.

Een diagram van hoe de coalescentie kan worden gebruikt om knelpunten in een enkele populatie (centrum) te detecteren. In dit voorbeeld hebben we een hedendaagse populatie waarin we de samensmelting van twee hoofdallelen volgen (respectievelijk rood en groen). Elke cirkel vertegenwoordigt een enkel individu (we gaan voor de eenvoud uit van slechts één allel per individu, maar voor de meeste dieren zijn er maximaal twee). Als je vooruitkijkt in de tijd, zul je merken dat sommige rode allelen net voor de bottleneck uitsterven: ze gaan verloren tijdens de reductie van Ne. Als we daarom de mate van samensmelting (rechts) meten, is deze veel hoger tijdens het knelpunt dan ervoor of erna. Een andere manier waarop dit kan worden gevisualiseerd, is het genereren van genenbomen voor de allelen (links): populaties die een knelpunt hebben ondergaan, hebben doorgaans veel kortere takken en een lange wortel, omdat veel takken door uitsterven verloren zullen gaan (de stippellijnen , die normaal niet in een boom worden gezien).

Dit is ook logisch vanuit theoretisch perspectief, aangezien sterke genetische knelpunten betekenen dat de meeste allelen verloren gaan. Dus de allelen die we doen hebben veel meer kans om binnenkort samen te smelten na de bottleneck, met zeer weinig allelen die samenvloeien voordat het knelpuntgebeurtenis. Deze allelen zijn erin geslaagd om de zuivering van het knelpunt te overleven, en zijn vaak weinig vergeleken met de overkoepelende patronen in het genoom.

Migratie (genenstroom) tussen geslachten testen

Een andere demografische factor die we misschien willen testen, is of de genenstroom in het verleden heeft plaatsgevonden in onze populaties. Hoewel er tal van allelfrequentiemethoden zijn die de hedendaagse genenstroom kunnen schatten (d.w.z. binnen een paar generaties), kunnen coalescentieanalyses patronen van genenstroom detecteren die verder terug in de tijd reiken.

In eenvoudige bewoordingen is dit gebaseerd op het idee dat als er een genstroom heeft plaatsgevonden tussen populaties, sommige allelen van de ene populatie naar de andere zullen zijn overgedragen. Hierdoor zouden we verwachten dat overgedragen allelen samensmelten met allelen van de bronpopulatie recenter dan de divergentietijd van de twee populaties. Dus modellen die een migratiesnelheid bevatten, voegen deze vaak toe als een parameter die de waarschijnlijkheid specificeert dat een bepaald allel samensmelt met een allel in een ander populatie of soort (de achterwaartse versie van een migratie- of introgressiegebeurtenis). Nogmaals, dit kan moeilijk te bedenken zijn, dus er is een handig diagram hieronder.

Een soortgelijk model van coalescentie als hierboven, maar testen op migratiesnelheid (genenstroom) in twee recentelijk uiteengevallen populaties (rechts). Als we in dit voorbeeld twee allelen (rood en groen) terug in de tijd traceren, merken we dat sommige individuen in populatie 1 recenter samensmelten met individuen van populatie 2 dan andere individuen van populatie 1 (bijvoorbeeld voor het rode allel), en vice versa. omgekeerd voor het groene allel. Dit kan ook worden weergegeven met genenbomen (links), met stippellijnen die individuen uit populatie 2 vertegenwoordigen en hele lijnen die individuen uit populatie 1 voorstellen. Deze onvolledige splitsing tussen de twee populaties is het resultaat van migratie waarbij genen van de ene populatie naar de andere worden overgedragen na hun aanvankelijke divergentie (ook ‘introgression'8217 of ‘horizontale genoverdracht'8217 genoemd).

Divergentietijd testen

In dezelfde geest kan de coalescentie ook worden gebruikt om te testen hoe lang geleden de twee hedendaagse populaties uiteenliepen. Net als bij genenstroom wordt dit vaak als extra parameter bovenop het coalescentiemodel opgenomen in termen van het aantal generaties geleden. Om dit om te zetten in een zinvolle tijdsschatting (bijvoorbeeld in termen van duizenden of miljoenen van jaren geleden), moeten we een mutatiesnelheid opnemen (het aantal mutaties per basenpaar van sequentie per generatie) en een generatietijd voor de onderzochte soort (hoeveel jaar verschillen de verschillende generaties: voor mensen zouden we doorgaans zeggen

Een voorbeeld van het gebruik van de coalescentie om de divergentietijd tussen twee populaties te testen, dit keer met behulp van drie verschillende allelen (rood, groen en geel). Het traceren van de samensmelting van elk allelen onthult verschillende tijden (in termen van in welke generatie de samensmelting plaatsvindt) afhankelijk van het allel (rechts). Zoals hierboven kunnen we dit bekijken door middel van genenbomen (links), die variatie laten zien hoe ver terug de twee populaties (opnieuw aangegeven met respectievelijk vetgedrukte en stippellijnen) zich splitsen. Het blauwe kader geeft het bereik aan van tijden (d.w.z. een betrouwbaarheidsinterval) waarrond divergentie optrad: bij veel meer allelen kan dit verfijnder worden door gebruik te maken van een '8216gemiddelde'8217 en later gerelateerd aan tijd in jaren met een generatietijd.

De complexe aard van de coalescentie

Hoewel elk van deze individuele concepten relatief eenvoudig lijkt (afhankelijk van hoe goed je met wiskunde omgaat!) interactief aard van de verschillende factoren. Genstroom, divergentietijd en veranderingen in populatiegrootte zullen: alle hebben tegelijkertijd invloed op de distributie en frequentie van allelen en dus op de coalescentiemethode. Daarom gebruiken we vaak complexe programma's om de coalescentie te gebruiken die de relatieve bijdragen van elk van deze factoren tot op zekere hoogte test en in evenwicht brengt. Hoewel de coalescentie een complex beest is, zullen verbeteringen in de methodologie en de programma's die het gebruiken ons vermogen om evolutionaire geschiedenis af te leiden met de coalescentietheorie blijven verbeteren.


Coalescentiemodellen voor ontwikkelingsbiologie en de spatio-temporele dynamiek van groeiende weefsels

Ontwikkeling is een proces dat zowel in ruimte als in tijd nauw moet worden gecoördineerd. Celtracking en lineage tracing zijn belangrijke experimentele technieken geworden in de ontwikkelingsbiologie en stellen ons in staat om het lot van cellen en hun nageslacht in kaart te brengen. Een algemeen kenmerk van zich ontwikkelende en homeostatische weefsels dat deze analyses hebben onthuld, is dat relatief weinig cellen aanleiding geven tot het grootste deel van de cellen in een weefsel. De lijnen van de meeste cellen eindigen snel. Computationele en theoretische biologen/natuurkundigen hebben als reactie daarop een reeks modelleringsbenaderingen ontwikkeld, met name op agent gebaseerde modellering. Deze modellen lijken kenmerken vast te leggen die in experimenten zijn waargenomen, maar kunnen ook rekenkundig duur worden. Hier ontwikkelen we complementaire genealogische modellen van weefselontwikkeling die de voorouders van cellen in een weefsel herleiden tot hun meest recente gemeenschappelijke voorouders. We laten zien dat met zowel begrensde als onbegrensde groei eenvoudige, maar universele schaalrelaties ons in staat stellen om de coalescentietheorie te verbinden met de fractale groeimodellen die veelvuldig worden gebruikt in de ontwikkelingsbiologie. Met behulp van ons genealogisch perspectief is het mogelijk om bulk statistische eigenschappen te bestuderen van de processen die aanleiding geven tot weefsels van cellen, zonder dat grootschalige simulaties nodig zijn.

1. Inleiding

De verbinding tussen ruimte en tijd is fundamenteel voor ontwikkelingsbiologie. Al meer dan een eeuw is bekend dat de locatie van stamcelproliferatie en -differentiatie tijdens de ontwikkeling goed georganiseerd is en van het grootste belang is voor de besluitvorming over het lot van de cel (bijv. Spemann-organisator en primitieve knopen) [1]. Door de controle van celdeling en andere cellulaire acties, vormt spatio-temporele chemische signalering complexe patronen die essentieel zijn voor een goede weefselontwikkeling [2,3]. Ondanks het reeds lang bestaande belang van ruimtelijke informatie voor het begrijpen van weefselontwikkeling, was het pas relatief recent dat wijdverbreid begrip van deze effecten mogelijk werd.

Meer recent experimenteel werk (gebaseerd op geavanceerde microscopie [4] met geschikte kleurstoffen [5] en fluorescentietags [6], enz.) in de context van ontwikkelingsbiologie heeft zich gericht op het volgen van cellen en het traceren van afstammingslijnen. Deze experimenten hebben al geleid tot diepgaande nieuwe inzichten. Dekking, driedimensionale effecten en stochasticiteit maken het traceren van afstammingslijnen en celvolgingsexperimenten echter moeilijk [5,7]. Zelfs als ze worden ondersteund door state-of-the-art computationele en statistische analyses, zullen deze experimenten een uitdaging blijven. Computationele modellering komt daarom naar voren als een wenselijk en uiteindelijk essentieel hulpmiddel om de zorgvuldig georkestreerde processen te begrijpen die ten grondslag liggen aan weefselgroei en homeostase. Wiskundige of computationele modellen kunnen ingewikkelde en kwantitatieve mechanistische hypothesen inkapselen en worden gebruikt om systematisch te testen welke aspecten van deze hypothesen door de werkelijkheid worden bevestigd.

In weefsel- en tumormodellering winnen agent-based modellen (ABM's) aan populariteit [8] en maken het vanaf het begin mogelijk om de cellulaire samenstelling van weefsels op te nemen. Net als cellen interageren agenten met hun omgeving en nemen elkaar eindige ruimtelijke gebieden/volumes in beslag en kunnen ze de kenmerken van celgedrag vertonen: differentiatie, proliferatie, beweging en dood [9-11]. Al deze factoren leiden ertoe dat cellen zichzelf organiseren in weefsels. Hoewel er een grote deterministische component is die ten grondslag ligt aan weefselgroei (evenals homeostase), tonen experimenten die cellen en hun nageslacht volgen vaak aanzienlijke variabiliteit in het afstammingsgedrag [12-14] dat gemakkelijk door ABM's kan worden vastgelegd. ABM-benaderingen bieden dus een natuurlijke computationele aanvulling op experimenten voor het traceren van afstammingen.

We putten inspiratie uit recente modelleringsbenaderingen voor weefselgroei en -ontwikkeling [15] die dominante voorouderlijke lijnen vertonen, genaamd supersterren. ABM's die de groei en ontwikkeling van de neurale lijst beschrijven, suggereren dat de concurrentie tussen cellen om ruimte de ontwikkeling van het enterische zenuwstelsel lijkt te beïnvloeden. Naarmate cellen nakomelingen produceren, ontstaan ​​er verschillen in het aantal geproduceerde nakomelingen, wat resulteert in nakomelingen van een of zeer weinig voorouderlijke cellen die het weefsel (of een deel van het weefsel) domineren. Vergelijkbare opkomende verschijnselen worden gerapporteerd uit andere afstammingsonderzoeken in zowel gezonde als kwaadaardige weefselgroei [16-18].

Het meest in het oog springende probleem is dat van de rekenbelasting. Bij de realisatie van veel biologische functies zijn miljarden cellen betrokken die op elkaar inwerken. Het simuleren van een enkel voorbeeld van een dergelijk systeem kan honderden uren van de centrale verwerkingseenheid in beslag nemen. Als we statistische methoden willen gebruiken om dergelijke modellen te kalibreren tegen gegevens, dan zouden we honderden of duizenden van dergelijke simulaties nodig hebben, die vrijwel onmogelijk te implementeren zijn zonder enorme rekenkosten [11]. Gelukkig kan het, door het implementeren van methodologieën die zijn geïnspireerd op populatiegenetica, mogelijk zijn om in plaats daarvan veel belangrijke concepten voor het traceren van afstammingen in gemakkelijk verteerbare en computationeel lichte kwantitatieve regels te destilleren.

Wanneer we de voorouderlijke relaties tussen de cellen in een weefsel traceren, vinden we genealogische relaties terug die bekend zijn uit populatiegenetica. Populatiegenetica is met groot succes toegepast om bijvoorbeeld de genetische geschiedenis van menselijke en dierlijke populaties in kaart te brengen, de leeftijd van allelen in te schatten en populatiebewegingen uit het verleden in kaart te brengen [19]. Er is een uitgekiend wiskundig raamwerk ontwikkeld dat ons in staat stelt om evolutionaire dynamiek op te helderen, bijvoorbeeld in een populatie van N allelen die evolueren volgens het standaard neutrale model, de gemiddelde tijd totdat een allel gefixeerd is, is 2N generaties [19]. Een van de redenen voor het succes van de populatiegenetische theorie is dat evolutionaire processen typisch plaatsvinden over tijdschalen die zo lang zijn dat ze niet experimenteel kunnen worden waargenomen. In plaats daarvan worden wiskundige modellen gebruikt om de evolutionaire dynamiek vast te leggen en deze te relateren aan de waargenomen gegevens met behulp van statistische methoden - het is waarschijnlijk geen toeval dat de evolutietheorie in lock-step is gekoppeld aan ontwikkelingen in de statistische theorie en praktijk.

Een van de fundamentele inzichten die dit verband tussen evolutie-/populatiegenetische theorie en statistiek nog hechter heeft gemaakt, is het besef dat we de genealogische processen kunnen reconstrueren die ten grondslag liggen aan een steekproef van allelen (afkomstig uit een grote populatie), dwz dat we niet hoeven te modelleren de evolutie van een grote populatie van N individuen vooruit in de tijd, maar kunnen in plaats daarvan kijken naar het stochastische proces dat de voorouderlijke relatie tussen N (meestal) individuen/allelen [12]. Uitgaande van de huidige steekproef volgen we hun voorouderlijke lijnen terug in de tijd totdat alle lijnen zijn samengesmolten tot een enkele lijn. Dit allel/staat wordt de meest recente gemeenschappelijke voorouder (MRCA) genoemd. Naast de rekenefficiëntie (vergeleken met voorwaartse simulaties), coalescentie benadering richt zich ook expliciet op de geobserveerde gegevens en de eigenschappen van het onderliggende genealogische proces, en niet op de afstammingslijnen die resulteren in 'doodlopende wegen', d.w.z.die niet bijdragen aan het groeifront.

Hier passen we de coalescentietheorie aan en passen deze toe op ontwikkelingsprocessen. Weefsels hebben MRCA's die los staan ​​van de MRCA van een organisme, wat natuurlijk de bevruchte eicel is waaruit het is voortgekomen. Voor de meeste weefsels, en dit geldt ook voor tumoren, kunnen we uitgaan van een bestaand weefsel en teruggaan in de tijd totdat we een generatie bereiken waarin één enkele cel bestaat waaruit alle bestaande cellijnen zijn afgeleid. Coalescentietheorie stelt ons in staat om celpopulaties en hun voorouderlijke relaties achterwaarts in tijd en ruimte te bestuderen. In feite is het de relatie tussen ruimte en tijd die in dit kader naar voren komt.

2. Methoden:

Hieronder zullen we een relatie leggen tussen de exacte coalescentie [20] (gerelateerd aan het Wright-Fisher-model [21] van populatiegenetica) en weefselgroeimodellen die zijn geïnspireerd op of gerelateerd zijn aan het klassieke Eden-model [22] (of meer algemene modellen zoals de processen beschreven door de Kardar-Parisi-Zhang (KPZ) vergelijking [23]). Voor zover wij weten, zijn de coalescentietheorie, ABM en fractale groeitheorie niet eerder in combinatie beschouwd om ontwikkelingsprocessen te begrijpen.

2.1. Coalescent proces

Het coalescentieproces is een beschrijving van populatie-evolutie en ligt ten grondslag aan een groot deel van de moderne populatiegenetica. Het Wright-Fisher-model [21] is misschien wel de eenvoudigste beschrijving van evolutionaire verandering in een populatie van identieke individuen. Bij elke tijdstap (waarbij de tijd wordt geschaald met een generatielengte en gemeten in generaties met reële waarde), wordt de populatie (omvang N) wordt vervangen door willekeurige leden van de huidige populatie te kiezen om zich voort te planten om de volgende generatie te vormen. Het duidelijke voordeel van een dergelijk model is de directe probabilistische beschrijving waarbij elk lid van de populatie evenveel kans heeft om de ouder te zijn van een kind in de volgende generatie (neutrale evolutie).

Populatiegenetica probeert echter over het algemeen informatie te verkrijgen over de geschiedenis van een populatie, uitsluitend gebaseerd op de genetische gegevens van een huidige populatie. Coalescentietheorie keert de tijd om en onderzoekt de geschiedenis van een populatie door na te gaan hoe verschillende lijnen (takken op een stamboom) uiteindelijk combineren (samenvloeien) als de populatie terug in de tijd wordt getraceerd. Kingman, in 1982 [24] (Griffiths [25] en Tajima [26] publiceerden hun bijna identieke benaderingen bijna gelijktijdig), was in staat om het Wright-Fisher-model te gebruiken en de tijd om te keren om deze coalescentiebenadering wiskundig te ontwikkelen.

Coalescentietheorie [19] keert de tijd om - het heden is t = 0—en het aantal relevante geslachten (N) die voorouderlijk zijn voor het huidige monster, worden achteruit gevolgd totdat de MRCA is bereikt. Deze geslachten komen samen (wanneer twee geslachten hun meest recente gemeenschappelijke voorouder bereiken), en de tijd doorgebracht met een specifiek aantal (k) van actieve geslachten (tk) is probabilistisch gemodelleerd. De sleutel tot het gebruik van de coalescentietheorie in populatiegenetische analyse ligt in het beperkende gedrag ervan. Bij verschillende gemeenschappelijke limieten (grote populatie, N → ∞, en een klein aanvankelijk afstammingsnummer, ), wordt het coalescentieproces gekenmerkt door een exponentieel verdeeld reactieproces, waarbij de tijd vóór de volgende coalescentiegebeurtenis tussen k geslachten, tk, is gegeven door

Terwijl de Kingman-coalescentie deze grote populatiebenadering (en in het bijzonder ) gebruikt, wordt een exacte beschrijving van het Wright-Fisher-model gegeven door Fu [20]. Het fundamentele verschil tussen beide is dat bij conventionele samensmelting niet meer dan één samensmeltingsgebeurtenis kan optreden in een generatie. De exacte of -coalescentie geeft een exacte beschrijving van de genealogie van een populatie (in plaats van een kleine steekproef) waar meerdere coalescentiegebeurtenissen kunnen plaatsvinden in een enkele tijdstap.

2.2. Groeimodellen

In totaal zijn de vier modellen die we gebruiken allemaal gemotiveerd door de ABM geïntroduceerd door Cheeseman et al. [15], wat overeenkomt met een Eden-groeiproces [22] met diffusie. Uitgangspunt is dat de groei plaatsvindt op de grens van het groeisysteem en dat het systeem verbonden blijft. De grens wordt gedefinieerd als cellen die grenzen aan onbezette plaatsen (dit zijn de enige cellen die groei mogen ondergaan in deze modellen). In de gepresenteerde systemen bestaat de grens voornamelijk uit de voorrand van het groeiende weefsel met zeer weinig groei in het lichaam van het weefsel.

In figuur 1een, bieden we een grafische weergave van een enkele stap tijdens Eden-groei. Figuur 1B toont ter vergelijking dezelfde enkele stap voor het Wright-Fisher-model. In figuur 1C, een voorbeeld van lineage tracing (en coalescentie) in het Eden-model (N = 20) wordt weergegeven vanaf de 200e generatie en wordt teruggevolgd van ouder op kind. De MRCA is zwart gemarkeerd. De tijd om de tMRCA wordt dus gemeten in generaties terug in de tijd. Figuur 1NS toont vergelijkbare resultaten voor onbegrensde groei (bijvoorbeeld in tumorgroei [31]).

Figuur 1. Voorbeeld van Wright-Fisher en Eden-resultaten voor verschillende geometrieën. (een) Een grafische beschrijving van een enkele stap in een klein Eden-model. Ouders worden uniform willekeurig gekozen uit de naburige voortplantingsplaatsen. (B) Een grafische beschrijving van het groeiproces van Wright-Fisher. Hier worden de reproducerende cellen willekeurig gekozen om de ouder te zijn van een cel in de volgende generatie. (C) Een voorbeeld van een Eden-groeiproces op een begrensd domein dat in een enkele (van links naar rechts) richting groeit. De 200e generatie is gemarkeerd in het groen, actieve lijnen in het rood en de MRCA in het zwart. De MRCA is 104 generaties in het verleden (opgenomen in de 96e generatie). (NS) Een tumorgroeimodel (onbegrensd, met een initiële populatie van één bij de oorsprong). De 200e generatie is groen gemarkeerd, actieve lijnen in het rood en hier is de MRCA de eerste generatie die in het zwart wordt weergegeven. Sterachtige genealogische bomen zijn kenmerkend voor de groei van onbegrensd weefsel of bacteriekolonie.

We gebruiken zowel het eenvoudige Eden-groeimodel als het Eden-groeimodel dat is aangepast door diffusie op te nemen waardoor cellen zowel kunnen bewegen als reproduceren. Dit alternatief wordt een Eden-diffusiemodel genoemd. In alle gevallen passen we periodieke randvoorwaarden toe en worden alle simulaties uitgevoerd op een vierkant rooster. Hoewel dit een duidelijke anisotropie in de bacteriekoloniestructuur introduceert, zijn de kritische exponenten en dus de resultaten hierin over het algemeen onafhankelijk van de roostermicrostructuur [32,33]. Merk op dat in beide fractale groeimodellen de simulatie werd gestopt nadat een bepaald aantal generaties was bereikt. Meer gedetailleerde beschrijvingen van de modellen die in dit onderzoek zijn gebruikt, zijn te vinden in het elektronische aanvullende materiaal.

3. Resultaten en discussie

De bedoeling van onze analyse is vierledig: (i) om het directe verband aan te tonen tussen de ruimte- en tijddimensies in weefselgroei (ii) om vast te stellen dat dominante lijnen een natuurlijk kenmerk zijn van fractale groeimodellen die gemakkelijk kunnen worden vastgelegd door een coalescentieproces ( iii) om de schaalfactoren voor coalescentiemodellen van biologische groeiprocessen te bepalen en om de link met de klassieke coalescentie vast te stellen (zoals toegepast op het Wright-Fisher-model) en (iv) om aan te tonen dat eenvoudige schaalrelaties van toepassing zijn op lineage tracing in zowel unidirectionele en onbegrensde fractale groeisystemen. In termen van ontwikkelingsbiologie biedt dit een kader voor het analyseren van experimenten voor het traceren van afstammingslijnen, evenals een middel om eigenschappen van de voorouderlijke (bijv. stamcel- of voorlopercellen) populatie af te leiden. Een dergelijk vermogen zal, naar we hopen, nieuwe experimentele analyses stimuleren .

3.1. De resultaten van het neutrale evolutiemodel

We beginnen met een model waarbij weefselgroei laag voor laag verloopt, waarbij de oudercellen willekeurig worden gekozen uit de N cellen in een populatie gedefinieerd door de cellen van de vorige laag (die het gedrag van het Wright-Fisher-model nabootst). Een dergelijk systeem zou kunnen worden gezien als een vereenvoudigde versie van unidirectionele en begrensde (constant aantal cellen in elke weefsellaag) weefselgroei. In figuur 2 tonen we de coalescentieresultaten voor drie neutrale evolutiemodellen met weefselbreedten van N = 10 (punten), 100 (ononderbroken), 1000 (streepjes). Het gemiddelde aantal afstammingslijnen (rood) laat een aanvankelijk snel verval zien, aangezien een aanzienlijk deel van de afstammingslijnen in de eerste paar tijdstappen wordt geëlimineerd. Dit gedrag is kenmerkend voor de exacte coalescentie waar veel multi-lineage coalescentie-gebeurtenissen per generatie plaatsvinden. De waarschijnlijkheid van samensmelting (blauw) laat zien dat bijna alle simulaties binnen 5 × . zullen samenvloeien N generaties. Door de tijdas te schalen met de weefselbreedte N, het is gemakkelijk om te zien hoe als N neigt naar oneindig het coalescentieproces convergeert naar een enkele algemene baan die wordt gekenmerkt door vergelijkingen (2.1) en (2.2). In zo'n vereenvoudigd ruimtelijk-temporeel model is het verband tussen weefseldiepte (ruimtelijk) en het generatienummer (tijdelijk) deterministisch.

Figuur 2. Coalescentie-eigenschappen voor laag-voor-laag weefselgroei. Een begrensd unidirectioneel laag-voor-laag groeiproces wordt getoond voor drie verschillende weefselbreedtes (met N = 10 (stippen), N = 100 (vast) en N = 1000 (gestippelde) cellen). De gemiddelde overtollige afstammingslijnen (gedefinieerd als het aantal afstammelingen naast de enkele gemeenschappelijke voorouder van de populatie) worden in rood weergegeven op een semi-log-schaal. De waarschijnlijkheid van het hebben bereikt van coalescentie door een specifieke celdiepte/generatie wordt in blauw weergegeven. De tijdas wordt geschaald met weefselbreedte (N), onthullend een asymptotische relatie als N → . Alle simulaties zijn het resultaat van 10.000 Monte Carlo-simulaties.

3.2. De resultaten van het diffuus-Eden-model

figuur 3een toont aan dat het meer realistische diffusive-Eden-groeiproces een duidelijk niet-deterministisch verband tussen ruimte en tijd vertoont. Generaties 1 (rood), 50 (geel), 100 (groen), 150 (blauw) en 200 (magenta) worden getoond met elke roosterlocatie gewogen volgens de waarschijnlijkheid dat een cel aanwezig was in 1 miljoen stochastische realisaties van het diffuus-Eden groeimodel. Terwijl de verdeling over de weefselbreedte snel uniformiteit bereikt, figuur 3B laat zien hoe de verdeling langs de weefseldiepte normaal verdeeld lijkt met een toenemend gemiddelde en variantie.

Figuur 3. Ruimte-temporele verbindingen in het diffusive-Eden-model. (een) Probabilistische weergave van de positie voor generatie 0 (rood), 50 (geel), 100 (groen), 150 (blauw) en 200 (magenta) in 106 Monte Carlo-realisaties van het diffusive-Eden-groeimodel met weefselbreedte (N) van 50 cellen. Elk roosterpunt wordt gewogen volgens de waarschijnlijkheid dat een cel van de gespecificeerde generatie die plaats tijdens de simulatie zou bezetten. Merk op dat de kromming van de verdelingen het gevolg is van het initialiseren van het systeem als een enkel punt. (B) De marginale kansverdelingen (opgeteld over de weefselbreedte) voor plaatsbezetting over de weefseldiepte. (C) Gemiddelde weefseldiepte (blauwe verdeling) en de variantie voor de weefseldiepte (oranje verdeling) versus tijd zoals weergegeven door het cellulaire generatienummer. Het algemene gemiddelde (ononderbroken lijn) en gemiddelde variantie (stippellijn) voor 106 simulaties wordt ook getoond. Merk op dat de variantie een lange-staartverdeling is en dat het gemiddelde dus significant hoger is dan verwacht gezien de verdeling. (NS) De afwijking van de gemiddelde weefseldiepte voor generaties 250 (rood), 200 (blauw, verduisterd) en 150 (groen, verduisterd) berekend op basis van 106 simulaties. Merk op dat de verdeling normaal verdeeld lijkt met een variantie gelijk aan N (weefselbreedte, ) en stationair.

Opgemerkt moet worden dat gedurende deze studie de tijd wordt weergegeven in termen van opeenvolgende generaties om gemakkelijker te kunnen vertalen tussen de neutrale evolutie- en Eden-groeimodellen. Voor een bepaalde afstamming is de tijd sinds het begin van de simulatie evenredig met het aantal delingsgebeurtenissen, en dus zijn generatienummer en tijd uitwisselbaar.

De toenemende variantie is een functie van de gemiddelde weefseldiepte voor een bepaalde cellulaire generatie, zoals weergegeven in figuur 3.C. Hier vertoont de gemiddelde weefseldiepte versus generatienummer (blauwe verdeling, ononderbroken zwarte lijn het gemiddelde) een toenemend gemiddelde en variantie. Als alternatief bereikt de variantie rond dit gemiddelde (oranje lange-staartverdeling, gestippelde zwarte lijn die de gemiddelde waarde aangeeft) snel een stabiele toestand. De waarden werden berekend door de NG cellen in generatie G in een bepaalde simulatie en het verkrijgen van een gemiddelde en variantie voor de weefseldiepte voor deze groep. Dit toont een gemakkelijk te definiëren statistische relatie tussen tijd (generatiegetal) en ruimte (weefseldiepte) en dus, als samensmelting in de tijd kan worden bepaald, zouden de statistieken voor het traceren van ruimtelijke cellijnen gemakkelijk kunnen worden bepaald. Studies met betrekking tot gerelateerde modellen [34] hebben een vergelijkbare lineaire relatie tussen ruimte en tijd aangetoond in fractale groeimodellen.

figuur 3NS laat zien dat er een steady-state verdeling is voor de afwijking van de gemiddelde positie voor elke cel (van een specifieke generatie). De verdelingen zijn normaal verdeeld rond nul met een variantie gelijk aan N en zeer snel een stationaire verdeling bereiken. De waarden werden berekend door de NG cellen in generatie G in een bepaalde simulatie en het verkrijgen van de afwijkingen van de gemiddelde weefseldiepte voor de groep. Deze relatie houdt verband met de onderliggende fractale groeidynamiek voor het Eden-model waarbij de ruwheid van een unidirectionele Eden-groeigrens evenredig is met N 1/2 [35], waar N is de weefselbreedte.

De volgende vraag betreft of het mogelijk is om de coalescentie van het eenvoudiger neutrale evolutiemodel toe te passen op de meer gecompliceerde fractale groeimodellen. In figuur 4een, worden de afstammingsnummers (rood) en de kans op coalescentie (blauw) weergegeven voor weefselbreedten van N = 10 (stippellijn), 50 (ononderbroken lijn) en 100 (stippellijn).

Figuur 4. Coalescente analyse van het diffusive-Eden-model met de tijd tot de meest recente schaal voor gemeenschappelijke voorouders. (een) Het gemiddelde overtollige geslacht (gedefinieerd als het aantal geslachten naast de enkele gemeenschappelijke voorouder van de populatie, rood) en de waarschijnlijkheid van samensmelting (blauw). Resultaten worden getoond voor drie weefselbreedtes voor een diffuus Eden-model, N = 10 (punten), 50 (ononderbroken lijn) en 100 (stippellijn) uit 10.000 Monte Carlo-simulaties. (B) De betekenis tMRCA voor het diffusive-Eden-model wordt getoond voor weefselbreedten van N = 3 tot 1000 (rode vierkanten, 1000 exemplaren gesimuleerd) op een log-log plot. Een vergelijkingslijn voor de Kingman-coalescentie (gebaseerd op vergelijking (2.2)) wordt ter referentie weergegeven als een groene stippellijn. Een lineaire regressie naar de diffusive-Eden-resultaten wordt weergegeven als een zwarte stippellijn en vertoont een berekende helling van ongeveer 1,51. Deze lineaire resultaten worden gebruikt als basis voor de effectieve populatie in vergelijking (3.1).

Deze resultaten tonen twee belangrijke kenmerken voor het diffusive-Eden-model: ten eerste is de coalescentie inderdaad onvermijdelijk voor het diffusive-Eden-model met kleine weefselbreedten (bijv. N = 50) echter in de limiet (N → ∞), zal dit niet het geval zijn. Als N toeneemt, zal de tijd tot coalescentie verder afdrijven in het (relatieve) verleden totdat coalescentie niet wordt gevonden onder redelijke verwachtingen voor tijd/weefseldiepte. Dit suggereert dat, hoewel enkele dominante geslachten belangrijk kunnen zijn op ruimtelijke ontwikkelingsschalen, grotere weefsels zullen worden gesticht door verschillende verschillende voorouders die zijn afgeleid van meer algemene stamcellen. Het coalescentieraamwerk stelt ons daarom in staat om het aantal stamcellen van een zich ontwikkelend weefsel te schatten, gegeven zijn grootte en leeftijd.

De resultaten uit figuur 4een roep de vraag op wat de schaaleigenschappen (met betrekking tot de grootte van het weefsel) van de zijn voor het diffusive-Eden-model. In figuur 4B, een log-log plot voor het gemiddelde tMRCA voor weefselbreedtes van N = 3 tot 1000 wordt weergegeven (rode vierkanten, 1000 simulaties). De gemiddelde tijd tot de meest recente gemeenschappelijke voorouder ( , vergelijking (2.2)) voor de klassieke coalescentieschalen met N (waardoor het stationaire traject op de genormaliseerde schaal in figuur 2) wordt geproduceerd, en wordt ter vergelijking verstrekt (groene stippellijn). Zoals duidelijk is, zijn de hellingen van de twee lijnen zeer verschillend. Een lineaire regressie (zwarte stippellijn) kan worden gekoppeld aan het diffusive-Eden-model en laat zien dat de helling ongeveer 1,51 is. Er is gepostuleerd dat deze schaalfactor gerelateerd is aan de dynamische exponent [36]. Dit model wordt inderdaad bepaald door de (1 + 1)-dimensionale KPZ-vergelijking [23] met een schaalfactor van z = 3/2.

In figuur 5een, het tijdsdomein voor de afstammingsresultaten (blauw) en de waarschijnlijkheid van samensmelting (rood) uit figuur 4een worden geschaald met behulp van de N 3/2 factor bepaald in figuur 4B. Deze resultaten komen nu gemiddeld overeen met het exacte coalescentietraject, en de coalescentiewaarschijnlijkheid wordt bijna identiek met toenemende N. Zoals met veel empirische toepassingen van de coalescentietheorie [37], kan dit worden gezien als een effectief populatiegetal. Door te schalen met de volgende effectieve populatie:

Figuur 5. Geschaalde coalescentieanalyse voor de resultaten van het diffusive-Eden-model. (een) Deze resultaten zijn identiek aan die gepresenteerd in figuur 4een, maar geschaald met een effectieve populatie bepaald door de resultaten in figuur 4B ( , vergelijking (3.1)). Opnieuw, N = 10 (punten), 50 (ononderbroken lijn) en 100 (stippellijn) worden weergegeven. Het resultaat van Wright-Fisher voor: N = 1000 (open cirkels) uit figuur 2 is bedoeld als referentie voor zowel de gemiddelde overtollige afstamming (blauw) als de samensmeltingskans (rood). (B) Eden-modelresultaten voor zowel (1 + 1)-dimensionale als (2 + 1)-dimensionale begrensde groei (100 simulaties per punt). De hellingen, zoals benaderd door een lineaire regressie, komen overeen met de dynamische exponent voor de respectievelijke (1 + 1) en (2 + 1) KPZ-vergelijking. Merk op dat de basis voor het (2 + 1)-dimensionale systeem een ​​vierkant is en dus als de breedte wordt gerapporteerd als 500 cellen, betekent dit dat er 250.000 cellen per laag zijn.

we zijn in staat om een ​​effectieve coalescentieweergave te verkrijgen van een realistischer biologisch groeimodel voor elke gewenste weefselbreedte (N). Met dit in gedachten kunnen we de coalescentietheorie toepassen om de voorouderlijke relaties tussen cellen in zich ontwikkelende weefsels te modelleren.

Figuur 5B test de dynamische exponent-schaalfactor door de resultaten uit figuur 4 uit te breidenB naar een (2 + 1)-dimensionaal systeem. Simulatie over drie ordes van grootte van weefselbreedte (100 trajecten per simulatie) vertonen de (1 + 1)- en (2 + 1)-dimensionale, begrensde Eden-groeimodellen een schaalfactor van respectievelijk 1,5 en 1,61, voor de gemiddelde tijd naar de MRCA. Deze modellen van weefselontwikkeling zijn in hetzelfde universaliteitsklasse [38] als modellen beheerst door de KPZ-vergelijking.Deze hellingen zijn identiek aan de gerapporteerde dynamische exponent voor de (1 + 1)- en (2 + 1)-dimensionale systemen die worden beheerst door de KPZ-vergelijking [36]. Met behulp van de dynamische exponent is het dan mogelijk om niet-lineaire effectieve populatiegroottes voor fractale groeimodellen te bepalen.

3.3. Tumor Eden groeisimulatie

Vervolgens modelleren we een tweedimensionale tumor of bacteriekolonie met behulp van een niet-diffuus Eden-model zonder grensbeperkingen (zie elektronisch aanvullend materiaal) uitgaande van een enkele grondlegger bij de oorsprong. Figuur 6een toont de bezettingskans van verschillende locaties voor generaties 1, 50, 100, 150 en 200. Opnieuw is de relatie tussen tijd en ruimte duidelijk zie figuur 6B.

Figuur 6. Ruimtelijke-temporele verbindingen in een bacteriekolonie Eden-groeimodel. (een) Probabilistische weergave van de positie voor generatie 0 (rood), 50 (geel), 100 (groen), 150 (blauw) en 200 (magenta) in 106 Monte Carlo-realisaties van het niet-diffuse Eden-groeimodel. Elk roosterpunt wordt gewogen volgens de waarschijnlijkheid dat een cel van de gespecificeerde generatie die plaats tijdens de simulatie zou bezetten. (B) Een eendimensionale weergave van de kansverdelingen voor locatiebezetting over de radiale diepte. (C) Gemiddelde radiale diepte (blauwe verdeling) en de variantie voor de straal (oranje verdeling) versus tijd zoals weergegeven door het cellulaire generatienummer. Het algemene gemiddelde (ononderbroken lijn) en gemiddelde variantie (stippellijn) voor 106 simulaties wordt ook getoond. (NS) De afwijking van de gemiddelde straal voor generaties 350 (groen), 600 (blauw) en 850 (rood) berekend op basis van 106 simulaties.

In dit geval is de gemiddelde positie versus generatienummer (figuur 6C) verschilt aanzienlijk van figuur 3C. De gemiddelde radiale positie is bijna deterministisch (blauwe verdeling en ononderbroken zwarte lijn), terwijl de toenemende spreiding in de generatiepositiegegevens (figuur 6B) kan vrijwel geheel worden toegeschreven aan een toenemende afwijking van het gemiddelde. Deze resultaten suggereren dat elke individuele realisatie van dit stochastische groeiproces een niet-stationaire verdeling zal hebben, aangezien cellen in dezelfde generatie steeds verder uit elkaar gaan.

In figuur 6NS, blijkt dat de verdelingen voor generaties 350 (groen), 600 (blauw) en 850 (rood) divergeren naarmate het generatienummer toeneemt. Het ontbreken van een stationaire verdeling, en dus een steeds toenemende ruwheid van het oppervlak van de kolonie, is een bekend gevolg van onbegrensde Eden-fractale groei [39]. Het heeft ook interessante gevolgen omdat de MRCA zich op of dichtbij de oorspronkelijke cel in het systeem bevindt. Het aantal cellen neemt lineair toe met het generatienummer, en bij niet-constante groeiprocessen neemt de genealogische boom een ​​sterachtig patroon aan (experimenteel waargenomen in tumorgroeimodellen [31,40]).

In figuur 7een, het aantal voorouderlijke lijnen wordt teruggevoerd in de tijd vanaf generatie 450 (ononderbroken groene lijn, met N0 ≈ 1250), generatie 900 (ononderbroken rode lijn, met N0 ≈ 2500) en generatie 1800 (ononderbroken blauwe lijn, met N0 ≈ 5000) van het Eden-groeimodel. We zien dat een aanzienlijk percentage van de afstammingslijnen overblijft wanneer samensmelting wordt gedwongen door de lineair afnemende totale populatieomvang (grijze lijn). Ter vergelijking: klassieke coalescentiemodellen lopen voor hetzelfde aantal generaties en er wordt een gemiddelde populatiegroeisnelheid van cellen per generatie gegeven (stippellijnen). Ook hier treedt geen volledige samensmelting op. Hoewel de twee lijnen aanzienlijk verschillen, lijkt de dynamiek van het tumorgroeimodel en het samensmelten met lineaire populatiegroei hetzelfde basisgedrag te hebben.

Figuur 7. Overblijvende afstammingslijnen vanaf drie generaties terug in de tijd voor een bacteriekolonie of tumor. (een) Het Eden-groeimodel voor bacteriële kolonies of tumoren vanaf generatie 1800 (blauwe ononderbroken lijn), 900 (rode ononderbroken lijn) en 450 (groene ononderbroken lijn) toont de totale resterende lijnen. De totale bevolking (grijze doorgetrokken lijn) groeit lineair. Coalescentie wordt niet waargenomen in bijna alle simulaties (een sterachtige boom). Een neutraal evolutiemodel met lineaire bevolkingsgroei ( ) wordt ter vergelijking weergegeven als stippellijnen. Dit model vertoont ook sterachtige bomen. (B) Modellering van een effectief afstammingsnummer dat nu overblijft, vertoont een sterke overlap tussen de twee modellen. De relatie wordt weergegeven in de tekst. Alle resultaten zijn berekend op basis van 1000 stochastische simulaties.

De relatie tussen het klassieke coalescentiemodel en de Eden-modelresultaten kan worden vastgesteld met behulp van dezelfde fractale exponenten die zijn waargenomen in de diffusive-Eden-modelresultaten. In 1996 onderzochten Manna & Dhar [41] de relatie tussen de kritische exponenten van het Eden-model en de onderliggende 'ruggengraat' van de afstamming (d.w.z. de genealogische boom). De belangrijkste relatie betreft het fractionele aantal afstammelingen dat tot een hoogte kan overleven H weg van het oorspronkelijke oppervlak, NH,

Waar we in figuur 7 eigenlijk in geïnteresseerd zijn, is het absolute (en niet het fractionele) aantal bestaande geslachten. Zo schrijven we

In figuur 7B, relateren we de Eden-resultaten aan neutrale evolutie op een vergelijkbare groeiende populatie (lineair groeiend met het generatienummer). Met behulp van de bovenstaande grafische en numerieke argumenten, schaalt dit neutrale evolutiemodel vervolgens met α gelijk aan 1 en dus

Om het traject van het Eden-groeimodel ( ) te vertalen naar dat van het neutrale evolutiemodel ( ) kan een effectieve afstammingspopulatie voor het Eden-proces worden gevormd

Inderdaad, in figuur 7B, resulteert deze eenvoudige wijziging van het Eden-groeitraject in een bijna perfecte overlap met het coalescentiemodel met lineaire groei. De daadwerkelijke wijziging is:

Hier staat de tijd voor het generatienummer (te beginnen bij de eerste generatie in het verleden).

Uiteindelijk komen de resultaten voor het onbegrensde Eden-groeimodel overeen met de resultaten die zijn bepaald voor het begrensde groeimodel (en de overeenkomstige coalescentieresultaten voor groeiende populaties in figuur 7). Deze resultaten bevestigen ook de nauwe relatie tussen de dynamische exponent in fractale groei en de onderliggende boomstructuur die het doel is in experimenten voor het traceren van cellijnen. Beide resultaten suggereren dat het mogelijk is om de coalescentietheorie te gebruiken om de resultaten gevonden in complexe fractale groeimodellen op een computationeel efficiënte manier vast te leggen en te beschrijven. Statistisch geldige resultaten over de ruimtelijke locaties van cellen die behoren tot voorouderlijke populaties van cellen kunnen ook uit dergelijke analyses worden bepaald.

4. Conclusie

In deze studie hebben we ABM's gebruikt om weefselgroei te simuleren en om gedeelde eigenschappen van hun respectieve voorouderlijke bomen vast te stellen door te lenen van de theorie van coalescentieprocessen. De resulterende relaties, geïllustreerd door gedeelde dynamische exponenten van de fractale groeitheorie, leggen niet-triviale relaties vast tussen de coalescentietheorie en fractale oppervlaktegroeimodellen die relevant zijn voor ontwikkelingsbiologie en weefselgroeimodellering.

De schaaleigenschap voor in ons diffusive-Eden-model is gerelateerd aan de dynamische exponent voor Eden-groei (z = 3/2). Onderzoek op het gebied van gerichte polymeren suggereert inderdaad dat de gemiddelde tijd tot de MRCA zal schalen volgens: N z (geschreven als N 1/ν in [36]), en het is bekend dat de gerichte polymeerdynamica bij nultemperatuur equivalent is aan Eden-groei [42]. Dus, het kennen van de dynamische exponent (z) biedt een algemene schaalregel die kan worden toegepast a priori naar een biologisch systeem dat fractale groei vertoont. Hiertoe zijn al experimentele exponenten bepaald voor bacteriekolonies [43]. Wat nog belangrijker is, naar onze mening, bevestigt het dat de behandeling van ruimte als equivalent aan (ontwikkelings)tijd zinvol is. Zelfs in een meer realistisch groeimodel waarin cellen kunnen bewegen en herschikken, vertoont de genetische boom dezelfde algemene schaal voor zowel het ruimtelijke als het temporele domein.

Coalescentietheorie is dan direct toepasbaar en waardevol voor de analyse van biologische weefsel- en groeimodellen, vooral als de cellulaire aard expliciet wordt gemodelleerd. De opkomst van dominante geslachten is bijvoorbeeld gemakkelijk te begrijpen zonder de noodzaak van simulaties, en kan verder worden gerationaliseerd met behulp van de hierboven geschetste schaaleigenschappen. Bovendien kan de aanwezigheid van een enkele dominante afstamming voor grote domeingroottes nu volledig worden uitgesloten voor het diffusive-Eden-model, omdat zoals N gaat tot in het oneindige een MRCA zal nooit worden waargenomen voor enige praktische weefseldiepte. Als we nog verder gaan, kan de aanwezigheid van een dominante afstamming nu mogelijk worden uitgesloten voor een reeks weefselmodellen, omdat elk fractaal groeisysteem met een dynamische exponent groter dan 1 waarschijnlijk geen enkele MRCA heeft binnen relevante weefseldiepten, aangezien N neemt toe. Ten slotte kunnen we beginnen met het maken van niet-triviale biologische uitspraken over systemen die te groot of te ingewikkeld zijn om te simuleren.

Belangrijk is dat veel van de hier gepresenteerde resultaten experimenteel kunnen worden bevestigd. Met name de bepaling van een dynamische exponent voor een werkelijk groeiende bacteriële populatie in combinatie met afstammings-traceringsexperimenten kan de resultaten in figuur 5 bevestigen. Van bijzonder belang is het potentieel om het aantal stamcellen te schatten dat nodig is om de cellen in een weefsel van een bepaalde grootte gedurende een bepaald beperkt tijdsbestek. We hopen dat deze studie experimentele analyses motiveert waarmee we de vereiste grootte van de stamcelpool kunnen meten, aangezien dit (i) de strengste test zou zijn voor onze theoretische analyse en (ii) ook ingrijpende implicaties zou kunnen hebben voor ontwikkelingsbiologie als regeneratieve geneeskunde. Ten slotte zou het feit dat weefselgroeimodellen in dezelfde universaliteitsklasse vallen als KPZ-modellen enige algemene inzichten in de dynamiek aan het oppervlak van groeiende tumoren mogelijk moeten maken, inclusief de ruwheid van dergelijke tumoren.

Het perspectief dat hier wordt ingenomen, richt zich uitsluitend op de voorouders van cellen, maar dat geldt ook voor het traceren van afstammingslijnen. Intra- en intercellulaire processen die de beslissingen van cellen vormen [44,45] zullen een voor de hand liggende uitbreiding zijn om te overwegen, vooral in de context van multischaalmodellen [46] die worden toegepast op ontwikkelingsprocessen. Deze analyse biedt echter al een nuttig aanvullend kader voor de analyse van studies over het traceren van afstammingen. Er is, naar onze mening, een intrinsieke aantrekkingskracht van het toepassen van evolutionaire concepten op ontwikkelingsproblemen. Evolutie biedt natuurlijk een raamwerk waartegen we ontwikkeling zien, maar hier kan het ook krachtige rekenhulpmiddelen bieden voor de analyse van weefseldynamiek tijdens groei en homeostase.


Coalescentietheorie en soortenbomen

Dit hoofdstuk introduceert Kingman's coalescentieproces, dat de genealogische relaties beschrijft binnen een steekproef van DNA-sequenties die uit een populatie zijn genomen, en dat de basis vormt voor op waarschijnlijkheid gebaseerde inferentiemethoden die dergelijke gegevens gebruiken. Het eenvoudige geval van Bayesiaanse schatting van de populatiegrootteparameter theta met behulp van een DNA-monster wordt besproken om de basiskenmerken van Bayesiaanse Markov-keten Monte Carlo (MCMC) inferentie-algoritmen te illustreren. Het hoofdstuk bespreekt vervolgens het gebruik van parametrische en niet-parametrische demografische modellen van verandering in populatiegrootte om de demografische geschiedenis van een soort in het verleden af ​​te leiden. Het multispecies-coalescentiemodel, dat de coalescentie van één populatie tot meerdere populaties uitbreidt, wordt geïntroduceerd met voorbeelden. Dit wordt vervolgens gebruikt als het algemene raamwerk voor het schatten van parameters zoals soortendivergentietijden en voorouderlijke populatiegroottes, voor het afleiden van de soortboom uit meerdere genetische loci ondanks het bestaan ​​van conflicterende genbomen, voor het schatten van migratiesnelheden tussen populaties, en voor het afbakenen van soorten met behulp van multi-locus DNA-sequentiegegevens.

Oxford Scholarship Online vereist een abonnement of aankoop om toegang te krijgen tot de volledige tekst van boeken binnen de service. Publieke gebruikers kunnen echter vrij de site doorzoeken en de samenvattingen en trefwoorden voor elk boek en hoofdstuk bekijken.

Abonneer u of log in om toegang te krijgen tot de volledige tekstinhoud.

Als u denkt dat u toegang zou moeten hebben tot deze titel, neem dan contact op met uw bibliothecaris.

Raadpleeg onze veelgestelde vragen om problemen op te lossen en als u het antwoord daar niet kunt vinden, neem dan contact met ons op.