Informatie

Fylogenetische algoritmen: hoe meerdere ML-bomen uit dezelfde dataset interpreteren?


Er is nog steeds iets dat me in de war brengt over hoeveel van deze algoritmen werken en hoe de resultaten in de literatuur worden gepresenteerd.

Laten we eens kijken naar een op Maximum Likelihood gebaseerd algoritme zoals MrBayes of RAxML: gebruikers stellen een random number seed in die de startboom genereert. Voor veel van onze datasets zijn er verschillende zaden die resulteren in verschillende ML-resultaten, omdat de algoritmen worden geïnitialiseerd met verschillende bomen.

Ik weet niet helemaal zeker hoe je dit moet interpreteren, vooral omdat mijn ervaring met ML-methoden is dat de eerste stap niet relevant is voor de globale/lokale min/max in parameterruimte ---- de ketens doen er gewoon langer over om te convergeren .

Hoe moet men deze resultaten interpreteren? Moeten gebruikers duizenden bomen uitvoeren met verschillende parameterwaarden en vervolgens de meest optimale waarschijnlijkheidswaarde kiezen? Dat lijkt nogal ad hoc, net als bootstrapping, etc.

Is de dataset fundamenteel gebrekkig?


Kortom, u heeft twee voorbeelden gekozen die niet gebruikmaken van de maximale waarschijnlijkheid zoals u die in andere contexten kent. In de meeste statistische contexten is de ML een enkel getal dat analytisch kan worden berekend, dus het is altijd hetzelfde voor een bepaalde dataset. Dit is niet het geval voor MrBayes of RAxML, maar om verschillende redenen.

MrBayes

Het waarschijnlijkheidscriterium in MrBayes is de marginale waarschijnlijkheid van het posterior, gezien de gegevens die op de priors zijn gebaseerd. Deze waarschijnlijkheid komt van een stochastische MCMC-steekproef van de parameterruimte. Als alles goed verloopt, zullen de kettingen en/of runs samenkomen op dezelfde algemene locatie. Maar dan moeten de verschillende mogelijke topologieën op de een of andere manier worden samengevat.

RAxML

RAxML genereert in wezen willekeurige startbomen door willekeurige volgordetoevoegingen om bomen op te bouwen. De subbomen worden vervolgens herschikt om een ​​"beste" boom te vinden. Nogmaals, verschillende uitgangspunten kunnen leiden tot verschillende beste bomen. Maar als alles goed gaat, komen analyses bij dezelfde boom uit. Dit proces wordt in dit hoofdstuk beschreven.

In beide gevallen, als je op een andere plek begint, kun je op een andere plek eindigen. Er kunnen veel bomen zijn die, binnen een bepaald criterium, even waarschijnlijk zijn. Als u bekend bent met spaarzaamheidsmethoden, is de analogie die van meerdere even spaarzame bomen.


Op machine learning gebaseerde imputatietechnieken voor het schatten van fylogenetische bomen uit onvolledige afstandsmatrices

Met de snelle groeisnelheid van nieuw gesequenced genomen, is het afleiden van soortenbomen uit genen die door het hele genoom zijn bemonsterd, een basistaak geworden in vergelijkende en evolutionaire biologie. Er blijven echter aanzienlijke uitdagingen bij het benutten van deze grootschalige moleculaire gegevens. Een van de belangrijkste uitdagingen is het ontwikkelen van efficiënte methoden die kunnen omgaan met ontbrekende gegevens. Populaire op afstand gebaseerde methoden, zoals NJ (neighbor join) en UPGMA (ongewogen paargroepsmethode met rekenkundig gemiddelde) vereisen volledige afstandsmatrices zonder ontbrekende gegevens.

Resultaten

We introduceren twee zeer nauwkeurige op machine learning gebaseerde imputatietechnieken op afstand. Deze methoden zijn gebaseerd op matrixfactorisatie en auto-encoder gebaseerde deep learning-architecturen. We hebben deze twee methoden geëvalueerd op een verzameling gesimuleerde en biologische datasets. Experimentele resultaten suggereren dat onze voorgestelde methoden overeenkomen met of verbeteren op de beste alternatieve afstandstoerekeningstechnieken. Bovendien zijn deze methoden schaalbaar tot grote datasets met honderden taxa en kunnen ze een aanzienlijke hoeveelheid ontbrekende gegevens aan.

Conclusies

Deze studie toont voor het eerst de kracht en haalbaarheid aan van het toepassen van deep learning-technieken voor het toewijzen van afstandsmatrices. Deze studie bevordert dus de state-of-the-art in fylogenetische boomconstructie in de aanwezigheid van ontbrekende gegevens. De voorgestelde methoden zijn beschikbaar in open source-vorm op https://github.com/Ananya-Bhattacharjee/ImputeDistances.


Abstract

Het afleiden van een fylogenetische boom is een fundamentele uitdaging in evolutionaire studies. Huidige paradigma's voor fylogenetische boomreconstructie zijn afhankelijk van het uitvoeren van kostbare waarschijnlijkheidsoptimalisaties. Met het doel om boominferentie haalbaar te maken voor problemen waarbij meer dan een handvol sequenties betrokken zijn, integreert gevolgtrekking onder het paradigma met maximale waarschijnlijkheid heuristische benaderingen om slechts een subset van alle potentiële bomen te evalueren. Bijgevolg lijden bestaande werkwijzen aan de bekende afweging tussen nauwkeurigheid en looptijd. In deze proof-of-concept-studie trainen we een machine learning-algoritme over een uitgebreide cohort van empirische gegevens om de naburige bomen te voorspellen die de kans vergroten, zonder hun waarschijnlijkheid daadwerkelijk te berekenen. Dit biedt de mogelijkheid om een ​​grote set van de zoekruimte veilig weg te gooien, waardoor heuristische zoekacties in boomstructuren mogelijk worden versneld zonder aan nauwkeurigheid in te boeten. Onze analyses suggereren dat machine learning methoden voor het zoeken naar bomen kan leiden naar de meest veelbelovende kandidaat-bomen.


1 antwoord 1

Is het enige bestand van belang. De reden waarom dit in deze context waar is, is echt ingewikkeld en je moet de statistieken van waarschijnlijkheid begrijpen en hoe ze worden geïnterpreteerd binnen de fylogenie om te begrijpen waarom. Dit bestand is gewoon de uiteindelijke uitvoer van een niet-parametrische bootstrap-analyse die is uitgevoerd met maximale waarschijnlijkheid.

Wat is in hemelsnaam een ​​niet-parametrische boostrap?

Een niet-parametrische bootstrap herbemonstert elke uitlijningspositie met vervanging. Dus als we uitlijningsposities 1,2,3,4,5 hebben, kan een bootstrap-resample voor 2 replica's zijn,

Het ML-algoritme maakt bomen van replica's 1 en 2 en vindt de consensus daartussen. Als je er in een andere context over nadenkt, is een bootstrap-replicatie vrij zinloos omdat het niet langer de ware biologische volgorde weerspiegelt. Dus informatie over hoe de consensus tot stand is gekomen, is voor ons niet echt van belang, op voorwaarde dat we er zeker van zijn dat dit correct is gedaan, nl. RAxML_bipartitionsBranchLabels.output_bootstrap.tre en RAxML_bipartitionsBranchLabels.output_bootstrap.tre

Dus waarom is deze output van beperkt nut?

Er zijn situaties voor sommige onderzoekers dat deze informatie nuttig is, maar om de robuustheid van een boomtopologie te beoordelen is dit niet nodig. Het enige dat we willen is een phylogram (bestTree) met de bootstrap-waarden erop. We hebben echt geen ingewikkelde dingen nodig, zoals de boom om bijvoorbeeld te worden weergegeven als een polytomie (niet-vertakte boom), omdat we gewoon de bootstraps kunnen lezen om die aftrek te maken (waarden >> 75%). Bovendien is er geen perfecte consensus over welke boostrap-waarde robuustheid is, maar over het algemeen zijn de meesten het erover eens dat >80% robuust is.

Welke uitvoerbestanden bevatten nuttige informatie?

De informatie die belangrijk is, zijn de bestanden die zijn gekoppeld aan "bestTree", dat was de enige boom met maximale waarschijnlijkheid die werd uitgevoerd op de intacte oorspronkelijke sequentie. Het "info"-bestand hiervoor bevat 3 echt belangrijke parameters:

  • -lnL . erg belangrijk!!
  • Gammaverdelingsparameter "alpha",
  • PINVAR, aandeel invariante sites,

-lnL is de hoogste log-waarschijnlijkheid (waarschijnlijkheid) van de fylogenie. Het is meestal een heel klein aantal waar een enorme hoeveelheid theorie overheen gaat.

Alfaparameter van de gammaverdeling dit is de vormparameter van de mutatiesnelheid, als deze erg laag is (<1), is de verdeling van mutaties over de uitlijning erg strak geclusterd en benadert deze een negatieve binomiale verdeling. Dit betekent dat sommige sites helemaal niet muteren en een klein aantal sites veel. Als het erg groot is >200 (wat nooit wordt waargenomen), benadert het de Poisson-verdeling, wat betekent dat de mutatieverdeling willekeurig is verdeeld over de uitlijning.

PINVAR dit is een recht percentage/frequentie en betekent simpelweg de sites die niet muteren.

Hoe worden ze berekend?

PINVAR en alfa zijn niet emperisch berekend, d.w.z. als je naar een uitlijning kijkt en zegt 'geen mutaties op die positie', zou PINVAR het natuurlijk eens zijn, maar kan andere invariant overwegen, afhankelijk van de fylogenie. Deze parameters worden berekend op basis van maximale waarschijnlijkheid en u kunt beginnen te begrijpen waarom de berekening zo lang duurt. alpha en PINVAR beïnvloeden de boomtopologie (die van invloed is op -lnL), maar de topologie beïnvloedt alpha en PINVAR. Het is dus een multidimensionale zoektocht naar boom- en parameterruimte.

Dus welke dingen rapporteer ik in mijn Resultaten?

Hoe dan ook, het rapporteren van -lnL is een goede techniek en laat de lezer zien dat je maximale waarschijnlijkheid hebt gedaan, daarbij verwijzend naar PINVAR en alfa van gammadistributiehulp ('Methoden'-parameters werden herhaaldelijk berekend onder maximale waarschijnlijkheid). Dit is alleen nuttig voor bestTree. De -lnL, PINVAR en gamma's alpha worden ook berekend voor elke bootstrap-replicatie, maar deze waarden zijn beperkt bruikbaar, omdat we de gegevens opnieuw hebben gesampled, alleen de consensusboom telt. Het is duidelijk dat het presenteren van het bootstrap-phylogram uiterst belangrijk is.

Welkom in de technische wereld van de fylogenie!

De aminozuurmatrix die je hebt gebruikt trouwens.. LG is nu in zwang.

Hoe doe ik het?

Wanneer ik dit doe, is het via Biopython en ETE3, ik leg de waarden binnen de pijplijn vast en onderzoek de uitvoerbestanden van RAxML niet omdat ik die van mezelf genereer.


Resultaten en discussie

Vergelijking van MRP pseudo-sequentie supertree en ML tree

Om de evolutionaire relaties tussen SARS-CoV-2 nauwkeurig te bepalen, werden benaderingen van MRP pseudo-sequentie supertree en ML tree gebruikt voor fylogenetische analyse van 102 SARS-CoV-2 geïsoleerd over de hele wereld samen met 5 SARS-CoV, 2 MERS- CoV en 11 vleermuiscoronavirussen als outgroups. In de MRP-pseudo-sequentie-superboom (Fig. 2) werden SARS-CoV en MERS-CoV op één hoofdtak geplaatst, terwijl SARS-CoV-2 tot een andere hoofdtak behoorde. De uiteenlopende locatie van SARS-CoV-2 ten opzichte van SARS-CoV en MERS-CoV op de MRP-pseudo-sequentie-supertree was consistent met de resultaten van de fylogenetische ML-boom in dit onderzoek (aanvullende figuur S1). Het werd ook ondersteund door eerdere rapporten over de fylogenie van SARS-CoV-2 geconstrueerd met het hele genoom 3,4,6. Er zijn echter enkele discrepanties aanwezig tussen de MRP-pseudo-sequentie-superboom en de ML-boom. In het bijzonder toonde de MRP-pseudo-sequentie supertree-analyse meer resolutievermogen dan de ML-boombenadering. Onderscheidende fylogenetische afstanden op clades van SARS-CoV en SARS-CoV-2 in MRP pseudo-sequentie supertree, presenteerden expliciet evolutionaire relaties tussen coronavirussen. Ook identificeerde de MRP-pseudo-sequentie-supertree met succes het civet-bemonsterde coronavirus AY572035 als de naaste voorouder van de SARS-CoV's (Fig. 2), wat zeer consistent was met de vorige studie 35 . Bovendien toonde de MRP-pseudo-sequentie-superboom een ​​gedetailleerde evolutionaire relatie van SARS-CoV-2, met negen subtakken geïdentificeerd van Clade A tot Clade I in Fig. 2. De betrouwbaarheid van de fylogenetische gevolgtrekking van SARS-CoV-2 in supertree wordt voldoende gegarandeerd door hoge bootstrap-waarden tussen 55 en 95. Omgekeerd zijn coronavirussen strak geclusterd op clades van SARS-CoV en SARS-CoV-2 in fylogenetische ML-boom (aanvullende figuur S1), met nauwelijks waarneembare vertakkingslengte (minder dan 0,001 ). Het is vermeldenswaard dat sommige vleermuiscoronavirussen die werden bemonsterd uit dezelfde dierlijke gastheer of/en dezelfde bemonsteringslocatie, een kleinere genetische afstand vertoonden in MRP pseudo-sequentie supertree, wat rationeel en logisch is vanuit het perspectief van evolutionaire vooruitgang. Vleermuiscoronavirussen vertoonden echter geen definitieve evolutionaire relatie in de fylogenetische ML-boom. De belangrijkste factor die de topologie van de fylogenetische ML-boom bepaalt, lijkt het ORF1ab-gen te zijn dat ongeveer 75% van het genoom uitmaakt. Het wordt gemakkelijk verklaard door het feit dat de evolutionaire relatie vergelijkbaar was in de fylogenetische ML-boom ten opzichte van de bron-fylogenetische ML-boom op basis van de sequentie van het ORF1ab-gen (aanvullende figuur S1, figuur 3a). Alles bij elkaar genomen vertoonde de fylogenetische superboom een ​​significante superioriteit voor het ontcijferen van evolutionaire relaties tussen coronavirussen.

MRP pseudo-sequentie supertree voor SARS-CoV-2 opgebouwd uit eiwitbronbomen. De gastheren en bemonsteringslocaties van dierlijke coronavirussen staan ​​tussen haakjes. De codering van SARS-CoV-2-virussen is de combinatie van de afkorting van bemonsteringslocatie, bemonsteringstijd en Genbank-toetreding. MERS-CoV-clade, SARS-CoV-clade en negen clades van SARS-CoV-2 zijn respectievelijk gemarkeerd en gelabeld. De nummers langs de takken markeren het percentage bootstrap-waarden van 1000 bootstrap-resamplings.

Bron fylogenetische ML-bomen voor fylogenetische superboomconstructie. (een) ORF1ab (B) Spike-eiwit (C) M-eiwit (NS) N-eiwit (e) E-eiwit (F) ORF3a (G) ORF6 (H) ORF7a (l) ORF8. Clades van SARS-CoV-2 zijn vetgedrukt in alle bronfylogenetische ML-bomen. Vleermuisvirus MG996532 is in rood geschreven, MG772933 en MG772934 zijn in blauw. Clades van SARS-CoV en MERS-CoV zijn respectievelijk groen en paars gemarkeerd.

Vergelijking van verschillende superbomen van coronavirussen

Sinds de geboorte van de supertree-theorie zijn er veel methoden ontwikkeld voor het construeren van supertrees uit bronbomen, waaronder MRP-methode 9,26, de meest vergelijkbare supertree-algoritme (MSSA)-methode 36, gemiddelde consensus 37 en nieuw ontwikkelde geschatte maximale waarschijnlijkheid (ML) supertree methode 30 . Onder hen is de MRP-methode de meest gebruikte supertree-methode, op basis waarvan MRP pseudo-sequentie supertree is afgeleid. Er zijn er echter maar weinig gebruikt voor het construeren van supertrees van virussen.

In deze studie werden de hierboven vermelde benaderingen voor de constructie van supertrees allemaal toegepast, in een poging uit te zoeken welke supertree-benadering de beste is om de fylogenie van coronavirussen te verduidelijken. De uitkomst dat de SARS-CoV-clade zich in de SARS-CoV-2-clade bevindt in supertrees gebouwd door benaderingen van MSSA supertree (aanvullende figuur S2) en gemiddelde consensus supertree (aanvullende figuur S3), toonde sterk aan dat deze twee benaderingen kunnen 'Geen betrouwbaar fylogenetisch signaal van coronavirussen. Evenzo is de ML-supertree-methode ook ongepast voor fylogenetische reconstructie vanwege het falen in resolutie voor de outgroup MERS-CoV's (aanvullende figuur S4). Omgekeerd vertoonden supertrees verkregen op basis van de traditionele MRP-methode en de MRP-pseudo-sequentie-supertree-methode een vergelijkbare topologie (aanvullend Fig. S5, Fig. 2), wat een goede scheiding opleverde tussen MERS-CoV, SARS-CoV en SARS-CoV-2 . De MRP-pseudo-sequentiemethode is relatief geschikter voor fylogenetische reconstructie, omdat veel taxa met dezelfde bemonsteringspositie en tijd nauwkeurig worden opgelost in dezelfde clade (Clade B, C, D, E en H). De rationaliteit van het gebruik van de MRP-pseudo-sequentie-supertree-methode voor fylogenetische analyse zou gedeeltelijk moeten worden toegeschreven aan de verwijdering van de meeste onbetrouwbare bipartities met lage bootstrap-waarden (< 55) tijdens het reconstructieproces. Het behoud van onbetrouwbare bipartities resulteerde in de MRP-superboom met een chaotische topologie, vooral in SARS-CoV-2-clade (aanvullende figuur S5). Bovendien kan de MRP-pseudo-sequentie-supertree-methode verschillende gevestigde fylogenetische algoritmen kiezen om de vertakkingslengte en bootstrap-statistische test uit de MRP-pseudo-sequenties te berekenen, waardoor het een extra mogelijkheid wordt voor het nauwkeurig construeren van fylogenetische supertree.

Bovendien werd in deze studie ook MRP-pseudo-sequentie-supertree gebaseerd op nucleïnezuurbronbomen geconstrueerd (aanvullende figuur S6), die MERS-CoV's op ongepaste wijze in de SARS-CoV-2-clade plaatste. Het probleem van de op bomen gebaseerde supertree uit een nucleïnezuurbron kan worden veroorzaakt door het feit dat coronavirussen vaak recombineren 38 en sommige recombinatiebreekpunten kunnen de reconstructie van de supertree verkeerd sturen. Dit probleem zou daarentegen kunnen worden vermeden door een superboom te construeren op basis van eiwitsequentie (Fig. 2), die de breekpunten in niet-coderende regio's zou uitsluiten en de invloed van onzin en stille mutatie in coderende regio's zou minimaliseren. Bijgevolg is op eiwitsequentie gebaseerde MRP pseudo-sequentie supertree betrouwbaarder en nauwkeuriger.

Evalueer de validiteit van MRP-supertree bij het analyseren van op simulatie gebaseerde virale genomische evolutie

Om te bewijzen dat MRP pseudo-sequentie supertree meer de voorkeur heeft voor analyse van coronavirus fylogenetica, hebben we ALF simulatieframe gebruikt om MRP supertree te vergelijken met volledige genomische sequentie ML tree. In vergelijking met de echte boom gegenereerd door ALF (aanvullende figuur S7a), konden beide MRP-superbomen de topologie van de fylogenetische boom correct oplossen, maar de MRP-pseudo-sequentie-superboom (aanvullende figuur S7c) vertoonde een redelijkere vertakkingslengte ten opzichte van de MRP-superboom geconstrueerd door Clann (aanvullende figuur S7d). Van bijzonder belang was dat het taxon SE008 op een ongepaste positie was geplaatst - een inconsistent knooppunt in de ML-boom (aanvullende figuur S7b). De armoede van de ML-methode die hier wordt toegepast, kan voornamelijk worden toegeschreven aan de LGT-gebeurtenissen die in de simulatie zijn geïntroduceerd, wat stevig kan worden ondersteund door het feit dat de ML-methode een fylogenetische boom construeerde die goed paste bij de overeenkomstige echte boom gegenereerd door ALF zolang er geen LGT in de simulatie (gegevens niet getoond). Het is algemeen bekend dat virusevolutie een complexe interactie is tussen virussen en gastheren, waarbij RNA-virussen een opmerkelijke genomische flexibiliteit vertonen. Factoren die de virale genomische flexibiliteit beïnvloeden omvatten, maar worden niet beperkt door, LGT onder virussen en gastheren, recombinatie, winst en verlies van genen32. Daarom is virale evolutie zo ingewikkeld dat het huidige model niet in staat was om de simulatie precies uit te voeren. In de eerste plaats kan de LGT-gebeurtenis in de evolutie van SARS-CoV-2 niet worden genegeerd in het simulatieproces. Op dit punt vestigde de MRP-superboom zijn superioriteit in vergelijking met de ML-boom met de volledige lengte van de genomische sequentie.

Aanwijzingen voor de oorsprong van de SARS-CoV-2

Zoals de fylogenetische MRP-pseudo-sequentie supertree en ML-boom vertoonden, vormden RaTG13 (MN996532), bat-SL-CoVZC45 (MG772933), bat-SL-CoVZXC21 (MG772934) en SARS-CoV-2s één grote clade (Fig. 2, Aanvullend Fig. S1). In het bijzonder RaTG13 geïsoleerd uit bat Rhinolophus affinis (Yunnan, China), is de naaste verwant van SARS-CoV-2's, wat de eerder gerapporteerde fylogenie van SARS-CoV-2's bevestigt die zijn geconstrueerd met het hele genoom 39,40. De fylogenetische afstand van SARS-CoV-2's en RaTG13 werd echter duidelijk tentoongesteld in de MRP-pseudo-sequentie-superboom (Fig. 2), maar werd nauwelijks waargenomen in de fylogenetische ML-boom die in deze studie werd geconstrueerd (aanvullende Fig. S1) of vorig verslag 39 .

Om de ongelijksoortige nabijheid tussen SARS-CoV-2's en RaTG13 in MRP-pseudo-sequentie-supertree ten opzichte van ML-boom te interpreteren, hebben we de 10 bron-ML-bomen onderzocht en geëvalueerd (Fig. 3), op basis waarvan de MRP-pseudo-sequentie-supertree werd gebouwd . In overeenstemming met de resultaten van MRP-pseudo-sequentie supertree en ML-boom, wordt RaTG13 (MN996532) geïdentificeerd als aangrenzend coronavirus aan SARS-CoV-2's in bron-ML-bomen op basis van fylogenetische analyse van vijf CDS's, waaronder ORF1ab, spike-eiwit, N-eiwit, ORF6 en ORF7a (Fig. 3a, b, d, g, h). Daarentegen vleermuiscoronavirus MG772933 en MG772934, die beide geïsoleerd zijn van vleermuis Rhinolophus sinicus (Zhejiang, China) 41, waren de naaste verwanten van SARS-CoV-2's in bron-ML-bomen op basis van M-eiwit, ORF3a en ORF8 (Fig. 3c, f, i). Bovendien toonde fylogenetische analyse van de E-eiwitsequentie aan dat SARS-CoV-2's, MN996532, MG772933 en MG772934 op dezelfde tak zijn gelokaliseerd (Fig. 3e). De inconsistente fylogenetische relatie die berust op verschillende genen, doet ernstig twijfel rijzen over de betrouwbaarheid van fylogenetische analyse op basis van één gen.

Hoe dan ook, de bovenstaande verschillende fylogenetische analyseresultaten toonden buiten redelijke twijfel aan dat de evolutiesnelheden op sequenties van gevarieerde eiwitten in SARS-CoV-2's zeer niet-uniform zijn. Er bestaat waarschijnlijk nog een vleermuiscoronavirus in uiteenlopende soorten, aangezien de aangrenzende voorouder van SARS-CoV-2 en/of SARS-CoV-2's al een geavanceerde evolutie doormaakten in zijn dierlijke gastheer. Hoe dan ook, wat duidelijk is, is dat de feitelijke geldigheid van RaTG13 als de directe voorouder van SARS-CoV-2 ernstig in twijfel wordt getrokken, hoewel ze 96,5% identieke genoomsequentie delen. Het nemen van RaTG13 als de laatste gemeenschappelijke voorouder van SARS-CoV-2 zou de fylogenetische gevolgtrekking van SARS-CoV-2 ernstig misleiden.

Mutanten en evolutie van SARS-CoV-2

Binnen de fylogenetische MRP-pseudo-sequentie-superboom werden negen subtakken opgelost in SARS-CoV-2-clades, gelabeld van clade A tot clade I in Fig. 2, die afwezig waren in de fylogenetische ML-boom op basis van genomische sequentie-analyse van volledige lengte ( Aanvullend Fig. S1). De subtakken vertoonden een evolutionair scenario van de SARS-CoV-2's in menselijke gastheren van december 2019 tot maart 2020 over de hele wereld, in ieder geval gebaseerd op 102 SARS-CoV-2-isolaten in dit onderzoek. Door tien CDS's van SARS-CoV-2's te ondervragen, worden diverse mutaties verspreid binnen vijf virale eiwitten, namelijk ORF1ab, N-eiwit, spike-eiwit, ORF3a en ORF8 (tabel 1). Binnen de meeste mutatieplaatsen die in deze studie zijn beschreven, werd het oorspronkelijke aminozuur vervangen door een ander aminozuur met gewijzigde chemische eigenschappen, behalve L1599F in ORF1ab (clade A), V62L in ORF8 (clade H) en I1606V in ORF1ab (clade D1). Het meest opvallende was dat SARS-CoV-2's uit de VS een veel voorkomende mutatie vertoonden in clades van A, C, D, F, H en I, die een groot aantal in deze studie genoemde landen bestrijken, waaronder Spanje, Finland, Zweden, Italië, Brazilië, Australië en Zuid-Korea. Met name de detectie van de identieke mutatie in het ORF3a-eiwit (G251V) in clade I gaf aan dat de verspreiding van de G251V-mutant ten minste in januari 2020 of eerder plaatsvond in Zweden, Italië, Brazilië, Australië en de VS.

Het ORF1ab-gen, dat 75% van de totale genoomgrootte van coronavirus inneemt, codeert voor een reeks niet-structurele eiwitten (nsp), die samenkomen om virale replicatie en transcriptie te vergemakkelijken. Mutaties in aminozuursequentie van ORF1ab aanwezig in de meeste clades, waaronder clades A, B, C, D1 in D en E, die betrokken zijn bij SARS-CoV-2's uit Spanje, de VS, China, maar er werd geen identieke mutatieplaats gevonden. gedetecteerd. Onder hen bevond zich een mutatie van proline naar leucine (P4715L) in ORF1ab op Nsp12. Opgemerkt moet worden dat Nsp12 wordt beschouwd als een primair doelwit voor nucleotide-analoge antivirale remmers zoals remdesivir. De mutatie (P4715L) zou dus mogelijk anti-coronavirusbehandeling minder effectief maken 42,43.

Spike-eiwit, verantwoordelijk voor virale binnenkomst in gastheercellen, vertoonde twee gemuteerde plaatsen verdeeld in respectievelijk clade A (D614G) en F (H49Y). De mutatieplaats D614G in spike-eiwit bevindt zich tussen het receptorbindende domein (451-509) en de polybasische splitsingsplaats (682-685) 44 , die mogelijk het vermogen van SARS-CoV-2's om te binden aan de ACE2-receptor van de menselijke gastheer of betrokken in andere stappen die verband houden met de invasie van gastheercellen. Verdere studies en klinische observaties zijn nodig om erachter te komen of mutatieplaatsen op verschillende eiwitten het virale vermogen tot infectie en de pathogeniteit ervan kunnen veranderen.


Conclusie

Aangezien de overgrote meerderheid van de openbaar beschikbare sequentiegegevens van complexe genomen is afgeleid van grootschalige projecten voor gedeeltelijke sequentiebepaling van genen, zou het een ernstige handicap zijn om fylogenetische analyses te beperken tot uitlijningen die alleen zijn afgeleid van sequenties van volledige lengte. We hebben echter aangetoond dat het specifieke patroon van gappines dat wordt gevonden in uitlijningen van gedeeltelijke gensequenties met zorg moet worden behandeld om nauwkeurige fylogenieën te verkrijgen. Zowel maskering als modelgebaseerde benaderingen van ontbrekende gegevens tonen potentieel voor het verbeteren van de nauwkeurigheid van de bomen die zijn verkregen uit gappy-uitlijningen. Hun prestaties zullen moeten worden vergeleken met andere benaderingen om met onvolledige afstemmingen om te gaan [14,23]. Dergelijke methoden zullen van cruciaal belang zijn voor de toepassing van technieken die afhankelijk zijn van grote aantallen nauwkeurige genenbomen, zoals gebruikelijk is in de fylogenie [4,6].


Fylogenetische algoritmen: hoe meerdere ML-bomen uit dezelfde dataset interpreteren? - Biologie

In een eerder bericht vermeldde Steven dat een van de datasets van de Grass Phylogeny Working Group een onverwacht prominente rol heeft gespeeld bij de evaluatie van hybridisatienetwerkalgoritmen.

Deze algoritmen werken door te proberen een netwerk te construeren uit een reeks geroote bomen met overlappende sets taxa en de GPWG-dataset biedt zes van dergelijke bomen, één van elk van zes verschillende moleculaire loci. Deze dataset lijkt door Bordewich et al. in de netwerkliteratuur te zijn geïntroduceerd. (2007), hoewel het eerder was gebruikt voor evaluaties van supertree-methoden (Salamin et al. 2002 Schmidt 2003).

De gebruikte gegevens bestaan ​​uit DNA-sequenties van drie nucleaire loci en drie chloroplast-genen. De oorspronkelijke publicatie bevat ook gegevens voor morfologie en restrictieplaatsen, maar deze zijn niet gebruikt voor de netwerkanalyses. Een reden voor interesse in deze dataset is de mogelijkheid van verknopingssignalen tussen de nucleaire en chloroplast-gegevensbronnen. Er zijn 66 ​​taxa, hoewel bijna de helft samengesteld is uit gegevens voor verschillende soorten in hetzelfde geslacht, en slechts enkele van de taxa hebben gegevens voor alle zes datasets (het aantal taxa varieert van 19-65 per dataset) . De beschikbare gegevens zijn samengevat in tabel 7.1 van Schmidt (2003).

Een belangrijk punt met betrekking tot deze gegevens is dat in de oorspronkelijke GPWG-publicatie de zes genenbomen strikte consensusbomen waren van maximale spaarzaamheidsanalyses, en dus een behoorlijk aantal polychotomieën hebben. Deze polychotomieën waren bedoeld door de auteurs [persoonlijke communicatie] om onzekerheid over de topologieën van de bomen uit te drukken.

Deze onzekerheid wordt echter niet getoond in de bomen die zijn gebruikt voor netwerkevaluatie. Volgens Bordewich et al. werden de bomen die zij (en alle anderen) gebruikten, gereconstrueerd met behulp van het fastDNAmL-programma (dwz maximale waarschijnlijkheid) en geleverd door Heiko Schmidt (zie Schmidt 2003, p.74). Zoals verwacht zijn er geen polychotomieën in deze ML-bomen en geen indicatie van een onzekere topologie, en natuurlijk verschillen de boomtopologieën enigszins van de spaarzame bomen.

Een belangrijk gevolg is dat er meer onverenigbaarheid is tussen de dichotome maximum-waarschijnlijkheidsbomen dan tussen de polychrome maximum-sparsimony bomen. Dat wil zeggen, veel van de ML-incompatibiliteiten zijn gerelateerd aan onzekerheden in de MP-bomen. Helaas vereisen de meeste netwerkalgoritmen die zijn geëvalueerd met behulp van deze gegevens strikt dichotome bomen.

Ook lijkt de root problemen te veroorzaken voor deze gegevens. De GPWG-bomen zijn allemaal geworteld met deze topologie:
(Flagellaria,((Elegia,Baloskion),(Joinvillea,((Streptochaeta,Anomochloa),(Pharus,(ingroup))))))
De positie van deze 7-taxon-outgroup ten opzichte van de rest van de taxa varieert echter tussen de genenbomen. Dat wil zeggen, de verbinding tussen de outgroup en de ingroup verschilt tussen de genenbomen. Dus een deel van de onverenigbaarheid tussen de bomen wordt veroorzaakt door een onzekere wortel, in plaats van door tegenstrijdige signalen als gevolg van verknopingsprocessen.

Sommige van de beschikbare ML-datasets hebben bomen met dezelfde set van ingroup/outgroup-relaties als de GPWG-bomen, bijvoorbeeld die datasets die beschikbaar zijn met het CASS-algoritme. Sommige van de ML-bomen die in de literatuur worden gepresenteerd, lijken echter op een heel andere plaats te zijn geworteld, en deze plaats verschilt tussen de genenbomen. Bijvoorbeeld, de gegevens zoals gepresenteerd met het HybridInterleave-programma, dat wordt gepresenteerd als 15 paren van subbomen in plaats van als zes volledige bomen, zijn niet alleen de genenbomen schijnbaar geworteld in verschillende plaatsen, maar de verschillende subsets die worden gepresenteerd van dezelfde genenboom zijn soms ook geworteld in verschillende plaatsen.

Het lijkt mij dat er twee consequenties zijn die voortvloeien uit deze punten: (i) het is onnodig moeilijk om een ​​netwerk te construeren uit de ML-gegevens (omdat niet alle gegevenssignalen betrekking hebben op vernetting), en (ii) de resulterende netwerken ( zoals gepubliceerd) zien er voor een bioloog nogal onrealistisch uit (er zijn veel te veel verknopingspunten). Misschien is dit niet de meest realistische dataset om te gebruiken voor de evaluatie van netwerkalgoritmen.

Een andere veelgebruikte dataset is de Ranonkel gegevens van Lockhart et al. (2001). In deze dataset lijkt een groot deel van het incompatibiliteitssignaal ook geassocieerd te zijn met een onzekere positie voor de wortel (zie Morrison 2011, Fig. 4.7). In dit geval zijn er twee genenbomen (een nucleaire en een chloroplast) die vergelijkbare niet-gewortelde topologieën hebben, maar verschillende uit de groep afgeleide wortellocaties hebben. Omgaan met wortelonzekerheid kan dus een van de grootste verwarrende problemen zijn bij het identificeren van reticulatiegebeurtenissen.

Een nexus treefile met de originele zes GPWG-bomen (consensus parsimony) is beschikbaar op:
http://acacia.atspace.eu/data/GPWG.tre

Een dendroscoopboombestand met de zes ML-bomen is beschikbaar op:
http://sites.google.com/site/cassalgorithm/data-sets

Bordewich M., Linz S., St. John K., Charles Semple C. (2007) Een reductie-algoritme voor het berekenen van het hybridisatiegetal van twee bomen. Evolutionaire bio-informatica 3: 86-98.

Grass Phylogeny Working Group (2001) Fylogenie en subfamiliale classificatie van de grassen (Poaceae). Annalen van de Missouri Botanical Garden 88: 373-457.

Lockhart P., McLechnanan PA, Havell D., Glenny D., Huson D., Jensen U. (2001) Fylogenie, straling en transoceanische verspreiding van alpine boterbloemen in Nieuw-Zeeland: moleculair bewijs onder gesplitste ontleding. Annalen van de Missouri Botanical Garden 88: 458-477.

Salamin N., Hodkinson TR, Savolainen V. (2002) Supertrees bouwen: een empirische beoordeling met behulp van de grasfamilie (Poaceae). Systematische biologie 51: 136-150.

Schmidt HA (2003) Fylogenetische bomen uit grote datasets. Proefschrift, Heinrich Heine Universiteit, Düsseldorf.

Wu Y. (2010) Sluit onder- en bovengrenzen voor het minimale netvormige netwerk van meerdere fylogenetische bomen. Bio-informatica 26: i140-i148.


Invoering

Mosasauroid-reptielen sensu Bell [1] (mosasaurids + aigialosaurids) was een diverse en wereldwijd verspreide clade van hagedissen die zoetwater- en mariene omgevingen binnenvielen tijdens het Late Krijt [1-5]. Hoewel meerdere reptielachtige clades secundair zijn aangepast aan aquatische habitats, waren mosasauroids een van de weinige die volledig in het water leven - ze voedden zich en brachten het grootste deel van hun levenscyclus door in aquatische omgevingen [6]. Enkele van de meest relevante aspecten van mosasauroid-morfologie die hun overgang naar een aquatische levensstijl illustreren, zijn geconcentreerd in een reeks veranderingen in hun bekken- en pedaalanatomie. Deze veranderingen, zoals verlies van contact tussen de sacrale wervels en het bekken gevolgd door een vermindering van het aantal sacralen, kenmerken de zogenaamde hydropelvische toestand [7]. Bovendien vormt de ontwikkeling van hyperfalangie in het autopodium, die helpt bij de voortbeweging onder water, de hydropedale toestand [8]. These two conditions of the pelvic and pedal morphologies as observed in most mosasauroids contrast to the connection between sacrum and ilium (termed plesiopelvic), as well as the typical phalangeal formula (plesiopedal), as seen in most limbed squamates [7, 8].

Despite numerous previous studies on mosasauroid phylogeny and evolution of pelvic and pedal characters, it is still uncertain whether mosasauroids acquired their aquatic adaptations only once in their evolutionary history [1, 9, 10], or multiple times [7, 8, 11, 12]. The hypothesis of convergent evolution of aquatic adaptations in mosasauroids has been proposed, and given further support in the past decade, due to the incorporation of new taxa (e.g. Dallasaurus en Tethysaurus) into phylogenetic analyses of mosasauroids. However, some other studies (with a similar taxonomic sampling) still recover fully aquatic mosasaurs as forming a single clade [11, 13]—e.g. the clade Natantia of Bell [1], also recovered by Caldwell [9, 10].

One common aspect to all analyses published so far is that these have been analyzed using only traditional unweighted maximum parsimony. Nevertheless, incorporating multiple methods that take into account the effect of highly plastic characters to phylogenetic inference can provide an important additional test towards hypothesis of mosasauroid interrelationships, and of the potentially homoplastic origin of fully aquatic forms. In the present study, we provide the first analysis of mosasauroid relationships based on traditional (unweighted) maximum parsimony using two different coding schemes: contingent (Co-UMP) and multistate codings (Mu-UMP). Additionally, we utilize methods designed to downweight homoplasy and/or take evolutionary rates along with branch lengths into consideration: parsimony under implied weighting (IWMP), maximum likelihood (ML) and Bayesian inference. The latter methods should provide a more robust phylogenetic assessment of the recently proposed convergent evolution of aquatically adapted features than the traditional maximum parsimony. We also make comments and considerations relative to the benefits and limitations of likelihood methods in phylogenetic investigations using morphological data, and their potential application to the study of fossil lineages.


2 antwoorden 2

Distance- and ML-based algorithms using reversible models can't find the root of trees. A classical method to root a tree is to use an outgroup (not outlier), which is a species/sequence known to directly descend from the root of the tree. In your case, it is relatively easy: add a chicken or fish ortholog to your dataset and put the root on the chicken/fish branch.

Outgroup works well for single-copy genes used in species tree construction (e.g. ADH). However, it doesn't always work. The culprit is the "known" part. Say a gene has two copies A and B in vertebrates. Copy A was lost in rodent and copy B lost in primate. If you choose a chicken A gene as the outgroup, the correct tree should be ((primary-A,chicken-A),rodent-B). Without knowing the true history, you may forcefully put the root at the chicken-A branch and build a wrong tree ((primate-A,rodent-B),chicken-A).

There are a few other tree rooting methods. An easy approach is to put the root at the longest branch in the tree, assuming the presence of molecular clock. When the species tree is known, you can root a gene tree by minimizing the number gene duplication/loss events in the history. I generally prefer the latter approach when the relevant information is available.


Section 2.6: Models and comparative methods

For the rest of this book I will introduce several models that can be applied to evolutionary data. I will discuss how to simulate evolutionary processes under these models, how to compare data to these models, and how to use model selection to discriminate amongst them. In each section, I will describe standard statistical tests (when available) along with ML and Bayesian approaches.

One theme in the book is that I emphasize fitting models to data and estimating parameters. I think that this approach is very useful for the future of the field of comparative statistics for three main reasons. First, it is flexible one can easily compare a wide range of competing models to your data. Second, it is extendable one can create new models and automatically fit them into a preexisting framework for data analysis. Finally, it is powerful a model fitting approach allows us to construct comparative tests that relate directly to particular biological hypotheses.


Bekijk de video: AI. Lecture 4a. Simulated annealing (Januari- 2022).