Informatie

Taklengte in fylogenetische bomen


Ik weet dat dit een heel basale vraag is, maar het is mij niet zo duidelijk wat de maateenheid is voor de lengte van takken in fylogenetische bomen. Ik ben gaan begrijpen dat het meestal wordt uitgedrukt in aantal vervangingen/site/een bepaalde tijdseenheid. Wat is die "een bepaalde tijdseenheid"? Generaties? Hangt het af van welke methode van boomconstructie ik gebruik (NJT, MP, ML)?

Bedankt voor je tijd.


Wanneer u een fylogenetische boom schat, of het nu gaat om waarschijnlijkheid, spaarzaamheid of afstand (zoals NJ), worden de lengtes weergegeven in eenheden van vervangingen per locatie, zonder tijdsinformatie. Bijvoorbeeld vanaf hier:

De eenheden van vertakkingslengte zijn gewoonlijk nucleotidesubstituties per plaats - dat is het aantal veranderingen of 'substituties' gedeeld door de lengte van de sequentie (hoewel ze kunnen worden gegeven als % verandering, dwz het aantal veranderingen per 100 nucleotideplaatsen) .

Om deze lengtes om te zetten in een tijdschaal is meer informatie nodig. Bijvoorbeeld aannemen dat de moleculaire klok geldig is, of in plaats daarvan gebruik maken van ontspannen klok modellen die beschrijven hoe elke taklengtel=r x tkan worden ontleed in een tariefRen een tijdt. Aangezien in veel gevallen de snelheid niet constant is langs de boom (d.w.z. de klok is niet geldig), is een afgeleide fylogenetische boom niet ultrametrisch (d.w.z. de som van de taklengtes van de bladeren tot hun MRCA is niet constant).

Er zijn softwarepakketten, met name BEAST, die expliciet een strikte of ontspannen klok voor u modelleren, en vervolgens de vertakkingslengtes in willekeurige tijdseenheden kunnen retourneren. "Willekeurig" betekent dat de cijfers op zich geen speciale betekenis hebben en uw keuze voor bijvoorbeeld de prior weerspiegelen. In dat geval kunnen ze jaar, miljoen jaar of generaties vertegenwoordigen (http://beast.bio.ed.ac.uk/faq#Evolutionary_rates_and_time_scales).


Dit antwoord is vooral geïnspireerd door een lange discussie in de chat met @LeoMartins.

Taklengte vertegenwoordigt een zekere mate van afstammingsdivergentie

Taklengte vertegenwoordigt een zekere mate van afstammingsdivergentie. De daadwerkelijke meting hangt af van het type gegevens dat wordt overwogen. Voor genetische gegevens gaat het over het algemeen (zo niet altijd) om een ​​aantal substituties. In ieder geval zijn deze maten van afstammingsdivergentie geen a priori ontwerp om de beste schattingen van tijd te zijn, maar ze zijn vaak een goede proxy voor tijd en worden vaak geïnterpreteerd als tijdmeting.

Gevallen van zinloze taklengte

Wees voorzichtig dat sommige bomen takken alleen gebruiken om evolutionaire relaties weer te geven, maar geen betekenis overbrengen via taklengtes.

Totale bewijsbenaderingen

Steeds vaker overwegen we "total evidence-benaderingen" (bijv. Arrigo et al. 2013) die sequentiegegevens, fossiele gegevens en morfogegevens kunnen gebruiken om een ​​consensus te vormen en de beste schatting van afstammingsdivergentie te bieden.


De lengte van de tak geeft de tijd aan in jaren (of welke standaard objectieve tijdseenheid dan ook). Het zou weinig zin hebben (hoewel je zou kunnen beweren dat het interessant zou zijn om naar te kijken) om een ​​levensboom te bouwen waar de tijd in generatie is, aangezien de generatietijd zo sterk varieert tussen geslachten.

Het is belangrijk om het gemiddelde van het schatten van de lengte van een tak niet te verwarren met de lengte van de tak zelf. Hiervoor zal ik u slechts twee technieken geven die worden gebruikt om een ​​dergelijke taklengte te schatten.

Aantal wissels

Nu schatten we deze tijd op basis van een aantal methoden. Een daarvan is het aantal vervangingen op neutrale locaties. Het aantal substituties op neutrale plaatsen over $n$ generaties is gelijk aan de mutatiesnelheid $mu cdot t$. Dat is een klassiek resultaat, het is te wijten aan het feit dat er $2 N mu$ mutaties zijn bij elke generatie, elk met een waarschijnlijkheid $frac{1}{2N}$ om te herstellen (aangezien ze neutraal zijn) en daarom is de neutrale vervangingsratio is $frac{2Nmu}{2N}=mu$.

Dus met behulp van substitutiesnelheid kunnen we het aantal generaties schatten en door de generatietijd te schatten, kunnen we realtime schatten (in jaren).

Meestal is de lengte van de takken gewoon het aantal waargenomen substituties, maar aangezien niet alle fylogenetische bomen op basis van dergelijke gegevens zijn gemaakt, moet men de taklengte in fylogenetische bomen in het algemeen beschouwen als een maat voor de tijd.

fossiele gegevens

Er bestaan ​​andere methoden om de lengte van takken te schatten, zoals fossiele datering. Hier schatten we de tijd direct in jaren, niet in generatie eerst.

Het is belangrijk om het gemiddelde van de schatting van de tijd niet te verwarren met:


Evolutionaire bomen

Abstract

Evolutionaire of fylogenetische bomen geven de evolutie weer van een reeks taxa van hun meest recente gemeenschappelijke voorouder (MRCA). Een soortenboom is een fylogenetische boom die de evolutionaire geschiedenis van een reeks soorten (of populaties) modelleert. Een genenboom is een fylogenetische boom die een genealogie van een gen modelleert. Genbomen van verschillende genen die zijn bemonsterd uit een reeks soorten kunnen het niet eens zijn met elkaar, maar ook met de soortboom, vanwege verschillende factoren. Er is een breed scala aan algoritmen en computerprogramma's beschikbaar voor het afleiden van fylogenetische bomen uit verschillende soorten gegevens. Terwijl echte evolutionaire bomen geworteld zijn en meestal binair (vertakkend), kunnen afgeleide bomen ontworteld of multifurcatrend zijn.


Terminologie

Eerst een paar correcties op uw gebruik van terminologie. Een boom moeten hebben vertakkingslengtes die eraan zijn gekoppeld om a . te worden genoemd fylogenetische boom omdat het zowel de relaties tussen OTU/taxa/bladeren weergeeft EN de afstanden ertussen (d.w.z. de taklengtes. Een boom waar taklengtes geen betekenis hebben, wordt a . genoemd cladogrammen of een dendrogram. U kunt zien of een boom een ​​cladogram is, aangezien alle OUT's/taxa/bladeren op dezelfde positie eindigen en de interne vertakkingslengtes meestal (niet altijd) even lang zijn. Terwijl een fylogenie de OTU's / taxa / bladeren er meestal "verspringend" uitziet en interne takken zullen van verschillende lengte zijn.

Daarom, als de boom die je hebt geschat, echt geen geschatte taklengte heeft en eraan is gekoppeld, is het eigenlijk een cladogram.


De fylogenetische groeperingen worden voortdurend besproken en verfijnd door evolutionaire biologen. Elk jaar komt er nieuw bewijs naar voren dat de relaties die worden beschreven door een fylogenetisch boomdiagram verder verandert. Voorheen werden fylogenetische bomen geconstrueerd op basis van homologe en analoge morfologie, maar met de vooruitgang in de moleculaire biologie wordt de constructie van fylogenetische bomen steeds vaker uitgevoerd met behulp van gegevens die zijn afgeleid van moleculaire analyses.

Veel evolutionaire relaties in de moderne boom zijn pas recentelijk vastgesteld vanwege moleculair bewijs. Nucleïnezuur- en eiwitanalyses hebben de constructie van de moderne fylogenetische dierenboom geïnformeerd. Deze gegevens zijn afkomstig van verschillende moleculaire bronnen, zoals mitochondriaal DNA, nucleair DNA, ribosomaal RNA (rRNA) en bepaalde cellulaire eiwitten. Evolutionaire bomen kunnen worden gemaakt door de bepaling van sequentie-informatie van vergelijkbare genen in verschillende organismen. Sequenties die op elkaar lijken, hebben vaak minder tijd om te divergeren, terwijl minder vergelijkbare sequenties meer evolutionaire tijd hebben om te divergeren. De evolutionaire boom wordt gecreëerd door sequenties op één lijn te brengen en elke vertakkingslengte evenredig te hebben met de aminozuurverschillen van de sequenties. Door een constante mutatiesnelheid toe te wijzen aan een sequentie en een sequentie-uitlijning uit te voeren, is het bovendien mogelijk om de geschatte tijd te berekenen waarop de van belang zijnde sequentie uiteenliep in monofyletische groepen.

Afbeelding (PageIndex<1>): Flyogenetische levensboom: Vooruitgang in de moleculaire biologie en analyse van polymere moleculen zoals DNA, RNA en eiwitten hebben bijgedragen aan de ontwikkeling van fylogenetische bomen.

Sequentie-uitlijning kan worden uitgevoerd op een verscheidenheid aan sequenties. Om bijvoorbeeld een evolutionaire boom uit eiwitten te construeren, worden de sequenties uitgelijnd en vervolgens vergeleken. rRNA (ribosomaal RNA) wordt meestal gebruikt om organismen te vergelijken, omdat rRNA een langzamere mutatiesnelheid heeft en een betere bron is voor evolutionaire boomconstructie. Dit wordt het best ondersteund door onderzoek van Dr. Carl Woese dat eind jaren zeventig werd uitgevoerd. Omdat de ribosomen cruciaal zijn voor de functie van levende organismen, kunnen ze niet gemakkelijk worden veranderd door het evolutieproces. Profiteren van dit feit, Dr. Woese vergeleek de minuscule verschillen in de sequentie van ribosomen tussen een groot aantal bacteriën en toonde aan dat ze niet allemaal verwant waren.

Van een eerder geclassificeerde groep dieren genaamd lophophorates, waaronder brachiopoden en bryozoën, werd lang gedacht dat het primitieve deuterostomen waren. Uitgebreide moleculaire analyse met behulp van rRNA-gegevens vond dat deze dieren protostomen waren, nauwer verwant aan ringwormen en weekdieren. Deze ontdekking maakte het onderscheid mogelijk van de protostome clade: de lophotrochozoans. Moleculaire gegevens hebben ook licht geworpen op enkele verschillen binnen de lophotrochozoan-groep. Sommige wetenschappers zijn van mening dat de phyla Platyhelminthes en Rotifera binnen deze groep eigenlijk zouden moeten behoren tot hun eigen groep protostomen, Platyzoa genaamd.

Moleculair onderzoek vergelijkbaar met de ontdekkingen die het onderscheid van de lophotrochozoa-clade teweegbrachten, heeft ook een dramatische herschikking van de relaties tussen weekdieren, ringwormen, geleedpotigen en nematoden onthuld. Een nieuwe ecdysozoan-clade werd gevormd. Vanwege morfologische overeenkomsten in hun gesegmenteerde lichaamstypes, werd ooit gedacht dat ringwormen en geleedpotigen nauw verwant waren. Moleculair bewijs heeft echter aangetoond dat geleedpotigen eigenlijk nauwer verwant zijn aan nematoden, die nu de ecdysozoa-clade omvatten, en ringwormen nauwer verwant zijn aan weekdieren, brachiopoden en andere phyla in de lophotrochozoa-clade. Deze twee clades vormen nu de protostomes.

Een andere verandering in voormalige fylogenetische groeperingen vanwege moleculaire analyses omvat de opkomst van een geheel nieuw phylum van wormen genaamd Acoelomorpha. Van deze platwormen werd lang gedacht dat ze tot de phylum Platyhelminthes behoorden vanwege hun vergelijkbare &ldquo-platworm&rdquo-morfologie. Moleculaire analyses onthulden echter dat dit een valse relatie was en suggereerde oorspronkelijk dat acoels levende soorten vertegenwoordigden van enkele van de vroegste uiteenlopende bilateralen. Meer recent onderzoek naar de acoelomorfen heeft deze hypothese in twijfel getrokken en een nauwere relatie met deuterostomen gesuggereerd. De plaatsing van dit nieuwe phylum blijft omstreden, maar wetenschappers zijn het erover eens dat met voldoende moleculaire gegevens hun ware fylogenie zal worden bepaald.


Fylogenetische bomen bouwen

Veel verschillende soorten gegevens kunnen worden gebruikt om fylogenetische bomen te construeren. We zullen twee soorten beschouwen: morfologische en genetische gegevens. Morfologische gegevens omvatten structurele kenmerken, soorten organen en specifieke skeletarrangementen, terwijl genetische gegevens genomische en mitochondriale DNA-sequenties, ribosomale RNA-genen bevatten en zich vaak richten op genen van belang.

Dit soort gegevens worden gebruikt om te identificeren: homologie, wat gelijkenis betekent vanwege gemeenschappelijke voorouders. Dit is gewoon het idee dat je eigenschappen van je ouders erft, alleen toegepast op soortniveau: alle mensen hebben grote hersenen en opponeerbare duimen omdat onze voorouders alle zoogdieren melk produceerden uit de borstklieren omdat hun voorouders dat deden. Deze eigenschappen zijn homoloog.

Bomen worden gebouwd volgens het principe van: spaarzaamheid, wat betekent dat het meest waarschijnlijke vertakkingspatroon het patroon is dat de minste veranderingen vereist. Het is bijvoorbeeld veel waarschijnlijker dat alle zoogdieren melk produceren omdat ze allemaal borstklieren hebben geërfd van een gemeenschappelijke voorouder die melk produceerde uit borstklieren, versus de minder spaarzame hypothese dat meerdere groepen organismen elk onafhankelijk borstklieren ontwikkelden.


Een veldgids voor de nieuwe Tree of Life

Als je een wetenschappelijke nieuwsjunkie bent, heb je het misschien gezien terwijl je door je nieuwsfeed scrolde: de nieuwe Tree of Life. Vorige maand kondigden onderzoekers aan dat ze genetische sequenties hadden gebruikt om een ​​veel omvattender beeld van de Tree of Life op te bouwen. De boom is uniek omdat hij veel microbiële soorten bevat die onderzoekers nog nooit hebben gezien, laat staan ​​dat ze ontdekt hebben hoe ze in een laboratorium kunnen groeien. We kennen deze afstammingslijnen uitsluitend van opgebroken stukjes DNA die de onderzoekers uit een grote verscheidenheid aan omgevingen en mdash van Californische weiden tot geisersystemen hebben gehaald. Een deel van het DNA werd zelfs verzameld aan de binnenkant van de bek van dolfijnen! De onderzoekers legden die DNA-bits als een puzzel in elkaar totdat ze de volledige genomen van deze mysterieuze organismen kregen en die informatie gebruikten om hun takken aan de boom te lokaliseren. Dat is allemaal fascinerend &mdash, maar als je naar beneden graaft en naar deze nieuwe boom begint te kijken, zou je niet worden verweten dat je je afvraagt: "Eh, waar is de boom hier?" De nieuwe Tree of Life lijkt meer op een exploderend vuurwerk dan op een eik of een iep. Hier zullen we een tool verkennen die je kan helpen bij het interpreteren van verschillende stijlen van evolutionaire bomen (d.w.z. fylogenieën) die je online, in studieboeken of in museumexposities kunt zien.

Waar is de evolutie?

Een blik op deze nieuwe boom zal waarschijnlijk veel vragen oproepen. Waar is de wortel van de boom? Waarom groeien sommige takken naar beneden? Waarom al die verschillende kleuren? Hoe komt het dat sommige takken langer zijn dan andere? Wat betekenen de rode stippen? En nog belangrijker, hoe kan ik zien welke geslachten het nauwst aan elkaar verwant zijn?

Klik om een ​​grotere versie te zien.

De veldgids voor evolutionaire bomen is een interactieve functie die kan helpen om verwarrende bomen te begrijpen. Het maakt deel uit van het nieuwe gebied van Understanding Evolution, gewijd aan fylogenetica, genaamd The Tree Room. Laten we de Field Guide gebruiken om deze nieuwe boom te interpreteren. U kunt de veldgids zelf volgen als u wilt.

Om de Field Guide te gebruiken, moet u eerst beslissen welke boomstijl het meest lijkt op de nieuwe Tree of Life. Alle bomen in de Field Guide (linksonder weergegeven) geven hetzelfde weer &mdash evolutionaire relaties &mdash, maar ze gebruiken verschillende lijnstijlen om dat te doen, wat vaak resulteert in bomen die er heel anders uitzien, maar dezelfde informatie tonen. De starburst-vormige boom (hieronder omcirkeld) lijkt erg op de nieuwe Tree of Life.

Begin met het selecteren van de boom uit de Field Guide die het meest lijkt op de boom waarin u geïnteresseerd bent. De omcirkelde boom is degene die het meest lijkt op de nieuwe Tree of Life.

Door op de starburst-boom te klikken, gaan gebruikers naar deze pagina van de veldgids waarin de basisfuncties van de starburst-boom worden uitgelegd.

Als u op de starburst-boom klikt, gaat u naar een eenvoudige versie van dit boomtype (rechtsboven) met slechts vier taxa. Door op de knoppen en vraagtekens op deze pagina te klikken, kunt u enkele belangrijke vragen over de nieuwe Tree of Life beantwoorden, waaronder:

  • Waar is de wortel van de boom en waarom groeien sommige takken naar beneden? Deze boom heeft geen wortel omdat wetenschappers niet zeker weten welke afstamming het oudst is en welke afstamming het minst nauw verwant is aan de andere. De studie die deze boom produceerde, was niet bedoeld om de wortel van de levensboom te zoeken, maar om de diversiteit van het leven op aarde te onderzoeken. Wanneer een boom ontworteld is, rangschikken wetenschappers de afstammingslijnen vaak willekeurig in een starburst-patroon om ruimte te besparen en om de boodschap te versterken dat ze geen bewering doen over waar de wortel van de boom is. Toch zijn deze bomen meestal zo gerangschikt dat de takken die het meest waarschijnlijk aan de wortel hechten, zich in het midden van het diagram bevinden (zoals hieronder links weergegeven). Op een starburst-boom zoals deze stroomt de tijd over het algemeen vanuit het midden van de boom naar buiten in alle richtingen. Oudere, voorouderlijke geslachten verbinden zich met elkaar in het midden van het diagram.

In bomen in starburst-stijl, zoals de nieuwe Tree of Life, stroomt de tijd over het algemeen vanuit het midden van het diagram in alle richtingen naar buiten.

Deze tak van de nieuwe Tree of Life is gelabeld om te laten zien hoe de nabijheid van evolutionaire relaties op een boom in starburst-stijl kan worden geïnterpreteerd. De Gammaproteobacteria en Betaproteobacteria zijn nauwer aan elkaar verwant dan aan de Acidithiobacillia.

  • Hoe kan ik zien welke geslachten het nauwst aan elkaar verwant zijn? Om dit uit te zoeken, moet je kijken naar de punten op de boom waar twee takken elkaar ontmoeten (d.w.z. de knooppunten van de boom). Knopen vertegenwoordigen de gemeenschappelijke voorouders van geslachten aan de toppen van de boom. Hoe recenter twee geslachten een gemeenschappelijke voorouder delen, des te nauwer zijn ze verwant. Als u bijvoorbeeld naar de linkerkant van de nieuwe Levensboom kijkt (hierboven rechts afgebeeld), ziet u dat de Gammaproteobacteriën en Betaproteobacteriën nauwer aan elkaar verwant zijn dan aan de Acidithiobacillia, omdat hun meest recente gemeenschappelijke voorouder is jonger dan de voorouder die elk deelt met de Acidithiobacillia.

Om de andere vragen over deze boom te beantwoorden, moet u op de knop "geavanceerde boomkenmerken" in de veldgids klikken. Door vervolgens op de vraagtekens op deze complexere boom te klikken, kunt u andere vragen over de nieuwe levensboom beantwoorden, waaronder:

  • Waarom al die verschillende kleuren? Op deze boom duiden de kleuren verschillende benoemde groepen aan. Zoek gewoon naar kleuren op de takken die overeenkomen met de lettertypekleuren waarin de namen zijn geschreven. Als je de omtrek van de boom scant, zie je veel onbekende groepen (Aenigmarchaeota, iemand?) en een paar oude vrienden &mdash of vijanden als de geval kan soms zijn (Amoebozoa, Chlamydiae!). Overigens wordt al het planten-, schimmel- en dierenleven (inclusief wij mensen) weergegeven door twee dunne reepjes van de mintgroene eukaryote tak rechtsonder in het diagram (hieronder weergegeven) &mdash Opisthokonta (dieren en schimmels) en de Archaeoplastida (planten).

Dieren, schimmels en planten vertegenwoordigen een klein deel van de diversiteit die op de nieuwe Tree of Life wordt getoond.

  • Waarom zijn sommige takken langer dan andere? Op deze boom vertegenwoordigt de vertakkingslengte de hoeveelheid evolutionaire verandering, zoals weerspiegeld in verschillen tussen de DNA-sequenties van de organismen. Langs langere takken is meer sequentieverandering opgetreden dan langs kortere takken. Dus, bijvoorbeeld, de Eukaryote/DPANN/Archaea/TACK-lijn zit aan het einde van een zeer lange tak (zoals hieronder getoond). Dat betekent dat er veel genetische verschillen zijn tussen de organismen in deze groep en andere organismen in de boom. Om erachter te komen hoeveel verandering er precies optreedt, moet je de schaalbalk gebruiken, die 0,4 aangeeft, wat betekent dat voor elk segment van een tak van die lengte, 0,4 nucleotide-substituties per site plaatsvonden in de genen die werden gebruikt om deze boom te genereren.

In de nieuwe levensboom geeft de vertakkingslengte het aantal nucleotidesubstituties aan dat zich langs die vertakking heeft opgehoopt.

Boomdiagrammen voegen soms labels of symbolen toe om bepaalde kenmerken van de boom te benadrukken, in dit geval rode stippen. Het bijschrift voor de boom in het originele wetenschappelijke artikel beschrijft wat de rode stippen betekenen. Elk van deze stippen vertegenwoordigt een afstamming die geen enkele wetenschapper ooit heeft gezien en die alleen bekend is uit DNA. In feite ontdekten de wetenschappers die aan deze studie werkten op deze manier 1011 afzonderlijke organismen! Veel van deze nieuw ontdekte geslachten worden beschouwd als symbionten en leden van het microbioom van andere soorten. Hoewel dit indrukwekkend is, vertegenwoordigt het vrijwel zeker een klein deel van de microbiële diversiteit die nog steeds wacht om ontdekt te worden. Voor deze studie werd DNA verzameld uit zes zeer verschillende omgevingen, maar deze variatie komt niet in de buurt van het volledige scala aan omgevingen op aarde, die bijna allemaal worden bewoond door verschillende soorten microben. Terwijl wetenschappers genetische hulpmiddelen gebruiken om steeds dieper in de volledige reikwijdte van de diversiteit van het leven te graven, zullen ze zeker nieuwe explosies toevoegen aan dit toch al uitbundige vuurwerk! En aangezien deze nieuwe takken op de boom worden geënt en deze informatie op verschillende manieren wordt weergegeven, kun je terugkeren naar de Veldgids en Boomkamer voor hulp bij het uitzoeken wat dit allemaal betekent.

Inzicht in Evolution-bronnen:

Discussie- en uitbreidingsvragen

Gebruik de Field Guide om vragen te beantwoorden over deze boom, die dezelfde relaties toont als in de nieuwe Tree of Life, maar in een ander formaat.


Resultaten

Om de effecten van heterotachy op fylogenetische gevolgtrekking te bepalen, hebben we 3 verschillende soorten analyses uitgevoerd, elk ontworpen om een ​​andere vraag te beantwoorden. Ten eerste, om te beoordelen hoe specifieke vormen van heterotachie de fylogenetische nauwkeurigheid beïnvloeden, hebben we sequenties gesimuleerd onder zeer uitdagende omstandigheden waarin locaties evolueren op verschillende combinaties van heterogene vertakkingslengtes. Ten tweede, om meer empirisch relevante vormen van heterotachie onder gecontroleerde omstandigheden te onderzoeken, hebben we sequenties gesimuleerd onder sterke versies van de soorten heterotachie die worden waargenomen in echte datasets. Ten slotte hebben we, om het potentieel van de gemengde vertakkingslengte- en covarionmodellen voor het aanpakken van echte fylogenetische problemen te bepalen, empirische sequentiegegevens geanalyseerd waarvan bekend is dat ze heterotachisch zijn geëvolueerd op bekende fylogenieën.

Onder elke voorwaarde stelden we 2 vragen: 1) hoe verschillende vormen van niet-geïncorporeerde heterotachy de prestaties van homotachous modellen beïnvloeden en 2) of evolutionaire modellen waarin heterotachy is opgenomen nauwkeurigere fylogenieën produceren (zie fig. 1 voor een diagram van de modellen die in dit onderzoek zijn gebruikt). ). Er werden twee heterotache modellen gebruikt: 1) een Bayesiaanse implementatie van het covarion-model (Tuffley and Steel 1998) en 2) een ML-implementatie van het gemengde vertakkingslengtemodel (Kolaczkowski en Thornton 2004 Spencer et al. 2005), met het aantal vertakkingen lengteklassen geschat op basis van de gegevens met behulp van AIC (Akaike [1974]) en BIC (Schwartz [1978]), 2 veelgebruikte methoden voor statistische modelselectie (Posada en Buckley 2004).

Simulaties van vereenvoudigde heterogeniteit van taklengte

Om de soorten problemen op te helderen die verschillende vormen van heterotachy kunnen veroorzaken en het vermogen van heterotachous modellen om deze problemen aan te pakken, hebben we datasets onderzocht die zijn gegenereerd met behulp van 4 soorten uitdagende, stereotiepe combinaties van vertakkingslengtes. We vergeleken de fylogenetische nauwkeurigheid van de gemengde vertakkingslengte- en covarionmodellen van heterotachy met die van het best passende homotachous-model door de fractie van correcte gevolgtrekkingen met behulp van elke methode uit te zetten tegen toenemend fylogenetisch signaal (interne vertakkingslengte). Om de specifieke effecten van heterotachy te onthullen, vergeleken we de nauwkeurigheid van elke methode met die van het echte gepartitioneerde model (MLwaar), die locaties a priori correct toewijst aan vertakkingslengtecategorieën en afzonderlijke vertakkingslengtes schat binnen elke categorie. We hebben ook de nauwkeurigheid van MP onderzocht.

Onder alle bestudeerde omstandigheden verminderde niet-geïncorporeerde heterotachy de nauwkeurigheid van homotachous modellen aanzienlijk. Het model met gemengde vertakkingslengte was significant nauwkeuriger, waarbij de juiste boom werd teruggevonden met minder fylogenetisch signaal en nauwkeurigere schattingen van de verwachte vertakkingslengten over verschillende locaties werden geproduceerd (fig. 2). Hoewel het gemengde model over het algemeen een verminderde statistische power vertoonde in vergelijking met MLwaar (zie aanvullend fig. S1, aanvullend materiaal online), het gemengde model was onder geen van deze omstandigheden bevooroordeeld. Daarentegen waren de covarion- en homotachous-modellen onderhevig aan sterke topologische vooroordelen, verlies van statistische kracht en gevolgtrekking van harde polytomieën, afhankelijk van het specifieke patroon van heterotachy in de gegevens.

Onder de eerste reeks omstandigheden waren de reeksen die werden gegenereerd op een boom met 2 lange en 2 korte terminale takken, zowel homotachous als covarion-modellen ernstig bevooroordeeld in het voordeel van de lange-tak-attractieboom (fig. 2EEN en B ). Net als bij klassieke aantrekking met lange vertakkingen, hing de richting van de vertekening af van welke taxa lange vertakkingen had. Zoals eerder waargenomen (Kolaczkowski en Thornton 2004), wanneer lange terminals geen zuster van elkaar waren, gaf de voorkeur de voorkeur aan een onjuiste boom (fig. 2EEN ). Wanneer zustertaxa lange takken hadden, was de voorkeur voor de juiste fylogenie, zoals blijkt uit een sterke ondersteuning voor deze boom, zelfs wanneer de interne taklengte nul was (fig. 2B ). Daarentegen was het gemengde vertakkingslengtemodel onbevooroordeeld, waardoor gevolgtrekkingen van topologie en schattingen van vertakkingslengten veel meer lijken op die verkregen met behulp van MLwaar.

Onder de tweede reeks omstandigheden vertoonden sites met een sterk fylogenetisch signaal gesimuleerd samen met gerandomiseerde sites met ruis. Homotachous- en covarion-modellen vertoonden beide een ernstige vermindering in statistische power om de juiste fylogenie op te lossen in vergelijking met MLwaar ( Figuur 2C ). Het model met gemengde taklengte was nauwkeuriger, de prestatieverbetering was klein maar statistisch significant (P <𠂐.001). De schattingen van de lengte van de takken waren veel nauwkeuriger met het gemengde model in vergelijking met homotachous ML onder deze omstandigheden.

Onder de derde reeks voorwaarden, waarin sites worden vrijgelaten uit selectie in verschillende geslachten, schatte homotachous ML ten onrechte een interne vertakking met lengte nul op de meest waarschijnlijke topologie, wat een harde polytomie afleidt (fig. 2NS ). Deze polytome boom werd zelfs teruggevonden wanneer sequenties van effectief oneindige lengte werden geanalyseerd, wat aangeeft dat homotachous ML onder deze omstandigheden statistisch inconsistent is. Het gemengde vertakkingslengtemodel was daarentegen niet bevooroordeeld en herstelde significant vaker de juiste fylogenie. Hoewel homotachous BMCMC ook onbevooroordeeld was, werden bomen afgeleid met behulp van BMCMC zeer zwak ondersteund wanneer sterke ondersteuning nodig was om de fylogenie op te lossen, werd de nauwkeurigheid van BMCMC teruggebracht tot die van homotachous ML. Het covarion-model verbeterde de prestaties niet (zie aanvullende tekst, sectie 1, Aanvullend materiaal online).

Onder alle omstandigheden selecteerde AIC vaker het juiste aantal vertakkingslengteklassen voor gemengde modelanalyse dan dat het een te eenvoudig model selecteerde, en het overschatte nooit de modelcomplexiteit (zie aanvullende tabel S1, aanvullend materiaal online). Daarentegen gaf BIC onder bepaalde omstandigheden de voorkeur aan een ondergeparametriseerd model.

Simulaties van soorten heterotache waargenomen in moleculaire evolutie

Studies van heterotachy hebben 3 belangrijke kenmerken onthuld. Ten eerste past een stationair covariantiemodel van evolutie over het algemeen beter bij empirische gegevens dan homotacheuze modellen (Miyamoto en Fitch 1995 Galtier 2001 Huelsenbeck 2002). Ten tweede kunnen verschillende plaatsen in de sequentie onveranderlijk zijn in verschillende lijnen (Fitch en Markowitz 1970 Fitch 1971, 1976). Ten derde is waargenomen dat het aandeel van onveranderlijke sites varieert tussen geslachten (Germot en Philippe 1999 Steel et al. 2000 Lockhart et al. 2005). Om de mogelijke effecten van dit soort heterotachy op fylogenetische gevolgtrekkingen te onderzoeken, hebben we sequenties gesimuleerd onder 3 vereenvoudigde modellen: 1) een stationair covarionmodel waarin elke site continu kan schakelen tussen variabel en invariabel met een constante snelheid naarmate de evolutie vordert, 2) een niet-stationair model waarin groepen plaatsen periodieke gecorreleerde veranderingen in evolutionaire snelheden vertonen, en 3) een model waarin het aandeel van onveranderlijke plaatsen verschilt tussen geslachten. In elk geval simuleerden we sequenties langs een Felsenstein-zoneboom met langvertakte niet-zusterlijnen (zie fig. 3 ), met behulp van uitdagende omstandigheden en sterke heterotachy. Hoewel dit niet noodzakelijk indicatief is voor de niveaus van heterotachie die worden waargenomen in empirische datasets, stellen deze simulaties ons in staat om te testen op door heterotachy geïnduceerde topologische vooroordelen met behulp van doelbewust moeilijke omstandigheden van de typen die zich waarschijnlijk zullen voordoen bij het analyseren van echte gegevens.

Voor het stationaire covarionproces hebben we sequentiegegevens gesimuleerd met behulp van het model van Tuffley en Steel (1998). Onder deze omstandigheden was homotachous ML onbevooroordeeld en herstelde het de juiste boom met hoge nauwkeurigheid (fig. 3EEN aanvullende afb. S3, Aanvullend materiaal online). De nauwkeurigheid van het covarion-model was hetzelfde als die van het eenvoudiger homotachous model. Modelselectiecriteria ondersteunden onder deze omstandigheden niet meerdere categorieën vertakkingslengte.

Om gecorreleerde snelheidsverschuivingen te simuleren, verdeelden we sites op de ((AB),(CD)) fylogenie in 50% onveranderlijk en 50% variabel. In geslachten A en C wordt de helft van de onveranderlijke plaatsen vrijgemaakt van selectie en worden variabel, een overeenkomstig aantal voorheen variabele plaatsen wordt onveranderlijk in dezelfde geslachten (fig. 3B ). Onder deze omstandigheden waren homotache modellen sterk bevooroordeeld en presteerde het covarion-model nog slechter. Daarentegen was het gemengde model aanzienlijk nauwkeuriger dan homotachous modellen en was het onbevooroordeeld en presteerde het bijna net zo goed als MLwaar.

Om de potentiële effecten van veranderingen in afstammingsspecifieke proporties van onveranderlijke locaties te beoordelen, simuleerden we gegevens over de ((AB),(CD)) fylogenie, waarbij afstammelingen A en C 50% onveranderlijke locaties hadden, terwijl afstammingslijnen B en D slechts 25% ( afb. 3C ). Het gemengde vertakkingslengtemodel was nauwkeuriger dan andere methoden onder deze omstandigheden, terwijl homotache modellen sterk bevooroordeeld waren ten gunste van de lange-tak-aantrekkingtopologie. Het covarion-model was significant minder nauwkeurig dan homotachous modellen.

Deze resultaten tonen aan dat analyse van gemengde vertakkingslengte de kwaliteit van afgeleide fylogenieën kan verbeteren onder verschillende omstandigheden wanneer sequenties heterotachisch evolueren. Daarentegen was het covarion-model in sommige gevallen minder nauwkeurig dan eenvoudiger homotachous modellen en niet nauwkeuriger dan homotachous modellen, zelfs wanneer het precies overeenkwam met de echte evolutionaire voorwaarden.

Empirische sequentieanalyse

Hoewel simulaties de potentiële effecten van heterotachie op de fylogenetische nauwkeurigheid kunnen vaststellen, is de echte test van elke methode hoe nauwkeurig deze correcte evolutionaire relaties kan reconstrueren uit echte sequentiegegevens. Om te bepalen of het gemengde vertakkingslengtemodel de nauwkeurigheid van fylogenieën afgeleid uit empirische sequenties kan verbeteren, analyseerden we 3 datasets waarin wordt gedacht dat heterotachie fylogenetische fouten veroorzaakt.

Eerst analyseerden we de EF1α dataset van Inagaki et al. (2004). Eerdere analyses hebben aangetoond dat wanneer de eukaryote fylogenie wordt afgeleid uit deze gegevens met behulp van een homotachous evolutionair model, de Microsporidia kunstmatig worden gegroepeerd met de Archaebacteriële outgroup (de MA-boom) in plaats van correct met Fungi (MF, zie fig. 4EEN ). Eerdere analyses tonen ook aan dat systematische verwijdering van sites die sterke snelheidsveranderingen vertonen over de Archaebacteria / Eukaryoten-splitsing de ondersteuning voor de onjuiste plaatsing van Microsporidia vermindert, wat suggereert dat heterotachy op zijn minst gedeeltelijk verantwoordelijk kan zijn voor dit fylogenetische artefact (Inagaki et al. 2004).

Model met gemengde vertakkingslengte herstelt de juiste MF-groepering uit EF1α sequentiegegevens. (EEN) De juiste MF-boom wordt links getoond en de onjuiste MA-boom wordt rechts getoond, met vertakkingslengtes afgeleid door ML met behulp van het JTT + gamma-model. (B) Het verschil in AIC-scores tussen elk model en het model met minimale AIC is uitgezet voor het JTT + gamma-model met 1𠄷 vertakkingslengteklassen. De boomtopologie werd voor elk model afzonderlijk geschat door ML. Pijl geeft het model met minimale AIC-score aan, het model dat door AIC is geselecteerd. (C) De log-waarschijnlijkheidsratio van de MF-boom tot de MA-boom wordt uitgezet voor modellen met een toenemend aantal vertakkingslengteklassen, waarbij negatieve lnL-ratio's ondersteuning voor de onjuiste MA-boom aangeven en positieve waarden die ondersteuning voor de juiste MF-boom aangeven. De significantie van ondersteuning voor de beste boom in elk geval werd beoordeeld met behulp van de p-waarden van de AU-test, ervan uitgaande dat elk model rechts wordt weergegeven. Pijl geeft het door AIC geselecteerde model aan.

Om de EF1-gegevensset te analyseren met behulp van het gemengde vertakkingslengtemodel, hebben we een onbeperkte topologie-zoekopdracht gebruikt op basis van gesimuleerd gloeien (zie Materialen en methoden) om de ML-fylogenie af te leiden uitgaande van gemengde modellen met 1𠄷 vertakkingslengteklassen. Het best passende aantal klassen'x02014 en resulterende topologie-inferentie'x02014 werd bepaald met behulp van AIC en BIC. AIC gaf een zeer sterke ondersteuning voor heterogeniteit van de vertakkingslengte, en selecteerde 6 als het best passende aantal vertakkingslengteklassen met Akaike-gewicht Ϡ.99 ( fig. 4B aanvullende tabel S2, aanvullend materiaal online). BIC koos het covarion-model met sterke ondersteuning (BIC-gewicht Ϡ.99).

Het door AIC geselecteerde gemengde model ondersteunde sterk de juiste MF-boom ten opzichte van de kunstmatige MA-fylogenie (P =𠂐.021, afb. 4C ). Telkens wanneer het aantal taklengteklassen werd onderschat, verschoof de steun in het voordeel van de MA-boom. Het overschatten van de complexiteit van het model verminderde de steun voor de juiste fylogenie, maar was niet gunstig voor de verkeerde boom. Het covarionmodel, dat de voorkeur had van BIC, herstelde de onjuiste MA-boom en gaf een verwaarloosbare ondersteuning (posterior waarschijnlijkheid π.05) voor de juiste MF-boom.

Er is bezorgdheid geuit over het feit dat AIC de modelcomplexiteit systematisch zou kunnen overschatten (Hurvich en Tsai 1989 Alfaro en Huelsenbeck 2006). BIC kan bevooroordeeld zijn ten gunste van een te eenvoudig model (Weakliem 1999). To determine the accuracy of AIC and BIC in this case, we simulated protein sequence data of the same length as the original data (349 aa) using the JTT + gamma model with 4 branch length classes𠅊 model simpler than the one inferred by AIC𠅊nd parameter values estimated from the original data (see supplementary fig. S4, Supplementary Material online). We found that AIC was slightly conservative, selecting the correct number of branch length classes in 75% of trials the number of classes was underestimated as 2 in the remaining 25% and was never overestimated. In contrast, BIC was strongly biased, selecting a 2-category model from 93% of replicates and a 1-category model in the remaining cases. These results show that an AIC/mixed model approach can improve phylogenetic accuracy in real data analysis. BIC and the covarion model were inferior strategies under these conditions.

To determine if incorporating heterotachy is responsible for the improved phylogenetic accuracy of the mixed model, we performed partitioned analyses, with partitions inferred using the ML tree assuming a 6-category mixed model. We calculated the posterior probability of each branch length class for each site in the data set (see Materials and Methods). Most of the sites were decisively categorized with high posterior probability ( fig. 5 ): 93% of sites were unambiguously categorized with posterior probability greater than 0.9 88% of sites were categorized with posterior probability greater than 0.95 and 81% of sites were categorized with greater than 0.99 posterior probability. We used a variety of posterior probability cutoffs to generate strongly supported partitions sites with posterior probability less than the cutoff were excluded ( fig. 6 ). We found that using a high posterior probability cutoff to classify sites on the MF tree resulted in support for the correct phylogeny, indicating that partitioning sites based on mixed model analysis is sufficient to recover the correct tree. These results are consistent with the hypothesis that the mixed model is capturing an important aspect of EF1α evolution however, it is impossible to rule out heterogeneity in other aspects of the evolutionary process—such as shifts in relative transition rates𠅊s contributing to the improved performance of the mixed model.

Mixed model analysis of EF1α data partitions sites into branch length categories. We plot the posterior probability that each site in the alignment evolved according to each set of branch lengths inferred using a 6-category mixed branch length model (inferred branch lengths shown to the left of each graph). The number above each tree indicates the inferred proportion of sites expected to evolve according to those branch lengths. The tree topology is the same as the MF tree in figure 4EEN the Microsporidia clade has been placed at the bottom for space.

Partitioning sites based on mixed branch length analysis recovers the correct MF tree from EF1α data. The log-likelihood ratio of the MF tree to the MA tree is plotted for a partitioned analysis, with sites categorized into groups based on posterior probabilities calculated from a 6-category mixed branch length analysis. Support for the correct MF tree or the incorrect MA tree is indicated by positive or negative lnL values, respectively. NC indicates that no cutoff was used each site was placed in the category having the highest posterior probability.

To determine whether our results obtained using EF1α sequences can be generalized to other data, we analyzed 2 additional data sets: the 16-taxon plastid/eubacterial Rpo data of Lockhart et al. (2005) and a 5-taxon multigene data set derived from the study of bilaterian phylogeny by Philippe, Lartillot, and Brinkmann (2005). Both data sets have been shown to produce artifactual phylogenies. In the case of the Rpo data, MP incorrectly groups green algal plastids with the nonphotosynthetic bacteria outgroup rather than as a sister group to red algae ( fig. 7EEN ). The bilaterian data overwhelmingly support a basal position for nematodes when taxon sampling is poor ( fig. 7B ). Improving taxon sampling and removing genes with accelerated evolutionary rates shift support in favor of a nematode + insect clade (Philippe, Lartillot, and Brinkmann 2005). For each data set, we identified the best-fit evolutionary model using AIC and inferred the ML tree using simulated annealing. Support in favor of the correct phylogeny versus the incorrect tree was calculated using the log-likelihood ratio (lnL).

The mixed branch length model fits both empirical data sets better than a homotachous model and increases support for the correct phylogeny ( fig. 7C ). Extremely strong support was observed for choosing a mixed model with 3 and 5 classes, respectively, for the Rpo and bilaterian data. For Rpo, the mixed model improved support for the correct phylogeny from a lnL ratio of 5.8—using a homotachous model—to 18.6 (a 𾌀,000-fold improvement in the likelihood ratio). For the bilaterian data, the mixed model reduced support for the incorrect tree versus the correct phylogeny from �.9 to �.0. These results, together with the analysis of EF1α, suggest that the mixed branch length model is likely to be a generally useful strategy for improving phylogenetic accuracy. In some cases—such as the bilaterian example—the mixed model is not sufficient to completely overcome strong topological biases, presumably due to other types of model violations (Lartillot et al. 2007) or inadequate taxon sampling.


Known issues

&lsquoPurists&rsquo will likely notice that there are some issues with the above suggestions. In particular, when you collapse branches or convert small/negative branch lengths to zero-length branches, this has the effect of shortening the tip-to-node distance for the adjacent branch. The difference doesn&rsquot get added back in. So, if you are working with an ultrametric time tree (e.g. output from a previous BEAST analysis), the above manipulations will yield a final tree that is technically, and by an ever so slight margin, non-ultrametric. If the tree of interest wasn&rsquot ultrametric to begin with (e.g. it was from RAxML), then the resulting tree simply will not preserve the overall branch lengths.

Het goede nieuws is that, after you fix negative branch lengths in your BEAST starting tree, and assuming that you 1) have your starting tree properly specified in your xml input file and 2) the tree fits any calibration priors, your BEAST analysis should start without being impeded by these kinds of errors. Of course, the manipulations I&rsquove discussed above will also fix graphical errors caused by negative branch lengths. OK, I hope the above helps you get your BEAST analyses running full speed ahead when you encounter negative branch length issues.


Fylogenetische bomen

Wat is een fylogenetische boom?
Een fylogenetische boom is een visuele weergave van de relatie tussen verschillende organismen en toont het pad door de evolutionaire tijd van een gemeenschappelijke voorouder naar verschillende afstammelingen. Bomen kunnen relaties vertegenwoordigen die variëren van de hele geschiedenis van het leven op aarde tot individuen in een populatie.
Het onderstaande diagram toont een boom van 3 taxa (een enkelvoudig taxon is een taxonomische eenheid kan een soort of een gen zijn).

Terminologie van fylogenetische bomen

Dit is een vertakte boom. De verticale lijnen, genaamd takken, vertegenwoordigen een afstamming, en knooppunten zijn waar ze divergeren, wat neerkomt op een soortvormingsgebeurtenis van een gemeenschappelijke voorouder. De stam aan de voet van de boom, heet eigenlijk de wortel. Het hoofdknooppunt vertegenwoordigt de meest recente gemeenschappelijke voorouder van alle taxa vertegenwoordigd op de boom. De tijd wordt ook weergegeven, van de oudste onderaan naar de meest recente bovenaan. Wat deze specifieke boom ons vertelt, is dat taxon A en taxon B nauwer aan elkaar verwant zijn dan beide taxonen aan taxon C zijn. De reden is dat taxon A en taxon B een recentere gemeenschappelijke voorouder hebben dan met taxon C. Een groep taxa met een gemeenschappelijke voorouder en alle van zijn nakomelingen heet a clade. Er wordt ook gezegd dat een clade is monofyletisch. Een groep die een of meer uitsluit afstammelingen is parafyletisch een groep die de uitsluit gemeenschappelijke vooroudersr wordt gezegd te zijn polyfyletisch.

De afbeelding hieronder toont verschillende monofyletische (bovenste rij) versus polyfyletische (linksonder) of parafyletische (rechtsonder) bomen.

De onderstaande video richt zich op terminologie en onderzoekt enkele misvattingen over het lezen van bomen:

Misvattingen en hoe een fylogenetische boom correct te lezen

Bomen kunnen verwarrend zijn om te lezen. Een veelgemaakte fout is om de toppen van de bomen te lezen en te denken dat hun volgorde betekenis heeft. In de bovenstaande boom is de dichtstbijzijnde verwant van taxon C niet taxon B. Zowel A als B zijn even ver verwijderd van of gerelateerd aan taxon C. In feite zou het verwisselen van de labels van taxa A en B resulteren in een topologisch equivalente boom . Het is de volgorde van vertakking langs de tijdas die van belang is. De onderstaande afbeelding laat zien dat men takken kan draaien zonder de structuur van de boom te beïnvloeden, net zoals bij een hangende mobiel:

Hangende vogelmobiel van Charlie Harper

Het kan ook moeilijk zijn om te herkennen hoe de bomen evolutionaire relaties modelleren. Een ding om te onthouden is dat elke boom een ​​minuscule subset van de boom des levens vertegenwoordigt.

Gezien alleen de 5-taxonboom (geen gestippelde takken), is het verleidelijk om te denken dat taxon S het meest 'primitief' is of het meest lijkt op de gemeenschappelijke voorouder die wordt vertegenwoordigd door het wortelknooppunt, omdat er geen extra knooppunten zijn tussen S en de wortel. Er waren echter ongetwijfeld veel takken van die afstamming in de loop van de evolutie, waarvan de meeste leidden tot uitgestorven taxa (99% van alle soorten wordt verondersteld uitgestorven te zijn), en veel tot levende taxa (zoals de paarse stippellijn) die slechts niet in de boom weergegeven. Waar het dus om gaat, is de totale afstand langs de tijdas (verticale as, in deze boom) – taxon S evolueerde gedurende 5 miljoen jaar, even lang als elk van de andere 4 taxa. Terwijl de boom wordt getekend, met de tijdas verticaal, heeft de horizontale as geen betekenis en dient alleen om de taxa en hun afstammingen te scheiden. Dus geen van de momenteel levende taxa is 'primitiever' en evenmin 'geavanceerder' dan alle andere taxa die ze allemaal gedurende dezelfde tijd hebben geëvolueerd van hun meest recente gemeenschappelijke voorouder.

De tijdas stelt ons ook in staat om evolutionaire afstanden kwantitatief te meten. De afstand tussen A en Q is 4 miljoen jaar (A evolueerde gedurende 2 miljoen jaar sinds ze zich splitsten, en Q evolueerde ook onafhankelijk van A gedurende 2 miljoen jaar na de splitsing). De afstand tussen A en D is 6 miljoen jaar, aangezien ze 3 miljoen jaar geleden van hun gemeenschappelijke voorouder zijn gescheiden.

Fylogenetische bomen kunnen verschillende vormen hebben: ze kunnen zijwaarts zijn georiënteerd, omgekeerd (meest recent onderaan), of de takken kunnen gebogen zijn, of de boom kan radiaal zijn (de oudste in het midden). Ongeacht hoe de boom wordt getekend, de vertakkingspatronen brengen allemaal dezelfde informatie over: evolutionaire voorouders en patronen van divergentie.

Deze video legt uitstekend uit hoe de verwantschap van soorten met behulp van bomen kan worden geïnterpreteerd, inclusief een beschrijving van enkele veelvoorkomende niet correct manieren om bomen te lezen:

Fylogenetische bomen bouwen

Veel verschillende soorten gegevens kunnen worden gebruikt om fylogenetische bomen te construeren, waaronder morfologische gegevens, zoals structurele kenmerken, soorten organen en specifieke skeletrangschikkingen en genetische gegevens, zoals mitochondriale DNA-sequenties, ribosomale RNA-genen en alle genen van belang.

Dit soort gegevens wordt gebruikt om homologie te identificeren, wat gelijkenis betekent vanwege gemeenschappelijke voorouders. Dit is gewoon het idee dat je eigenschappen van je ouders erft, alleen toegepast op soortniveau: alle mensen hebben grote hersenen en opponeerbare duimen omdat onze voorouders alle zoogdieren melk produceerden uit de borstklieren omdat hun voorouders dat deden.

Bomen zijn gebouwd volgens het principe van spaarzaamheid, wat het idee is dat het meest waarschijnlijke patroon het patroon is dat de minste veranderingen vereist. Het is bijvoorbeeld veel waarschijnlijker dat alle zoogdieren melk produceren omdat ze allemaal borstklieren hebben geërfd van een gemeenschappelijke voorouder die melk produceerde uit borstklieren, versus meerdere groepen organismen die elk onafhankelijk van elkaar evoluerende borstklieren.


Limitations of Phylogenetic Trees

It may be easy to assume that more closely related organisms look more alike, and while this is often the case, it is not always true. If two closely related lineages evolved under significantly varied surroundings, it is possible for the two groups to appear more different than other groups that are not as closely related. For example, the phylogenetic tree in Figure 3 shows that lizards and rabbits both have amniotic eggs whereas, frogs do not. Yet lizards and frogs appear more similar than lizards and rabbits.

Figuur 3: An organism that lacked a vertebral column roots this ladder-like phylogenetic tree of vertebrates. At each branch point, scientists place organisms with different characters in different groups based on shared characteristics.

Another aspect of phylogenetic trees is that, unless otherwise indicated, the branches do not account for length of time, only the evolutionary order. In other words, a branch’s length does not typically mean more time passed, nor does a short branch mean less time passed— unless specified on the diagram. For example, in Figure 3, the tree does not indicate how much time passed between the evolution of amniotic eggs and hair. What the tree does show is the order in which things took place. Again using Figure 3, the tree shows that the oldest trait is the vertebral column, followed by hinged jaws, and so forth. Remember that any phylogenetic tree is a part of the greater whole, and like a real tree, it does not grow in only one direction after a new branch develops. Thus, for the organisms in Figure 3, just because a vertebral column evolved does not mean that invertebrate evolution ceased. It only means that a new branch formed. Also, groups that are not closely related, but evolve under similar conditions, may appear more phenotypically similar to each other than to a close relative.


Bekijk de video: ilpendam zon onder 5 11 2016 HD (December 2021).