Informatie

8: Passende modellen van discrete karakterevolutie - biologie


In dit hoofdstuk werd het snoeialgoritme van Felsenstein gepresenteerd en gebruikt om de waarschijnlijkheid van Mk- en extended-Mk-modellen op fylogenetische bomen te berekenen. Ik heb ook zowel ML- als Bayesiaanse kaders beschreven die kunnen worden gebruikt om hypothesen over karakterevolutie te testen. Dit hoofdstuk bevat ook een beschrijving van de "totale rommel"-test, die u zal vertellen of uw gegevens informatie bevatten over evolutionaire snelheden van een bepaald karakter.

  • 8.1: De evolutie van ledematen en ledematenloosheid
    Squamaten hadden tijdens hun evolutionaire geschiedenis herhaaldelijk hun ledematen verloren. Dit is een patroon dat al tientallen jaren bekend is, maar analyses zijn beperkt door het ontbreken van een grote, goed ondersteunde fylogenetische boom van squamaten op soortniveau. In de afgelopen jaren zijn fylogenetische bomen geproduceerd op een schaal die breed genoeg is om deze vraag uitgebreid te bekijken. Dergelijke pogingen om dit deel van de levensboom te reconstrueren, bieden een opwindend potentieel om oude vragen opnieuw te bekijken met nieuwe gegevens.
  • 8.2: Mk-modellen aanpassen aan vergelijkende gegevens
    De vergelijkingen in hoofdstuk 7 geven ons voldoende informatie om de waarschijnlijkheid van vergelijkende gegevens over een boom te berekenen. Om te begrijpen hoe dit wordt gedaan, kunnen we eerst het eenvoudigste geval beschouwen, waarbij we de begintoestand van een teken, de vertakkingslengte en de eindtoestand kennen. We kunnen de methode vervolgens toepassen op een hele boom met behulp van een snoeialgoritme, waarmee de waarschijnlijkheid van de gegevens kan worden berekend op basis van het model en de fylogenetische boom.
  • 8.3: Maximale waarschijnlijkheid gebruiken om parameters van het Mk-model te schatten
  • 8.4: Bayesiaanse MCMC gebruiken om parameters van het Mk-model te schatten
  • 8.5: Mk verkennen - de "totale rommel"-test
    Een probleem dat soms optreedt bij optimalisatie van maximale waarschijnlijkheid, vindt plaats wanneer in plaats van een piek het waarschijnlijkheidsoppervlak een lange platte "rug" heeft van even waarschijnlijke parameterwaarden. In het geval van het Mk-model is het gebruikelijk dat alle waarden van q groter dan een bepaalde waarde dezelfde waarschijnlijkheid hebben. Dit komt omdat boven een bepaald tempo de evolutie zo snel is gegaan dat alle sporen van de evolutiegeschiedenis van dat karakter zijn uitgewist.
  • 8.6: Testen op verschillen in de voorwaartse en achterwaartse snelheid van karakterverandering
  • 8.7: Bijlage - Het snoeialgoritme van Felsenstein
    Het snoeialgoritme van Felsenstein (1973) is een voorbeeld van dynamisch programmeren, een type algoritme dat veel toepassingen kent in de vergelijkende biologie. Bij dynamisch programmeren splitsen we een complex probleem op in een reeks eenvoudigere stappen met een geneste structuur. Dit stelt ons in staat om berekeningen op een efficiënte manier te hergebruiken en versnelt de tijd die nodig is om berekeningen te maken.
  • 8.S: Passende modellen van discrete karakterevolutie (Samenvatting)

Fylogenetische hulpmiddelen voor vergelijkende biologie

&ldquo&helliphoe specificeer ik een voorouderlijke staat voor mijn root node phytools?? En kan ik er een specificeren wanneer ik het ER-model van karakterevolutie gebruik? Ik denk dat dit heel eenvoudig te beantwoorden moet zijn, sorry maar als je me naar een antwoord zou kunnen verwijzen, zou dat fantastisch zijn.&rdquo

Ik ga dit interpreteren als betekenis & ldquo hoe pas ik in een discreet karaktermodel waarin de toestand bij de globale wortel bekend is.&rdquo

Dit is niet Super eenvoudig. Het is het meest eenvoudig om te doen met fitMk , maar kan ook worden bereikt met fitDiscrete van het geiger-pakket.

Eerst zal ik fitMk demonstreren.

model<-matrix(c(0,1,0,1,0,1,0,1,0),3,3,dimnames=lijst(staten, staten)) model

Merk op dat hoewel men in de verleiding kan komen om: vergelijken de waarschijnlijkheid van deze drie gemonteerde modellen, zou dit in feite niet moeten worden gedaan. Dit komt omdat de waarschijnlijkheden in elk geval afhankelijk zijn van de toestand bij de worteltoestand die bekend is - met andere woorden, ze zijn afhankelijk van verschillende gegevens. Dat dit niet gelijk staat aan het dwingen van een bepaalde parameter om een ​​bepaalde waarde te hebben, wordt het duidelijkst door vergelijking tussen het model waarin de wortel is vastgelegd op toestand "b" en het model waarin de worteltoestand onbekend is. Als het eerste een speciaal geval van het laatste was, zou het een lagere (of gelijke) kans moeten hebben, terwijl de kans in feite iets groter is. Hoe kan dat? Welnu, in werkelijkheid is de vaste toestandswaarschijnlijkheid de waarschijnlijkheid dat alle tips zich in hun waargenomen toestand bevinden en dat de wortel zich in de staat "b" bevindt, gegeven de boom, een model en de modelparameters (te schatten), terwijl de "vlakke eerdere" modelwaarschijnlijkheid eenvoudigweg de waarschijnlijkheid is van de gegevens aan de uiteinden, gegeven het boom- en modelmodel , maar integreren over alle mogelijke waarden voor de wortelknoop van de fylogenie.

We kunnen dezelfde analyse doen met fitDiscrete , maar het is niet zo eenvoudig. Eerst moeten we de methode gebruiken om een ​​waarschijnlijkheidsfunctie te genereren, en dan kunnen we die functie optimaliseren met behulp van verschillende eerdere kansverdelingen voor de wortel van de boom, als volgt:

(Merk op dat fitDiscrete standaard geen flat prior gebruikt.)

Voor elk gefit model is $maximum de parameter van het enkel gefitte model, terwijl $objective de log-waarschijnlijkheid is. Als we een model hadden met meer dan één parameter, zouden we optim of een andere numerieke optimizer kunnen gebruiken om het model te passen.

Vergeet ten slotte niet dat phytools S3-plotmethoden heeft voor zowel fitMk als fitDiscrete. Bijv.:

plot(fit.geiger<-fitDiscrete(tree,x,model="ARD")) title(main="Resultaat van geiger::fitDiscrete(. model="ARD")") title(main=paste(" nlog(L) =",round(logLik(fit.geiger),5)), cex.main=1)

lik<-fit.geiger$lik q<-fit.phytools$rates ## fitMk paramater schattingen lik(pars=c(q12=q[3],q13=q[5],q21=q[1],q23=q[ 6],q31=q[2],q32=q[4]), root="plat")

Het zou ook aannemelijk zijn geweest dat fitMk er niet in was geslaagd om te convergeren naar de ML-oplossing, aangezien de optimalisatieroutines die door fitDiscrete worden gebruikt over het algemeen robuuster zijn. Dit lijkt in dit geval niet het geval.)


Fylogenetische hulpmiddelen voor vergelijkende biologie

Ik dacht dat het misschien handig zou zijn om een ​​korte tutorial te plaatsen over hoe je een basismodel kunt vergelijken voor discrete karakterevolutie met behulp van de phytools-functie fitMk . fitMk leent eigenlijk veel code van de ape-functie ace , hoewel het geen marginale schatting van de voorouderlijke staat doet, maar het geeft de gebruiker wel flexibiliteit bij het specificeren van de eerdere distributie &pi. Dit kan theoretisch belangrijk zijn.

Voor deze oefening gebruiken we de Anolis ecomorf gegevens:

We kunnen een aantal verschillende modellen als volgt passen:

Naast deze basismodellen kunnen we ook elk willekeurig model passen. We zouden bijvoorbeeld een model kunnen passen waarin karakterevolutie is geordend. In dit geval ga ik ervan uit dat ecomorfen alleen alfabetisch kunnen evolueren - een totaal belachelijke veronderstelling natuurlijk - maar nuttig om te demonstreren hoe dergelijke modellen zijn opgezet:

Evenzo zouden we een geordend model kunnen passen, maar een waarin de achterwaartse en voorwaartse snelheden verschillend zijn (hier aangegeven door respectievelijk de superdiagonale en subdiagonale elementen):

Merk op dat de indices 1 en 2 niets te maken hebben met de werkelijke snelheden die passen - ze laten ons alleen toe om R te vertellen om (in dit geval) twee verschillende snelheden te passen, en waar die verschillende snelheden in de matrix moeten worden verdeeld. Met andere woorden, een symmetrisch model kan ook als volgt worden gespecificeerd:

Ten slotte kunnen we modellen vergelijken met behulp van een waarschijnlijkheidsratio, voor geneste modellen of met behulp van AIC. Onthoud dat een lagere AIC duidt op een betere pasvorm van het model, waardoor het aantal parameters in het aangepaste model wordt bestraft:

Het lijkt erop dat het model met gelijke tarieven wint!

Laten we het proberen met een eenvoudiger dataset gesimuleerd onder een onomkeerbaar model:

fitER<-fitMk(tree,x,model="ER") fitARD<-fitMk(tree,x,model="ARD") irrAtoB<-matrix(c(0,0,1,0),2,2,dimnames=list(c("a" ,"b"),c("a","b"))) fitAtoB<-fitMk(tree,x,model=irrAtoB) irrBtoA<-t(irrAtoB) fitBtoA<-fitMk(tree,x,model=irrBtoA) fitBtoA

Dus we kunnen zien dat inderdaad het genererende model, a->b , het beste past.

Om een ​​van de bovenstaande analyses te dupliceren, kunt u het phytools-gegevensobject anoletree ook als volgt gebruiken:


Tandkarakters die worden gebruikt in fylogenetische analyses van zoogdieren laten een hogere evolutie zien, maar geen verminderde onafhankelijkheid

Nauwkeurige reconstructies van fylogenie zijn essentieel voor het bestuderen van de evolutie van een clade, en morfologische kenmerken worden noodzakelijkerwijs gebruikt voor de reconstructie van de relaties van fossiele organismen. Variatie in hun evolutionaire modi (bijvoorbeeld snelheidsvariatie en karakteronafhankelijkheid) die niet in analyses wordt meegenomen, kan echter leiden tot onbetrouwbare fylogenieën. Een recente studie suggereerde dat fylogenetische analyses van zoogdieren mogelijk lijden aan een dominantie van tandheelkundige kenmerken, waarvan werd aangetoond dat ze een lager fylogenetisch signaal hebben dan osteologische kenmerken en fylogenieën produceerden die minder congruent waren met moleculair afgeleide benchmarks. Hier bouwen we voort op dit eerdere werk door vijf extra morfologische partities voor fylogenetisch signaal te testen en te onderzoeken welke aspecten van tandheelkundige en andere karakterevolutie dit kunnen beïnvloeden, door modellen van discrete karakterevolutie aan te passen aan afgeleide fylogenieën en tijdgekalibreerd met behulp van moleculaire gegevens. De resultaten geven aan dat het fylogenetische signaal van discrete karakters het sterkst correleert met de evolutiesnelheid, waarbij hogere snelheden leiden tot verhoogde homoplasie. In een dataset die alle Mammalia omvat, hebben tandheelkundige karakters een hogere evolutiesnelheid dan andere partities. Ze passen echter niet slechter in een model van onafhankelijke karakterevolutie dan in andere regio's. Primaten en buideldieren vertonen andere patronen dan andere zoogdierclades, waarbij tandheelkundige karakters langzamer evolueren en sterker geïntegreerd zijn (minder onafhankelijk). Hoewel de dominantie van tandheelkundige karakters in analyses van zoogdieren zou kunnen leiden tot onnauwkeurige fylogenieën, is het probleem niet uniek voor tandheelkundige karakters en zijn de resultaten niet consistent tussen datasets. Moleculaire benchmarks (die volledig onafhankelijk zijn van de karaktergegevens) bieden een kader voor het afzonderlijk onderzoeken van elke dataset om de evolutie van de gebruikte karakters te beoordelen.

trefwoorden: Evolutionaire snelheden Homoplasie Onafhankelijkheid Zoogdieren Fylogenie.

©2020 Brocklehurst en Benevento.

Belangenconflict verklaring

De auteurs verklaren dat er geen concurrerende belangen zijn.

Figuren

Figuur 1. Vioolplots die de resultaten illustreren van...

Figuur 1. Vioolplots ter illustratie van de resultaten van de Bi et al. (2014) karaktermatrix (totaal...

Figuur 2. Vioolplots die de resultaten illustreren van...

Figuur 2. Vioolplots die de resultaten illustreren van de Spaulding, O'Leary & Gatesy (2009) matrix (Artiodactyla).

Figuur 3. Resultaten van de Tomiya (2010)…

Figuur 3. Resultaten van de Tomiya (2010) matrix (Carnivora).

(A) Pagel's lambda-waarden (fylogenetisch signaal)...

Figuur 4. Vioolplots die de resultaten illustreren van...

Figuur 4. Vioolplots ter illustratie van de resultaten van de Ni et al. (2013) matrix (Primaten).

Figuur 5. Vioolplots die de resultaten illustreren van...

Figuur 5. Vioolplots ter illustratie van de resultaten van de Beck (2017)-matrix (Marsupialia).


Inhoud

Deze modellen zijn fenomenologische beschrijvingen van de evolutie van DNA als een reeks van vier discrete toestanden. Deze Markov-modellen geven niet expliciet het mechanisme van mutatie of de werking van natuurlijke selectie weer. Ze beschrijven eerder de relatieve snelheden van verschillende veranderingen. Bijvoorbeeld, mutatiebias en zuiverende selectie die conservatieve veranderingen begunstigt, zijn waarschijnlijk beide verantwoordelijk voor de relatief hoge snelheid van overgangen in vergelijking met transversies in evoluerende sequenties. Het hieronder beschreven Kimura-model (K80) probeert echter alleen het effect van beide krachten vast te leggen in een parameter die de relatieve snelheid van overgangen naar transversies weerspiegelt.

Evolutionaire analyses van sequenties worden uitgevoerd op een groot aantal verschillende tijdschalen. Het is dus handig om deze modellen uit te drukken in termen van de momentane veranderingssnelheden tussen verschillende toestanden (de Q onderstaande matrix). Als we op één positie een beginnende (voorouderlijke) staat krijgen, is het model Q matrix en een vertakkingslengte die het verwachte aantal veranderingen uitdrukt dat is opgetreden sinds de voorouder, dan kunnen we de waarschijnlijkheid afleiden dat de afstammelingenreeks elk van de vier toestanden heeft. De wiskundige details van deze transformatie van snelheidsmatrix naar waarschijnlijkheidsmatrix worden beschreven in de sectie wiskunde van substitutiemodellen op de pagina substitutiemodellen. Door modellen uit te drukken in termen van de onmiddellijke veranderingssnelheden, kunnen we vermijden een groot aantal parameters te schatten voor elke tak op een fylogenetische boom (of elke vergelijking als de analyse veel paarsgewijze sequentievergelijkingen omvat).

De modellen die op deze pagina worden beschreven, beschrijven de evolutie van een enkele site binnen een reeks sequenties. Ze worden vaak gebruikt voor het analyseren van de evolutie van een hele locus door de vereenvoudigende veronderstelling te maken dat verschillende sites onafhankelijk evolueren en identiek zijn verdeeld. Deze veronderstelling kan gerechtvaardigd zijn als kan worden aangenomen dat de sites neutraal evolueren. Als het primaire effect van natuurlijke selectie op de evolutie van de sequenties is om sommige locaties te beperken, dan kunnen modellen van snelheidsheterogeniteit tussen locaties worden gebruikt. Deze benadering maakt het mogelijk om slechts één matrix van relatieve substitutiesnelheden te schatten, en een andere set parameters die de variantie in de totale substitutiesnelheid tussen locaties beschrijven.

Markov-ketens met continue tijd Bewerken

Voorbeeld: We willen het substitutieproces modelleren in DNA-sequenties (d.w.z. Jukes–Cantor, Kimura, enzovoort.) in een continue-tijd mode. De bijbehorende overgangsmatrices zien er als volgt uit:

waar de 2 × 2 blokken linksboven en rechtsonder overeenkomen met overgangskansen en de 2 × 2 blokken rechtsboven en linksonder komen overeen met transversie kansen.

Stelling: Continu-tijdovergangsmatrices voldoen aan:

Opmerking: Er is hier een mogelijke verwarring tussen twee betekenissen van het woord overgang. (i) In de context van: Markov-kettingen, overgang is de algemene term voor de verandering tussen twee toestanden. (ii) In de context van: nucleotideveranderingen in DNA-sequenties, transitie is een specifieke term voor de uitwisseling tussen de twee purines (A G) of de twee pyrimidinen (C ↔ T) (zie voor meer details het artikel over transities in de genetica). Daarentegen wordt een uitwisseling tussen één purine en één pyrimidine een transversie genoemd.

De dynamiek van substitutie afleiden Bewerken

Overweeg een DNA-sequentie van vaste lengte m evolueren in de tijd door basisvervanging. Neem aan dat de processen gevolgd door de m sites zijn Markoviaans onafhankelijk, identiek verdeeld en dat het proces constant is in de tijd. Laten we voor een bepaalde site

de verzameling mogelijke toestanden voor de site zijn, en

staat bekend als de tariefmatrix. Merk op dat per definitie de som van de items in elke rij van Q gelijk is aan nul. Het volgt dat

Ergodiciteit bewerken

Met andere woorden, de frequenties van p A ( t ) , p G ( t ) , p C ( t ) , p T ( t ) < Displaystyle p_ (t), , p_(t),,p_(t),,p_(t)> niet wijzigen.

Tijdomkeerbaarheid Bewerken

Niet alle stationaire processen zijn omkeerbaar, maar de meest gebruikte DNA-evolutiemodellen gaan uit van tijdomkeerbaarheid, wat als een redelijke veronderstelling wordt beschouwd.

Onder de veronderstelling van de tijdomkeerbaarheid, laat s x y = μ x y / π y =mu _/pi _ > , dan is het gemakkelijk te zien dat:

Schalen van taklengtes Bewerken

Door bestaande sequenties te vergelijken, kan men de hoeveelheid sequentiedivergentie bepalen. Deze ruwe meting van divergentie geeft informatie over het aantal veranderingen dat is opgetreden langs het pad dat de reeksen scheidt. De eenvoudige telling van verschillen (de Hamming-afstand) tussen sequenties zal vaak het aantal substituties onderschatten vanwege meerdere treffers (zie homoplasie). Proberen om het exacte aantal veranderingen te schatten dat heeft plaatsgevonden is moeilijk en meestal niet nodig. In plaats daarvan worden vertakkingslengtes (en padlengtes) in fylogenetische analyses meestal uitgedrukt in het verwachte aantal veranderingen per locatie. De padlengte is het product van de duur van het pad in de tijd en de gemiddelde substitutiesnelheid. Hoewel hun product kan worden geschat, zijn de snelheid en tijd niet te identificeren aan de hand van sequentiedivergentie.

De beschrijvingen van snelheidsmatrices op deze pagina geven nauwkeurig de relatieve grootte van verschillende substituties weer, maar deze snelheidsmatrices zijn niet zodanig geschaald dat een vertakkingslengte van 1 één verwachte verandering oplevert. Deze schaling kan worden bereikt door elk element van de matrix met dezelfde factor te vermenigvuldigen, of eenvoudig door de vertakkingslengten te schalen. Als we de gebruiken om de schaalfactor aan te geven, en ν om de vertakkingslengte aan te geven, gemeten in het verwachte aantal vervangingen per locatie, dan wordt βν gebruikt in de onderstaande overgangswaarschijnlijkheidsformules in plaats van μt. Merk op dat ν een parameter is die moet worden geschat op basis van gegevens, en wordt aangeduid als de vertakkingslengte, terwijl β gewoon een getal is dat kan worden berekend uit de snelheidsmatrix (het is geen afzonderlijke vrije parameter).

De waarde van β kan worden gevonden door de verwachte stroomsnelheid van toestanden te forceren tot 1. De diagonale invoeren van de snelheidsmatrix (de Q matrix) vertegenwoordigen -1 keer de snelheid waarmee elke staat wordt verlaten. Voor tijdomkeerbare modellen kennen we de evenwichtstoestandsfrequenties (dit zijn simpelweg de πl parameterwaarde voor staat: l). We kunnen dus de verwachte veranderingssnelheid vinden door de som van de flux uit elke staat te berekenen, gewogen door het aandeel locaties dat naar verwachting in die klasse zal zijn. Als β het omgekeerde van deze som is, wordt gegarandeerd dat het geschaalde proces een verwachte flux van 1 heeft:

In de Jukes-Cantor zou de schaalfactor bijvoorbeeld zijn: 4/(3μ) omdat de snelheid van het verlaten van elke staat is 3μ/4.

JC69-model (Jukes en Cantor 1969)

De p in deze formule wordt vaak de p -afstand genoemd. Het is een voldoende statistiek voor het berekenen van de Jukes-Cantor afstandscorrectie, maar is niet voldoende voor de berekening van de evolutionaire afstand onder de meer complexe modellen die volgen (merk ook op dat p gebruikt in volgende formules niet identiek is aan de " p -afstand").

K80-model (Kimura 1980)

K80, het Kimura 1980-model, [2] vaak aangeduid als: Kimura's twee-parametermodel (of de K2P-model), maakt onderscheid tussen overgangen ( A G < Displaystyle A leftrightarrow G>, dat wil zeggen van purine naar purine, of C ↔ T < Displaystyle C leftrightarrow T>, dat wil zeggen van pyrimidine naar pyrimidine) en transversies (van purine naar pyrimidine of vice versa). In Kimura's oorspronkelijke beschrijving van het model werden de α en β gebruikt om de snelheden van dit soort substituties aan te duiden, maar het is nu gebruikelijker om de transversiesnelheid in te stellen op 1 en κ te gebruiken om de transitie/transversiesnelheidsverhouding aan te duiden (zoals gebeurt hieronder). Het K80-model gaat ervan uit dat alle basen even frequent zijn ( π A = π G = π C = π T = 0.25 =pi _=pi _=0.25> ).

De Kimura-afstand van twee parameters wordt gegeven door:

waar P is het aandeel sites dat overgangsverschillen vertoont en Q is het percentage sites dat transversionele verschillen vertoont.

K81-model (Kimura 1981)

K81, het model van Kimura uit 1981, [3] vaak genoemd Het drie-parametermodel van Kimura (K3P-model) of het Kimura-model met drie substitutietypes (K3ST), heeft verschillende snelheden voor overgangen en twee verschillende soorten transversies. De twee typen transversie zijn die die de zwakke/sterke eigenschappen van de nucleotiden behouden (dat wil zeggen, A ↔ T en C ↔ G , aangegeven met het symbool γ [3] ) en die welke de amino/keto-eigenschappen van de nucleotiden behouden (dwz A ↔ C en G ↔ T , aangeduid met symbool β [3] ). Het K81-model gaat ervan uit dat alle evenwichtsbasisfrequenties gelijk zijn (d.w.z. π A = π G = π C = π T = 0,25 =pi _=pi _=0.25> ).

Het K81-model wordt veel minder vaak gebruikt dan het K80 (K2P) -model voor afstandsschatting en het is zelden het best passende model in fylogenetica met maximale waarschijnlijkheid. Ondanks deze feiten is het K81-model verder bestudeerd in de context van wiskundige fylogenetica. [4] [5] [6] Een belangrijke eigenschap is het vermogen om een ​​Hadamard-transformatie uit te voeren, ervan uitgaande dat de sitepatronen zijn gegenereerd op een boom met nucleotiden die evolueren onder het K81-model. [7] [8] [9]

Bij gebruik in de context van fylogenetica biedt de Hadamard-transformatie een elegante en volledig inverteerbare manier om de verwachte locatiepatroonfrequenties te berekenen op basis van een reeks vertakkingslengtes (of vice versa). In tegenstelling tot veel maximale waarschijnlijkheidsberekeningen, kunnen de relatieve waarden voor α , β en γ tussen takken variëren en de Hadamard-transformatie kan zelfs bewijs leveren dat de gegevens dat wel doen. past niet in een boom. De Hadamard-transformatie kan ook worden gecombineerd met een breed scala aan methoden om de heterogeniteit tussen locaties te accommoderen, [10] met behulp van continue distributies in plaats van de discrete benaderingen die typisch worden gebruikt in fylogenetica met maximale waarschijnlijkheid [11] (hoewel men de invertibiliteit van de Hadamard-transformatie om bepaalde heterogeniteitsverdelingen tussen sites te gebruiken [10]).

F81-model (Felsenstein 1981)

F81, het model van Felsenstein uit 1981, [12] is een uitbreiding van het JC69-model waarin de basisfrequenties mogen variëren van 0,25 ( π A ≠ π G ≠ π C ≠ π T eq pi _ eq pi _> )

Wanneer de vertakkingslengte, ν, wordt gemeten in het verwachte aantal veranderingen per locatie, dan:

HKY85-model (Hasegawa, Kishino en Yano 1985)

HKY85, het model van Hasegawa, Kishino en Yano uit 1985 [13] kan worden gezien als een combinatie van de uitbreidingen die zijn gemaakt in de modellen Kimura80 en Felsenstein81. Het maakt namelijk onderscheid tussen de snelheid van overgangen en transversies (met behulp van de κ-parameter), en het maakt ongelijke basisfrequenties mogelijk ( π A ≠ π G ≠ π C ≠ π T eq pi _ eq pi _> ). [ Felsenstein beschreef in 1984 een vergelijkbaar (maar niet equivalent) model met een andere parametrering [14] dat laatste model wordt het F84-model genoemd. [15] ]

Als we de taklengte uitdrukken, ν in termen van het verwachte aantal wijzigingen per site dan:

en formule voor de andere combinaties van toestanden kan worden verkregen door de geschikte basisfrequenties te substitueren.

T92-model (Tamura 1992)

T92, het Tamura 1992-model, [16] is een wiskundige methode die is ontwikkeld om het aantal nucleotidesubstituties per plaats tussen twee DNA-sequenties te schatten, door Kimura's (1980) twee-parametermethode uit te breiden naar het geval waar een G+C-inhoudsbias bestaat . Deze methode zal nuttig zijn wanneer er sterke vooroordelen zijn in transitie-transversie en G+C-inhoud, zoals in het geval van Drosophila mitochondriaal DNA. [16]

Aangezien T92 de tweede pariteitsregel van Chargaff weergeeft - nucleotiden in paren hebben dezelfde frequentie op een enkele DNA-streng, G en C aan de ene kant, en A en T aan de andere kant - volgt hieruit dat de vier basenfrequenties kunnen worden uitgedrukt als een functie van π GC >

De evolutionaire afstand tussen twee DNA-sequenties volgens dit model wordt gegeven door

TN93-model (Tamura en Nei 1993)

TN93, het model van Tamura en Nei 1993, [17] maakt onderscheid tussen de twee verschillende soorten overgangen, namelijk ( A G < Displaystyle A leftrightarrow G>) mag een andere snelheid hebben dan ( C ↔ T < Displaystyle C linksrechtspijl T>). Er wordt aangenomen dat transversies allemaal in dezelfde snelheid plaatsvinden, maar die snelheid mag verschillen van beide snelheden voor transities.

TN93 staat ook ongelijke basisfrequenties toe ( π A ≠ π G ≠ π C ≠ π T eq pi _ eq pi _> ).

GTR-model (Tavaré 1986)

GTR, het gegeneraliseerde tijdomkeerbare model van Tavaré 1986, [18] is het meest algemene neutrale, onafhankelijke, eindige-sites, tijdomkeerbare model dat mogelijk is. Het werd voor het eerst beschreven in algemene vorm door Simon Tavaré in 1986. [18]

zijn de parameters voor de overgangssnelheid.

Daarom vereist GTR (voor vier karakters, zoals vaak het geval is in de fylogenetica) 6 parameters voor substitutiesnelheid, evenals 4 parameters voor evenwichtsbasisfrequentie. Dit wordt echter meestal geëlimineerd tot 9 parameters plus μ , het totale aantal vervangingen per tijdseenheid. Bij het meten van tijd in substituties ( μ =1) blijven er slechts 8 vrije parameters over.

In het algemeen, om het aantal parameters te berekenen, moet men het aantal items boven de diagonaal in de matrix tellen, d.w.z. voor n eigenschapwaarden per site n 2 − n 2 -n> over 2>> , en dan toevoegen N voor de evenwichtsbasisfrequenties, en trek 1 af omdat μ vast is. Men krijgt

Bijvoorbeeld, voor een aminozuursequentie (er zijn 20 "standaard" aminozuren waaruit eiwitten bestaan), zou men vinden dat er 209 parameters zijn. Bij het bestuderen van coderende gebieden van het genoom is het echter gebruikelijker om te werken met een codonsubstitutiemodel (een codon is drie basen en codeert voor één aminozuur in een eiwit). Er zijn 4 3 = 64 =64> codons, maar aangenomen wordt dat de overgangssnelheden tussen codons die meer dan één base verschillen, nul zijn. Er zijn dus 20 × 19 × 3 2 + 64 − 1 = 633 over 2>+64-1=633> parameters.


Fylogenetische hulpmiddelen voor vergelijkende biologie

De afgelopen maanden hebben Luke Harmon en ik aan een project gewerkt waardoor ik veel verschillende updates en toevoegingen aan fytools.

Vanmiddag heb ik een nieuwe fytools versie naar CRAN en het is al beschikbaar (alleen als bron Windows & Mac binaire bestanden hebben meestal een paar dagen nodig om te bouwen).

Ik heb de afgelopen weken geen tijd gehad om te posten over de nieuwe pakketupdates in deze huidige versie. Ik ga nu echter proberen een paar blogberichten te plaatsen die enkele van de updates en nieuwe functies van . beschrijven fytools.

De eerste hiervan die ik zal noemen is een nieuwe functie (genaamd fitHRM ) die kan worden gebruikt om te passen in het hidden-rate-model van Beaulieu et al. (2013).

Dit model kan al worden aangepast aan discrete karaktergegevens in R met behulp van het pakket corHMM. Sterker nog, ik vermoed dat de implementatie van corHMM is robuuster en schaalt beter tot grote bomen. (Ik heb nog niet geprobeerd fitHRM te gebruiken met een zeer grote fylogenie - maar ik weet dat corHMM in de corHMM pakket is gebruikt in empirische studies met tot 1000 taxa.)

Het idee van dit model is dat we evolutie waarnemen tussen de toestanden in een bepaalde toestandsruimte (bijv. een &harr B &harr C, enz.), maar er bestaan ​​ook niet-geobserveerde voorwaarden voor elke staat (of sommige staten, zie hieronder) met verschillende mate van verandering naar andere staten (bijv. een', b', c', enzovoort).

Een eenvoudig voorbeeld hiervan kan het geval zijn van een binaire eigenschap waarin conditie 0 (zeg) in twee verborgen toestanden bestond: 0' (heet) en 0'' (koud). In waargenomen toestand 0 heeft de verborgen toestand 0' de wijziging 0 &harr 1 is toegestaan, maar wanneer het zich in toestand 0 bevindt'' de wijziging 0 &harr 1 kan niet voorkomen.

Laten we om te beginnen simuleren onder dit exacte model en kijken hoe evolutie eruit ziet!

( y is de eigenschapsvector die we waarnemen, onthoud. We hebben geen idee of elke punt van de boom zich in de verborgen toestand 0* of 0** bevindt.)

Laten we nu ons model passen. Voor ons verborgen tarievenmodel stellen we ons voor dat er twee tariefcategorieën zijn (dwz twee verborgen toestanden) voor 0, maar slechts één tariefcategorie (geen verborgen toestanden) voor 1. We specificeren dit modelontwerp met het argument ncat=c(2, 1) . Merk op dat dit model overgangen van 0** (eigenlijk noemen we ze 0 en 0* in het aangepaste model) naar 1 expliciet verbiedt.

Naast het verborgen tarieven model kunnen wij ook een standaard Mk model. Het model met verborgen tarieven heeft dit model als een speciaal geval, zodat we hun waarschijnlijkheden gemakkelijk kunnen vergelijken.

Laten we, naast het verbale hidden-rates-model dat we hebben beschreven, ook een tweede model met verborgen tarieven waarin we in plaats van twee tariefcategorieën voor 0 en twee voor 1 twee tariefcategorieën hebben (dat wil zeggen, twee verborgen toestanden) voor elk waargenomen niveau van onze eigenschap. (Dit is eigenlijk hetzelfde model dat past bij de corHMM.)

Dit model (standaard - we kunnen het ook instellen om te bestellen=TRUE om dit te voorkomen) staat de overgangen 0 $harr 1 en 0* &harr 1* toe, evenals 0 &harr 0* en 1 &harr 1* .

Hier is een plot van onze vier verschillende modellen, zodat je een beter idee hebt.

Laten we al onze modellen in een tabel zetten en ze vergelijken.

Dit laat ons zien dat het best ondersteunde model de HRM-1 is, een model met een verborgen toestand. Dit is volkomen logisch omdat dit het model was dat we voor simulatie gebruikten. Koel!


Resultaten

Fylogenie

De enkele gen ITS en gedeeltelijke LSU, en gecombineerde sequenties van ITS met gedeeltelijke LSU van 254 stammen van zwarte schimmels werden toegepast om fylogenetische bomen van de gehele orde Chaetothyriales te bepalen, met behulp van Capnodium salicinum en Capnodium koffie als outgroup taxa. De uitlijning bevatte 522 tekens voor ITS, 497 voor LSU, 1019 voor gecombineerde sequenties. De uitlijning van gecombineerde sequenties had de volgende basisfrequenties: f (A) = 00.243, f (T) = 00.247, f (C) = 00.234, f (G) = 00.275, waaronder 642 variabele en 548 spaarzaam-informatieve sites . Wanneer afzonderlijke bomen van LSU en ITS werden vergeleken met de boom op basis van de aaneengeschakelde uitlijning, waren de bootstrap-waarden in de gecombineerde boom gemiddeld hoger dan die gevonden in bomen met één gen. Sommige families vormden geen ondersteunde clades in bomen met één gen, maar verkregen hogere bootstrap-ondersteuning in gecombineerde bomen. De niet-ingeklapte NJ-boom liet zien dat dit algoritme niet geschikt is voor analyse van Chaetothyriales op ordinaal niveau, te oordelen naar het lage aantal ondersteunde takken. Met Bayesiaanse analyse (BA) (Fig. 3) bevatte de gecombineerde boom in totaal 153 ondersteunde clades (posterieure kansen PP ≥ 95%) en met maximale waarschijnlijkheid (ML) 123 ondersteunde clades (bootstrap-ondersteuning BS ≥ 70%). In totaal werden 120 clades herkend die consistent waren in de twee algoritmen in Fig. 3 beide soorten ondersteuning worden aangegeven door de dikte van de takken.

Voor de reconstructie van de mogelijke evolutie van de orde Chaetothyriales is de volgorde van verschijnen van erkende groepen van belang. In de meeste literatuur over Chaetothyriales suggereren topologieën van fylogenetische gevolgtrekkingen het bestaan ​​van zes families (Réblová et al. 2013 Gueidan et al. 2014 Teixeira et al. 2017). De familie Phaeosaccardinulaceae werd geïntroduceerd door Batista en Ciferri (1962) en wordt vertegenwoordigd door drie soorten (Wijayawardene et al. 2020). De recent beschreven families Strelitzianaceae en Paracladophialophoraceae hebben respectievelijk vier en twee soorten in de boom. In recente onderzoeken naar nieuwe habitats zijn nog drie groepen toegevoegd (Muggia et al. 2020 Wang ongepubliceerde gegevens). Deze groepen werden meestal herkend als afzonderlijke clades ondersteund met hoge bootstrap in de bi-locusboom met alle toegepaste algoritmen.

zes soorten, Atrokylindriopsis (Ma et al. 2015), Lichenodiplis (Hawksworth and Dyko 1979), Melnikomyces (Crous et al. 2014), Bacillicladium (Réblová et al. 2016), Muellerella (Muggia et al. 2020) and Uncispora (Sinclair 1979), mentioned as having an uncertain phylogenetic position by Wijayawardene et al. (2020), were included in the ML analysis. Atrokylindriopsis setulosa en Uncispora in Clade 1 had bootstrap support of 72 %. Wanneer Neostrelitziana acaciigena was added to the tree, it clustered in Clade 6, almost all species of this clade were described as Trichomeriaceae, with bootstrap support remaining at 100%. Paracladophialophora formed a sister clade to a cluster of undescribed ant-domatia associated fungi. Lichenodiplis, for which only an LSU sequence was available, formed a sister clade to a group of endolichenic fungi (Muggia et al. 2020). Bacillicladium was monophyletic next to Trichomeriaceae with low bootstrap support. The tree including the genera above is shown in Fig. 3. The genera Melnikomyces en Muellerella seemed remote from Chaetothyriales and were excluded from further analysis.

In the literature, the following fungi are treated as members of Chaetothyriales, at least by some authors, but were found at relatively long branches in the ML tree: Epibryon hepaticola, Capronia villosa, Cladophialophora modesta, Cladophialophora hostae, Cladophialophora scillae, Paracladophialophora spp., Coccodinium bartschii, Arthrophiala arthreospora, Capronia nigerrima, Bacillicladium dematidis, Rhinocladiella mackenziei, en Strelitziana spp., of which Coccodinium has been surmised to be dothideaceous (Hyde et al. 2013). Species were individually rearranged as outgroups and the effect on statistical support of resulting ML trees was compared with the supposition as to whether these are members or non-members, the bootstrap values should change significantly. Supported and unsupported clades were calculated trees with highest ratios supported tegen unsupported clades at a low number of supported clades in the backbone were considered to be optimal. The ratio of the combined ML tree including all incertae sedis above is 1.30 (Table 2). The highest ratios (1.75) were obtained when Epibryon hepaticola, Capronia villosa, Cladophialophora modesta, Cladophialophora hostae en Cladophialophora scillae, Paracladophialophora spp., Bacillicladium dematidis, of Coccodinium bartschii were used as outgroup, the ratios increased slightly compared to the reference tree (1.30, with Capnodium as outgroup) these species were consequently regarded as incertae sedis. Four of the items tested as outgroups, i.e. Capronia nigerrima (0.72), Rhinocladiella mackenziei (0.72), Arthrophiala arthreospora (1.04), and Strelitziana spp. (1.04) had a negative impact on the tree and taken as belonging in Chaetothyriales. Bacillicladium dematidis, Cladophialophora modesta, en Capronia villosa, similar to dothidealean Coccodinium bartschii, appeared as single-species branches in the tree, could not be affiliated to any of the known families and are therefore regarded as incertae sedis. Whether or not these species are members of Chaetothyriales could not be established. The complete tree including these species was compared to the same tree without these species, which led to drop of the ratio to 0.63. The complete tree with Paracladophialophora as outgroup remained the optimal tree, with a high ratio (1.75) of supported/unsupported branches and with a relatively low number of clades. This suggest that the group (Clade 3) represents a separate family, as proposed by Crous et al. (2016).

The best-fit models of evolution obtained for the different datasets were ITS = TVM+I+G, LSU = GTR+I+G, combined sequences = TIM2+I+G. No topological conflicts between the datasets were detected. The ML tree was constructed with GTRGAMMA + I in the CIPRES webserver. Robustness of trees was tested by comparing different algoritms on the individual datasets of LSU and ITS, and the combined dataset, placing accent on the backbone by collapsing all supported clades. The best tree is judged to be the one with the most resolved backbone, i.e. an optimal ratio of supported/unsupported branches, combined with high support values for all clades, starting at the outermost position (lowest value) which was variably taken by Capronia villosa of Cladophialophora modesta (Fig. 4 Table 3). With these criteria, the Bayesian tree of the combined dataset appeared to be optimal. Nine well-supported clades were recognized, which represent five existing families and several uncharacterized groups.

Outgroup test for long branches base on ML tree. een Cladophialophora modesta as outgroup B Paracladophialophora sp. as outgroup C Rhinocladiella mackenziei as outgroup NS all species without incertae sedis e all species including incertae sedis

Clade 7 (Chaetothyriaceae) was relatively heterogeneous with low support, most likely caused by undersampling of sequence data as compared to the large diversity described on the natural substrate. One of the two Chaetothyrium species defining family and order, C. brischoficola, was found in this clade in several datasets (Fig. 3). The families Phaeosaccardinulaceae and Strelitzianaceae were found as part of the Chaetothyriaceae cluster their family status is doubtful. Clade 1 (Herpotrichiellaceae) were also found to be diverse and resolved into two groups in some of the trees. The remaining families Cyphellophoraceae (Clad 2), Epibryaceae (Clade 8), and Trichomeriaceae (Clade 6) had consistent support. Three further clades had consistently high support values, i.e. a group of ant-domatia associated species (Clade 4) and two clusters of endolichenic species (Clade 5 and Clade 9).

Familie Trichomeriaceae (Clade 6) comprised 50 strains, ten of which represented as yet undescribed species from an ant carton. Two species, Metulocladosporiella musicola en M. musae, were originally thought to belong to Herpotrichiellaceae (Crous et al. 2006), but in our tree clustered in Trichomeriaceae. The type strains of three species, Cladophialophora pucciniophila, Cladophialophora proteae en Cladophialophora eucalypti also clustered in this clade, although the type species of Cladophialophora, C. ajelloi (= C. carrionii) is a member of Herpotrichiellaceae. Exophiala placitae en Exophiala encephalarti should morphologically belong to Herpotrichiellaceae, but cluster in Trichomeriaceae.

Clade 4 comprised a total of 15 strains originating from ant domatia inside plant stems, known as domatia. Species typically produce sympodial conidia with flat conidial scars, and sometimes have additional catenate conidial states (Wang unpublished data). The clade has sufficient support and ecological homogeneity to be recognized as a separate family. Two species, reported as causing leaf spots on different plant hosts (Crous et al. 2007), described after their plant hosts as Cladophialophora scillae en C. hostae, had exclusively catenate micromorphology. They cluster in one clade with a long branch, and upon taking them as outgroups, the general support values of tree improved (ratio rise from 1.30 to 1.75) consequently, Cladophialophora scillae en C. hostae are listed here as incertae sedis.

Clade 2 with 100% (ML/BI) bootstrap support contains 25 species belonging to family Cyphellophoraceae. Twenty strains described Cyphellophora species are clustered in this clade together with four Phialophora soort (P. livistona, P. attae, P. capiguarae, en P. intermedia), together with a strain from the ant-made carton strain (CBS 128959). Cyphellophora en Phialophora traditionally differ by conidial shape, either lunate and septate, or subsphaerical, respectively, but the type species of Phialophora, P. verrucosa, is a member of the ‘carrionii-clade’ in Herpotrichiellaceae (de Hoog et al. 2011).

Clade 7 contains 21 species belonging to Chaetothyriaceae. The clade is well-supported in ML and BI trees (73/100). Inter-specific distances are relatively large due to incomplete taxon sampling. Members of this family have been reported since the 19th century after their ascomata on the natural substrate culture and sequence data are available of only a fraction of these. Appropriate description of the family Chaetothyriaceae is therefore as yet impossible.

Clade 8 contains members of Epibryaceae, with 100% ML and 100% BI bootstrap support. The phylogeny of this family also suffers from a severe taxon sampling effect, as of the 47 species listed in Index Fungorum, only seven are available in GenBank. Of these, Epibryon hepaticola clusters at some distance from remaining taxa, but given the poor representation of extant biodiversity this is probably insignificant. Wanneer E. hepaticola was treated as outgroup, the ratio rose from 1.30 to 1.75 consequently, the species is listed as incertae sedis. This clade also contained three species belonging to Cladophialophora, classified as such on the basis of catenate conidia. The original strain of Cladophialophora minutissima was isolated from bryophytes, while other Epibryon species had been described on the basis of their ascomata produced inside moss thalli obviously this Cladophialophora is a cultural state of an Epibryon soort. Cladophialophora humicola en C. sylvestris were derived from soil and decaying pine needles, respectively. The cladophialophora-type of conidiation is common throughout the entire order Chaetothyriales.

Herpotrichiellaceae (Clade 1) is best represented by sequence data, because a large part of the known species was described from isolates in culture, thus only representing the asexual state. Traditionally, species were described after their ascomata on the natural substrate, classified in the genus Capronia. Index Fungorum lists 89 described species, of which 85 belong to Herpotrichiellaceae and one to Trichomeriaceae. For a total of 119 strains in Herpotrichiellaceae, sequence data were available, including 11 carton fungi. It is unknown whether these are asexual isolates of known sexual species the connection between sexual and asexual morphs has been made only occasionally (Müller et al. 1987 Untereiner 1997). The core structure of Herpotrichiellaceae was poorly resolved. The group fell apart into several, poorly supported subclusters. On the basis of LSU-data, de Hoog et al. (2011) distinguished a number of approximate clades within the family, of which the ‘bantiana-clade’ and the ‘carrionii-clade’ could be recognized. In a third, large remainder of species, numerous novel taxa had been added since 2011 no clades or clusters could be distinguished.

Nomenclatuur

The order Chaetothyriales was validated by Barr (1987a, b) for epiphytic sooty molds mostly producing setose, clypeolate ascomata containing dark, multi-celled ascospores, with Chaetothyriaceae (Barr 1979) as type family. The invalidly described families Phaeosaccardinulaceae and Euceramiaceae (Batista and Ciferri 1962) were regarded as synonyms (Barr 1987a, b).

Chaetothyriaceae had provisionally been introduced by Hansford (1946) with Chaetothyrium, based on C. guaraniticum Speg., as the type species. The original dried material of the type species, described in 1888, insufficiently allows interpretation. The Index Fungorum lists 76 published names in Chaetothyrium, of which 67 are accepted as members of Chaetothyriaceae. However, GenBank contains only two sequenced species, viz. Chaetothyrium agathis (Liu et al. 2015) and C. bischofiicola (Chomnunti et al. 2012b), both isolated on a single occasion from leaves of tropical plants. It remains uncertain whether this is in accordance with the intention of Spegazzini (1888), but numerous authors maintained the ecological concept of ‘sooty moulds’, i.e. epiphytic colonizers of living plants: at least 64 of the 67 species mentioned above were described from plant leaves, generally without symptoms. In order to stabilize the nomenclatural reference of Chaetothyriales, we herewith propose Chaetothyrium agathis Hongsanan & K.D. Hyde (Liu et al. 2015) as a neotype van Chaetothyrium. Chaetothyrium agathis takes a central position in the clade of Chaetothyriaceae (Fig. 3) and is the reference point of the order Chaetothyriales. Wijayawardene et al. (2020) listed the genus Aithaloderma in the Chaetothyriaceae. Hansford (1946) reexamined the type of A. clavatisporum which displayed a Triposporium asexual state, and reclassified it in Chaetothyrium.

Chaetothyriaceae further comprises the genus Ceramothyrium. This genus is listed with 41 names in Index Fungorum, of which 39 are surmised to belong to Chaetothyriaceae. The type species is Ceramothyrium paivieae (Batista 1956), originally reported from leaves of Paivea langsdortii (= Copaifera langsdorfii Leguminosae) in Brazil. No molecular data are available for this species. Judging from older literature, this genus is also reserved for species colonizing plant leaves, with 37 of 39 species demonstrating this ecology, including the nine species of which LSU sequences are available in GenBank. Of these, Ceramothyrium thailandicum colonizes living leaves of Lagerstroemia (Lythraceae) in Thailand. Awaiting selection of neotype material which is closer to the original type location of Batista (Batista 1956), we regard Ceramothyrium thailandicum as the reference species for Ceramothyrium in the present paper.

Phaeosaccardinula, introduced by Hennings (1905) with type species P. diospyricola on leaves of Diospyros (Ebenaceae) in Amazonian Brazil, contains 47 species in Index Fungorum, of which 41 were regarded as members of Chaetothyriaceae. The genus currently has six synonymous generic names (Table 3), all containing a very small number of species that were mostly discarded for nomenclatural reasons. In accordance with the type species P. diospyricola, nearly all authors in older literature classified plant-colonizing species in the genus. Of three species, LSU sequences are available in GenBank, í.e. P. dendrocalami en P. multiseptata (Yang et al. 2014), and P. ficus (Chomnunti et al. 2012b), all from living plant leaves, in (sub)tropical China and Thailand, respectively. In absence of sequence data of the remaining 39 species of Phaeosaccardinula, we regard these species as representative for the genus, with P. ficus als reference.

Two species are known in Vonarxia of which V. anacardii is the type species (Batista 1960). The species is in poor condition (van der Aa and von Arx 1986) and is currently judged to be of uncertain affinity (Index Fungorum), while V. vagans has been sequenced and described by several authors (Réblová et al. 2013 Crous et al. 2009). That taxon, based on Ypsilonia vagans Speg. on leaves of Spiraea cantonensis (Rosaceae) in Brazil, has setose sporodochia with splayed stauroconidia. Crous et al. (2009) epitypified the species with CBS 123533 as the type culture. Given the unclear status of the type species V. anacardii, we might regard V. vagans as a reference species for the genus Vonarxia, but it should be noted that it is also the type species of Kazulia (Raj 1977). The morphologically similar genus Fumagopsis was described by Spegazzini (1910) with F. triglifioides, on living leaves of Lucuma neriifolia (Sapotaceae) in Argentina, as the type species. Using the dried herbarium specimen of the holotype, van der Aa and van Oorschot (1985) redescribed this specimen. It is characterized by setose sporodochia bearing stauroconidia, similar to those of Vonarxia vagans but differing by the conidia being pronouncedly multicellular. Fumagopsis triglifioides has as yet not been sequenced. Three species records of Fumagopsis are listed in Index Fungorum, but only one, F. stellae, CBS 145078 from leaves of Eucalyptus (Myrtaceae) in Australia, has been deposited in NCBI. This species had similar morphology, with setose sporodochia and multicellular stauroconidia on the natural substrate, and sequences placed it in Chaetothyriales (Crous et al. 2018). Numerous other sporodochial, morphologically reminiscent genera have been described, such as Zelopelta (Sutton and Gaur 1984), Phalangispora (Nawawi and Webster 1982), which are in need of modern sequence data.

Four small genera were recently described for which sequence data are available, i.e. Aphanophora, Arthrophiala, en Camptophora. All type species of these genera (Table 3) cluster in the supported clade of Chaetothyriaceae (Fig. 3), all at relatively long branches, underlining their position as separate genera. Nullicamyces clusters amidst species of Ceramothyrium in a cluster that is however not supported (Fig. 3). Stanhughesia was described as Ceramothyrium asexual states (Constantinescu et al. 1989). Species of Microcallis have been reclassified in Chaetothyrina which is a genus of Micropeltidaceae.

Cyphellophoraceae was introduced by Réblová and Untereiner (Réblová et al. 2013) with Cyphellophora (de Vries 1962) as the type genus and C. laciniata as the type species. CBS 190.61 is available as the type strain, and the taxon has several genes in GenBank. Currently, 28 species have been described in the genus, two of which were transferred as independent genera of Chaetothyriaceae (C. eugeniae as type of Anaphora, en C. hymeloconis as type of Camptophora) and one, C. suttonii, has been excluded. Another genus of this family is Anthopsis, based on A. deltoidea as type species with CBS 263.77 as type strain (Moussa et al. 2017a, b).

Trichomeriaceae was introduced by Chomnunti et al. (2012b) with Trichomerium as type genus. This genus is based on the sooty mold Limacinia coffeicola Puttemans [non Phaeosaccardinula coffeicola (Maharachchikumbura et al. 2018)] as the type species (Puttemans 1904). Reynolds (1983) judged this species as being close to or identical to T. grandisporum, which he considered as the only recognized species in Trichomerium with a large number of synonymous names. No living ex-type material was available to recent authors (Chomnunti et al. 2012a), who consequently took T. foliicola, with sequence data, as reference for genus and family. From their extensive illustrations of the sexual state of this fungus, it appears that the ascigerous fruit bodies of Trichomerium are morphologically very similar to those of Capronia, the rather monomorphic sexual state observed in numerous species of Herpotrichiellaceae. Conidia were not observed, but several members of Trichomeriaceae [e.g. Trichomerium gloeosporum (Hongsanan et al. 2016a) and T. changmaiensis (Maharachchikumbura et al. 2018)] produce elaborate stauroconidia.

The family Epibryaceae was introduced by (Gueidan et al. (2014) with Epibryon (Döbbeler 1978, 1980) as type genus which has Epibryon plagiochilae as the type species. This species was described with molecular data by Stenroos et al. (2010a, b) in a detailed overview of the genus, and is accepted here as reference for this group of phylogenetically consistent moss endophytes.

The best-known family in the order Chaetothyriales is Herpotrichiellaceae, introduced by Munk (1953) with Herpotrichiella (Petrak 1914) as the type genus. Herpotrichiella moravica was selected as the type species, which is considered to be a synonym of Capronia pilosella (Untereiner 1997). Consequently, the currently accepted name for Herpotrichiella is that of its older synonym Capronia, introduced by Saccardo (1883) with Capronia sexdecimspora (Cooke) Sacc. as type species, characterized by setosa ascomata with asci containing 16 hyaline, 3-4-septate ascospores. As no interpretable type material of this species is available, the identity of this species remains uncertain. As yet, none of the species with 16-spored asci has been sequenced, and thus replacement of C. sexdecimspora by an extant neotype is difficult and the exact position of the reference for Capronia in the Herpotrichiellaceae remains uncertain. We propose to stabilize the nomenclature of Herpotrichiellaceae by selecting Capronia pilosella AFTOL 657 as reference for the family.

A large number of Capronia species has been subsequently described (e.g. Barr 1987a, b Friebes 2012), of which Index Fungorum considers 81 to be of chaetothyrialean affinity. The family Herpotrichiellaceae comprises 30 generic names (Table 3), which are principally available for a future taxonomic rearrangement with phylogenetic affinity as leading principle and which therefore are in need of redefinition with reference material. The oldest name of these is Berlesiella, based on Sphaeria nigerrima Bloxam 1859, which in spite of absence of usable type material is now considered to be Capronia nigerrima (Barr 1991). Sequenced material of this species is available from Untereiner and Naveau (1999) who used strain CBS 513.69 described by Müller et al. (1987). Caproniella was introduced (Berlese 1896) with Melanomma pleiosporum as a single species, now known as Capronia pleisporum (MycoBank), but no recent material is known to be available. Berlese (1899) used Caproniella met Sphaeria sexdecimspora as the type. This generic name is superfluous as S. sexdecimspora was the type of Capronia, en Caproniella Berlese 1899 is a later homonym of Caproniella Berlese 1896. For these reasons we consider Caproniella als een nomen confusum. Moussa et al. (2017a, b) noted that Foxia en Melanchlenus were invalid due to absence of descriptions in the protologues. Most of the remaining genera are represented by extant type strains with molecular data (Table 3).

Ecology and evolution

Members of Chaetothyriales have a rich ecological diversity, with a general tendency to extremotolerance (Gostincar et al. 2019) and toxin management (Teixeira et al. 2017). The difficulty to isolate the fungi from the environment (Sudhadham et al. 2008, Vicente et al. 2008) interferes with understanding of the preferred ecological niche. Available data may provide distorted information since unspecific habitats may have been sampled thus far. Bijvoorbeeld, Cyphellophora europaea is commonly encountered colonizing human nails. It has been found in bathrooms where this fungus is likely to have been acquired by the patients. A natural habitat has not been found, but colonization of moist surfaces suggests oligotrophy. For only a small number of species of Cyphellophoraceae, environmental data are available. Numerous species have been described from a single strain on a single host plant, without indication of a specific plant-pathogenic lifestyle. We have assumed oligotrophy for these species as well, listing them as colonizers of the phyllosphere with an epiphytic lifestyle.

Ecologies of 254 strains and their relatives in Chaetothyriales were investigated (Table 1). Many species of Chaetothyriales have been described from single collections and hence epidemiological investigations are problematic. Habitat data were abstracted from the sampling sites of strains described in the original publications, supplemented with a summary of ecological trends per species abstracted from the literature. Seven categories were summarized as follows, ‘epilithic/lichenolytic’ (on bare or parasitizing on lichens), ‘epiphytic’ (colonizing plant leaves without symptoms), ‘opportunistic’ (deep, single- or multi-organ infection in humans, also infection in cold-blooded vertebrates), ‘carton’ (carton of chewed wood in ant nests), ‘domatium’ (ant nest inside living plant stem), ‘bryophytic’ (endophytic in mosses), and ‘other’ (aquatic, fungicolous, in soil). Members of the family Herpotrichiellaceae showed highly diverse ecological sources. In a total of 119 strains, five ecologies were distinguished. In the main categories, 38 strains derived from opportunistic infections, 30 from other, 36 were epiphytic, 4 were epilithic/lichenolytic, while 11 as yet undescribed strains had been isolated from carton material in ant nests.

Available information on members of Cyphellophoraceae was scant, not allowing definitive conclusions. Several species were isolated from living plants, but it remained unclear whether this was an infectious process, or epiphytic growth without notable invasion. Data are abstracted from a summary given by Feng et al. (2014). Cyphellophora europaea is the only common species of the family. It is a commensal or mild infectious agent on human skin and nails, and was repeatedly isolated in bathrooms where the fungus was suggested to be picked up (Lian and de Hoog 2010) for this reason, we prefer ‘opportunistic’ as its ecology. In total, four ecology types are observed in this family. Given the frequent plant origin without clear description of disease, we listed the main ecology as ‘epiphytic’ (44%).

Members of Trichomeriaceae are surface colonizers: 42 % of the species were isolated from rock. Knufia epidermidis was originally described as repeatedly being involved in mild nail infections (Li et al. 2008), but Zakharova et al. (2013) found the same fungus occurring as a rock colonizer with an ecology similar to remaining Knufia soort. 38 % of members of Trichomeriaceae reportedly were derived as ‘sooty molds’ from plants which often had somewhat leathery leaves. Since these were single sampling events and no reports about plant disease have been published, we listed all species as being epiphytic. The species of Bradymyces had single isolation events (rock and fish) for which no common denominator could be found.

Members of Chaetothyriaceae have nearly always been reported from living plants. Detection was generally by ascomata on the natural substrate, which eventually were immersed on a stroma fixed to the undamaged host tissue. We listed those members as ‘epiphytic’ only 10% of the species were described from other habitats.

Clade 4 contains a major subclade of 15 strains that were derived exclusively from domatia of tropical ants. The second subclade contained two species with cladophialophora-like morphology which caused leaf spots on their host plants they are known from single sampling events. Two more undescribed clades (Clades 5 and 9) were noted which all were derived from rock environments (Muggia et al. 2020).

Epibryon species are fungi forming small ascomata inside moss tissue. Index Fungorum lists 48 species, most of which have been described after material on the host and could not be included in this study for lack of sequence information. Three cladophialophora-like species clustered in the Epibryaceae, of which C. minutissima was derived from mosses without observation of the ascigerous state. The ecologies of the five cultured Epibryon species are consistently bryophilous.

Of the distinguished ecological categories, epilithic and epiphytic are commonly encountered in several families (Herpotrichiellaceae, Trichomeriaceae, Cyphellophoraceae, Chaetothyriaceae, and Clades 5 and 9). Also carton-material of ant nests and tunnels is widely distributed (Herpotrichiellaceae, Trichomeriaceae and Cyphellophoraceae). Human infection is nearly exclusively found in Herpotrichiellaceae, occasionally in Trichomeriaceae, and restricted to mild, superficial infections in Cyphellophoraceae. Infections in cold-blooded vertebrates are restricted to Herpotrichiellaceae. Dominant ecology in Clades 9 and 5 is ‘epilithic’ in Epibryaceae this is ‘bryophytic’, in Clade 4 ‘ant-domatium associated’, in Chaetothyriaceae ‘epiphytic’, and in Trichomeriaceae it is ‘epiphytic’. The overview contains 39 ant-associated strains, isolated either from carton material of nests and tunnels, or from domatia inside living plants. The latter type (15 entries) is restricted to Clade 4, while carton-associated species (24 entries) have a wide distribution in Herpotrichiellaceae, Trichomeriaceae and Cyphellophoraceae and are not found in Clade 4, confirming data of Voglmayr et al. (2011) and Nepel et al. (2014).

The evolutionary time estimation (Fig. 1) reveals that the Chaetothyriales crown order emerged in the late Devonian Period. Between the end of the Cretaceous, i.e. 151.69 Mya, the family was split, separating Clade 8, Epibryion hepaticola M10, Clade 9 and Capronia villosa from the remaining species. Fundamental speciation events occurred through the Cretaceous and Paleocene periods. The formation of the family Chaetothyriaceae (Clade 7) appears ancestral, starting about 122 Mya. The diversification of the family Herpotrichiellaceae was later, around 111 Mya (Fig. 1).

Ancestral character state reconstruction

In a first step, ecological traits were plotted model-free on to the phylogeny via the function ‘phenogram’ over time, in order to determine approximate number of ancestral trait changes (Fig. 5). Seven major directions of trait evolution are obvious (1–7 in Fig. 5). Although the phenogram does not indicate the exact ancestral state to the Chaetothyriales, particularly the traits ‘epiphytic’ and ‘epilithic-lichenicolous’ (branching point 1) suggests ancestry as a ‘epilithic-lichenicolous-epiphytic’ type. This assumption is strongly supported by absence of early overlapping trait changes. Branching point 1 gave rise to at least 3 major traits (branching points 2–4), which subsequently led to a strong lineage diversification and occupation of vacant ecological space leading to extant traits. During this process, most traits underwent multiple trait shifts visualized by overlapping branches, which is apparent for the epiphytic (branching points 2, 3 and 6) and the opportunistic characters (branching points 6, 7). Particularly the opportunistic trait appears to have sourced its extant trait from a strong random walk of ancestral intermediate traits (strong branch/line overlap). Traits ‘carton’, ‘domatia’ and ‘bryophytic’ have a non-random distribution. ‘Carton’ has diversified from early ancestral branching point (5), with almost no overlap to other traits.

Quantitative trait simulation among the phylogeny inferred via the R package ‘PHYTOOLS’. The plot depicts phenotypic distribution over the phylogeny and its associated changes over time. While it is similar the Brownian motion phenogram, the quantitative trait simulation does not depict the stochastically mapped character on to the phylogeny, and with that the phenotypic changes estimated for each branch, neither the relative evolutionary rate ratio (σ parameter) for each phenotype. Instead, it visualizes trait changes, uniformity and discreteness of such changes over time in a more comprehensive way. Branching points indicate approximated major directions of phenotypic changes at the root node to the entire order Chaetothyriales. X-axis depicts relative time for the phenotype (ecology) to evolve given the underlying phylogeny. Y-axis depicts relative phenotypic categories


Bekijk de video: Op zoek door het woordenboek! (Januari- 2022).