Informatie

Wat zorgt voor variatie in een soort?


Wat is het biologische mechanisme achter de variatie binnen seksueel voortplantende soorten? Het is duidelijk dat de kinderen in verschillende mate combinaties zijn van hun ouders. Maar hoe ontstaat de variatie om te beginnen bij de ouders?

Ik heb het niet over evolutie of mutaties, maar ik denk aan dingen als gezichtsstructuur en persoonlijkheid bij mensen, of vachtkleuring bij honden. Ik dacht dat ik me vaag herinnerde dat er een soort aanjager van variatie was... Produceert de ouder bijvoorbeeld een verscheidenheid aan kiemcellen die met opzet verschillen van het genoom van de ouder?

Ik denk gewoon dat ik hier iets mis.

(Ik ben bekend met DNA en genetica, ik heb biologieles gevolgd op de universiteit en herinner me er veel van, ik kan er gewoon niet mijn vinger op leggen...)


Na mutaties, wat waarschijnlijk de bron is van de meeste variatie. Het klassieke biologische model van variatie komt voort uit toevalligheden van geschiedenis en omgeving.

Veel mutaties verdwijnen na verloop van tijd omdat ze niet nuttig (voordelig) zijn. De redenen waarom variaties meer dan een paar generaties aanhouden, is dat onze verschillen ons hebben geholpen om een ​​succesvol leven te leiden en (in biologische termen van succes) nakomelingen te krijgen. In Europa is het lactaatdehydrogenasegen en andere soortgelijke genen die mensen helpen melk te verteren, actief tijdens het volwassen leven als gevolg van de domesticatie van melkproducerende dieren. In Azië is deze eigenschap zeldzamer of niet aanwezig omdat de landbouw daar geen melk produceert (in de meeste gevallen).

Dit is een groot verschil, maar het geldt in kleinere opzichten voor al onze individuele eigenschappen, zo luidt de theorie. Individuele familiekenmerken zijn nuttig om sterkere familiebanden te creëren, dus zelfs iets als onderscheidende kuiltjes of voorhoofden claimen een voordelige eigenschap te zijn. Het is mogelijk dat blond haar het product is van zo'n voordeel - het is een sterk signaal voor het vaderschap als de vader bijvoorbeeld blond is.

Een ander antwoord op je vraag, denk ik, is dat er waarschijnlijk mechanismen in de cel of in partnerselectie zijn die de variatie in de gemeenschap op bepaalde momenten van stress vergroten of verkleinen. Slangen behoren bijvoorbeeld tot de dieren die een bepaald vermogen hebben om geslacht te selecteren, afhankelijk van de omstandigheden die het vrouwtje ervaart. meer mannen kunnen de variatie in de gemeenschap vergroten - minder mannen en meer vrouwen zullen het verminderen. (niet door veel let wel, maar een beetje).

Aanvullende reactie toegevoegd zoals gevraagd:

Ik begrijp waar je op doelt - waarom lijken kinderen soms zulke individuele en unieke dingen?

Bij seksuele reproductie zijn de nakomelingen het product van het verschuiven van de genomen van de ouder door meiose, waarbij de paren chromosomen die we hebben worden gecombineerd om een ​​enkel chromosoom te maken dat de helft van het genoom van het kind zal zijn.

Dit proces kan resulteren in volledig nieuwe combinaties van genen, terwijl het veel gelijkenissen van de ouder overdraagt. Ik vermoed dat dit de belangrijkste oorzaak is van het unieke karakter van nakomelingen/kinderen.

Ook bij zoogdieren zijn er enkele cellijnen die families van genen splitsen, waardoor het nageslacht mogelijk behoorlijk verschilt van beide ouders. Immuungenen worden bijvoorbeeld helemaal opnieuw gemaakt op basis van een aantal genen die de ouders geven. Elk nageslacht uniek maken, maar ook het product van het genetische repertoire van de ouder. Dit kan belangrijk zijn omdat het de gezondheid beïnvloedt en tot op zekere hoogte ook de aantrekkingskracht - studies hebben aangetoond dat mensen die aantrekkelijk voor ons ruiken, immunologisch van ons verschillen.

@David noemt epigenetische variatie, wat een meer recente significante ontwikkeling is. Tijdens ons leven kan het DNA van de kiemlijn (sperma/ei) chemisch worden gelabeld, afhankelijk van de omgevingsomstandigheden die we ervaren. Een bekend voorbeeld is het ervaren van hongersnood, waardoor de kinderen onder andere aan de kleine kant werden geboren. Meer recente studies hebben aangetoond dat dit een wijdverbreid mechanisme is om cellen in ons lichaam tijdens ons leven te controleren en om aan onze nakomelingen te communiceren hoe het leven is. De verwachting is dat deze etikettering ons niet voor altijd zal beïnvloeden - de epigenetische etiketten veranderen vrij vaak in de loop van een generatie (wij geloven).


Welke 3 gebeurtenissen in meiose dragen bij aan genetische variatie?

De vraag is ook: welke gebeurtenissen in meiose dragen bij aan genetische variatie?

Oversteken tijdens profase van meiosis I, de dubbel-chromatide homologe paren chromosomen kruisen met elkaar en wisselen vaak chromosoomsegmenten uit. Deze recombinatie creëert genetische diversiteit door toe te staan genen van elke ouder om te vermengen, wat resulteert in chromosomen met een verschillende genetisch aanvulling.

Bovendien, wat zijn de 3 soorten genetische variatie? Er zijn drie bronnen van genetische variatie: mutatie, genenstroomen seksuele voortplanting. EEN mutatie is gewoon een verandering in het DNA. Mutaties zelf zijn niet erg gebruikelijk en zijn meestal schadelijk voor een populatie. Hierdoor worden mutaties meestal geselecteerd via evolutionaire processen.

Evenzo vragen mensen: wat zijn drie manieren waarop meiose tot genetische variatie leidt?

We blijven achter met vier haploïde cellen die elk genetisch verschillend zijn van elkaar en de oudercel. 8. Beschrijf de drie manieren meiose produceert genetische variabiliteit. Dat hebben we gezien meiose creëert variatie op drie manieren: kruising, mutaties veroorzaakt bij kruising, en onafhankelijk assortiment.


Brent Cornell

Er zijn drie hoofdmechanismen waardoor genetische variatie tussen individuen in een soort kan optreden:

  • Mutaties – Verandering van de genetische samenstelling van gameten (kiembaanmutatie) leidt tot veranderde eigenschappen bij nakomelingen
  • Meiosis – Via kruising (profase I) of onafhankelijk assortiment (metafase I)
  • Seksuele reproductie – De combinatie van genetisch materiaal uit twee verschillende bronnen zorgt voor nieuwe genencombinaties bij nakomelingen

EEN genmutatie is een verandering in de nucleotidesequentie van een stuk DNA dat codeert voor een specifieke eigenschap

Genmutaties kunnen gunstig, nadelig of neutraal zijn

  • Gunstige mutaties veranderen de gensequentie (missense mutaties) om nieuwe variaties van een eigenschap te creëren
  • Nadelige mutaties kappen de gensequentie af (onzin mutaties) om de normale functie van een eigenschap af te schaffen
  • Neutrale mutaties hebben geen effect op het functioneren van het specifieke kenmerk (stille mutaties)

Variatie via mutatie

Meiose bevordert variatie door nieuwe gencombinaties te creëren via kruising of onafhankelijk assortiment

1. Oversteken

Crossing omvat de uitwisseling van DNA-segmenten tussen homologe chromosomen tijdens profase I

  • De uitwisseling van genetisch materiaal vindt plaats tussen: niet-zusterchromatiden op punten genaamd chiasmata

Als gevolg van deze recombinatie zullen alle vier de chromatiden waaruit de bivalent bestaat genetisch verschillend zijn

  • Chromatiden die bestaan ​​uit een combinatie van DNA afgeleid van beide homologe chromosomen worden genoemd recombinanten
  • Nakomelingen met recombinante chromosomen zullen unieke gencombinaties hebben die in geen van beide ouders aanwezig zijn

2. Onafhankelijk assortiment

Wanneer homologe chromosomen in metafase I op één lijn liggen, is hun oriëntatie naar de tegenovergestelde polen: willekeurig

De oriëntatie van elke bivalent vindt plaats onafhankelijk, wat betekent dat verschillende combinaties van maternale / vaderlijke chromosomen kunnen worden geërfd wanneer bivalenten scheiden in anafase I

  • Het totale aantal combinaties dat in gameten kan voorkomen is 2 n – waarbij N = haploïde aantal chromosomen
  • Mensen hebben 46 chromosomen (n = 23) en kunnen dus 8.388.608 verschillende gameten (2 23) produceren door willekeurige oriëntatie
  • Als oversteken ook plaatsvindt, wordt het aantal verschillende gametencombinaties onmetelijk


Seksuele reproductie

De fusie van twee haploïde gameten resulteert in de vorming van een diploïde zygote

Omdat meiose resulteert in genetisch verschillende gameten, zal willekeurige bevruchting door ei en sperma altijd verschillende zygoten genereren


De fasen van meiose bij mensen

Replicatie van DNA ter voorbereiding op meiose. Na replicatie wordt elk chromosoom een ​​structuur die bestaat uit 2 identieke chromatiden.

De chromosomen condenseren tot zichtbare X-vormige structuren die gemakkelijk onder een microscoop kunnen worden gezien, en homologe chromosomen paren. Recombinatie vindt plaats als homologe chromosomen DNA uitwisselen. Aan het einde van deze fase lost het kernmembraan op.

Gepaarde chromosomen liggen in het midden van de cel.

De paren chromosomen scheiden en bewegen naar tegenovergestelde polen. Elk van elk paar kan naar beide polen gaan.

Hervorming van kernmembranen. Cel deelt zich en er worden 2 dochtercellen gevormd, elk met 23 chromosomen.

Er zijn nu 2 cellen. DNA repliceert niet opnieuw.

Individuele chromosomen liggen in het midden van de cel.

De chromosoomkopieën (chromatiden) scheiden zich en verplaatsen zich naar tegenovergestelde polen.

Hervorming van kernmembranen. Er zijn 4 nieuwe haploïde dochtercellen. Bij mannen worden 4 zaadcellen geproduceerd. Bij vrouwtjes worden 1 eicel en 3 poollichamen geproduceerd. Polaire lichamen functioneren niet als geslachtscellen.


Analyses

Univariate analyses en fylogenetisch signaal

Omdat nauw verwante soorten waarschijnlijk vergelijkbare eigenschappen hebben x, waarden van ε zullen worden gecorreleerd tussen soorten. We nemen dus aan dat de covariantiematrix voor ε wordt gegeven door E <εε'>= σ 2 C, waarbij σ 2 de algemene fylogenetisch overgeërfde variantie schaalt (soms aangeduid als de evolutiesnelheid Garland et al., 1999 Garland en Ives, 2000), en C geeft de correlatiestructuur gecreëerd door fylogenetische verwantschap. De meest voorkomende veronderstelling in fylogenetische analyses is dat evolutie door de tijd verloopt als een "Brownse beweging" - de waarde van een eigenschap verandert in kleine stappen in willekeurige richtingen, zoals een willekeurige wandeling in continue tijd (Felsenstein, 1985). Onder deze veronderstelling, ε heeft een multivariate normale verdeling waarin het element Cij van C is evenredig met de lengte van de gedeelde takken, van wortel tot de laatste gemeenschappelijke voorouder, tussen soorten l en J (Felsenstein, 1985 Hansen en Martins, 1996 Martins en Hansen, 1997 Garland en Ives, 2000). Andere modellen van evolutionaire verandering zijn mogelijk, zoals het opnemen van een niet-fylogenetische component van evolutionaire verandering (Lynch, 1991 Freckleton et al., 2002 Housworth et al., 2004) of aannemen dat evolutie een Ornstein-Uhlenbeck-proces volgt (Hansen en Martins, 1996 Blomberg et al., 2003) elk van deze zal leiden tot een andere vertaling van vertakkingslengtes in de covariantiematrix C, maar het model gegeven door vergelijking 1 kan worden toegepast ongeacht hoe C is geselecteerd.

De meetfout term: η heeft op dezelfde manier een covariantiematrix σm 2 m. Als meetfouten niet gecorreleerd zijn tussen soorten, m is een diagonale matrix, en de variantie als gevolg van meetfout van kenmerk x voor soorten l ism 2 mii, waar mii is de lhet diagonale element van m. Het is mogelijk dat meetfouten gecorreleerd zijn tussen soorten, zoals het geval zou kunnen zijn als eigenschapwaarden voor een bepaalde clade allemaal werden gemeten door een enkele onderzoeker met dezelfde techniek die verschilde van de technieken die voor andere clades werden gebruikt. In dit geval kan correlatie tussen meetfouten worden opgenomen in niet-diagonale elementen van m. Hoewel we gecorreleerde meetfouten niet in detail beschouwen, zijn niet-nul-off-diagonale elementen van m kan worden gebruikt in alle methoden die we afleiden. Tot slot, hoewel we doorgaans aannemen dat: ε en η multivariate normale verdelingen hebben, voor sommige van de hieronder beschreven statistische procedures, ε en η hoeft niet beperkt te zijn tot normaal verdeeld zijn.

Het schattingsprobleem dat door vergelijking 5 wordt gepresenteerd, wordt in de statistische literatuur een "meetfout bekend" probleem genoemd (Fuller, 1987), omdat we aannemen dat σm 2 is onafhankelijk geschat (zoals gerapporteerd door de standaardfouten van gemiddelde waarden voor soorten). Voor niet-fylogenetische analyses zijn corrigerende stappen voor bekende meetfouten vrij eenvoudig (Fuller, 1987). Helaas kunnen deze corrigerende stappen niet worden toegepast wanneer er een fylogenetische correlatie is (zoals onjuist is gedaan door Irschick et al., 1996), en zijn de onderstaande methoden nodig. Andere meetfoutproblemen kunnen echter vrij eenvoudig worden opgelost als er een fylogenetische correlatie is (Cl). In het bijzonder, als in plaats van het kennen van de meetfoutvariantie σm 2 we kennen de verhouding tussen meetfoutvariantie en echte variantie σm 2 /σ 2 , is het mogelijk om het fylogenetische gemiddelde te berekenen door te vervangen C in vergelijking 3 met Ψ = C + (σm 2 /σ 2 ) m en behandel het probleem op de gebruikelijke manier van GLS of onafhankelijke contrasten. Omdat dit eenvoudige geval elders is behandeld ( Pagel en Harvey, 1988a, 1988b Harvey en Pagel, 1991), gaan we er niet verder op in.

Schatting

In vergelijking 5 zijn twee parameters onbekend: de gemiddelde waarde een van eigenschap x voor alle soorten (of, equivalent, de hypothetische voorouderlijke waarde aan de basis van de boom) en de fylogenetische variantie σ 2 (of, equivalent, de snelheid van evolutie). Deze parameters kunnen worden geschat met behulp van een herhaalde versie van geschatte gegeneraliseerde kleinste kwadraten (EGLS), maximale waarschijnlijkheid (ML) en beperkte maximale waarschijnlijkheid (REML). Om ML- en REML-schattingen te verkrijgen, is het noodzakelijk om de vorm van de verdeling van fouttermen te specificeren ε en η een natuurlijke veronderstelling, en degene die we hier gebruiken, is dat: ε en η zijn normaal verdeeld. Omdat de covariantiematrix Ψ de parameter σ 2 bevat die geschat moet worden, zijn de berekende betrouwbaarheidsintervallen voor alle drie de methoden benaderingen. Merk op dat de moeilijkheden bij het schatten wanneer er een meetfout is, verdwijnen wanneer er geen meetfout is, in welk geval GLS- en ML-schattingen hetzelfde zijn, en mits ε normaal verdeeld is, zijn de schattingen van t-verdeeld.

Bijlage 1 geeft een volledig overzicht van deze methoden zoals toegepast in dit artikel. Univariate EGLS-schatting kan ook worden geïmplementeerd met behulp van onafhankelijke contrasten, zoals gedaan in het MS DOS-programma PD_SE.EXE (beschikbaar bij TG) en gebruikt door Bonine et al. (2005).

Voorbeeld

Als voorbeeld analyseerden we gegevens van Martins en Lamont (1998) over de weergaveduur van negen soorten hagedissen. We hebben voor dit voorbeeld gekozen omdat het een echte vergelijkende dataset is, klein genoeg is om onze resultaten grafisch weer te geven, en standaardfouten heeft die groot genoeg zijn voor sommige soorten, zodat de effecten van het opnemen van meetfouten duidelijk zichtbaar zijn. Voor elke soort geven Martins en Lamont (1998) de standaardfout van de maat van de eigenschap, die we gebruiken om de matrix te berekenen σm 2 m in de veronderstelling dat metingen onafhankelijk zijn tussen soorten. Ter vergelijking hebben we parameterschattingen berekend in de veronderstelling dat (i) geen fylogenetische correlatie tussen soorten (C = l gelijk aan het aannemen van een "sterfylogenie") en geen meetfout (m = 0), waarvoor de schatting van een is gewoon het steekproefgemiddelde (ii) geen fylogenetische correlatie maar meetfout, waarbij de meetfoutvariantie verschilt tussen punten (soorten) (iii) fylogenetische correlatie (gebruikt als de "echte" boom, Fig. 1a) en geen meetfout, die geeft het standaard fylogenetische geval geanalyseerd door onafhankelijke contrasten of GLS en (iv) fylogenetische correlatie en meetfout. Voor elke reeks aannames hebben we 95%-betrouwbaarheidsintervallen van de schattingen berekend met behulp van drie benaderingen. Ten eerste gebruikten we voor EGLS de standaard GLS-formules, waarbij we negeerden dat we een parameter in de covariantiematrix Ψ schatten en de onzekerheid die met deze schatting gepaard gaat (Neter et al., 1989). Ten tweede hebben we voor ML geschatte betrouwbaarheidsintervallen afgeleid van de log-waarschijnlijkheidsfunctie ( Judge et al., 1985). Dit is een standaardprocedure die wordt gebruikt bij ML-schatting. Ten derde hebben we voor alle drie de schattingsmethoden parametrische bootstrapping gebruikt in de veronderstelling dat zowel meet- als echte fouten normaal verdeeld zijn. Parametrische bootstrapping (Efron en Tibshirani, 1993) is een simulatieprocedure waarbij parameters eerst worden geschat (op welke methode dan ook), het statistische model met zijn geschatte parameters wordt gebruikt om datasets te simuleren en de parameters worden geschat op basis van de gesimuleerde gegevens. Na dit vele malen (bijvoorbeeld 2000) te hebben herhaald, benadert de resulterende reeks schattingen de verdeling van de schatter (zie bijlage 1 voor details). De term "parametrische bootstrapping" is mogelijk verwarrend, omdat in tegenstelling tot standaard (niet-parametrische) bootstrapping, de residuen die zijn verkregen uit de werkelijke gegevens niet opnieuw worden gesampled om nieuwe gegevenssets te maken, maar in plaats daarvan worden gesimuleerd. Parametrische bootstrapping is in ons geval noodzakelijk, omdat we niet de werkelijke metingen weten voor elk monster dat wordt gebruikt om soortwaarden te geven, daarom moet de meetfout worden gesimuleerd met een generator van willekeurige getallen. Hoewel het misschien minder verwarrend is om parametrische bootstrapping eenvoudiger te noemen als "simulatie" om betrouwbaarheidsintervallen te verkrijgen, introduceert dit verwarring wanneer we simulaties uitvoeren om de statistische eigenschappen van de schattingsmethoden te onderzoeken. Een bijzonder voordeel van parametrische bootstrapping is dat het niet alleen betrouwbaarheidsintervallen geeft, maar ook vertekening identificeert als, bijvoorbeeld, het gemiddelde van de bootstrap-schattingen lager is dan de werkelijke schatting, dan identificeert dit dat de schatter naar beneden is vertekend.

Voor het univariate geval met behulp van gegevens van Martins en Lamont (1998), kunnen de effecten van meetfouten worden gevisualiseerd door een boom te construeren die overeenkomt met de covariantiestructuur van de gegevens die zowel fylogenetische covariantie als meetfoutvariantie combineert (zie tekst). De meetfoutvariantie verlengt de eindtaksegmenten van de boom, waarbij de lengte van de puntverlenging de meetfoutvariantie geeft ten opzichte van de variantie van het evolutionaire proces.(a) De fylogenetische boom waaruit de covariantiematrix σ 2 C berekend. (b) De fylogenetische boom met de variantie geassocieerd met meetfout voor totale weergaveduur in grafiekvorm op de toppen van de boom, waardoor een grafische weergave van de covariantiematrix wordt gegeven σ 2 C + σm 2 m. Ter vergelijking: (c) lijkt op (b) maar met een meetfout voor een ander kenmerk, de duur van de headbob. Door de verwachte variaties binnen soorten te vergroten zonder de covarianties tussen soorten te veranderen, verlaagt de meetfout de correlaties tussen soorten in de waargenomen gegevens. De tabel geeft kenmerkwaarden en standaardfouten van de metingen voor zowel kenmerken als schattingen van het fylogenetische gemiddelde een worden voor elke boom gegeven.

Voor het univariate geval met behulp van gegevens van Martins en Lamont (1998), kunnen de effecten van meetfouten worden gevisualiseerd door een boom te construeren die overeenkomt met de covariantiestructuur van de gegevens die zowel fylogenetische covariantie als meetfoutvariantie combineert (zie tekst). De meetfoutvariantie verlengt de eindtaksegmenten van de boom, waarbij de lengte van de puntverlenging de meetfoutvariantie geeft ten opzichte van de variantie van het evolutionaire proces. (a) De fylogenetische boom waaruit de covariantiematrix σ 2 C berekend. (b) De fylogenetische boom met de variantie geassocieerd met meetfout voor totale weergaveduur in grafiekvorm op de toppen van de boom, waardoor een grafische weergave van de covariantiematrix wordt gegeven σ 2 C + σm 2 m. Ter vergelijking: (c) is hetzelfde als (b) maar met een meetfout voor een ander kenmerk, de duur van de headbob. Door de verwachte variaties binnen soorten te vergroten zonder de covarianties tussen soorten te veranderen, verlaagt de meetfout de correlaties tussen soorten in de waargenomen gegevens. De tabel geeft kenmerkwaarden en standaardfouten van de metingen voor zowel kenmerken als schattingen van het fylogenetische gemiddelde een worden voor elke boom gegeven.

Alle drie schattingsmethoden die meetfouten bevatten, gaven vergelijkbare schattingen van een en σ 2 wanneer fylogenetische correlatie niet was opgenomen (d.w.z. C = l, geval ii). Wanneer we echter uitgaan van de evolutie van de Brownse beweging langs de ware fylogenie (d.w.z. Cl, geval iv), de ML-schattingen van beide parameters een en σ 2 verschilde aanzienlijk van de schattingen verkregen uit EGLS en REML (tabel 1). De ML-schatting van σ 2 lijkt sterk naar beneden gericht, de ML-schatting van σ 2 is 0,049 en het gemiddelde van de bootstrap-schatter is 0,032. Vertekening van ML-schattingen van varianties is een veel voorkomende observatie die wordt aangetroffen bij veel soorten statistische problemen, en het relatieve gebrek aan vertekening van REML-schattingen is een frequente rechtvaardiging om REML te verkiezen boven ML (Patterson en Thompson, 1971 Cooper en Thompson, 1977 Smyth en Verbyla , 1996). Helaas is er geen goede manier om a priori de omvang van de vertekening in dit specifieke voorbeeld te voorspellen, een sterke vertekening in de ML-schatter kwam alleen voor in gevallen waarin fylogenetische correlatie was opgenomen.

Parameterschattingen van het fylogenetische gemiddelde een en variantie σ 2 en de maat van het fylogenetische signaal K* voor gegevens over de totale weergaveduur van negen soorten leguanen (uit Martins en Lamont, 1998: fig. 1).

Fylogenie. Methode. fylogenetische gemiddelde een . Bootstrap-schatting. 2 . Bootstrap-schatting. K* .
l (ster) eenGLS C (nee ik) 2.82 1 (2.08, 3.56) 2.83 (2.22, 3.46) 4 0.93 (0.22, 1.81) 0.94 (0.25, 2.05) 4
EGLS NS2.95 (2.32, 3.57) 2 2.95 (2.41, 3.47) 0.29 (0.070, 0.57) 2 0.30 (0, 1.12)
ML e2.95 (2.40, 3.50) 3 2.96 (2.48, 3.43) 0.22 (0, 0.75) 3 0.19 (0, 0.80)
REML F2.94 2.95 (2.42, 3.46) 0.28 0.29 (0, 1.04) 3
C (waar) BGLS (geen mij) 2.52 1 (0.10, 4.94) 2.53 (0.49, 4.63) 1.92 (0.46, 3.74) 1.91 (0.52, 4.17) 0.32 (P < 0,05) 5
EGLS 2.76 (1.61, 3.91) 2 2.77 (1.73, 3.74) 0.35 (0.084, 0.68) 0.40 (0, 1.77) 0.53 (P >. 0,4)
ML 2.94 (2.16, 3.72) 2.93 (2.44, 3.41) 0.049 (0, 0.44) 0.032 (0, 0.20) 4.5 (P > 0,5)
REML 2.76 2.75 (1.80, 3.72) 0.32 0.32 (0, 1.10) 0.57 (P >. 0,4)
Fylogenie. Methode. fylogenetische gemiddelde een . Bootstrap-schatting. 2 . Bootstrap-schatting. K* .
l (ster) eenGLS C (nee ik) 2.82 1 (2.08, 3.56) 2.83 (2.22, 3.46) 4 0.93 (0.22, 1.81) 0.94 (0.25, 2.05) 4
EGLS NS2.95 (2.32, 3.57) 2 2.95 (2.41, 3.47) 0.29 (0.070, 0.57) 2 0.30 (0, 1.12)
ML e2.95 (2.40, 3.50) 3 2.96 (2.48, 3.43) 0.22 (0, 0.75) 3 0.19 (0, 0.80)
REML F2.94 2.95 (2.42, 3.46) 0.28 0.29 (0, 1.04) 3
C (waar) BGLS (geen mij) 2.52 1 (0.10, 4.94) 2.53 (0.49, 4.63) 1.92 (0.46, 3.74) 1.91 (0.52, 4.17) 0.32 (P < 0,05) 5
EGLS 2.76 (1.61, 3.91) 2 2.77 (1.73, 3.74) 0.35 (0.084, 0.68) 0.40 (0, 1.77) 0.53 (P >. 0,4)
ML 2.94 (2.16, 3.72) 2.93 (2.44, 3.41) 0.049 (0, 0.44) 0.032 (0, 0.20) 4.5 (P > 0,5)
REML 2.76 2.75 (1.80, 3.72) 0.32 0.32 (0, 1.10) 0.57 (P >. 0,4)

Sterfylogenie ervan uitgaande dat er geen covariantiematrix met fylogenetische verwantschap is, is de identiteitsmatrix l.

Ware fylogenie met covariantiematrix C.

Gegeneraliseerde kleinste kwadraten uitgaande van geen meetfout.

Geschatte gegeneraliseerde kleinste kwadraten met meetfout.

Maximale waarschijnlijkheid met meetfout.

Beperkte maximale waarschijnlijkheid met meetfout.

Ook geïmplementeerd in het MS DOS-programma PD_SE.EXE, zoals gebruikt in Bonine et al. (2005).

Benaderend 95% betrouwbaarheidsinterval verkregen van GLS.

Benaderend 95% betrouwbaarheidsinterval verkregen uit ML.

Geschat 95% betrouwbaarheidsinterval verkregen uit parametrische bootstrapping.

Waarschijnlijkheid van het verwerpen van de nulhypothese dat K* is gelijk aan 1 (Brownse bewegingsevolutie langs gespecificeerde fylogenie).

Parameterschattingen van het fylogenetische gemiddelde een en variantie σ 2 en de maat van het fylogenetische signaal K* voor gegevens over de totale weergaveduur van negen soorten leguanen (uit Martins en Lamont, 1998: fig. 1).

Fylogenie. Methode. fylogenetische gemiddelde een . Bootstrap-schatting. 2 . Bootstrap-schatting. K* .
l (ster) eenGLS C (nee ik) 2.82 1 (2.08, 3.56) 2.83 (2.22, 3.46) 4 0.93 (0.22, 1.81) 0.94 (0.25, 2.05) 4
EGLS NS2.95 (2.32, 3.57) 2 2.95 (2.41, 3.47) 0.29 (0.070, 0.57) 2 0.30 (0, 1.12)
ML e2.95 (2.40, 3.50) 3 2.96 (2.48, 3.43) 0.22 (0, 0.75) 3 0.19 (0, 0.80)
REML F2.94 2.95 (2.42, 3.46) 0.28 0.29 (0, 1.04) 3
C (waar) BGLS (geen mij) 2.52 1 (0.10, 4.94) 2.53 (0.49, 4.63) 1.92 (0.46, 3.74) 1.91 (0.52, 4.17) 0.32 (P < 0,05) 5
EGLS 2.76 (1.61, 3.91) 2 2.77 (1.73, 3.74) 0.35 (0.084, 0.68) 0.40 (0, 1.77) 0.53 (P >. 0,4)
ML 2.94 (2.16, 3.72) 2.93 (2.44, 3.41) 0.049 (0, 0.44) 0.032 (0, 0.20) 4.5 (P > 0,5)
REML 2.76 2.75 (1.80, 3.72) 0.32 0.32 (0, 1.10) 0.57 (P >. 0,4)
Fylogenie. Methode. fylogenetische gemiddelde een . Bootstrap-schatting. 2 . Bootstrap-schatting. K* .
l (ster) eenGLS C (nee ik) 2.82 1 (2.08, 3.56) 2.83 (2.22, 3.46) 4 0.93 (0.22, 1.81) 0.94 (0.25, 2.05) 4
EGLS NS2.95 (2.32, 3.57) 2 2.95 (2.41, 3.47) 0.29 (0.070, 0.57) 2 0.30 (0, 1.12)
ML e2.95 (2.40, 3.50) 3 2.96 (2.48, 3.43) 0.22 (0, 0.75) 3 0.19 (0, 0.80)
REML F2.94 2.95 (2.42, 3.46) 0.28 0.29 (0, 1.04) 3
C (waar) BGLS (geen mij) 2.52 1 (0.10, 4.94) 2.53 (0.49, 4.63) 1.92 (0.46, 3.74) 1.91 (0.52, 4.17) 0.32 (P < 0,05) 5
EGLS 2.76 (1.61, 3.91) 2 2.77 (1.73, 3.74) 0.35 (0.084, 0.68) 0.40 (0, 1.77) 0.53 (P >. 0,4)
ML 2.94 (2.16, 3.72) 2.93 (2.44, 3.41) 0.049 (0, 0.44) 0.032 (0, 0.20) 4.5 (P > 0,5)
REML 2.76 2.75 (1.80, 3.72) 0.32 0.32 (0, 1.10) 0.57 (P >. 0,4)

Sterfylogenie ervan uitgaande dat er geen covariantiematrix met fylogenetische verwantschap is, is de identiteitsmatrix l.

Ware fylogenie met covariantiematrix C.

Gegeneraliseerde kleinste kwadraten uitgaande van geen meetfout.

Geschatte gegeneraliseerde kleinste kwadraten met meetfout.

Maximale waarschijnlijkheid met meetfout.

Beperkte maximale waarschijnlijkheid met meetfout.

Ook geïmplementeerd in het MS DOS-programma PD_SE.EXE, zoals gebruikt in Bonine et al. (2005).

Geschat 95%-betrouwbaarheidsinterval verkregen uit GLS.

Benaderend 95% betrouwbaarheidsinterval verkregen uit ML.

Geschat 95% betrouwbaarheidsinterval verkregen uit parametrische bootstrapping.

Waarschijnlijkheid van het verwerpen van de nulhypothese dat K* is gelijk aan 1 (Brownse bewegingsevolutie langs gespecificeerde fylogenie).

Vergelijking van gevallen ii en iv, waarbij rekening wordt gehouden met meetfouten, resulteert in aanzienlijk lagere schattingen van σ 2 . Dit gebeurt omdat een deel van de variabiliteit van de gegevens wordt toegeschreven aan meetfouten, waardoor er minder echte variabiliteit tussen soorten overblijft. De effecten van meetfouten kunnen worden gevisualiseerd door een boom te construeren die de covariantiestructuur van de gegevens geeft, waarbij zowel fylogenetische covariantie als meetfoutvariantie wordt gecombineerd. Dit wordt gedaan met behulp van de EGLS-schattingen σ 2 in figuur 1 voor zowel de totale weergaveduur als, ter vergelijking, headbob-duur (voor een ander voorbeeld, zie Bonine et al., 2005). Het effect van een meetfout is om de eindtaksegmenten van de boom te verlengen tot voorbij de strikte fylogenetische boom, waarbij de lengte van de puntverlenging de meetfoutvariantie geeft. Door variaties binnen soorten te vergroten zonder de covarianties tussen soorten te veranderen, vermindert de meetfout de correlaties tussen soorten in de waargenomen gegevens.

Door rekening te houden met meetfouten zullen de schattingen van de sterkte van het fylogenetische signaal in datasets toenemen. Blomberg et al. (2003) een maatstaf afgeleid, K*, van de sterkte van het fylogenetische signaal. De maatregel K* hangt af van de verhouding van de evolutiesnelheid (gemeten met σ 2 ) die nodig is om de variabiliteit in een eigenschap tussen soorten te verklaren onder de aanname dat er geen fylogenetische correlatie is (C = l) tot de vereiste evolutiesnelheid in de veronderstelling dat: C wordt gegeven door de werkende fylogenie. Deze voor de gegevens berekende verhouding wordt vervolgens vergeleken met de theoretische verwachting van de te geven verhouding K*. een waarde van K* = 1 houdt in dat het waargenomen patroon van covarianties in de gegevens consistent is met het verwachte patroon van de werkende fylogenie (gespecificeerd door de covariantiematrix C), terwijl waarden van K* minder dan één impliceert dat de sterkte van de fylogenetische correlatie lager is dan verwacht op basis van de fylogenie. Dus waarden van K* minder dan 1 duidt op een zwakker fylogenetisch signaal. Als er een meetfout bestaat, K* moet worden berekend na het verwijderen van de variantie veroorzaakt door een meetfout. Dus, K* hangt af van de geschatte variantie σ 2 van de “echte” waarden X* in plaats van de variantie geassocieerd met de waargenomen waarden x, die ook afhangt van σm 2 m. (Merk op dat Blomberg et al. [2003] ook een maatstaf afleiden K dat hangt nauw samen met K*. Om technische redenen zullen we hier niet ingaan op problemen met meetfouten K* is een meer geschikte maatstaf voor het fylogenetische signaal. Zie ook Rohlf, 2006.)

de schatting van K* voor hagedis is de weergaveduur statistisch significant minder dan 1 als er geen meetfout wordt aangenomen (Tabel 1). Daarentegen is de waarde van K* geschat, terwijl de verwerking van meetfouten niet statistisch verschilt van 1 (Tabel 1). Dus, rekening houdend met meetfouten onthult het onderliggende fylogenetische signaal. Merk op dat de ML-schatting van K* is groter dan 1, hoewel dit te wijten is aan dezelfde vertekening die de lage ML-schatting van σ 2 produceerde.

Simulatie

In het bovenstaande voorbeeld kennen we noch de werkelijke waarde van een noch de echte fylogenetische correlatie, waardoor het onmogelijk is om de statistische eigenschappen van de parameterschatters te bestuderen. Om deze eigenschappen te onderzoeken, hebben we gegevens gesimuleerd met behulp van de fylogenie van Martins en Lamont (1998 zie Fig. 1). We namen aan dat de eigenschap evolueert op een Brownse bewegingswijze met σ 2 = 0,35 (de EGLS-schatting van de gegevens voor de totale weergaveduur). Om meetfouten te simuleren, gingen we ervan uit dat de standaarddeviatie van een meting op een enkel dier tweemaal de gerapporteerde standaardfout van de totale duur is, zoals gerapporteerd in Martins en Lamont (1998). Dit geeft een hoge meetfout en dus een sterke test van de schattingsmethoden die meetfouten bevatten. Om de meetfout te variëren, gingen we ervan uit dat gegevens van: N = 2 k (k = 0, 1, ..., 6) individuen werden verkregen voor elke soort, waardoor de steekproefomvang groter werd N vermindert de meetfout omdat de standaardfout van de meetfout evenredig is met 1/✓ N. Voor elke gesimuleerde dataset hebben we de schattingen berekend van een, σ 2 , en de maat van het fylogenetische signaal K*. We gebruikten alleen EGLS-schatting. REML-schatting gaf vergelijkbare resultaten, en ML-schatting vertoonde een aanzienlijke vertekening, vooral in de schattingen van K*.

De simulaties laten zien dat het verantwoorden van meetfouten weinig effect heeft op de schatting van een, hoewel de betrouwbaarheidsintervallen afnemen (Fig. 2). Daarentegen wordt de schatting van σ 2 sterk verbeterd wanneer meetfouten in de analyse worden opgenomen. Desalniettemin, wanneer de meetfout groot is, kan zelfs rekening houden met meetfout een opwaartse vertekening in de schatting van σ 2 niet overwinnen. Evenzo, wanneer meetfout wordt verantwoord, de schatting van K* is minder vertekend rond de werkelijke waarde van 1 en heeft betrouwbaarheidsintervallen die relatief ongevoelig zijn voor de sterkte van de meetfout. Wanneer daarentegen de meetfout wordt genegeerd, worden schattingen van K* zijn opvallend laag als er een grote meetfout is. We moeten er echter op wijzen dat de meetfout die in de simulaties werd gebruikt erg hoog was met een steekproefomvang van één, de gemiddelde standaardfout van de meetfout was 1,4, wat meer dan twee keer de standaarddeviatie is van de echte onder-soorten fout, 0,59. De meetfout gerapporteerd door Martins en Lamont (1998) komt overeen met onze gesimuleerde steekproefomvang van 2 2 = 4, en de vertekening in zowel σ 2 als K* hierboven is minimaal voor de schattingsmethoden die meetfouten bevatten.

Simulatie van het univariate geval om schattingen te geven van (a) een, (B) σ, en (c) de maat van het fylogenetische signaal K*. Ononderbroken lijnen geven de EGLS-schattingen die rekening houden met meetfouten, en de corresponderende 95%-grenzen van de schatting worden gegeven door het gearceerde gebied. Stippellijnen geven de schatting en 95% grenzen van de verkregen schatting zonder rekening te houden met meetfouten (GLS). We gaan uit van de 9-tip fylogenie gepresenteerd door Martins en Lamont (1998). Eigenschap x evolueert volgens Brownse bewegingsevolutie, met een = 0 en σ 2 = 0,35. Er wordt aangenomen dat de meetfout voor metingen bij afzonderlijke personen een standaardfout heeft die gelijk is aan 2 keer de standaardfout die wordt verschaft door Martins en Lamont (1998) voor de totale weergaveduur. Voor elke gesimuleerde steekproefomvang N = 2 k (k = 0, 1, …, 6), werden 2000 datasets gesimuleerd en werden schattingen voor elke parameter berekend.

Simulatie van het univariate geval om schattingen te geven van (a) een, (B) σ, en (c) de maat van het fylogenetische signaal K*. Ononderbroken lijnen geven de EGLS-schattingen die rekening houden met meetfouten, en de corresponderende 95%-grenzen van de schatting worden gegeven door het gearceerde gebied. Stippellijnen geven de schatting en 95% grenzen van de verkregen schatting zonder rekening te houden met meetfouten (GLS). We gaan uit van de 9-tip fylogenie gepresenteerd door Martins en Lamont (1998). Eigenschap x evolueert volgens Brownse bewegingsevolutie, met een = 0 en σ 2 = 0,35. Er wordt aangenomen dat de meetfout voor metingen bij afzonderlijke personen een standaardfout heeft die gelijk is aan 2 keer de standaardfout die wordt verschaft door Martins en Lamont (1998) voor de totale weergaveduur. Voor elke gesimuleerde steekproefomvang N = 2 k (k = 0, 1, …, 6), werden 2000 datasets gesimuleerd en werden schattingen voor elke parameter berekend.

Correlatie tussen eigenschappen

Schatting

Als er schattingen beschikbaar zijn voor de standaardfouten van de eigenschapwaarden voor elke soort, geven deze de waarden van σmx 2 mx,mijn 2 mja, en Rm < eqid26 >mijnmxy. Bovendien geven de fylogenie en de bijbehorende veronderstelling over evolutionaire verandering: Cx en Cja. Daarom zijn de enige parameters die moeten worden geschat: eenx, eenja,x 2 ,ja 2 , en R voor het geval van bivariate correlatie. Net als bij het univariate geval kunnen meerdere methoden worden gebruikt om de parameters voor het model te schatten dat wordt gegeven door vergelijkingen 9 en 10. Hier illustreren we EGLS en REML (bijlage 1), hoewel we ook Matlab-programma's voor ML leveren. EGLS heeft het voordeel dat het formeel kan worden toegepast wanneer de werkelijke variatie en/of meetfoutvariatie niet normaal verdeeld is. Zoals we hieronder laten zien, heeft REML het voordeel dat het bijna geen bias heeft, vergeleken met een lichte bias die wordt getoond door EGLS. Bovendien gebruikt REML (en ML) bij het berekenen van de correlatie tussen meerdere eigenschappenparen gegevens van alle eigenschappen bij het schatten van elke paarsgewijze correlatie. Dit leidt tot de beste schattingen bij het uitvoeren van multivariate analyses zoals PCA. Hoewel er meerdere methoden zijn voor het verkrijgen van betrouwbaarheidsintervallen voor de schattingen (zie "Univariate analyses" hierboven), hebben we de aandacht beperkt tot parametrische bootstrapping voor kleine steekproefomvang die typisch is voor veel fylogenetische studies, schatters van de correlatiecoëfficiënten zijn vaak vertekend en daarom parametrische bootstrapping is vaak de meest robuuste benadering voor het verkrijgen van betrouwbaarheidsintervallen.

Voorbeeld

We analyseerden gegevens van Bauwens et al. (1995) over de lichaamsmassa, de lengte van de achterpoten en de sprintsnelheid van 13 soorten hagedissen met behulp van fylogenie A uit hun figuur 2. Hun tabel 1 geeft gemiddelden en standaardfouten voor deze eigenschappen op de rekenkundige schaal. We hebben dit voorbeeld gekozen omdat het eigenschappen bevat die aan een aantal verschillende statistische analyses kunnen worden onderworpen (correlatie-, regressie- en functionele relatiemodellen) en omdat het een grootte heeft (13 soorten, N = 4 tot 20 individuen gemeten per soort), wat niet atypisch is voor "kleine" vergelijkende studies (zie bijvoorbeeld compilaties in Ricklefs en Starck, 1996 Freckleton et al., 2002 Blomberg et al., 2003). We hebben alle kenmerken log-getransformeerd, wat de scheefheid in de verdeling van kenmerkwaarden verminderde (analyses niet gepresenteerd). Wanneer log-transformerende waarden die met variatie worden gemeten, zowel het gemiddelde als de variantie van de log-getransformeerde gegevens afhankelijk zijn van de variantie van de meetfout, namen we aan dat een bepaalde eigenschapswaarde voor een bepaalde soort log-normaal verdeeld was en uitgevoerd de log-transformatie dienovereenkomstig (bijlage 2). Ten slotte gingen we ervan uit dat meetfouten niet gecorreleerd zijn tussen kenmerken, dus Rm = 0 in vergelijking 10.

In dit voorbeeld, zoals waarschijnlijk gebruikelijk is (bijv. Martins en Lamont, 1998 Bonine et al., 2005), waren de steekproefomvang voor sommige soortenwaarden klein (N = 4). Wanneer de steekproefomvang klein is, zijn de standaardfouten zelf onnauwkeurige schattingen van de meetfout. In de praktijk is dit probleem vaak onbelangrijk, omdat de schattingen van de meetfout, hoewel onnauwkeurig, niettemin onbevooroordeeld zijn. Een mogelijke benadering wanneer er kleine steekproefomvang is, of als sommige soorten worden vertegenwoordigd door een enkel individu (bijv. Langerhans et al., 2006), is om het gemiddelde per monster meetfout te berekenen en daaruit de meetfout voor elke soort te berekenen. op basis van de bijbehorende steekproefomvang (bijlage 3). Voor de onderstaande analyses hebben we zowel de standaardfouten van Bauwens et al. gebruikt. (1995) en de meetfout die werd verkregen door middel van het gemiddelde van alle soorten, beide procedures gaven kwantitatief zeer nauwe resultaten en daarom presenteren we alleen de resultaten met gebruikmaking van de standaardfouten voor elke soort.

Voor een bivariaat voorbeeld hebben we schattingen berekend van R tussen lichaamsmassa en sprintsnelheid met behulp van GLS (d.w.z. zonder meetfout), EGLS en REML uitgaande van ofwel geen fylogenetische verwantschap tussen soorten (een sterfylogenie, Cx = Cja = l) of fylogenetische verwantschap gegeven door de ware fylogenie onder Brownse bewegingsevolutie (Tabel 2). Voor de sterfylogenie, EGLS- en REML-schattingen van R waren vergelijkbaar en verschilden niet veel van de GLS-schatting. Voor de echte fylogenie was de EGLS-schatting (0,025) echter vergelijkbaar met de GLS-schatting (0,022) en beide waren veel lager dan de REML-schatting (0,341). Het gemiddelde van de REML-bootstrap-schattingen van R (0,327) was lager dan de REML-schatting, wat suggereert dat de REML-schatting in ieder geval naar beneden is vertekend. Dit suggereert dat de EGLS-schatting (0,025) zelfs ernstiger vertekend is dan de REML-schatting. Ondanks het grote verschil tussen de EGLS- en REML-schattingen, zijn de betrouwbaarheidsintervallen voor beide groot, en in geen van beide gevallen is de schatting van R statistisch verschillend van nul.

GLS-, EGLS- en REML-schattingen van de correlatiecoëfficiënt (R) tussen loglichaamgrootte en logsprintsnelheid van Bauwens et al. (1995).

Fylogenie. GLS. GLS bootstrap. EGLS . EGLS-bootstrap. REML . REML-bootstrap.
l (ster) 0.466 0.454 1 (−0.11, 0.81) 2 0.478 0.465 1 (−0.15, 0.85) 2 0.497 0.486 1 (−0.098, 0.85) 2
C (waar) 0.022 0.017 1 (−0.57, 0.56) 2 0.025 0.033 1 (−0.60, 0.65) 2 0.341 0.331 1 (−0.28, 0.81) 2
Fylogenie. GLS. GLS bootstrap. EGLS . EGLS-bootstrap. REML . REML-bootstrap.
l (ster) 0.466 0.454 1 (−0.11, 0.81) 2 0.478 0.465 1 (−0.15, 0.85) 2 0.497 0.486 1 (−0.098, 0.85) 2
C (waar) 0.022 0.017 1 (−0.57, 0.56) 2 0.025 0.033 1 (−0.60, 0.65) 2 0.341 0.331 1 (−0.28, 0.81) 2

Gemiddelde van de parametrische bootstrap-verdeling van R.

95% parametrische bootstrap-betrouwbaarheidsintervallen van 2000 replicatiegegevenssets.

GLS-, EGLS- en REML-schattingen van de correlatiecoëfficiënt (R) tussen loglichaamgrootte en logsprintsnelheid van Bauwens et al. (1995).

Fylogenie. GLS. GLS bootstrap. EGLS . EGLS-bootstrap. REML . REML-bootstrap.
l (ster) 0.466 0.454 1 (−0.11, 0.81) 2 0.478 0.465 1 (−0.15, 0.85) 2 0.497 0.486 1 (−0.098, 0.85) 2
C (waar) 0.022 0.017 1 (−0.57, 0.56) 2 0.025 0.033 1 (−0.60, 0.65) 2 0.341 0.331 1 (−0.28, 0.81) 2
Fylogenie. GLS. GLS bootstrap. EGLS . EGLS-bootstrap. REML . REML-bootstrap.
l (ster) 0.466 0.454 1 (−0.11, 0.81) 2 0.478 0.465 1 (−0.15, 0.85) 2 0.497 0.486 1 (−0.098, 0.85) 2
C (waar) 0.022 0.017 1 (−0.57, 0.56) 2 0.025 0.033 1 (−0.60, 0.65) 2 0.341 0.331 1 (−0.28, 0.81) 2

Gemiddelde van de parametrische bootstrap-verdeling van R.

95% parametrische bootstrap-betrouwbaarheidsintervallen van 2000 replicatiegegevenssets.

Om correlaties tussen meerdere paren eigenschappen te onderzoeken, schatten we: R voor de drie paar eigenschappen: lichaamsmassa, sprintsnelheid en lengte van de achterpoten met behulp van GLS, EGLS en REML. Om REML te implementeren, hebben we correlaties op zowel paarsgewijze (paarsgewijze REML) als gelijktijdig voor alle drie de eigenschappen (gezamenlijke REML) geschat. Gezamenlijke REML is de juiste REML-procedure, omdat de REML-schatting is gebaseerd op de waarschijnlijkheid van de gehele dataset. (Ons Matlab-programma implementeert automatisch gezamenlijke REML.) Zo wordt informatie over de correlatie tussen eigenschappen x en y, en tussen eigenschappen y en z, gebruikt bij de schatting van de correlatie tussen eigenschappen x en z. Anders gezegd, de schattingen van de paarsgewijze correlaties tussen kenmerken zijn niet onafhankelijk. Dit verschilt van het geval zonder meetfout, waar schattingen van paarsgewijze correlaties onafhankelijk zijn. Onderzoekers kunnen in de verleiding komen om correlatiecoëfficiënten afzonderlijk op een paarsgewijze manier te berekenen, vooral wanneer grote aantallen paarsgewijze correlaties gewenst zijn. We hebben paarsgewijs REML-schattingen berekend, ook al is dit geen correcte procedure, om de problemen te illustreren die dit kan veroorzaken.

De geschatte correlaties voor alle drie de paren eigenschappen (lichaamsmassa, sprintsnelheid, lengte van de achterpoten) met paarsgewijze REML waren meestal groter dan de GLS- en EGLS-schattingen (Tabel 3). De gezamenlijke REML-schattingen zijn iets minder hoog. De correlatiematrices met drie soorten die zijn verkregen uit zowel EGLS als paarsgewijze REML zijn niet geldig, omdat ze niet positief definitief zijn. De eis dat correlatiematrices positief definitief zijn, komt overeen met de eis dat correlatiecoëfficiënten tussen -1 en +1 liggen, net zoals het geen zin heeft dat correlatiecoëfficiënten groter zijn dan +1, het heeft geen zin dat een correlatiematrix niet positief gedefineerd. Het falen van de correlatiematrices verkregen uit EGLS en paarsgewijze REML om positief definitief te zijn, wordt veroorzaakt door de lage geschatte correlatie tussen lichaamsgrootte en sprintsnelheid, Rxy. Omdat de eigenschappen x (log lichaamsgrootte) en z (log lengte van de achterpoten) sterk gecorreleerd zijn, en de eigenschappen y (log sprintsnelheid) en z sterk gecorreleerd zijn, moeten de eigenschappen x en y ook sterk gecorreleerd zijn om de correlatiematrix te kunnen beoordelen. positief definitief, maar aan deze voorwaarde wordt niet voldaan voor EGLS en paarsgewijs REML. Daarentegen zijn de correlatiematrices verkregen uit GLS (waarvoor paarsgewijze schattingen van correlatiecoëfficiënten onafhankelijk zijn) en gezamenlijke REML (die alle correlatiecoëfficiënten gelijktijdig schat) positief definitief. Deze specifieke dataset is gevoelig voor het probleem dat geschatte correlatiematrices niet positief definitief zijn, omdat de steekproefomvang klein is en de correlaties tussen eigenschappen hoog zijn. Desalniettemin zal dit probleem zich waarschijnlijk vaak voordoen in vergelijkbare datasets.

Schattingen van correlatiecoëfficiënten en ladingen op de eerste hoofdcomponent (PC 1) voor eigenschappen log lichaamsmassa (x), log sprintsnelheid (y) en log lengte van de achterpoten (z) geleverd door Bauwens et al. (1995) voor 13 hagedissoorten.

. . . . . Bezig met laden .
. . . . . .
Methode. Rxy . Rxz . Ryz . % Variantie PC 1 . x . j . z.
GLS (geen mij) 0.022 0.845 0.491 0.66 0.36 0.22 0.42
EGLS 0.025 0.867 0.550 — 1
Paarsgewijs REML 0.341 0.899 0.799 — 1
Gezamenlijke REML 0.257 0.887 0.635 0.74 0.34 0.27 0.39
. . . . . Bezig met laden .
. . . . . .
Methode. Rxy . Rxz . Ryz . % Variantie PC 1 . x . j . z.
GLS (geen mij) 0.022 0.845 0.491 0.66 0.36 0.22 0.42
EGLS 0.025 0.867 0.550 — 1
Paarsgewijs REML 0.341 0.899 0.799 — 1
Gezamenlijke REML 0.257 0.887 0.635 0.74 0.34 0.27 0.39

De covariantiematrix verkregen uit paarsgewijze analyses was niet positief definitief.

Schattingen van correlatiecoëfficiënten en ladingen op de eerste hoofdcomponent (PC 1) voor eigenschappen log lichaamsmassa (x), log sprintsnelheid (y) en log lengte van de achterpoten (z) geleverd door Bauwens et al. (1995) voor 13 hagedissoorten.

. . . . . Bezig met laden .
. . . . . .
Methode. Rxy . Rxz . Ryz . % Variantie PC 1 . x . j . z.
GLS (geen mij) 0.022 0.845 0.491 0.66 0.36 0.22 0.42
EGLS 0.025 0.867 0.550 — 1
Paarsgewijs REML 0.341 0.899 0.799 — 1
Gezamenlijke REML 0.257 0.887 0.635 0.74 0.34 0.27 0.39
. . . . . Bezig met laden .
. . . . . .
Methode. Rxy . Rxz . Ryz . % Variantie PC 1 . x . j . z.
GLS (geen mij) 0.022 0.845 0.491 0.66 0.36 0.22 0.42
EGLS 0.025 0.867 0.550 — 1
Paarsgewijs REML 0.341 0.899 0.799 — 1
Gezamenlijke REML 0.257 0.887 0.635 0.74 0.34 0.27 0.39

De covariantiematrix verkregen uit paarsgewijze analyses was niet positief definitief.

Met behulp van de geschatte correlatiematrices voerden we een PCA uit (Sokal en Rohlf, 1981), waarbij we de eerste pc-as en bijbehorende ladingen berekenden (Tabel 3). De hoge correlaties verkregen uit de gezamenlijke REML zorgden ervoor dat 74% van de correlatie werd vastgelegd door de eerste hoofdcomponentenas (PC1). Daarentegen was de PC1 die de GLS-schattingen gebruikte 66%. Het opnemen van meetfouten onthult dus een sterkere correlatiestructuur in de gegevens. Omdat de correlatiematrices verkregen uit EGLS en paarsgewijze REML niet positief definitief zijn, zijn de resulterende PCA's ongeldig.

Simulatie

Om de eigenschappen van de schatters van te onderzoeken R, hebben we een simulatiestudie uitgevoerd op basis van het voorbeeld. In het bijzonder hebben we gegevens gesimuleerd voor 13 soorten met de fylogenie van de 13 soorten die zijn bestudeerd door Bauwens et al. (1995). We namen aan dat twee eigenschappen x en y de evolutie van de Brownse beweging volgden in de fylogenetische boom met snelheden σx = 0,86,ja = 0,28, en R = 0,83. We gingen ervan uit dat de standaarddeviatie van de meting op een enkel dier 4 keer de standaardfout is zoals gerapporteerd door Bauwens et al. (1995) voor lichaamsmassa en sprintsnelheid, en die gegevens van N = 2 k (k = 0, 1, ..., 6) individuen werden verkregen voor elke soort. Dus, wanneer? k = 4 (N = 16), is de meetfoutvariantie gelijk aan die gerapporteerd in Bauwens et al. (1995), en een hogere variantie treedt op voor kleinere steekproefomvang. Voor elk van 2000 gesimuleerde datasets bij elke steekproefomvang N, schatten we parameters met behulp van zowel EGLS als REML.

Na verwerking van meetfouten, REML schattingen van R had slechts een lichte neerwaartse neiging, met een geschatte verwachting tussen 0,813 en 0,821 voor een werkelijke waarde van R = 0,83 ( Afb. 3). De EGLS-schattingen hadden een grotere neerwaartse vertekening voor kleine steekproefomvang. Daarentegen hadden de GLS-schattingen die meetfouten negeren een veel grotere neerwaartse bias. Naast het feit dat ze minder vertekening hadden dan de EGLS-schattingen, waren de REML-schattingen ook consistent nauwkeuriger, met smallere inclusiegrenzen van 95%. Merk ook op dat de verdeling van de REML-schattingen sterk scheef is, dat de bovenste inclusiegrens van 95% nooit hoger is dan 0,88, terwijl de onderste inclusiegrens tot bijna nul daalt. Dit wordt verwacht, zoals R wordt beperkt tot kleiner dan of gelijk aan één (zie ook Martins en Garland, 1991).

(a) EGLS en (b) REML-schattingen van de correlatiecoëfficiënt R uit gesimuleerde datasets op basis van Bauwens et al. (1995). Ononderbroken lijnen geven schattingen die rekening houden met meetfouten, en de overeenkomstige grenzen van 95% van de schatting worden gegeven door het gearceerde gebied. Stippellijnen geven de schatting en 95% grenzen van de verkregen schatting zonder rekening te houden met meetfouten (GLS). We nemen aan dat er 13 soorten zijn met fylogenie gegeven door de fylogenie voor de 13 hagedissen geanalyseerd door Bauwens et al. (1995). Beide eigenschappen evolueren volgens Brownse bewegingsevolutie, met σx = 0.86, σja = 0,28, en R = 0,83. De meetfout voor metingen op afzonderlijke individuen wordt verondersteld een standaardfout te hebben die gelijk is aan 4 keer de soortstandaardfouten die door Bauwens et al. (1995). Voor elke gesimuleerde steekproefomvang N = 2 k (k = 0, 1, …, 6), werden 2000 datasets gesimuleerd en werden schattingen voor elke parameter berekend.

(a) EGLS en (b) REML-schattingen van de correlatiecoëfficiënt R uit gesimuleerde datasets op basis van Bauwens et al. (1995). Ononderbroken lijnen geven schattingen die rekening houden met meetfouten, en de overeenkomstige grenzen van 95% van de schatting worden gegeven door het gearceerde gebied. Stippellijnen geven de schatting en 95% grenzen van de verkregen schatting zonder rekening te houden met meetfouten (GLS). We nemen aan dat er 13 soorten zijn met fylogenie gegeven door de fylogenie voor de 13 hagedissen geanalyseerd door Bauwens et al. (1995). Beide eigenschappen evolueren volgens Brownse bewegingsevolutie, met σx = 0.86, σja = 0,28, en R = 0,83. De meetfout voor metingen op afzonderlijke individuen wordt verondersteld een standaardfout te hebben die gelijk is aan 4 keer de soortstandaardfouten die door Bauwens et al. (1995). Voor elke gesimuleerde steekproefomvang N = 2 k (k = 0, 1, …, 6), werden 2000 datasets gesimuleerd en werden schattingen voor elke parameter berekend.

Regressie

Schatting

Net als univariate analyses en correlatie kunnen EGLS, ML en REML worden gebruikt voor schattingen (bijlage 1). Hier beschouwen we ze alle drie bij het analyseren van een voorbeeld en bestuderen we REML in meer detail met een simulatie.

Voorbeeld

Net als in het voorbeeld van correlatie hebben we de gegevens van Bauwens et al. geanalyseerd. (1995). Tabel 4 geeft GLS-, EGLS-, ML- en REML-schattingen van de helling B1 voor de regressie van de lengte van de achterpoten van een log op de lichaamslengte van een log. De schattingen onder de aanname van geen fylogenetische verwantschap (Cx = Cja = l) zijn vergelijkbaar voor alle drie de methoden die meetfouten bevatten. Bovendien zijn de parametrische bootstrap-betrouwbaarheidsintervallen vergelijkbaar met de geschatte betrouwbaarheidsintervallen die zijn verkregen voor EGLS en ML. Het enige verschil tussen de statistische analyses is de relatief lage schatting van B1 verkregen voor EGLS wanneer de ware fylogenie van de soort wordt gebruikt.

Schattingen van regressiehelling B1 voor log achterbeenlengte regressie op log lichaamsmassa voor 13 soorten hagedissen van Bauwens et al. (1995).

Fylogenie. GLS (geen mij) . EGLS . EGLS-bootstrap. ML . ML-bootstrap. REML . REML-bootstrap.
l (ster) 0.305 (0.19, 0.42) 1 0.307 (0.20, 0.41) 2 0.307 (0.21, 0.41) 3 0.310 (0.21, 0.41) 4 0.312 (0.21, 0.42) 3 0.309 0.310 (0.21, 0.41) 3
C (waar) 0.224 (0.13, 0.32) 1 0.232 (0.14, 0.33) 2 0.231 (0.14, 0.32) 3 0.263 (0.17, 0.36) 4 0.265 (0.19, 0.35) 3 0.260 0.261 (0.18, 0.35) 3
Fylogenie. GLS (geen mij) . EGLS . EGLS-bootstrap. ML . ML-bootstrap. REML . REML-bootstrap.
l (ster) 0.305 (0.19, 0.42) 1 0.307 (0.20, 0.41) 2 0.307 (0.21, 0.41) 3 0.310 (0.21, 0.41) 4 0.312 (0.21, 0.42) 3 0.309 0.310 (0.21, 0.41) 3
C (waar) 0.224 (0.13, 0.32) 1 0.232 (0.14, 0.33) 2 0.231 (0.14, 0.32) 3 0.263 (0.17, 0.36) 4 0.265 (0.19, 0.35) 3 0.260 0.261 (0.18, 0.35) 3

95% betrouwbaarheidsinterval van GLS.

95% betrouwbaarheidsinterval met behulp van de geschatte standaardfout verkregen uit de GLS-formules.

95% betrouwbaarheidsinterval van parametrische bootstrapping.

95% betrouwbaarheidsinterval van a t-distributie ML.

Schattingen van regressiehelling B1 voor log achterbeenlengte regressie op log lichaamsmassa voor 13 soorten hagedissen van Bauwens et al. (1995).

Fylogenie. GLS (geen mij) . EGLS . EGLS-bootstrap. ML . ML-bootstrap. REML . REML-bootstrap.
l (ster) 0.305 (0.19, 0.42) 1 0.307 (0.20, 0.41) 2 0.307 (0.21, 0.41) 3 0.310 (0.21, 0.41) 4 0.312 (0.21, 0.42) 3 0.309 0.310 (0.21, 0.41) 3
C (waar) 0.224 (0.13, 0.32) 1 0.232 (0.14, 0.33) 2 0.231 (0.14, 0.32) 3 0.263 (0.17, 0.36) 4 0.265 (0.19, 0.35) 3 0.260 0.261 (0.18, 0.35) 3
Fylogenie. GLS (geen mij) . EGLS . EGLS-bootstrap. ML . ML-bootstrap. REML . REML-bootstrap.
l (ster) 0.305 (0.19, 0.42) 1 0.307 (0.20, 0.41) 2 0.307 (0.21, 0.41) 3 0.310 (0.21, 0.41) 4 0.312 (0.21, 0.42) 3 0.309 0.310 (0.21, 0.41) 3
C (waar) 0.224 (0.13, 0.32) 1 0.232 (0.14, 0.33) 2 0.231 (0.14, 0.32) 3 0.263 (0.17, 0.36) 4 0.265 (0.19, 0.35) 3 0.260 0.261 (0.18, 0.35) 3

95% betrouwbaarheidsinterval van GLS.

95% betrouwbaarheidsinterval met behulp van de geschatte standaardfout verkregen uit de GLS-formules.

95% betrouwbaarheidsinterval van parametrische bootstrapping.

95% betrouwbaarheidsinterval van a t-distributie ML.

In dit voorbeeld veroorzaakte het opnemen van fylogenetische verwantschap een grote afname in de schattingen van B1, terwijl meetfouten relatief weinig effect hadden. Interessant is dat de 95%-betrouwbaarheidsintervallen verkregen met fylogenetische informatie de helling van 1/3 uitsloten die zou worden verwacht voor geometrische gelijkenis wanneer EGLS werd gebruikt, maar niet met ML en REML. In dit geval maakt de keuze voor een schattingsmethode wel degelijk verschil bij de interpretatie van de resultaten, tenminste als een betrouwbaarheidsniveau van 95% strikt wordt aangehouden. Helaas is er in dit geval geen reden om statistisch de ene schattingsmethode boven de andere te verkiezen, omdat alle methoden weinig vertekening vertoonden. In zeldzame situaties zoals deze kunnen we alleen maar aanraden om de resultaten voorzichtig te rapporteren.

Simulatie

We hebben simulaties ontworpen die vergelijkbaar zijn met eerdere simulaties (Fig. 2 en 3) om het effect van meetfouten te onderzoeken door de steekproefomvang van gemeten individuen per soort te variëren. We wilden ook datasets vergelijken met verschillende aantallen soorten. Het verhogen van het aantal soorten zal de meetfout niet verminderen, maar het zou de variantie van de parameterschattingen moeten verminderen door meer informatie te verschaffen over de relatie tussen de twee eigenschappen. We wilden dus de variantie in de schatting van . vergelijken B1 wanneer het aantal bemonsterde individuen van dezelfde soort wordt verhoogd versus wanneer het aantal bemonsterde soorten wordt verhoogd. We houden alleen rekening met REML-schattingen, omdat EGLS en ML vergelijkbare resultaten geven.

Voor de simulatie gingen we ervan uit dat er 13 of 49 soorten waren. Voor het geval van 13 soorten gebruikten we de fylogenie voor 13 hagedissen gegeven door Bauwens et al. (1995). Voor het geval van 49 soorten gebruikten we de fylogenie voor 49 Carnivora en hoefdieren van Garland et al. (1993). We stellen de werkelijke waarde van B1 = 1/3 zoals zou worden verwacht als de afhankelijke variabele de logaritme van een lineaire dimensie was (bijv. beenlengte), de onafhankelijke variabele de logaritme van de lichaamsmassa was en soorten met verschillende lichaamsgrootte geometrisch vergelijkbaar waren. De overige parameters stellen we gelijk aan de REML-schattingen uit de Bauwens et al. (1995) gegevens met behulp van het volledige meetfoutmodel met de ware fylogenie (Tabel 4). Voor de fylogenie van 13 soorten namen we aan dat de standaarddeviatie van de meetfout voor een enkel individu 9 keer groter was dan de standaardfout gerapporteerd door Bauwens et al. (1995) gebruikten we zo'n grote meetfout omdat de echte meetfout geen sterk effect had op de analyses van de echte data. Voor de fylogenie van 49 soorten hebben we standaardfouten aan de soort toegewezen door willekeurig te selecteren uit de 13 standaardfoutwaarden die in de 13-soortensimulatie werden gebruikt. We gingen ervan uit dat meetfouten tussen kenmerken onafhankelijk waren.

In gevallen van zowel 13 als 49 soorten is de REML-schatting van B1 waarin de meetfout was opgenomen, was hoogstens licht vertekend, terwijl de GLS-schatting van B1 zonder meetfout was erg bevooroordeeld toen het aantal bemonsterde individuen per soort klein was (Fig. 4). De bias van de GLS-schattingen was bijna hetzelfde voor zowel de 13- als de 49-soorten datasets, wat illustreert dat bias als gevolg van meetfouten niet afhangt van het aantal bemonsterde soorten, alleen van de precisie van de metingen voor elke soort ( en dus het aantal bemonsterde individuen per soort). Niettemin zijn de betrouwbaarheidsintervallen van de schattingen van B1 worden smaller naarmate het aantal soorten toeneemt. Dit accentueert de statistische problemen die kunnen ontstaan ​​door vooringenomenheid. In het geval van 49 soorten is de werkelijke waarde van B1, 1/3, wordt uitgesloten van het 95% inclusie-interval van de schattingen wanneer steekproefomvang N zijn klein, dus de hypothese dat B1 = 1/3 zou worden verworpen, ook al weten we dat de werkelijke waarde van B1 is 1/3! Harmon en Losos (2005) bespreken meer in het algemeen het effect van meetfouten op type I en type II fouten in fylogenetische analyses.

REML-schattingen van de helling van een regressie van gesimuleerde datasets. In (a) bestonden gesimuleerde gegevens uit 13 soorten met fylogenie gegeven door Bauwens et al. (1995), en in (b) zijn er 49 soorten met de fylogenie gegeven door Garland et al. (1993). Ononderbroken lijnen geven schattingen die rekening houden met meetfouten, en de overeenkomstige grenzen van 95% van de schatting worden gegeven door het gearceerde gebied. Stippellijnen geven de schatting en 95% grenzen van de verkregen schatting zonder rekening te houden met meetfouten (GLS). Beide eigenschappen evolueren volgens Brownse bewegingsevolutie, met B1 = 1/3, σx = 0,8, en σja = 0,1. In (a) wordt aangenomen dat de meetfout voor metingen aan een enkel individu een standaardfout heeft die gelijk is aan 9 maal de soortstandaardfouten die door Bauwens et al. (1995), terwijl in (b) meetfouten willekeurig worden gekozen uit deze 13 waarden. Voor elke steekproefomvang N = 2 k (k = 0, 1, …, 6), 2000 datasets werden gesimuleerd. Vergelijkbare cijfers met EGLS- en ML-schattingen waren kwalitatief niet verschillend.

REML-schattingen van de helling van een regressie van gesimuleerde datasets. In (a) bestonden gesimuleerde gegevens uit 13 soorten met fylogenie gegeven door Bauwens et al. (1995), en in (b) zijn er 49 soorten met de fylogenie gegeven door Garland et al. (1993). Ononderbroken lijnen geven schattingen die rekening houden met meetfouten, en de overeenkomstige grenzen van 95% van de schatting worden gegeven door het gearceerde gebied. Stippellijnen geven de schatting en 95% grenzen van de verkregen schatting zonder rekening te houden met meetfouten (GLS). Beide eigenschappen evolueren volgens Brownse bewegingsevolutie, met B1 = 1/3, σx = 0,8, en σja = 0,1. In (a) wordt aangenomen dat de meetfout voor metingen aan een enkel individu een standaardfout heeft die gelijk is aan 9 maal de soortstandaardfouten die door Bauwens et al. (1995), terwijl in (b) meetfouten willekeurig worden gekozen uit deze 13 waarden. Voor elke steekproefomvang N = 2 k (k = 0, 1, …, 6), 2000 datasets werden gesimuleerd. Vergelijkbare cijfers met EGLS- en ML-schatting waren kwalitatief niet verschillend.

Hoewel het vergroten van de steekproefomvang N per soort zal de meetfout verminderen en daardoor nauwkeurigere schattingen geven van B1, precisie van de schattingen van B1 wordt ook beperkt door het aantal soorten in de dataset. Voor deze voorbeelden levert het vergroten van de steekproefomvang per soort slechts een matige verbetering van de precisie in de schattingen van B1 zodra de steekproefomvang groter is dan 4. De standaarddeviatie van de schattingen van B1 wordt met ongeveer 50% verminderd wanneer er 49 soorten zijn ten opzichte van 13 soorten. Dit komt doordat het vergroten van het aantal soorten de informatie over de relatie tussen de eigenschappen x en y vergroot. Deze informatie zit vervat in de variantie tussen soorten.

Functionele relatiemodellen

Regressie is het geschikte statistische model om toe te passen wanneer een variabele causaal wordt bepaald door een andere, of als een variabele moet worden voorspeld door de waarde van een andere variabele. In veel biologische vragen is het doel echter om te begrijpen hoe twee eigenschappen functioneel gerelateerd zijn zonder een richting van causaliteit toe te wijzen. Men zou bijvoorbeeld geïnteresseerd kunnen zijn in de relatie tussen staartlengte en beenlengte bij een groep soorten. Het probleem van functionele relaties is aangepakt met modellen van "algemene gestructureerde relaties" (Rayner, 1985), waarvan de verminderde regressie van de hoofdas (RMA) het meest gebruikte speciale geval is. Hier ontwikkelen we functionele relatiemodellen die fylogenetische correlatie en meetfout op een flexibele manier incorporeren. Vervolgens presenteren we enkele van de speciale gevallen die door Rayner (1985) zijn afgeleid voor het niet-fylogenetische geval. Ons doel bij het presenteren van deze gevallen is om aan te tonen dat de modellen afgeleid door Rayner (1985) gemakkelijk kunnen worden uitgebreid met fylogenieën en meetfouten.

Het model gegeven door vergelijking 13 bevat zeven parameters: eenx, B0, B1,x 2 ,x 2 ,ja 2 , en R. Met de beschikbare informatie uit een dataset kunnen echter slechts vijf parameters worden geschat. Dit kan heuristisch worden verklaard door op te merken dat een dataset vijf stukjes informatie geeft over de verdeling van x en y: de gemiddelden van x en y, hun varianties en de covariantie daartussen. Dit brengt het probleem van statistische identificeerbaarheid met zich mee, dat vaak voorkomt in meetfoutmodellen (Fuller, 1987). Als er geen aanvullende informatie beschikbaar is, is de enige oplossing voor het identificeerbaarheidsprobleem het maken van aannames over de waarden van parameters of de wiskundige relaties daartussen. Als bijvoorbeeld wordt aangenomen dat er geen onbekende variatie is in x (σx 2 = R = 0), dan reduceert vergelijking 13 tot het regressiemodel van y op x gegeven door vergelijking 11. Omgekeerd, als er geen onbekende variatie is in y (σja 2 = R = 0), dan reduceert vergelijking 13 tot een regressie van x op y. Tot slot, als wordt aangenomen dat er geen variatie is in x* (σγ x 2 = 0, en dus B1 = 0), dan reduceert het model tot het correlatiemodel gegeven door vergelijking 6.

Extra speciale gevallen kunnen worden afgeleid door te erkennen dat vergelijking 13 een generalisatie is van het algemene structurele relatiemodel van Rayner (1985), specifiek het algemene structurele vergelijkingsmodel wordt verkregen wanneer er geen fylogenetische correlatie is, Cγ x = Cx = Cja = l, en de meetfout is nul, mx = mja = mxy = 0 een bewijs wordt gegeven in bijlage 4. RMA-regressie wordt dan afgeleid als een speciaal geval, ervan uitgaande dat er geen correlatie is tussen εx en εja (R = 0), en de verhouding van standaarddeviaties van εx en ja voldoet aanjax = B1 (Rayner, 1985). Een specifieke eigenschap van RMA-regressie is dat er geen causale directionaliteit is tussen eigenschappen x en y, omdat de RMA-regressie van eigenschap y op x gelijk is aan de RMA-regressie van x op y. In het bijzonder kunnen de eerste twee regels van vergelijking 13 op equivalente wijze worden geschreven als J* = eenja+ γja en X* =0+1J*, waar eenja = B0+ B1eenx,0 = −B0/B1, en β1 = 1/B1. Bovendien, omdat σjax = B1 voor RMA-regressie, σxja = 1/B1 =1. Daarom kan in RMA-regressie ofwel x of y worden behandeld als de "afhankelijke variabele".

Een ander speciaal geval kan worden afgeleid door aan te nemen dat de relatieve grootten van varianties in ε x en εja waarvan bekend is dat ze een constante zijn k (k =jax), en εx en εja zijn ongecorreleerd (R = 0). Dit kan een redelijk model zijn wanneer een onderzoeker beperkte informatie heeft over variatie in εx en εja- genoeg om relatieve maar niet absolute grootten van variantie tussen kenmerken toe te kennen, zoals het geval was voor Pagel en Harvey (1989). We verwijzen naar dit geval als VRF-regressie (variantieverhouding vast). Met de aannames dat k =jax en R = 0, parameters eenx, B0, B1,γx 2 , enx 2 kan worden geschat op basis van vergelijking 13.

Vanuit een statistisch perspectief kunnen de talrijke verschillende algemene structurele relatiemodellen die als speciale gevallen uit vergelijking 13 kunnen worden afgeleid, allemaal als even geldig worden beschouwd. Dus correlatie, regressie en RMA-regressie zijn statistisch allemaal even goed gedefinieerd. Niettemin zijn verschillende statistische modellen vatbaar voor verschillende interpretatiefouten. Als RMA-regressie bijvoorbeeld wordt toegepast op twee eigenschappen die onafhankelijk zijn, is de verwachting voor de geschatte helling 1, ook al is er geen relatie tussen eigenschappen. In dit geval is de manier om te waken tegen een verkeerde interpretatie van de RMA-helling aandacht te besteden aan betrouwbaarheidsintervallen. Als de kenmerken onafhankelijk zijn, zullen de betrouwbaarheidsintervallen breed zijn. Ook zal een correlatieanalyse een gebrek aan correlatie tussen de eigenschappen aan het licht brengen. Hier willen we het gebruik van RMA-regressie en andere structurele relatiemodellen niet goedkeuren of veroordelen, maar we geloven wel in voorzichtigheid bij het interpreteren van hun resultaten.

Schatting

Voor het algemene geval met meetfout (vergelijking 16), kunnen EGLS-, ML- en REML-schattingen worden gebruikt. Hier beperken we de aandacht tot ML-schatting. Een voordeel van ML boven EGLS-schatting is dat waarschijnlijkheden kunnen worden gebruikt om verschillende formuleringen van het model te vergelijken. Het mixen en matchen van verschillende veronderstellingen, bijvoorbeeld of de fouttermen al dan niet εx en ja bevatten fylogenetische correlaties, leiden tot meerdere mogelijke modellen, en ML kan worden gebruikt om modellen te sorteren en de beste te vinden. Het is ook mogelijk om REML-schatting te gebruiken, hoewel het interpreteren van waarschijnlijkheden die zijn berekend op basis van REML niet zo eenvoudig is als ML, dus we geven de voorkeur aan ML-schatting. Voor structurele relatiemodellen vonden we weinig vertekening in ML-schattingen, dus deze belangrijke beperking van ML-schatting die werd gevonden voor andere problemen (vooral die met schattingen van varianties en correlaties) deed zich niet voor.

We bieden Matlab-programma's voor RMA- en VRF-regressie.

Voorbeeld

Voor het voorbeeld analyseerden we dezelfde loglichaamsmassa en loggegevens over de lengte van de achterpoten van de 13 hagedissoorten in Bauwens et al. (1995) gebruikt in het regressievoorbeeld. We beschouwen drie paar modellen. Eerst gebruiken we RMA-regressie en zijn fylogenetische tegenhanger waarin schattingen van B1 en betrouwbaarheidsintervallen worden gegeven door vergelijkingen 14 en 15 als er geen meetfout is (mx = mja = mxy = 0). We noemen deze modellen respectievelijk rma(I) en rma(C). Ten tweede beschouwen we het niet-fylogenetische en fylogenetische paar VRF-regressies waarin: k =jax en R = 0, en er is geen meetfout. Voor de waarde van kgebruiken we de eenvoudige gemiddelde standaardfouten van log-getransformeerde eigenschappen x (0,0495) en y (0,0177) gerapporteerd door Bauwens et al. (1995). Dit bootst het geval na waarin een onderzoeker slechts ruwe informatie heeft over de variatie in eigenschappen en veronderstelt dat de totale onverklaarde variatie in eigenschappen x en y evenredig is met hun variatie binnen de soort, geschat op basis van de standaardfout. We noemen deze modellen respectievelijk vrf(I)- en vrf(C)-modellen. Ten derde beschouwen we het paar niet-fylogenetische en fylogenetische modellen die de aannames maken: B1 =jax en R = 0 zoals in RMA-regressie, maar mx en mja zijn afgeleid van de standaardfouten gerapporteerd door Bauwens et al. (1995). We noemen deze respectievelijk rmaM(I) en rmaM(C). We houden geen rekening met meetfouten in het VRF-regressiemodel, omdat we al informatie over de meetfout hebben gebruikt om een ​​waarde van k.

De niet-fylogenetische versies van alle drie de modellen geven zeer vergelijkbare schattingen van de functionele relatiehelling B1 (Tabel 5). De overeenkomst tussen de RMA- en VRF-modellen is te wijten aan het feit dat voor de standaardfouten gerapporteerd in Bauwens et al. (1995), k = 0,36 wat toevallig heel dicht bij de waarde van ligt B1 = 0,347, waarvan wordt aangenomen dat deze gelijk is aan k =jax bij RMA-regressie. de schattingen van B1 want alle fylogenetische versies van de modellen zijn lager dan de niet-fylogenetische versies. De lagere log-waarschijnlijkheid voor de fylogenetische versies geven echter aan dat ze slechter bij de gegevens passen dan de niet-fylogenetische modellen. Op statistische gronden hebben de schattingen van de niet-fylogenetische versies dus de voorkeur. Om formeel te arbitreren tussen fylogenetische en niet-fylogenetische modellen, is de beste benadering het introduceren van een parameter die expliciet de sterkte van de fylogenetische correlatie bepaalt. Blomberg et al. (2003) leiden een transformatie af van een Ornstein-Uhlenbeck-proces, dat een parameter introduceert NS in de covariantiematrix C die de sterkte van de fylogenetische correlatie dicteert door dit in de modellen op te nemen (zoals gedaan voor het geval er geen meetfout is in REGRESSIONv2.m) zou testen van fylogenetische sterkte en selectie van de beste schatting van B1 (zie ook Grafen, 1989 Freckleton et al., 2002). In onze ervaring met echte datasets is het vaak zo dat zelfs een kleine vervorming van de fylogenetische boom om hem wat sterachtiger te maken aanzienlijk verbeterde passingen oplevert.

Schattingen van functionele relatie helling B1 voor loglichaamsmassa en loglengte van de achterpoten voor 13 soorten hagedissen van Bauwens et al. (1995).

Model . Veronderstellingen . Fylogenie. ML schatting van B1 . Bootstrap ML-schatting van B1 . Log-waarschijnlijkheid.
RMA eenR = 0 l (ster) 0.347 (0.25, 0.45) 1 (0.24, 0.51) 3 0.349 (0.25, 0.46) 2 8.64
σjax = B1C (waar) 0.265 (0.18, 0.35) 1 (0.17, 0.42) 3 0.267 (0.19, 0.36) 1 3.72
VRF BR = 0 l (ster) 0.346 (0.23, 0.46) 1 0.349 (0.24, 0.49) 2 8.64
σjax = k = 0.36 C (waar) 0.251 (0.15, 0.35) 1 0.253 (0.16, 0.36) 2 3.72
RMA met meetfout R = 0 l (ster) 0.349 (0.25, 0.45) 1 0.352 (0.26, 0.47) 2 8.69
σjax = B1C (waar) 0.292 (0.20, 0.38) 1 0.295 (0.22, 0.39) 2 5.13
Model . Veronderstellingen . Fylogenie. ML schatting van B1 . Bootstrap ML-schatting van B1 . Log-waarschijnlijkheid.
RMA eenR = 0 l (ster) 0.347 (0.25, 0.45) 1 (0.24, 0.51) 3 0.349 (0.25, 0.46) 2 8.64
σjax = B1C (waar) 0.265 (0.18, 0.35) 1 (0.17, 0.42) 3 0.267 (0.19, 0.36) 1 3.72
VRF BR = 0 l (ster) 0.346 (0.23, 0.46) 1 0.349 (0.24, 0.49) 2 8.64
σjax = k = 0.36 C (waar) 0.251 (0.15, 0.35) 1 0.253 (0.16, 0.36) 2 3.72
RMA met meetfout R = 0 l (ster) 0.349 (0.25, 0.45) 1 0.352 (0.26, 0.47) 2 8.69
σjax = B1C (waar) 0.292 (0.20, 0.38) 1 0.295 (0.22, 0.39) 2 5.13

Verminderde regressie van de hoofdas.

Variantieverhouding vaste regressie.

95% betrouwbaarheidsinterval van a t-verdeling met behulp van de geschatte standaardfout verkregen uit de informatiematrix in ML-schatting.

95% betrouwbaarheidsinterval van parametrische bootstrapping.

95% betrouwbaarheidsinterval uit vergelijking 15.

Schattingen van functionele relatie helling B1 voor loglichaamsmassa en loglengte van de achterpoten voor 13 soorten hagedissen van Bauwens et al. (1995).

Model . Veronderstellingen . Fylogenie. ML schatting van B1 . Bootstrap ML-schatting van B1 . Log-waarschijnlijkheid.
RMA eenR = 0 l (ster) 0.347 (0.25, 0.45) 1 (0.24, 0.51) 3 0.349 (0.25, 0.46) 2 8.64
σjax = B1C (waar) 0.265 (0.18, 0.35) 1 (0.17, 0.42) 3 0.267 (0.19, 0.36) 1 3.72
VRF BR = 0 l (ster) 0.346 (0.23, 0.46) 1 0.349 (0.24, 0.49) 2 8.64
σjax = k = 0.36 C (waar) 0.251 (0.15, 0.35) 1 0.253 (0.16, 0.36) 2 3.72
RMA met meetfout R = 0 l (ster) 0.349 (0.25, 0.45) 1 0.352 (0.26, 0.47) 2 8.69
σjax = B1C (waar) 0.292 (0.20, 0.38) 1 0.295 (0.22, 0.39) 2 5.13
Model . Veronderstellingen . Fylogenie. ML schatting van B1 . Bootstrap ML-schatting van B1 . Log-waarschijnlijkheid.
RMA eenR = 0 l (ster) 0.347 (0.25, 0.45) 1 (0.24, 0.51) 3 0.349 (0.25, 0.46) 2 8.64
σjax = B1C (waar) 0.265 (0.18, 0.35) 1 (0.17, 0.42) 3 0.267 (0.19, 0.36) 1 3.72
VRF BR = 0 l (ster) 0.346 (0.23, 0.46) 1 0.349 (0.24, 0.49) 2 8.64
σjax = k = 0.36 C (waar) 0.251 (0.15, 0.35) 1 0.253 (0.16, 0.36) 2 3.72
RMA met meetfout R = 0 l (ster) 0.349 (0.25, 0.45) 1 0.352 (0.26, 0.47) 2 8.69
σjax = B1C (waar) 0.292 (0.20, 0.38) 1 0.295 (0.22, 0.39) 2 5.13

Verminderde regressie van de hoofdas.

Variantieverhouding vaste regressie.

95% betrouwbaarheidsinterval van a t-verdeling met behulp van de geschatte standaardfout verkregen uit de informatiematrix in ML-schatting.

95% betrouwbaarheidsinterval van parametrische bootstrapping.

95% betrouwbaarheidsinterval uit vergelijking 15.

Merk op dat de maximale logwaarschijnlijkheid voor de RMA- en VRF-modellen met dezelfde fylogenetische aannames hetzelfde zijn. Dit is een gevolg van het identificeerbaarheidsprobleem van het hebben van zeven parameters. Verschillende manieren om het model te beperken tot vijf parameters (het maximum dat kan worden geschat) zullen allemaal dezelfde maximale waarschijnlijkheid geven. De ML geschatte betrouwbaarheidsintervallen voor B1 dicht bij de parametrische bootstrap-betrouwbaarheidsintervallen liggen, wat aantoont dat de benadering nauwkeurig is. Ten slotte zijn de ML geschatte betrouwbaarheidsintervallen beter (met behulp van de bootstrap-betrouwbaarheidsintervallen als de gouden standaard) dan betrouwbaarheidsintervallen voor RMA-regressie gegeven door vergelijking 15.

Simulatie

Om de statistische eigenschappen van de schatters voor de verschillende modellen te onderzoeken, hebben we gegevens gesimuleerd met behulp van het rmaM(C)-model - het model met R = 0, B1 =jax, en fylogenie- en meetfouten gegeven door Bauwens et al's. (1995) voorbeeld van 13 hagedissen - met behulp van parameterwaarden die zijn verkregen uit de aanpassing van het model aan de gegevens (Tabel 5). Ter vergelijking hebben we hetzelfde model ook gesimuleerd nadat we de standaarddeviaties van de meetfouten met een factor 4 hadden verhoogd (4× simulaties). Voor 2000 gesimuleerde datasets passen we dezelfde zes modellen toe als geïllustreerd in het voorbeeld (Tabel 5).

Alle schatters van B1 waren onbevooroordeeld in de 1 × en 4 × meetfoutsimulaties (figuren 5a en 5c). Heuristisch kan dit worden verklaard door op te merken dat de schatting van de functionele relatie van y op x, B1, is de inverse van de functionele relatie van x op y, 1/B1 voor de RMA- en VRF-modellen. Als er bijvoorbeeld een consistente neerwaartse vertekening was in de schatting van de functionele relatie, dan zijn de schattingen van beide B1 en 1/B1 neerwaarts gericht zou moeten zijn, wat duidelijk niet tegelijkertijd mogelijk is.

ML-schattingen van B1 in het functionele-relatiemodel gegeven door vergelijking 13 voor gesimuleerde gegevens wanneer de standaarddeviaties in meetfout (a) die gerapporteerd door Bauwens et al. zijn. (1995) en (c) viermaal deze waarden. Voor elk van 2000 gesimuleerde datasets, ML-schattingen van B1 werden verkregen voor 6 modelvarianten: rma(I) en rma(C), verminderde regressie van de hoofdas (B1 = x/σja, R = 0) zonder fylogenetische correlatie en fylogenetische correlatie gegeven door de hagedis-fylogenie van Bauwens (1995) onder Brownse bewegingsevolutie vrf(I) en vrf(C), het model voor functionele relaties met een vaste meetfout-variantieverhouding (k = x/σja, R = 0) met en zonder fylogenetische correlatie en rmaM(I) en rmaM(C), verminderde regressie van de hoofdas inclusief meetfout met en zonder fylogenetische correlatie. Foutbalken geven 95% opname-intervallen voor schattingen. Numerieke convergentie naar de ML-schatting trad niet op voor 1,2% van de combinaties van dataset-schattingsmethoden. Niet-convergente gevallen werden opgenomen in de 95% inclusie-intervallen, maar niet in de gemiddelde schattingen van B1. (b en d) Het aandeel van de 2000 gesimuleerde datasets die overeenkomen met respectievelijk (a) en (c), waarin een bepaald model de grootste kans had. Omdat de waarschijnlijkheden van het rma- en vrf-model gelijk zijn, worden deze gecombineerd.

ML-schattingen van B1 in het functionele-relatiemodel gegeven door vergelijking 13 voor gesimuleerde gegevens wanneer de standaarddeviaties in meetfout (a) die gerapporteerd door Bauwens et al. zijn. (1995) en (c) viermaal deze waarden. Voor elk van 2000 gesimuleerde datasets, ML-schattingen van B1 werden verkregen voor 6 modelvarianten: rma(I) en rma(C), verminderde regressie van de hoofdas (B1 = x/σja, R = 0) zonder fylogenetische correlatie en fylogenetische correlatie gegeven door de hagedis-fylogenie van Bauwens (1995) onder Brownse bewegingsevolutie vrf(I) en vrf(C), het model voor functionele relaties met een vaste meetfout-variantieverhouding (k = x/σja, R = 0) met en zonder fylogenetische correlatie en rmaM(I) en rmaM(C), verminderde regressie van de hoofdas inclusief meetfout met en zonder fylogenetische correlatie. Foutbalken geven 95% opname-intervallen voor schattingen. Numerieke convergentie naar de ML-schatting trad niet op voor 1,2% van de combinaties van dataset-schattingsmethoden. Niet-convergente gevallen werden opgenomen in de 95% inclusie-intervallen, maar niet in de gemiddelde schattingen van B1. (b en d) Het aandeel van de 2000 gesimuleerde datasets die overeenkomen met respectievelijk (a) en (c), waarin een bepaald model de grootste kans had. Omdat de waarschijnlijkheden van het rma- en vrf-model gelijk zijn, worden deze gecombineerd.

Ondanks het ontbreken van vooringenomenheid, is er aanzienlijke variabiliteit tussen modellen in de precisie van de schattingen van B1, zoals blijkt uit hun inclusie-intervallen van 95%. Het is niet verrassend dat de grootste precisie (kleinste inclusie-interval) werd bereikt door het model dat werd gebruikt om de gegevens te simuleren, rmaM(C).De precisie van het rma(C)-model was echter vrijwel identiek. De VRF-modellen hadden beide een slechte nauwkeurigheid, vooral wanneer er een grote meetfout was (Fig. 5c).

Verrassend genoeg paste het rmaM(C)-model dat werd gebruikt om de gegevens te genereren niet altijd het beste bij de gesimuleerde gegevens (Fig. 5b, 5d), zelfs niet in het geval van hoge meetfouten (Fig. 5d). iets meer dan 50% van de gesimuleerde datasets, en in het geval met een lage meetfout (Fig. 5b) werd het rma (C) -model vaker geselecteerd als het best passende model dan het rmaM (C) -model. Bovendien werden de niet-fylogenetische modellen vrij vaak geselecteerd. Voor een deel is dit te wijten aan de kleine steekproefomvang van 13 soorten met behulp van simulatiestudies, Blomberg et al. (2003) toonden aan dat de betrouwbare detectie van fylogenetische signalen (niet-sterfylogenieën) met behulp van univariate datasets ten minste 20 soorten vereist. Dit voorbeeld geeft voorzichtigheid over de statistische mogelijkheid om het juiste statistische model te identificeren uit kleine gegevenssets.


Moleculaire en evolutionaire processen die variatie in genexpressie genereren

Erfelijke variatie in genexpressie is gebruikelijk binnen en tussen soorten. Deze variatie komt voort uit mutaties die de vorm of functie van moleculaire genregulerende netwerken veranderen, die vervolgens worden gefilterd door natuurlijke selectie. High-throughput-methoden voor het introduceren van mutaties en het karakteriseren van hun cis- en trans-regulerende effecten op genexpressie (met name transcriptie) onthullen hoe verschillende moleculaire mechanismen regulerende variatie genereren, en studies die deze mutatie-effecten vergelijken met variatie die in het wild wordt gezien, zijn uiteenlopend de rol van neutrale en niet-neutrale evolutionaire processen. Deze integratie van moleculaire en evolutionaire biologie stelt ons in staat om te begrijpen hoe de variatie in genexpressie die we vandaag zien, is ontstaan ​​en om te voorspellen hoe deze in de toekomst waarschijnlijk zal evolueren.

Figuren

Figuur 1:. cis - en trans -regelgevend…

Figuur 1:. cis - en trans -regulerende bijdragen aan expressieverschillen tussen en binnen soorten.

Figuur 2.. Bronnen van cis -regelgeving variatie…

Figuur 2.. Bronnen van cis -regulerende variatie in eukaryoten.

Mutaties (aangegeven met bliksemschichten) die de…

Figuur 3.. Bronnen van trans-regelgevende variatie.

Figuur 3.. Bronnen van trans-regelgevende variatie.

Mutaties (aangegeven door bliksemschichten) die de expressie kunnen beïnvloeden...

Figuur 4:. Mutatie-effecten gebruiken om af te leiden...

Figuur 4:. Mutatie-effecten gebruiken om de werking van natuurlijke selectie af te leiden.


Conclusies

De moderne biologie ontdekt snel de dynamische aard van fenotypische variatie en genetische beperkingen. Het identificeren van de specifieke genen die worden vertegenwoordigd door QTL's en de functie van die genen is een belangrijke volgende stap in het begrijpen van variatie en beperking in het adaptieve evolutionaire proces. Deze verkenning heeft het potentieel om de netwerken van genen in ontwikkelingsprogramma's te onthullen die verantwoordelijk zijn voor fenotypes, fenotypische integratie en beperkingen. Wat bijzonder fascinerend is, is dat veel van de processen die zowel genetische variatie als beperking genereren, waarschijnlijk op een bepaald moment tegelijkertijd in één enkel genoom werken. Naarmate ons begrip van fylogenetische relaties op alle niveaus verbetert, kunnen expliciete evolutionaire kaders worden gebruikt om fenotypische veranderingen vanuit vele gezichtspunten te onderzoeken, waaronder ontwikkelings-, genexpressie (bijv. structureel versus regulerend) en ecologisch (bijv. Whittal et al., 2006). ). Verder, aangezien de genomen van aanvullende model- en niet-modelplanten worden gesequenced, zal vergelijkende genomica aanvullende inzichten mogelijk maken in fenotypische evolutie en genetische beperkingen van ecologisch belangrijke eigenschappen. Een van de meest veelbelovende technieken die momenteel beschikbaar zijn voor het ophelderen van dergelijke verschijnselen, zijn wederzijdse transgene technieken, die de dissectie van cis- en trans- veranderingen in de regelgeving (bijv. Hay en Tsiantis, 2006), en de toepassing van op RNAi gebaseerde gen-knockdown, waarmee endogene genfuncties kunnen worden beoordeeld in niet-modelsoorten (Burch-Smith et al., 2004 Hileman et al., 2005) . Het vereist dus de toepassing van meerdere globale benaderingen en technieken om een ​​volledig beeld te krijgen van hoe deze soms tegenstrijdige evolutionaire dynamiek het genoom beïnvloedt.


3.4.6 Biodiversiteit binnen een gemeenschap

Mogelijkheden voor het ontwikkelen van vaardigheden

Biodiversiteit kan betrekking hebben op een reeks habitats, van een kleine lokale habitat tot de aarde.

Soortenrijkdom is een maat voor het aantal verschillende soorten in een gemeenschap.

Een index van diversiteit beschrijft de relatie tussen het aantal soorten in een gemeenschap en het aantal individuen in elke soort.

Berekening van een diversiteitsindex ( ) uit de formule

waar = totaal aantal organismen van alle soorten

en = totaal aantal organismen van elke soort.

Landbouwtechnieken verminderen de biodiversiteit. De balans tussen natuurbehoud en landbouw.

Studenten zouden gegevens kunnen krijgen om een ​​index van diversiteit te berekenen en de significantie van de berekende waarde van de index te interpreteren.


Niet-willekeurige paring

Als individuen niet willekeurig paren met andere individuen in de populatie, d.w.z. ze kiezen hun partner, kunnen keuzes de evolutie binnen een populatie stimuleren. Er zijn veel redenen waarom niet-willekeurige paring plaatsvindt. Een van de redenen is een simpele partnerkeuze of seksuele selectie. Vrouwelijke pauwinnetjes geven bijvoorbeeld de voorkeur aan pauwen met grotere, helderdere staarten. Eigenschappen die leiden tot meer paringen voor een individu leiden tot meer nakomelingen en leiden door natuurlijke selectie uiteindelijk tot een hogere frequentie van die eigenschap in de populatie. Een veelvoorkomende vorm van partnerkeuze, positieve assortatieve paring genoemd, is de voorkeur van een individu om te paren met partners die fenotypisch vergelijkbaar zijn met henzelf.

Afbeelding (PageIndex<1>): Assortatief paren bij de Amerikaanse Robin: De Amerikaanse Robin kan assortatief paren op de kleur van het verenkleed, een op melanine gebaseerde eigenschap, en paren met andere roodborstjes die de meest vergelijkbare kleurtint hebben. Er kan echter ook enige seksuele selectie zijn voor een levendiger verenkleed, wat wijst op gezondheid en reproductieve prestaties.

Een andere oorzaak van niet-willekeurige paring is de fysieke locatie. Dit geldt met name voor grote populaties verspreid over grote geografische afstanden waar niet alle individuen gelijke toegang tot elkaar hebben. Sommige kunnen kilometers van elkaar verwijderd zijn door bossen of over ruig terrein, terwijl anderen misschien direct in de buurt wonen.


Inhoud

Recapitulatie Edit

Een recapitulatietheorie van evolutionaire ontwikkeling werd voorgesteld door Étienne Serres in 1824-1826, in navolging van de 1808 ideeën van Johann Friedrich Meckel. Ze voerden aan dat de embryo's van 'hogere' dieren een reeks stadia doorliepen of recapituleerden, die elk op een dier lager in de grote keten van het bestaan ​​leken. De hersenen van een menselijk embryo leken bijvoorbeeld eerst op die van een vis, en vervolgens op die van een reptiel, vogel en zoogdier voordat ze duidelijk menselijk werden. De embryoloog Karl Ernst von Baer verzette zich hiertegen en voerde in 1828 aan dat er geen lineaire volgorde was zoals in de grote keten van het zijn, gebaseerd op een enkelvoudig lichaamsplan, maar een proces van epigenese waarin structuren differentiëren. Von Baer herkende in plaats daarvan vier verschillende lichaamsplannen van dieren: stralend, zoals weekdieren van zeesterren, zoals mosselen gearticuleerd, zoals kreeften en gewerveld, zoals vissen. Zoölogen lieten de recapitulatie toen grotendeels achterwege, hoewel Ernst Haeckel deze in 1866 nieuw leven inblies. [2] [3] [4] [5] [6]

Evolutionaire morfologie

Vanaf het begin van de 19e eeuw tot het grootste deel van de 20e eeuw stond de embryologie voor een mysterie. Men zag dat dieren zich vanaf het ei ontwikkelden tot volwassenen met sterk verschillende lichaamsbouw, vaak door vergelijkbare stadia, maar zoölogen wisten bijna niets over hoe de embryonale ontwikkeling op moleculair niveau werd gecontroleerd, en daarom even weinig over hoe ontwikkelingsprocessen waren geëvolueerd. [7] Charles Darwin betoogde dat een gedeelde embryonale structuur een gemeenschappelijke voorouder impliceerde. Als voorbeeld hiervan citeerde Darwin in zijn boek uit 1859: Over de herkomst van soorten de garnaalachtige larve van de zeepokken, waarvan de zittend volwassen dieren in niets leken op andere geleedpotigen die Linnaeus en Cuvier hen als weekdieren hadden geclassificeerd. [8] [9] Darwin nam ook nota van Alexander Kowalevsky's bevinding dat ook de manteldier geen weekdier was, maar in zijn larvale stadium een ​​notochord en faryngeale spleten had die zich ontwikkelden uit dezelfde kiemlagen als de equivalente structuren bij gewervelde dieren, en zou moeten daarom worden gegroepeerd met hen als akkoorden. [8] [10] 19e-eeuwse zoölogie veranderde embryologie dus in een evolutionaire wetenschap, waarbij fylogenie werd verbonden met homologieën tussen de kiemlagen van embryo's. Zoölogen, waaronder Fritz Müller, stelden het gebruik van embryologie voor om fylogenetische relaties tussen taxa te ontdekken. Müller toonde aan dat schaaldieren de Nauplius-larve deelden en identificeerde verschillende parasitaire soorten die niet als schaaldieren waren erkend. Müller erkende ook dat natuurlijke selectie op larven moet inwerken, net als op volwassenen, waarbij de leugen wordt gelogen over recapitulatie, waarvoor larvale vormen zouden moeten worden beschermd tegen natuurlijke selectie. [8] Twee van Haeckels andere ideeën over de evolutie van ontwikkeling hebben het beter gedaan dan recapitulatie: hij betoogde in de jaren 1870 dat veranderingen in de timing (heterochronie) en veranderingen in de positionering in het lichaam (heterotopie) van aspecten van embryonale ontwikkeling zouden leiden tot evolutie door de vorm van het lichaam van een afstammeling te veranderen in vergelijking met dat van een voorouder. Het duurde een eeuw voordat deze ideeën juist bleken te zijn. [11] [12] [13] In 1917 schreef D'Arcy Thompson een boek over de vormen van dieren, waarin hij met eenvoudige wiskunde liet zien hoe kleine veranderingen in parameters, zoals de hoeken van de spiraalvormige schaal van een buikpotige, de lichaamsvorm van een dier radicaal kunnen veranderen. vorm, hoewel hij de voorkeur gaf aan mechanische boven evolutionaire verklaringen. [14] [15] Maar voor de volgende eeuw, zonder moleculair bewijs, kwam de vooruitgang tot stilstand. [8]

De moderne synthese van het begin van de 20e eeuw

In de zogenaamde moderne synthese van het begin van de 20e eeuw bracht Ronald Fisher de evolutietheorie van Darwin, met zijn nadruk op natuurlijke selectie, erfelijkheid en variatie, en de wetten van de genetica van Gregor Mendel samen in een coherente structuur voor evolutionaire biologie. Biologen gingen ervan uit dat een organisme een rechtstreekse weerspiegeling was van zijn samenstellende genen: de genen die codeerden voor eiwitten, die het lichaam van het organisme bouwden. Biochemische routes (en, zo veronderstelden ze, nieuwe soorten) evolueerden door mutaties in deze genen. Het was een eenvoudig, duidelijk en bijna alomvattend beeld: maar het verklaarde de embryologie niet. [8] [16]

De evolutionaire embryoloog Gavin de Beer anticipeerde in zijn boek uit 1930 op evolutionaire ontwikkelingsbiologie Embryo's en voorouders, [17] door aan te tonen dat evolutie zou kunnen plaatsvinden door heterochronie, [18] zoals bij het behoud van juveniele kenmerken bij de volwassene. [11] Dit, zo betoogde De Beer, zou schijnbaar plotselinge veranderingen in het fossielenarchief kunnen veroorzaken, aangezien embryo's slecht fossiliseren. Omdat de gaten in het fossielenarchief waren gebruikt als argument tegen Darwins geleidelijke evolutie, ondersteunde De Beers verklaring het darwinistische standpunt. [19] Ondanks De Beer negeerde de moderne synthese echter grotendeels de embryonale ontwikkeling om de vorm van organismen te verklaren, aangezien populatiegenetica een adequate verklaring leek te zijn voor hoe vormen evolueerden. [20] [21] [een]

De lac-operon

In 1961 ontdekten Jacques Monod, Jean-Pierre Changeux en François Jacob het lac-operon in de bacterie Escherichia coli. Het was een cluster van genen, gerangschikt in een feedback-controlelus, zodat de producten ervan alleen zouden worden gemaakt als ze werden 'aangezet' door een omgevingsstimulus. Een van die producten was een enzym dat een suiker splitst, lactose en lactose zelf was de prikkel die de genen aanzette. Dit was een openbaring, want het toonde voor het eerst aan dat genen, zelfs in een organisme zo klein als een bacterie, onderworpen waren aan fijnmazige controle. De implicatie was dat veel andere genen ook uitvoerig werden gereguleerd. [23]

De geboorte van evo-devo en een tweede synthese

In 1977 begon een revolutie in het denken over evolutie en ontwikkelingsbiologie, met de komst van recombinant-DNA-technologie in de genetica en de werken Ontogenie en fylogenie door Stephen J. Gould en Evolutie door te knutselen door François Jacob. Gould legde Haeckels interpretatie van evolutionaire embryologie terzijde, terwijl Jacob een alternatieve theorie uiteenzette. [8] Dit leidde tot een tweede synthese, [24] [25] eindelijk inclusief embryologie en moleculaire genetica, fylogenie en evolutionaire biologie om evo-devo te vormen. [26] [27] In 1978 ontdekte Edward B. Lewis homeotische genen die de embryonale ontwikkeling reguleren in Drosophila fruitvliegen, die net als alle insecten geleedpotigen zijn, een van de belangrijkste phyla van ongewervelde dieren. [28] Bill McGinnis ontdekte snel homeotische gensequenties, homeoboxen, bij dieren in andere phyla, bij gewervelde dieren zoals kikkers, vogels en zoogdieren werden ze later ook gevonden in schimmels zoals gisten en in planten. [29] [30] Er waren duidelijk sterke overeenkomsten in de genen die de ontwikkeling van alle eukaryoten regelden. [31] In 1980 beschreven Christiane Nüsslein-Volhard en Eric Wieschaus gap-genen die helpen om het segmentatiepatroon in fruitvliegembryo's te creëren [32] [33] zij en Lewis wonnen in 1995 een Nobelprijs voor hun werk. [29] [ 34]

Later werden meer specifieke overeenkomsten ontdekt: zo bleek in 1989 het distaalloze gen betrokken te zijn bij de ontwikkeling van aanhangsels of ledematen bij fruitvliegen, [35] de vinnen van vissen, de vleugels van kippen, de parapodia van mariene ringwormen, de ampullen en sifons van manteldieren en de buisvoeten van zee-egels. Het was duidelijk dat het gen oud moet zijn, daterend uit de laatste gemeenschappelijke voorouder van bilaterale dieren (vóór de Ediacaran-periode, die zo'n 635 miljoen jaar geleden begon). Evo-devo was begonnen met het blootleggen van de manieren waarop alle dierenlichamen tijdens de ontwikkeling werden gebouwd. [36] [37]

Diepe homologie

Ruwweg bolvormige eieren van verschillende dieren geven aanleiding tot zeer verschillende lichamen, van kwallen tot kreeften, vlinders tot olifanten. Veel van deze organismen delen dezelfde structurele genen voor lichaamsopbouwende eiwitten zoals collageen en enzymen, maar biologen hadden verwacht dat elke groep dieren zijn eigen ontwikkelingsregels zou hebben. De verrassing van evo-devo is dat de vorming van lichamen wordt gecontroleerd door een vrij klein percentage genen, en dat deze regulerende genen oud zijn en door alle dieren worden gedeeld. De giraf heeft geen gen voor een lange nek, evenmin als de olifant een gen voor een groot lichaam heeft. Hun lichamen worden gevormd door een systeem van schakelen dat ervoor zorgt dat de ontwikkeling van verschillende kenmerken vroeger of later begint, in dit of dat deel van het embryo plaatsvindt en gedurende meer of minder tijd voortduurt. [7]

De puzzel over hoe de embryonale ontwikkeling werd gecontroleerd, werd opgelost met behulp van de fruitvlieg Drosophila melanogaster als modelorganisme. De stapsgewijze controle van de embryogenese ervan werd gevisualiseerd door fluorescerende kleurstoffen van verschillende kleuren te hechten aan specifieke soorten eiwitten die worden gemaakt door genen die in het embryo tot expressie worden gebracht. [7] Een kleurstof zoals groen fluorescerend eiwit, oorspronkelijk afkomstig van een kwal, werd typisch gehecht aan een antilichaam dat specifiek is voor een fruitvliegeiwit, en vormde een nauwkeurige indicator van waar en wanneer dat eiwit in het levende embryo verscheen. [38]

Met behulp van een dergelijke techniek ontdekte Walter Gehring in 1994 dat de pax-6 gen, essentieel voor het vormen van de ogen van fruitvliegjes, komt exact overeen met een oogvormend gen bij muizen en mensen. Hetzelfde gen werd al snel gevonden in veel andere groepen dieren, zoals inktvis, een koppotig weekdier. Biologen, waaronder Ernst Mayr, hadden geloofd dat ogen minstens 40 keer in het dierenrijk waren ontstaan, omdat de anatomie van verschillende soorten ogen sterk varieert. [7] Het samengestelde oog van de fruitvlieg is bijvoorbeeld gemaakt van honderden kleine lensstructuren (ommatidia) het menselijk oog heeft een blinde vlek waar de oogzenuw het oog binnenkomt, en de zenuwvezels lopen over het oppervlak van het netvlies, dus licht moet door een laag zenuwvezels gaan voordat het de detectorcellen in het netvlies bereikt, dus de structuur is in feite "ondersteboven" in tegenstelling, het koppotige oog heeft het netvlies, dan een laag zenuwvezels, dan de wand van het oog "de goede kant op". [39] Het bewijs van pax-6was echter dat dezelfde genen de ontwikkeling van de ogen van al deze dieren controleerden, wat suggereert dat ze allemaal uit een gemeenschappelijke voorouder zijn geëvolueerd. [7] Oude genen waren gedurende miljoenen jaren van evolutie geconserveerd om ongelijke structuren voor vergelijkbare functies te creëren, wat een diepe homologie aantoont tussen structuren waarvan ooit werd gedacht dat ze puur analoog waren. [40] [41] Dit begrip werd later uitgebreid tot de evolutie van embryogenese [42] en heeft geleid tot een radicale herziening van de betekenis van homologie in de evolutionaire biologie. [40] [41] [43]

Gen-toolkit Bewerken

Een klein deel van de genen in het genoom van een organisme bepaalt de ontwikkeling van het organisme. Deze genen worden de ontwikkelings-genetische toolkit genoemd. Ze zijn in hoge mate geconserveerd onder phyla, wat betekent dat ze oud zijn en erg op elkaar lijken in ver uit elkaar liggende groepen dieren. Verschillen in de inzet van toolkit-genen beïnvloeden het lichaamsplan en het aantal, de identiteit en het patroon van lichaamsdelen. De meeste toolkit-genen maken deel uit van signaalroutes: ze coderen voor transcriptiefactoren, celadhesie-eiwitten, celoppervlakreceptoreiwitten en signaalliganden die eraan binden, en uitgescheiden morfogenen die door het embryo diffunderen. Al deze helpen om het lot van ongedifferentieerde cellen in het embryo te bepalen. Samen genereren ze de patronen in tijd en ruimte die het embryo vormen en uiteindelijk het lichaamsplan van het organisme vormen. Een van de belangrijkste toolkit-genen zijn de Hox genen. Deze transcriptiefactoren bevatten het homeobox-eiwitbindende DNA-motief, ook gevonden in andere toolkit-genen, en creëren het basispatroon van het lichaam langs de as van voor naar achter. [43] Hox-genen bepalen waar zich herhalende delen, zoals de vele wervels van slangen, zullen groeien in een zich ontwikkelend embryo of larve. [7] Pax-6, al genoemd, is een klassiek toolkit-gen. [44] Hoewel andere toolkit-genen betrokken zijn bij het vaststellen van het plantlichaamsplan, [45] worden homeobox-genen ook in planten aangetroffen, wat inhoudt dat ze gemeenschappelijk zijn voor alle eukaryoten. [46] [47] [48]

Regulerende netwerken van het embryo

De eiwitproducten van de regelgevende toolkit worden hergebruikt, niet door duplicatie en modificatie, maar door een complex mozaïek van pleiotropie, dat ongewijzigd wordt toegepast in veel onafhankelijke ontwikkelingsprocessen, waardoor patroon wordt gegeven aan veel ongelijke lichaamsstructuren.[43] De loci van deze pleiotrope toolkit-genen hebben grote, gecompliceerde en modulaire cis-regulerende elementen. Terwijl bijvoorbeeld een niet-pleiotropisch rodopsine-gen in de fruitvlieg een cis-regulerend element heeft van slechts een paar honderd basenparen lang, bevat het pleiotrope oogloze cis-regulerende gebied 6 cis-regulerende elementen in meer dan 7000 basenparen. [43] De betrokken regelgevende netwerken zijn vaak erg groot. Elk regulerend eiwit controleert "scores tot honderden" cis-regulerende elementen. Zo controleerden 67 fruitvliegtranscriptiefactoren elk gemiddeld 124 doelwitgenen. [43] Door al deze complexiteit kunnen genen die betrokken zijn bij de ontwikkeling van het embryo precies op het juiste moment en op precies de juiste plaatsen worden aan- en uitgeschakeld. Sommige van deze genen zijn structureel en vormen direct enzymen, weefsels en organen van het embryo. Maar vele anderen zijn zelf regulerende genen, dus wat wordt aangezet is vaak een precies getimede cascade van schakelen, waarbij het ene ontwikkelingsproces na het andere in het zich ontwikkelende embryo wordt aangezet. [43]

Een dergelijk trapsgewijs regulerend netwerk is in detail bestudeerd bij de ontwikkeling van het fruitvliegembryo. Het jonge embryo is ovaal van vorm, als een rugbybal. Een klein aantal genen produceert boodschapper-RNA's die concentratiegradiënten opzetten langs de lange as van het embryo. In het vroege embryo is de bicoïde en gebochelde genen zijn in hoge concentratie nabij het voorste uiteinde en geven patroon aan de toekomstige kop en thorax de caudaal en nano's genen zijn in hoge concentratie nabij het achterste uiteinde en geven patroon aan de achterste buiksegmenten. De effecten van deze genen interageren bijvoorbeeld, het Bicoid-eiwit blokkeert de translatie van caudaal's boodschapper-RNA, zodat de caudale eiwitconcentratie laag wordt aan het voorste uiteinde. Caudal schakelt later genen in die de achterste segmenten van de vlieg creëren, maar alleen aan het achterste uiteinde waar deze het meest geconcentreerd is. [49] [50]

De Bicoid-, Hunchback- en Caudal-eiwitten reguleren op hun beurt de transcriptie van gap-genen zoals: reusachtig, knirps, Kruppel, en staartloos in een gestreept patroon, waardoor het eerste niveau van structuren ontstaat die segmenten zullen worden. [32] De eiwitten hiervan controleren op hun beurt de paarregelgenen, die in de volgende fase 7 banden over de lange as van het embryo opzetten. Ten slotte zijn de segmentpolariteitsgenen zoals gegraveerd splits elk van de 7 banden in twee, waardoor 14 toekomstige segmenten ontstaan. [49] [50]

Dit proces verklaart de nauwkeurige conservering van toolkit-gensequenties, wat heeft geresulteerd in diepe homologie en functionele equivalentie van toolkit-eiwitten bij ongelijksoortige dieren (bijvoorbeeld gezien wanneer een muiseiwit de ontwikkeling van fruitvliegen regelt). De interacties van transcriptiefactoren en cis-regulerende elementen, of van signaaleiwitten en receptoren, worden opgesloten door meervoudig gebruik, waardoor bijna elke mutatie schadelijk is en dus geëlimineerd wordt door natuurlijke selectie. [43]

Een van de meer verrassende en misschien contra-intuïtieve (vanuit een neodarwiniaans oogpunt) resultaten van recent onderzoek in de evolutionaire ontwikkelingsbiologie is dat de diversiteit van lichaamsbouw en morfologie in organismen over vele phyla niet noodzakelijkerwijs wordt weerspiegeld in diversiteit op het niveau van de sequenties van genen, inclusief die van de ontwikkelingsgenetische toolkit en andere genen die betrokken zijn bij ontwikkeling. Inderdaad, zoals John Gerhart en Marc Kirschner hebben opgemerkt, is er een schijnbare paradox: "waar we de meeste variatie verwachten, vinden we behoud, een gebrek aan verandering". [51] Dus, als de waargenomen morfologische nieuwigheid tussen verschillende clades niet voortkomt uit veranderingen in gensequenties (zoals door mutatie), waar komt het dan vandaan? Nieuwigheid kan ontstaan ​​door mutatie-gedreven veranderingen in genregulatie. [43] [52] [53] [54]

Variaties in de toolkit Bewerken

Variaties in de toolkit hebben mogelijk een groot deel van de morfologische evolutie van dieren veroorzaakt. De toolkit kan de evolutie op twee manieren stimuleren. Een toolkit-gen kan in een ander patroon tot uiting komen, zoals toen de snavel van Darwins grote grondvink werd vergroot door de BMP gen, [55] of wanneer slangen hun poten verloren als distaal-minder onder- of helemaal niet tot uiting kwamen op de plaatsen waar andere reptielen hun ledematen bleven vormen. [56] Of een toolkit-gen kan een nieuwe functie krijgen, zoals te zien is in de vele functies van datzelfde gen, distaal-minder, die zulke diverse structuren regelt zoals de onderkaak bij gewervelde dieren, [57] [58] poten en antennes in de fruitvlieg, [59] en oogvlekpatroon in vlindervleugels. [60] Aangezien kleine veranderingen in gereedschapskistgenen aanzienlijke veranderingen in lichaamsstructuren kunnen veroorzaken, hebben ze vaak dezelfde functie convergerend of parallel mogelijk gemaakt. distaal-minder genereert vleugelpatronen in de vlinders Heliconius erato en Heliconius melpomene, die Mülleriaanse nabootsers zijn. In zogenaamde gefaciliteerde variatie [61] ontstonden hun vleugelpatronen in verschillende evolutionaire gebeurtenissen, maar worden gecontroleerd door dezelfde genen. [62] Ontwikkelingsveranderingen kunnen direct bijdragen aan soortvorming. [63]

Consolidatie van epigenetische veranderingen

Evolutionaire innovatie kan soms in Lamarckiaanse stijl beginnen met epigenetische veranderingen van genregulatie of fenotypegeneratie, die vervolgens worden geconsolideerd door veranderingen op genniveau. Epigenetische veranderingen omvatten modificatie van DNA door omkeerbare methylering [64], evenals niet-geprogrammeerde omvorming van het organisme door fysieke en andere omgevingseffecten als gevolg van de inherente plasticiteit van ontwikkelingsmechanismen. [65] De biologen Stuart A. Newman en Gerd B. Müller hebben gesuggereerd dat organismen in het begin van de geschiedenis van het meercellige leven vatbaarder waren voor deze tweede categorie van epigenetische bepaling dan moderne organismen, wat een basis vormt voor vroege macro-evolutionaire veranderingen. [66]

Ontwikkelingsbias Bewerken

Ontwikkeling in specifieke geslachten kan ofwel positief zijn, in de richting van een bepaald traject of fenotype, [b] of negatief, weg van het produceren van bepaalde soorten verandering, ofwel absoluut (de verandering wordt altijd of nooit geproduceerd) of relatief. Bewijs voor een dergelijke richting in de evolutie is echter moeilijk te verkrijgen en kan ook het gevolg zijn van ontwikkelingsbeperkingen die diversificatie beperken. [68] Bijvoorbeeld, in de gastropoden, is de slakachtige schaal altijd gebouwd als een buis die zowel in lengte als in diameter groeit, waardoor een grote verscheidenheid aan schaalvormen is ontstaan, zoals platte spiralen, kauri's en hoge torenspiralen binnen deze beperkingen. Onder de duizendpoten hebben de Lithobiomorpha als volwassenen altijd 15 rompsegmenten, waarschijnlijk het resultaat van een ontwikkelingsvooroordeel naar een oneven aantal rompsegmenten. Een andere duizendpootorde, de Geophilomorpha, het aantal segmenten varieert in verschillende soorten tussen 27 en 191, maar het aantal is altijd oneven, waardoor dit een absolute beperking is dat bijna alle oneven getallen in dat bereik door een of andere soort worden ingenomen. [67] [69] [70]

Ecologische evolutionaire ontwikkelingsbiologie (eco-evo-devo) integreert onderzoek uit de ontwikkelingsbiologie en ecologie om hun relatie met de evolutietheorie te onderzoeken. [71] Onderzoekers bestuderen concepten en mechanismen zoals ontwikkelingsplasticiteit, epigenetische overerving, genetische assimilatie, nicheconstructie en symbiose. [72] [73]