Informatie

Waarom is de variantie van het Wright-Fisher-model niet gelijk aan p(1-p)/(2N)?


Ik keek naar de eigenschappen van de binomiale kansverdeling en er staat dat de variantie isnp(1-p). In populatiegenetica is n = 2N. Dus ik zou verwachten dat de variantie is2Np(1-p).

Maar als ik naar het Wright-Fisher-model kijk, zie ik vaak dat de variantie is $p(1-p)/(2N)$ (zie deze presentatie pagina 6).

Hoe de variantie van het Wright-Fisher-model af te leiden om deze variantie te verkrijgen? $Prob{X=i}=frac{n!}{i!(n-i)!}p^i(1-p)^{n-i}$?


De binominale variantie $2N p (1-p)$ is voor het aantal individuen $n'$ het dragen van het allel in de volgende generatie. De frequentie van het allel in de volgende generatie is $p'=n'/(2N)$, dus de variantie is $$ ext{Var}[p'] = ext{Var}[n'/(2N)] = ext{Var}[n']/(2N)^2 = p(1-p)/( 2N).$$


Variantie van het aantal geïsoleerde hoekpunten in willekeurige grafiek $G(n,p)$

Stel dat we een willekeurige grafiek $G(n,p)$ hebben van een uniforme verdeling met $n$ hoekpunten en onafhankelijk, waarbij elke rand aanwezig is met waarschijnlijkheid $p$ . Het berekenen van het verwachte aantal geïsoleerde hoekpunten blijkt vrij eenvoudig, de kans dat een enkel hoekpunt wordt geïsoleerd is gelijk aan $ (1-p)^$ , dan is, gebruikmakend van de lineariteit van waarschijnlijkheid, het verwachte aantal geïsoleerde hoekpunten gelijk aan $n imes(1-p)^$ . Ik heb echter de taak om de variantie van dit getal te berekenen, of op zijn minst een behoorlijke benadering ervan, zonder enig idee hoe verder te gaan.


Variantie tussen demes in migratiesnelheid en het effect ervan op FNS

Variatie in de migratiesnelheid tussen demes beïnvloedt FNS, gemeten als de verhouding van de kans op identiteit door afstamming (i.b.d.) van twee willekeurig gekozen allelen binnen één deme tot de waarschijnlijkheid van identiteit door afstamming van twee willekeurig gekozen allelen uit de hele metapopulatie (T). In navolging van Crow en Kimura (1970, p. 347 zie ook Hartl en Clark 1989, p. 76), voor de i-de deme in de afwezigheid van migratie, de relatie tussen FNS bij één generatie, t, en de vorige generatie, (t𢄡), is FNS(t|i) = <(1/2N) + (1 − [1/2N])FNS(t𢄡|i)>.

Aangenomen wordt dat migranten willekeurig vanuit de hele metapopulatie arriveren aan het begin van een generatie volgens het protocol van Wade en Goodnight (1991). Het aandeel migranten dat een deme ontvangt op generatie t wordt getrokken uit een verdeling met gemiddelde, m en variantie, Vm. Wanneer een fractie van de i-de deme bestaat uit migranten, ml, dan is de uitdrukking voor de kans op i.b.d. binnen de i-de demes wordt

ervan uitgaande dat er geen i.b.d. tussen migranten die deme i binnenkomen of tussen migranten en ingezetenen.

Gemiddelde (1 – ml) 2 over demes maak ik gebruik van het feit dat de gemiddelde migratiesnelheid m is en het gemiddelde van (ml) 2 is (m2 + Vm) (bijvoorbeeld Sved en Latter 1977 of Whitlock 1992). Bij evenwicht hebben alle demes dezelfde FNS onafhankelijk van t. We zetten FNS(t|i) = FNS(t𢄡|i) = FNS, en het gemiddelde over de verdeling van m. Instellen van de termen, (m/N), m 2 , en (Vm/2N), gelijk aan nul, geeft het evenwicht FNS als

Van vgl. [2], kunnen we zien dat, wanneer er geen variantie is tussen de demes in migratiesnelheid (Vm = 0), FNS reduceert tot Wright's klassieke formule voor migratie van eilandmodellen (Wright 1969, vgl. [12.3], p. 291), namelijk FNS

Het aantal migranten uit de i-de deme is Nml of Ml. Opmerkend dat M. gelijk is aan Nm en dat (Vm/N 2 ) is gelijk aan Vm, de gemiddelde opeenhoping van migranten rond exporterende demes, M*, van Lloyd (1967), is gelijk aan

Merk op dat M* gelijk is aan Nm wanneer de verdeling van migranten Poisson is (d.w.z. [Vm/M.] = 1). Het is groter dan Nm wanneer Vm > M., dat wil zeggen, wanneer er interdemische selectie is.

Ik definieer m*, de 'gepercipieerde migratiesnelheid' als gevolg van de gemiddelde drukte van migranten, door het aantal migranten, M*, te delen door de lokale deme-grootte, N. Dat wil zeggen,

Vervangend eq. [4] in eq. [2], geeft

Wanneer er geen variatie is tussen demes in migratiesnelheid, Vm is gelijk aan 0 en m* is ongeveer gelijk aan m. Dus, zonder interdemische selectie, om m 2 te bestellen, eq. [5] reduceert tot de uitdrukking van Wright zoals hierboven.


Mengselverdeling

Ik heb wat ballen gekocht, allemaal blanco. Ik neem een ​​binominale generator voor willekeurige getallen, configureer deze met wat $n$ en $p$ , en voor elke bal schilder ik het nummer dat ik krijg van het display van de generator. Daarna stop ik de ballen in een zak en start het proces dat ik heb beschreven.

In het geval dat de getallen op de ballen worden beschouwd als willekeurige variabelen (die een binomiale verdeling volgen). Dan is de frequentieverdeling voor het verschil $X-Y$ een mengselverdeling waarbij het aantal balletjes in de zak, $m$ , een rol speelt.

De eerste en tweede bal die je uit de zak haalt zijn hetzelfde. Deze situatie doet zich voor met kans $frac<1>$ . In dit geval is het verschil $vert x-y vert$ gelijk aan nul.

De eerste en tweede bal zijn niet hetzelfde. Deze situatie doet zich voor met kans $1-frac<1>$ . In dit geval wordt het verschil $vert x-y vert$ verdeeld volgens het verschil van twee onafhankelijke en gelijkaardige binomiaal verdeelde variabelen.

De bovenstaande situatie kan ook worden beschouwd als een samengestelde verdeling waarbij je een geparametriseerde verdeling hebt voor het verschil van twee trekkingen uit een zak met ballen genummerd $x_1, . ,x_m$ en deze parameters $x_i$ zijn zelf verdeeld volgens een binominale verdeling.

rekenvoorbeeld

Hieronder is een voorbeeld van een resultaat wanneer 5 ballen $x_1,x_2,x_3,x_4,x_5$ in een zak worden geplaatst en de ballen willekeurige getallen hebben $x_i sim N(30,0.6)$ . De kans op het verschil van twee ballen die uit die zak worden gehaald, wordt berekend door 100 000 van die zakken te simuleren. (let op: dit is niet de kansverdeling van de uitkomst voor a bijzonder tas die maximaal 11 verschillende uitkomsten heeft)


Dit voorbeeld is een voorbeeld van een standaard interpretatie van drift volgens Wright-Fisher-model. Ik wil niet impliceren dat dit het enige mogelijke type driftproces is, en ik zal andere in Sect. 4.

In een puur driftmodel heeft elk individu in de populatie een identieke verwachte nakomelingenverdeling. In gemengde modellen kan drift worden gecombineerd met selectie, mutatie en andere factoren.

X geeft het aantal individuen van de X-eigenschap aan. X/N geeft de frequentie van de eigenschap.

De termen aan de rechterkant van de onderstaande vergelijking geven, van links naar rechts, het aantal individuen met eigenschap X, het aantal individuen van de alternatieve eigenschap en een term aan die de variantie in de nakomelingenverdeling van een individu met de X-eigenschap. De meest rechtse term wordt gebruikt om de verwachte variantie van de populatiegrootte te berekenen, die ik in meer detail zal bespreken in paragraaf 4. Zie Der et al. (2011) voor een uitgebreidere uitleg.

Millstein (2002) en Hodge (1987) beweren bijvoorbeeld dat drift willekeurige steekproeven zijn (dat wil zeggen, steekproeven nemen zonder rekening te houden met intrinsieke fysieke verschillen tussen individuen). Volgens Gildenhuys (2009) verwijst drift naar "oorzakelijke invloeden over een populatie" die "niet-interactieve, niet-pervasieve en willekeurige oorzaken" zijn (p. 522). Andere prominente verdedigingen van de causale theorie, zoals Shapiro en Sober (2007), Stephens (2004), en Reisman en Forber (2005) nemen geen expliciet standpunt in over deze kwestie.

Okasha (2006), Abrams (2007) en Clatterbuck et al. (2013) zijn representatief voor de weergave met één proces, terwijl Millstein (2002) en Hodge (1987) representatief zijn voor de weergave met gescheiden processen.

Dit is sterker dan de nomologische noodzaak die bepalend is voor causale verklaringen.

Sober (1984, p. 117) stelt bijvoorbeeld dat de steekproefomvang van een stochastisch proces een oorzaak is van de uitkomsten van dat proces. De kansverdeling over de uitkomsten van een reeks muntopgooien wordt beïnvloed door zowel de vooringenomenheid van de munt als het aantal keren dat u hem hebt omgedraaid. Zie ook Sober (2011) voor een verdediging van de bewering dat er a priori causale claims in de evolutionaire biologie.

Volgens sommige opvattingen is drift gewoon de feitelijke afwijking van eigenschapfrequenties van de verwachting (Brandon 2005). In de meeste causale opvattingen is (N ) een indicatie van het vermogen van drift om dergelijke afwijkingen te veroorzaken.

Opmerkelijke uitzonderingen zijn Gildenhuys (2009), Millstein et al. (2009) en Plutynski (2007).

Hier kunnen we dit modelleren door te veronderstellen dat de baltekening niet langer willekeurig is, en dat een symbolische gele bal twee keer zoveel kans heeft om te worden getrokken dan een symbolische groene bal. Zie Brandon (2005, pp. 157–158) voor een soortgelijk voorbeeld.

Van Wright, de waarschijnlijkheid van fixatie ( (pi )) van een gunstig allel geïntroduceerd op frequentie 1/2 (N =) 2s/(1 (-) e ​​(^<-4Ns>) ) . Merk op dat als NS toeneemt, gaat de waarde van de noemer naar 1, dus 2 (s) zal een goede benadering zijn van de fixatiekans voor de meeste waarden van (s) . Voor een meer gedetailleerde afleiding en bespreking, zie Kimura (1962, pp. 715-716). Ik ben een recensent dankbaar voor nuttige opmerkingen over dit onderwerp.

Ik beweer niet dat filosofen het onderscheid tussen populatieomvang en effectieve populatieomvang volledig hebben genegeerd, bijvoorbeeld Stephens (2004) gebruikt de effectieve populatieomvang als een indicator voor de sterkte van drift. Weinigen in dit debat hebben echter veel aandacht besteed aan de significante oorzakelijke factoren die de effectieve populatieomvang bepalen. Gildenhuys (2009) is een welkome uitzondering.

Zoals Der et al. (2011) laten zien, gehoorzamen het Wright-Fisher-model, evenals de andere modellen die ik beschouw, ook aan de formele karakteriseringen van drift beschreven door (Gemiddelde) en (Variance). De vraag of er driftmodellen zijn die de informele eigenschappen van drift vertonen terwijl ze niet aan deze formele eigenschappen voldoen, is interessant, maar valt buiten het bestek van dit artikel. Voor mijn doel is het voldoende om aan te tonen dat er modellen zijn die voldoen aan de formele vereisten die populatiegenetici gebruiken om driftprocessen te definiëren, maar die interessant verschillen in hun resulterende populatiedynamiek.

De kans dat groen naar fixatie gaat, is de kans dat de populatie in die generatie door een knelpunt gaat (1/N (=) 0,01) maal de kans dat het een groene bal is die wordt gekozen om de volgende generatie (de startfrequentie, 0,6).

Dit is geen universele veronderstelling van causale theoretici. Zie bijvoorbeeld Stephens (2004) en Filler (2009) voor discussies over drift en veranderingen in heterozygotie.

Het Eldon-Wakeley-model is een uitbreiding van het Moran-raamwerk. Voor een meer gedetailleerde bespreking, zie Der et al. (2012, blz. 1332).

Een van hun belangrijkste argumenten is dat de statistische visie de feitelijke wetenschappelijke praktijk niet adequaat kan vatten, aangezien de ontwikkeling van alternatieve modellen van drift werd ingegeven door de wens naar modellen die meer realistische biologische veronderstellingen maakten dan het Wright-Fisher-model, dat Millstein et al. claim “heeft geen zin als drift slechts een statistische uitkomst zou zijn” (p. 6). Ik ben het eens met hun stelling dat biologen drift vaak hebben opgevat als een causaal proces, maar ik denk niet dat dit argument een bijzonder overtuigende weerlegging is voor statistische theoretici die de manier waarop biologen (en ook filosofen) over drift denken substantieel willen herzien. .

Ik kom op dit punt terug in par. 6.

Ik zal meiotische drift of andere segregatievervormers negeren.

Filler (2009) stelt dat de neiging van drift om heterozygotie te verminderen aantoont dat drift een evolutionaire kracht is.

Dit betekent niet dat elke gameet een enkele afstammeling zal bijdragen aan de dochterpopulatie. Bemonstering met vervanging zorgt voor de mogelijkheid dat een gameet meer dan eens kan worden bemonsterd. Deze voorwaarde zorgt er echter voor dat de verwachte nakomelingenverdeling van een gameet binomiaal is.

Het citaat van Der et al. (2012) suggereert manieren om de kansverdeling over het aantal nakomelingen te manipuleren om de scheeftrekking te vergroten wanneer de sterftecijfers hoog zijn, individuen kunnen het aantal gameten dat ze produceren in een bepaalde fokepisode verhogen, zodat we kunnen ingrijpen op de verdeling van nakomelingen door de omgeving te veranderen op een manier die het sterftecijfer verhoogt.

Het bewijs hiervan is eenvoudig. In ((1- 1/2N)) van de generaties is de kans op een sprong van 0,5 (A) naar (>) 0,8 (A) of 0,5 (a) naar ( >) 0,8 (a) wordt gegeven door de binomiale vergelijking, maar in 1/2 (N) van de generaties is de kans op zo'n sprong 1, wat de kans op een sprong noodzakelijkerwijs groter maakt dan het zou in een binomiaal proces zijn. De exacte kans op zo'n sprong hangt af van de waarde van (lambda ) , (N) , en de frequentie van (A ) en (a) wanneer een vervangingsgebeurtenis optreedt. De kans op fixatie van een selectief favoriet allel zal ook toenemen.

Dit is een andere manier om te zeggen dat drift "willekeurig" is. Zie Millstein (2002) voor een meer grondige uitleg van het concept.

De vraag of we realisten of instrumentalisten moeten zijn met betrekking tot modellen, staat enigszins haaks op dit debat. Antirealisten zullen beweren dat het een vergissing is om verder te gaan dan de modellen om een ​​oordeel te vellen over ontologie. Ik ga niet in op dit argument, aangezien geen van de partijen in het debat in kwestie antirealisten zijn. In plaats daarvan verdedig ik hier de meer bescheiden bewering dat als we ons bezighouden met het maken van ontologische oordelen in de wetenschap, we ze niet rechtstreeks uit wiskundige modellen moeten lezen.

Zie echter Lange en Rosenberg (2011) voor een verdediging van de aannemelijkheid van de laatste bewering.

Een ander geval waarbij een methodologisch hulpmiddel in populatiegenetica een foutieve ontologische interpretatie krijgt, wordt besproken in Clatterbuck et al. (2013).

Hoewel een verkenning van de empirische vertakkingen van alternatieve driftmodellen buiten het bestek van dit artikel valt, vermoed ik dat het werk van Der et al. zal vruchtbaar zijn bij het maken van nauwkeurigere voorspellingen over drift. Zo hebben debatten over de aannemelijkheid van Wright's Shifting Balance Theory een beroep gedaan op kenmerken van Wright-Fisheriaanse drift - zoals de waarschijnlijkheid van fixatie van een nieuwe mutant in een kleine populatie, tijd tot fixatie van neutrale allelen, en de interactie van selectie en drift - wat anders kan zijn als de populaties andere soorten drift ondergaan (voor een overzicht van het debat, zie Coyne et al. (1997)).


Laten we ons de ongelukkige polysemie van het woord "drift" herinneren. In de biologische literatuur komt "genetische drift" overeen met de door ruis veroorzaakte variaties. Bij gebruik van een stochastisch model staat dit op gespannen voet met de “drift” van een diffusie, d.w.z. de eerste orde term die een deterministische kracht modelleert.

Barbour AD, Holst L, Janson S (1992) Poisson-benadering. Oxford studies in waarschijnlijkheid, deel 2. The Clarendon Press/Oxford University Press/Oxford Science Publications, New York

Champagnat N, Ferriere R, Meleard S (2006) Eenmaking van evolutionaire dynamiek: van individuele stochastische processen tot macroscopische modellen. Theor Popul Biol 69(3):297-321

Champagnat N, Ferrière R, Méléard S (2008) Van individuele stochastische processen tot macroscopische modellen in adaptieve evolutie. Stoch-modellen 24 (suppl. 1): 2-44

Chalub FACC, Souza MO (2009) Een niet-standaard evolutieprobleem dat zich voordoet in populatiegenetica. Commun Math Sci 7(2):489-502

Chalub FACC, Souza MO (2014) Het frequentieafhankelijke Wright-Fisher-model: diffuse en niet-diffuse benaderingen. J Math Biol 68(5):1089–1133

Damiens D, Boivin G (2006) Waarom blijven parasitoïde mannetjes zonder sperma paren? Gedrag Ecol 17(1):138–143

Dionisio F (2007) Egoïstisch en hatelijk gedrag door parasieten en ziekteverwekkers. Evol Ecol Res 9(7):1199-1210

Durrett R (1996) Stochastische calculus: een praktische introductie. Waarschijnlijkheids- en stochastische reeksen. CRC Press INC, Boca Raton

Durrett R (2008) Waarschijnlijkheidsmodellen voor DNA-sequentie-evolutie, 2e edn. Waarschijnlijkheid en zijn toepassingen (New York). Springer, New York

Ethier SN, Kurtz TG (1986) Markov-processen: karakterisering en convergentie. Wiley-reeksen in waarschijnlijkheid en wiskundige atatistiek: waarschijnlijkheids- en wiskundige statistiek. Wiley, New York

Etheridge A (2011) Enkele wiskundige modellen uit populatiegenetica. Collegenota's in de wiskunde, vol 2012. Springer, Heidelberg. (Lezingen van de 39e Probability Summer School in Saint-Flour, 2009)

Ewens WJ (2004) Wiskundige populatiegenetica. I: theoretische inleiding, 2e edn. Interdisciplinaire toegepaste wiskunde, vol 27. Springer, New York

Foster KR, Wenseleers T, Ratnieks FLW (2001) Spite: de onbewezen theorie van Hamilton. Ann Zool Fenn 38(3–4):229–238

Gillespie JH (1974) Natuurlijke selectie voor variantie binnen de generatie in het aantal nakomelingen. Genetica 76(3):601–606

Gillespie JH (1975) Natuurlijke selectie voor variantie binnen de generatie in nakomelingen nummer II. Discrete haploïde modellen. Genetica 81(2):403–413

Grimmett GR, Stirzaker DR (2001) Waarschijnlijkheid en willekeurige processen, 3e druk. Oxford University Press, New York

Hamilton WD (1970) Egoïstisch en hatelijk gedrag in een evolutionair model. Natuur 228(5277):1218-1220

Janson S (1994) Grote afwijkingsongelijkheden voor sommen van indicatorvariabelen. Technisch rapport nr. 34, afdeling Wiskunde, Universiteit van Uppsala

Joag-Dev K, Proschan F (1983) Negatieve associatie van willekeurige variabelen, met toepassingen. Ann Stat 11(1):286-295

Lessard S (2005) Langetermijnstabiliteit van fixatiekansen in eindige populaties: nieuwe perspectieven voor ESS-theorie. Theor Popul Biol 68(1):19–27

McKane AJ, Waxman D (2007) Enkelvoudige oplossingen van de diffusievergelijking van populatiegenetica. J Theor Biol 247(4):849-858

Rice WR (1996) Seksueel antagonistische mannelijke aanpassing veroorzaakt door experimentele stilstand van vrouwelijke evolutie. Natuur 381(6579):232–234

Ross N (2011) Grondbeginselen van de methode van Stein. Probab Surv 8:210-293

Radhakrishnan P, Pérez-Staples D, Weldon CW, Taylor PW (2009) Meervoudige paring en uitputting van sperma bij mannelijke fruitvliegjes uit Queensland: effecten op het gedrag van vrouwtjes. Anim Gedrag 78(4):839-846

Shpak M (2007) Selectie tegen demografische stochasticiteit in populaties met een leeftijdsstructuur. Genetica 177(4):2181–2194

Steiner S, Henrich N, Ruther J (2008) Paring met mannetjes zonder sperma verhoogt de vrouwelijke paringsfrequentie niet in de parasitoïde Lariophagus distinguendus. Entomol Exp Appl 126(2):131–137

Taylor JE (2009) De genealogische gevolgen van polymorfisme van vruchtbaarheidsvariantie. Genetica 182 (3): 813-837

Waxman D (2011) Vergelijking en inhoud van het Wright-Fisher-model van willekeurige genetische drift, de diffusiebenadering en een tussenmodel. J Theor Biol 269:79–87


Methoden:

We beginnen met aan te nemen dat we een dataset hebben van |$N$| uitgelijnde moleculaire sequenties |$ extbf=( ekstbf_1,dots, extbf_N)$| samen met |$N$| bijbehorende waarden |$ extbf=( ekstbf_1,dots, extbf_N)$| van een |$M$| -dimensionale, continu variërende eigenschap. De verschillende coördinaten van de "eigenschap" kunnen in feite verschillende fenotypes vertegenwoordigen, maar voor de eenvoud, en zonder verlies van algemeenheid, beschouwen we het als een enkele multidimensionale eigenschap. De sequentie- en eigenschapgegevens komen overeen met de |$N$| toppen van een onbekende maar schatbare fylogenetische boom |$ au$|⁠ . Later zullen we de boekhouding van fylogenetische onzekerheid bespreken, waarbij we het moleculaire evolutieproces modelleren dat aanleiding geeft tot |$ extbf$| en het integreren met een model voor de evolutie van eigenschappen. Maar eerst onderzoeken we de evolutie van eigenschappen op een vaste fylogenie via een diffusieproces dat voorwaardelijk onafhankelijk langs zijn takken werkt.

De |$N$| -getipte vertakte fylogenetische boom |$ au$| is een grafiek met een reeks hoekpunten |$mathcal = (wiskundig_1,punten,wiskunde_<2N-1>)$| en randgewichten |$mathcal=(t_1,dots,t_<2N-2>)$|⁠ . De hoekpunten komen overeen met knooppunten van de boom en, net als de lengte van de boom |$ au$| wordt gemeten in tijdseenheden, |$mathcal$| bestaat uit tijden die overeenkomen met taklengtes. Elke externe knoop (boomtip) |$mathcal_i$| voor |$i = 1, dots , N$| is van graad 1, met één ouderknooppunt |$mathcal_$| vanuit de interne of root nodes. Elk intern knooppunt |$mathcal_i$| voor |$i = N+1, dots , 2N-2$| is van graad 3 en het hoofdknooppunt |$mathcal_<2N-1>$| is van graad 2. Een rand met gewicht |$t_i$| verbindt |$mathcal_i$| naar |$wiskunde_$|⁠ , en we verwijzen naar deze rand als branch |$i$|⁠ . Naast de waargenomen eigenschapswaarden |$ extbf_1,dots, extbf_N$| bij de externe knooppunten stellen we voor wiskundig gemak niet-geobserveerde eigenschapswaarden |$ extbf_,stippen, ekstbf_<2N-1>$| op de interne knooppunten en wortel.

Brownse diffusie (ook bekend als een Wiener-proces of onbevooroordeelde willekeurige wandeling) is een continu-tijd stochastisch proces dat oorspronkelijk is ontwikkeld om de willekeurige beweging van een fysiek deeltje te modelleren (Brown 1828 Wiener 1958). Voor een multivariate Brownse diffusieproces |$ extbf(t)$|⁠ , de verhoging |$ extbf(t_2) - extbf(t_1)$| van het proces dat begint op het tijdstip |$t_1$| en eindigend op tijd |$t_2 ge t_1$| is multivariaat normaal verdeeld met gemiddelde |$ extbf<0>$| en variantie |$(t_2-t_1) extbf$|⁠ , waar |$ extbf$| is een |$M imes M$| identiteitsmatrix. Het proces is in de tijd homogeen omdat de variantie alleen afhangt van tijdsverschillen en niet van werkelijke tijdstippen. Brownse diffusie wordt ook gekenmerkt door onafhankelijke incrementen: als |$t_1 < t_2 leq t_3 < t_4$|⁠ , dan zijn de verplaatsingen |$ extbf(t_2) - extbf(t_1)$| en |$ extbf(t_4) - extbf(t_3)$| zijn onafhankelijk.

Recente fylogenetische vergelijkende methoden (Felsenstein 1988 Revell en Harmon 2008 Vrancken et al. 2015) hebben tot doel de gecorreleerde evolutie tussen meerdere eigenschappen te modelleren en daartoe gebruik te maken van een gecorreleerde multivariate Brownse diffusie met verplaatsingsvariantie |$(t_2-t_1) extbf

^<-1>$| en verplaatsing gemiddelde |$ extbf<0>$|⁠ . Hier, |$ extbf

$| is een |$M imes M$| oneindig kleine precisiematrix die de intensiteit en correlatie van de eigenschapdiffusie bepaalt na controle voor gedeelde evolutionaire geschiedenis. Bedenk dat in onze ontwikkeling de verschillende coördinaten van een |$M$| -dimensionale "eigenschap" kan in feite verschillende eigenschappen vertegenwoordigen, in welk geval de correlatie tussen eigenschappen kan worden verkregen uit de juiste coördinaten van |$(t_2-t_1) extbf

^<-1>$|⁠ . Het verplaatsingsgemiddelde van |$ extbf<0>$| stelt dat de eigenschappen niet evolueren volgens een systematische directionele trend.

Het Brownse diffusieproces langs een fylogenie produceert de waargenomen eigenschapswaarden door te beginnen bij de wortelknoop en verder te gaan langs de takken van |$ au$|⁠ . De verplaatsing |$ extbf_i - extbf_$| langs een tak is multivariaat normaal verdeeld, gecentreerd op |$ extbf<0>$| met variantie |$t_i extbf

^<-1>$| evenredig met de lengte van de tak. Daarom conditioneren op de eigenschapwaarde |$ extbf_$| op het bovenliggende knooppunt hebben we

In dit artikel verwijzen we naar dit gecorreleerde standaard Brownse diffusiemodel voor fylogenetische eigenschapsevolutie als eenvoudigweg het random walk (RW) -model. Een extensie die branchespecifieke mengparameters introduceert |$ u_i$| in het proces dat |$t_i mapsto u_i t_i$| . herschaalt levert een mengsel van Brownse processen op en blijft populair in de fylogeografie (Lemey et al. 2010).

Trends

Het opnemen van een niet-triviaal verplaatsingsgemiddelde in het diffusieproces is op verschillende manieren gunstig. Ten eerste kunnen we richtingtrends schatten en kwantificeren. Wat nog belangrijker is, het maakt het mogelijk om aspecten van het evolutionaire proces af te leiden die misschien slecht worden benaderd of volledig niet worden verklaard door standaard Brownse diffusie. Een nauwkeurigere modellering van de dynamiek van de evolutie van eigenschappen opent de deur naar betere reconstructies van voorouderlijke eigenschappen, die bijvoorbeeld belangrijke implicaties kunnen hebben voor het ophelderen van de oorsprong en verspreiding van virale epidemieën en uiteindelijk voor het verbeteren van de surveillance van ziekten en het beheer van uitbraken (Woolhouse et al. 2015).


BEOORDELING VAN DE MAXIMUM-WAARSCHIJNLIJKHEIDSSCHATTER

Simulatie methoden: We vergeleken de maximum-waarschijnlijkheidsschatter met de F-statistiekschatter met simulatietests. Zoals eerder opgemerkt, schatten deze twee schatters niet altijd dezelfde hoeveelheid. De F-statistische methode schat de effectieve grootte van de variantie en de hierboven beschreven maximale waarschijnlijkheidsbenadering schat de parameter N van een Wright-Fisher-populatie. In deze simulatietests schatten de twee schatters dezelfde hoeveelheid omdat onze gesimuleerde populaties evolueerden volgens het Wright-Fisher-model. In elke gesimuleerde replica selecteerden we startfrequenties voor elke locus uit een uniforme verdeling. De gesimuleerde populaties bestonden uit 50 allelen (25 diploïde individuen). We hebben 100 allelen (50 diploïde individuen) uit de populatie bemonsterd, met vervanging, volgens drie verschillende bemonsteringsregimes (zie tabel 1). Voor elke replica hebben we zowel de maximale waarschijnlijkheid als . berekend F-statistische schattingen van de populatieomvang. De F-statistiek werd berekend volgens F ^ k = 2 ( ( p 0 , A pt , A ) 2 ( p 0 , A + pt , A ) + ( p 0 , a − pt , a ) 2 ( p 0 , a + pt , a ) ) (7) uit W aples (1989a, vergelijking 9), waarbij P0,A, Pt,EEN, P0,a, en Pt,een zijn de allelfrequenties van alleltype A en a in de monsters genomen op generaties 0 en t, respectievelijk. De effectieve grootte van de variantie werd vervolgens berekend volgens N ^ = t 2 [ F ^ k − ( 1 n 0 ) − ( 1 ∕ n t ) ] (8) ook van W aples (1989a, vergelijking 11), waarbij N0 en Nt zijn het totale aantal allelen dat is bemonsterd op generaties 0 en t.

Toen er drie bemonsteringsgebeurtenissen waren, gebruikten we het harmonische gemiddelde van de N schattingen voor de twee intervallen. Deze schatter is afgeleid door de twee te poolen F-statistische schattingen en deze gepoolde waarde gebruiken om te berekenen N. P ollak (1983) ontwikkelde vergelijkbare schatters voor populatiesteekproeven zonder vervanging (hypergeometrisch). In de voorbeelden die we hebben overwogen, zijn de drie schatters afgeleid door Pollak (1983) dezelfde als de schatter voor het harmonisch gemiddelde, behalve dat ze groter zijn door multiplicatieve constanten. Omdat in onze simulatietests de F-statistische schatter was naar boven vertekend, de Pollak-schatters van N waren minder nauwkeurig dan onze harmonische gemiddelde schatter en worden niet getoond.

Resultaten van simulatietests in haploïde getallen

In alle replica's was het aantal bemonsterde individuen in elke bemonsteringsgebeurtenis twee keer zo groot als de grootte van de gesimuleerde populatie. Wanneer de steekproefomvang klein is, kan een steekproeffout in plaats van genetische drift de belangrijkste reden zijn voor waargenomen veranderingen in allelfrequenties (W aples 1989b). We hebben dit probleem vermeden door aan te nemen dat grote steekproeven uit de populatie konden worden genomen. Gelukkig is het vaak mogelijk om grote aantallen individuen te bemonsteren, zelfs als het aantal fokkende individuen laag is. Vaak worden juvenielen bemonsterd uit populaties met een hoge juveniele sterfte, en het aantal broedende volwassenen kan orden van grootte lager zijn dan het aantal juvenielen. Ons steekproefschema is dus representatief voor het schema dat in de literatuur wordt gevonden (W aples 1990 W aples en T eel 1990 H edgecock et al. 1992 Echtgenoot en B arrett 1992a,b J ordan et al. 1992 L essios et al. 1994 H edrick et al. 1995 B urczyk 1996 J order en R yman 1996 R ichards en L eberg 1996 M iller en K apuscinski 1997 S cribner et al. 1997 D alla et al. 1998 L aikre et al. 1998 Lehmann et al. 1998).

In een toepassing op echte gegevens in plaats van een simulatietest, F-statistiek of de maximale waarschijnlijkheidsschatting kan altijd worden berekend, maar de schatting kan oneindig of zeer groot zijn. Om de looptijd te verkorten, stopte het programma in onze simulatietests alle zoekopdrachten naar het maximum van de waarschijnlijkheidscurve als werd vastgesteld dat de maximale waarschijnlijkheidsschatting van de populatiegrootte >500 was. We kozen voor 500 omdat het een orde van grootte groter is dan de werkelijke populatiegrootte, 50. Om eerlijk te zijn voor beide schatters, hebben we alle simulatiereplicaties weggegooid waarin een van beide schatters >500 was. Voor elke schatter hebben we het gemiddelde en de standaarddeviatie berekend voor de schattingen van N met behulp van de replica's die niet werden weggegooid. Als afzonderlijke statistiek hebben we het aantal keren dat elke schatter >500 was, genoteerd. Het aantal weggegooide replica's was de vereniging van deze gebeurtenissen. Deze simulatietests waren rekenintensief, dus we hebben veel meer replica's uitgevoerd voor de gevallen waarin er 5, 10 of 15 loci waren, omdat dit de meest realistische waarden zijn voor toepassingen van deze methode op echte gegevens.

Simulatie resultaten: Beide schatters hadden de neiging de populatiegrootte te overschatten en hadden een hoge variantie voor steekproeven met weinig loci. Deze opwaartse vertekening en grote variantie van de schatters zouden veel groter zijn geweest als we replica's niet hadden weggegooid. In al onze simulatietests lag de gemiddelde maximale waarschijnlijkheidsschatting van de populatiegrootte onder de replica's die niet werden weggegooid echter dichter bij de gesimuleerde populatiegrootte dan de gemiddelde F-statistische schatting (tabel 1). Evenzo was de variantie in de waarschijnlijkheidsschattingen tussen deze replica's kleiner dan de variantie in F-statistische schattingen (tabel 1). Ook de F- statistische schatting was meer dan een orde van grootte groter dan de werkelijke waarde, ongeveer twee keer zo vaak als de maximale waarschijnlijkheidsschatting (tabel 1). De schattingen waren positief gecorreleerd en de F-statistische schatting was over het algemeen >500 wanneer de schatting van de maximale waarschijnlijkheid >500 was. We hadden vergelijkbare resultaten toen we simulatietests uitvoerden met initiële allelfrequenties die waren ontleend aan bètadistributies met verschillende parameters (niet getoond). De schatting van de maximale waarschijnlijkheid lijkt dus robuust voor schendingen van onze aanname dat allelfrequenties in eerste instantie worden afgeleid uit een uniforme verdeling.

Zoals verwacht verminderde het verhogen van het aantal loci of het aantal bemonsterde tijdstippen zowel de variantie als de vertekening in beide schatters (tabel 1). Als het aantal markers erg groot was, in de orde van 100 tot 200 loci, dan presteerden beide schatters erg goed. Het verschil tussen de twee schatters was duidelijker bij steekproeven met minder markers. Het verhogen van het aantal bemonsteringstijden verbeterde de schattingen voor beide methoden (tabel 1). De dramatische verbetering in beide schatters met meervoudige steekproeven (tabel 1) kan worden verklaard door de aanvankelijke snelle toename van de nauwkeurigheid in beide schatters, met name de F-statistische schatter, naarmate het aantal bemonsterde loci toeneemt. Het hebben van monsters die twee tijdsintervallen van dezelfde lengte bestrijken, is ongeveer gelijk aan het nemen van twee keer zoveel loci over één tijdsinterval.


2 antwoorden 2

Als $m = k imes n$, kunnen we dit bekijken in termen van $k$ en $n$ in plaats van $n$ en $m$. Laten we zeggen dat $T_i$ de tijd is die de $i$-de processor nodig heeft om zijn werk te voltooien.

Naarmate $n$ groeit, benadert de kans dat $T_i$ = $5k$ (de processor kreeg slechts $T=5$ taken) voor sommige $i$ $1$, dus makespan wordt gedefinieerd als $mathrm(T_i)$, $E[M]$ benadert $5k$.

Voor het tweede scenario is dit $ 4k $, dus het verhogen van het aantal processors maakt de 4-2-splitsing beter.

Hoe zit het met $k$ — het aantal taken per processor verhogen? Het verhogen van $k$ heeft het tegenovergestelde effect, het maakt het minder waarschijnlijk dat een processor een ongelukkige reeks taken heeft. Ik ga nu naar huis, maar daar kom ik later op terug. Mijn "voorgevoel" is dat naarmate $k$ groeit, het verschil in $E[M]$ tussen de 4–2 splitsing en de 5–1 splitsing verdwijnt, en dat $E[M]$ voor beide hetzelfde wordt. So I would assume that 4–2 is always better except maybe for some special cases (very small specific values of $k$ and $n$), if even that.

  • Lower variance is better, all else being equal.
  • As the number of processors grows, lower variance becomes more important.
  • As the number of tasks per processor grows, lower variance becomes less important.

I find that heuristic arguments are often quite misleading when considering task scheduling (and closely related problems like bin packing). Things can happen that are counter-intuitive. For such a simple case, it is worthwhile actually doing the probability theory.

Let $n = km$ with $k$ a positive integer. Suppose $T_$ is the time taken to complete the $j$-th task given to processor $i$. This is a random variable with mean $mu$ and variance $sigma^2$. The expected makespan in the first case is $ E[M] = E[max left^k T_ mid i=1,2,dots,m ight>]. $ The sums are all iid with mean $kmu$ and variance $ksigma^2$, assuming that $T_$ are all iid (this is stronger than pairwise independence).

Now to obtain the expectation of a maximum, one either needs more information about the distribution, or one has to settle for distribution-free bounds, such as:

  • Peter J. Downey, Distribution-free bounds on the expectation of the maximum with scheduling applications, Operations Research Letters 9, 189–201, 1990. doi:10.1016/0167-6377(90)90018-Z

which can be applied if the processor-wise sums are iid. This would not necessarily be the case if the underlying times were just pairwise independent. In particular, by Theorem 1 the expected makespan is bounded above by $ E[M] le kmu + sigmasqrtfrac>. $ Downey also gives a particular distribution achieving this bound, although the distribution changes as $n$ does, and is not exactly natural.

Note that the bound says that the expected makespan can increase as any of the parameters increase: the variance $sigma^2$, the number of processors $n$, or the number of tasks per processor $k$.

For your second question, the low-variance scenario resulting in a groter makespan seems to be an unlikely outcome of a thought experiment. Let $X = max_^m X_i$ denote the makespan for the first distribution, and $Y = max_^m Y_i$ for the second (with all other parameters the same). Here $X_i$ and $Y_i$ denote the sums of $k$ task durations corresponding to processor $i$ under the two distributions. For all $x ge kmu$, independence yields $ Pr[X le x] = prod_^m Pr[X_i le x] le prod_^m Pr[Y_i le x] = Pr[Y le x]. $ Since most of the mass of the probability distribution of the maximum will be above its mean, $E[X]$ will therefore tend to be larger than $E[Y]$. This is not a completely rigorous answer, but in short, the second case seems preferable.


Dankbetuigingen

Thanks to Valeriano Iranzo, Silvia Martínez, Jesús Alcolea, Andrés Moya, Manuel Serra, Jun Otsuka, Andy Gardner and an anonymous referee for useful comments on an earlier version of this paper. Special thanks to Andy Gardner and Samir Okasha for clarify me their position on the Price equation via personal communication. I also wish to thank Sean H. Rice for his insightful work and for clarify me his view on the Price equation and axiomatic theories via personal communication. Thanks to Bruce Walsh for sending me his great draft on the Price equation. I am grateful to Vicent Picó for providing me with insightful feedback on Newtonian mechanics and key concepts on physics, and also on previous drafts of this paper. I am also grateful to Jesús Alcolea for enlightening discussions on logic and mathematics.