Informatie

Manieren om onderscheid te maken tussen zuiverende selectie en selectieve sweep


Wanneer we naar genomische gegevens van een populatie kijken, kunnen regio's met een lage diversiteit (lager dan verwacht, zoals in een regio met hoge recombinatie) wijzen op ofwel zuiverende selectie van schadelijke mutaties of een selectieve sweep van een adaptieve mutatie. Wat zijn enkele manieren waarop men kan zien welke zich heeft voorgedaan?

Een manier waarvan ik heb gehoord, is om een ​​outgroup te gebruiken die niet dezelfde gebeurtenissen heeft meegemaakt als de hoofdgroep. Als de outgroup ook een lage diversiteit heeft, betekent dit dat niet-synonieme mutaties in die regio schadelijk zijn, ongeacht de gebeurtenissen, en dus hebben die homogene regio's waarschijnlijk een zuiverende selectie ondergaan. Als de outgroup een hoge diversiteit heeft in die regio's, heeft de hoofdgroep waarschijnlijk een selectieve sweep ondergaan.

Wat zijn andere manieren om onderscheid te maken tussen de twee?


Welkom bij Biology.SE!

Ik heb onlangs de literatuur over dit en soortgelijke onderwerp doorgenomen, dus ik zal graag antwoorden.

Het antwoord zal niet eenvoudig te formuleren zijn, aangezien een aantal auteurs aan het werk zijn en ruzie maken over de vraag. Ik zal proberen een snel overzicht van methoden te geven.

Definities: Achtergrondselectie en selectieve sweep

Laten we eerst de juiste termen gebruiken. Zoals je beschreef, vermindert zowel positieve als zuiverende selectie de genetische diversiteit op nabijgelegen loci. Wanneer de vermindering van genetische diversiteit wordt veroorzaakt door positieve selectie, noemen we het processelectieve sweep. Wanneer de vermindering van genetische diversiteit wordt veroorzaakt door zuiverende selectie, noemen we het procesachtergrond selectie.

Wat beïnvloedt de achtergrondselectie?

  • recombinatie tarief:
  • Kracht van selectie.
    • Voor een gegeven neutrale locus op afstand $r$ centimorganen van een locus onder zuiverende selectie, is de selectieve coëfficiënt $s$ die de grootste afname in genetische diversiteit veroorzaakt $s=r$ (Nordborg 1997).
  • Mutatiesnelheid
  • bevolkingsstructuur

Wat beïnvloedt een selectieve sweep?

  • Kracht van selectie
  • bevolkingsstructuur
  • Aantal loci betrokken bij aanpassing
  • Of aanpassing afkomstig is van de novo mutatie of permanente genetische variatie

Trouwens, misschien wil je de termen 'soft sweep' versus 'hard sweep' bekijken in relatie tot de twee laatste elementen van de bovenstaande lijst en in relatie tot lokale aanpassing.

Hoe achtergrondselectie te ontwarren van selectieve sweep?

Er zijn een aantal technieken, maar ook dat is allemaal work-in-progress. Ik zou deze methoden willen indelen in drie thema's.

  1. Omgevingscovariaat

Dit eerste element gaat over het ontwarren van lokale selectie van achtergrondselectie. Het is misschien niet precies waar je om vroeg, maar deze discussie staat vaak centraal in de literatuur als het over beide gaat.

Als we aannemen dat we de omgevingsvariabele kennen die de aanpassing veroorzaakt, dan kun je de divergentie vergelijken tussen de populatie in verschillende omgevingen en die in dezelfde omgeving. Als verlies van genetische diversiteit wordt veroorzaakt door lokale selectie, dan zou de divergentie groter moeten zijn tussen populaties die voorkomen in verschillende omgevingen. Als verlies van genetische diversiteit wordt veroorzaakt door achtergrondselectie, zullen alle populaties vergelijkbare divergentie vertonen. Bayesiaanse technieken zoals BayEnv2 (Gunther en Coop 2013) profiteren van deze techniek.

  1. Vergelijkingen tussen geslachten

Door verwante soorten te vergelijken, is het mogelijk om regio's met een lage genetische diversiteit te ontdekken. Als alle verwante afstammingslijnen vergelijkbaar verlies van genetische diversiteit vertonen, ongeacht het bestaan ​​van een adaptieve gebeurtenis, dan wordt het verlies van genetische diversiteit waarschijnlijk veroorzaakt door achtergrondselectie.

Van dergelijke methoden (maar ik begrijp ze misschien niet helemaal, ik zou de paper opnieuw moeten lezen), hebben sommige auteurs (zoals McVicker 2009) B-map gebouwd en onlangs geïmplementeerd in BayeScan (Huber et al. 2016; BayeScan is een eerste uitbijter methode om lokale aanpassing te detecteren), dat wil zeggen een kaart van het genoom van de intensiteit van achtergrondselectie gemeten door de B-waarde geïntroduceerd door Charlesworth (geschiedenis van de term beoordeeld in Charlesworth 2012)

  1. Allel-frequentie-spectrum

Zowel achtergrondselectie als een selectieve sweep beïnvloeden het allelfrequentiespectrum en veroorzaken een overmaat aan zeldzame allelen (Tajima's D < 0). De sterkte van het effect en het gedetailleerde effect op het allele-frequentiespectrum is echter niet helemaal hetzelfde en sommige auteurs hebben voorgesteld om dergelijke verschillen te gebruiken om de twee te ontwarren.

Leessuggesties

Er is veel te lezen over het onderwerp. Ik zou de recente speciale uitgave in Molecular Ecology DETECTING SELECTION IN NATUURLIJKE POPULATIES aanbevelen, inclusief de recensie Haasl en Payseur 2016.


Onderscheid maken tussen selectieve sweeps en demografie met behulp van DNA-polymorfismegegevens

In 2002 stelden Kim en Stephan een veelbelovende composiet-waarschijnlijkheidsmethode voor om het fitnessvoordeel van een recent vastgestelde gunstige mutatie te lokaliseren en te schatten. Hier laten we zien dat hun composiet-waarschijnlijkheidsratio (CLR) -test die selectieve en neutrale hypothesen vergelijkt niet robuust is voor niet-gedetecteerde populatiestructuur of een recent knelpunt, waarbij sommige parametercombinaties resulteren in een fout-positief percentage van bijna 90%. We stellen ook een goodness-of-fit-test voor voor het onderscheiden van afwijzingen als gevolg van directionele selectie (echt positief) van die als gevolg van populatie- en demografische krachten (vals-positieven) en laten zien dat de nieuwe methode een hoge gevoeligheid heeft om de twee klassen van afwijzingen te onderscheiden.

DE substitutie van een sterk geselecteerde voordelige mutatie zal naar verwachting de frequenties van gekoppelde neutrale variatie veranderen (M aynard-S mith en H aigh 1974 K aplan et al. 1989 Stéphane et al. 1992). Er zijn verschillende statistische tests voorgesteld om een ​​dergelijke "selectieve sweep" -gebeurtenis af te leiden op basis van voorspelde effecten ten opzichte van het standaard neutrale model. Deze omvatten (1) een depressie van verwachte heterozygotie ten opzichte van divergentie bij het selectiedoel (Hudson et al. 1987), (2) een overmaat aan zeldzame allelen vergeleken met het standaard neutrale model (T ajima 1989 B raverman et al. 1995 F u 1997), (3) een overmaat aan hoogfrequente allelen (Fay en W u 2000), en (4) toegenomen koppelingsonevenwicht (P rzeworski 2002, Kim en Nielsen 2004). Aangezien deze handtekeningen zijn gelokaliseerd in regio's die grenzen aan de doelwitten van selectie, lijkt het redelijk om te proberen loci te identificeren die onderhevig zijn aan recente directionele selectie door genomische patronen van vermoedelijk neutraal polymorfisme te analyseren (bijv., Harr et al. 2002 K im en S tephan 2002 V igouroux et al. 2002).

Een potentieel probleem bij dit streven is echter het lage vermogen om patronen te onderscheiden die verwacht worden tijdens het liften van vergelijkbare patronen die door toeval zijn geproduceerd onder niet-evenwichtige omstandigheden bij afwezigheid van selectie. Herstel van een recent populatieknelpunt kan bijvoorbeeld resulteren in een overmaat aan zeldzame allelen (T ajima 1989a, b), evenals populatie-expansie (F u en Li 1993). Verontrustender is het feit dat selectie tegen gekoppelde schadelijke mutaties ook kan leiden tot een overmaat aan zeldzame allelen wanneer de effectieve populatiegrootte klein is (bijv., Charlesworth et al. 1993). Meer recent suggereerden Fay en W u (2000) dat een overmaat aan hoogfrequente allelen in een steekproef waarschijnlijker te wijten is aan liften dan aan andere scenario's. Ze wezen er echter ook op dat als er veel vaste verschillen zijn tussen populaties die zeldzame migranten uitwisselen, polymorfismen in de populatie de neiging hebben om zeer lage of hoge frequenties te hebben. Verder toonde P rzeworski (2002) aan dat verschillende demografische modellen hetzelfde effect hebben op Fay en Wu's H-statistiek als een selectieve sweep. Recente knelpunten en metapopulatiestructuren (W akeley en A licar 2001) bleken ook vaker te resulteren in hoogfrequente allelen dan zou worden verwacht onder het standaard neutrale model. Ondanks deze duidelijke effecten van niet-selectieve krachten, hebben velen betoogd dat men nog steeds selectieve sweeps kan onderscheiden van demografie, aangezien de eerste een gelokaliseerde handtekening rond het doelwit van selectie genereert, terwijl de laatste het hele genoom gelijkelijk beïnvloedt. Bij afwezigheid van selectieve zwaaien kunnen we echter nog steeds lokale variatiefluctuaties langs een reeks waarnemen, die waarschijnlijk worden versterkt door demografische krachten en recombinatie die lijken op het verwachte patroon van een selectieve zwaai. Dus, hoewel het variatiepatroon langs een chromosoom geproduceerd door liften vrij voorspelbaar is, is het vaak moeilijk om er zeker van te zijn dat een bepaalde afwijking van neutraliteit te wijten is aan liften en niet aan enkele stochastische effecten die zich manifesteren in de enkele realisatie van het evolutionaire proces.

Kim en Stephan (2002) presenteren een samengestelde waarschijnlijkheidsmethode om selectieve sweeps te onderscheiden van stochastische, neutrale variatie, ervan uitgaande dat de steekproef van DNA-sequenties wordt getrokken uit een willekeurig parende populatie van constante grootte. Ze tonen aan dat hun methode een aanzienlijk vermogen heeft om een ​​recente selectieve sweep te detecteren en onbevooroordeelde schattingen oplevert van de locatie en sterkte van de gunstige mutatie. Hier onderzoeken we in hoeverre knelpunten en niet-gedetecteerde populatiestructuur de type I-fout van hun composiet-waarschijnlijkheidsratio (CLR) -test beïnvloeden. De CLR-test werd om twee hoofdredenen bestudeerd. Ten eerste is aangetoond dat het een hoog vermogen heeft, wat aangeeft dat het nuttig kan zijn voor scans van het hele genoom voor adaptief evoluerende genen. Ten tweede is de teststatistiek (zoals hieronder wordt besproken) de verhouding van de waarschijnlijkheid van de gegevens die een recent voltooide selectieve sweep hebben gekregen tegen een evenwichtsneutraal model. Daarom zou men kunnen voorspellen dat populatieprocessen die grote afwijkingen van het laatste model veroorzaken, kunnen leiden tot de valse verwerping van de nulhypothese van neutraliteit en dus tot de foutieve gevolgtrekking van een recente selectieve sweep. Met behulp van coalescentiesimulaties laten we zien dat de CLR-test zoals voorgesteld door Kim en Stephan (2002) niet robuust is voor de aanname van constante populatiegrootte en willekeurige paring. Door het gebruik van de voorgestelde goodness-of-fit-test kan het echter mogelijk zijn om een ​​onderscheid te maken tussen datasets die neutraliteit verwerpen als gevolg van directionele selectie en die vanwege niet-selectieve effecten.


MATERIALEN EN METHODES

Bacteriofaag T7: Uitgaande van een enkele plaque (aangeduid als WT), werd een populatie van T7 gedurende 500 lytische cycli, ∼ 2500 generaties, vermeerderd door C.W. Cunningham en J.J. Bull aan de Universiteit van Texas, Austin (Figuur 1). Bij elke lytische overdracht werd ∼2 l van de 2 ml lytische kweek van virussen (∼105 individuen) overgezet naar de volgende buis, en op geen enkel moment werd de afstamming beperkt tot een enkel individu. De afstamming werd bemonsterd op drie tijdstippen die zijn genoemd naar de leeftijd van de afstamming in aantal lytische cycli (één lytische cyclus is ∼5 generaties JJ Bull, persoonlijke communicatie): populaties CW100, CW400 en CW500. De genen waarvan de sequentie werd bepaald (geïdentificeerd in Dunn en S tudier 1983) van de enkele voorouderlijke plaque en de afstammelingenpopulaties waren de eerste 285 bp van 0,3, die gastheerrestrictie inactiveert (de rest van het gen werd afgekapt door een deletiegebeurtenis, zoals in C unningham et al. 1997) 17,0 (1662 bp), een staartvezeleiwit 17,5 (204 bp), dat is geassocieerd met lysis en 18,0 (270 bp), een DNA-rijpingseiwit. Sequenties zijn GenBank nrs. AF419412-AF419511. T7 werd gekweekt in kweken van 2 ml van Escherichia coli stam W3110 in aanwezigheid van het mutageen N-methyl-N′-nitro-N-nitrosoguanidine (20 g/μl). Zie H illis et al. (1992) en Bull et al. (1993) voor verdere details over de groei en het onderhoud van de T7-faag.

Wijziging van huidige testen: Als voorbeeld illustreren we onze methode met F u en L i ’s NS test (1993), maar het is belangrijk erop te wijzen dat hetzelfde idee van toepassing is op F u en L i ’s F, D * , F * (1993), en Tajima's NS testen (1989). Het belangrijkste idee achter onze methode is dat onder selectieve neutraliteit van polymorfisme de verdeling van niet-synonieme en synonieme mutaties evenredig moet zijn over een genealogie. In termen van Fu en Li's NS test, betekent dit dat de verhouding van niet-synonieme mutaties op interne vertakkingen van een genealogie tot die op externe vertakkingen gelijk moet zijn aan de verhouding van synonieme mutaties op interne naar externe vertakkingen. Als gevolg van homogene processen, zoals populatie-expansie of selectieve sweep, is er een overmaat aan mutaties op externe takken (d.w.z., zeldzame allelen), maar dit beïnvloedt zowel niet-synonieme als synonieme mutaties in gelijke mate. Zuiverende selectie en alle resulterende segregerende schadelijke mutaties hebben heterogene effecten op een locus. Niet-synonieme en synonieme mutaties worden niet gelijkelijk beïnvloed, dus de verdeling van mutaties is disproportioneel. Bij zuiverende selectie zal er een overmaat zijn aan mutaties op uitwendige takken, maar niet-synonieme mutaties zullen onevenredig vertegenwoordigd zijn omdat ze actief geselecteerd worden en dus op lage frequenties gehouden worden. Om te testen op heterogene effecten hebben we daarom berekend: NS voor twee sets gegevens: niet-synonieme en synonieme mutaties.

Onze procedure (heterogeniteitstest) voor het testen op verschillen in Fu en Li's NS tussen synonieme en niet-synonieme mutaties was relatief eenvoudig. Eerst berekenden we voor elk gen, NS enW (de populatiemutatieparameter, 2Neμ, gebaseerd op het aantal scheidende sites W atterson 1975) afzonderlijk voor de niet-synonieme en synonieme datasets, en vervolgens berekenden we ΔNS (synoniem NS - niet-synoniem NS). Met behulp van een PERL-versie van het make tree-programma van Hudson (1990 beschikbaar op aanvraag of op het web op http://www.duke.edu/

mwh3), hebben we Monte Carlo-coalescentiesimulaties uitgevoerd van 10.000 genealogieën zonder recombinatie, de aanname van geen recombinatie maakt onze test conservatief. Elk van de 10.000 genealogieën werd gesimuleerd met de waarden van zowel synoniemen als niet-synoniemW. Voor elke boom de waarde van Fu en Li's NS werd vervolgens berekend voor zowel synonieme als niet-synonieme mutaties en het verschil,NS, was opgenomen. Deze verdeling van de waarden van ΔNS werd vervolgens gebruikt om de kans te berekenen, P, van het waarnemen van een verschil in NS waarden tussen synonieme en niet-synonieme mutaties zo groot of groter zijn dan het waargenomen verschil. Een eenzijdige toets wordt gebruikt omdat we een a priori verwachting dat NS voor niet-synonieme mutaties zal negatiever zijn vanwege het scheiden van schadelijke mutaties. Dit programma kan ook worden gebruikt op Fu en Li's F, D * , F * , en Tajima's NS statistieken.

Gegevensanalyse: Sequenties die in dit onderzoek werden gebruikt, waren visueel uitgelijnd, er waren geen gaten in een van de uitgelijnde sequenties die we gebruikten. Berekeningen van Fu en Li's NS, π (het gemiddelde aantal paarsgewijze nucleotideverschillen per site Tajima 1983), πeens (de verhouding van paarsgewijze niet-synonieme en synonieme verschillen per site), en θW werden gedaan met DNAsp 3.5 (R ozas en Rozas 1999). De outgroup die wordt gebruikt voor de berekening van NS was de bekende voorouderlijke sequentie (WT).

De populatierecombinatieparameter, γ (2NeC), werd geanalyseerd met SITES (H ey en W akeley 1997). Dit wordt gebruikt omdat Hudson' s C (1987) is onbetrouwbaar voor kleine steekproeven (H ey en W akeley 1997 H udson 1987). Voor sommige populaties kunnen SITES (H ey en W akeley 1997) γ niet berekenen, en in deze gevallen C wordt gebruikt, zijn deze gemarkeerd met een superscript een in Tabel 2. SITES kan voor sommige datasets geen schatting van γ genereren, hetzij omdat ze te weinig informatieve sites hebben die worden gedeeld in subsets van vier regels, hetzij vanwege de afstand tussen die sites met betrekking tot het al dan niet vertonen van bewijs van recombinatie (H ey en W akeley 1997 J. H ey, persoonlijke mededeling). schattingen van C zijn bijna altijd >γ vanwege een fout in de berekening C van kleine steekproefomvang.

M c D onald en K reitman (1991) suggereerden een vergelijking van de verhouding van polymorfisme tot vaste verschillen van zowel synonieme als niet-synonieme mutaties als een statistische test voor het evalueren van de rol van natuurlijke selectie bij het veroorzaken van substituties in eiwitcoderende genen. Deze test suggereert de werking van positieve selectie wanneer er een relatieve overmaat is aan niet-synonieme vaste verschillen (M c D onald en K reitman 1991). We hebben de McDonald en Kreitman (M-K) -test uitgevoerd met behulp van Fisher's exact-test om significantie te evalueren. Vaste verschillen werden berekend tussen de WT-voorouderlijke sequentie en de geëvolueerde populaties.


Inhoud

Een selectieve sweep treedt op wanneer, als gevolg van sterke positieve natuurlijke selectie, gunstige allelen snel gefixeerd worden in een populatie en resulteert in de vermindering of eliminatie van variatie tussen de nucleotiden in de buurt van dat allel. [7] Een selectieve sweep kan optreden wanneer een zeldzaam of voorheen afwezig allel dat de fitheid van de drager verbetert ten opzichte van andere leden van de populatie snel in frequentie toeneemt als gevolg van natuurlijke selectie. Naarmate de frequentie van zo'n gunstig allel toeneemt, zullen genetische varianten die toevallig aanwezig zijn in de DNA-omgeving van het gunstige allel ook vaker voorkomen, dit fenomeen dat genetisch liften wordt genoemd. [6] [8] Een selectieve sweep ontstaat als snelle veranderingen binnen de frequentie van een gunstig allel, aangedreven door positieve selectie, de genealogische geschiedenis van monsters uit de regio rond de geselecteerde locus verstoren. Het wordt nu erkend dat niet alle sweeps genetische variatie op dezelfde manier verminderen, maar selectieve sweeps kunnen worden onderverdeeld in drie hoofdcategorieën: [9] Ten eerste wordt verwacht dat de klassieke selectieve sweep of harde sweep optreedt wanneer gunstige mutaties zeldzaam zijn, maar wanneer een gunstige mutatie die is opgetreden snel in frequentie toeneemt, waardoor de genetische variatie in de populatie drastisch wordt verminderd. Ten tweede treedt zachte sweep van staande genetische variatie (SGV) op wanneer voorheen neutrale mutaties die aanwezig waren in een populatie gunstig worden vanwege een verandering in de omgeving. Een dergelijke mutatie kan op verschillende genomische achtergronden aanwezig zijn, zodat wanneer deze snel in frequentie toeneemt, niet alle genetische variatie in de populatie wordt uitgewist. Ten slotte vindt een soft sweep van meerdere oorsprong plaats wanneer mutaties veel voorkomen, bijvoorbeeld in een grote populatie, zodat dezelfde of vergelijkbare gunstige mutaties optreden op een andere genomische achtergrond, zodat geen enkele genomische achtergrond de hoge frequentie kan liften. [2] Of de selectieve sweep heeft plaatsgevonden kan op verschillende manieren worden onderzocht. Een methode is het meten van koppelingsonevenwicht, dat wil zeggen of een bepaald haplotype oververtegenwoordigd is in de populatie. Onder neutrale evolutie zal genetische recombinatie resulteren in het herschikken van de verschillende allelen binnen de haplotypes, en geen enkel haplotype zal de populatie domineren. Tijdens een selectieve sweep zal selectie op een positief geselecteerde genvariant echter ook resulteren in het liften van naburige allelen en minder kans op recombinatie. Daarom kan de aanwezigheid van een sterk koppelingsonevenwicht erop wijzen dat er een selectieve sweep heeft plaatsgevonden en kan deze worden gebruikt om sites te identificeren die recentelijk zijn geselecteerd. Er zijn veel scans geweest voor selectieve sweeps bij mensen en andere soorten met behulp van een verscheidenheid aan statistische benaderingen en veronderstellingen. [9]

Het belangrijkste verschil tussen zachte en harde selectieve sweeps ligt in het verwachte aantal verschillende haplotypes die de gunstige mutatie of mutaties dragen, en dus in het verwachte aantal haplotypes dat tijdens de selectieve sweep met een aanzienlijke frequentie lift, en die in de populatie op het laatst blijven. tijd van fixatie. Dit belangrijke verschil resulteert in verschillende verwachtingen in zowel het frequentiespectrum van de site als in linkage-onevenwichtigheid, en bijgevolg in de frequente teststatistieken op basis van deze vormen. [2] Als hard sweeps evolutionaire redding mogelijk maken, dan is slechts één enkele voorouder verantwoordelijk voor de verspreiding van de voordelige varianten en dus zal genetische diversiteit uit de populatie worden verwijderd als gevolg van zowel aanpassing als demografische achteruitgang. Aan de andere kant zal een zachte zwaai, waarbij het gunstige allel onafhankelijk wordt afgeleid in meerdere voorouders, bepaalde voorouderlijke diversiteit behouden die bestond vóór de omgevingsverandering die de fitnessveranderingen in gang zette. [9] [7]

Is er een manier om zachte en harde bewegingen te scheiden? Het is duidelijk dat alleen recente adaptieve gebeurtenissen een meetbaar signaal achterlaten (hard of zacht). Signalen uit het frequentiespectrum van de site (zoals de overmaat aan zeldzame allelen die wordt opgepikt door Tajima 1989 [10] ) vervagen meestal op tijdschalen van

0.1 Ne generaties, terwijl signalen op basis van koppelingsonevenwicht of haplotype-statistieken alleen duren


Manieren om onderscheid te maken tussen zuiverende selectie en selectieve sweep - Biologie

kI Cj9=([email protected]*Q*F-hgc!q`Uakp'OEFfu r>)VlhiDWd7+V6V""P&[&. NI?TrEM(sC(,#kB_+BP:5 ?(G7!0(]_kd9']`QFS:`U%]G,[email protected]\%W`KR0i#.Dq CguR6PFCX!Nt4h ")D,[email protected]"X0NUSYua-AFo#*b&8ZGp'Iq_p0##P.^lCWmQ&CXD f_cO&#[j6l)1h9$DurruN0]60XL&/d^>]L.HgPKpBd$CZkCghmbHH:)I?C,* uiQT Y.#Q/frYXq$e9`ZC#"'#HWN4QNL=SJoC+Hl*SJMhV]XB4JnC:!_%AuFMirZSOMlL 7uksSa"JGBhLUS]

]mZeCr3H,"4S DENJPBpRHEb-t$KNa$YnH :_A?gYUP?h.72KWU3),(MC !SehcAe2`a7NJ3VHfaCY20="?lf=$q=]NKo IQ)j!=J`CS%2!O "9oErcYO_dU4rE*fu>Uq*cUEEY[LCXT`OV>iZn*#ECVTi:am [email protected]')[email protected](%$>44O,W8Dk[`nDdK.PG?6N8]T+ l1[%[ 37`8%O#@.NmFtQ*f*4 Us([email protected]:P $)C5EMsI`&/I,/'rC]O>1" 1if+$8IJL* 2' #_aC :$Xr*,H8(AT>/1s_XW)El9%(se"Z^4=J>+$ih.DR28QA]:e2NkcRL#RUH7+] (E=JpNYY.rd78i"W"n]1g?k&Apd) 5+-T2kQK#c/e2fD!K]CAkO+e'pC:R>S-[7o[ jLe`[email protected])&)oJN5DeRf=A4%Jo_I8#$*d(MC4j=pI %"OUHd,0 !#5PIK63dR19tH!IF^l9 hUteCM"%@GcH*SGD4g6QLmDF4fP35,R3^.MFfcog865QNAe`Ya5E^B6V5I.^aL[6b %*A7RObbe)i:1.`ha/[>jjjtJ429k,DjtJk429K

Fq&jAEL4B[ [email protected]+(g[98M)dP&i`lpgq-E]T&M(W'*R+:>\%6:4^UTKdkP3H'hB!k#DE->7Ci=_= ^kQ7UOuZ5efiK=+rLb (lY5W2o'&?fbeu/ #@%]*_.Er&h:m,lWp5P%%-'5=VJu&eI13E"c$^^CWoX1=l*%4E`C`U]XeZfe K0]B/[&s] =$)[email protected]#ZU=D4h] jkfJqC+cX[mX>[email protected]>F:f0+k(:Xajq:-58BB+[3+ #/Wg3Y%oLO":YH*R(2 , *0O3WFa]n+#EN_ZqA3B]c>]ElW4ULgk!9Qq7E`Z/DDA>Iq+P58W8 )_Ln=$Tug9OrTWt:^A7L"!I$nWF6 ,@K$=AT6-`an *(m4nIr%j%uh)N>.j1I!ra%/buec=*Jf=1aL":/Ph'LQ& OfQ^>Vp+]Ot.oKP_-b,]Gl ARO?7B*'UHr"eDn* BX)iH"X#I]kr]g-Vg "$7X,@2R.E08tl3'?>jfFQHO h$6)[email protected]#R+47g P_2OG'bnKZM#.r'5jLdWL?J9#1l4eZK ?duIX_)UbET_-J:'8+feBZXt s/'=/Q(1/^L(jO^Hr0VR qhIko/MId$)[email protected]"[@1O8Ai%OJlAjqkhG=l Hol k'fRhtY=Zl) PT53mTc!#B:,R3to [email protected])l?q-V0aN-7IENq4JCrDk/T$edc1%BVSi:jp!OA%R0K^"AZ.47Y7Q*8Bb`_M 4Zpl$C*`uK/&]dh ZCOr-loa[(IJrQ-' (Xk=g4V+P,'m9F3[nAL1mcSIHJNpqR1%bqs#@g0PBL4P%I's41 PAjgDgkEC" i#oEZDFb[/nI>PYM*%s?5f`%+(` btMpjupmMk!".nAADmhfSL^[email protected]$m!+>$[1a f4:Ul//9ON6F'C4%^!Ue=$nEl%GARrRN0E(91A9!u^'#[email protected] )N) ?t,7pKibHS&'a!GJE"tuR((]/&/o/G hO5,-qV!_cZ/r7BN_ng"tX8pQf)Yqe5 [email protected]_Pr+nVX.H/P11$^@>)Mcc#Qfcakn>Q]C&I:DNf'"pKgO[V$,uc!H/^WC ,r)T #Csf9lV%9J(P=]hY:5mVn/BB

40OL_Or]5L (r]cUicL"2$"W)[email protected]&)A3Uemer)bPO/ScGp+_pQj8_mT5ko-tqORi48)Q >/i H%8g%`A6=[gMt[!hMUJZ&2p[VJbBh$ 8421W*e)d8O^44]9IZdM'[email protected]&>qJH%:JFtglRnt6^#8Y^E`e,,6P a#2`a.HnTo=Qr3uh_2?PlVaj>M4]nX')[Aa2X [email protected]!%[email protected]%uB1"T#IH)Q::Z27RUT_)[email protected]!Rhl:ps*7rUf5e NIqDh,V(+/IQjV8.#eqFlLVe%X1j*Akt)gO'6? CSQC4^7nDr1qRr-IZ4p+3-b LHt _9)AkiE*6KQ^qOg1jO7f&pA/ZHh2&EWZpOk3RrbLm [email protected]'dITo3:1Z-YD-E/KlW'/C&=Jo9'Er_T)-ZpY6'Er_$] 3(Z07jhu

> endstream endobj 3 0 obj > endobj 12 0 obj > endobj 17 0 obj > endobj 22 0 obj > endobj 25 0 obj > endobj 31 0 obj > endobj 34 0 obj > endobj 39 0 obj > endobj 42 0 obj > endobj 45 0 obj > endobj 49 0 obj > endobj 53 0 obj > endobj 56 0 obj > endobj 60 0 obj > endobj 66 0 obj > endobj 10 0 obj > endobj 38 0 obj > endobj 59 0 obj > endobj 37 0 obj > endobj 105 0 obj > endobj xref 0 106 0000000000 65535 f 0000000016 00000 n 0000000172 00000 n 0000720286 00000 n 0000000363 00000 n 0000005155 00000 n 0000106232 00000 n 0000116884 00000 n 0000117938 00000 n 0000118992 00000 n 0000700000007 00000 n 0000700000007 00000 n 0000700000007 n 0000106310 00000 n 0000107273 00000 n 0000720451 00000 n 0000012701 00000 n 0000019837 00000 n 0000108239 00000 n 0000109200 00000 n 0000720535 00000 n 0000020007 00000 n 0000025138 00000 n 0000720619 00000 n 000002000032 01920000 00000 n 00 00000 n 0000040053 00000 n 0000720787 00000 n 0000040236 00000 n 0000049842 00000 n 0000721851 00000 n 0000721652 00000 n 0000720871 00000 n 0000050048 00000 n 0000056935 00000 n 0000720955 00000 0000 000057141 00000 n 0000057141 006 n 0000721123 00000 n 0000069920 00000 n 0000080494 00000 n 0000112968 00000 n 0000721207 00000 n 0000080712 00000 n 0000089592 00000 n 0000721291 00000 n 0000089810 00000 n 0000095931 00000 n 000072170000 00000 n 000072170000 19000 n 000072170000 00000 n 0000721459 00000 n 0000103038 00000 n 0000106085 00000 n 0000121103 00000 n 0000285372 00000 n 0000323402 00000 n 0000121207 00000 n 0000362015 00000 n 0000121318 00000 n 0000395401 00000 n 0000420000460 0000057 0000617634 00000 n 0000648534 00000 n 0000681348 000 0 n 0000121732 00000 n 0000122932 00000 n 0000176301 00000 n 0000231406 00000 n 0000522664 00000 n 0000123144 00000 n 0000176511 00000 n 0000231614 00000 n 0000285576 00000 n 0000323603 00000 n 0000362213 55050000 0000578127 00000 n 0000617832 00000 n 0000648740 00000 n 0000681559 00000 n 0000721951 00000 n aanhangwagen ] >> startxref 722003 %%EOF


Discussie

We evalueerden de prestaties van een samengestelde waarschijnlijkheidsverhoudingstest voor het detecteren van selectieve sweeps (Nielsen et al. 2005 ) bij het opnemen van vaste verschillen in de waarschijnlijkheidsratio naast SFS-informatie, met behulp van uitgebreide simulaties. We laten zien dat er een duidelijke toename van het vermogen en een afname van FPR kan zijn voor een aantal verschillende scenario's in verschillende modellen van mutatiesnelheidsvariatie, populatieknelpunten en achtergrondselectie. We laten ook zien dat schattingen van de sterkte van achtergrondselectie in het raamwerk kunnen worden opgenomen om valse positieven te voorkomen in regio's met sterke, langdurige achtergrondselectie. Door de methode toe te passen op menselijke genetische gegevens, detecteren we nieuwe regio's die niet worden geïdentificeerd als kandidaat-regio's met de standaard sweepfinder-benadering.

Het gebruik van invariante sites verhoogt de kracht en robuustheid

Aangezien zowel diversiteit als divergentie proportioneel veranderen met de mutatiesnelheid, integreren we variatie in mutatiesnelheden door een mate van divergentie op te nemen voor een soort uit de groep. Meer specifiek nemen we sites op die niet polymorf zijn binnen de onderzochte soort, maar verschillen van een out-group-sequentie, dat wil zeggen vaste verschillen. Als de sweepfinder-CLR wordt berekend met inbegrip van alle locaties (CLR3), kan variatie in mutatiesnelheden tot valse positieven leiden (Fig. 4). Als echter alleen vaste verschillen worden toegevoegd aan de SFS (CLR2), neemt het vermogen toe, maar niet de FPR. Dit suggereert sterk het gebruik van CLR2 in plaats van CLR3 wanneer out-group-informatie beschikbaar is.

Bovendien kan het opnemen van invariante locaties de robuustheid voor bepaalde knelpuntenscenario's vergroten als het knelpunt van gemiddelde tot hoge sterkte is, maar niet te recent (Boitard et al. 2009 Pavlidis et al. 2010). Echter, net als veel andere methoden voor het detecteren van selectieve sweeps (Barton 1998 Jensen et al. 2005 Voight et al. 2006 Boardard et al. 2009 Pavlidis et al. 2010 Crisci et al. 2013 ), kan de CLR-test last hebben van een verontrustend hoge FPR in aanwezigheid van recente knelpunten in populatieomvang. Het gebruik van een empirisch afgeleide SFS met demografische achtergrond elimineert de gevoeligheid voor demografische veronderstellingen niet, omdat de CLR de correlatie in samensmeltingstijden langs de reeks niet correct modelleert, ongeacht het demografische model. Een bottleneck zal ervoor zorgen dat veel geslachten in korte tijd samensmelten. Als de duur van het knelpunt zodanig is dat ten minste enkele lijnen in de meeste regio's aan het knelpunt ontsnappen, kunnen de weinige regio's waarin alle lijnen samenvloeien tijdens het knelpunt erg lijken op regio's die zijn getroffen door een selectieve sweep. Realistische demografische modellen moeten worden gebruikt bij het toewijzen van P-waarden voor individuele sweeps.

Achtergrondselectie als nulmodel voor sweepdetectie

Wat vaak werd verwaarloosd in eerdere discussies over op diversiteit gebaseerde sweep-detectiemethoden, is variatie in diversiteit over het genoom die niet wordt veroorzaakt door variatie in mutatiesnelheid (of behoudsniveau), maar door variatie in achtergrondselectie, dat wil zeggen door het effect van schadelijke effecten. mutaties op gekoppelde neutrale variatie (Charlesworth et al. 1993 Hudson & Kaplan 1995 Charlesworth 2012 Cutter & Payseur 2013). Een lokaal verhoogd niveau van achtergrondselectie zal leiden tot een vermindering van de diversiteit die vergelijkbaar is met die welke verwacht wordt na een selectieve sweep.

Naarmate datasets en methoden voor het schatten van het effect van achtergrondselectie voor elke positie in het genoom beschikbaar komen (McVicker et al. 2009 ), wordt de doelstelling om methoden te ontwikkelen voor het detecteren van positieve selectie die rekening kunnen houden met achtergrondselectie, houdbaar. We presenteren de eerste dergelijke methode door een kaart van voorspelde B-waarden in de berekening van de CLR. McVicker et al. ( 2009 ) bieden een dergelijke B-waardenkaart voor mensen door functionele elementen te definiëren op basis van zoogdiersequentiebehoud en parameters aan te passen aan fylogenetische gegevens. Daarom hebben reducties in neutrale diversiteit in regio's van de menselijke gegevens geen invloed op de lokale schatting van B. Onze benadering beschouwt een lokale afname van diversiteit alleen als bewijs voor een selectieve spreiding als deze niet ook wordt voorspeld door een lokale afname in diversiteit. B-waarden, dat wil zeggen achtergrondselectie is ons evolutionaire nulmodel (Cutter & Payseur 2013). We simuleerden achtergrondselectieniveaus die typisch zijn voor mensen (McVicker et al. 2009 ), en door rekening te houden met achtergrondselectie, konden we valse positieven effectief voorkomen zonder kracht te verliezen. Als men geen rekening houdt met achtergrondselectie, is het aandeel valse positieven groot en vergelijkbaar met dat van een HKA-test (figuur 7a).

Toepassing op menselijke gegevens

Ten slotte, door onze methode toe te passen op gegevens over menselijke genetische variatie, laten we zien dat de nieuwe methode nieuwe regio's detecteert die niet als kandidaten werden geïdentificeerd met behulp van de standaard sweepfinder-benadering. Op basis van onze simulaties zouden we verwachten dat die regio's zouden worden verrijkt voor oude selectieve sweeps die begonnen tussen 0,2 en 0,8 Ne generaties geleden, een periode waarin de kracht van andere SFS-gebaseerde, FNS- en op LD gebaseerde methoden zijn laag (Sabeti et al. 2006). Interessant is dat het sterkste signaal dat we vinden, dat door de meeste eerdere scans is gemist, dichtbij is KIAA1217, een gen dat de gevoeligheid voor lumbale hernia's beïnvloedt. We speculeren dat de selectie in deze regio mogelijk verband houdt met veranderingen in de menselijke spier-skeletfunctie na de evolutie van een rechtopstaande tweevoetige wandeling. Verhoogd risico op lumbale hernia is een waarschijnlijk gevolg van tweevoetig lopen. We may still be evolving to optimize muscular–skeleton functions after this recent, radical change in skeletal structure and function.


Invoering

Population geneticists and evolutionary biologists have a long-standing interest in understanding the ecological and genetic mechanisms that allow species to adapt to local environmental conditions. The recent advent of next-generation sequencing (NGS) (Shendure & Ji 2008 ) and the high density SNP arrays it generates has allowed rapid advances in this field and has fostered the emergence of the population genomics approach (Luikart et al. 2003 ). This new paradigm is focused on the use of genomewide data to distinguish between locus-specific effects (mainly selection but also mutation, and recombination) and genomewide effects such as genetic drift. It has proven particularly useful to detect signatures of selection and has been used to uncover genes involved in local adaptation, disease susceptibility, resistance to pathogens and other phenotypic traits of interest to plant and animal breeders.

At the genetic level, local adaptation involves a process whereby directional selection induced by local environmental conditions will favour the spread of genetic variants associated with beneficial phenotypic traits. If selection is strong at the level of an individual locus, the selected variant will increase in frequency. Additionally, selection will modify the pattern of diversity around the selected locus through genetic hitchhiking (Smith & Haigh 1974 Barton 2000 ). This process, known as a selective sweep, has been extensively studied using models of isolated populations (Smith & Haigh 1974 Sabeti et al. 2002 Kim & Nielsen 2004 Hermisson & Pennings 2005 Pennings & Hermisson 2006a , b Voight et al. 2006 ) but much less studied under structured population scenarios. In this latter case, analyses focused on either an universally favoured mutation that spreads from its deme of origin to other demes (Slatkin & Wiehe 1998 Barton 2000 Bierne 2010 ) or on a scenario where the new selected variant is favoured in one part of the species range but counter-selected in the other half (Bierne 2010 ). However, there is a third scenario still poorly understood but frequently assumed by studies of local adaptation, particularly in humans. Under this scenario, a selected variant is favoured in one part of the species range and is neutral elsewhere (e.g. lactase persistence, skin pigmentation, high altitude adaptation Jeong & Di Rienzo 2014 ).

A third type of genome-scan methods considers explicitly the physical linkage among SNPs surrounding a selected variant, either by focusing on patterns of long-range haplotype homozygosity (Sabeti et al. 2002 Voight et al. 2006 ) or by modelling the effect of linkage on multilocus genetic differentiation (Chen et al. 2010 ). These methods are more recent, and their properties have not been extensively investigated. Moreover, although they are focused on either a single population (Sabeti et al. 2002 Voight et al. 2006 Ferrer-Admetlla et al. 2014 ) or on pairs of populations (Sabeti et al. 2007 Chen et al. 2010 Fariello et al. 2013 ), they are being used to study structured populations consisting of many subpopulations without a clear understanding of how migration and complex population structure may affect their power and error rates. Thus, the objective of this study is to carry out a thorough evaluation of the performance of these methods under various scenarios of population structure. We focus mainly on the case where the selected variant is beneficial in part of the species range and neutral elsewhere, as it is the underlying scenario envisaged by many recent studies of adaptation (Lao et al. 2007 Hancock et al. 2008 Foll et al. 2014 ). Additionally, we consider both hard and soft selective sweeps. These two scenarios differ in the origin of the selected variant. In a hard selective sweep, the favoured allele appears through de novo mutation, while in a soft sweep, it is already segregating at low frequency in the population (standing genetic variation) or it arises from recurrent mutations (Hermisson & Pennings 2005 Pennings & Hermisson 2006a , b Pritchard et al. 2010 ).

In the present analysis, we compare the performance of seven recent methods to detect selective sweeps. We incorporate in the analysis, methods that were developed to study a single population, a pair of populations or multiple populations. We explain in detail the ability of each method to capture the signal of selection left by both hard and soft sweeps under different scenarios of structured populations and a range of parameter values (migration and selection). The principle is to examine these methods on the same simulated data sets and draw conclusions about how the different model parameters affect their performance as described by power and false discovery rate (FDR). The goal of this analysis is to guide scientists in the choice of the methods that is better suited for their biological model.


Ways to distinguish between purifying selection and selective sweep - Biology

Variation in human skin and hair color is one of the most striking aspects of human variability, and explaining this diversity is one of the central questions of human biology. Only in the last decade or so has it been realistically possible to address this question experimentally using population genetic approaches. On the basis of earlier studies in mice, and on studies in humans with various Mendelian disorders, many of the genes underpinning population variation in skin color have been identified. More recently, genome-wide approaches have identified other loci that appear to contribute to pigmentary variation. The ability to study sequence diversity from world populations has allowed examination of whether the observed variability is due to random genetic drift or is a result of natural selection. The genetic evidence taken as a whole provides strong evidence for natural selection, functioning so as to increase pigment diversity across the world's populations. Future larger studies are likely to provide more details of this process and may provide evidence for exactly which mechanistic pathways have mediated selection.


Several recent studies have confirmed that mitochondrial DNA variation and evolution are not consistent with the neutral theory of molecular evolution and might be inappropriate for estimating effective population sizes. Evidence for the action of both positive and negative selection on mitochondrial genes has been put forward, and the complex genetics of mitochondrial DNA adds to the challenge of resolving this debate. The solution could lie in distinguishing genetic drift from ‘genetic draft’ and in dissecting the physiology of mitochondrial fitness.

We gebruiken cookies om onze service te bieden en te verbeteren en om inhoud en advertenties aan te passen. Door verder te gaan ga je akkoord met de gebruik van cookies .


Additional file 1: Figure S1.

Number of SNPs in 500-kb windows for the LRH test.

Additional file 2. Figure S2.

Number of SNPs in 500-kb windows for the XP-EHH test.

Additional file 3: Figure S3.

PCA analysis on Chinese Holstein population (HOL_CHI) with the world reference dataset and the Simmental reference population included in WIDDE.

Additional file 4: Figure S4.

PCA analysis on Chinese Simmental population (SIM_CHI) with the world reference dataset and the Simmental reference population included in WIDDE.

Additional file 5: Table S1.

The top 5 genetically closest populations to Chinese Holstein and Simmental individuals in breed assignment analyses.

Additional file 6: Figure S5.

Genome-wide distribution of SNP-based LRH values for Holstein and Simmental. The dash line indicates the threshold for the LRH test (LRH > 2.6).

Additional file 7: Figure S6.

Genome-wide distribution of 500-kb window-based maximum |XP-EHH| and average FNS. The dash line indicates the threshold for the FNS toets.

Additional file 8: Table S2.

Overlapping windows between LRH, XP-EHH and FNS testen.

Additional file 9: Table S3.

Candidate genes used for functional annotation.

Additional file 10: Table S4.

DAVID analyses on candidate genes.

Additional file 11: Figure S7.

Rootgrams of the posterior class probability for FNS waarden.

Additional file 12: Table S5.

Distribution of six components inferred by FlexMix analysis and number of SNPs in each component.

Additional file 13: Figure S8.

A graphical representation of pairwise D’ for the DGAT1 region (A) and GHR region (B).

Additional file 14: Figure S9.

Distribution of unweighted means of minor allele frequencies for non-genic and exonic SNPs in the low-MAF bin (0-0.05).


Bekijk de video: Validasi Metode Part 2 - Selektifitas. Spesifisitas (Januari- 2022).