Informatie

What's in a Name: statistische genetica


De beginner voert vaak populatieberekeningen uit met behulp van wat mendeliaanse genetica wordt genoemd. Kort na de publicatie van Mendels resultaten; Hardy en Weinberg presenteerden hun resultaten na een verzameling axioma's.

Is er een verschil tussen Medelliaanse genetica en het Hardy-Weinberg-model?


Mendel publiceerde zijn resultaten in 1866, maar ze werden pas in 1900 herontdekt. ​​Het Hardy-Weinberg-model is een toepassing van de regels van Mendel op een populatie die niet onder selectiekrachten valt. Dus het een bouwt voort op het ander, en Hardy-Weinberg is modelmatig een vereenvoudiging, en de regels van Mendel zijn ook niet gedetailleerd genoeg. Het is dezelfde relatie als met een natuurkundige wet zoals zwaartekracht en een wiskundig model van de gevolgen ervan toegepast op veel entiteiten, zoals modellen van het zwaartekrachtgedrag van een zonnestelsel.


Statistische Genetica

Waarschijnlijkheid en statistiek spelen een belangrijke rol in de genetica. Het mechanisme van '8220meiose', de vorming van sperma of eicellen, wordt verondersteld probabilistisch van aard te zijn, net als het proces van paring in grote populaties. De relatie tussen '8220genotypes'8221 (DNA-sequentie) en '8220fenotypes'8221 (waarneembare kenmerken of ziekten) kan worden gemodelleerd door kansverdelingen. De analyse van genetische determinanten is gebaseerd op willekeurige steekproeven uit een populatie, vaak vertekend, en er zijn verschillende statistische methoden nodig om dergelijke gegevens te analyseren. Deze cursus biedt een inleiding tot stochastische modellen en methoden die worden gebruikt in de genetica, gericht op studenten in de wiskunde. We gaan uit van een goede praktische kennis van waarschijnlijkheid en statistiek (bijv. waarschijnlijkheid en Bayes-inferentie, asymptotiek, testen), maar gaan niet uit van voorkennis van genetica. In het bijzonder zal het jargon in deze beschrijving worden toegelicht.

Statistische genetica is een klassieke tak van toegepaste waarschijnlijkheid en statistiek, die recentelijk veel nieuwe belangstelling heeft gekregen, dankzij de belangrijke doorbraken in de genetica, zowel experimenteel als theoretisch. Met moderne technieken en sterk toegenomen data hoopt men ziekten en andere eigenschappen te kunnen koppelen aan genen (stukjes DNA) die op ongekende wijze precies op het genoom gelokaliseerd kunnen worden. Je zou gerust kunnen zeggen dat dit gebied een van de heetste is in de toegepaste stochastiek, en in de wetenschap in het algemeen. Er zijn volop kansen voor wiskundigen die geïnteresseerd zijn in life sciences. Deze cursus bevat delen van veel verschillende gebieden van de statistiek.

Natuurlijk beginnen we met de wetten van Mendel van '8220segregatie'8221, die bepalen dat elke ouder een willekeurig gekozen gen doorgeeft aan zijn/haar nakomelingen van elk paar genen, onafhankelijk over genen heen. Die laatste onafhankelijkheid bleek later niet waar te zijn en vervangen door '8220linkage models'8221, die een positieve afhankelijkheid bepalen tussen genen die dicht bij elkaar op het genoom zitten. Het meest populaire model is gebaseerd op een Poisson-procesmodel voor '8220crossovers'8221 tijdens meiose. De resulterende modellen in combinatie met 'penetrantiemodellen'8221 (voorwaardelijke verdelingen voor fenotypes gegeven genotopyen) maken het mogelijk om waarschijnlijkheden te schrijven voor de waargenomen fenotypes in families (of '8220stambomen'8221), en zo de afhankelijkheid van fenotypische eigenschappen van genetische factoren te schatten . Omdat een volledige waarschijnlijkheidsanalyse de specificatie van veel waarschijnlijkheidsdichtheden vereist en rekenintensief is, zijn andere methoden met hetzelfde doel gebaseerd op verminderde gegevens, in het bijzonder de status van de “IBD” (identiteit door afstamming) en/of op slimme bemonsteringsplannen . “Association” studies zijn gebaseerd op het idee dat, onder een willekeurige paringsaanname, een populatie de neiging zou moeten hebben om in evenwicht te komen, met afwijkingen in genenparen (mogelijk) in een willekeurige steekproef van individuen die erop wijzen dat deze genen dicht bij elkaar liggen op de genoom. Ten slotte is de '8220biometrische analyse' gericht op het ontleden van fenotypische variatie in genetische en omgevingsdelen.

Docent:
Marianne Jonker (www.few.vu.nl/

Vereiste kennis:
Vakken in kansrekening en statistiek uit een bacheloropleiding wiskunde, of gelijkwaardig. Geen kennis van genetica vereist.

Vergaderingen:
Vrijdagmiddag: 13.30-16.15
Kamer: WN-P624 (week 36-42)
Kamer: WN-S607 (week 44-50)

Opmerking:
Kun je niet bij de eerste bijeenkomst zijn, stuur dan een e-mail naar de docent ([email protected]), want bij onvoldoende aanmelding wordt de cursus een leescursus.

Literatuur :
Lecture Notes (onze hoofdtekst).
Peter Almgren, Par-Ola Bendahl, Henrik Bengtsson, Ola Hossjer, Roland Perfekt: Statistieken in de genetica. Te downloaden van: Lund University

Opdrachten:
Er is geen formele probleemklas. Wel komen er tijdens de bijeenkomsten op vrijdag enkele oefeningen aan bod.

9 september:
hoofdstuk 1 biologie, Mather
huiswerk: oefeningen 1, 2, 3 (week 1)

16 september:
Rest van hoofdstuk 1, hoofdstuk 2 t/m pagina 25
huiswerk: oefeningen 1, 2, 3, 4 (week 2)

23 september:
Hoofdstuk 2: HWE en LE (geen secties met een sterretje)
Paragraaf 14.7: EM-algoritme
huiswerk:
Probeer sectie 2.2.2 te begrijpen
Bereken de maximale waarschijnlijkheidsschatters op dia 24.
Voer de berekeningen uit op dia 29.

30 september:
Hoofdstuk 3: Stamboomwaarschijnlijkheden
huiswerk: oefeningen 1, 2 (hoofdstuk 3, week 4)

7 oktober:
Hoofdstuk 4: Identiteit door afkomst
Overervingsvectoren (paragrafen 1.4, 3.6)
huiswerk: oefening 2 van vorige week
oefening 4.1 (op pagina 83)
controleer de waarden in tabellen 4.1, 4.2 en 4.3

21 oktober:
hoofdstuk 5
Borstkankeronderzoek (niet in collegeaantekeningen)

28 oktober:
Herfstvakantie, geen lezing

4 november: ( Let op vanaf nu: college in zaal WN-S607 )
Hoofdstuk 6 (docent: Aad van der Vaart):
Sectie 14.6
Paragraaf 6.1 tot pagina 111

11 november: ( Let op: college in zaal WN-S607 )
Hoofdstuk 6 (docent: Aad van der Vaart)

18 november:
hoofdstuk 7
Huiswerk: oefening 2 (niet 2f) van examen december 2006
oefenweek 9

25 november:
Hoofdstuk 8
Huiswerk: zie collegeaantekeningen

2 december:
Hoofdstuk 9, paragraaf 9.1
Huiswerk: zie collegeaantekeningen

9 december:
Hoofdstuk 9, paragraaf 9.2
Huiswerk: juni 2005, oefeningen 3, 4
december 2006, oefening 1
Lund 1: 6, 8, 9, 10
Lund 2: 6

examen:
Geschreven.
Datum: 21 december, tijd: 15.15-18.00 (check altijd het rooster op wijzigingen)

Oude examens:
juni 2005
december 2006
juli 2007
Om jezelf te testen zou je de examens van Lund University Lund 1 en Lund 2 met foto kunnen proberen.


Inhoud

Gedurende de laatste twee decennia is er grote belangstelling geweest voor het begrijpen van de genetische en genomische samenstelling van verschillende soorten, waaronder mensen, voornamelijk geholpen door de verschillende technologieën voor genoomsequentiebepaling om de genomen te lezen die zich snel ontwikkelen. Deze technologieën zijn echter nog steeds beperkt en computationele en statistische methoden zijn een must om fouten te detecteren en te verwerken en de stukjes gedeeltelijke informatie van de sequencing- en genotyperingstechnologieën samen te stellen.

Een haplotype is de sequentie van nucleotiden (A,G,T,C) langs een enkel chromosoom. Bij mensen hebben we 23 paar chromosomen. Een ander voorbeeld is maïs, dat ook een diploïde is met 10 paar chromosomen. Met de huidige technologie is het echter moeilijk om de twee chromosomen binnen een paar te scheiden en de testen produceren het gecombineerde haplotype, de genotype-informatie bij elk nucleotide. Het doel van de fasering van het haplotype is om de fase van de twee haplotypes te vinden op basis van de gecombineerde informatie over het genotype. Kennis van de haplotypes is uiterst belangrijk en geeft ons niet alleen een volledig beeld van het genoom van een individu, maar helpt ook andere computationele genomische processen, zoals toerekening van vele belangrijke biologische motivaties.

Voor diploïde organismen zoals mensen en maïs, heeft elk organisme twee kopieën van een chromosoom - elk één van de twee ouders. De twee exemplaren lijken sterk op elkaar. Een haplotype is de volgorde van nucleotiden in een chromosoom. het faseringsprobleem van het haplotype is gericht op de nucleotiden waar de twee homologe chromosomen verschillen. Computationeel zijn er voor een genomisch gebied met K verschillende nucleotideplaatsen 2^K - 1 mogelijke haplotypes, dus het faseringsprobleem richt zich op het efficiënt vinden van de meest waarschijnlijke haplotypes gegeven een waargenomen genotype. Zie Haplotype voor meer informatie.

Hoewel het genoom van een hoger organisme (eukaryoten) miljoenen single nucleotide polymorphisms (SNP's) bevat, is vooraf bepaald dat genotyperingsarrays slechts een handvol van dergelijke markers detecteren. De ontbrekende markers worden voorspeld met behulp van imputatieanalyse. Imputatie van niet-gegenotypeerde markers is nu een essentieel onderdeel geworden van genetische en genomische studies. Het maakt gebruik van de kennis van koppelingsonevenwicht (LD) van haplotypes in een bekend referentiepanel (bijvoorbeeld HapMap en de 1000 Genomes Projects) om genotypen te voorspellen bij de ontbrekende of niet-genotypeerde markers. Het proces stelt de wetenschappers in staat om nauwkeurig analyses uit te voeren van zowel de gegenotypeerde polymorfe markers als de niet-gegenotypeerde markers die rekenkundig worden voorspeld. Het is aangetoond dat downstream-onderzoeken [3] veel baat hebben bij imputatie-analyse in de vorm van een verbeterd vermogen om ziektegerelateerde loci te detecteren. Een andere cruciale bijdrage van toerekening is dat het ook het combineren van genetische en genomische studies vergemakkelijkt die verschillende genotyperingsplatforms voor hun experimenten gebruikten. Bijvoorbeeld. hoewel 415 miljoen veel voorkomende en zeldzame genetische varianten in het menselijk genoom voorkomen, kunnen de huidige genotyperingsarrays zoals Affymetrix en Illumina microarrays slechts tot 2,5 miljoen SNP's testen. Daarom is imputatie-analyse een belangrijke onderzoeksrichting en is het belangrijk om methoden en platforms te identificeren om genotypegegevens van hoge kwaliteit toe te rekenen met behulp van bestaande genotypen en referentiepanels van openbaar beschikbare bronnen, zoals het International HapMap Project en het 1000 Genomes Project. Voor mensen heeft de analyse met succes voorspelde genotypen gegenereerd in veel rassen, waaronder Europeanen [4] en Afro-Amerikanen. [5] Voor andere soorten, zoals planten, is de toerekeningsanalyse een continu proces waarbij gebruik wordt gemaakt van referentiepanels zoals bij maïs. [6]

Er bestaan ​​een aantal verschillende methoden voor de imputatie van het genotype. De drie meest gebruikte imputatiemethoden zijn - Mach, [7] Impute [8] en Beagle. [9] Alle drie de methoden gebruiken verborgen markov-modellen als de onderliggende basis voor het schatten van de verdeling van de haplotype-frequenties. Mach en Impute2 zijn rekenintensiever in vergelijking met Beagle. Zowel Impute als Mach zijn gebaseerd op verschillende implementaties van het product van het conditionele of PAC-model. Beagle groepeert de haplotypes van het referentiepaneel in clusters bij elke SNP om een ​​gelokaliseerd haplotype-clustermodel te vormen waarmee het het aantal clusters bij elke SNP dynamisch kan variëren, waardoor het rekenkundig sneller is dan Mach en Impute2.

In de afgelopen jaren zijn genoombrede associatiestudies (GWAS) een krachtig hulpmiddel geworden voor het onderzoeken van de genetische basis van veelvoorkomende ziekten en hebben ze ons begrip van de genetische basis van veel complexe eigenschappen verbeterd. [10] Traditionele single SNP (single-nucleotide polymorphism) GWAS is de meest gebruikte methode om met eigenschappen geassocieerde DNA-sequentievarianten te vinden - associaties tussen varianten en een of meer fenotypes van belang worden onderzocht door individuen met verschillende fenotypes te bestuderen en hun genotypen te onderzoeken op de positie van elke SNP afzonderlijk. De SNP's waarvoor één variant statistisch vaker voorkomt bij individuen die tot één fenotypische groep behoren, worden vervolgens gerapporteerd als zijnde geassocieerd met het fenotype. De meeste complexe veelvoorkomende ziekten omvatten echter kleine bijdragen op populatieniveau van meerdere genomische loci. Om zulke kleine effecten als genoomwijd significant te detecteren, vertrouwen traditionele GWAS op een grotere steekproefomvang, b.v. om een ​​effect te detecteren dat verantwoordelijk is voor 0,1% van de totale variantie, moet traditionele GWAS bijna 30.000 individuen bemonsteren. Hoewel de ontwikkeling van SNP-genotyperingstechnologieën met hoge doorvoer de kosten heeft verlaagd en de efficiëntie van genotypering heeft verbeterd. Het uitvoeren van zo'n grootschalig onderzoek kost nog steeds veel geld en tijd. Onlangs zijn associatieanalysemethoden voorgesteld die gebruik maken van op genen gebaseerde tests [11] die gebaseerd zijn op het feit dat variaties in eiwitcoderende en aangrenzende regulerende regio's waarschijnlijk functionele relevantie hebben. Deze methoden hebben het voordeel dat ze meerdere onafhankelijke functionele varianten binnen een gen kunnen verklaren, met het potentieel om het vermogen om ziekte/eigenschap-geassocieerde genen te identificeren aanzienlijk te vergroten. Ook voorspelt imputatie van niet-gegenotypeerde markers met behulp van bekende referentiepanels (bijv. HapMap en het 1000 Genomes Project) genotypen bij de ontbrekende of niet-getypeerde markers, waardoor men nauwkeurig het bewijs voor associatie bij genetische markers die niet direct gegenotypeerd zijn (naast de getypte markers) en het is aangetoond dat het de kracht van GWAS verbetert om ziektegerelateerde loci te detecteren.

In dit tijdperk van grote hoeveelheden genetische en genomische gegevens vormt een nauwkeurige weergave en identificatie van statistische interacties in biologische/genetische/genomische gegevens een essentiële basis voor het ontwerpen van interventies en curatieve oplossingen voor veel complexe ziekten. Het is al lang bekend dat variaties in het menselijk genoom ons vatbaar maken voor veel ziekten. We haasten ons naar het tijdperk van persoonlijke genomica en gepersonaliseerde geneeskunde die nauwkeurige voorspellingen vereisen van het ziekterisico dat wordt veroorzaakt door predisponerende genetische factoren. Computationele en statistische methoden om deze genetische variaties te identificeren en deze in intelligente modellen in te bouwen voor onderzoek naar ziekteassociatie en interactie-analyse, genoombreed, zijn in veel ziektegebieden een grote noodzaak. De belangrijkste uitdagingen zijn: (1) de meeste complexe ziekten omvatten kleine of zwakke bijdragen van meerdere genetische factoren die slechts een minuscule fractie verklaren van de populatievariatie die wordt toegeschreven aan genetische factoren. (2) Biologische gegevens zijn inherent extreem luidruchtig, dus de onderliggende complexiteit van biologische systemen (zoals koppelingsonevenwicht en genetische heterogeniteit) moeten worden opgenomen in de statistische modellen voor onderzoek naar ziekteassociatie. De kans op het ontwikkelen van veel voorkomende ziekten zoals kanker, auto-immuunziekten en hart- en vaatziekten omvat complexe interacties tussen meerdere genen en verschillende endogene en exogene omgevingsagentia of covariaten. Veel eerdere ziekteassociatiestudies konden geen significante resultaten opleveren vanwege het ontbreken van statistische interacties in hun wiskundige modellen die de ziekte-uitkomst verklaren. Bijgevolg blijven veel van de genetische risico's die ten grondslag liggen aan verschillende ziekten en aandoeningen onbekend. Computationele methoden zoals [12] [13] [14] [15] [16] [17] voor het modelleren en identificeren van de genetische/genomische variaties die ten grondslag liggen aan ziekterisico's hebben een groot potentieel om de voorspelling van ziekteresultaten te verbeteren, de interacties en het ontwerp te begrijpen betere therapeutische methoden op basis daarvan.


Signalen uit associatiestudies afbakenen

Op welke loci moet ik me richten?

Analyse van datasets van het hele genoom ontdekt in hoog tempo nieuwe loci die geassocieerd zijn met ziekte: dat wil zeggen, in slechts drie korte jaren gingen de associaties met diabetes type 2 (T2D) van drie loci naar 41 De ziekte van Crohn (CD) ging van een handvol naar 30 , en die, ondanks nieuwe loci, zouden naar verwachting tegen het einde van kalenderjaar 2010 worden gerapporteerd. Aangezien deze lijsten blijven groeien en gezien een eindig budget om follow-upstudies te starten, is het selecteren van de meest handelbare kandidaten voor fine-mapping van cruciaal belang om te maximaliseren het biologische begrip geëxtraheerd. Niet elk van deze loci is even handelbaar om genetisch te ontleden, en er zijn veel praktische overwegingen om over na te denken. Ten eerste zal het definiëren van de grootte van de regio een idee geven van de hoeveelheid genetische variatie die men van plan is te catalogiseren onder redelijke populatiegenetische veronderstellingen, en bijgevolg hoeveel genotypering op ontdekte variatie men zou kunnen verwachten te doen. Een manier om regio's te definiëren is om te beginnen bij het initiële associatiesignaal en langs het chromosoom in de 5'- en 3'-richtingen te bewegen naar de dichtstbijzijnde recombinatie-hotspots die de associatie flankeren (gebaseerd op die geschat op basis van de HapMap), waardoor een extra lengte van fysieke afstand buiten de hotspotgrenzen in het geval dat de hotspot de haplotypestructuur voor het gegeven interval niet volledig afbreekt. Een bijzonder aantrekkelijk doel voor fijnmapping op basis van de grootte van het gebied heeft bijvoorbeeld betrekking op een associatie voor T2D op chromosoom 9p21, dat toevallig binnen een zeer smal gebied valt (ongeveer 8 kb) geflankeerd door twee intense recombinatie-hotspots (zie Saxena et al. [10], Fig. 2A). Daarentegen brengt een veel minder aantrekkelijke locus in dit opzicht proximaal van de genen in kaart HHEX, IDE, en KIF11 [11] en omvat bijna 400 kb onder dezelfde criteria (zie Saxena et al. [10], Fig. 2E).

Een tweede belangrijke overweging is de mate waarin geannoteerde kenmerken die zijn geassocieerd met de locus aanwezig zijn, namelijk tot expressie gebrachte sequenties, voorspelde transcripten of geannoteerde genen, en zo ja, hoeveel zich in het interessegebied bevinden. Af en toe zal een associatiesignaal exact overeenkomen met een coderingsverandering, en voor sommige eigenschappen zijn dergelijke kenmerken geïdentificeerd: SH2B3 voor bloeddruk en hart- en vaatziekten [12], THADA voor T2D [13] , PTPN22 voor CD [14], reumatoïde artritis [15] en type 1 diabetes [16], en ITGAM voor systemische lupus erythematosus (SLE) [17]. In het algemeen zijn voorbeelden zoals deze waarin primaire associatie een gen voor causaliteit blootlegt echter uitzonderlijk. Als een voorbeeld in het meest extreme alternatieve geval voor de ziekte van Crohn, wijzen zes van de 30 loci op regio's zonder bekende eiwitcoderende genen, hoewel de helft ervan meer dan één gen in sterk koppelingsonevenwicht (LD) bevat met de bijbehorende variant [ 3] . De meest aantrekkelijke kandidaten in dit opzicht hebben meestal een of slechts enkele genen in de buurt, bijvoorbeeld ADAMTS9 bij diabetes type 2 [13] , wat het aantal plausibele kandidaten beperkt dat men zou kunnen hebben in stroomafwaartse functionele of genetische experimenten.

Een andere belangrijke factor om te overwegen is het verwachte statistische vermogen dat men beschikbaar heeft om studies op de doellocus uit te voeren. Uiteindelijk hangt het vermogen hier af van de effectgrootte van de onderliggende casual variant (die men kan benaderen aangezien het initiële signaal een goede proxy is voor deze variant), de frequentie van de doel-SNP en het aantal samples dat men moet investeren in de experiment. Als het doel is om de resolutie van een bestaand signaal te verbeteren, of om nieuwe geassocieerde varianten te identificeren, onafhankelijk van de eerder vastgestelde, hoe groter de initiële effectgrootte, hoe minder monsters nodig zijn om een ​​van deze twee vragen definitief te beantwoorden. Opgemerkt moet worden dat veel online bronnen (bijvoorbeeld de Genetic Power Calculator) een snelle en gemakkelijke berekening van het verwachte vermogen mogelijk maken om associatie te detecteren voor bepaalde steekproefgroottes onder verschillende genetische modellen, waaronder LD [18] .

Een uitvloeisel van deze overweging is de mate waarin andere kenmerken ook associaties in de regio herbergen. Op 4 augustus 2009 waren er 2055 inzendingen geregistreerd in de NHGRI GWA-studiecatalogus van het National Human Genome Research Institute, waarvan 923 een genoombrede drempel overschreden (P < 5 × 10 –8 ). 9p21 is in dit opzicht bijvoorbeeld aantrekkelijk vanwege onderscheidende associaties met diabetes type 2 en hart- en vaatziekten die zich in een dichte fysieke nabijheid voordoen, maar in onderling evenwicht [10, 19-22]. Gezien het bewijs dat diabetici een verhoogd risico lopen op cardiovasculaire complicaties [23], zou een gedetailleerd begrip van de toevallige risicofactoren en betrokken genen in deze regio bijzonder inzichtelijk zijn voor beide fenotypische gemeenschappen.

Naast statistische genetica-benaderingen bieden bio-informatische hulpmiddelen een extra manier om de verzameling van interessante loci te ondervragen, om prioriteit te geven aan regio's met waarschijnlijke kandidaat-genen of genen van belang, of om potentiële causale genen te identificeren. Deze tools ondervragen over het algemeen grote en vaak maar diverse aspecten van data. Een niet-limitatieve lijst van tools die in deze context worden gebruikt, omvat:

De Human Mutational Database (HGMD). Een bijgewerkte verzameling mutaties in alle genen die betrekking hebben op een fenotype bij mensen.

Genrelaties tussen geïmpliceerde loci (GRAIL). Een op tekst gebaseerde mining-tool die een lijst van ziekteregio's maakt en automatisch de mate van verwantschap van betrokken genen beoordeelt op basis van woordgemeenschappelijkheid uit 250.000+ PubMed-samenvattingen [24] .

Eiwit-eiwit netwerken. Deze datasets zijn gebaseerd op schermen die eiwitten identificeren met directe interacties met elkaar.

REACTOOM. Een vakkundig samengestelde database voor een verscheidenheid aan biologische routes en netwerken.

Sylameer. Een hulpmiddel dat is ontworpen om verrijking van specifieke subsequentiekenmerken in veel grote verzamelingen sequenties te detecteren, speciaal ontworpen voor het detecteren van micro-RNA's [25].

Expressie screening. Een methode die informatie uit duizenden microarray-datasets integreert om genen te identificeren die consistent tot expressie worden gebracht met een doelpad in biologische contexten [26, 27].

Een algemene implicatie hier is dat elke locus gepaard gaat met individuele uitdagingen en potentiële tractie om genetisch te worden ontleed a priori. Een belangrijk aspect van elk onderzoeksontwerp is om zoveel mogelijk informatie te overwegen (en op de juiste manier af te wegen) uit een diverse portfolio van bronnen die beschikbaar zijn voor verwijdering. Vaak zal er geen "perfecte" locus zijn om nauwkeurig in kaart te brengen, de beste selectie van overwegingen moet collectief worden verzameld, die allemaal de kans op een succesvol mapping-experiment kunnen vergroten: een die de resolutie verbetert, afdoende implicerend een reeks SNP's of genen die waarschijnlijk verband houden met de eigenschap van interesse. Zodra een set loci is geïdentificeerd als een ideaal doelwit, kan het ontwerp van het fine-mapping-experiment beginnen, waar we ons nu op richten.


Toelatingsinformatie

De track Statistical Genetics is bedoeld voor personen die een loopbaan plannen in - of al actief zijn in - genetisch onderzoek. Aanvragers moeten een interesse in genetica aantonen, evenals een faciliteit voor kwantitatief redeneren.

Kandidaten moeten een achtergrond hebben in wiskunde en statistiek van de universiteit (inclusief calculus en basiswaarschijnlijkheid en statistiek), met blootstelling aan of bekendheid met lineaire / matrixalgebra. Studenten met een aanvullende achtergrond in informatica, biologie en interesse in genetica en complexe ziekten krijgen voorrang. Er worden uitstekende scores op de GRE verwacht. Internationale studenten moeten ook TOEFL-scores indienen.


Overzicht

Samenvatting

Een uitgebreide inleiding tot moderne toegepaste statistische genetische data-analyse, toegankelijk voor mensen zonder een achtergrond in moleculaire biologie of genetica.

Menselijk genetisch onderzoek is nu relevant buiten de biologie, epidemiologie en de medische wetenschappen, met toepassingen op gebieden als psychologie, psychiatrie, statistiek, demografie, sociologie en economie. Met de vooruitgang in rekenkracht, de beschikbaarheid van gegevens en nieuwe technieken is het nu mogelijk om grootschalige moleculair genetische informatie te integreren in onderzoek over een breed scala aan onderwerpen. Dit boek biedt de eerste uitgebreide introductie tot moderne toegepaste statistische genetische data-analyse die theorie, datavoorbereiding en analyse van moleculair genetische data omvat, met praktische computeroefeningen. Het is toegankelijk voor studenten en onderzoekers in elke empirisch georiënteerde medische, biologische of sociaalwetenschappelijke discipline. Een achtergrond in moleculaire biologie of genetica is niet vereist.

Het boek biedt eerst de basis voor statistische analyse van genetische gegevens, inclusief een overzicht van fundamentele concepten, inleidingen over statistiek en menselijke evolutie, en een inleiding tot polygene scores. Vervolgens worden de praktische aspecten van het werken met genetische gegevens besproken, waarbij onderwerpen als analytische uitdagingen en gegevensbeheer worden besproken. Ten slotte presenteert het boek toepassingen en geavanceerde onderwerpen, waaronder toepassingen voor polygene score en gen-omgeving-interactie, Mendeliaanse randomisatie en instrumentele variabelen, en ethische kwesties. De software en gegevens die in het boek worden gebruikt, zijn vrij beschikbaar en zijn te vinden op de website van het boek.

Paperback

Deel

Auteurs

Melinda C. Mills

Nicola Barban

Felix C. Tropf

Aanbevelingen

Ik word regelmatig gevraagd om een ​​boek aan te bevelen dat een uitgebreid overzicht geeft van statistische genetische methoden in toegankelijke taal met duidelijke toepassingen voor belangrijke onderzoeksvragen. Zoek niet verder. Mills, Barban en Tropf zijn een prachtig voorbeeld van zo'n boek met: Een inleiding tot statistische genetische gegevensanalyse.

Hoogleraar Sociologie en Gezondheid & Society Programmadirecteur bij het Institute of Behavioural Science, University of Colorado in Boulder

Wil je een statistische analyse uitvoeren van de stortvloed aan genetische gegevens die tegenwoordig de wetenschap binnenstroomt? Een inleiding tot statistische genetische gegevensanalyse is verplichte lectuur voor u. Mills, Barban en Tropf leiden de lezer door de basisprincipes van wat een gen is en marcheren naar geavanceerde technieken voor gegevensanalyse, met onderweg tal van boeiende voorbeelden.

Henry Putnam University Professor in Sociology, Princeton University en auteur van The Genome Factor

Het wordt steeds duidelijker dat genetica niet alleen belangrijk is voor ziekten. Het draagt ​​bij aan vele aspecten van menselijk gedrag en kenmerken. Dit boek is het meest waardevol voor diegenen wiens basisopleiding niet in statistische genetica was, maar die genetische gegevens in hun onderzoek beginnen op te nemen.

Hoogleraar statistische genetica, Universiteit van Oxford

Hedendaagse genetische gegevens bieden veel mogelijkheden, en dit boek is zonder meer de best beschikbare introductie. Het wonderbaarlijke aan het boek is hoe uitgebreid en verfijnd het is en toch duidelijk blijft. De manier waarop het boek zijn uitleg verweeft met softwarevoorbeelden, maakt het een perfecte aanvulling voor iedereen die beter wil begrijpen wat deze methoden te bieden hebben en hoe een onderzoeker ze daadwerkelijk kan gebruiken.


Postdoc in statistische genetica

De afdeling Statistische Genetica binnen de afdeling Computational Biology van het Institut Pasteur zoekt een zeer gemotiveerde, getalenteerde en collaboratieve postdoctorale fellow. De succesvolle kandidaat zal deelnemen aan verschillende gefinancierde projecten die verband houden met de inferentie van de genetische structuur die ten grondslag ligt aan veelvoorkomende ziekten bij de mens. De functie heeft een sterke statistische en computationele component met een bijzondere nadruk op multivariate benaderingen en interactie-effectmodellen. Projecten omvatten echte gegevenstoepassingen in grootschalige multidimensionale cohorten en worden uitgevoerd in een zeer collaboratieve omgeving met zowel internationale als nationale onderzoeksgroepen.

KWALIFICATIES

De geselecteerde kandidaat moet een sterke kwantitatieve achtergrond hebben met robuuste statistische en computationele vaardigheden. Hij/zij moet vaardig zijn met ten minste één programmeertaal (bijv. C/C++, Java, Perl, Python). Kennis van biologie of genetica heeft de voorkeur maar is niet vereist. De kandidaat heeft doorgaans een doctoraat in statistiek/biostatistiek, epidemiologie, bio-informatica, computerwetenschappen of andere relevante disciplines met een sterke kwantitatieve onderzoeksachtergrond. Praktische ervaring met het werken met grootschalige genetische datasets en het ontwikkelen van statistische methoden is wenselijk.

HET INSTITUT PASTEUR

Het Institut Pasteur is een internationaal gerenommeerd centrum voor biomedisch onderzoek dat zich onderscheidt in vele disciplines. De campus, opgericht in 1887 door Louis Pasteur en gelegen in het centrum van Parijs, biedt onderdak aan meer dan 1.300 onderzoekers en 300 doctoraatsstudenten van meer dan 60 nationaliteiten. Het is een creatieve en inspirerende omgeving vol expertise en mogelijkheden om te verbinden en te leren. De afdeling Computational Biology biedt onderdak aan meerdere teams en een biostatistiek/bioinformatica-hub met meer dan 50 PhD-ingenieurs die gespecialiseerd zijn in computationele biologie.

EXTRA INFORMATIE

Kandidaten moeten hun curriculum vitae, een begeleidende brief met onderzoekservaring en contactgegevens voor twee of meer referenties naar Dr. Hugues Aschard sturen ([email protected]).

Meer informatie over het Institut Pasteur en de eenheid Statistical Genetics vindt u hier http://www.pasteur.fr/en en hier https://research.pasteur.fr/en/team/statistical-genetics/.

Sollicitanten kunnen zo vroeg mogelijk beginnen en sollicitaties worden in behandeling genomen totdat de vacature is ingevuld.


Statistische Genetica

De volgende onderzoekers zijn betrokken bij statistische genetica-projecten, waarvan hieronder voorbeelden worden gegeven: David Umbach, Clarice Weinberg, Min Shi.

Voorbeelden van lopende projecten zijn:

GADGETS: De branche ontwikkelde een methode (Genetic Algorithm for Detecting Genetic Epistasis using Triads or Siblings) om op efficiënte wijze enorme zoekruimten te verkennen om multi-SNP-interacties te vinden. De methode is toepasbaar op case-parent triade genetische studies die de niet-overgedragen ouderlijke allelen gebruiken om een ​​&ldquopseudo-broer/zus-controle te creëren, of op case-parent studies die een onaangetaste broer of zus als controle gebruiken. We hebben het toegepast om clusters van SNP's te identificeren die samen lijken te werken om het risico op geboorteafwijking, orale kloven, te vergroten.

Methoden voor multilocus-associatie: Er zijn benaderingen nodig voor het efficiënt vastleggen van gezamenlijke effecten van meerdere SNP's en SNP's die interageren met meerdere omgevingsfactoren, inclusief methoden die robuust zijn met betrekking tot het onderliggende genetische associatiemodel en met betrekking tot het model dat de interactieve effecten specificeert. De methoden die in ontwikkeling zijn, zouden nuttig moeten zijn voor het ontdekken van interacties in case-control associatiestudies en familiestudies, en zouden informatief moeten zijn in toepassingen voor padanalyse.


Welkom

Statistische genetici bij SPH ontwikkelen statistische methoden om de genetische basis van menselijke ziekten en eigenschappen te begrijpen. Deze methoden omvatten grootschalige datasets van kandidaat-gen-, genoom-brede en resequencing-onderzoeken, waarbij zowel niet-verwante als verwante individuen worden gebruikt. SPH-statistisch genetici werken samen met andere onderzoekers van SPH en over de hele wereld aan onderzoeken naar kanker, hartaandoeningen, diabetes, luchtwegaandoeningen, psychiatrische aandoeningen en gezondheidsgerelateerd gedrag (bijv. roken, dieet). Ze hebben nauwe banden met de groep Program in Quantitative Genomics en Computational Biology and Bioinformatics van SPH. Training omvat basisstatistieken Mendeliaanse en populatiegenetica ontwerp en analyse van genetische associatiestudies genexpressie en epigenetische markers en gen-omgevingsinteractie.

Studenten met een diploma in wiskunde, informatica, statistiek of een gerelateerd vakgebied en interesse in genetica worden uitgenodigd om zich aan te melden voor onze doctoraats- of masteropleidingen. Doctoral students can apply to either the Department of Epidemiology (through the PhD in Population Health Sciences [area of interest: Genetic Epidemiology and Statistical Genetics]) or to Department of Biostatistics. Some admission criteria, such as quality of fit with each department or quality of fit with specific mentors in each department, may vary across departments. In addition, the availability of funding may also vary across departments.

Postdoctoral training positions are also available, with support coming from individual Principal Investigators or appropriate training grants. Prospective students or postdoctoral fellows with an interest in statistical genetics at SPH may contact Alkes Price.


Faculty

The StatGen Training Program equips a new generation of researchers with the necessary skills to work at the interface of statistics and genetics for biomedical genetic research of today and the future. Technological advancements in genetics and genomics have lead to a wealth of data, facilitating a fundamental change in the landscape of biomedical research. A new generation of scientists who have a strong foundation in statistics as well as interdisciplinary training in genetics is urgently needed to effectively analyze and interpret these data.

  • Complete the program curriculum that consists of four core courses: a two-course sequence in statistical genetics and two courses in genomics.
  • Select and be paired with a world-class research mentor in the training program and conduct research in the lab of the mentor.
  • Fully engage in the collaborative and multidisciplinary scientific environment for biomedical research in genetics at the University of Washington, providing them with extensive knowledge about cutting-edge biomedical research in genetics.

Statistical Genetics Faculty

Faculty who would like to be considered for addition to the StatGen Training Program should send a CV and brief statement explaining why they would like to be added to the program to Timothy Thornton.

PI Contact:

Training Faculty

    : Medical Genetics : Medical Genetics, Genome Sciences : Biostatistics : Anthropology : Genome Sciences, Statistics, Biology : Genome Sciences, Computer Science : Medical Genetics, Genome Sciences : Biology : Biostatistics : Genome Sciences : Biology, Burke Museum : Epidemiology : Basic Sciences, Fred Hutchinson Cancer Research Center : Computational Biology, Fred Hutchinson Cancer Research Center : Biostatistics : Statistics, Biology, Biostatistics : Genome Sciences, Bioengineering : Pathology : Biostatistics : Laboratory Medicine : Biostatistics, Statistics : Biostatistics : Statistics, Genome Sciences, Biostatistics : Biostatistics : Statistics, Biostatistics : Biostatistics, Genome Sciences : Medical Genetics, Biostatistics, Genome Sciences : Biostatistics, Statistics

Leerplan

Trainees in Biostatistics or Statistics are expected to follow the course sequence in the Biostatistics PhD StatGen Pathway or Statistics PhD StatGen Pathway, respectively. Trainees in other PhD programs are expected to follow and enroll in the statistical genetics certificate program. Below are the courses that StatGen trainees are required to take:

StatGen Core Courses

StatGen Seminar

Training in Ethics

  • BIOST 532: Ethical Issues for Biostatisticians
  • GENOME 580: Ethics
  • The Biomedical Research Integrity Series.

Current Trainees

  • Hanley Kingston
  • Amanda Kunkle
  • Nandana Rao
  • Seth Temple
  • Zorian Thornton

Hoe toe te passen?

  • Completed application form.
  • Current CV. CV should include any publications
  • Letter of Interest/Statement of Purpose
  • Provide a brief description (1-2 pages) of your research interest and goals, and how they relate to STATGEN

The Statistical Genetics Training program is funded by an NIH/NIGMS T32 Training Grant: T32 GM081062.


Doctor of Philosophy

The Doctor of Philosophy is an advanced degree, preparing you for careers such as independent investigators, collaborative biostatisticians, and educators. A PhD in Biostatistics opens many opportunities for work in academia, government, and private industry.

Learn statistical theory, skills and techniques, and develop theory and applications of biostatistics. You will learn from internationally recognized faculty in UW’s Department of Biostatistics, and complete course work in biostatistics, statistics, and one or more public health or biomedical fields. As a PhD student, you will undertake research that advances the field of biostatistics and write a dissertation presenting your work. Earning a PhD in Biostatistics opens many opportunities for careers in academia, government, non-profit organizations, and private industry.


Bekijk de video: Whats in a name? (Januari- 2022).