Informatie

GWAS: matched-pairs en logistische regressie


Logistische regressie is een veelgebruikt analysehulpmiddel dat wordt gebruikt voor GWAS wanneer uw responsvariabele van belang kwalitatief is. Het wordt geleverd als een van de standaardtools in de meeste GWAS-pakketten (bijv. PLINK).

De meeste logistische regressiemodellen voor GWAS zouden worden ingesteld als:

$log{frac{P(Y=1)}{1-P(Y=1)}} = eta_0 + eta_1*X$

Waar $X$ het aantal kopieën is van het minder belangrijke allel voor een bepaalde SNP van belang en $Y$ een ziekte-status is. Stel echter dat mijn case-control-gegevens overeenkomen (in mijn geval overeenkomen met leeftijd, BMI, gerapporteerde etniciteit en afstand tot inkoopsite). Ik denk niet dat standaard logistische regressie (zoals ik hierboven heb geschetst) geldig is. Wat doet iedereen? Ik zie hiervoor geen opties in pakketten zoals PLINK.

Ik heb deze vraag ook gepost op (http://www.biostars.org/p/81394/) voordat ik me realiseerde dat ze niet langer deel uitmaakten van stackexchange.


Mijn eerste gedachte was om een ​​mixed effects-model voor te stellen, dus dat zal ik eerst beschrijven. Maar als je een Google hebt gehad, zijn er modellen die bekend staan ​​als "Voorwaardelijke logistische regressie"-modellen waarin je elke datastructuur als een covariabele kunt opnemen, wat misschien meer geschikt is, maar ik kan er niet voor instaan ​​omdat ik ze niet heb gebruikt. Ik zou aanraden om de documentatie te lezen.

Modellen met gemengde effecten

Ik weet alleen hoe ik dit moet doen in R (stats-taal - www.r-project.org), maar als je PLINK gebruikt (dus vermoedelijk ook UNIX) is R vrij eenvoudig.

Er zijn een aantal pakketten beschikbaar voor modellen met gemengde effecten, mijn persoonlijke voorkeur gaat uit naar functieik benin pakketnlme(CRAN-link). Met dit type model kunt u 2 soorten onafhankelijke variabelen specificeren (bijv. leeftijd, BMI, etniciteit ... in uw geval);

  1. Vaste effecten - zoals leeftijd, geslacht (iets dat een fenotype is van de monsters),
  2. Willekeurige effecten - zoals batch- of andere "technische" overweging,

Dit betekent dat u een model kunt opmaken zoals u voorheen zou doen, maar een extra term voor "willekeurige effecten" voor uw "overeenkomende" variabele kunt opnemen;

model = lme( vast = uitkomst ~ blootstelling + covariaat1, willekeurig = 1|overeenkomend)

.

Voorwaardelijke logistische regressiemodellen

In deoverlevingpakket voor R is er een functie genaamdverstopping(CRAN-link) die precies lijkt te doen wat u wilt. Hoewel ik het zelf nooit heb gebruikt.

Van wat ik kan verzamelen, kun je hiermee een logistische regressie uitvoeren met een extra covariabelelagen (overeenkomend), zodat uw model eruit kan zien als

model = clogit( uitkomst ~ exposure + covariate1 + strata(matched) )

.

Vrijwaring!

Dit is misschien niet precies wat u zoekt, omdat ik niet bekend ben met uw gegevens, dus ik raad u aan ook naar https://stats.stackexchange.com/ te gaan en te zoeken naar vragen over regressieanalyse en gepaarde observaties - als er geen antwoord is op uw vraag, stel dan een nieuwe.


Kwaliteitscontroleprocedures voor genoombrede associatiestudies

1 Centrum voor Onderzoek van de Menselijke Genetica, Afdeling Moleculaire Fysiologie & Biofysica, Vanderbilt University, Nashville, TN, VS.

Loren L. Armstrong

2 Afdeling Endocrinologie, Metabolisme en Moleculaire Geneeskunde, Feinberg School of Medicine, Northwestern University, Chicago, IL, VS.

Yuki Bradford

1 Centrum voor Onderzoek van de Menselijke Genetica, Afdeling Moleculaire Fysiologie & Biofysica, Vanderbilt University, Nashville, TN, VS.

Christopher S. Carlson

3 Kankerpreventie, volksgezondheidswetenschappen, Fred Hutchinson Cancer Research Center, Seattle, WA, VS.

Dana C. Crawford

1 Centrum voor Onderzoek naar Menselijke Genetica, Afdeling Moleculaire Fysiologie & Biofysica, Vanderbilt University, Nashville, TN, VS.

Andrew T. Crenshaw

4 Genetisch analyseplatform en programma in medische en populatiegenetica, Broad Institute, Cambridge, MA, VS.

Mariza de Andrade

5 Afdeling Biostatistiek en Informatica, Afdeling Gezondheidswetenschappen Onderzoek, Mayo Clinic College of Medicine, Rochester, MN, VS.

Kimberly F. Doheny

6 Centrum voor onderzoek naar erfelijke ziekten, Johns Hopkins University, Baltimore, MD, VS.

Jonathan L. Haines

1 Centrum voor Onderzoek van de Menselijke Genetica, Afdeling Moleculaire Fysiologie & Biofysica, Vanderbilt University, Nashville, TN, VS.

Geoffrey Hayes

2 Afdeling Endocrinologie, Metabolisme en Moleculaire Geneeskunde, Feinberg School of Medicine, Northwestern University, Chicago, IL, VS.

Gail Jarvik

7 Afdeling Genoomwetenschappen, Universiteit van Washington, Seattle, WA, VS, VS.

Lan Jiang

1 Centrum voor Onderzoek naar Menselijke Genetica, Afdeling Moleculaire Fysiologie & Biofysica, Vanderbilt University, Nashville, TN, VS.

Iftikhar J. Kullo

8 Afdeling Cardiovasculaire Ziekten, Afdeling Geneeskunde, Mayo Clinic, Rochester, MN, VS.

Rongling Li

9 Office of Population Genomics, National Human Genome Research Institute, National Institutes of Health, Bethesda, MD, VS.

Hua Ling

6 Centrum voor onderzoek naar erfelijke ziekten, Johns Hopkins University, Baltimore, MD, VS.

Teri A. Manolio

9 Office of Population Genomics, National Human Genome Research Institute, National Institutes of Health, Bethesda, MD, VS.

Martha Matsumoto

5 Afdeling Biostatistiek en Informatica, Afdeling Gezondheidswetenschappen Onderzoek, Mayo Clinic College of Medicine, Rochester, MN, VS.

Catherine A. McCarty

10 Onderzoekscentrum voor biomedische informatica, Marshfield Clinic Research Foundation, Marshfield, WI, VS.

Andrew N. McDavid

3 Kankerpreventie, volksgezondheidswetenschappen, Fred Hutchinson Cancer Research Center, Seattle, WA, VS.

Daniel B. Mirel

4 Genetisch analyseplatform en programma in medische en populatiegenetica, Broad Institute, Cambridge, MA, VS.

Justin E. Paschall

11 National Center for Biotechnology Information, National Library of Medicine, National Institutes of Health, Bethesda, MD, VS.

Elizabeth W. Pugh

6 Centrum voor onderzoek naar erfelijke ziekten, Johns Hopkins University, Baltimore, MD, VS.

Luke V. Rasmussen

10 Onderzoekscentrum voor biomedische informatica, Marshfield Clinic Research Foundation, Marshfield, WI, VS.

Russell A. Wilke

12 Afdeling Klinische Farmacologie, Afdeling Geneeskunde, Vanderbilt University, Nashville, TN, VS.

Rebecca L. Zuvich

1 Centrum voor Onderzoek van de Menselijke Genetica, Afdeling Moleculaire Fysiologie & Biofysica, Vanderbilt University, Nashville, TN, VS.

Marylyn D. Ritchie

1 Centrum voor Onderzoek van de Menselijke Genetica, Afdeling Moleculaire Fysiologie & Biofysica, Vanderbilt University, Nashville, TN, VS.


Invoering

Aandachtstekortstoornis met hyperactiviteit (ADHD) is de meest gediagnosticeerde neurologische ontwikkelingsstoornis in de kindertijd. Het wordt meestal gekenmerkt door een aanhoudend patroon van onoplettendheid, impulsiviteit en/of hyperactiviteit. Longitudinale onderzoeken geven aan dat ongeveer 66-77% van de personen die ADHD bij kinderen ervaren, ten minste subdrempelsymptomen van ADHD blijven ervaren die een significante invloed hebben op het functioneren op volwassen leeftijd 1,2 . De wereldwijde prevalentie van ADHD wordt geschat op 5,2-7,2% 3,4 . Hoewel de etiologie van ADHD niet goed gedefinieerd is, zijn genetische en omgevingsfactoren bij de stoornis betrokken. Ondanks kleine verschillen tussen individuele steekproeven en onderzoeksontwerpen, wordt de algehele erfelijkheid van ADHD geschat op 70-90% 5,6 .

De efficiëntie van indirecte dopamine-agonisten bij het verminderen van de symptomen van ADHD leidde tot de ontwikkeling van de 'dopaminehypothese van ADHD', die postuleerde dat ontregelde dopamine-signalering centraal staat in de pathofysiologie van ADHD 7 . Vermeende verstoring van andere monoamines zoals noradrenaline en serotonine bij ADHD is ook voorgesteld. Dienovereenkomstig zijn genetische markers die zijn toegewezen aan deze monoamineroutes historisch gezien als kandidaat-genen voor ADHD. Hoewel er in deze literatuur over kandidaatgenen een aantal herhaalde bevindingen bestaan ​​8,9, blijft een belangrijke beperking de a priori selectie van genen op basis van onvolledige kennis van de biologie van ADHD, wat uiteindelijk de identificatie van nieuwe risicomarkers kan belemmeren.

Genoombrede associatiestudies (GWAS) maken de identificatie mogelijk van nieuwe risicovarianten zonder voorkennis van de biologie van een eigenschap of aandoening. Verder is deze benadering afgestemd op de polygene aard van complexe aandoeningen waarbij de kleine rol van individuele single nucleotide polymorphisms (SNP's) in totaal kan worden beschouwd om beter te begrijpen hoe genetische gevoeligheid kan ontstaan. Tot op heden zijn er 13 ADHD-GWAS gepubliceerd. Hiervan waren zeven case-control studies 10,11,12,13,14,15,16 , twee waren familieanalyses 17,18 , en drie onderzochten de associatie tussen kwantitatieve ADHD-symptoommaten en genetische markers 19,20, 21 . In 2010 is ook een GWAS-meta-analyse uitgevoerd 22 . Over het algemeen hadden deze eerdere ADHD-GWAS beperkt succes bij het identificeren van associaties. Er werd echter voorlopig bewijs van associaties (zij het onder de GWAS-betekenis) gevonden voor genen die functioneren in biologische processen die relevant zijn voor de etiologie van ADHD. Pathway-analyse benadrukt bijvoorbeeld een mogelijke rol voor kaliumkanaalgenen en activeringsgenen van Ras Homologue Family Member A (RhoA) -signalering, wat verdere ondersteuning biedt voor de veronderstelde ontregeling van de afgifte van neurotransmitters bij ADHD 23 . Additionele analyse van de paden waarbij gebruik werd gemaakt van gegevens die voortkwamen uit vijf ADHD-GWAS met behulp van de Ingenuity- en BiNGO-tools, toonde een significante verrijking van genen die zijn toegewezen aan een netwerk dat betrokken is bij de uitgroei van neurieten waarvan de doelen worden gemoduleerd door geneesmiddelen die worden gebruikt om ADHD te behandelen 24 . Meest recent leverde een grote meta-analyse van GWAS-gegevens voortkomend uit 20.183 ADHD-gevallen en 35.191 controles de eerste 12 onafhankelijk significante ADHD-GWAS-loci op 25 .

Hier hebben we een GWAS uitgevoerd op een streng gediagnosticeerd klinisch ADHD-cohort verzameld in Australië, Engeland en Ierland in een poging de genetische architectuur van ADHD verder te verduidelijken en mogelijk nieuwe genetische risicofactor (en) te identificeren. Een bijkomend belangrijk doel van de huidige studie was om bij te dragen aan de uitbreiding van de internationale GWAS-gemeenschap. In deze context kunnen GWAS-gegevens die uit dit onderzoek zijn afgeleid, worden gecombineerd met die van de internationale ADHD-GWAS-gemeenschap (bijv. ADHD-PGC) voor daaropvolgende GWAS-analyses.


GWAS: matched-pairs en logistische regressie - Biologie

gin (GWAS Incorporating Networks) is een softwareraamwerk gericht op het verbeteren van de ontdekking van biomarkers op genotyperingsgegevens met behulp van a priori-informatie, namelijk netwerken. Het is de opvolger van SConES, de netwerkgestuurde multi-locus mapping-methode. Het bevat twee uitvoerbare bestanden (de originele scones en shake, de uitgebreide versie) en de gin-bibliotheek, klaar om te worden gebruikt door andere software, zoals martini.

gin vereist CMake >= 3.2 om te compileren. Om te installeren, gewoon doen

Dit zal gin, scones en shake installeren in gin/build. Als je de voorkeur geeft aan een ander installatiepad, voeg dan als eerste argument toe, bijvoorbeeld gin/install_gin.sh /usr/local .

U kunt uw GWAS-gegevens analyseren vanaf de uitvoerbare bestanden op de opdrachtregel. Als u R wilt gebruiken voor uw analyse, raadpleeg dan de R-interface martini. De bestanden die in deze voorbeelden worden gebruikt, zijn beschikbaar in test/data/case1 .

Deze opdracht is gelijk aan het uitvoeren van SConES:

(Bekijk alle beschikbare commando's met shake --help .)

Dit is een voorbeeld van hoe SConES moet worden uitgevoerd:

De argumenten zijn (in volgorde):

  • Het voorvoegsel van de PED/MAP-bestanden, het fenotype en de netwerkbestanden.
  • De kleine allelfrequentie die moet worden gefilterd.
  • De uitvoermap.
  • Het genetische model.
  • Het aantal belangrijkste hoofdcomponenten dat moet worden verwijderd.

gin is gebaseerd op easyGWAS, een C/C++-raamwerk voor het berekenen van genoombrede associatiestudies en meta-analyse, ontwikkeld door dominikgrimm. easyGWAS bevat verschillende standaardmethoden voor het uitvoeren van GWAS, zoals lineaire regressie, logistische regressie en populaire lineaire gemengde modellen (EMMAX, FaSTLMM) om ook rekening te houden met populatiestratificatie.


Genoombrede associatieanalyse van kenmerken bij aanvang van de leeftijd met behulp van Cox mixed-effects-modellen

Leeftijd bij het begin is een van de kritische fenotypes in cohortstudies van aan leeftijd gerelateerde ziekten. Grootschalige genoombrede associatiestudies (GWAS) van leeftijd bij het begin kunnen meer inzicht geven in genetische effecten op ziekteprogressie en overgangen tussen verschillende stadia. Bovendien bereiken proportionele risico's of Cox-regressie over het algemeen een hoger statistisch vermogen in een cohortonderzoek dan een binaire eigenschap die logistische regressie gebruikt. Hoewel mixed-effects-modellen veel worden gebruikt in GWAS om te corrigeren voor populatiestratificatie en gezinsstructuur, wordt de toepassing van Cox mixed-effects-modellen (CMEM's) op grootschalige GWAS tot nu toe gehinderd door hardnekkige rekenintensiteit. In dit werk stellen we COXMEG voor, een efficiënt R-pakket voor het uitvoeren van GWAS van beginleeftijd met behulp van CMEM's. COXMEG introduceert snelle schattingsalgoritmen voor algemene schaarse verwantschapsmatrices, inclusief maar niet beperkt tot blokdiagonale stamboom-gebaseerde matrices. COXMEG introduceert ook een snelle en krachtige scoretest voor volledig dichte verwantschapsmatrices, waarbij rekening wordt gehouden met zowel populatiestratificatie als gezinsstructuur. Bovendien behandelt COXMEG positieve semidefinite verwantschapsmatrices, die gebruikelijk zijn in tweelingen- en familiestudies. Onze simulatiestudies suggereren dat COXMEG, afhankelijk van de structuur van de verwantschapsmatrix, 100 tot 100.000 keer rekenkundig efficiënter is voor GWAS dan coxme voor een steekproef bestaande uit 1000-10.000 individuen. We ontdekten dat het gebruik van een beperkte benadering van verwantschapsmatrices zeer vergelijkbare prestaties opleverde bij het controleren van valse positieven en statistische power voor een etnisch homogeen familiegebaseerd monster. Bij het toepassen van COXMEG op een NIA-LOADFS-monster met 3456 blanken, identificeerden we de APOE4 variant met een sterke statistische power (p=1e-101), veel significanter dan eerdere studies met een getransformeerde variabele en een marginaal Cox-model. Bij het onderzoeken van een multi-etnisch NIA-LOADFS-monster met 3456 blanken en 287 Afro-Amerikanen, identificeerden we een nieuwe SNP rs36051450 (p=2e-9) in de buurt van GRAMD1B, waarvan het minder belangrijke allel de gevaren van AD bij beide geslachten aanzienlijk verminderde. Onze resultaten toonden aan dat COXMEG de toepassing van CMEM's in GWAS van fenotypes bij aanvang van de leeftijd aanzienlijk vergemakkelijkt.


12.9 - Statistische tests in GWAS

In GWAS-onderzoeken wordt meestal voor elk gen een test gedaan. Er zijn verschillende testen beschikbaar.

In het eenvoudigste geval hebben we een categorisch fenotype met twee categorieën. Samen met de 3 genotypen creëert dit een 2x3 tabel. De tellingen in de tabel zijn de aantallen monsters in het onderzoek met een bepaalde combinatie van genotype en fenotype.


AA=0
Aa=1
aa=2
Totaal
gezond
(N_<11>)
(N_<12>) (N_<13>) (R_<1>)
ziekte
(N_<21>) (N_<22>) (N_<23>) (R_<2>)
Totaal

Ervan uitgaande dat de monsters onafhankelijk zijn (ze zijn bijvoorbeeld niet gerelateerd), er is geen populatiestructuur en geen covariaten, dan kan Fisher's exact test of een chi-kwadraattest worden uitgevoerd om te bepalen of het fenotype geassocieerd is met het genotype.

Een andere veelgebruikte test (wederom voor onafhankelijke steekproeven en geen populatiestructuur) is de Cochran-Armitage-test:

De term (N_<1i>R_<2>-N_<2i>R_<1>) neemt in wezen het verschil in tellingen tussen de rijen, na herweging om de rijtotalen gelijk te maken. (Om dit te zien, moet u er rekening mee houden dat (sum_^ <3>N_<1i>R_<2>=sum_^3 N_<2i>R_<1>)). De gewichten (t_i) worden geselecteerd afhankelijk van het patroon waarop u wilt testen. bijv. als je veronderstelt dat het A-allel dominant is, dan zijn de gewichten (t_1=t_2=1, t_3=0). Als je veronderstelt dat de effecten van A en a additief zijn, dan zijn de gewichten (t_1=1, t_2=2, t_3=3). Andere patronen zijn ook mogelijk en kunnen worden getest met verschillende gewichten.

Wanneer de steekproeven gerelateerd zijn, er een populatiestructuur is of er omgevingscovariaten zijn, zijn regressiemodellen flexibeler dan modellen voor tabellen. Voor binaire kenmerken zoals in de bovenstaande tabel, kunnen we logistische regressie gebruiken om de waarschijnlijkheid van een van de fenotypes (vergeleken met de andere) te formuleren, wat een zeer flexibel raamwerk biedt dat vergelijkbaar is met het lineaire model. Wanneer de eigenschap kwantitatief is, kunnen gewone lineaire modellen worden gebruikt. Het fenotype kan als categorisch worden beschouwd (met indicatorvariabelen als voorspellers) of ordinaal (met de 0,1,2 als numerieke waarden).

De beste software die ik ken voor GWAS-onderzoeken is PLINK. Hoewel PLINK stand-alone software is, bieden de auteurs ook een link naar R, genaamd Rplinkseq. De auteurs stellen: "Rplinkseq is een R-pakket dat rechtstreeks vanuit R toegang geeft tot PLINK/Seq-projecten, zodat de uitgebreide set statistische en visualisatietools van R kan worden gebruikt. " PLINK kan haplotypering, filtering en alle momenteel populaire modellen voor GWAS-analyse aan. Gegevensbeheer zoals filteren, het selecteren van voorbeelden of functies, enz. kan echter waarschijnlijk het beste worden gedaan in R.

Een probleem bij GWAS-onderzoeken is dat meervoudig testen niet helemaal is uitgewerkt. Dit komt omdat de meerdere testmethoden waarvan we weten dat ze werken, onafhankelijkheid van de tests vereisen. Vanwege LD kunnen de correlaties tussen de tests echter hoog zijn als u een dichte set SNP's gebruikt. Haplotypering kan meerdere SNP's combineren tot een kleiner aantal complexere genotypen (met mogelijk meer dan 2 allelen), wat meestal de analyse verbetert door een hogere associatie met het fenotype te hebben, minder kenmerken te hebben om te vergelijken en LD tussen kenmerken te verminderen. In QTL-onderzoeken wordt aangenomen dat de genotypen markers zijn van de causale loci, in plaats van zelf causaal te zijn. Dit maakt gebruik van LD, omdat markers die meer gecorreleerd zijn met de causale regio's een sterkere associatie met het fenotype zouden moeten hebben. Onderzoekers maken gebruik van de correlatie tussen de p-waarden en plotten de -log10(p-waarden) tegen de fysieke afstand op het chromosoom in een "Manhattan-plot". De x-as van deze grafiek zijn de chromosomale posities van elk kenmerk binnen elk chromosoom, geordend op chromosoomnummer (en meestal kleurgecodeerd zodat het gemakkelijk te zien is welke kenmerken zich in welk chromosoom bevinden). De y-as zijn getransformeerde p-waarden. Aangezien de kleinste p-waarden van belang zijn, is de y-as meestal -log10(p-waarde), wat de kleine waarden benadrukt. Er wordt aangenomen dat "echte" QTL's worden aangegeven door een lokale piek van kleine p-waarden.


Prioritering van varianten en kandidaatgenen

Prioriteringsmethoden na GWAS zijn ontwikkeld voor verschillende modellen die bedoeld zijn om toepasbaar te zijn voor meerdere ziekten, bijv. ExPecto (Zhou et al., 2018), GenoWAP (Lu et al., 2016b), HyperSMURF (Schubach et al. , 2017) en SNPRanker (Merelli et al., 2013). ExPecto gebruikte bijvoorbeeld alle openbaar beschikbare GWAS-gegevens om prioriteit te geven aan varianten voor de ziekte van Crohn, colitis ulcerosa, de ziekte van Behé7et en het hepatitis B-virus (Zhou et al., 2018). Bij het prioriteren ontdekten ze dat hoog gerangschikte varianten ook het meest waarschijnlijk werden gerepliceerd in GWAS. Voor de ziekte van Crohn was de variant met de hoogste prioriteit door ExPecto rs1174815 (Zhou et al., 2018), maar noch de variant noch het gen (IRGM) heeft hoge prioriteit gekregen in elk ander onderzoek dat zich richt op de ziekte van Crohn. In vergelijking met andere modelrangschikkingen voor loci voor de ziekte van Crohn, zijn er slechts een handvol genen die in meer dan één onderzoek hoge prioriteit hebben gekregen. Een voorbeeld hiervan is GSDMB, een gasdermine-gen waarvan bekend is dat het apoptose in epitheelcellen beïnvloedt. GPRM gaf prioriteit aan dit gen, naast ExPecto dat prioriteit gaf aan een variant in GSDMB (rs58989791) (Zhou et al., 2018 Gettler et al., 2019). Deze prioritering is afgestemd op experimenteel werk dat recentelijk is gericht op: GSDMB bij IBD's kan het vinden van een toename in de expressie van het gen een ontwikkelingsrol spelen voor IBD's (Rana en Pizarro, 2019). Een andere ziekte die in meerdere onderzoeken prioriteit heeft gekregen, is de ziekte van Alzheimer, waarvoor modellen consequent prioriteit geven APOE (Mordelet en Vert, 2011 Wang et al., 2013 Deo et al., 2014). Dit stelt echter vraagtekens bij modeltraining in deze onderzoeken, aangezien APOE al in 1993 is gemeld dat het de ziekte van Alzheimer beïnvloedt (Schmechel et al., 1993).

Een probleem bij het prioriteren van varianten en genen is het vermogen om vast te stellen of de modelvoorspellingen juist zijn. Schubach et al. (2017) pakken dit aan door prioriteit te geven aan regulerende varianten voor zowel mendeliaanse ziekten als complexe ziekten, waarvoor de varianten van de mendeliaanse ziekte waren gevalideerd met een biomedisch literatuuronderzoek. Ze ontdekten dat hyperSMURF consequent beter presteerde dan andere methoden (Eigen, GWAVA, CADD en DeepSea) op zowel mendeliaanse als GWAS-gegevens, wat wijst op een minimaal risico op overfitting en het potentieel voor ML om te generaliseren over datasets. In termen van prestatiestatistieken, Schubach et al. (2017) onderzoeken ook meerdere metingen - 2013 F1-score, AUROC, precisie, terugroepactie en het gebied onder de precisie-herinneringscurve (AUPRC) -2013, maar andere onderzoeken gebruiken voornamelijk AUROC. Hoewel AUROC in veel gevallen een uitstekende maatstaf is, kan het zeer misleidend zijn voor onevenwichtige datasets zoals die vaak worden aangetroffen bij GWAS-prioritering (Jeni et al., 2013 Saito en Rehmsmeier, 2015). Precisie-recall-curves zijn een populair alternatief in gevallen van extreme klassenonbalans, met Schubach et al. (2017) die deze in combinatie met andere statistieken toepassen in een bijzonder rigoureuze aanpak. Studies gericht op het aanpakken van onevenwichtige gegevens zijn belangrijk voor het ontwikkelen van betrouwbare GWAS-toepassingen, en door te blijven focussen op onevenwichtsbewuste benaderingen zal de betrouwbaarheid van modelvoorspellingen zoveel mogelijk worden versterkt in silico.

Om prestatiestatistieken uit het verleden vast te stellen, kan een geprioriteerde variant of de causaliteit van genen worden aangetoond met functionele follow-up. Bijvoorbeeld Lin et al. (2019) ontwikkelde RegSNPs-Intron, een willekeurig bos dat prioriteit gaf aan intronische varianten die verband houden met cellulaire gevoeligheid voor door clofarabine geïnduceerde cytotoxiciteit, waarbij het model voornamelijk afhankelijk was van splicinggegevens. Na prioritering voerden ze ASSET-seq (ASsay for Splicing using ExonTrap and sequencing) uit, die de impact van splicing op een intronische variant meet. Ze ontdekten dat 63 van de 82 experimenteel geteste varianten een significante splitsingsimpact hadden in meerdere cellijnen (Lin et al., 2019), wat verdere aanwijzingen voor functioneel onderzoek suggereert en de prioritering van RegSNPs-Intron valideert. Zhou et al. (2018) voerden ook experimentele follow-up uit, waarbij ze naar hun topprioriteit-varianten keken met een luciferase-assay. Deze bevestigde geprioriteerde varianten hebben invloed op de regelgevende activiteit. Zo had variant rs381218 die prioriteit kreeg om het chronische hepatitis B-virus te beïnvloeden een significante verandering in de activiteit van de verslaggever, die ook door ExPecto werd voorspeld HLA-DOA (Zhou et al., 2018). Deze functionele resultaten verbeteren de interpretatie van mogelijke regulerende rollen voor geprioriteerde loci door prioritering te valideren in vitro, waardoor door ML geproduceerde hypothesen kunnen worden bevestigd en verder kunnen worden uitgewerkt.


Genoombrede associatiestudies

Genoombrede associatiestudies (GWAS) hebben tot doel een of meerdere fenotypen te associëren met een groot aantal genotypen gemeten in dezelfde populatie. De meest onderzochte genotypen zijn single nucleotide polymorphisms (SNP's), die veelvoorkomende genetische varianten zijn (meestal met een kleine allelfrequentie van ten minste 1% in een bepaalde populatie. De standaardbenadering voor het testen op een associatie is het gebruik van het genotype, gecodeerd in termen van de dosering (0, 1 of 2) van het minder frequente allel (het zogenaamde “minor allel”) als kenmerk, en het fenotype als responsvariabele binnen een regressiemodel Continu gedistribueerde fenotypes zijn vaak “qq-genormaliseerd” ", dwz getransformeerd in een normaal verdeelde variabele. Discrete fenotypes, zoals ziektetoestanden, worden getest op associatie met het genotype met behulp van logistische regressie. Zowel voor lineaire als logistische regressie is het gebruikelijk om covariaten op te nemen bij het schatten van de effecten. Typische covariaten voor GWAS van menselijke fenotypes zijn leeftijd, geslacht en de belangrijkste componenten van het gehele genotypische profiel, dat dient als een proxy voor populatiestratificatie. NP-gewijs effect β en zijn standaardfout (ste). De verhouding β/ste is t-verdeeld onder de nulhypothese. Aangezien de standaardfout de standaarddeviatie is gedeeld door de vierkantswortel van de steekproefomvang, kan deze altijd kleiner worden gemaakt door de steekproefomvang te vergroten, wat leidt tot grotere t-statistieken, als het effect niet nul is. Met alsmaar groeiende cohorten, waarvan sommige een steekproefomvang hebben van bijna een miljoen, is het in principe mogelijk om zeer kleine effecten te detecteren.

De genetische component van een complexe eigenschap is te wijten aan de combinatie van een groot aantal kleine effecten, waarvan sommige additief kunnen zijn, terwijl andere op een niet-lineaire manier combineren, bekend als epistasie. De gecombineerde genetische variabiliteit in verhouding tot de totale variabiliteit (inclusief het omgevingsgedeelte) staat bekend als erfelijkheid. De additieve erfelijkheidsgraad van een eigenschap kan worden geschat op basis van de GWAS-samenvattingsstatistieken (d.w.z. SNP-gewijze effectgroottes en hun fouten) met behulp van een methode die bekend staat als LD-scoreregressie [ref]. Een aanzienlijke erfelijkheidsgraad van een fenotype is een teken dat het een genetische en dus biologische onderbouwing heeft.

Statistische kracht is om twee redenen essentieel voor GWAS. Ten eerste wordt verwacht dat individuele SNP-gewijze effecten van complexe eigenschappen klein zullen zijn, vooral als het effect de fitness (zelfs in geringe mate) negatief beïnvloedt, aangezien eventuele aanzienlijke nadelige effecten het effect-allel door natuurlijke selectie uit de populatie zouden hebben verwijderd. Ten tweede testen genoombrede scans tegenwoordig ongeveer een miljoen gemeten SNP's. Als gevolg van het grote aantal tests kunnen bij toeval significante associaties ontstaan. Bij het maken van bijvoorbeeld een miljoen tests, onder de nulhypothese dat er geen echte associaties zijn, zijn de nominale p-waarden van deze tests uniform verdeeld en wordt verwacht dat de kleinste p-waarde in de orde van 10-6 ligt, dat wil zeggen één over het aantal tests. De meest gebruikelijke manier om fout-positieven te controleren bij het testen van meerdere hypothesen, is het toepassen van een zogenaamde "Bonferroni-correctie", waarbij alleen associaties met p-waarden kleiner dan de nominale significantiegrenswaarde (meestal 0,05) gedeeld door het aantal tests, worden als significant beschouwd. Dus het toepassen van een Bonferroni-betekenisdrempel van 5·10-8 wordt algemeen aanvaard binnen de GWAS-gemeenschap om echte associaties te onthullen.

Een belangrijke uitdaging van GWAS is om de SNP-gewijze associaties te interpreteren. Deze associaties kunnen worden gezien als verwijzingen naar individuele nucleotiden in het DNA die kandidaten zijn voor het moduleren van de eigenschap van belang. Toch zijn er verschillende problemen bij het analyseren van eigenschap-geassocieerde SNP's. Ten eerste zijn proximale SNP's meestal niet onafhankelijk, een fenomeen dat bekend staat als "linkage disequilibrium" (LD). Als gevolg hiervan vindt men meestal aanzienlijke regio's die honderden SNP's kunnen bevatten, die allemaal significant geassocieerd zijn met de eigenschap. De verschillen van de respectievelijke p-waarden zijn vaak te klein om te beslissen welke van de vele SNP's de "lead SNP" is, degene met de grootste kans om het associatiesignaal aan te sturen. Bovendien bevatten GWAS meestal geen zeldzame genetische varianten, die de eigenlijke causale nucleotiden kunnen zijn. Sommige van de zeldzame varianten kunnen worden toegeschreven aan de SNP's, en state-of-art GWAS beschouwen nu ongeveer 10 miljoen geïmputeerde genotypen bovenop de miljoen die direct worden gemeten (meestal met behulp van microarrays). Omdat sequencing steeds goedkoper wordt, kunnen we verwachten dat uiteindelijk de volledige menselijke sequentie, inclusief extreem zeldzame of zelfs individuele varianten, beschikbaar zal zijn voor GWAS.


Methoden en materialen

Gegevensset

We hebben toestemming gekregen om toegang te krijgen tot de WTCCC-dataset voor T2D van de websites van het consortium (https://www.wtccc.org.uk/info/access_to_data_samples.shtml, [1]). De gedetailleerde beschrijving van de onderzoeksmonsters is te vinden in het originele rapport. In het kort, de dataset heeft een pool van 3.004 controles (die bestaan ​​uit een geboortecohort uit 1958 (1.504 personen) en een recent aangeworven monster van de UK Blood Service (1.500 personen)), en 1.999 T2D-getroffen personen. De meeste proefpersonen waren van Europese afkomst. Monsters van de individuen werden gegenotypeerd met behulp van Affymetrix GeneChip 500K-arrays. De genotypen geschat met het algoritme CHIAMO werden in deze studie gebruikt. De volgende uitsluitingscriteria werden gebruikt voor kwaliteitscontrole: (i) Hardy-Weinberg Evenwicht exacte test P-waarde < 5 × 10 -7 in controles (ii) allelfrequentieverschiltest gebaseerd op 1 vrijheidsgraad (df) trendtest P-waarde < 5 × 10 -7 tussen de twee controlegroepen (iii) kleine allelfrequenties < 1%. We waren het meest geïnteresseerd om te zien of een focus op interacties SNP's zou kunnen bevorderen die niet-significant tot significant waren. Na het filteren en verwijderen van de SNP's in genen gevonden door enkelvoudige SNP-analyse, daalde het aantal geanalyseerde SNP's van 500.568 naar 418.097.

Constructie van SNP-paren voor interactietests

SNP-paren werden gegenereerd op basis van respectievelijk genannotatie, route en netwerkkennis. In het kort werd een set van alle SNP-paren in hetzelfde gen geconstrueerd op basis van hun genomische coördinaten. Evenzo werd voor elke route een set van alle SNP-paren gemaakt, bestaande uit SNP's die zich in verschillende genen bevinden die bij de route zijn betrokken. In het geval van de netwerkgebaseerde benadering werd eerst een ziektegeassocieerd netwerk geëxtraheerd uit een menselijke interactome-database en vervolgens werden SNP-paren gegenereerd waarbij elk lid van het paar in een ander gen van het netwerk was gepositioneerd. De algemene procedure wordt geïllustreerd in figuur 1.

Procedure om interacties tussen geselecteerde SNP's te detecteren. a) op genen gebaseerde methode: interactie tussen SNP's die zich in hetzelfde gengebied bevinden (inclusief 20 kb stroomopwaarts en stroomafwaarts van het gen) worden uitvoerig getest. Merk op dat de vorige methode op basis van aangrenzende SNP's [27] kan worden beschouwd als een speciaal geval van deze methode b) op de route gebaseerde methode, een deel van de STAT3-route wordt gebruikt om deze methode te illustreren, interacties tussen SNP's die zich in verschillende genen in dezelfde route bevinden worden getest c) netwerkgebaseerde methode: eerst wordt een ziektegeassocieerd subnetwerk gegenereerd, vervolgens worden interacties tussen SNP's die in verschillende genen in het subnetwerk zijn gepositioneerd getest d) interacties tussen eSNP's en SNP's die zich bevinden in de genen waarvan de expressie wordt gereguleerd door de eSNP zijn getest. Rode driehoeken vertegenwoordigen SNP's. Gestippelde lijnen geven mogelijke interacties weer.

SNP's die zich in hetzelfde gen bevinden

We hebben de genomische coördinaten van 18.657 genen gedownload van de plink-website (http://pngu.mgh.harvard.edu/

purcell/plink/res.shtml, [34]), die op 24 juli 2008 werden gegenereerd vanuit de UCSC-tabelbrowser voor alle RefSeq-genen. De coördinaten van SNP's uit de WTCCC-dataset werden gebruikt om ze aan deze genen toe te wijzen. Vanwege het potentieel dat regulerende elementen zich in de geannoteerde genomgeving zouden kunnen bevinden, werd 20 kb sequentie op en neerwaarts van een gen ook beschouwd als onderdeel van het gen. Dit kan meer dan één gen associëren met een enkele SNP. Gentoewijzingen met behulp van deze benadering werden gebruikt voor de onderstaande route-, netwerk- en eSNP-analyses.

To reduce the computational burden, only genes with less than 100 SNPs were analyzed. This constraint could be relaxed in future studies by considering the Linkage Disequilibrium (LD) structure, where SNPs located in the same LD blocks are highly correlated, and the genotyping information becomes redundant. The final analyzed set has 15,953 genes, which include 205,402 SNPs in total. For each of the 15,953 genes, SNP pairs were generated exhaustively based on SNPs located in the same gene, and tested for interactions. In total, more than 2.7 × 10 6 SNP pairs were tested. To correct for the multiple hypothesis-testing problem, a Bonferroni correction was used with a p-value cutoff of 1.85 × 10 -8 for a significance level of 5%.

SNP pairs in the same pathway

Canonical pathway data were downloaded from the Molecular Signatures Database (http://www.broadinstitute.org/gsea/msigdb/index.jsp, c2.cp.v3.0). The initial data contain 880 canonical pathways. Some pathways have very general functions, and contain large numbers of genes, e.g., the gene expression pathway from the Reactome has 425 genes, and the pathways in cancer from KEGG have 328 genes. To focus on pathways with more specific functions and to increase computational efficiency, only pathways with less than 50 genes were analyzed in this study. The final set has 655 pathways, and 1.9 × 10 5 SNPs in total. For each pathway, the interactions among SNPs located in different genes were tested, which led to 2.7 × 10 7 tests in total.

SNPs in a subnetwork associated with T2D

The subnetwork associated with T2D was constructed in three steps: 1) first, a human protein-protein interactome was downloaded from a public database 2) then, genes associated with T2D (T2D genes) were also obtained from a database curated by literature mining 3) finally, the T2D genes were used as seeds to extract a subnetwork from the interactome by applying the Steiner tree algorithm. The details for each of these steps are as follows.

The human interactome was downloaded from the STRING database maintained by EMBL (http://string-db.org/, [35]). Note that STRING contains known and predicted protein/gene interactions, which include direct (physical) and indirect (functional, such as mRNA co-expression) associations. They are derived mainly from four sources: high-throughput experiments for interaction detection (yeast two-hybrid, affinity purification followed by mass spectrometry, whole genome expression, literature mining, and genomic context). Based on the strength of evidence for each interaction, a score is assigned to reflect the confidence level. Those interactions with a score more than 0.80 were extracted to generate the human interactome, which contains 10,571 genes and 286,876 interactions.

Genes associated with T2D (T2D genes) were downloaded from a public database (T2DGADB, http://t2db.khu.ac.kr:8080/, [36]), derived from 701 publications of T2D association studies. 446 T2D genes showed disease association in from one to 49 publications. T2D genes (seed genes) were mapped to the interactome, and a T2D related subnetwork was constructed by adding new genes to connect T2D genes using a Steiner tree algorithm. Details of this algorithm can be found in the original paper and its applications [37–39]. Briefly, as a first step, T2D genes absent from the interactome are removed, then the algorithm adds other genes to connect the remaining genes, finally, the network is simplified based on the criterion of the shortest paths between seed genes. The final subnetwork has 453 genes and 2374 interactions, and 354 genes are initial T2D genes (seed genes) while 99 genes (nodes) are added to optimize the connectivity.

The SNPs located in the 453 genes of the subnetwork were collected, and the SNP pairs were exhaustively generated from all SNPs. SNP pairs from the same genes were removed. The final SNP pairs were tested for interactions, which results in 4.7 × 10 7 tests.

Interaction between eSNPs and genes

To detect the interactions involved in SNPs located in intergenic regions, we analyzed the interactions of SNP pairs between eSNPs and SNPs positioned in the genes whose expressions are affected by the eSNPs.

The association data between eSNPs and genes was downloaded from a previous study (http://www.sph.umich.edu/csg/liang/asthma/, [31]) and public database (http://www.scandb.org, [40]). The p-value cutoff (< 10 -5 ) was used to filter out the unreliable associations between eSNPs and the expression of genes. In total, association was established between 151,571 eSNPs and 11,558 genes. SNPs located in 11,558 genes were mapped to genes as described above. Overall 3.5 × 10 6 eSNP-SNP pairs were generated.

Test of interactions

The following logistic regression model as implemented in Plink was applied to test the interactions among SNPs using the option -epistasis [34]:

where P is the probability of being affected, b0 is the intercept, b1, B2, and b3 are coefficient terms, and rs1 and rs2 are the additive codes for the two SNPs (i.e. the number of susceptibility alleles, 0,1 or 2). The biological meaning of these terms are as follows: b0, the baseline odds of disease b1 and b2 are odds of disease due to the two SNPs respectively b3, the odds of disease due to interaction between two SNPs. They are calculated by traditional logistic regression analysis. Then, a two-sided test of the null hypothesis b3 = 0 is performed assuming the test statistic follows its asymptotic distribution. The Bonferroni method was used to correct for multiple hypothesis-testing separately for each of the gene, pathway, network, and eSNP levels. Corrected p-values < 0.05 were considered as significant. The associations of single SNPs with T2D were also compared to interaction p-values.


GTEx Consortium

Laboratory and Data Analysis Coordinating Center (LDACC): François Aguet 1 , Shankara Anand 1 , Kristin G Ardlie 1 , Stacey Gabriel 1 , Gad Getz 1,2 , Aaron Graubert 1 , Kane Hadley 1 , Robert E Handsaker 3,4,5 , Katherine H Huang 1 , Seva Kashin 3,4,5 , Xiao Li 1 , Daniel G MacArthur 4,6 , Samuel R Meier 1 , Jared L Nedzel 1 , Duyen Y Nguyen 1 , Ayellet V Segrè 1,7 , Ellen Todres 1

Analysis Working Group (funded by GTEx project grants): François Aguet 1 , Shankara Anand 1 , Kristin G Ardlie 1 , Brunilda Balliu 8 , Alvaro N Barbeira 9 , Alexis Battle 10,11 , Rodrigo Bonazzola 9 , Andrew Brown 12,13 , Christopher D Brown 14 , Stephane E Castel 15,16 , Don Conrad 17,18 , Daniel J Cotter 19 , Nancy Cox 20 , Sayantan Das 21 , Olivia M de Goede 19 , Emmanouil T Dermitzakis 12,22,23 , Barbara E Engelhardt 24,25 , Eleazar Eskin 26 , Tiffany Y Eulalio 27 , Nicole M Ferraro 27 , Elise Flynn 15,16 , Laure Fresard 28 , Eric R Gamazon 29,30,31,20 , Diego Garrido-Martín 32 , Nicole R Gay 19 , Gad Getz 1,2 , Aaron Graubert 1 , Roderic Guigó 32,33 , Kane Hadley 1 , Andrew R Hamel 7,1 , Robert E Handsaker 3,4,5 , Yuan He 10 , Paul J Hoffman 15 , Farhad Hormozdiari 34,1 , Lei Hou 35,1 , Katherine H Huang 1 , Hae Kyung Im 9 , Brian Jo 24,25 , Silva Kasela 15,16 , Seva Kashin 3,4,5 , Manolis Kellis 35,1 , Sarah Kim-Hellmuth 15,16,36 , Alan Kwong 21 , Tuuli Lappalainen 15,16 , Xiao Li 1 , Xin Li 28 , Yanyu Liang 9 , Daniel G MacArthur 4,6 , Serghei Mangul 26,37 , Samuel R Meier 1 , Pejman Mohammadi 15,16,38,39 , Stephen B Montgomery 28,19 , Manuel Muñoz-Aguirre 32,40 , Daniel C Nachun 28 , Jared L Nedzel 1 , Duyen Y Nguyen 1 , Andrew B Nobel 41 , Meritxell Oliva 9,42 , YoSon Park 14,43 , Yongjin Park 35,1 , Princy Parsana 11 , Ferran Reverter 44 , John M Rouhana 7,1 , Chiara Sabatti 45 , Ashis Saha 11 , Ayellet V Segrè 1,7 , Andrew D Skol 9,46 , Matthew Stephens 47 , Barbara E Stranger 9,48 , Benjamin J Strober 10 , Nicole A Teran 28 , Ellen Todres 1 , Ana Viñuela 49,12,22,23 , Gao Wang 47 , Xiaoquan Wen 21 , Fred Wright 50 , Valentin Wucher 32 , Yuxin Zou 51

Analysis Working Group (not funded by GTEx project grants): Pedro G Ferreira 52,53,54 , Gen Li 55 , Marta Melé 56 , Esti Yeger-Lotem 57,58

Leidos Biomedical - Project Management: Mary E Barcus 59 , Debra Bradbury 60 , Tanya Krubit 60 , Jeffrey A McLean 60 , Liqun Qi 60 , Karna Robinson 60 , Nancy V Roche 60 , Anna M Smith 60 , Leslie Sobin 60 , David E Tabor 60 , Anita Undale 60

Biospecimen collection source sites: Jason Bridge 61 , Lori E Brigham 62 , Barbara A Foster 63 , Bryan M Gillard 63 , Richard Hasz 64 , Marcus Hunter 65 , Christopher Johns 66 , Mark Johnson 67 , Ellen Karasik 63 , Gene Kopen 68 , William F Leinweber 68 , Alisa McDonald 68 , Michael T Moser 63 , Kevin Myer 65 , Kimberley D Ramsey 63 , Brian Roe 65 , Saboor Shad 68 , Jeffrey A Thomas 68,67 , Gary Walters 67 , Michael Washington 67 , Joseph Wheeler 66

Biospecimen core resource: Scott D Jewell 69 , Daniel C Rohrer 69 , Dana R Valley 69

Brain bank repository: David A Davis 70 , Deborah C Mash 70

Pathology Mary E Barcus 59 , Philip A Branton 71 , Leslie Sobin 60

ELSI study: Laura K Barker 72 , Heather M Gardiner 72 , Maghboeba Mosavel 73 , Laura A Siminoff 72

Genome Browser Data Integration & Visualization: Paul Flicek 74 , Maximilian Haeussler 75 , Thomas Juettemann 74 , W James Kentv 75 , Christopher M Lee 75 , Conner C Powell 75 , Kate R Rosenbloom 75 , Magali Ruffier 74 , Dan Sheppard 74 , Kieron Taylor 74 , Stephen J Trevanion 74 , Daniel R Zerbino 74

eGTEx groups: Nathan S Abell 19 , Joshua Akey 76 , Lin Chen 42 , Kathryn Demanelis 42 , Jennifer A Doherty 77 , Andrew P Feinberg 78 , Kasper D Hansen 79 , Peter F Hickey 80 , Lei Hou 35,1 , Farzana Jasmine 42 , Lihua Jiang 19 , Rajinder Kaul 81,82 , Manolis Kellis 35,1 , Muhammad G Kibriya 42 , Jin Billy Li 19 , Qin Li 19 , Shin Lin 83 , Sandra E Linder 19 , Stephen B Montgomery 28,19 , Meritxell Oliva 9,42 , Yongjin Park 35,1 , Brandon L Pierce 42 , Lindsay F Rizzardi 84 , Andrew D Skol 9,46 , Kevin S Smith 28 , Michael Snyder 19 , John Stamatoyannopoulos 81,85 , Barbara E Stranger 9,48 , Hua Tang 19 , Meng Wang 19

NIH program management: Philip A Branton 71 , Latarsha J Carithers 71,86 , Ping Guan 71 , Susan E Koester 87 , A. Roger Little 88 , Helen M Moore 71 , Concepcion R Nierras 89 , Abhi K Rao 71 , Jimmie B Vaught 71 , Simona Volpi 90


Bekijk de video: Interpreting the Odds Ratio in Logistic Regression using SPSS (December 2021).