Informatie

30.6: Genoombrede associatiestudies - biologie


In de jaren negentig stelden onderzoekers een methodologie voor genaamd genoombrede associatie om markers systematisch te correleren met eigenschappen. Deze studies bemonsteren grote groepen gevallen en controles, meten hun genotypen in de orde van grootte van een miljoen markers en proberen variatie (SNP's, CNV's, indels) in hun genotypen te correleren met hun variatie in fenotype, waarbij ziekte door de populatie wordt gevolgd, in plaats daarvan van stambomen.

Evenementen Genoombrede associatiestudies mogelijk maken

Genoombrede associatiestudies (GWAS's) zijn mogelijk dankzij drie vorderingen.

Ten eerste hebben vorderingen in ons begrip van het genoom en het creëren van genomische bronnen ons in staat gesteld de variatie in het genoom beter te begrijpen en te catalogiseren. Op basis van deze gegevens hebben we het belangrijkste biologische inzicht gerealiseerd dat mensen een van de minst genetisch diverse soorten zijn. In de orde van tientallen miljoenen SNP's worden gedeeld tussen verschillende menselijke subpopulaties. Voor een bepaald gebied van het genoom observeren we slechts een beperkt aantal haplotypes (allelencombinaties die samen worden overgeërfd). Dit komt door het feit dat we als soort relatief nieuw zijn en dat mutaties onze snelle groei niet hebben ingehaald. Door deze hoge redundantie hoeven we maar een fractie van alle varianten in het menselijk genoom te meten om ze allemaal met LD te vangen. We kunnen dan de algoritmen aanpassen voor het afleiden van overervingspatronen in koppelingsanalyse om genotypen toe te rekenen voor de markers die we niet hebben genotype. Bovendien stellen genoombronnen ons in staat om zorgvuldig markers te kiezen om te meten en om voorspellingen te doen op basis van markers die statistisch significante associatie vertonen. We hebben nu de referentiesequentie van het menselijk genoom (waardoor uitlijningen, genotype en SNP-oproepen mogelijk zijn) en HapMap, een uitgebreide catalogus van SNP's bij mensen. We hebben ook genoombrede annotaties van genen en regulerende elementen.

Ten tweede hebben ontwikkelingen in genotyperingstechnologie zoals microarrays en high-throughput sequencing ons de mogelijkheid gegeven om de genomen van de getroffenen met verschillende fenotypes te vergelijken met controles. Ze zijn ook het gemakkelijkst en goedkoopste te meten met behulp van deze technologieën. Hoewel er veel soorten variatie zijn in het menselijk genoom (Figuur 30.6 toont enkele voorbeelden), vormen SNP's de overgrote meerderheid. Bovendien zijn, om rekening te houden met de andere soorten varianten, recentelijk DNA-microarrays ontwikkeld om naast SNP's ook kopie-nummervariatie te detecteren, waarna we de niet-geobserveerde gegevens kunnen toeschrijven.

De derde vooruitgang is een nieuwe verwachting van samenwerking tussen onderzoekers. GWAS's vertrouwen op grote steekproefomvang om de power (waarschijnlijkheid van een echt positief) van statistische tests te vergroten. De explosie van het aantal gepubliceerde GWAS's heeft geleid tot een nieuw type meta-analyse die de resultaten van verschillende GWAS's voor hetzelfde fenotype combineert om krachtigere associaties te maken. Meta-analyse verklaart verschillende technische en populatie-genetische vooroordelen in individuele studies. Van onderzoekers die GWAS's uitvoeren, wordt verwacht dat ze samenwerken met anderen die GWAS's op hetzelfde kenmerk hebben uitgevoerd om de reproduceerbaarheid van de resultaten aan te tonen. Door de gegevens te bundelen, hebben we ook meer vertrouwen in de gerapporteerde associaties, en de genen die worden ontdekt, kunnen leiden tot de herkenning van belangrijke paden en processen.

Wist u?

Gewijzigd vanuit het Wellcome Trust Sanger Institute: de ziekte van Crohn en colitis ulcerosa zijn de focus geweest voor complexe ziektegenetica, en de massale samenwerkingsinspanningen van het International Inflammatory Bowel Disease Genetics Consortium (IIBDGC) versterken het succes van het onderzoek. Met ongeveer 40.000 DNA-monsters van patiënten met IBD en 20.000 gezonde controles hebben de IIBDGC 99 definitieve IBD-loci ontdekt. In totaal zijn de 71 loci voor de ziekte van Crohn en 47 UC verantwoordelijk voor respectievelijk 23% en 16% van de erfelijkheidsgraad van de ziekte. Belangrijke inzichten in ziektebiologie zijn al het resultaat van genontdekking (bijv. autofagie bij de ziekte van Crohn, defecte barrièrefunctie in UC- en IL23-signalering bij IBD en immuungemedieerde ziekten in het algemeen). Verwacht wordt dat van de vele nieuwe doelwitten voor geneesmiddelen die door genontdekking zijn geïdentificeerd, er enkele uiteindelijk zullen resulteren in verbeterde therapieën voor deze verwoestende aandoeningen. Verbeterde diagnostiek, prognostiek en therapie zijn allemaal doelen, met het oog op: gepersonaliseerde therapie (de praktijk om het genetische profiel van een individu te gebruiken als richtlijn voor behandelbeslissingen) in de toekomst.

Kwaliteitscontroles

Het grootste probleem bij het uitvoeren van GWAS's is het elimineren van verstorende factoren, maar best practices kunnen worden gebruikt om kwaliteitsgegevens te ondersteunen.

Ten eerste is er een genotyperingsfout, die vaak genoeg is om een ​​speciale behandeling te vereisen, ongeacht welke technologie wordt gebruikt. Dit is een technische kwaliteitscontrole en om met dergelijke fouten rekening te houden, gebruiken we drempelwaarden voor metrieken zoals kleine allelfrequentie en afwijking van Hardy-Weinberg evenwicht en gooi SNP's weg die niet aan de criteria voldoen.

Ten tweede vereisen systematische genetische verschillen tussen menselijke subpopulaties een genetische kwaliteitscontrole. Er zijn verschillende methoden om dit te verklaren populatie substructuur, zoals genomische controle [7], testen op Mendeliaanse inconsistenties, gestructureerde associatie [30] en hoofdcomponentenanalyse [27, 29].

Ten derde kunnen covariabelen zoals omgevings- en gedragseffecten of geslacht de gegevens scheeftrekken. Deze kunnen we verantwoorden door ze op te nemen in ons statistisch model.

Testen op associatie

Na het uitvoeren van de kwaliteitscontroles is de statistische analyse die betrokken is bij GWAS vrij eenvoudig, met de eenvoudigste tests: regressie met enkele markering of een chikwadraattoets. In feite zijn associatieresultaten die mysterieuze statistieken/complexe multi-markermodellen vereisen vaak minder betrouwbaar.

Ten eerste nemen we aan dat het effect van elke SNP onafhankelijk en additief is om de analyse hanteerbaar te maken. Voor elke SNP voeren we een hypothesetest uit waarvan de nulhypothese is dat de waargenomen variatie in het genotype bij die SNP over de proefpersonen niet correleert met de waargenomen variatie in het fenotype over de proefpersonen. Omdat we voor elke SNP één test uitvoeren, hebben we te maken met de meervoudig testprobleem. Elke test heeft enige kans op een vals-positief resultaat, en naarmate we het aantal tests verhogen, wordt de

kans op het krijgen van een vals positief in een van hen neemt toe. In wezen zou met koppeling p = 0,001 (.05/50 chromosomale armen) als potentieel significant worden beschouwd, maar GWAS omvat het uitvoeren van O(10e6)-tests die grotendeels onafhankelijk zijn. Elke studie zou honderden p <0,001 hebben, puur op basis van statistische kans, zonder echte relatie met ziekte. Er zijn verschillende methoden om rekening te houden met meerdere testen, zoals Bonferroni-correctie en maatregelen zoals de valse ontdekkingssnelheid [3] en de niet-reproduceerbare ontdekkingssnelheid [22]. Typisch, genoombrede betekenis is vastgesteld op p = 5*10e-8 (= .05/1 miljoen tests), voor het eerst voorgesteld door Risch en Merikangas (1996) []. In 2008 publiceerden drie groepen [] empirisch afgeleide schattingen op basis van dichte genoombrede kaarten van gemeenschappelijk DNA en geschatte geschikte dichte kaartnummers in het bereik van 2,5 tot 7,2e-8. Deze kunnen worden gevisualiseerd in figuur 30.7. Vanwege deze verschillende drempels is het belangrijk om naar meerdere onderzoeken te kijken om associaties te valideren, want zelfs met strikte kwaliteitscontrole kunnen er artefacten zijn die één op de duizend of tienduizend SNP's kunnen beïnvloeden en aan de aandacht kunnen ontsnappen. Bovendien wordt de strikte genoombrede significantie over het algemeen niet dramatisch overschreden, als deze al wordt bereikt, in een enkele studie.

Naast het rapporteren van SNP's die de sterkste associaties vertonen, gebruiken we meestal ook Percelen in Manhattan om te laten zien waar deze SNP's zich in het genoom bevinden en kwantiel-kwantiel (Q-Q) plots om vooroordelen te detecteren die niet naar behoren zijn verantwoord. Een Manhattan-plot is een spreidingsplot van log-getransformeerde p-waarden tegen genomische positie (aaneenschakeling van de chromosomen). In figuur 30.8A zijn de rode punten de punten die voldoen aan de significantiedrempel. Ze zijn gelabeld met kandidaatgenen die dichtbij zijn. Een Q-Q-plot is een spreidingsplot van log-getransformeerde waargenomen p-waarden tegen log-getransformeerde verwachte p-waarden. We gebruiken uniforme kwantielen als de verwachte p-waarden: aangenomen dat er geen associatie is, verwachten we dat p-waarden uniform verdeeld zijn. Afwijking van de diagonaal suggereert dat p-waarden significanter zijn dan zou worden verwacht. Een vroege en consistente afwijking van de diagonaal suggereert echter dat te veel p-waarden te significant zijn, d.w.z. dat er enige vertekening is die de test in de war brengt. In figuur 30.8B toont de grafiek de waargenomen teststatistiek tegen de verwachte teststatistiek (die equivalent is). Gezien alle markeringen omvat de Groot histocompatibiliteitscomplex (MHC), wat het gebied is dat wordt geassocieerd met de immuunrespons. Dit gebied heeft een unieke LD-structuur die de statistische analyse vertroebelt, zoals blijkt uit de afwijking van de zwarte punten van de diagonaal (het grijze gebied). Het weggooien van de MHC verwijdert veel van deze vooringenomenheid uit de resultaten (de blauwe punten).

GWAS identificeert markers die correleren met de eigenschap van belang. Elke marker legt echter een buurt van SNP's vast waarmee hij in LD is, waardoor het probleem van het identificeren van de causale variant moeilijker wordt. Gewoonlijk is het kandidaatgen voor een marker het gen dat er het dichtst bij ligt. Vanaf hier moeten we verder onderzoek doen om de relevantie van de varianten die we identificeren te identificeren. Dit blijft echter om een ​​aantal redenen een uitdagend probleem:

  • Door associatie geïdentificeerde interessegebieden impliceren vaak meerdere genen
  • Sommige van deze associaties zijn nergens in de buurt van eiwitcoderende segmenten en hebben geen duidelijk functioneel allel als oorsprong
  • Het koppelen van deze regio's aan onderliggende biologische routes is moeilijk

Interpretatie: Hoe kan GWAS de biologie van ziekte informeren?

Ons primaire doel is om deze gevonden associaties te gebruiken om de biologie van ziekte op een bruikbare manier te begrijpen, omdat dit therapieën zal helpen begeleiden om deze ziekten te behandelen. De meeste associaties identificeren geen specifieke genen en causale mutaties, maar zijn eerder verwijzingen naar kleine regio's met causale invloeden op ziekte. Om een ​​therapeutische hypothese te ontwikkelen en ernaar te handelen, moeten we veel verder gaan en deze vragen beantwoorden:

  • Welk gen is verbonden met ziekte?
  • Welk biologisch proces is daarbij betrokken?
  • Wat is de cellulaire context waarin dat proces werkt en relevant is voor ziekte?
  • Wat zijn de specifieke functionele allelen die het proces verstoren en ziekte bevorderen of beschermen?

Dit kan op twee manieren worden benaderd: onderkant boven naderen, of de ondersteboven benadering.

Onderkant boven

De bottom-up benadering wordt gebruikt om een ​​bepaald gen te onderzoeken dat een bekende associatie heeft met een ziekte, en het biologische belang ervan in een cel te onderzoeken. Kuballa et al.[19] waren in staat om deze bottom-up benadering te gebruiken om te leren dat een bepaalde risicovariant geassocieerd met de ziekte van Crohn leidt tot aantasting van

autofagie van bepaalde pathogenen. Bovendien konden de auteurs een muismodel maken van dezelfde risicovariant als bij mensen. Het identificeren van biologische implicaties van risicovarianten op cellulair niveau en het maken van deze modellen is van onschatbare waarde, aangezien de modellen direct kunnen worden gebruikt om nieuwe potentiële behandelingsverbindingen te testen.

Ondersteboven

De top-down benadering houdt daarentegen in dat naar alle bekende associaties wordt gekeken, de volledige set GWAS-resultaten wordt gebruikt en wordt geprobeerd deze te koppelen aan gedeelde biologische processen/routes die betrokken zijn bij de pathogenese van ziekten. Deze benadering is gebaseerd op het idee dat veel van de geassocieerde genen met een ziekte relevante biologische routes delen. Dit wordt gewoonlijk gedaan door bestaande netwerken, zoals eiwit-eiwit-interactienetwerken, te nemen en de bijbehorende genen daar bovenop te leggen. Deze resulterende ziektenetwerken zijn echter mogelijk niet significant vanwege vooringenomenheid in zowel de ontdekking van associaties als de experimentele vooringenomenheid van de gegevens waarmee de associaties worden geïntegreerd. Deze significantie kan worden geschat door de labels voor de knooppunten in het netwerk vele malen te permuteren en vervolgens te berekenen hoe zeldzaam het connectiviteitsniveau is voor het gegeven ziektenetwerk. Dit proces wordt geïllustreerd in figuur 30.9. Aangezien genen die in het netwerk zijn verbonden gezamenlijk tot expressie moeten worden gebracht, is aangetoond dat deze ziektenetwerken verder kunnen worden gevalideerd door middel van genexpressieprofilering [14].

Vergelijking met koppelingsanalyse

Het is belangrijk op te merken dat GWAS meer varianten vastlegt dan koppelingsanalyse. Koppelingsanalyse identificeert zeldzame varianten die negatieve effecten hebben, en koppelingsonderzoeken worden gebruikt wanneer stambomen van verwante personen met fenotypische informatie beschikbaar zijn. Ze kunnen zeldzame allelen identificeren die in kleinere aantallen families aanwezig zijn, meestal als gevolg van een mutatie van de grondlegger en zijn gebruikt om mutaties zoals BRCA1 te identificeren, geassocieerd met borstkanker. Als alternatief worden voor dit doel associatiestudies gebruikt en ook om meer algemene genetische veranderingen te vinden die kleinere invloeden op gevoeligheid verlenen, zoals zeldzame varianten die beschermende effecten hebben. Koppelingsanalyse kan deze varianten niet identificeren omdat ze anti-gecorreleerd zijn met de ziektestatus. Bovendien berust de koppelingsanalyse op de aanname dat een enkele variant de ziekte verklaart, een aanname die niet geldt voor complexe eigenschappen zoals ziekte. In plaats daarvan moeten we veel markers in overweging nemen om de genetische basis van deze eigenschappen te verklaren.

Hoewel genomische geneeskunde nieuwe ontdekkingen belooft in ziektemechanismen, doelgenen, therapieën en gepersonaliseerde geneeskunde, blijven er verschillende uitdagingen bestaan, waaronder het feit dat 90+% van de hits niet-coderend zijn.

Om dit op te lossen, is het niet-coderende genoom geannoteerd via ENCODE/Roadmap en zijn versterkers gekoppeld aan regulatoren en doelgenen. Zodra elke GWAS-locus is uitgebreid met behulp van SNP-koppelingsdesiquilibrium (LD), kan deze worden gebruikt om relevante celtypen, drivertranscriptiefactoren en doelgenen te herkennen. Deze leiden tot een koppeling van eigenschappen aan hun relevante cel- en weefseltypes.

Conclusies

We hebben verschillende lessen geleerd van GWAS. Ten eerste zijn minder dan een derde van de gerapporteerde associaties coderende of duidelijk functionele varianten. Ten tweede is slechts een fractie van de geassocieerde niet-coderende varianten significant geassocieerd met het expressieniveau van een nabijgelegen gen. Ten derde zijn veel geassocieerd met regio's zonder nabijgelegen coderend gen. Ten slotte zijn de meeste gerapporteerde varianten geassocieerd met meerdere auto-immuun- of ontstekingsziekten. Deze onthullingen geven aan dat er nog veel mysteries op de loer liggen in het genoom die wachten om ontdekt te worden.


Genoombrede associatiestudie van ontploffingsresistentie in indica-rijst

Rice blast disease is een van de meest ernstige en steeds terugkerende problemen in rijstgebieden wereldwijd. De meeste resistentiegenen werden geïdentificeerd door koppeling in kaart te brengen met behulp van genetische populaties. We hebben uitgebreid 16 rijstblaststammen onderzocht en een verdere genoombrede associatiestudie op basis van genotypering van 0,8 miljoen single-nucleotide polymorfismevarianten in 366 verschillende indica toetredingen.

Resultaten

In totaal werden dertig geassocieerde loci geïdentificeerd. Het sterkste signaal (Chr11_6526998, P =1.17 × 10 −17 ) bevond zich in het gen Os11g0225100, een van de rijst Pia-blastresistentiegen. Een ander associatiesignaal (Chr11_30606558) werd gedetecteerd rond de QTL Pif. Onze studie identificeerde het gen Os11g0704100, een ziekteresistentie-eiwit dat nucleotide-bindingsplaats-leucine-rijk herhalingsdomein bevat, als het belangrijkste kandidaatgen van Pif. Om het potentiële mechanisme dat ten grondslag ligt aan de ontploffingsweerstand te onderzoeken, hebben we verder een locus in chromosoom 12 onderzocht, dat geassocieerd was met CH149 (P =7,53 × 10 −15). de genen, Os12g0424700 en Os12g0427000, beide beschreven als kinase-achtig domeinbevattend eiwit, werden verondersteld nodig te zijn voor de volledige functie van deze locus. Verder vonden we enige associatie op chromosoom 3, waarin geen loci zijn gerapporteerd die verband houden met resistentie tegen rijstontploffing. Daarnaast identificeerden we nieuwe functionele kandidaatgenen, die mogelijk een rol spelen in de resistentieregulatie.

Conclusies

Dit werk vormt de basis voor verdere studie van de mogelijke functie van deze kandidaatgenen. Een subset van echte associaties zou zwak geassocieerd zijn met de uitkomst in een bepaalde GWAS, daarom is grootschalige replicatie noodzakelijk om onze resultaten te bevestigen. Toekomstig onderzoek zal zich richten op het valideren van de effecten van deze kandidaatgenen en hun functionele varianten met behulp van genetische transformatie en getransfereerde DNA-insertiemutantscreens, om te verifiëren dat deze genen resistentie opwekken tegen blastziekte in rijst.


Achtergrond

Sesam (Sesam indicum L, 2n = 2x = 26) die hoort bij de Pedalenfamilie familie is een van de oudste oliehoudende gewassen gedomesticeerd van de wilde stamvader S. malabaricum meer dan 5000 jaar geleden in het Nabije Oosten, Azië en Afrika [1, 2]. Sesam staat bekend om zijn klimaatbestendigheid, hoge oliegehalte en unieke antioxiderende eigenschappen [3]. Het is een belangrijke bron van hoogwaardige eetbare olie en eiwitrijk voedsel. Het oliegehalte van sesamzaad varieert van 50-60% met een hoog gehalte aan natuurlijke antioxidanten zoals sesamoline, sesamine en sesamol, wat de olie een lange houdbaarheid en stabiliteit verleent [4, 5]. Ashakumary et al. [6] meldde dat sesamzaad 19-25% eiwit bevat en een goede bron is van ijzer, magnesium, koper, calcium, vitamine B1, E en fytosterolen die helpen het cholesterolgehalte in het bloed te verlagen. Bovendien zijn alle essentiële aminozuren en vetzuren aanwezig in het sesamzaad [7]. De sesamsector is een miljardenindustrie die het levensonderhoud van miljoenen boeren over de hele wereld ondersteunt [8]. De totale productie is de afgelopen tien jaar aanzienlijk gestegen en bereikte in 2017 6 miljoen ton (Statistische database van de Voedsel- en Landbouworganisatie [9]. Sesamproductie en productiviteit hebben echter te maken met verschillende beperkingen, waaronder een beperkt aantal verbeterde variëteiten, verbrijzeling van capsules bij rijpheid, niet-synchrone rijpheid, slechte standopbouw, overvloedige vertakking, lage oogstindex, droogtestress, wateroverlast en ziekten [10,11,12] Om de verbetering van sesam te versnellen, is genomics-ondersteunde fokkerij aangenomen als een efficiënte benadering voor het ontwikkelen superieure variëteiten in korte tijd [13]. Daarom werd de referentie-genoomsequentie van sesam samen met tal van essentiële genomische bronnen geleverd aan de wetenschappelijke gemeenschap [14]. 705 wereldwijd diverse cultivars en twee representatieve genomen waren verder de novo geassembleerd [15]. Deze bronnen zijn van vitaal belang voor de snelle vooruitgang van sesamonderzoek, omdat ze de detectie van genetische loci die belangrijke agronomische eigenschappen beheersen, versnellen met behulp van de genoombrede associatiestudie (GWAS) -benadering. Tegenwoordig zijn honderden oorzakelijke genetische varianten ontdekt die verband houden met belangrijke eigenschappen zoals oliekwaliteit, abiotische stressresistentie en zaadopbrengst. Deze bevindingen vergemakkelijken het gebruik van marker-geassisteerde selectie en genomische selectie om genetische verbetering en algehele productiviteit van sesam te bevorderen. Dit maakt sesam een ​​zeldzaam geval van niet-model en minder belangrijk gewas waarvoor genomische studies, met name GWAS, zeer succesvol zijn geweest.

In dit overzichtsartikel presenteren we eerst de GWAS-aanpak en onderliggende statistische modellen. Vervolgens worden de voortdurende inspanningen van genetische ontdekking door toepassingen van GWAS in sesam in detail gepresenteerd. We sluiten dit artikel af met belangrijke richtlijnen voor betere toepassingen van GWAS in sesam.


Genoombrede associatiemapping en kandidaat-genanalyse voor pod-shatter-resistentie in Brassica juncea en zijn voorlopersoorten

We onderzochten fenotypische variaties voor het verbrijzelen van de peul, de peullengte en het aantal zaden per peul in grote kiemplasmacollecties van Brassica juncea (2n = 36 AABB) en zijn voorlopersoorten, B. rapa (2n = 20 AA) en B. nigra (2n = 16BB). De weerstand tegen verbrijzeling van de peul werd gemeten als de energie die nodig was voor het scheuren van een rijpe droge peul met een speciaal vervaardigde slingermachine. Breukenergie (RE) varieerde van 3,3 tot 11,0 mJ in B. juncea. MCP 633, NR 3350 en Albeli hadden maximale energie nodig om een ​​capsule te vernietigen. Het varieerde van 2,5 tot 7,8 mJ voor B. rapa met een gemiddelde van 5,5 mJ. B. nigra bezat gemakkelijk te scheuren peulen. Correlatieanalyse toonde sterke associaties tussen deze eigenschappen in B. juncea en B. rapa. Genoombrede associatiestudies werden uitgevoerd met geselecteerde sets van B. juncea en B. rapa kiemplasma lijnen. Significante en geannoteerde associaties voorspellen de rol van VRUCHTVOL, MANNASE7, en NAC secundaire wandverdikking bevorderende factor (NST2) in de genetische regulatie van breukweerstand in B. juncea. NST2 en SHP1 bleek belangrijk voor peullengte en zaden per peul in B. rapa. Kandidaat-gene-gebaseerde associatie-mapping bevestigde ook de rol van SHP1 en NST2 bij het reguleren van het verbrijzelen van de peul en gerelateerde eigenschappen van de peul in B. rapa en B. juncea. Voetafdrukken van selectie werden gedetecteerd in SHP1, SHP2 (B. rapa, B. nigra en B. juncea), RPL (B. rapa) en NAC (B. juncea). Onze resultaten bieden inzicht in de genetische architectuur van drie pod-eigenschappen. De geïdentificeerde genen zijn relevant voor het verbeteren en borgen van de gewasproductiviteit van het mosterdgewas.


Dankbetuigingen

De auteurs willen de uitstekende technische assistentie erkennen van A. Kurioka, L. Swadling, C. de Lara, J. Ussher, R. Townsend, S. Lionikaite, A.S. Lionikiene, R. Wolswinkel en I. van der Made. We willen T.M. Keane en A.G. Doran voor hun hulp bij het annoteren van varianten en het toevoegen van de FVB/NJ-stam aan het MGP. We danken de High-Throughput Genomics Group in het Wellcome Trust Center for Human Genetics en het Wellcome Trust Sanger Institute voor het genereren van de sequentiegegevens. Dit werk werd gefinancierd door Wellcome Trust Grant 090532/Z/09/Z (J.F.). Primaire fenotypering van de muizen werd ondersteund door het Mary Lyon Centre en Mammalian Genetics Unit (Medical Research Council, UK Hub Grant G0900747 91070 en Medical Research Council, UK Grant MC U142684172). SCHAR. erkent steun van NIH R01AR056280. Het slaapwerk werd ondersteund door de staat Vaud (Zwitserland) en de Zwitserse National Science Foundation (SNF 14694 en 136201 tot P.F.). Het ECG-werk werd ondersteund door het Netherlands CardioVascular Research Initiative (Nederlandse Hartstichting, Nederlandse Federatie van Universitair Medische Centra, Nederlandse Organisatie voor Gezondheidsonderzoek en Ontwikkeling en de Koninklijke Nederlandse Akademie van Wetenschappen) PREDICT-project, Interuniversitair Cardiologisch Instituut Nederland (ICIN 061.02 CAR en CRB). NC wordt ondersteund door de Graduate Academy van het Agency of Science, Technology and Research (A*STAR). RWD wordt ondersteund door een subsidie ​​van de Wellcome Trust (097308/Z/11/Z).


MATERIALEN EN METHODES

Experimentele materialen

Een totaal van 169 cultivars en foklijnen van hooggelegen katoenruggengraat die werden gekweekt in of geïntroduceerd in China, werden geselecteerd om een ​​associatiekaartpaneel samen te stellen, waarvan 62 afkomstig uit ecologische katoenteeltgebieden van de Gele Rivier, 25 afkomstig uit de Yangtze-rivier, 50 kwamen uit Noordwest-China, 22 kwamen uit Noord-China en 10 kwamen uit andere landen (tabel S1). Alle aanwinsten vertoonden een stabiele overerving na vele generaties zelfbestuiving.

Experimenteel ontwerp en fenotypering van kenmerken

Alle materialen werden in 2012 en 2013 geplant in twee verschillende ecologische katoenteeltgebieden van China, de Gele Rivier (Xinxiang Stad, Provincie Henan) en Noordwest-China (Shihezi Stad, Provincie Xinjiang) Het experiment volgde een gerandomiseerd compleet blokontwerp met een enkele rij plot en twee replicaties. In Xinxiang werden 14-16 planten in elke rij gerangschikt met een rijlengte van 5 m en een rij-interval van 1,0 m. In Shihezi werden in elke rij 38-40 planten gerangschikt met een rijlengte van 5 m en een rij-interval van 0,45 m. Voor alle activiteiten werden standaard lokale gewasbeheerpraktijken gevolgd. Voor beschrijvingsdoeleinden werden de vier omgevingen, 2012Xinxiang, 2013Xinxiang, 2012Shihezi en 2013Shihezi, respectievelijk aangeduid als E1, E2, E3 en E4. De vier kenmerken die vroege rijping definiëren, SP (de periode van opkomst van zaailingen tot bloemknop), BP (de periode van opkomst van bloemknop tot bloei), FBP (de periode van bloei tot opening van de bol) en GP (de periode van opkomst van zaailingen naar bolopening), werden onderzocht. Tien opeenvolgende planten in het midden van elke rij werden getagd voor fenotypering van kenmerken. Om omgevingsfouten te verminderen, werden BLUP's voor de vier vroege rijpingskenmerken per genotype geschat met behulp van het lme4-pakket in het R-programma (Bates et al. 2014). De waarden van BLUP en enkele omgeving werden gebruikt voor alle associatietoewijzing. Er werd een statistische analyse uitgevoerd met behulp van SAS v9.4-software. De analyse van de fenotypische veranderingen in vroege kenmerktrends werd getoond met behulp van histogrammen getekend met R. Broad-sense erfelijkheidsgraad, H 2 , werd voor elk kenmerk berekend met behulp van het lme4-pakket in R (Bates et al. 2014).

DNA-extractie en SNP-genotypering

De DNAsecure Plant Kit (TIANGEN) werd gebruikt volgens de instructies van de fabrikant om voor elke toetreding genomisch DNA uit verse bladeren te isoleren. Alle DNA-monsters werden gekwantificeerd met behulp van een NanoDrop 2000 (Thermo Scientific) en verdund tot een concentratie van 50 ng/μL. De genomische DNA's van alle monsters werden gedurende 20-24 uur bij 37 ° C in het hele genoom geamplificeerd, gefragmenteerd, geprecipiteerd en opnieuw gesuspendeerd in een geschikte hybridisatiebuffer. De monsters werden gehybridiseerd op de bereide CottonSNP80K Genotyping BeadChips gedurende 16-24 uur bij 48 ° C. Na de hybridisatie werden niet-specifiek gehybridiseerde monsters verwijderd door te wassen, terwijl de resterende specifiek gehybridiseerde loci werden verwerkt voor de verlengingsreactie met één base, gekleurd en afgebeeld op een Illumina iScan Reader. Beeldbestanden werden opgeslagen en geanalyseerd met behulp van de GenomeStudio Genotyping Module (v1.9.4, Illumina). Genotype-aanroepen voor elke SNP werden uitgevoerd op basis van het clusterbestand dat speciaal voor de CottonSNP80K-array was gegenereerd. Omdat de SNP-aanroepmodule is ontwikkeld voor diploïden, waren er drie mogelijke genotypen, AA, AB en BB, voor elke locus. Ten behoeve van de GWAS werden de genotypen gecodeerd als numerieke waarden volgens de additieve wijze van overerving, die veronderstelt dat allelen een dosiseffect hebben: dat wil zeggen, als één allelvariant geen effect heeft (bijv. A) op het kenmerk en de andere een effect heeft (bijv. B), zal een homozygoot individu met twee kopieën van het allel (BB) tweemaal de waarde van het effect uitdrukken als een heterozygoot individu (AB). SNP's werden dus gegenotypeerd als 0 (AA), 1 (AB) en 2 (BB).

Bevolkingsstructuur en LD-analyses

Alleen SNP's met kleine allelfrequenties van ≥ 0,05 en integriteit van ≥ 50% in de populatie werden gebruikt voor populatiestructuur- en LD-analyses. De populatiestructuur werd beoordeeld met behulp van ADMIXTURE-software (Alexander et al. 2009). Het aantal genetische clusters (K) was vooraf gedefinieerd als 1-10 om de populatiestructuur van de geteste toetredingen te onderzoeken. Deze analyse leverde maximale waarschijnlijkheidsschattingen op van het aandeel van elk monster afgeleid van elk van de K populaties. Om de afbeeldingsresolutie voor GWAS te bepalen, werd een LD-analyse uitgevoerd voor toetredingen van hooglandkatoen met behulp van de hele reeks polymorfe SNP's. Paarsgewijze LD tussen markers werd berekend als de gekwadrateerde correlatiecoëfficiënt (R 2) van allelen met behulp van GAPIT-software (Lipka et al. 2012).

Genoom-brede associatie mapping

De GWAS werd uitgevoerd met behulp van drie algoritmen: GLM en MLM in het softwarepakket TASSEL versie 3.0 (Bradbury et al. 2007) en FaST-LMM (Lippert et al. 2011) (http://www.nature.com/naturemethods/) . Manhattan-plots werden getekend met behulp van het R-pakket qqman (Turner 2014). Door te verwijzen naar de methode die wordt gebruikt door Cai et al. (2017) en Sun et al. (2017), significantieniveaus van associatie werden geschat met behulp van een aangepaste P waarde van 1/N na de Bonferroni-correctie in deze studie, waarbij: N was het totale aantal SNP's dat werd gebruikt in de associatietoewijzing. De LD-heatmap die de piek-SNP's van GWAS voor vroege rijpingskenmerken omringt, werd gegenereerd met behulp van het R-softwarepakket LDheatmap.

Kandidaat-genannotatie en voorspelling

Om potentiële kandidaatgenen voor vroege volwassenheid te identificeren, is de methode van Sun et al. (2017) gevolgd. Genen die zich binnen de LD-vervalafstand stroomopwaarts en stroomafwaarts van piek-SNP's bevonden (de meest significante SNP's met een maximum van −log10P waarden) geïdentificeerd. De genannotaties werden verkregen uit verschillende databases voor niet-redundante eiwitsequenties (ftp://ftp.ncbi.nih.gov/blast/db/FASTA/) (Altschul et al. 1997), een genontologie-analyse (http:/ /www.geneontology.org/) (Ashburner et al. 2000), de Cluster van Orthologe Groepen van eiwitten (http://www.ncbi.nlm.nih.gov/COG/) (Tatusov et al. 2000), en de Kyoto-encyclopedie van genen en genomen (ftp://ftp.genome.jp/pub/kegg/) (Kanehisa et al. 2004).


Genoombrede associatiestudie voor belangrijke biobrandstofkenmerken in sorghum met behulp van Minicore Collection

Auteur(s): Laavanya Rayaprolu, International Crops Research Institute for the Semi-Arid Tropics (ICRISAT), Patancheru 502324, India Sivasubramani Selvanayagam, International Crops Research Institute for the Semi-Arid Tropics (ICRISAT), Patancheru 502324, India D. Manohar Rao, Afdeling Genetica, Osmania University, Hyderabad, India Rajeev Gupta, International Crops Research Institute for the Semi-Arid Tropics (ICRISAT), Patancheru 502324, India Roma Rani Das, International Crops Research Institute for the Semi-Arid Tropics (ICRISAT), Patancheru 502324, India Abhishek Rathore, International Crops Research Institute voor de semi-aride tropen (ICRISAT), Patancheru 502324, India Prasad Gandham, International Crops Research Institute voor de semi-aride tropen (ICRISAT), Patancheru 502324, India Usha Kiranmayee KNS, International Crops Research Institute for the Semi-Arid Tropics (ICRISAT), Patancheru 502324, India Santosh P. Deshpande*, International Crops Research Institute for the Semi-Arid Tropics (ICRISAT), Patancheru 502324, India Ashok Kumar Are* International Crops Research Institute voor de Semi-Arid Tropics (ICRISAT), Patancheru 502324, India

Verbondenheid:

Naam dagboek: Eiwit- en peptideletters

Jaargang 28 , 2021




Abstract:

Achtergrond: De productie van biobrandstoffen uit biomassa van lignocellulosegewassen is een alternatief om de uitstoot van broeikasgassen te verminderen. De productie van biobrandstoffen omvat het verzamelen van biomassa, het afbreken van celwandcomponenten en de omzetting van suikers in ethanol. De lingo-cellulose-biomassa omvat 40-50% cellulose, 20-30% hemicellulose en 10-25% lignine. Sorghum is een algemeen aangepast energiegewas voor de productie van biobrandstoffen. Biomassa met een laag ligninegehalte, een hoog cellulosegehalte en een hoog hemicellulosegehalte wordt benut om een ​​maximale efficiëntie van de productie van biobrandstoffen te bereiken. Resistance to lodging, pest, disease, and abiotic stresses related to cell wall components is well documented, and quantitative trait loci were identified to understand these traits' genetic correlation. Selection for reduced lignin and increased cellulose content in stover can increase the ethanol yield. The Genome-Wide Association Studies (GWAS) is a complementary approach to evaluating the marker and phenotype associations among large diversity panels. Single nucleotide polymorphisms were scanned to identify loci associated with the traits of interest. In this study, the GWAS was performed on 245 sorghum minicore genotypes to analyze agronomic traits (days to 50%flowering, fresh biomass yield, dry biomass yield) and cell wall components (cellulose, hemicellulose, and lignin). Further, in-silico validation of the candidate genes was performed in a global gene expression data from large-scale RNA sequencing studies in sorghum available in the NCBI GEO database was used.

Objective: The objectives of this study are to evaluate native variations in biofuel related agronomic traits and stalk cell wall components and to identify significant SNPs or loci related to the cell wall components.

Methods: In this article, an association mapping panel, comprising of 245 sorghum minicore germplasm accessions, was evaluated during two post rainy seasons of 2013 and 2014, and observations were recorded on the whole plot- for days to 50% flowering, fresh biomass yield (tha-1), and dry biomass yield (tha-1). The biomass of sun-dried plants from both seasons was collected separately, chopped, dried, and ground to powder. The cellulose, hemicellulose, and lignin contents were determined in the powdered. The content of each of these three components in sorghum was expressed in percent of dry matter. The data on agronomic traits and composition analysis was subjected to Analysis of Variance. For the current study, we remapped the raw GBS data with the sorghum assembly version v3.1. A total of 27,589 SNPs were obtained with a minor allele frequency (MAF) >1% and missing data 80% was observed for all sorghum gene sequences with the maize homologs. The overall similarity of sorghum homologs with foxtail millet was >65%, for Arabidopsis from 30.6% to 48.6%, and rice from 28.2% to 92.8%. SNPs for hemicellulose displayed maximum similarity to foxtail millet followed by maize. The sequence similarity of lignin SNPs in sorghum was highest with the maize genome followed by Arabidopsis. Both rice and foxtail millet showed >55% similarity to the sorghum genome.

Conclusion: This study reports large variability for agronomic and biofuel traits in the sorghum minicore collection with high heritability. The genetic architecture of cell wall components using the GWAS approach was studied and candidate genes for each component were annotated. These results give a better understanding of the genetic basis of the sorghum cell wall composition. The association analysis identified regions of the genome that could be targeted to enhance the quality of biomass and yield along with the desired composition promoting breeding efficiency for enhanced biofuel yield.

Protein & Peptide Letters

Titel:Genome-Wide Association Study for Major Biofuel Traits in Sorghum Using Minicore Collection

Auteur(s):Laavanya Rayaprolu, Sivasubramani Selvanayagam, D. Manohar Rao, Rajeev Gupta, Roma Rani Das, Abhishek Rathore, Prasad Gandham, Usha Kiranmayee KNS, Santosh P. Deshpande* and Ashok Kumar Are*

Verbondenheid:International Crops Research Institute for the Semi-Arid Tropics (ICRISAT), Patancheru 502324, International Crops Research Institute for the Semi-Arid Tropics (ICRISAT), Patancheru 502324, Department of Genetics, Osmania University, Hyderabad, International Crops Research Institute for the Semi-Arid Tropics (ICRISAT), Patancheru 502324, International Crops Research Institute for the Semi-Arid Tropics (ICRISAT), Patancheru 502324, International Crops Research Institute for the Semi-Arid Tropics (ICRISAT), Patancheru 502324, International Crops Research Institute for the Semi-Arid Tropics (ICRISAT), Patancheru 502324, International Crops Research Institute for the Semi-Arid Tropics (ICRISAT), Patancheru 502324, International Crops Research Institute for the Semi-Arid Tropics (ICRISAT), Patancheru 502324, International Crops Research Institute for the Semi-Arid Tropics (ICRISAT), Patancheru 502324

Abstract:Background: Production of biofuels from lignocellulosic crop biomass is an alternative to reduce greenhouse gas emissions. The biofuel production involves collecting biomass, breaking down cell wall components followed by the conversion of sugars to ethanol. The lingo-cellulosic biomass comprises 40-50% cellulose, 20-30% hemicellulose, and 10-25% lignin. Sorghum is a widely adapted energy crop for biofuel production. Biomass with low lignin, high cellulose, and high hemicellulose contents are exploited to attain maximum biofuel production efficiency. Resistance to lodging, pest, disease, and abiotic stresses related to cell wall components is well documented, and quantitative trait loci were identified to understand these traits' genetic correlation. Selection for reduced lignin and increased cellulose content in stover can increase the ethanol yield. The Genome-Wide Association Studies (GWAS) is a complementary approach to evaluating the marker and phenotype associations among large diversity panels. Single nucleotide polymorphisms were scanned to identify loci associated with the traits of interest. In this study, the GWAS was performed on 245 sorghum minicore genotypes to analyze agronomic traits (days to 50%flowering, fresh biomass yield, dry biomass yield) and cell wall components (cellulose, hemicellulose, and lignin). Further, in-silico validation of the candidate genes was performed in a global gene expression data from large-scale RNA sequencing studies in sorghum available in the NCBI GEO database was used.

Objective: The objectives of this study are to evaluate native variations in biofuel related agronomic traits and stalk cell wall components and to identify significant SNPs or loci related to the cell wall components.

Methods: In this article, an association mapping panel, comprising of 245 sorghum minicore germplasm accessions, was evaluated during two post rainy seasons of 2013 and 2014, and observations were recorded on the whole plot- for days to 50% flowering, fresh biomass yield (tha-1), and dry biomass yield (tha-1). The biomass of sun-dried plants from both seasons was collected separately, chopped, dried, and ground to powder. The cellulose, hemicellulose, and lignin contents were determined in the powdered. The content of each of these three components in sorghum was expressed in percent of dry matter. The data on agronomic traits and composition analysis was subjected to Analysis of Variance. For the current study, we remapped the raw GBS data with the sorghum assembly version v3.1. A total of 27,589 SNPs were obtained with a minor allele frequency (MAF) >1% and missing data 80% was observed for all sorghum gene sequences with the maize homologs. The overall similarity of sorghum homologs with foxtail millet was >65%, for Arabidopsis from 30.6% to 48.6%, and rice from 28.2% to 92.8%. SNPs for hemicellulose displayed maximum similarity to foxtail millet followed by maize. The sequence similarity of lignin SNPs in sorghum was highest with the maize genome followed by Arabidopsis. Both rice and foxtail millet showed >55% similarity to the sorghum genome.

Conclusion: This study reports large variability for agronomic and biofuel traits in the sorghum minicore collection with high heritability. The genetic architecture of cell wall components using the GWAS approach was studied and candidate genes for each component were annotated. These results give a better understanding of the genetic basis of the sorghum cell wall composition. The association analysis identified regions of the genome that could be targeted to enhance the quality of biomass and yield along with the desired composition promoting breeding efficiency for enhanced biofuel yield.


Conclusie

This study reports the use of high-density genotypic data in a panel composed of 339 diverse Mesoamerican common bean accessions structured into Brazilian landraces and lines/cultivars from diverse origins (national and international germplasms). A large set of markers (11,870) based on DArTseq and CaptureSeq was successfully genotyped. The overall extension of LD decay along the genome, which is a relevant parameter in association studies between variants and traits, was estimated to be � kb, showing great variation in function of the evaluated germplasm (98� kb). In addition, important genomic regions under selection during landraces and lines/cultivars domestication were identified. The Mesoamerican germplasm panel was evaluated in field experiments conducted in 3 consecutive years in the presence and absence of water deficit and allowed the identification of genotypes with better performance for SW and GY promising to common bean breeding programs. A total of 189 QTLs were found associated with SW and 33 with GY, and many were within or near genes that have been reported to play important roles in biochemical and physiological processes related to GY, thus providing important clues on the mechanism of productivity under water deficit. These findings will be of great use for MAS of common bean varieties with improved SW and GY. This study makes available, under seed request, a panel of genotyped germplasm useful for GWASs of any relevant trait in common bean.


Research Interest

Dr. Oh&rsquos research interests lie broadly in the development of Bayesian statistical methodologies in cancer modeling and efficient computational tools for genetics/genomics research. Specifically, her research interests touch tow areas: 1) to develop novel statistical methodology for the analysis of high dimensional data, which includes genome-wide association studies (GWAS) and next generation sequencing (NGS) 2) to develop population-based models for cancer trends using registry data in designing effective strategies for cancer prevention 3) to develop appropriate statistical models for biomedical/clinical data.


Discussie

High-throughput genomic studies have revealed a plethora of genomic and epigenomic changes contributing to psoriasis via GWAS, EWAS, and transcriptome profiling studies. However, an integrative systems analysis fully utilizing the complementarity of diverse omics data has not been conducted to capture a comprehensive view of disease regulation. To address this challenge, we integrated psoriasis GWAS, EWAS, functional genomics information (eQTLs and ENCODE), knowledge-driven pathways, transcriptome, and data-driven networks to uncover biological processes and key regulators mediating the actions of psoriasis genetic and epigenetic signals. This systematic multi-omics integration unraveled both shared and unique biological processes and gene networks associated with psoriasis between GWAS and EWAS, uncovered interactions between psoriasis genes and processes, and prioritized potential central regulators of disease pathogenesis. The comprehensive insights obtained would not have been possible without a thorough utilization and integration of the diverse existing datasets.

Many of the identified pathways replicated previous findings. For example, the IL17 pathway, one of the most well-known immune processes underlying psoriasis pathogenesis, exhibited strong enrichment for psoriasis associated genetic and epigenetic variants. Other pathways replicated based on genetic evidence include “NO2-dependent IL12 pathway”, “Th1/Th2 pathway”, and “Natural killer T cell” [6, 42]. In addition, “Cytokine and Chemokine signaling” and “JAK/STAT signaling” were replicated using psoriasis epigenetic signals [43, 44]. The retrieval of the known biology supports the validity of our analytical framework.

As our multi-omics integration leveraged the full spectrum of disease association (from strong to moderate and subtle signals) as well as functional information such as eQTLs, ENCODE, pathways, and gene networks, we observed numerous novel processes for psoriasis, such as the BCAA, ER phagosome, and proteosome pathways in GWAS and the platelet and coagulation, lipid metabolism, insulin signaling, adipokine signaling, collagen formation, and cell-cell communication pathways in EWAS (Fig. 2). The identification of multiple metabolism related pathways such as BCAA, lipid, and insulin signaling supports the observed correlation between psoriasis and metabolic disorders. The incorporation of genetic and epigenetic association information in our analysis, which informs on upstream gene regulatory events, suggests that these pathways are not merely correlated with psoriasis but likely play causal roles in disease development. For example, decreased levels of valine-leucine/isoleucine ratios were previously found in psoriatic lesions compared to non-lesional psoriatic skin [45]. In our study, the enrichment for psoriasis genetic signals in this pathway suggests its potential causal role. BCAAs are important amino acid nutrient signals that have direct and indirect effects in the regulation of metabolic processes such as glucose homeostasis, lipid metabolism, body weight, and insulin signaling, which can subsequently influence systemic inflammation [46]. In addition, immune cells oxidize BCAA as fuel sources and incorporate BCAA as the precursors for the synthesis of new immune cells, effector molecules, and protective molecules [47]. Lack of BCAAs in diet (or abnormally decreased BCAA catabolism) impairs many aspects of immune function and increases susceptibility to pathogens mainly through changes in the NF-κB and mTOR signaling pathways, subsequently increasing pro-inflammatory cytokines and decreasing anti-inflammatory cytokines (e.g., IL-10 and TGF-β1) [47]. The epigenetic connection between platelet adhesion and psoriasis is also interesting. The platelets have been shown to stimulate angiogenic vessel growth [48], which is an early pathogenic event in psoriasis [49]. A recent study showed that platelet P-selectin, functioning as a cell adhesion molecule on the surfaces of activated endothelial cells, might be used as an efficacy biomarker to monitor treatment success in psoriasis [50].

By investigating both GWAS and EWAS in the same study, we found converging pathways both genetically and epigenetically associated with psoriasis, making these a robust and prioritized set of pathways for future mechanistic and therapeutic investigations. These common pathways in GWAS and EWAS can be partitioned into 22 categories, including many previously implicated processes such as “Cytokine signaling”, “JAK/STAT signaling”, and “PPARA pathway”, and novel pathways such as “ABC transporters” and “Endocytosis”. Most identified drug transporters belong to the ATP-binding cassette family expressed in the skin and might be associated with drug-induced psoriasis [51, 52].

Beside retrieving the overlapping molecular processes informed by both GWAS and EWAS in conjunction with other functional evidence, our network modeling demonstrated that the psoriasis-associated pathways interconnect via network hub genes (Fig. 3), including both well-studied psoriasis genes involved in the immune system (HLA-A, ICAM1, IL15, STAT1, en TNFAIP3) and novel genes which may regulate immune processes and cell cycle (CTSH, GRB2, en IFITM2). Among the KDs that are known psoriasis genes, STAT1 from IL23/IL17 pathway and cytokine-cytokine receptor interaction appears to be a KD in both the blood and skin networks. Among the novel KDs, the protein encoded by CTSH is a lysosomal cysteine proteinase important in the overall degradation of lysosomal proteins. Other cathepsin family members, such as CTSS [53], CTSK [54], and CTSD [55], have been implicated in the pathology of psoriasis. CTSH was surrounded by CTSS, CTSD and other critical factors involved in complement and adhesion (e.g., C3 en ICAM1) in the psoriasis network (Fig. 3), suggesting that it might trigger inflammatory responses by regulating the neighbors in the network. The growth factor receptor bound protein 2, encoded by GRB2, plays a key role in the control of thymic positive and negative selection and enhances TCR signaling [56]. GRB2 was suggested to induce ERBB2 signaling and trigger increased cell proliferation, survival, motility, and invasiveness [57]. IFITM2 (interferon induced transmembrane protein 2) encodes an interferon-induced transmembrane protein that contributes to the control of cell growth through a multimeric complex involved in the transduction of anti-proliferative and homotypic adhesion signals. It is induced by IFN-γ in primary keratinocytes and plays a role in keratinocyte apoptosis in atopic dermatitis patients [58]. These potential key regulators orchestrate many known disease genes and pathways in psoriasis gene networks, and warrant further experimental investigation.

Compared to previous genomics studies of psoriasis, our study is the most comprehensive in terms of the diversity of data types included (GWAS, EWAS, transcriptome, eQTLs, ENCODE), the number of data sets, and the variety of analytical strategies. Importantly, our study utilizes the full spectrum of genetic and epigenetic association signals instead of only the top genome-wide significant hits, which offers unique power to capture the missing heritability and mechanisms. We also incorporated function-guided mapping of genetic signals to target genes using eQTLs and ENCODE data and included tissue-specific gene expression patterns. As such, in this single study we were able to uncover numerous known pathways and processes revealed through decades of psoriasis research, in addition to a number of novel processes. Additionally, our study is the first to compare GWAS and EWAS to map the convergence and divergence in the genetically and epigenetically perturbed disease processes. Moreover, our network modeling enables a bird’s eye view of the pathogenic networks and offers a prioritized list of novel regulators as potential therapeutic targets.

We acknowledge the following limitations in our study. First, we could only access one full GWAS dataset out of more than 10 published GWAS studies, highlighting the challenges in data access [59]. Encouragingly, some of our new predictions based on the only accessible GWAS dataset were confirmed using the top susceptibility loci/genes identified in the latest GWAS study, indicating that our analytical approach leveraging the full summary statistics and multiple layers of genomic information can capture and convey the essential features of psoriasis. Second, the EWAS studies included are of small sample size. Although we employed a meta-analysis to enhance statistical power and focused on the converging signals between GWAS and EWAS, it is important to validate our findings in larger EWAS when available. Third, the gene regulatory networks used in our analysis do not include other regulatory molecules such as noncoding RNAs and may miss essential key regulators that are not protein-coding [30]. Fourth, our analysis does not consider directionality of the GWAS/EWAS association, as it is not straightforward to unequivocally interpret the impact of the direction of individual variant associations on the entire pathway or network. Lastly, our variant to gene mapping mainly considers gene expression regulation, as majority of the disease genetic loci affect gene expression [60], but may miss the mapping of protein sequence variants. Along the same line, the variants used in the analysis are not necessarily the causal variants but can be tag variants in the same LD block, which may lead to mis-annotation of genes. However, we expect similar association patterns for the causal and tag variants in majority of the cases.


Bekijk de video: Bachelor biochemie en biotechnologie UAntwerpen - update (Januari- 2022).