Informatie

SNP-codering voor associatieanalyse


Ik werk aan een project over het opsporen van SNP-associatie met een ziekte. Zoals ik begrijp, is SNP een enkele variatie van het nucleotide dat voorkomt bij meer dan 1% van de bevolking. Ik kon dit idee echter niet verbinden met de dataset in de hand. De rijen in mijn dataset vertegenwoordigen elke patiënt en de kolommen bevatten SNP-informatie. Bijvoorbeeld:

ID exm355 exm615 1 T_T A_C 2 T_T C_C 3 A_T C_C

Ik heb geen idee waarom de SNP-kolommen 2 nucleotiden bevatten (T_T, A_T, A_C, C_C). Als definitie van SNP dacht ik dat het alleen de variant nucleotide zou moeten tonen of begrijp ik iets verkeerd? Hoe kon ik T_T of C_C interpreteren en hoe kon ik weten welke nucleotide de variatie is van de gebruikelijke in de populatie?

Bedankt allemaal


Elke chromosoomlocatie die is geïdentificeerd als een SNP is een locatie waar meer dan één nucleotide met aanzienlijke frequenties voorkomt in de algemene populatie. Dat betekent dat er twee of meer basen zijn die daar kunnen voorkomen, dus uit een test moet blijken welke basen daar in het genoom van die persoon voorkomen. Aangezien een persoon zowel een vaderlijk als een moederlijk chromosoom heeft van een chromosomaal type (een paar homologe chromosomen), heeft de persoon twee instanties van de SNP-locatie en dus twee nucleotiden die moeten worden gedetecteerd en gerapporteerd. Daarom heeft uw dataset twee nucleotiden voor elke SNP-locatie voor elke patiënt.

Alleen al aan de gerapporteerde basis of de SNP-naam kun je niet zien welke vaker voorkomt in de populatie. Als u dat wilt weten, moet u SNP-frequentiegegevens uit een andere database raadplegen. (De SNP-namen in uw voorbeeld, bijvoorbeeld "exm355" zijn niet bekend; gewoonlijk hebben SNP's namen als "rs1234567".)


Een niet-coderende CRHR2 SNP rs255105, a cis-eQTL voor een stroomafwaarts lincRNA AC005154.6, wordt geassocieerd met heroïneverslaving

Ontregeling van de stressrespons is betrokken bij drugsverslaving, daarom kunnen polymorfismen in stressgerelateerde genen bij deze ziekte betrokken zijn. Er werd een analyse uitgevoerd om associaties tussen varianten in 11 stressgerelateerde genen te identificeren, geselecteerd a priorien heroïneverslaving. Twee ontdekkingsmonsters van Amerikaanse proefpersonen van Europese afkomst (EA, n = 601) en van Afro-Amerikanen (AA, n = 400) werden afzonderlijk geanalyseerd. Voorouders werden geverifieerd door middel van hoofdcomponentenanalyse. Definitieve sets van 414 (EA) en 562 (AA) varianten werden geanalyseerd na filtering van 846 hoogwaardige varianten. Het belangrijkste resultaat was een associatie van een niet-coderende SNP rs255105 in het CRH (CRF) receptor 2-gen (CRHR2), in het Discovery EA-voorbeeld (Pnominaal = .00006 OF = 2,1 95% BI 1,4–3,1). Het associatiesignaal bleef significant na op permutatie gebaseerde meervoudige testcorrectie. Het resultaat werd bevestigd door een onafhankelijke EA-casussteekproef (n = 364). Bioinformatica-analyse onthulde dat SNP rs255105 geassocieerd is met de expressie van een stroomafwaarts lang intergeen niet-coderend RNA (lincRNA) gen AC005154.6. AC005154.6 komt sterk tot expressie in de hypofyse, maar de functies zijn onbekend. LincRNA's zijn eerder in verband gebracht met adaptief gedrag, PTSS en alcoholverslaving. Verdere studies zijn nodig om de associatieresultaten te bevestigen en om de potentiële relevantie van dit lincRNA voor verslaving en andere stressgerelateerde stoornissen te beoordelen.

Citaat: Levran O, Correa da Rosa J, Randesi M, Rotrosen J, Adelson M, Kreek MJ (2018) Een niet-coderend CRHR2 SNP rs255105, a cis-eQTL voor een stroomafwaarts lincRNA AC005154.6, wordt geassocieerd met heroïneverslaving. PLoS ONE 13 (6): e0199951. https://doi.org/10.1371/journal.pone.0199951

Editor: Z. Carl Lin, Harvard Medical School, VERENIGDE STATEN

Ontvangen: 22 mei 2018 Geaccepteerd: 15 juni 2018 Gepubliceerd: 28 juni 2018

Auteursrechten: © 2018 Levran et al. Dit is een open access-artikel dat wordt gedistribueerd onder de voorwaarden van de Creative Commons Attribution-licentie, die onbeperkt gebruik, distributie en reproductie in elk medium toestaat, op voorwaarde dat de oorspronkelijke auteur en bron worden vermeld.

Beschikbaarheid van data: Gegevens over genotype/fenotype zijn beschikbaar in dbGAP met toegangsnummer: phs001109.v1.p1. Aanvullende relevante gegevens bevinden zich in het document en het ondersteunende informatiebestand.

Financiering: Dit werk werd ondersteund door de Dr. Miriam en Sheldon G. Adelson Medical Research Foundation, de National Institutes of Health-National Institute on Drug Abuse Research Grant P60-05130 (MJK), de National Institutes of Health-National Institute on Drug Abuse Research Grant R01-12848 (MJK), en het National Institute of Health-National Center for Advancing Translational Sciences Grant UL1RR024143 (B. Coller). CTN-0051 werd ondersteund door verschillende subsidies van de National Institutes of Health-National Institute on Drug Abuse-National Drug Abuse Treatment Clinical Trials Network (CTN): U10DA013046, UG1/U10DA013035, UG1/U10DA013034, U10DA013045, UG1/U10DA013720, UG1/ U10DA013732, UG1/U10DA013714, UG1/U10DA015831, U10DA015833, HHSN271201200017C en HHSN271201500065C. Het Genotype-Tissue Expression (GTEx)-project werd ondersteund door het gemeenschappelijk fonds van het kantoor van de directeur van de National Institutes of Health en door NCI, NHGRI, NHLBI, NIDA, NIMH en NINDS. De gegevens die zijn gebruikt voor de analyses die in dit manuscript worden beschreven, zijn op 4/10/2018 verkregen uit de GTEx Portal. De financiers hadden geen rol bij het ontwerp van de studie, het verzamelen en analyseren van gegevens, de beslissing om het manuscript te publiceren of de voorbereiding van het manuscript.

Concurrerende belangen: De auteurs hebben verklaard dat er geen concurrerende belangen bestaan.


SNP-codering voor associatieanalyse - Biologie

Alle door MDPI gepubliceerde artikelen worden direct wereldwijd beschikbaar gesteld onder een open access licentie. Er is geen speciale toestemming nodig om het door MDPI gepubliceerde artikel geheel of gedeeltelijk te hergebruiken, inclusief figuren en tabellen. Voor artikelen die zijn gepubliceerd onder een open access Creative Common CC BY-licentie, mag elk deel van het artikel zonder toestemming worden hergebruikt, op voorwaarde dat het originele artikel duidelijk wordt geciteerd.

Feature Papers vertegenwoordigen het meest geavanceerde onderzoek met een aanzienlijk potentieel voor grote impact in het veld. Feature Papers worden ingediend op individuele uitnodiging of aanbeveling door de wetenschappelijke redacteuren en ondergaan peer review voorafgaand aan publicatie.

De Feature Paper kan een origineel onderzoeksartikel zijn, een substantiële nieuwe onderzoeksstudie waarbij vaak verschillende technieken of benaderingen betrokken zijn, of een uitgebreid overzichtsdocument met beknopte en nauwkeurige updates over de laatste vooruitgang in het veld dat systematisch de meest opwindende vorderingen in de wetenschappelijke literatuur. Dit type paper geeft een blik op toekomstige onderzoeksrichtingen of mogelijke toepassingen.

Editor's Choice-artikelen zijn gebaseerd op aanbevelingen van de wetenschappelijke redacteuren van MDPI-tijdschriften van over de hele wereld. Redacteuren selecteren een klein aantal artikelen die recentelijk in het tijdschrift zijn gepubliceerd en waarvan zij denken dat ze bijzonder interessant zijn voor auteurs, of belangrijk zijn op dit gebied. Het doel is om een ​​momentopname te geven van enkele van de meest opwindende werken die in de verschillende onderzoeksgebieden van het tijdschrift zijn gepubliceerd.


In Silico-analyse van coderende/niet-coderende SNP's van mensen RETN Gen en karakterisering van hun impact op de stabiliteit en structuur van resistine

Weerstand (RETN) is een gen dat codeert voor pro-inflammatoire adipokine, resistine genaamd, dat wordt uitgescheiden door macrofagen bij mensen. Single nucleotide polymorphisms (SNP's) in RETN zijn gekoppeld aan obesitas en insulineresistentie in verschillende populaties. Met behulp van dbSNP werden 78 niet-synonieme SNP's (nsSNP's) opgehaald en getest op een PredictSNP 1.0-megaserver. Hiervan werden 15 nsSNP's voorspeld als zeer schadelijk en dus onderworpen aan verdere analyses, zoals conservering, posttranscriptionele modificaties en stabiliteit. De 3D-structuur van humaan resistine werd gegenereerd door homologiemodellering met behulp van het Zwitserse model. Root-mean-square deviatie (RMSD), waterstofbruggen (h-bindingen) en interacties werden geschat. Verder diende UTRscan om UTR-functionele SNP's te identificeren. Van de 15 meest schadelijke nsSNP's werd voorspeld dat 13 sterk geconserveerd zouden zijn, inclusief varianten op posttranslationele modificatieplaatsen. Stabiliteitsanalyse voorspelde 9 nsSNP's (I32S, C51Y, G58E, G58R, C78S, G79C, W98C, C103G en C104Y) die de eiwitstabiliteit kunnen verminderen met ten minste drie van de vier algoritmen die in dit onderzoek zijn gebruikt. Deze nsSNP's werden gekozen voor structurele analyse. Beide varianten C51Y en C104Y vertoonden de hoogste RMS-afwijkingen (respectievelijk 1.137 en 1.308 Å) die werden bevestigd door de belangrijke afname van de totale h-bindingen. De analyse van hydrofobe en hydrofiele interacties toonde belangrijke verschillen tussen het natieve eiwit en de 9 mutanten, met name I32S, G79C en C104Y. Zes SNP's in de 3

Er werd voorspeld dat UTR (rs920569876, rs74176247, rs1447199134, rs943234785, rs76346269 en rs78048640) betrokken zouden zijn bij het polyadenyleringssignaal. Deze studie onthulde 9 zeer schadelijke SNP's in de mens RETN gencoderingsgebied en 6 SNP's binnen de 3 UTR die de eiwitstructuur kunnen veranderen. Interessant is dat deze SNP's de moeite waard zijn om te worden geanalyseerd in functionele studies om hun effect op het voorkomen van metabole fenotypes verder op te helderen.

1. Inleiding

Het begrijpen van genomische variaties is een van de grootste uitdagingen van het huidige genomics-onderzoeksveld, vanwege het enorme aantal genetische variaties in het menselijk genoom. Single nucleotide polymorphisms (SNP's) vertegenwoordigen de meest voorkomende genetische variaties in het menselijk genoom, variërend van 3 tot 5 miljoen per individu [1]. Meestal zijn SNP's neutraal, maar sommige dragen bij aan de aanleg van ziekten door de eiwitfunctie te wijzigen of als genetische markers om nabijgelegen ziekteverwekkende mutaties te vinden door middel van genetische associatiestudies en familiegebaseerde studies [2]. Wetenschappers denken dat deze varianten ook de respons op sommige medicijnen kunnen beïnvloeden [3].

SNP's die de gecodeerde aminozuren veranderen, worden nonsynonymous single nucleotide polymorphisms (nsSNP's) genoemd. Niet-synonieme SNP's, die ongeveer de helft van alle genetische veranderingen vormen die verband houden met menselijke ziekten, kunnen de resulterende eiwitstructuur en / of -functie beïnvloeden met neutrale of schadelijke effecten [4, 5].

Bovendien is de studie van niet-coderend DNA ook belangrijk omdat het de meeste gerapporteerde SNP's in het menselijk genoom bevat. Polymorfismen in 5 en 3 onvertaalde regio's (UTR's) zijn van groot belang omdat ze de genexpressie en posttranscriptionele en posttranslationele activiteiten kunnen beïnvloeden en dus van functioneel belang zijn [6, 7].

Resistine is een pro-inflammatoire adipokine die behoort tot de cysteïnerijke C-terminale domeineiwitten die resistine-achtige moleculen (RELM's) worden genoemd en die voornamelijk worden uitgescheiden door adipocyten bij knaagdieren en macrofagen bij mensen [8, 9]. Het gen dat codeert voor resistine (RETN) bevindt zich op chromosoom 19p13.2. Er werd aangetoond dat resistine verband houdt met verschillende inflammatoire aandoeningen, waaronder obesitas, diabetes type 2, hart- en vaatziekten en astma [10–13]. Dit eiwit heeft effecten die de werking van insuline tegenwerken. Sommige onderzoeken hebben aangetoond dat resistine het glucosetransport beïnvloedt en insuline-gestimuleerde insulinereceptorsubstraat-1 (IRS-1) degradatie veroorzaakt, wat leidt tot insulineresistentie-inductie [14-16]. Er werd gemeld dat de circulerende resistinespiegels significant verhoogd waren bij zowel genetisch als door voeding geïnduceerde zwaarlijvige muizen en daalden met de toediening van het antidiabetische medicijn Rosiglitazon [8].

Bovendien toonde een case-control studie bij type 1 diabetes mellitus patiënten aan dat de combinatie van insuline en rosiglitazon de resistine- en leptinespiegels significant verlaagde [17]. Genetische varianten in RETN toonde een significante associatie met circulerende resistineniveaus. Beckers et al. identificeerde de eerste missense mutatie C78S in resistine in een morbide zwaarlijvige proband en zijn zwaarlijvige moeder. Deze bevinding stimuleert de studie van varianten in de RETN gencoderende regio om hun betrokkenheid bij pathogenese op te helderen [18]. Geschat werd dat genetische factoren tot 70% van de variatie in circulerende resistineniveaus kunnen verklaren [19]. Analyses van de associatie tussen SNP's van de RETN gen- en antropometrische variabelen en veranderingen gerelateerd aan obesitas lieten inconsistente resultaten zien [10, 20-23].

Gebaseerd op het belang van RETN gen in meerdere ontstekingsziekten, met name metabole afwijkingen, hebben we een computationele analyse uitgevoerd met behulp van nsSNP-effectvoorspellers zoals SIFT, PolyPhen, PANTHER, PhD-SNP en PredictSNP. De meeste schadelijke nsSNP's werden verder geanalyseerd door middel van conserverings- en stabiliteitstools. Ten slotte werd een structurele analyse uitgevoerd om de meest functioneel schadelijke SNP's in coderende en niet-vertaalde regio's te identificeren.

2. Materiaal en methoden

2.1. Gegevenssetverzameling

De SNP-informatie van RETN gen werd verzameld van dbSNP (//www.ncbi.nlm.nih.gov/snp/). De aminozuursequentie van het eiwit (NCBI-toetreding: NP_001180303) werd opgehaald uit de NCBI-eiwitdatabase (//www.ncbi.nlm.nih.gov/protein). De theoretische structuur van resistine (VOB ID: 1LV6) werd verlaten omdat deze niet in overeenstemming was met de kristalstructuur die nu beschikbaar is voor muisresistine.

2.2. Voorspelling van schadelijke nsSNP's

PredictSNP1.0 (//loschmidt.chemi.muni.cz/predictsnp1/) [24] werd gebruikt als de voorspeller van het SNP-effect op de eiwitfunctie. Deze bron is een consensusclassificatie die toegang geeft tot de negen best presterende voorspellingstools: SIFT, PolyPhen-1, PolyPhen-2, MAPP, PhD-SNP, SNAP, PANTHER, PredictSNP en nsSNPAnalyzer.

SIFT (Sorting Intolerant from Tolerant) voorspelt of een aminozuursubstitutie de eiwitfunctie beïnvloedt op basis van sequentiehomologie en de fysische eigenschappen van aminozuren [25]. SIFT neemt een queryreeks en gebruikt meerdere uitlijningsinformatie om getolereerde en schadelijke vervangingen in elke positie van de queryreeks te voorspellen. PolyPhen-1 gebruikt empirische regels van experts om de mogelijke impact van aminozuursubstituties te voorspellen, terwijl PolyPhen-2 (Polymorphism Phenotyping v2) het potentiële effect van een aminozuursubstitutie op de structuur en functie van een menselijk eiwit voorspelt met behulp van meervoudige sequentie-uitlijning en structurele informatie. MAPP (Multivariate Analysis of Protein Polymorphism) analyseert de fysisch-chemische variatie die aanwezig is in elke kolom van een eiwitsequentie-uitlijning en voorspelt de impact van aminozuursubstituties op de eiwitfunctie [26]. PhD-SNP (Predictor of Human Derious Single Nucleotide Polymorphisms) is een op een ondersteunende vectormachine (SVM) gebaseerde voorspeller die wordt gebruikt om nsSNP's te classificeren in menselijke genetische ziekteveroorzakende of goedaardige mutaties [27]. SNAP (screening op niet-aanvaardbare polymorfismen) is een op neurale netwerken gebaseerde methode die wordt gebruikt om functionele effecten van niet-synonieme SNP's te voorspellen met behulp van in silico afgeleide eiwitinformatie [28]. PANTHER (Protein Analysis Through Evolutionary Relationships) schat de waarschijnlijkheid dat een bepaalde nsSNP een functioneel effect op het eiwit veroorzaakt met behulp van positiespecifieke evolutionaire conservering [29]. nsSNPAnalyzer gebruikt een machine learning-methode genaamd random forest om te voorspellen of de nsSNP een fenotypisch effect heeft [30] op basis van uitlijning van meerdere sequenties en 3D-structuurinformatie. Ten slotte geeft PredictSNP1.0 de betrouwbaarheidsscores weer die door elke tool zijn gegenereerd en een consensusvoorspelling als percentages door hun waargenomen nauwkeurigheidswaarden te gebruiken om vergelijkingen te vereenvoudigen [24].

2.3. Volgordebehoud

Een ConSurf-webserver (//consurf.tau.ac.il/) werd gebruikt om het behoud van aminozuursequenties te analyseren. Dit webgebaseerde algoritme voorspelt de cruciale functionele regio's van een eiwit door de mate van aminozuurconservering te schatten op basis van uitlijning van meerdere sequenties. Het cijferbereik van 1 tot 9 schat de mate van conservering van het aminozuur gedurende de evolutie. Daarom vertegenwoordigt klasse 9 het meest geconserveerde residu en dalen de getallen tot 1 die het minst geconserveerde gebied vertegenwoordigt. Deze tool analyseert de conservering op nucleotide- en aminozuurniveau.

2.4. Voorspelling van posttranslationele modificatiesites

Een ModPred-webserver (http://www.modpred.org/) werd gebruikt om posttranslationele modificatie (PTM)-sites te voorspellen. De server bestaat uit een set bootstrap-logistieke regressiemodellen voor elk type PTM, opgehaald uit 126.036 niet-redundante PTM-sites geverifieerd experimenteel, de literatuur en uit de databases [31]. Resultaten worden gegeven als residu, wijziging, score, vertrouwen en opmerkingen. In deze studie werden alleen PTM's met gemiddelde en hoge betrouwbaarheid in aanmerking genomen.

2.5. Voorspelling van verandering in eiwitstabiliteit

De verandering in eiwitstabiliteit als gevolg van nsSNP's werd voorspeld met behulp van I-Mutant2.0 (//folding.biofold.org/cgi-bin/i-mutant2.0), een webgebaseerd support vector machine (SVM) tool gebruikt voor de automatische voorspelling van veranderingen in eiwitstabiliteit als gevolg van SNP. Het geeft de voorspelde waarde voor vrije energieverandering (DDG) en het teken van de voorspelling als toename of afname. De DDG-waarde wordt berekend uit de ontvouwende Gibbs-vrije-energiewaarde van het gemuteerde eiwit minus de ontvouwende Gibbs-vrije-energiewaarde van het wildtype in kcal/mol.

betekent dat de eiwitstabiliteit toenam, en

betekent dat de eiwitstabiliteit afnam [32].

De stabiliteit werd ook gecontroleerd door een MUpro-tool (http://mupro.proteomics.ics.uci.edu/). Deze server is gebaseerd op twee machine learning-methoden: ondersteuning van vectormachines en neurale netwerken. Beiden werden getraind op een grote mutatiedataset en vertoonden een nauwkeurigheid van meer dan 84%.

Dit eiwit berekent een score tussen -1 en 1 als de betrouwbaarheid van de voorspelling. Het vertrouwen

geeft aan dat de mutatie de eiwitstabiliteit verlaagt, terwijl een vertrouwen betekent dat de mutatie de eiwitstabiliteit verhoogt [33].

2.6. Scannen van UTR SNP's op de UTR-site

De 5 en 3 onvertaalde regio's (UTR's) spelen een cruciale rol bij de afbraak, translatie en lokalisatie van mRNA's, evenals de regulatie van eiwit-eiwitinteractie. We gebruikten de UTRscan-webserver http://itbtools.ba.itb.cnr.it/utrscan om de functionele SNP's in de 5 en 3 UTR's te voorspellen. Met de UTRscan-tool kan de aanvrager door de gebruiker ingediende sequenties doorzoeken op elk van de motieven die aanwezig zijn in UTRsite. UTRsite ontleent gegevens aan UTRdb, een samengestelde database die UTR-gegevenssets bijwerkt via primaire datamining en experimentele validatie [7, 34]. Om deze analyse uit te voeren, werden de primaire gegevens in FASTA-formaat ingediend en werden de resultaten getoond in de vorm van signaalnamen en hun posities in het transcript.

2.7. Structurele analyse
2.7.1. Modellering van inheemse en mutante structuur

Het transcript met de referentiesequentie NP_001180303.1 werd gebruikt voor de homologiemodellering. We selecteerden de röntgenkristalstructuur van Mus musculus-resistine uit de Protein Data Bank (PDB) met PDB-code 1RGX [9] als een sjabloon om een ​​menselijk resistine te genereren door homologiemodellering met behulp van het Zwitserse modelplatform (https://swissmodel. expasy.org). Het model heeft een QMEAN van -1,83 en een sequentie-identiteit van 55,56% (Figuur 1).

UCSF Chimera werd gebruikt om de overeenkomstige posities van de SNP's te bevestigen en om de 15 mutantmodellen te construeren [35]. Het is een zeer uitbreidbaar programma ontwikkeld door de Resource for Biocomputing, Visualization, and Informatics van de University of California, San Francisco, voor interactieve visualisatie en analyse van moleculaire structuren en gerelateerde gegevens.

De energieminimalisatie van de wildtype- en mutantstructuren werd uitgevoerd door de NOMAD-Ref-server Gromacs-gebaseerd als een standaard krachtveld, we gebruikten de geconjugeerde gradiëntmethode voor de 3D-structuuroptimalisatie [36].

2.7.2. Voorspelling van RMSD en totale waterstofbinding

UCSF Chimera diende opnieuw om de RMS-afwijking te controleren door zowel natieve als mutante structuren over elkaar heen te leggen. Bovendien diende deze tool om de totale h-bindingswaarden voor elke structuur te berekenen.

2.7.3. Interactieanalyse

COCOMAPS (bioCOMplexes CONtact MAPS) is een webapplicatie om de interface in biologische eiwit-eiwitcomplexen effectief te analyseren en te visualiseren door gebruik te maken van intermoleculaire contactkaarten. Het invoerbestand was het resistine-homologiemodel in PDB-formaat. In onze studie hebben we COCOMAPS gebruikt om de interactie tussen de drie monomeren van resistine-eiwit te analyseren [37]. Om dit te bereiken, hebben we het PDB-bestand van resistine-trimeer (A, B en C als keten-ID's voor elk monomeer) geüpload en hebben we vervolgens de interactie-interfaces vergeleken tussen de twee ketens A en B die worden beschouwd als Molecuul 1 die interageert met de derde keten C beschouwd als Molecuul 2 (interacties omvatten residuen van keten A en van keten B die samen een interactie aangaan met keten C).

2.7.4. Voorspelling van eiwit-eiwitinteracties

STRING (Search Tool for the Retrieval of Interacting Genes/Proteins, beschikbaar op http://string-db.org) is een database van bekende en voorspelde eiwitinteracties, die momenteel 9.643.763 eiwitten van 2031 organismen omvat. Deze database biedt een kritische beoordeling en integratie van eiwit-eiwit-interacties, inclusief directe (fysieke) en indirecte (functionele) associaties [38].

3. Resultaten

3.1. SNP-gegevenssets

De RETN SNP-gegevens die in dit werk zijn onderzocht, zijn begin oktober 2018 opgehaald uit de dbSNP-database (//www.ncbi.nlm.nih.gov/snp/?term=RETN). Het bevatte in totaal 1075 SNP's. Daarvan waren 78 nsSNP's, 35 codeerden synonieme SNP's, 339 bevonden zich in het niet-coderende gebied, dat 18 SNP's in de 5 UTR omvat, 35 SNP's in de 3 UTR en 287 in de intronische regio.

3.2. Voorspelling van schadelijke nsSNP's

In totaal werden 78 nsSNP's geselecteerd voor ons onderzoek. Deze SNP-collectie werd geanalyseerd met verschillende in silico-voorspellingstools om hun effecten op pathogeniteit te meten en om ziektegerelateerde SNP's te achterhalen. Alle nsSNP's die werden verkregen uit de SNP-database werden geladen in PredictSNP1.0 en alle beschikbare geïntegreerde tools werden geselecteerd voor voorspelling. Vijftien nsSNP's werden door alle geïntegreerde tools als schadelijk voorspeld, behalve nsSNPAnalyzer en PANTHER die geen enkele voorspelling gaven voor een mutatie. Volgens SNAP werden in totaal 38 nsSNP's van de 54 voorspeld als schadelijk (70,37%), gevolgd door MAPP met 37 schadelijke nsSNP's (68,51%), PolyPhen-2 met 31 nsSNP's (57,40%), PolyPhen-1 met 25 nsSNP's (46,29%), SIFT met 26 nsSNP's (48,15%) en PhD-SNP met 18 nsSNP's (33,33%). De nsSNP's die als schadelijk worden voorspeld, worden in tabel 1 vermeld met de verwachte nauwkeurigheid en worden geselecteerd voor verdere analyse (tabel 1).

3.3. Analyse van conservatie

De resultaten van ConSurf-analyse toonden aan dat 13 schadelijke missense SNP's zich in sterk geconserveerde regio's bevinden, met conserveringswaarden tussen 7 en 9, wat suggereert dat deze posities belangrijk zijn voor de resistine-integriteit. Hiervan werd voorspeld dat drie residuen blootgesteld en functioneel zouden zijn, vijf andere zouden worden begraven en structureel, twee begraven residuen en één blootgesteld residu." terwijl we aan het begin van de paragraaf moeten vermelden dat "11 schadelijke missence SNP's zijn gelokaliseerd in sterk geconserveerde regio's", omdat we net daarna vermeldden dat de conserveringswaarden tussen 7 en 9 liggen, dus hebben we G71 (score: 4) en R84 (score: 6) uitgesloten. De positie 84 werd voorspeld als matig geconserveerd, en de positie 71 werd voorspeld als variabel residu, daarom werden ze niet geselecteerd voor structurele analyse.

3.4. Voorspelling van posttranslationele modificatiesites

ModPred werd gebruikt om posttranslationele modificatieplaatsen in het humane resistine-eiwit te voorspellen. Alleen PTM's met een hoog of gemiddeld vertrouwen werden besproken. In het natieve eiwit werd positie R84 voorspeld als een plaats van ADP-ribosylering, W98 als een plaats van C-gebonden glycosylering of proteolytische splitsing, en C103 en C104 als plaatsen voor disulfidebinding. Na mutagenese verscheen C51 als een plaats van amidering met de verandering van Cys in Tyr, terwijl de positie W98 veranderde in een disulfidebindingsplaats met de verandering van Trp in Cys. Met betrekking tot de positie C104 werd voorspeld dat de verandering van Cys naar Tyr een amideringsplaats met een hoog vertrouwen opleverde. De resultaten van ModPred worden weergegeven in Tabel 2.

3.5. De impact van voorspelde schadelijke mutaties op de stabiliteit van resistine-eiwit

We analyseerden de 13 missense-substituties die voorspeld waren als schadelijk uit de vorige stappen met de I-Mutant2.0. en MUpro-webserver. nsSNP's waarvan voorspeld was dat ze de stabiliteit met beide tools zouden verminderen, werden geselecteerd voor verdere structurele analyse. De resultaten worden getoond in Tabel 3.

3.6. Structurele analyse
3.6.1. Modellering van de structuur van menselijke resistente

Met behulp van de röntgenkristalstructuur (1rgx) als sjabloon hebben we de 3D-structuur van native menselijke resistine gemodelleerd met behulp van de Zwitserse modelwebserver. Figuur 2 toonde het gegenereerde model als een trimeer met drie monomeren (A, B en C). Dit trimeer werd gebruikt om de 9 mutantmodellen van humaan resistine te construeren.

3.6.2. RMSD-verschil en totale waterstofbindingen

De RMSD-waarden geassocieerd met de 9 mutanten worden gegeven in Tabel 4. Naarmate de RMSD-waarde toeneemt, zal de afwijking tussen natieve en mutante structuren groter zijn en dus een verandering in eiwitactiviteit veroorzaken. Gewijzigde C51Y- en C104Y-mutanten vertoonden de hoogste RMSD-resultaten die worden getoond in figuren 2(a) en 2(b). Bovendien werden totale h-bindingen berekend om hun bijdrage aan de stabiliteit en de vouwing van het natieve eiwit te beoordelen. Alle gemuteerde structuren lieten een verandering zien in de totale h-bindingen in vergelijking met het natieve resistine, maar de C104Y-mutant vertoonde een opmerkelijke afname en vormde 254 h-bindingen terwijl de natieve structuur 291 vormde. Bovendien toonde de visualisatie van de natieve structuur aan dat C51- en C104-residuen vormen een disulfidebinding met elkaar (Figuur 2(d)) de verandering van cysteïne gedragen op de alfa-helix in deze posities induceert de breuk van de disulfidebrug (Figuur 2(c) en 2(e)) die het eiwit kan verstoren structuur.

3.6.3. Interactieanalyse

De interfacecontacten tussen de aminozuren die aanwezig zijn in het resistine-trimeer werden bestudeerd met behulp van COCOMAPS. Variatie in het aantal verschillende soorten interacties werd waargenomen tussen de natieve en 9 resistinemutanten. De resultaten worden gegeven in Tabel 5.

Wat betreft het aantal hydrofiele-hydrofiele interacties, nam het natieve complex deel met 262 hydrofiele-hydrofiele interacties. De mutantcomplexen I32S, C51Y, G79C en C104Y vertoonden een significante toename van het aantal hydrofiele-hydrofiele interacties met respectievelijk 286, 266, 277 en 266 interacties, wat wijst op een vermindering van de hydrofobiciteit van deze mutante trimeren. Bovendien vertoonde het mutante complex C103G een significante toename van het aantal hydrofobe-hydrofobe interacties, wat wijst op de toename van zijn hydrofobiciteit.

Bovendien vonden we dat het C51Y-mutante trimeer een interactie aangaat met slechts 75 resten van keten C die het trimeercomplex vormen, terwijl in het natieve complex keten C een interactie aangaat met 78 resten. Deze kleine afwijking kan de vorming van resistine-trimeer verstoren.

3.6.4. Voorspelling van het effect van SNP's die zich in de UTR bevinden door een UTRscan-server

De UTRscan-server werd gebruikt om het effect van UTR-SNP's op transcriptioneel motief te voorspellen. Zes SNP's in de 3 UTR, namelijk rs920569876, rs74176247, rs1447199134, rs943234785, rs76346269 en rs78048640, werden voorspeld op polyadenylatieplaatsen en kunnen dus verantwoordelijk zijn voor pathologische fenotypes. Resultaten worden gegeven in Tabel 6.


RESULTATEN

Casestudy

Ter illustratie van de optredens van snpXplorer, hebben we de meest recente reeks veelvoorkomende SNP's onderzocht die verband houden met de late ziekte van Alzheimer (AD, N = 83 SNP's, aanvullende tabel S1) (43). Door deze dataset als casestudy te gebruiken, laten we de voordelen van het gebruik van snpXplorer in een typisch scenario. Kort gezegd, AD is de meest voorkomende vorm van dementie op oudere leeftijd en wordt geassocieerd met een progressief verlies van cognitieve functies, wat uiteindelijk leidt tot de dood. In de meest voorkomende vorm (late-onset AD, met een beginleeftijd van doorgaans >65 jaar), wordt de ziekte geschat op 60-80% erfelijk. Met een toerekenbaar risico van ∼30% zijn genetische varianten in APOE gen vertegenwoordigen de grootste gemeenschappelijke genetische risicofactor voor AD. In aanvulling op APOE, telt het genetische landschap van AD nu 83 veel voorkomende varianten die geassocieerd zijn met een lichte wijziging van het risico op AD. Het begrijpen van de genen die het meest waarschijnlijk betrokken zijn bij de pathogenese van AD, evenals de cruciale biologische routes, is gerechtvaardigd voor de ontwikkeling van nieuwe therapeutische strategieën voor AD-patiënten.

We hebben de lijst met AD-geassocieerde genetische varianten in tabel 1 van de preprint opgehaald uit: Bellenguez et al. ( 43). Deze studie vertegenwoordigt de grootste GWAS op AD die tot nu toe is uitgevoerd, en resulteerde in 42 nieuwe SNP's die genoombreed bewijs van associatie met AD bereikten. Het verkenningsgedeelte van snpXplorer kan ten eerste worden gebruikt om de associatiestatistieken van de nieuwe SNP-associaties in eerdere studies van dezelfde eigenschap te inspecteren (d.w.z. International Genomics of Alzheimer Project (IGAP) en familiegeschiedenis van AD (proxy_AD)). Specifiek wordt verwacht dat in eerdere studies een suggestieve mate van associatie in deze regio's wordt gevonden. Zoals verwacht werden al suggestieve associatiesignalen waargenomen voor de nieuwe SNP's, waardoor de kans groter werd dat deze nieuwe SNP's echte associaties zijn (aanvullende figuur S1).

Na de eerste verkennende analyse hebben we de variant-ID's (rsID's) in de annotatiesectie van snpXplorer, met rsid als inputtype, Gene Ontology en Reactome als gene-sets voor de verrijkingsanalyse, en Blood als GTEx-weefsel voor eQTL (d.w.z. de standaardwaarde). De N = 83 varianten waren gekoppeld aan in totaal 162 genen, met N = 54 varianten die zijn toegewezen aan één gen, N = 12 varianten die worden toegewezen aan twee genen, N = 7 varianten die zijn toegewezen aan drie genen, N = 2 varianten die zijn toegewezen aan vier genen, N = 1 variant mapping naar vijf genen, N = 4 varianten die zijn toegewezen aan vier genen, en N = 1 varianttoewijzing aan 7, 8 en 11 genen (aanvullend figuur S2). N = 10 varianten bleken codeervarianten te zijn, N = 31 varianten bleken eQTL te zijn en N = 42 varianten werden geannoteerd op basis van hun genomische positie. Deze resultaten worden teruggestuurd naar de gebruiker in de vorm van een (menselijke en machineleesbare) tabel, maar ook in de vorm van een samenvattende plot (Figuur 2A en Aanvullende Figuur S2). Deze grafieken informeren de gebruiker niet alleen over het effect van de SNP's van belang (bijvoorbeeld een direct gevolg op de eiwitsequentie in het geval van coderende SNP's, of een regulerend effect in het geval van eQTL's of intergene SNP's), maar suggereren ook de aanwezigheid van meer complexe regio's: aanvullend figuur S2B geeft bijvoorbeeld het aantal genen aan dat is gekoppeld aan elke SNP, dat normaal gesproken toeneemt voor complexe, gen-dichte regio's zoals HLA-regio of IGH-regio.

Resultaten van de functionele annotatie van N = 83 varianten geassocieerd met de ziekte van Alzheimer (AD). (EEN) De cirkelvormige samenvattende figuur toont het type annotatie van elke genetische variant die als invoer wordt gebruikt (codering, eQTL of geannoteerd door hun posities), evenals de kleine allelfrequentie en chromosomale distributie van elke variant. (B) REVIGO-plot, die de resterende GO-termen toont na het verwijderen van redundantie op basis van een semantische overeenkomstmaat. De kleur van elke punt codeert voor de significantie (hoe donkerder, hoe belangrijker), terwijl de grootte van de punt codeert voor het aantal vergelijkbare termen dat uit REVIGO is verwijderd. (C) Resultaten van onze term-gebaseerde clusteringaanpak. We used Lin as semantic similarity measure to calculate similarity between all GO terms. We then used ward-d2 as clustering algorithm, and a dynamic cut tree algorithm to highlight clusters. Finally, for each cluster we generated wordclouds of the most frequent words describing each cluster.

Results of the functional annotation of N = 83 variants associated with Alzheimer's disease (AD). (EEN) The circular summary figure shows the type of annotation of each genetic variant used as input (coding, eQTL or annotated by their positions) as well as each variant's minor allele frequency and chromosomal distribution. (B) REVIGO plot, showing the remaining GO terms after removing redundancy based on a semantic similarity measure. The colour of each dot codes for the significance (the darker, the more significant), while the size of the dot codes for the number of similar terms removed from REVIGO. (C) Results of our term-based clustering approach. We used Lin as semantic similarity measure to calculate similarity between all GO terms. We then used ward-d2 as clustering algorithm, and a dynamic cut tree algorithm to highlight clusters. Finally, for each cluster we generated wordclouds of the most frequent words describing each cluster.

In order to prioritize candidate genes, the authors of the original publication integrated (l) eQTLs and colocalization (eQTL coloc) analyses combined with expression transcriptome-wide association studies (eTWAS) in AD-relevant brain regions (ii) splicing quantitative trait loci (sQTLs) and colocalization (sQTL coloc) analyses combined with splicing transcriptome-wide association studies (sTWAS) in AD-relevant brain regions (iii) genetic-driven methylation as a biological mediator of genetic signals in blood (MetaMeth) ( 43). In order to compare the SNP-gene annotation of the original study with that of snpXplorer, we counted the total number of unique genes associated with the SNPs (l) in the original study (N = 97), (ii) using our annotation procedure (N = 136) and (iii) the intersection between these gene sets (N = 79). When doing so, we excluded regions mapping to the HLA-gene cluster and IGH-gene clusters (three SNPs in total) as the original study did not report gene names but rather HLA-cluster and IGH-cluster. Nevertheless, our annotation procedure correctly assigned HLA-related genes and IGH-related genes with these SNPs. The number of intersecting genes was significantly higher than what could be expected by chance (P = 0.03, based on one-tail P-value of binomial test, Supplementary Table S2 ). For six SNPs, the gene annotated by our procedure did not match the gene assigned in the original study. Specifically, for 4/6 of these SNPs, we found significant eQTLs in blood (rs60755019 with ADCY10P1, rs7384878 with PILRB, STAG3L5P, PMS2P1, GIGYF1 en EPHB4 genes, rs56407236 with FAM157C gene, and rs2526377 with TRIM37 gene), while the original study reported the closest genes as most likely gene (rs60755019 with TREML2 gene, rs7384878 with SPDYE3 gene, rs56407236 with PRDM7 gene and rs2526377 with TSOAP1 gene). In addition, we annotated SNPs rs76928645 and rs139643391 to SEC61G en WDR12 genes (closest genes), while the original study, using eQTL and TWAS in AD-relevant brain regions, annotated these SNPs to EGFR en ICA1L/CARF genes. While the latter two SNPs were likely mis-annotated in our procedure (due to specific datasets used for the annotation), our annotation of the former four SNPs seemed robust, and further studies will have to clarify the annotation of these SNPs.

With the resulting list of input SNPs and (likely) associated genes, we probed the GWAS-Catalog and the datasets of structural variations for previously reported associations. We found a marked enrichment in the GWAS-Catalog for Alzheimer's disease, family history of Alzheimer's disease, and lipoprotein measurement ( Supplementary Figure S3 , Supplementary Table S3 and S4 ). The results of this analysis are relevant to the user as they indicate other traits that were previously associated with the input SNPs. As such, they may suggest relationships between different traits, for example in our case study they suggest the involvement of cholesterol and lipid metabolism in AD, a known relationship ( 44). Next, we searched for all structural variations in a region of 10kb surrounding the input SNPs, and we found that for 39/83 SNPs, a larger structural variations was present in the vicinity ( Supplementary Table S5 ), including the known VNTR (variable number of tandem repeats) in ABCA7 gene ( 45), and the known CNV (copy number variation) in CR1, HLA-DRA en PICALM genes ( Supplementary Table S5 ) ( 46–48). This information may be particularly interesting for experimental researchers investigating the functional effect of SVs, and could be used to prioritize certain genomic regions. Because of the complex nature of large SVs, these regions have been largely unexplored, however technological improvements now make it possible to accurately measure SV alleles.

We then performed our (sampling-based) gene-set enrichment analysis using Gene Ontology Biological Processes (GO:BP, default setting) and Reactome as gene-set sources, and Blood as tissue for the eQTL analysis. After averaging P-values across the number of iterations, we found N = 132 significant pathways from Gene Ontology (FDR<1%) and N = 4 significant pathways from Reactome (FDR <10%) ( Supplementary Figure S4 and Supplementary Table S6 ). To facilitate the interpretation of the gene-set enrichment results, we clustered the significantly enriched terms from Gene Ontology based on a semantic similarity measure using REVIGO (Figure 2B) and our term-based clustering approach (Figure 2C). Both methods are useful as they provide an overview of the most relevant biological processes associated with the input SNPs. Our clustering approach found five main clusters of GO terms (Figure 2C and Supplementary Figure S5 ). We generated wordclouds to guide the interpretation of the set of GO terms of each cluster (Figure 2C). The five clusters were characterized by (l) trafficking and migration at the level of immune cells (ii), activation of immune response (iii), organization and metabolic processes (NS), beta-amyloid metabolism and (v ) amyloid and neurofibrillary tangles formation and clearance (Figure 2C). All these processes are known to occur in the pathogenesis of Alzheimer's disease from other previous studies ( 43, 44, 49, 50). We observed that clusters generated by REVIGO are more conservative (i.e. only terms with a high similarity degree were merged) as compared to our term-based clustering which generates a higher-level overview. In the original study ( Supplementary Table S15 from ( 43)), the most significant gene sets related to amyloid and tau metabolism, lipid metabolism and immunity. In order to calculate the extent of term overlap between results from the original study and our approach, we calculated semantic similarity between all pairs of significantly enriched terms in both studies. In addition to showing pairwise similarities between all terms, this analysis also shows how the enriched terms in the original study relate to the clusters found using our term-based approach. We observed patterns of high similarity between the significant terms in both studies ( Supplementary Figure S6 ). For example, terms in the ‘Activation of immune system’ and the ‘Beta-amyloid metabolism’ clusters (defined with our term-based approach), reported high similarities with specific subsets of terms from the original study. This was expected as these clusters represent the most established biological pathways associated with AD. The cluster ‘Trafficking of immune cells’ had high similarity with a specific subset of terms from the original study, yet we also observed similarities with the ‘Activation of immune system’ cluster, in agreement with the fact that these clusters were relatively close also in tree structure (Figure 2C). Similarly, high similarities were observed between the ’Beta-amyloid metabolism’ and the ‘Amyloid formation and clearance’ clusters. Finally, the ‘Metabolic processes’ had high degree of similarity with a specific subset of terms, but also with terms related to ‘Activation of immune system’ cluster. Altogether, we showed that (l) enriched terms from the original study and our study had a high degree of similarity, and (ii) that the enriched terms of the original study resembled the structure of our clustering approach. The complete analysis of 83 genetic variants took about 30 minutes to complete.


Conclusie

In summary, we uncover a hidden layer of human A-to-I editing SNP loci that are of functional importance, enriched in GWAS signals for autoimmune diseases, and subject to balancing selection. Various types of RNA editing, including A-to-I editing, alter sequence relative to the genome at the RNA level, thus providing a rich resource of RNA variants that potentially produce functionally altered genes. For some of the RNA variants that are beneficial under certain conditions, once the same type of mutation occurs at the DNA level, it may be selectively maintained and become the target of balancing selection. Therefore, we hypothesized that RNA editing, as exemplified in this study with A-to-I editing, may be an unrecognized type of the common target of balancing selection in various species.


OPINION article

Long non-coding RNAs (LncRNAs) are RNAs with more than 200 nucleotides and are mostly transcribed by RNA polymerase II from different regions across the genome. They are currently known as key regulators of cellular function through different mechanisms such as epigenetic regulation, miRNA sponging, and modulating of proteins and enzyme cofactors (Kurokawa, 2011 Nie et al., 2012 Flynn and Chang, 2014 Birgani et al., 2017 Marchese et al., 2017). By this way, they are implicated in development pathways (Amaral and Mattick, 2008). Different lncRNAs such as HOTAIR can play their important roles by changing the chromatin states of the genome (Mercer and Mattick, 2013). Rinn et al. introduced this RNA as a spliced and polyadenylated RNA with 2,158 nucleotides (Hajjari et al., 2013). HOTAIR, as one of the featured lncRNAs, is located between HOXC11 en HOXC12 on chromosome 12q13.3. HOTAIR forms stem-loop structures which bind to histone modification complexes lysine-specific demethylase 1 (LSD1) and Polycomb Repressive Complex2 (PRC2) in order to recruit them on specific target genes. This RNA interacts with Polycomb repressive Complex2 (PRC2) and has a lot of targets such as HOXD. By this way, PRC2 can repress the desired genes leading into increased growth, proliferation, survival, metastasis, invasion, and drug resistance in some cancer cells (Rinn et al., 2007 He et al., 2011 Davidovich et al., 2013 Hajjari et al., 2014 Martens-Uzunova et al., 2014 Zhao et al., 2014). So, different studies have indicated the dysregulation of HOTAIR in different types of cancers in recent years (Gupta et al., 2010 Kogo et al., 2011 Yang et al., 2011 Niinuma et al., 2012 Hajjari et al., 2013 Kim et al., 2013 Li et al., 2013).

In recent studies, there are some reports indicating the role of HOTAIR SNPs which make it a significant cancer susceptibility locus and provide high risk for some cancers (Qi et al., 2016), like breast (Bayram et al., 2015, 2016 Yan et al., 2015), gastric (Pan et al., 2016 Tian et al., 2016), cervical (Guo et al., 2016 Qiu et al., 2016), papillary thyroid carcinoma (Zhu et al., 2016), osteosarcoma (Zhou et al., 2016), prostate (Taheri et al., 2017), ovarian (Wu et al., 2016 Qiu et al., 2017), and colorectal cancers (Xue et al., 2014). This is an interesting point because these SNPs may have effect on gene expression, function, and regulators of epigenome (Hajjari and Rahnama, 2017). Therefore, we think that more studies on these SNPs can reveal the potential of these SNPs for considering them as markers of progression and diagnosis of different cancers.

Figure 1 shows the locations of these SNPs within HOTAIR gen. Herein, we present different SNPs to highlight their potential for further studies.

Figuur 1. Locations of different SNPs within HOTAIR gene and their association with different types of cancer (E: Exon, exons of HOTAIR, and HOXC12 are shown by green and red boxes). Genomic positions are based on the UCSC Genome browser on Human Dec. 2013 (GRCh38/hg38) assembly.

There are some reports indicating the association between HOTAIR rs12826786 SNP which is located between HOTAIR en HOXC12. The increased risk for some cancers such as breast (BC) (Bayram et al., 2016), gastric adenocarcinoma (GCA) (Guo et al., 2015), prostate cancer (PC), and benign prostate hyperplasia (BPH) (Taheri et al., 2017) has been reported. For instance, women who are carriers of this polymorphism, have an increased risk of BC in both codominant and recessive inheritance models (Bayram et al., 2016). With regard to the location of this SNP, it seems that this SNP has effect on the regulation of HOTAIR gene in the cell. So, the analysis of HOTAIR dysregulation and its correlation with this SNP can be proposed in different types of cancers in different population.

rs920778 is another polymorphism which is located in the intronic enhancer of HOTAIR gen. TT genotype of this SNP has been found to affect the gene expression and make the risk for various cancers (Bayram et al., 2015) such as gastric (Pan et al., 2016), esophageal squamous cell carcinoma (Zhang et al., 2014), cervical (Qiu et al., 2016), and papillary thyroid carcinoma (Zhu et al., 2016). In addition, CC genotype of this SNP might be a cause of breast cancer in both codominant and recessive inheritance genetic models (Bayram et al., 2015).

There are some studies reporting the association between the dysregulation of HOTAIR and rs920778. HOTAIR up-regulation has been suggested as a result of rs920778 in gastric cancer (Xu et al., 2013 Pan et al., 2016). Also, the aberrant expression of HOTAIR in esophageal squamous cell carcinoma seems to be the result of a specific allele of rs920778 (Gupta et al., 2010 Zhang et al., 2014 Dai et al., 2017). Furthermore, there is higher expression of HOTAIR in female papillary thyroid carcinoma tissues because of a specific genetic polymorphism of this gene (Zhu et al., 2016).

Another SNP annotated as rs4759314 is also located in a promoter region in one of the introns of HOTAIR. It is of noted that AG/GG genotypes of the rs4759314 were associated with gastric cancer risk. The expression effects of heterozygotes individuals with G allele were more than homozygotes in the patients in co-dominant models (Du et al., 2015). However, in a controversial report, the HOTAIR gene expression found to be higher in ovarian cancer patients with AG/AA genotypes of rs4759314 (Wu et al., 2016).

Another SNP located in the intronic region of HOTAIR is rs1899663. Due to its location in a putative regulatory element, it seems that this SNP can affect gene expression and regulation. There are some association between HOTAIR rs1899663 T allele and BPH (Benign prostate hyperplasia) patients. Also, The rs1899663 is associated with prostate cancer risk in co-dominant, dominant and recessive inheritance models. Researchers have reported that this SNP changes the affinity for binding of PAX-4, SPZ1, and ZFP281 transcription factors which can alter the HOTAIR gene expression level (Taheri et al., 2017).

Among the SNPs in HOTAIR gene, one named “rs7958904” is an exonic polymorphism. So, it seems that HOTAIR rs7958904 polymorphism can affect the secondary structure of HOTAIR.

It is of noted that CC genotypes of HOTAIR rs7958904 has been reported to be associated with decreased osteosarcoma (Zhou et al., 2016), EOC (Wu et al., 2016), and colorectal cancers risk (Xue et al., 2014). In an study on osteosarcoma patients classified by age, gender, and tumor locations, it was shown that CC genotypes of the HOTAIR rs7958904 can reduce osteosarcoma risk as well as HOTAIR expression level (Zhou et al., 2016). However, cervical cancer patients with CC genotypes of this SNP had higher HOTAIR expression (Jin et al., 2017). Furthermore, with regard to the up-regulation of HOTAIR in lung cancer (Jiang et al., 2017) the SNP has been reported as a region to be associated with chemotherapy response in lung cancer patients through effect on HOTAIR function or expression (Xue et al., 2014 Gong et al., 2016).

HOTAIR have abnormal expression in the different human cancers. Different studies have revealed the cellular and molecular mechanisms in which HOTAIR is involved (Hajjari and Salavaty, 2015 Gong et al., 2016). Recently, some studies indicating the potential role of SNPs of HOTAIR in cancer susceptibility have been published. However, these studies are mostly derived from Asian population. Also, there are some controversial results on this field of study. With regard to the importance of HOTAIR regulation and function, more experiments on different populations, and ethnics are expected to reveal the importance of HOTAIR polymorphisms. Other polymorphisms in HOTAIR gene such Indel and CNV may be considered in future. However, the association between these SNPs and regulation/structure of HOTAIR has to be checked in various cancers. Also, we believe that whole genome sequencing projects can help to find the relation between the SNPs of this RNA with other SNPs in different cancers in future.


Hotelling's T(2) multilocus association test

IMPORTANT This command has been temporarily disabled

For disease-traits, PLINK provides support for a multilocus, genotype-based test using Hotelling's T2 (T-squared) statistic. De --set option should be used to specify which SNPs are to be grouped, as follows:

Plink --file data --set mydata.set --T2

waar mydata.set defines which SNPs are in which set (see this section for more information on defining sets).

This command will generate a file which contains the fields

HINT Gebruik de --genedrop permutation to perform a family-based application of the Hotelling's T2 test. This command can be used with all permutation methods (label-swapping or gene-dropping, adaptive or max(T)). In fact, the permutation test is based on 1-p in order to make the between set comparisons for the max(T) statistic more meaningful (as different sized sets would have F-statistics with different degrees of freedom otherwise). Using permutation will generate one of the following files: which contain the fields or, if --mperm was used, which contain the fields Note that this test uses a simple approach to missing data: rather than case-wise deletion (removing an individual if they have at least one missing observation) we impute the mean allelic value. Although this retains power under most scenarios, it can also cause some bias when there are lots of missing data points. Using permutation is a good way around this issue.


Methoden:

Study populations

Two independent Australian Caucasian breast cancer case populations were available for our study: The Genomics Research Centre Breast Cancer (GRC-BC) population and part of the Griffith University-Cancer Council Queensland Breast Cancer Biobank (GU-CCQ BB). We conducted single nucleotide polymorphism genotyping in the GRC-BC population initially. This consisted of DNA samples from 173 breast cancer patients from South East Queensland and DNA samples from 187 healthy age and sex matched females with no personal and/or familial history of breast, ovarian or any other type of cancer collected at the Genomics Research Centre Clinic, Southport, with research approved by Griffith University’s Human Ethics Committee (Approval: MSC/07/08/HREC and PSY/01/11/HREC) and the Queensland University of Technology Human Research Ethics Committee (Approval: 1400000104). Breast cancer samples comprised prevalent breast cancer cases diagnosed previous to their inclusion in this study. All participants supplied informed written consent. Average age of test population was 57.52 years and 57 years for cases and controls respectively.

Further validation of genotyping results was performed on a subset of the GU-CCQ BB population. 679 DNA samples from breast cancer patients residing in Queensland with a diagnosis of invasive breast cancer confirmed histologically were used to validate genotyping of miR-SNPs. Patient samples had been collected by the Genomics Research Centre in collaboration with the Cancer Council of Queensland as part of a 5-year population-based longitudinal study since January 2010. Patients included in this study were between 33 and 80 years of age, with an average age of 60.16 and they were screened for personal and/or familial history of breast, ovarian or any other type of cancer. Control population for the GU-CCQ BB was established from 2 sources: The control group for this cohort was comprised of genotyping result data taken from 201 healthy females belonging to the phase 1 European population from the 1000Genomes project. Efforts were made to select a subgroup of individuals that were comparable to the case group in terms of age, ethnicity and sex [34].

Genomic DNA sample preparation from whole human blood

Genomic DNA was extracted from whole blood samples using a modified salting out method described previously [35, 36]. DNA samples were evaluated by spectrophotometry using the Thermo Scientific NanoDrop™ 8000 UV-Vis Spectrophotometer (Thermo Fisher Scientific Inc., Wilmington, DE. USA) to determine DNA yield and 260/280 ratios [37–39]. Samples with a reading below 1.7 for their 260/280 ratio were purified using an ethanol precipitation protocol to guarantee DNA sample purity [40].

MiRNA SNP selection

Figure 1 shows the selection process we followed to determine miRNA SNPs (miR-SNPs) that could be included in our study. Two datasets, “The whole miRNA-disease association data” and “The miRNA function set data” from the human miRNA disease database (HMMDD) created by Lu et al. [41] and updated in January 2012, were used to select 8 diseases and/or pathological characteristics and 24 biological and/or cellular functions related to breast cancer (See Table 1). As shown in Fig. 1, we picked the 50 miRNA genes from each dataset that were present in the majority of selected features for inclusion in the following steps. This list was narrowed down to the 25 miRNA genes on each dataset with the strongest evidence in order to maximise the potential for identification of biologically relevant molecules using two main criteria: miRNAs involved in the largest number of selected features from each group followed by a literature search to confirm the number of publications showing significant relationships to cancer biology or the possession of known functional effects of polymorphisms within the miRNA itself. Following this, we chose 10 miRNA genes from the 25 genes on both lists, again prioritising by number of functions and publications, and conducted a search to identify SNPs using both dbSNP database from The National Center for Biotechnology Information (NCBI) [42] and 1000 Genomes project browser [43]. Final selection of SNPs was done using this algorithm: All microRNA-SNPs located inside the pre-miRNA gene were automatically included in the SNP selection. However, SNPs located outside of the pre-miRNA gene were assessed using the following criteria: miR-SNPs located up to 500bp upstream or downstream from pre-miRNA were automatically included in the SNP selection. On the other hand, SNPs located more than 500bp from the 3’ or 5’ end were chosen only if they had a previously reported minor allele frequency higher than 5% in Caucasian populations. As a result 56 microRNA SNPs were identified in this preliminary selection (Data not shown) (See Fig. 1).

MicroRNA SNP (miR-SNP) selection algorithm using the Human miRNA Disease Database (HMDD). This flow chart shows workflow for selection of preliminary miR-SNPs included in genotyping study. Abbreviations: dbSNP, single nucleotide polymorphism database MAF, minor allele frequency miRNA, microRNA NCBI National Center for Biotechnology Information SNP, Single nucleotide polymorphisms

Primer design

Using the MassARRAY® Assay Design Suite v1.0 software (SEQUENOM Inc., San Diego, CA, USA) we were able to create a single multiplex PCR genotyping assay containing 24 miR-SNPs from our preliminary selection (See Table 2). We designed forward and reverse PCR primers and one iPLEX® (extension) primer and verified that the mass of extension primers differed by at least 30 Da among different SNPs and by 5 Da between alternative alleles of the same marker to achieve successful marker and allele identification by mass spectrometry analysis. Primers were manufactured by Integrated DNA Technologies (IDT®) Pte. Ltd. (Baulkham Hills, NSW 2153, Australia) and primer information is shown in Table 3.

Primary multiplex PCR

Genotyping was undertaken following the iPLEX™ GOLD genotyping protocol using the iPLEX® Gold Reagent Kit (SEQUENOM Inc., San Diego, CA, USA). Primer extension reactions were performed according to the instructions for the SEQUENOM linear adjustment method included in the iPLEX™ GOLD genotyping protocol (SEQUENOM Inc., San Diego, CA, USA). All reactions were performed using Applied Biosystems® MicroAmp® EnduraPlate™ Optical 96-Well Clear Reaction Plates with Barcode (Life Technologies Australia Pty Ltd., Mulgrave, VIC, Australia) and an Applied Biosystems® Veriti® 96-Well Thermal Cycler (Life Technologies Australia Pty Ltd., Mulgrave, VIC, Australia).

MALDI-TOF MS analysis and data analysis

A total of 12-16 nl of each iPLEX® reaction product were transferred onto a SpectroCHIP® II G96 (SEQUENOM Inc., San Diego, CA, USA) using SEQUENOM® MassARRAY® Nanodispenser (SEQUENOM Inc., San Diego, CA, USA). SpectroCHIP® analysis was carried out by SEQUENOM® MassArray® Analyzer 4 and the SpectroAcquire software Version 4.0 (SEQUENOM Inc., San Diego, CA, USA). Finally data analysis for genotype determination was done using the MassARRAY® Typer software version 4.0 (SEQUENOM Inc., San Diego, CA, USA). In order to confirm the genotypes obtained, randomly selected samples (5 each for case and control cohorts) from each genotype (N = 240) were validated by Sanger Sequencing to ensure accuracy of genotyping results. In all cases, the Sanger Sequencing confirmed the genotyping obtained using MassARRAY.

Statistical analysis

Statistical analysis of genotypes and alleles was conducted using Plink software version 1.07 (http://pngu.mgh.harvard.edu/purcell/plink/) [44]. The α for p-values was set at 0.05 to determine statistically significant association with breast cancer. Genotype and allele frequencies for each miRNA SNP in our case and control populations were established and we used Hardy-Weinberg equilibrium (HWE) to evaluate deviation between observed and expected frequencies for identification of unexpected population or genotyping biases [45, 46]. We performed Chi square analysis to evaluate differences in genotype and allele frequencies between cases and controls for each independent population [47]. Finally we calculated odds ratio (OR) and obtained 95% confidence interval (CI) 95% to assess disease risk.


Auteurs informatie

Voorkeuren

International Institute of Tropical Agriculture (IITA), Ibadan, 200001, Oyo State, Nigeria

Ismail Yusuf Rabbi, Siraj Ismail Kayondo, Muyideen Yusuf, Cynthia Idhigu Aghogho, Kayode Ogunpaimo, Ruth Uwugiaren, Ikpan Andrew Smith, Prasad Peteti, Afolabi Agbona, Elizabeth Parkes, Chiedozie Egesi & Peter Kulakow

Boyce Thompson Institute, Ithaca, NY, 14853, USA

National Root Crops Research Institute (NRCRI), PMB 7006, Umudike, 440221, Nigeria

Ezenwaka Lydia & Chiedozie Egesi

Global Development Department, College of Agriculture and Life Sciences, Cornell University, Ithaca, NY, 14850, USA

Section on Plant Breeding and Genetics, School of Integrative Plant Sciences, Cornell University, Ithaca, NY, 14850, USA

Marnin Wolfe & Jean-Luc Jannink

United States Department of Agriculture - Agriculture Research Service, Ithaca, NY, 14850, USA

U kunt deze auteur ook zoeken in PubMed Google Scholar

U kunt deze auteur ook zoeken in PubMed Google Scholar

U kunt deze auteur ook zoeken in PubMed Google Scholar

U kunt deze auteur ook zoeken in PubMed Google Scholar

U kunt deze auteur ook zoeken in PubMed Google Scholar

U kunt deze auteur ook zoeken in PubMed Google Scholar

U kunt deze auteur ook zoeken in PubMed Google Scholar

U kunt deze auteur ook zoeken in PubMed Google Scholar

U kunt deze auteur ook zoeken in PubMed Google Scholar

U kunt deze auteur ook zoeken in PubMed Google Scholar

U kunt deze auteur ook zoeken in PubMed Google Scholar

U kunt deze auteur ook zoeken in PubMed Google Scholar

U kunt deze auteur ook zoeken in PubMed Google Scholar

U kunt deze auteur ook zoeken in PubMed Google Scholar

U kunt deze auteur ook zoeken in PubMed Google Scholar

U kunt deze auteur ook zoeken in PubMed Google Scholar

Bijdragen

IYR, CE, JLJ, and PK conceived and designed the study IYR, SIK, GB, AA, and MY performed analyses and wrote the manuscript CE, EL, EP, MW, JLJ, and PK edited the manuscript CA, KO, RU, ASI, and PP Implemented field trials, generated and curated data and PK Provided overall coordination and leadership.

Corresponderende auteur