Informatie

Wat betekenen rs id, allel gecodeerd 0 en allel gecodeerd 1?


Dus voor een project waar ik aan heb gewerkt (ander verhaal), heb ik gekeken naar het HapMap-project en hun gratis online bestanden. In hun README-bestand vertellen ze hoe er voor elk legendabestand voor elk chromosoom/regio een rs-id, een alel gecodeerd 0, 1 en een basenpaarpositie is.

Nu is het vrij duidelijk na hier een tijdje naar te hebben gestaard dat de positie van het basenpaar betekent waar elke nucleotide zich langs de genetische sequentie bevindt ... klopt dit?

En wat betekenen rs id en de andere woorden? Om het even welke hulp zou zeer gewaardeerd worden!

Hier is de link naar het README-bestand, in diezelfde map staan ​​de bestanden over de deelnemers, alleen inclusief SNP's (snips!).

HapMap Project README bestandslink

HapMap Projectvolgorde datalink (fase 2)


rs id is referentie SNP-cluster-ID kijk hier. Het is eigenlijk een unieke identificatie.

Deze tabel is afkomstig uit uw link:

rs positie 0 1 rs11089130 14431347 C G rs738829 14432618 A G rs915674 14433624 A G

De allelcodes zijn de 3e en 4e kolom. Een SNP is een plaats waar een andere base wordt gevonden in verschillende versies van hetzelfde gen (verschillende versies van genen zijn allelen). Voor een bepaalde SNP worden de verschillende allelen de 0 of de 1 allel. Dus in de tabel heeft de eerste SNP, rs11089130, twee allelen: allel 0 heeft een C op de SNP-positie (14431347) terwijl allel 1 heeft een G op die positie. De allelcode impliceert geen biologische betekenis.

Ik weet niet zeker wat er zou gebeuren als er drie allelen waren bij een SNP, maar vermoedelijk zou er dan ook een SNP gecodeerd zijn als 2.

Bewerking: Allel 0 is het residu van het referentiegenoom. Allel 1 is het residu dat wordt bestudeerd, de SNP.


Tips voor het formatteren van veel GWAS Summary Association Statistics-gegevens

Openbaar beschikbare GWAS-samenvattingsgegevens over associatiestatistieken zijn in allerlei formaten. De diversiteit aan gegevensformaten is vaak toe te schrijven aan de aard van de fenotypes die worden bestudeerd (bijv. case-control-eigenschap / kwantitatieve eigenschappen) en de software die wordt gebruikt om de analyse uit te voeren. Voordat u echter post-GWAS-analyses uitvoert, moet u gegevens in verschillende formaten converteren naar hetzelfde formaat. Deze pagina is bedoeld om enkele tips, richtlijnen en protocollen te geven die ik handig vind voor het opmaken van veel GWAS-samenvattende statistische gegevens om valkuilen in post-GWAS-analyses te helpen voorkomen.

Stap 0 - Hernoem, datum en noteer de publicatie van de gegevens

GWAS-gegevensbestanden met samenvattingsstatistieken hebben vaak bestandsnamen die ook overal voorkomen. Voordat we de details van de gegevens onderzoeken, raden we aan om een ​​afkorting voor het fenotype te bedenken en de bestanden op een consistente manier te hernoemen. Dit zal je leven op de lange termijn een stuk gemakkelijker maken. Voor de GWAS-overzichtsstatistieken van schizofrenie 2014 kan de bestandsnaam bijvoorbeeld SCZ_2014.txt zijn, en voor de GWAS's voor reumatoïde artritis van 2014 in meerdere populaties zou men de bestanden kunnen hernoemen als RA_ASN_2014.txt , RA_EURO_2014.txt en RA_TE_2014.txtxtxtxt. , waarbij TE staat voor transetnisch. We raden ook aan om bij elke GWAS-overzichtsstatistieken een leesmij-document op te nemen om de publicatie van de GWAS-samenvattingsgegevens vast te leggen, en de URL waarvan de gegevens zijn gedownload. En de bestandsnamen van het readme-document kunnen zoiets zijn als SCZ_2014.readme . Ten slotte raden we aan om alle leesmij-bestanden en vers gedownloade bestanden met samenvattingsstatistieken op te slaan in een map met de naam 0_Raw.

Stap 1 - Kijk naar de koptekst en zoek uit wat er ontbreekt

De kop van GWAS-gegevensbestanden met samenvattingsstatistieken geeft aan welk type informatie van de GWAS beschikbaar en niet beschikbaar is in het bestand. Het volgende is een lijst van enkele typische koppen. Als de informatie die men nodig heeft voor hun analyses niet in de kop staat (bijvoorbeeld steekproefomvang, aantal gevallen en controles, enz.), Dan zal men de GWAS-paper moeten lezen om deze informatie te extraheren.

Opmerking over de opbouw van het genoom

Veel vers gedownloade GWAS-samenvattingsstatistieken bevatten ook alleen SNP-ID's en geen chromosoomnummer of basenpaarposities. In sommige gevallen gebruiken sommige oude GWAS's vóór 2012 HG18 (NCBI B36) voor basenpaarposities. Voor dit soort gegevens moet men de SNP-ID's vergelijken met de legende van het referentiepaneel om het chromosoomnummer en de basenpaarposities te achterhalen.

Opmerking over monstergrootte

Merk op dat sommige GWAS's de totale steekproefomvang rapporteren, die zowel monsters in de ontdekkingsfase als monsters in de replicatiefase omvat. Het is echter vaak zo dat de steekproefomvang van de GWAS-ontdekkingsfase degene is die overeenkomt met de gegevens.

Stap 2 - Maak uw eigen headers en bereken de relevante informatie

De meeste GWAS-overzichtsstatistieken bevatten niet alle informatie die u nodig heeft. Het is bijvoorbeeld heel vaak het geval dat het GWAS-samenvattingsstatistiekenbestand geen Z-scores bevat, maar eerder effectgrootte (odds ratio voor case-control-kenmerken) en de standaardfout, en sommige GWAS's bieden p-waarden en effectgrootte. Aangezien Z-score-informatie wordt gebruikt in veel op samenvattingsgegevens gebaseerde software zoals LDSC en HESS, wordt het ten zeerste aanbevolen om Z-score-informatie op te nemen in het opgemaakte bestand met samenvattingsstatistieken. Over het algemeen is het erg handig om altijd de volgende 7 kolommen in het opgemaakte bestand met samenvattingsstatistieken te hebben. Andere informatieve informatie zoals allelfrequentie, aantal gevallen en controles kan worden toegevoegd na de eerste 7 kolommen. We raden aan om de verwerkte bestanden met samenvattingsstatistieken op te slaan in een aparte map met de naam 1_Processed .

SNP : SNP-ID (het wordt aanbevolen om alleen SNP's met rs-ID's in de gegevens op te nemen, omdat deze SNP's vaak beter gekarakteriseerd zijn)

CHR: Chromosoomnummer (sommige GWAS-samenvattingsgegevens bevatten SNP's op chromosoom X, Y en MT, maar meestal worden deze SNP's eruit gefilterd tijdens QC)

BP: posities van basenparen (zorg ervoor dat alle opgemaakte samenvattingsstatistieken dezelfde genoomopbouw gebruiken)

A1 : Effect-allel (ook wel risico-allel, referentie-allel, effect-allel, gecodeerd allel, enz.)

A2 : Non-effect allel (soms ook wel alternatief allel genoemd, het andere allel etc.)

Z : Z-score met betrekking tot het effect-allel, d.w.z. als de Z-score positief is, verhoogt het effect-allel het fenotype

N - Steekproefomvang (dit is vaak de steekproefomvang in de ontdekkingsfase, niet de maximale steekproefomvang)

Opmerking over het berekenen van Z-scores

Als effectgrootte en standaardfout zijn opgenomen in het zojuist gedownloade GWAS-bestand met samenvattingsstatistieken, kan de Z-score worden berekend als [ Z = < extover > ]

Als oddsratio en standaardfout zijn inbegrepen, kan de Z-score worden berekend als [ Z = ) over > ]

Als p-waarde en effectgrootte (odds ratio) beschikbaar zijn, kan de Z-score worden berekend als [ Z = ext imes |Phi^<-1>(p / 2)| ] of [ Z = ekst imes |Phi^<-1>(p / 2)| ], waarbij (Phi^<-1>) de inverse cumulatieve verdelingsfunctie van de normale verdeling is.

Stap 3 - Kwaliteitscontrole en lijn de allelen uit met een referentiepaneel

Bij stap 2 moeten alle vers gedownloade GWAS-samenvattingsstatistieken in een uniform formaat zijn waarmee u gemakkelijk kunt werken. De volgende stap is het uitvoeren van kwaliteitscontrole op de SNP's, d.w.z. het verwijderen van SNP's die uw analyses kunnen verknoeien. We raden aan om de volgende 8 filterstappen toe te passen:

Alle niet-biallele SNP's verwijderen

Verwijder alle SNP's met streng-dubbelzinnige allelen (SNP's met A/T-, C/G-allelen)

SNP's verwijderd zonder rs-ID's, dubbele rs-ID's of basenpaarpositie.

SNP's verwijderd die niet in 1000 Genomes Project Phase 3 (of een ander referentiepaneel dat men gebruikt)

SNP's verwijderd waarvan de basenpaarposities of allelen niet overeenkomen met die in 1000GP Phase 3 (of een ander referentiepaneel)

Verwijderde SNP's met imputatie-INFO kleiner dan 0,9 (als INFO is opgegeven)

Alle SNP's op chromosoom X, Y en MT . verwijderd

SNP's verwijderd met steekproefomvang 5 standaarddeviaties verwijderd van het gemiddelde. (Dit is om te waken tegen scenario's waarin sommige SNP's werden gegenotypeerd op een gespecialiseerde reeks voor genotypering en aanzienlijk meer monsters hebben dan de rest.)

De resultaten van deze stap kunnen worden opgeslagen in een map met de naam 3_Filtered .

Naast SNP-filtering is het ook handig om de allelen (effect-allel en niet-effect-allel) van elke SNP van alle verwerkte GWAS-samenvattingsstatistieken uit te lijnen met die van een referentiepanel, zodat elke GWAS-samenvattingsstatistieken hetzelfde effectallel hebben en non-effect allel. In het proces kan het nodig zijn om het teken van Z-scores om te draaien (ook effectgrootte, log odds ratio, enz.) als de allelen van een SNP in de overzichtsstatistieken het omgekeerde zijn van de allelen van het referentiepaneel. Als een SNP bijvoorbeeld effect/niet-effect allelen heeft als A/G en een Z-score van 1,0 in de overzichtsstatistieken, en effect/niet-effect allelen als T/C in het referentiepaneel, dan verandert men de allelen A /G tot T/C en Z-score tot -1,0.

Stap 4 - Ervoor zorgen dat alles correct wordt gedaan

Na stap 3 zou het bestand met samenvattingsstatistieken goed moeten zijn voor het uitvoeren van LDSC. Om er zeker van te zijn dat het bestand met samenvattingsstatistieken correct is geformatteerd, zou men cross-trait LDSC kunnen uitvoeren om te zien of de genetische correlatie tussen een paar eigenschappen binnen de verwachting ligt. Het is ook nuttig om uw laboratoriumgenoten over de pijplijn te laten gaan om zeker te zijn van correctheid.

Conclusie

Het formatteren van GWAS-samenvattingsstatistieken kan een ontmoedigende taak zijn, gezien de verschillende soorten gegevensformaten die er zijn en het aantal valkuilen dat uw analyse kan verknoeien. Op deze pagina vindt u enkele tips, persoonlijke ideeën om met gegevensopmaak om te gaan en verrassingen te voorkomen.


Superscripts

Soms wordt een letter gebruikt als de naam van een gen en kunnen superscripts deze wijzigen om de verschillende allelen aan te geven. Een veelgebruikte code van één letter voor een allelische reeks is &ldquol& quot. Rode bloedcellen kunnen hun celmembranen laten wijzigen door suikertags die aanleiding geven tot onze bloedgroep. Een allel van l geeft aanleiding tot bloedgroep A en wordt daarom IA . Een enzym gecodeerd door ik B wijzigt suikers om bloedgroep B te creëren. Een heterozygoot I A I B demonstreert beide suikertags omdat die allelen tot uiting komen en ze zijn codominant. Mensen met bloedgroep O hebben alleen allelen voor de l gen dat niet werkt en daarom recessief is en dat ze de extracellulaire suikertags niet wijzigen. Omdat het recessief is, zijn individuen homozygoot voor l: zij zijn ii. Hoofdstuk 13, Sectie 7 bevat meer details over deze allelenreeks.

Soms wordt een superscript &ldquoplusteken&rdquo gebruikt om het wildtype allel aan te duiden. Men zou het symbool kunnen gebruiken W + om een ​​wild-&verlegen allel aan te duiden dat de vleugelgroei bevordert. Merk op dat de generieke "ldquowing" gennaam een ​​best practice is en noem het gen naar het mutante fenotype! Een vleugelloze mutant zou zijn W ‐ . Je moet nooit een &ldquo+&rdquo gebruiken en de hoofdlettergebruik verschuiven, tenzij je te maken hebt met een speciaal geval zoals de codominantie in het bloedgroepvoorbeeld hierboven. De hoofdstad &ldquol& rdquo letter geeft aan dat het dominant is aan & ldquol& quot. Het superscript A en B voor de codominante allelen geven aan dat de dominante allelen van elkaar verschillen.

Figuur A1.3: Relatie tussen genotype en fenotype voor drie allelen van het humane ABO-gen. De I A en I B allelen vertonen co-dominantie. Het I A-allel is volledig dominant over het i-allel. Het I B-allel is volledig dominant over het i-allel. (Original-Deholos -CC:AN &ndash van Hoofdstuk 1)

Superscripts kunnen symbolen, een enkele letter of veel letters zijn. Ze wijzigen de gennaam alleen in de symbolen in superscript: de letters van normaal formaat zijn identiek tussen hen (zie tabel 1). Dit betekent dat Abc + en abc zouden verschillende genen zijn (d.w.z. niet allelisch) Abc + en Abc zijn allelen, net als abc + en abc. Merk op dat een superscript niet verplicht is voor alle allelen van dat gen, afhankelijk van de conventie.

Allelen van bacteriële genen worden meestal aangegeven met een superscript + of -­. Een bacterieel allel dat een enzym aanmaakt dat methionine maakt, is bijvoorbeeld: leerde kennen + , en een defect allel van dat gen is leerde kennen -&verlegen .

Tabel 1: voorbeelden van genen die een superscript-modifier gebruiken.
witte apr of witte abrikoos Een allel van de wit gen met een &ldquoabrikoos&rdquo-fenotype
Abc + Abc Twee allelen voor de Abc gen (respectievelijk wildtype en mutant). Merk op dat het mutante allel dominant is.
met wie + w a met wie Drie allelen in een reeks voor het w-gen. De eerste is wildtype, de tweede twee zijn verschillende mutante allelen.
bio + bio- Een wildtype allel van een biotinegen en zijn recessieve tegenhanger. Dit is waarschijnlijk een bacterieel gen vanwege de conventie.


Allel frequentie

De allelfrequentie (of genfrequentie) is de snelheid waarmee een specifiek allel binnen een populatie voorkomt. In populatiegenetica wordt de term evolutie gedefinieerd als een verandering in de frequentie van een allel in een populatie. Frequenties variëren van 0, aanwezig in geen individuen, tot 1, aanwezig in alle individuen. De genenpool is de som van alle allelen van alle genen in een populatie.

Als we het ABO-bloedgroepsysteem als voorbeeld gebruiken, is de frequentie van een van de allelen, bijvoorbeeld I A , het aantal kopieën van dat allel gedeeld door alle kopieën van het ABO-gen in de populatie, d.w.z. alle allelen. Allelfrequenties kunnen worden uitgedrukt als een decimaal of als een percentage en tellen altijd op tot 1 of 100 procent van de totale populatie. In een steekproefpopulatie van mensen kan de frequentie van het IA-allel bijvoorbeeld 0,26 zijn, wat zou betekenen dat 26% van de chromosomen in die populatie het IA-allel dragen. Als we ook weten dat de frequentie van het IB-allel in deze populatie 0,14 is, dan is de frequentie van het i-allel 0,6, wat we verkrijgen door alle bekende allelfrequenties af te trekken van 1 (dus: 1 &ndash 0.26 &ndash 0.14 = 0.6) . Een verandering in een van deze allelfrequenties in de loop van de tijd zou een evolutie in de populatie betekenen.


Polygene eigenschappen

Polygene eigenschappen zijn eigenschappen die door meer dan één gen worden bepaald. Dit type overervingspatroon omvat veel mogelijke fenotypen die worden bepaald door interacties tussen verschillende allelen. Haarkleur, huidskleur, oogkleur, lengte en gewicht zijn allemaal voorbeelden van polygene eigenschappen. De genen die bijdragen aan dit soort eigenschappen hebben een gelijke invloed en de allelen voor deze genen zijn te vinden op verschillende chromosomen.

Een aantal verschillende genotypen komen voort uit polygene eigenschappen die bestaan ​​uit verschillende combinaties van dominante en recessieve allelen. Individuen die alleen dominante allelen erven zullen een extreme expressie van het dominante fenotype hebben. individuen die geen dominante allelen erven zullen een extreme expressie hebben van het recessieve fenotype individuen die verschillende combinaties van dominante en recessieve allelen erven, zullen verschillende gradaties van het intermediaire fenotype vertonen.


Voorbeeld van allelfrequentie

In een vereenvoudigd scenario zijn p en q de enige allelen in de populatie en ontwikkelt de populatie geen mutaties. Als dit het geval is, moet de som van de allelfrequenties van p en q gelijk zijn aan 1 omdat bij slechts twee allelen de gecombineerde frequentie gelijk moet zijn aan 100%.

Q . vinden

Overweeg in dit voorbeeld een hypothetische populatie konijnen. Een bepaald recessief allel bij konijnen zorgt ervoor dat de konijnen wit zijn, terwijl alle andere konijnen zwart zijn. Alleen een konijn met twee recessieve allelen voor een bepaald gen zal wit zijn. Als we de populatie observeren, zien we dat er 16 witte konijnen en 84 zwarte konijnen zijn.

Omdat we al weten wat q 2 is door simpelweg de populatie te observeren, kunnen we de vierkantswortel van q 2 nemen om q te vinden. In dit geval bevatten de witte konijnen twee recessieve allelen. De witte konijnen zijn goed voor 16 van de 100 totale konijnen. In een percentage is dit precies 16%, ofwel 0,16. Dit getal is gelijk aan q 2 . Als we de vierkantswortel nemen, vinden we dat de allelfrequentie van q (wit) 0,4 of 40% is.

P . vinden

Zodra we q kennen, kunnen we q eenvoudig van 1 aftrekken om de frequentie van p te vinden. Dit werkt alleen in een vereenvoudigd scenario, waarbij p en q de enige allelen zijn en 100% van de totale allelen uitmaken. In dit geval zal p gelijk zijn aan 60% van de allelen, of 0,6.


Al vroeg nadat we de ExAC-dataset voor het publiek hadden vrijgegeven, voerde Nicole Deflaux bij Google een mooie analyse uit waarbij chromosoom 14 werd geïdentificeerd als een hotspot van multi-allele varianten (volledige analyse hier: https://github.com/deflaux/codelabs/blob/ exac/R/ExAC-Analyse/ExAC-Analyse.md). We wilden de bron van dit probleem opsporen, dus gebruikten we ggbio om de multi-allelen in het genoom in kaart te brengen.

Installeer ggbio als het nog niet is geïnstalleerd:

Gebruik vervolgens het genome_plotting.R-script waarin we functies hebben geschreven om de dichtheid van multi-allelische varianten (voorlopig beperkt tot quad-allelisch en hoger) per kilobase over het genoom te berekenen en te plotten.

De 2 regio's die in lichtblauw zijn gemarkeerd, zien er interessant uit (chr14 zoals eerder, evenals chr2), dus we kunnen in die regio's graven. De top 10 regio's gerangschikt op frequentie zijn:

Als we deze opzoeken, zullen we zien dat deze regio's immunoglobuline kappa (IGK, chr2), zwaar (IGH, chr14), lambda variabel (IGLV, chr22) en samenvoeging (IGKJ1, chr2) omvatten, evenals enkele moeilijke -to-call regio's van het genoom. In ExAC hebben we een kolom toegevoegd die aangeeft of een variant in deze 10 regio's van het genoom valt, slecht genoemd bij gebrek aan een betere zin, en deze varianten worden vervolgens uitgesloten van de hoogwaardige gebruiksvarianten.


Resultaten

Fenotypische evaluatie van de mapping populatie

De 151 F1 individuen van de segregerende populatie en hun ouderlijnen werden gefenotypeerd voor de tijd van volledige bloei, zoals aangegeven in S2 Fig, die de timing van bloei toont in dagen na 1 januari. De lengte van de bloeiperiode varieerde aanzienlijk tussen 10 dagen (2016) en 17 dagen (2012) [23]. Het grootste deel van de individuen binnen de populatie bereikte de volle bloei in ongeveer het eerste derde deel van de bloeiperiode. Binnen de karteringspopulatie wordt vroege bloei geërfd van het maternale genotype GF.GA-47-42.

Identificatie van FTC-kandidaatgenen

Functionele gegevens van EEN. thaliana en andere modelorganismen werd systematisch uitgebuit om FTC-kandidaatgenen in de Vitis referentie genoomsequentie. Er werden meer dan 500 homologe genen geïdentificeerd die zijn verdeeld over alle chromosomen, inclusief het niet-verankerde, willekeurige deel van de sequentie (S5-tabel). Sommige genen ontbreken in de CRIBI-annotaties, maar waren wel opgenomen in de eerdere annotaties, geleverd door Genoscope. Voor zover wij weten, is de meerderheid van de geïdentificeerde FTC-kandidaatgenen niet geanalyseerd of zelfs genoemd in een eerdere publicatie. Zoals verwacht werd een verrijking gevonden van de FTC-kandidaatgenen (75) geannoteerd in de FTC QTL-regio's. In verschillende gevallen identificeerden we meer dan één homologe sequentie in het wijnstokgenoom met een enkele kopie Arabidopsis vraag. In deze gevallen is niet noodzakelijk het gen met de hoogste sequentieovereenkomst het gen in het FTC QTL-gebied, noch het gen met de hoogste expressie in aan bloei gerelateerde weefsels. bijvoorbeeld de RAV genen VvRAV1b en VvRAV1c bevinden zich in de QTL-regio's op respectievelijk chr 1 en chr 14, terwijl de RAV1a bevindt zich op chr 11 buiten elke FTC QTL.

Veel van de FTC-kandidaatgenen zijn transcriptiefactoren die betrokken zijn bij bloemontwikkeling en morfogenese, zoals leden van de AP2/EREBP-familie [47] en homeodomein-eiwitten [48]. Ongeveer acht MYB-transcriptiefactoren die deelnemen aan celcycluscontrole in veel levende taxa [49] behoorden tot de geïdentificeerde FTC-kandidaatgenen in Vitis. Verschillende andere eiwitfamilies behoorden tot de FTC-kandidaatgenen, zoals een tiental GRAS- en FRIGIDA-eiwitten die betrokken zijn bij bloeitijd en plantontwikkeling. FRIGIDA-eiwitten zijn nodig voor de regulering van de bloeitijd door upregulatie FLC uitdrukking. Allelische variatie op de FRIGIDA-locus is een belangrijke determinant van natuurlijke variatie in het tijdstip van bloei [50]. De GRAS-familie (GAI, RGA, SCR) is een zeer belangrijke familie van eiwitten die betrokken zijn bij de bloei in wijnstokken. GRAS-eiwitten nemen deel aan GA-signalering, die tal van aspecten van plantengroei en -ontwikkeling beïnvloedt [51]. Opmerkelijk zestien SQUAMOSA PROMOTER BINDING PROTEIN (SBP)-domein eiwitten, die van andere planten bekend zijn als transcriptionele activatoren die betrokken zijn bij een verscheidenheid aan processen zoals bloem- en fruitontwikkeling, plantarchitectuur, GA-signalering en de controle van vroege bloemontwikkeling [52 ] zijn kandidaten.

Allele fasering

Uit onze uitgebreide lijst van V. vinifera FTC-kandidaten De 72 meest veelbelovende genen werden gekozen als doelwitten voor amplicon-sequencing (S6-tabel), waarvan er vele zich bevinden in bloeigerelateerde QTL-regio's op chr 1, 14 en 17 [23]. De gemiddelde leesdiepte van de dekking was 286 (SD: 276) en voor de meeste monsters was de sequentiediepte tussen 100 en 300. Varianten in de geanalyseerde lijnen werden gedetecteerd met een dichtheid tussen 1,02 en 1,63 varianten per 100 bp, waarvan de meeste SNP's waren.

Om bepaalde allelen van de kandidaatgenen waarvan de sequentie is bepaald te koppelen aan het bloeitijd-fenotype, moesten de twee allelen van genen worden gereconstrueerd uit de mix van fragmenten waarvan de sequentie was bepaald. De fasering van allelen werd uitgevoerd op basis van polymorfe plaatsen tussen de twee allelen van een gen.

Afgezien van recombinatiegebeurtenissen, moet een ouder-nakomelingpaar één haplotype delen voor elk chromosoom en dus één identiek allel voor elk gen. Daarom kunnen Mendeliaanse beperkingen worden toegepast om de verkregen allelspecifieke sequentie te valideren. Allelen van de gekozen 72 bestudeerde doelwitgenen konden in 46 gevallen worden geïdentificeerd (S6 Table S1-bestand).

In 23 gevallen konden vier verschillende allelsequenties worden gevonden, drie allelsequenties in 18 gevallen, twee in vier gevallen en in één geval (VIT_217s0000g00150 VvFL) slechts één allelsequentie, wat betekent dat alle individuen van de populatie homozygoot waren voor de respectieve locus. Dit past bij de verwachting, aangezien grapevine zeer heterozygoot is. Het aantal allelsequenties is afgeleid uit regio's van de genen waarin fasering is uitgevoerd. De lengtes van de gefaseerde intervallen lagen tussen 204 en 8.285 bp (S6-tabel).

Correlatieanalyse van een allel en het bloeitijdfenotype

Allelsequenties van het nageslacht van de mapping-populatie GF.GA-47-42 x 'Villard Blanc' werden vergeleken met de allelsequenties van de ouderlijnen om het overervingspatroon binnen de populatie voor elk gen te bepalen. Om allelen te vinden die correleren met het fenotype van bloeitijd, werd een correlatieanalyse uitgevoerd tussen de gefaseerde allelen van FTC-doelgenen en bloeitijdfenotypes. Er werden verschillende sets fenotypische gegevens gebruikt. Voor de jaren 1999, 2009-2016 is een correlatieanalyse uitgevoerd met dagen na 1 januari van het betreffende jaar. Bovendien werden voor de jaren 2011-2016 waarden van geaccumuleerde temperatuur boven 3°C vanaf 1 november van het voorgaande jaar en globale straling in KWh/m 2 vanaf 1 januari in overweging genomen.

Na de reconstructie van overervingspatronen binnen de ouderlijnen en de 35 geanalyseerde F1 individuen van de mapping populatie GF.GA-47-42 x 'Villard Blanc' door middel van de amplicon-sequencing-benadering en daaropvolgende bio-informatische analyse, het aantal individuen dat elk van de allelen herbergde, werd bepaald en een correlatieanalyse tussen allelen van FTC-doelgenen en de bloeitijd fenotype werd uitgevoerd voor 43 genen. Een correlatie tussen allelen en bloeitijd kon worden waargenomen voor verschillende genen op chr 1, 4, 14, 17, 18 en binnen niet-toegewezen contigs. Correlatiewaarden verschilden afhankelijk van het feit of dagen, geaccumuleerde temperatuur of globale straling werden gebruikt als fenotypische gegevens. Als voorbeeld toont Fig. 2 allelcombinaties in de ouderlijnen van de populatie GF.GA-47-42 x 'Villard Blanc' en de p-waarden van de correlatie van allelen die uniek zijn voor een van de lijnen. Waarden gelijk aan en lager dan 0,05 werden als significant beschouwd en hoe lager de p-waarde, hoe hoger de correlatie. In totaal kon voor 16 FTC-doelgen-allelen een significante correlatie worden gevonden met ofwel een vroeg- of laatbloeiend fenotype.

Gegeven zijn de allelconstituties van de ouderlijnen voor elk gen en de alleltellingen van het amplicon waarvan de F1 individuen. De mediaan van de bloeitijd (berekend vanaf de dagen na 1 januari van de jaren 1999 en 2010-2016) van individuen die de getelde dragen, wordt tussen haakjes gegeven. Hoe hoger de waarde van de mediaan, hoe later het bloeifenotype van de F1 individuen. Kleurgecodeerd zijn de p-waarden voor de E-allelen en L-allelen in de tot 35 F1 individuen. Significante correlatiewaarden zijn vet en cursief weergegeven. Genen in QTL-regio's zijn grijs gemarkeerd. Verschillen in alleltellingen tussen de jaren zijn te wijten aan ontbrekende datapunten. “E” allelen zijn geërfd van GF.GA-47-42, terwijl “L” allelen afkomstig zijn van ‘Villard Blanc’. "N" betekent dat zowel GF.GA-47-42 als 'Villard Blanc' een of meer allelen delen. "E0": E1 = E2, "L0": L1 = L2, "N1": E1 = L1, "N2": E2 = L2. "N": L2 = E1 of E2 = L1, "Na": E1 = E2 = L1, "Nb": E1 = E2 = L2. „n.d.”: niet bepaald. Verdere uitleg wordt gegeven in S4-tabel.

De L2-allelen, geërfd van de vaderlijke lijn ‘Villard Blanc’, van VvSEP4 (SEPALLATA 4), VvBS2, VvHUA2a, VvRAV1b, en VvGAI1 (chr 1) correleren met late bloei, versterken het belang van de FTC QTL op chr1. De E1-allelen van de twee genen VvWNK6 (V. vinifera ZONDER LYSINE KINASE 6) en VvTM6 (V. vinifera TOMAAT MADS-BOX 6), beide gelokaliseerd op chr 4 en geërfd van de vroegbloeiende moederlijn, bleken sterk te correleren met vroege bloei. De p-waarden berekend uit de mediaan (Fig 2 is p = 0,007 en waarden tot p = 0,003 werden waargenomen voor enkele jaren. Tabel 3 toont de p-waarden van correlatie voor verschillende sets fenotypische gegevens met betrekking tot VvWNK6 en VvTM6. De meeste significante correlaties zijn duidelijk, ongeacht het jaar of de schaal van fenotypering (dagen na 1 januari, geaccumuleerde temperatuur of globale straling). De verschillen in correlatie tussen jaren zijn te wijten aan de seizoensgebonden weersomstandigheden van het betreffende jaar, die zowel de bloeitijd als de lengte van de bloeiperiode beïnvloeden. Een significante correlatie tussen het E1-allel van VvWNK6 en het bloeitijd-fenotype kon in 2016 niet worden waargenomen voor geen van beide dagen na 1 januari, geaccumuleerde temperatuur of globale straling. In 2015 was de correlatie niet significant voor de dagen na 1 januari, maar, zij het slechts in geringe mate, voor de andere twee sets fenotypische gegevens. Andere genen, zoals VvMFT (V. vinifera MOEDER van FT en TFL1) vertoonden een significante correlatie in 2016, maar niet in 2013.

Vergeleken met de referentiesequentie is het E1-allel van VvWNK6 (chr 4) bleek een variatie te bevatten in het terminale exon (SNP op chr4:21997435/C → T) wat leidde tot een aminozuuruitwisseling van threonine naar methionine. Fig 3 toont de verdeling van allelcombinaties voor VvWNK6 tussen individuen van de mapping populatie. Vroege bloei wordt geassocieerd met het E1-allel dat is geërfd van het moederlijke 'Bacchus'-allel van GF.GA-47-42.

De bloeidatum werd geteld in dagen vanaf 1 januari en de gegevens werden vervolgens geclassificeerd volgens zes stadia voor de volgende bloeitijd (1 = zeer vroege bloei 2 = vroege bloei 3 = medium vroege bloei 4 = medium late bloei 5 = laatbloeiend 6 = zeer laatbloeiend). Voor visualisatie werden de bloeiklassen 1 en 2, 3 en 4, en 5 en 6 samengevoegd.

Toepassing van de pijplijn voor amplicon-sequencing in een heterozygote plant voor daaropvolgend markerontwerp

Amplicon-sequencing werd uitgevoerd in 35 F1 individuen en de ouders van de mapping populatie. Om de resulterende allelverdelingen over alle 151 F1 individuen van de mapping populatie GF.GA-47-42 x 'Villard Blanc', werden STS-markers ontworpen op basis van de allelsequenties die een gemakkelijke allelspecifieke genotypering mogelijk maakten. De informatie verkregen uit amplicon-sequencing van de FTC-doelgenen bleek bruikbaar voor zowel deductie van segregatiepatronen als markerontwerp voor het onderzoeken van alleldistributie over de gehele mappingpopulatie. Tabel 4 geeft een overzicht van de segregatiepatronen zoals geanalyseerd voor alle 151 F1 individuen. Van 15 markers vertoonden 12 een segregatiepatroon dat overeenkwam met het segregatiepatroon dat werd verkregen door middel van allelfasering. De markers GAVBInd_019 en GAVBInd_020 zijn niet ontworpen met behulp van de verkregen allelsequenties van GF.GA-47-42 en 'Villard Blanc', omdat geschikte InDels niet beschikbaar waren. Daarom zijn deze markers ontworpen op basis van InDels stroomopwaarts van de gefaseerde regio's. De waargenomen productgroottes kunnen 1-2 bp afwijken van de verwachte vanwege de beperkte nauwkeurigheid van de gebruikte fragmentanalysemethode. Waargenomen en verwachte productafmetingen kunnen afwijken (markeringen GAVBInd_004, GAVBInd_014 en GAVBInd_019) en dus segregatiepatronen, aangezien de meetmethode verschillen in een zeer laag bp-bereik (1-4 bp) niet betrouwbaar kan oplossen. Zie S7-tabel voor meer informatie.

De verwachte gegevens werden verkregen door middel van amplicon-sequencing. De waargenomen gegevens werden verkregen door het analyseren van 151 F1-individuen van de mapping-populatie GF.GA-47-42 x 'Villard Blanc' met STS-markers die zich in de FTC-doelgenen bevonden. ab x cd: vier allelen/beide ouders heterozygoot, hk x hk: 2 allelen/beide ouders heterozygoot, ef x bv: 3 allelen/beide ouders heterozygoot, lm x ll: 2 allelen/ moeder heterozygoot, nn x np: 2 allelen, vader heterozygoot. x: versterking mislukt. Zie S6-tabel voor meer informatie.

Gebruik van de resultaten van markersegregatie over de 151 F1 individuen, werd een correlatieanalyse tussen allelen en bloeitijdfenotypes uitgevoerd. De correlatieresultaten van markeranalyse ondersteunen die van allelfasering (tabel 5). Zie S8-tabel voor meer informatie.

Analyse van genexpressiekinetiek

Variatie in expressie kon worden gedetecteerd in beide tijdvakken 2012/2013 en 2013/2014 voor verschillende FTC-kandidaat- en doelwitgenen bij het testen op tijdspecifieke effecten. Tussen opeenvolgende ontwikkelingsstadia van knopdifferentiatie vóór kiemrust (2 augustus tot 5 september 2013 tijdreeks 1, tabel 2) konden verschillen in expressie worden gedetecteerd voor de MADS-transcriptiefactor VvTM8 evenals het voor eiwitkinase coderende gen VvWNK5. VvTM8 codeert voor een MIKC-transcriptiefactor waarvan: EEN. thaliana homoloog bijTM8 is aangetoond dat het betrokken is bij de specificatie van de identiteit van bloemorgels [25].

In een tijdsverloop van slapende knoppen (BBCH 0) tot na het barsten van de knop toen de bladvorming al was begonnen (BBCH 11-13), bleken 58 van de FTC-kandidaatgenen een BBCH- of ontwikkelingsstadiumafhankelijke expressie te vertonen. Verschillende van deze genen zijn squamosa-bindende eiwitten, MADS- en MYC-transcriptiefactoren waarvan bekend is dat ze de ontwikkeling van bloemen beïnvloeden. De meeste van deze genen vertonen een variatie in genexpressie als gevolg van een opwaartse of neerwaartse regulatie naar ontwikkelingsstadia tijdens de rijping van de bloeiwijze. Om te testen op expressievariatie tussen opeenvolgende ontwikkelingsstadia van knopontwikkeling voordat bloeiwijzestructuren extern zichtbaar worden, werden bloeiwijzen verzameld na knopbreuk uitgesloten van de analyse. Genen met verschillende expressiekinetiek wanneer het tijdsverloop werd uitgebreid met zichtbare bloeiwijzen, zijn genen die een duidelijke variatie vertonen in genexpressie tussen knoppen en bloeiwijze. In totaal werden 67 van dergelijke "bloeiwijzespecifieke genen" geïdentificeerd (S9-tabel).

After excluding inflorescences, several genes were found showing an obvious time-dependent expression. They cluster into two groups: genes upregulated in winter during bud dormancy (Fig 4, upper part) and genes upregulated towards inflorescence development (Fig 4, lower part). Most of these genes encode BZIP-, MADS- or MYC-transcription factors, which regulate other flowering related genes. Downregulation towards bud burst and inflorescence maturation was found for transcription factor genes involved in circadian rhythm such as VvGRP2A (Glycine Rich Protein 2A), VvRVE1 (REVEILLE), VvTICb (TIME FOR COFFEE) en VvELF3 (EARLY FLOWERING3). Moreover, genes coding for transcription factors involved in gibberellic acid (GA) biosynthesis were found to be upregulated during bud dormancy. Numerous other genes like VvHUA2b (ENHANCER OF AGAMOUS), which is involved in the repression of floral transition and flower development, were found to be upregulated during bud dormancy.

Time series from December 20 th , 2012 to May 3 rd , 2013. LFC-threshold: 2 = expression fourfolded, -2 = expression quartered. Shown are rlog transformed counts.

For most of the genes (Fig 4) an up- or downregulation in expression is observed between the first and the second time point during bud dormancy. Many genes also show an up- or downregulation in expression between the third and the fourth time point when swelling buds are developing.

The gene expression for the amplicon sequenced target genes in buds and inflorescences is shown in Fig 5. Some genes are not expressed at all, while some are only expressed before dormancy or in inflorescence tissue. However, up- or downregulation in gene expression mainly occurs when swelling buds develop. Genes involved in floral development, such as VvSEP3 en 4, VvAP1, en VvTM6 show an increased expression in developing inflorescences. VvTM6 is a MADS-box B-class floral identity gene influencing the development of petals and stamen [53,54]. In Vitis all three B-class floral homeotic genes (VvPI, VvAP3 en VvTM6) are highly expressed in inflorescences (S3 Fig).

LFC-threshold: 1 = expression doubled, -1 = expression halved. rlog transformed counts are shown.

For three selected time points, bud/inflorescence samples and the corresponding leaf from the same node were collected and differential gene expression was analyzed between leaves and the associated bud/inflorescence. Fig 6 shows a heatmap of the FTC candidate genes with expression differences between leaves and buds/inflorescences. With few exceptions, all genes with expression differences between leaves and buds or inflorescences are downregulated or not expressed in leaves.

LFC-threshold: 2 = expression fourfolded, -2 = expression quartered. Shown are rlog transformed counts.


How is Xcode Life Report different from the Promethease report?

Phew..and all you wanted was some simple tips to align your lifestyle to your genes, you got a lesson in Biostatistics instead.

Xcode Life, on the other hand, includes expert-curated references from several large databases and leading scientific journals to name a few, to curate the variant annotations. The information is then organized systematically into topical reports such as Nutrition, Health, Fitness, Skin, Allergy, Ancestry, etc. Each report is further organized into traits, which provide actionable insights into your genetic type along with specific recommendations for you. Xcode reports are easily readable, understandable and implementable. The core philosophy of Xcode reports, in contrast with Promethease, is to empower the user with actionable genetic information that they can use to enhance health and wellbeing. Each report is reasonably priced at around $20 additionally, there are package discounts if the user buys multiple reports together.

Daar heb je het! If you are someone who wants to satisfy their curiosity and not really looking for anything specific, then Promethease may be the way to go. Even still, you will likely be left scratching your head. But, if you want specific, organized and actionable insights from your genetic data about your health and wellbeing, then you certainly must try the Xcode Health reports.


Here is a solution using the Bioconductor package biomaRt . It is a slightly corrected and reformatted version of the previously posted code.

Users are encouraged to read the comprehensive biomaRt vignette and experiment with the following biomaRt functions:

Via Perl you will find it quite easy to build code to query for SNPs.

There is a web browser GUI tool (HERE) for building perl scripts based on which database and dataset you wish to query using Biomart library.

instructies:

Select the database and dataset:

Click on the "perl" button to generate perl code for the Biomart API querying, and copy-paste the code into your perl editor - run it with the SNP rsNumbers of your choice.


6 Answers 6

I wonder if there is a simpler solution recently? (and hopefully, I can solve it within the scope of python. )

EEN simpler solution, I don't know. but this is at least een Python solution using Biopython's ELink method via NCBI's Entrez E-utils.

The Biopython library is flexible enough (they have an in-depth tutorial worth reading) to modify the code below to to fit project-specific needs. For example, the mapping between snp id and gene id is lost with this bulk request method.

This returns a record object

which contains several iterable fields -- 'Link' has a list of the Gene UID's that can be converted to names using ESummary .

An option to preserve discrete mapping, is to loop over each snp id and extract the gene(s):

although I don't endorse the method below, especially for long lists of snps, you may flood the server with too many requests, maybe someone more familiar can comment on request limits or best practices for Entrez


Bekijk de video: 32 SECRET FREE GIFTED MYTHIC BEE EGG CODES IN BEE SWARM SIMULATOR! Roblox (December 2021).