Informatie

GEN-bestandsindeling, SNP's en allelen


Ik heb een paar vragen waar ik geen duidelijk antwoord op kan krijgen, met betrekking tot de.genbestandsformaat en ook biologie in het algemeen.

De.genbestandsformaat specificeert SNP's voor individuen.

Aangezien elke SNP allel A en allel B heeft geassocieerd, neem ik aan dat het bestand alleen Causative SNP's bevat, en geen Linked SNP's, aangezien de eerste in het gen zitten en de laatste niet. Omdat elke SNP in het bestand een geassocieerd gen heeft (eigenlijk genotype, een combinatie van allel A en B). Juist?

SNP geeft a . aan enkel positie in het genoom, dus waarom kan het allel worden geïdentificeerd met een sequentie groter dan één? Of geeft het slechts een beginpunt aan, waarbij elk allel een verschillende lengte kan hebben, die groter kan zijn dan 1?

Allel zou een bepaalde variant van een specifiek gen moeten zijn, maar op andere plaatsen zag ik de definitie "Allelen zijn alternatieve vormen van een bepaalde sequentie.". Het laatste lijkt logischer, als we kijken naar de.genbestand, maar het is in tegenspraak met de eerste verklaring. Dus, wat is de juiste definitie?

BEWERKING:

Na verder onderzoek kwam ik tot bevindingen, gedemonstreerd in een voorbeeldrij voor.genhet dossier:

--- rs200405949 10023 CCAA C 0,249 0,745 0,007 0,005 0,84 0,155…

---- chromosoomnummer, dat ontbreekt omdat het kan worden afgeleid uit de bestandsnaam, behorend bij elk chromosoom

rs200405949- ID van de SNP - een enkele nucleotide die kan variëren tussen monsters/mensen; er zijn meestal slechts twee mogelijke variaties, maar in zeldzame gevallen is er een derde of zelfs vierde - die worden genegeerd in.gen?

10023- allelenpaar (basenpaar) coördinaat/positie binnen het genoemde chromosoom. Ofwel zijn zowel het major- als het minor-allel gemaakt van een enkel nucleotide (in welk geval de SNP-coördinaat/positie binnen het genoemde chromosoom zou kunnen samenvallen met deze positie), of een van de allelen zal meer dan één nucleotide hebben en het andere allel zal het hetzelfde als het eerste nucleotide van het voormalige allel - omdat we maar één afzonderlijke sequentie nodig hebben en alle andere combinaties van dezelfde nucleotidelengte automatisch het andere allel zijn?

CCAA- (meestal?) majeur allel - het meest voorkomende allel (specifiek in deze context, een enkele nucleotide of een sequentie van nucleotiden) voor een bepaalde SNP (of in de buurt ervan, dwz op een of andere manier ermee verbonden) IN het betreffende cohort, dwz de cohort zijnde alle steekproeven/mensen in het experiment/.genbestand (het aantal samples is dus gelijk aan het aantal tripletkolommen na de 5e kolom en verder). Het komt in meer dan 50% van de gevallen voor VERGELEKEN met een minder belangrijk allel. Vergeleken met het kleine allel beginnen ze allebei met C - zouden ze niet per definitie op deze SNP-positie moeten verschillen? Ook wordt hier meer dan één nucleotide gespecificeerd - waarom? SNP heeft altijd één nucleotide...

C- (meestal?) klein allel - het op één na meest voorkomende allel (specifiek in deze context, een enkele nucleotide). De SNP-site kan bi-allelisch zijn (meestal geplukt/bestudeerd), in welk geval de major en minor allelen de enige mogelijke allelen zijn, maar sommige sites zijn tri- of quad-allelisch - in dat geval hebben we de info niet voor de derde (en vierde) allelvarianten, maar we weten dat ze nog minder vaak voorkomen dan de major en minor allelen?

0.249 0.745 0.007 0.005 0.84 0.155…- elk volgend triplet van waarden geeft dan de waarschijnlijkheid aan van respectievelijk homozygote CCAA/CCAA, heterozygote CCAA/C en homozygote C/C-genotypen (allelparen) bij deze SNP voor respectievelijk één monster/persoon (elk allel is aanwezig op een van de twee kopieën van het genoemde chromosoom, hetzij moederlijk of vaderlijk). Als een van de drie waarden een waarde 1 heeft en de andere twee een 0 hebben, denk ik dat deze werkelijke SNP (op de een of andere manier) is getest, dus we kunnen 100% zeker zijn welk allelpaar het is, en zo niet, dan waren de kansen op de een of andere manier afgeleid (bijvoorbeeld van andere, op de een of andere manier verwante SNP's misschien). Wat als ze optellen tot minder dan één? Of zelfs wat als alle drie de waarden 0 zijn?

Zijn mijn conclusies correct? En hoe zit het met de open vraag?


De definitie vanallelhangt af van de context.

Als je naar het DNA van een enkele persoon kijkt, heb je meestal twee exemplaren van elk autosomaal chromosoom. Elk exemplaar heet anallel. Als je weet dat je naar de sequentie op een specifieke positie kijkt, kun je zeggen dat een van de twee basen zich op het ene allel bevindt en de andere base op het andere allel.

Daarnaast is er een definitie van:allelals je kijkt naar een groot aantal personen of een hele populatie. Hier bel je eenallel"als alternatieve vormen van een bepaalde reeks".


Van wat ik kon vinden de.genbestandsformaat voor SNP's is ontwikkeld voor het IMPUTE2-programma en is over het algemeen bedoeld als een flexibel bestandsformaat voor SNP-gegevens. De beschrijving van het bestandsformaat zou hier moeten worden gedocumenteerd (meerdere pagina's die naar die link verwijzen), helaas is die link verbroken / de site is verwijderd. Ik vond echter enkele andere beschrijvingen van het formaat:

In het GEN-formaat wordt elke SNP weergegeven als een set van drie kansen die overeenkomen met de allelparen AA, AB, BB.

vanaf hier

Het genfile bevat voorspellerwaarden, één rij per voorspeller.
--gen-skip geeft aan hoeveel koprijen (meestal 0 of 1);
--gen-headers geeft aan hoeveel kopkolommen (meestal 0 tot 5).
--gen-probs moeten 0, 1, 2, 3 of 4 zijn:
0 - haplotypes - voorspellerwaarden moeten "0 0", "0 1", "1 0" of "1 1" zijn
1 - doseringen - voorspellers geven het (verwachte) aantal A-allelen
2 - twee probs - geeft de kans om AA of AB . te zijn
3 - drie probs - bieden kansen om AA, AB of BB . te zijn
4 - vier probs - bieden kansen om AA, AB, BB of NA te zijn, waarbij A en B de A1- en A2-allelen zijn

vanaf hier

Zoals finswimmer al in zijn antwoord schreef, is het erg belangrijk om duidelijk te zijn over wat in de context van SNP's als een allel wordt beschouwd. Voor de.genbestandsformaat dit is de identiteit van de basis op een bepaalde (SNP) positie en aangezien mensen een diploïde genoom hebben, kan het allel van een specifiek individu een van de drie versies zijn (meestal AA, AB & BB genoemd).

Wat betreft je specifieke punten:

Aangezien elke SNP allel A en allel B heeft geassocieerd, neem ik aan dat het bestand alleen Causative SNP's bevat, en geen Linked SNP's, aangezien de eerste in het gen zitten en de laatste niet. Omdat elke SNP in het bestand een geassocieerd gen heeft (eigenlijk genotype, een combinatie van allel A en B). Juist?

  • De allelen in de.genbestand verwijzen naar de respectieve SNP's, niet naar genen.
  • Er is geen reden om aan te nemen dat een gegeven.genbestand bevat alleen bepaalde SNP's; als dit het geval is, ligt dit niet aan het gegevensformaat.
  • De SNP's in a.genbestand hoeven over het algemeen niet aan een gen te worden gekoppeld.

GEN-bestandsindeling, SNP's en allelen - Biologie

Bij genetische associatieanalyse is allelcoderingsdiscordantie een veelvoorkomend probleem waar veel onderzoekers mee worstelen, vooral wanneer twee verschillende groepen resultaten vergelijken of meta-analyses tussen cohorten uitvoeren. Dit probleem doet zich voor tussen verschillende mensen en verschillende computeralgoritmen hebben de neiging om verschillende allelcoderingsschema's te gebruiken: sommige gebruiken ACGT-allelen op basis van de voorwaartse streng van het menselijk genoom, sommige gebruiken Illumina's TOP-allelen en sommige gebruiken Illumina's AB-allelen. Deze software is geschreven om de allelcoderingsschema's om te zetten, zodat resultaten van verschillende groepen met elkaar vergelijkbaar zijn. Het invoerbestand voor dit programma is een BIM-bestand dat is gegenereerd door het PLINK-programma, omdat het bestand een eenvoudig formaat heeft en gemakkelijk kan worden gemanipuleerd. Als de gebruiker in plaats daarvan een PED-bestand heeft, is het gemakkelijk om het naar een BIM-bestand te converteren met PLINK en vervolgens terug te converteren naar een PED-bestand.

Hieronder beschrijf ik kort een aantal veelgebruikte allelcoderingsschema's. Laten we, om de zaken begrijpelijker te maken, eerst kijken naar een screenshot van dbSNP. Zoek eenvoudig "rs1004491" in dbSNP en klik op het zoekresultaat, en dit scherm zal verschijnen. Het vertelt dat de SNP rs1004491 is samengesteld op basis van ongeveer een dozijn individuele inzendingen (met ss-ID) van verschillende sites. De SNP is toegewezen aan NCBI build 36, met het refSNP-allel als C/T in dbSNP, dat zich in de voorwaartse streng bevindt. Je zult ook opmerken dat hoewel de overgrote meerderheid van de bronnen aangeeft dat de voorwaartse streng gelijk is aan de BOTTOM-streng, één bron (van de Illumina Human1-array) anders aangeeft, dus het is waarschijnlijk een verkeerde annotatie van Illumina (ook al was Illumina de uitvinder van het TOP/BOTTOM-concept). Dit soort fouten komen in de praktijk veel voor.

- forward allel

Dit is het allel waar de meeste mensen aan zouden moeten werken. Het verwijst naar het allel in de voorwaartse streng in een referentiegenoom. Verschillende versies van referentiegenomen hebben echter de neiging om te verschillen op specifieke locaties met gemeenschappelijke SNP's, bijvoorbeeld als GRCh37 een klein allel heeft in een SNP in de referentiestreng, heeft GRCh38 de neiging dit allel terug te veranderen in hoofdallel (ik heb veel voorbeelden gezien zoals dit al), dus het voorwaartse allel zou idealiter altijd moeten worden gekoppeld aan de genoomopbouw om een ​​SNP uniek te identificeren. Helaas zeggen de meeste mensen alleen "forward strand" en begeleiden ze deze uitspraak nooit met een genoomopbouw.

Merk op dat ik in april 2017 dit artikel heb gewijzigd om uitleg toe te voegen voor het voorwaartse allel. De GenGen-software in GitHub zelf werkte de afgelopen jaren correct op forward-allelen, maar ik heb de documentatie nooit bijgewerkt, dus het kan voor enige verwarring bij gebruikers hebben gezorgd. Dus ik benadruk hier nogmaals: forward allel is niet gelijk aan dbSNP allel! Een -strandfile is nodig om ervoor te zorgen dat het voorwaartse allel correct wordt berekend op basis van het dbSNP-allel.

- dbSNP-allel

Dit is een veelgebruikt allelcoderingsschema, hoewel het veel intrinsieke problemen heeft die ik hieronder zal beschrijven. In de meeste gevallen is het identiek aan het allel voorwaartse streng, maar er zijn enkele uitzonderingen, dus gebruikers moeten voorzichtig zijn. Het schema gaat ervan uit dat een "voorwaartse streng" voor een bepaald genoom al bekend is, en dat de twee alternatieve allelen zijn gedefinieerd met betrekking tot de voorwaartse streng (in tegenstelling tot de omgekeerde streng). Stel bijvoorbeeld dat een SNP een C-allel heeft in de voorwaartse streng in de referentiegenoomsequentie (en een G-allel in de omgekeerde streng heeft), dan wordt er een alternatieve sequentie gevonden in de populatie met een A-allel in de omgekeerde streng (en dus T-allel in de voorwaartse streng), wordt de SNP vervolgens gecodeerd met C- en T-allelen. In het bovenstaande voorbeeld kunt u zien dat deze SNP een C/T SNP is op basis van voorwaartse streng (of een A/G SNP op basis van omgekeerde streng).

Een voor de hand liggend probleem met dit coderingsschema is dat men de "voorwaartse streng" met zekerheid moet kennen, maar dit is meestal niet het geval. Zelfs voor het goed bestudeerde menselijke genoom zijn er nog veel gaten te vullen. Het is mogelijk dat een sequentie in de voorwaartse streng wordt geassembleerd in de menselijke genoomassemblage van 2004, maar het wordt een omgekeerde streng in de menselijke genoomassemblage van 2006. Het is ook mogelijk dat een sequentie niet kan worden toegewezen aan een voorwaartse of achterwaartse streng, dus wordt het geannoteerd als iets als chr1_random of een willekeurige contig in veel genoomdatabases. Het is ook mogelijk dat een stuk voorwaartse streng bij een bepaald onderwerp een omgekeerde streng wordt als gevolg van inversie in dit gebied. Dit soort situaties wordt veel erger voor andere organismen die alleen genoomsequenties met een lage vouwdekking hebben: het is gewoon niet haalbaar om veel contigs correct toe te wijzen aan een voorwaartse of een achterwaartse streng, dus zelfs als een SNP bekend is op basis van het rangschikken van veel onderwerpen, de juiste "voorwaartse streng" codering kan niet met vertrouwen worden afgeleid.

Om de juiste identificatie van de voorwaartse streng voor dbSNP-records te garanderen, moeten de gebruikers een strandbestand verkrijgen, dat kan worden gecompileerd uit bijvoorbeeld een snp147-bestand in de UCSC Genome Browser (of als u ANNOVAR gebruikt, doet u gewoon een -downdb snp147 zou moeten werken) met een cut-opdracht om de juiste kolommen in het bestand te knippen.

- Illumina A/B-allel, 1/2 allel en TOP-allel

Illumina's A/B-allelcodering, of TOP/BOT-strengdefinitie, wordt hier in detail uitgelegd door Illumina. De allelcoderingsmethode lost het bovengenoemde probleem op, dat wil zeggen dat de allelen niet afhankelijk zijn van de specifieke genoomassemblage, maar zijn gebaseerd op het feitelijke polymorfisme zelf. In het kort, als een van de twee polymorfismen A of T is, en de andere is C of G, dan wordt A of T aangeduid als A-allel, en C of G wordt aangeduid als B-allel, en de streng met A of T wordt respectievelijk de TOP- en BOT-streng genoemd. Als het polymorfisme A/T of C/G is, loop dan door de omringende sequentie (de twee nucleotiden stroomopwaarts of stroomafwaarts van de SNP) om een ​​paar ondubbelzinnige nucleotiden te vinden, en dan wordt een vergelijkbare regel toegepast: als A of T is aan de 5'-kant van de SNP, dan is het een TOP-streng, anders is het een BOT-streng. Voor de TOP-streng geven A en B-allel respectievelijk A en T (of C en G) aan, terwijl voor BOT-streng A en B-allel respectievelijk T en A (of G en C) aanduiden. Het coderingsschema van Illumina is niet afhankelijk van de definitie van een voorwaartse streng (vandaar correcte genoomassemblage), dus het zorgt bijna altijd voor consistentie tussen genoombuilds en zorgt voor onmiddellijke allelaanduiding voor nieuw gesequeneerde genomische sequenties of niet-geassembleerde genomische sequenties. Zoals de bovenstaande afbeelding laat zien, heeft dbSNP het coderingsschema van Illumina al overgenomen in hun annotaties: fwd/B betekent dat de "forward"-streng van dbSNP overeenkomt met de "BOT"-streng van het coderingsschema van Illumina. Merk ook op dat er een "fwd/T" in de bovenstaande figuur staat: het geeft duidelijk een annotatiefout aan: dergelijke fouten komen inderdaad vrij vaak voor! Soms gebruiken mensen vaak 1/2 om Illumina's A/B-allel aan te duiden, omdat numerieke codering in veel scenario's handiger is en omdat sommige oude associatiesoftware alleen numeriek gecodeerde allelen herkent.

Bij het exporteren van genotypen uit de Illumina BeadStudio-software, kan de gebruiker AB-genotypen of ACGT-genotypen (gewoonlijk "TOP-allelen" genoemd) kiezen, of voorwaartse strenggenotype in een nieuwere versie van de software. De TOP-allelen zijn het allel op de TOP-streng, wat al dan niet de voorwaartse streng kan zijn: zie het voorbeeld hierboven, de "fwd/B" betekent dat de voorwaartse streng van dbSNP overeenkomt met de BOT-streng van Illumina, dus het "TOP-allel" is het tegenovergestelde als het "forward strand allel". Helaas weten of begrijpen veel gebruikers gewoon niet wat "TOP-allel" is: ze nemen gewoon aan dat "TOP" "vooruit" betekent en klagen dan dat er veel tegenstrijdigheden zijn bij het samenvoegen van twee verschillende datasets (een gecodeerd als voorwaartse streng en één geëxporteerd vanuit BeadStudio). Het programma convert_bim_allele.pl dat ik in dit artikel beschrijf, lost dit soort problemen op.

- Affymetrix A/B allel

Merk op dat Affymetrix ook een A/B-allelaanduiding heeft, maar voor zover ik weet, gebruikt niemand het in welke omstandigheid dan ook, behalve bij het uitvoeren van CNV-analyse (bijvoorbeeld in PennCNV-Affy worden de A/B-allelen expliciet gebruikt om frequentie-informatie van B-allel uit externe databases naar de waargenomen B-allelen). Vrijwel alle SNP-genotype-oproepalgoritmen voor het Affymetrix-platform genereren daadwerkelijke ACGT-allelaanroepen in voorwaartse streng. Helaas is het annoteren van allelen in voorwaartse streng een moeilijke taak, en er zijn veel annotatiefouten in het bibliotheekbestand dat wordt geleverd door Affymetrix, of die worden geproduceerd door software van derden. De gebruiker zal voorzichtig moeten zijn bij het samenvoegen van genotyperingsoproepen van verschillende software bij gebruik van het Affymetrix-platform. Als u bijvoorbeeld twee datasets op hetzelfde platform maar over verschillende onderwerpen samenvoegt, is het altijd een goed idee om allelfrequenties voor alle SNP's in deze twee datasets te berekenen en deze te vergelijken om consistente frequentiespectra te garanderen.

- HapMap-gegevensset

Helaas bestaan ​​er ook veel fouten in HapMap "voorwaartse streng" haplotype-gegevens, en aangezien genotype-imputatie tegenwoordig erg populair is geworden, is het belangrijk om dit feit te herkennen en er op de juiste manier mee om te gaan. Voor Illumina Infinium-assays, aangezien er geen A/T- en C/G-SNP bestaat, is dit meestal geen groot probleem en kan een "autoflip" -functie worden gebruikt in imputatiesoftware om de problemen met het omdraaien van allelen op te lossen. Voor Illumina GodenGate-assays en voor Affymetrix-assays is dit een praktisch probleem, aangezien men "juiste" genotype-aanroepen (in voorwaartse streng) in onjuiste moet veranderen om de foutieve HapMap-gegevens te accommoderen met het oog op toerekening. In wezen zal de gebruiker extra werk moeten verzetten bij het samenvoegen van geïmputeerde genotypen uit HapMap met een andere genotype dataset, of bij het uitvoeren van meta-analyse met zowel geïmputeerde data als genotype data. Hopelijk kan het programma convert_bim_allele.pl dit gemakkelijker maken.

- PLINK 1/2 allel

Sommige associatie- of koppelingssoftware vereist dat allelen worden gecodeerd als nuemrische waarden, daarom kan men ACGT-allelen in 1/2 allelen willen omzetten. Software zoals PLINK kan deze taak uitvoeren met het argument --recode12. De 1/2-codering door PLINK kan echter niet worden gedecodeerd naar ACGT, aangezien 1 en 2 respectievelijk een klein/groot allel aanduiden, en deze annotaties verschillen tussen datasets. Bij het verkrijgen van een genotype-gegevensbestand met 1/2 allelcodering van andere mensen, is het altijd nodig om te vragen of de allelen zijn gecodeerd als Illumina's A / B-allelen of eenvoudig opnieuw zijn gecodeerd met PLINK als het de laatste is, is het het beste om te vragen naar originele genotypegegevens voordat u iets met de gegevens doet.


GEN-bestandsindeling, SNP's en allelen - Biologie

Moderne genetische associatiestudies gebruiken routinematig gegevens over tien- tot honderdduizenden individuen, gegenotypeerd of toegeschreven aan tientallen miljoenen markers in het hele genoom. Traditionele dataformaten die gebaseerd zijn op tekstrepresentatie van deze data - zoals het GEN-formaat dat wordt uitgevoerd door IMPUTE, of het Variant Call Format - zijn soms niet goed geschikt voor deze datahoeveelheden. Inderdaad, voor eenvoudige programma's kan de tijd die wordt besteed aan het ontleden van deze formaten de uitvoeringstijd van het programma domineren.

De volgende grafiek toont bijvoorbeeld de tijd die nodig is om variantidentificerende gegevens weer te geven - dwz de genomische positie, ID-velden en allelen - voor verschillende gangbare formaten (Y-as), tegen bestandsgrootte (X-as), voor een dataset van 18.496 monsters getypt op 121.668 SNP's op chromosoom 1. Beide varianten van BGEN die hieronder zijn gedefinieerd, worden getoond.

Voor binaire PLINK-bestanden (.bed) worden identificerende gegevens opgeslagen in een apart bestand (het .bim-bestand), zodat de tijd feitelijk nul is. Voor op tekst gebaseerde formaten is er een belangrijke afweging tussen het gebruik van bestandscompressie en leesprestaties. BGEN slaat de volledige dataset van 2.250 miljoen genotypen op in 334Mb, iets meer dan één bit per genotype, en duurde in deze test 1,5 seconde.

(Prestatie-optimalisatie van alle formaten is natuurlijk mogelijk, dus de bovenstaande grafiek geeft niet de best mogelijke timing weer, maar moet als illustratief worden beschouwd.)

Het BGEN-formaat is gebruikt in verschillende grote projecten, waaronder het Wellcome Trust Case-Control Consortium 2, het MalariaGEN-project en de ALSPAC-studie. Het is aangenomen als het vrijgaveformaat voor genoombrede geïmputeerde genotypen voor de UK Biobank.


Resultaten en discussie

Eenheid van AE-gegevens

Het biologische signaal van belang bij AE-analyse is de relatieve expressie van een bepaald transcript van de twee ouderchromosomen. Typische AE-gegevens proberen dit vast te leggen door tellingen van RNA-seq-lezingen die referentie- en alternatieve allelen dragen over heterozygote locaties in een individu [heterozygote single-nucleotide polymorfismen (het-SNP's)], en dit is de focus van onze analyse, tenzij anders vermeld. De Geuvadis-monsters met een mediane diepte van 55 miljoen in kaart gebrachte uitlezingen hebben ongeveer 5000 het-SNP's bedekt met ≥30 RNA-seq-uitlezingen, verdeeld over ongeveer 3000 genen en 4000 exons (Fig. 2 Aanvullend bestand 2). Het exacte aantal varieert als gevolg van verschillen in sequentiediepte, de verdeling over genen en individuele DNA-heterozygositeit.Ongeveer de helft van deze genen bevat meerdere het-SNP's per individu, die kunnen worden geaggregeerd om AE beter over het gen te detecteren (Fig. 2d). Alternatieve splicing kan echter echte biologische variatie in AE in verschillende exons introduceren, en er moet rekening worden gehouden met onjuiste fasering in stroomafwaartse analyse [13]. Bovendien is het opsommen van gegevens van meerdere SNP's niet geschikt als dezelfde RNA-seq-lezingen beide sites overlappen. In de Geuvadis-gegevens overlappen 9% van de uitlezingen die worden gebruikt in AE-analyse in feite meer dan één het-SNP (Figuur S2d in aanvullend bestand 2), maar dit zal frequenter worden naarmate de leeslengtes toenemen [21]. In de toekomst zijn betere tools nodig om RNA-seq-lezingen te verdelen in een van de twee haplotypes volgens alle het-SNP's die ze overlappen [22]. In feite zou dit kunnen helpen bij het faseren van exonische plaatsen gescheiden door lange introns.

Genomische dekking van AE-gegevens in Geuvadis CEU-monsters. een Cumulatieve verdeling van RNA-seq-leesdekking per het-SNP (elke regel vertegenwoordigt één monster). B, C Het aantal het-SNP's (B) en eiwitcoderende genen (C) per monster als functie van de dekkingsgrens. NS Het aantal eiwitcoderende genen met AE-gegevens versus het aantal het-SNP's dat ze bevatten. Elke regel is de mediaan voor alle monsters op een specifiek dekkingsniveau

AE-analyse van kleine inserties of deleties (indels) is technisch zeer uitdagend gebleken en wordt zelden geprobeerd, hoewel frameshift-indels een belangrijke klasse van eiwitafbrekende varianten zijn. Uitlijningsfouten over indel loci zijn alomtegenwoordig vanwege meerdere mismatches van reads die alternatieve allelen dragen, en een lagere kwaliteit van het genotypering voegt nog meer fouten toe [12]. In Rivas et al. [12] we beschrijven de eerste benadering voor grootschalige analyse van AE over indels, maar verdere ontwikkeling van methoden is gerechtvaardigd voor een betere gevoeligheid en computationele schaalbaarheid.

Naast klassieke AE-analyse om verschillen in totaal expressieniveau van twee haplotypes te detecteren, is het ook mogelijk om allelische verschillen in transcriptstructuur of splicing te analyseren [allelische splicing (AS)] [5, 21]. Deze methoden vergelijken de exon-distributie van reads en hun partners die verschillende allelen van een heterozygote site dragen, en werken steeds beter voor langere totale fragmentlengtes. In deze analyses is de datastructuur iets complexer dan referentie/niet-referentie gelezen tellingen in AE, afhankelijk van het specifieke algoritme. Hoewel dit artikel zich richt op klassieke AE-analyse van SNP's, zijn de meeste stappen voor kwaliteitsanalyse ook van toepassing op indel AE- en AS-analyses.

Hulpmiddelen om alleltellingen op te halen

Allelentellingen zijn het startpunt voor alle AE-analyses en veel eerdere tools kunnen deze tellingen ophalen. Ze voeren echter ook andere analyses uit die aanvullende invoergegevens vereisen en de runtime verlengen. Hier presenteren we eenvoudige hulpmiddelen die kunnen worden gebruikt om alleen allelentellingen op te halen, met behulp van de minimaal vereiste invoer in standaardformaten. We presenteren twee oplossingen: 1) een zeer efficiënte Python-tool die resultaten verwerkt van SAMtools mpileup, het raamwerk dat wordt gebruikt door de meeste bestaande AE-analysepijplijnen en 2) een eenvoudig te gebruiken tool in de veelgebruikte GATK v.3.4 [23, 24 ] genaamd ASEReadCounter, die geen extra instellingen vereist, en een verscheidenheid aan gemakkelijk aanpasbare leesverwerkingsopties bevat, evenals professioneel onderhoud en documentatie, vergelijkbaar met andere GATK-tools. Beide werken op uitgelijnde RNA-seq-lezingen en tellen de referentie- en alternatieve allel-lezingen die filters hebben doorstaan ​​voor het in kaart brengen en basiskwaliteit bij elke bi-allelische heterozygote variant. De GATK-tool biedt verschillende extra opties voor het verwerken van RNA-seq-lezingen: standaard wordt elk gelezen fragment slechts één keer geteld als de basisaanroepen consistent zijn op de betreffende site, en dubbele reads worden gefilterd (zie hieronder). Andere opties maken het mogelijk om te filteren op dekking en op sites of reads met verwijderingen. De uitvoer van beide is één bestand per RNA-seq-invoerbestand, met één regel per site die de tellingen voor elk allel weergeeft, evenals de tellingen van gefilterde uitlezingen, en kan worden gebruikt voor downstream-analyses. De tools leveren consistente resultaten op, met runtimes vergelijkbaar met een eerder gepubliceerde tool [25] (aanvullend bestand 3).

Kwaliteitscontrole van het tellen van allelen

Het ophalen van alleltellingen uit RNA-seq-gegevens over een lijst met heterozygote sites is conceptueel heel eenvoudig, maar er moeten verschillende niet-triviale filterstappen worden ondernomen om ervoor te zorgen dat alleen hoogwaardige uitlezingen die onafhankelijke RNA/cDNA-moleculen vertegenwoordigen, worden geteld. Het eerste veelgebruikte filter is het verwijderen van uitlezingen met een mogelijk foutieve basis over de heterozygote site op basis van lage basiskwaliteit. Bovendien moet rekening worden gehouden met mogelijke overlap van partners in gepaarde RNA-seq-gegevens, zodat elk fragment, dat één RNA-molecuul vertegenwoordigt, slechts één keer per het-SNP wordt geteld. In de Geuvadis-gegevens is gemiddeld 4,4% van de leestoewijzing aan het-SNP's per monster afgeleid van overlappende partners, maar dit aantal zal variëren afhankelijk van de grootte van de invoeging (Figuur S4a in aanvullend bestand 4).

Bij RNA-seq-analyse zijn dubbele uitlezingen met identieke begin- en eindposities gebruikelijk (15% van de uitlezingen in Geuvadis AE-analyse), omdat sterk tot expressie gebrachte genen verzadigd raken met uitlezingen (Figuur S4b, d in aanvullend bestand 4). Dus standaard worden duplicaten meestal niet verwijderd uit RNA-seq-gegevens om te voorkomen dat de expressieniveaus in sterk tot expressie gebrachte genen worden onderschat [5]. We observeren echter consistente, zij het zeldzame, tekenen van PCR-artefacten in de Geuvadis AE-gegevens, met name van invloed op laag bedekte locaties - waar duplicaten meestal echte PCR-duplicaten zijn, omdat verzadiging onwaarschijnlijk is. Het verwijderen van dubbele leesbewerkingen vermindert technische bronnen van AE op deze sites, terwijl het een minimaal effect heeft op sterk bedekte, leesverzadigde SNP's (Figuur S4e in aanvullend bestand 4). Daarom stellen we voor dat het verwijderen van dubbele uitlezingen een goede standaardbenadering is voor AE-analyse en dat het als standaard wordt geïmplementeerd in de GATK-tool. Het is echter belangrijk dat de behouden waarde willekeurig of op basis van kwaliteit wordt gekozen, en niet door de score in kaart te brengen, om niet te vertekenen in de richting van het referentie-allel.

Het moeilijkste probleem bij AE-analyse en een mogelijke bron van vals-positieve AE is ervoor te zorgen dat 1) alle uitlezingen die over een site worden geteld inderdaad afkomstig zijn van die genomische locus, en 2) alle uitlezingen van die locus worden geteld. RNA-seq-onderzoeken met kortere of single-end RNA-seq-uitlezingen zijn vatbaarder voor deze problemen. Ten eerste, om ervoor te zorgen dat er geen buitenaardse uitlezingen ten onrechte worden toegewezen aan een locus, mogen alleen unieke mapping-uitlezingen worden gebruikt. Dit houdt in dat zeer homologe loci - zoals microRNA's - niet vatbaar zijn voor AE-analyse.

Een nog moeilijker voorbehoud bij AE-analyse is allelische mapping-bias: in RNA-seq-gegevens die zijn uitgelijnd met het referentiegenoom, heeft een uitlezing die het alternatieve allel van een variant draagt ​​ten minste één mismatch en heeft dus een lagere kans om correct uit te lijnen dan de referentie leest [26-28]. Gesimuleerde gegevens in Panousis et al. [27] geeft een substantiële variatie tussen locaties aan - in de meeste gevallen worden de reads correct in kaart gebracht, maar 12% van de SNP's en 46% van de indels had een allelverhoudingsbias >5 %, waarbij sommige een volledig verlies van het in kaart brengen van het alternatieve allel hadden. Loci met homologie elders in het genoom zijn bijzonder problematisch omdat reads bijna even goede alternatieve loci hebben om op uit te lijnen. Bovendien kan zelfs een site zonder vooringenomenheid op zichzelf bevooroordeeld worden door een flankerende (soms onbekende) variant die overlappende leesacties deelt met de betreffende site. Bovendien varieert de toewijzingsbias afhankelijk van de specifieke uitlijningssoftware die wordt gebruikt (aanvullend bestand 5).

Er kunnen verschillende strategieën worden gebruikt om te controleren op het effect van mapping bias op AE-analyse. De eenvoudigste benadering die kan worden toegepast op AE-gegevens zonder herschikking, is het filteren van sites met waarschijnlijke vertekening [5, 8, 28]. In eerder werk [5, 8, 29-31] en in dit artikel, tenzij anders vermeld, verwijderen we ongeveer 20% van het-SNP's die ofwel binnen regio's met een lage mappability vallen (ENCODE 50 bp mappability score < 1) of mapping vertonen bias in simulaties [27]. Dit vermindert het aantal sites met een sterke bias met ongeveer 50% (Fig. 3b), maar de genoombrede referentieverhouding die iets boven 0,5 blijft, geeft een resterende bias aan (Figuur S6a in Aanvullend bestand 6). Het gebruik van deze verhouding als nul in statistische tests in plaats van 0,5 [5, 6] kan de resultaten verbeteren (Figuur S6b-e in aanvullend bestand 6). Meer uitputtende maar rekenintensieve benaderingen omvatten afstemming op gepersonaliseerde genomen [18, 32, 33], of het gebruik van een variant-bewuste aligner, zoals GSNAP [34]. Deze methoden leveren vergelijkbare resultaten op en elimineren gemiddeld genoombrede bias (Fig. 3a Aanvullend bestand 5), maar het feit dat het toepassen van een mappability-filter nog steeds monoallele sites verwijdert, impliceert dat niet alle bias wordt geëlimineerd (Fig. 3b). Met name in gepersonaliseerde of variantbewuste benaderingen kunnen sites met homologie elders in het genoom een ​​zeer substantiële allelische mapping-bias hebben naar het referentie- of niet-referentie-allel, wat optreedt wanneer het lezen van één allelkaart perfect en lezen met het andere allel uitlijnt naar meerdere plaatsen. Een nieuwe benadering is de specifieke verwijdering van uitlezingen die mapping-bias vertonen met software zoals WASP [35], die over het algemeen goed presteert, hoewel er nog steeds enkele tekenen van residuele bias zijn. Aanvullend bestand 7 geeft een overzicht van de sterke en zwakke punten van elke strategie. Al met al, hoewel veel benaderingen redelijk nauwkeurige gegevens opleveren, blijft allelische mapping-bias een probleem dat niet perfect kan worden geëlimineerd met beschikbare oplossingen.

Strategieën voor het verminderen van mapping bias in AE-analyse. een Samenvatting van verschillende strategieën om te corrigeren voor mapping bias (Basislijn = alleen STAR uitgelijnd, Filteren = STAR uitgelijnd met bias- en mappability-filters, P. Genoom = STAR afgestemd op een gepersonaliseerd genoom gegenereerd met Allele-Seq, WESP = STAR uitgelijnd met verwijdering van vooringenomen uitlezingen met behulp van WASP, Variant Bewust = GSNAP in variantbewuste uitlijningsmodus). De boxplot (as aan de linkerkant) toont referentieverhoudingen voor AE-sites die worden gedekt door acht of meer uitlezingen. De gemiddelde referentieverhouding voor elke strategie wordt weergegeven met a wit streepje de effen zwarte lijn geeft een referentieverhouding van 0,5 aan, terwijl stippellijntjes geef ± 0,05 aan. De percentages sites die monoallele referentie zijn (grijze cirkel) of alternatief (grijze diamant) zijn uitgezet tegen de secundaire as. Het aantal sites met AE-gegevens voor elke strategie wordt weergegeven als een percentage van de basislijnstrategie onder hun respectievelijke labels. Uitschieters zijn verborgen voor een betere weergave. B Percentage sites dat wordt verwijderd wanneer filters voor vertekening en toewijsbaarheid worden toegepast op de resulterende gegevens van alle strategieën, weergegeven voor elke bak met referentieverhoudingen

Kwaliteitscontrole van genotypegegevens

AE-analyse is gebaseerd op gegevens van heterozygote plaatsen om de twee ouderlijke allelen te onderscheiden. Deze genotypegegevens worden idealiter opgehaald uit DNA-sequencing- of genotyperingsarrays, maar de RNA-seq-gegevens zelf kunnen ook worden gebruikt voor het aanroepen van genetische varianten en het vinden van heterozygote sites [36-39]. Echte allelische onbalans kan er echter toe leiden dat heterozygote sites homozygoot worden genoemd in op RNA gebaseerde genotype-oproepen en leiden tot substantiële fouten in monoallele genen als gevolg van bijvoorbeeld imprinting en meer subtiele vooringenomenheid in kwantitatieve trait loci (eQTL) -genen voor expressie (Figuur S7a in Aanvullend bestand 8).

Zelfs bij gebruik van heterozygote genotypen die op basis van DNA-gegevens worden genoemd, kunnen genotyperingsfouten een belangrijke bron zijn van valse signalen van allelische onbalans, omdat AE-gegevens van een homozygote plaats monoallelisch tot expressie worden gebracht. In genotypegegevens die de normale kwaliteitscontrole (QC) hebben doorstaan, inclusief de Hardy-Weinberg-evenwichtstest, zal genotypefout leiden tot zeldzame gevallen van monoallele expressie per site, die niet door veel individuen wordt gedeeld (figuur 1b). Valse heterozygote genotype-oproepen zijn zeldzaam maar niet verwaarloosbaar in AE-analyse met behulp van SNP-genotypen uit arrays of uit moderne sequentiegegevens, maar komen veel vaker voor in geïmputeerde gegevens (figuur 4a). Het berekenen van het genoombrede aandeel van monoallele AE-sites per individu is een gevoelige methode voor de genotypering van kwaliteitscontrole (Fig. 4a, pijlpunten).

Kwaliteitscontrole van genotypegegevens voor AE-analyse. een Mediane percentage het-SNP's waarbij RNA-seq-uitlezingen van beide allelen worden waargenomen in alle weefsels voor GTEx-monsters, gegenotypeerd met verschillende platforms: exome-seq (geel), Illumina OMNI 5 M SNP-array (blauw), en sites geïmputeerd van OMNI 5 M genotype array (rood). Grijze pijlpunten duiden op uitbijter individuen die waarschijnlijk een lagere genotype kwaliteit hebben. B Totale het-SNP-leesaantal versus het gelezen aantal van het minder bedekte allel voor een individueel Geuvadis-monster. Sites die zijn gemarkeerd als vermeende genotyperingsfouten zijn gemarkeerd in rood, waarbij RNA-seq-gegevens geen ondersteuning bieden voor heterozygotie

Het verwijderen van genotyperingsfouten is relatief eenvoudig voor analyse van matige allelische onbalans (zoals die veroorzaakt door cis-regulerende varianten): het verwijderen van monoallele varianten verwijdert sites met valse genotypen en resulteert in weinig verlies van echt interessante gegevens. Sterk bedekte sites zijn echter zelden strikt monoalleel, zelfs in een homozygote staat vanwege zeldzame fouten in sequencing en uitlijning (Figuur S7b in aanvullend bestand 8). Daarom stellen we een genotype-foutfilter voor waarbij de gemiddelde hoeveelheid van dergelijke sequencing-ruis per monster eerst wordt geschat op basis van andere allelen dan referentie (REF) of alternatief (ALT) (Figuur S7c in aanvullend bestand 8). Vervolgens wordt binomiale testen gebruikt om te schatten of de tellingen van REF / ALT-allelen significant hoger zijn dan deze ruis, en plaatsen waar homozygositeit dus niet kan worden afgewezen, worden gemarkeerd als mogelijke fouten (Fig. 4b). Bovendien kan het wenselijk zijn om volledig monoallele sites met een laag totaal aantal te markeren, waar homozygotie niet significant kan worden afgewezen, maar heterozygotie wordt evenmin ondersteund. Deze test kan ook worden toegepast om ontwerpen te bestuderen met RNA-seq-gegevens van meerdere monsters (bijv. weefsels of behandelingen) van een bepaald individu, slechts één keer gegenotypeerd, aangezien een genotyperingsfout consistente monoallele expressie in elk weefsel veroorzaakt. In de Geuvadis-dataset met 1000 Genomes fase 1-genotypen en locaties die worden gedekt door acht of meer metingen, wordt gemiddeld 4,3% van de locaties per monster uitgesloten door deze criteria [1% false discovery rate (FDR)].

Helaas is een genotyperingsfout erg moeilijk te onderscheiden van een echt biologisch patroon van sterke monoallele expressie, gedeeld door alle bestudeerde weefsels en aanwezig in een klein aantal monsters, zoals analyse van door onzin gemedieerd verval veroorzaakt door een zeldzame variant, of een zeldzame ernstige regulerende mutatie (Fig. 1). De enige echte oplossing is een rigoureuze kwaliteitscontrole en/of validatie van het genotype, en bij de interpretatie van de resultaten rekening houden met de mogelijkheid van verwarring door genotyperingsfouten.

Mislabeling van monsters of het mengen van de RNA-seq-monsters kan leiden tot een aanzienlijk aantal vals-positieve treffers - in tegenstelling tot vermindering van het vermogen in eQTL-onderzoeken. Gelukkig bieden eenvoudige statistieken van AE-analyse een gevoelige manier om monsterverontreiniging en verkeerde labeling te detecteren [40]. DNA-RNA heterozygote concordantie - d.w.z. het aandeel van DNA-heterozygote sites die ook heterozygoot zijn in RNA-gegevens - en een maat voor allelische onbalans detecteren uitbijters en geven het type fout aan (Figuur S7d in aanvullend bestand 8).

Technische covariaten

RNA-seq is een volwassen en zeer reproduceerbare techniek geworden, maar het is niet immuun voor technische covariaten zoals het laboratorium waarin experimenten werden uitgevoerd, aspecten van bibliotheekconstructie en complexiteit, en sequencing-statistieken [40]. Genexpressieonderzoeken zijn bijzonder gevoelig voor deze technische factoren, omdat het aantal gelezen wordt tussen monsters worden vergeleken. AE-analyse heeft het voordeel dat alleen lezen telt binnenin monsters worden vergeleken (allel versus allel), waardoor het minder vatbaar is voor technische artefacten. We analyseerden de correlatie van het aandeel significante AE-sites (binomiale test, nominaal P < 0.05) met verschillende technische covariaten in de Geuvadis-gegevens (Fig. 5a). In onbewerkte AE-tellingsgegevens zien we een hoge correlatie met de bibliotheekdiepte (unieke waardes R 2 = 0,24) - naar verwachting, aangezien het totale aantal gelezen AE-sites het statistische vermogen bepaalt om significante effecten te zien (zie hieronder). In AE-gegevens gecorrigeerd voor variatie in leestellingen door de tellingen te schalen naar 30, zijn alle technische correlaties erg klein en meestal niet-significant, in schril contrast met gegevens op genexpressieniveau die sterke batcheffecten vertonen (figuur 5b). Wanneer passende maatregelen worden genomen, is AE-analyse dus een uiterst robuuste benadering die minder last heeft van technische factoren dan genexpressiestudies.

Technische covariaten van AE. een Correlatie van AE met technische covariaten, gemeten als correlatie (R 2 ) tussen elke covariaat en het percentage significante AE-locaties in een monster (binomiaal P < 0,05, het-SNP's met ≥30 uitlezingen), zowel voor als na schaling naar 30 uitlezingen. B Correlatie van genexpressie met technische covariaten. Als de genexpressiestatistiek gebruiken we de mediane correlatie van elk monster met alle andere monsters (D-statistiek). Ter vergelijking wordt de correlatie met een biologische covariaat (populatie) getoond. Correlaties werden berekend uit alle Geuvadis-monsters door Spearman-correlatie voor continue covariaten of lineaire regressie voor categorische covariaten. **P < 0,01, *P < 0,05, na Bonferroni-correctie. RIN RNA-integriteitsnummer, Stdev standaardafwijking

Statistische tests voor AE

Een binominale test is de klassieke manier om te bepalen of de verhouding van de twee allelen significant afwijkt van de verwachte 0,5, en wordt veel gebruikt [2, 5, 8, 31]. AE-gegevens zijn echter oververspreid in vergelijking met wat wordt verwacht onder een binominale verdeling, waarschijnlijk als gevolg van zowel biologische als technische factoren [35, 41, 42]. Deze technische factoren komen voort uit systematische artefacten zoals allelische mapping-bias, evenals uit imperfecte reproduceerbaarheid (meetfout), die we konden schatten met behulp van acht technische replica's van vijf Geuvadis-monsters [40]. Rekening houden met duplicaten en overlappende read-partners verminderde de meetfout tussen replica's (aanvullend bestand 9), met een zeer laag niveau van resterende variatie tussen replica's, behalve voor de sterk bedekte sites (>500), hoewel we er rekening mee houden dat dit mogelijk niet van toepassing is op alle datasets. De andere hierboven beschreven QC-maatregelen verwijderen systematische artefacten en verminderen de inflatie van binomiaal P waarden verder (Fig. 6a). Niettemin, de binominale P waarden blijven opgeblazen, en vooral sterk bedekte locaties hebben waarschijnlijk resterende systematische artefacten (figuur 6b). Dit suggereert dat een eenvoudige binominale test mogelijk geen geschikte statistische test is voor allelische onbalans, omdat dit kan resulteren in een groot aantal valse positieven. Aangezien de meeste genen echter eQTL's hebben [4, 5, 8], wordt verwacht dat biologische bronnen van AE extreem wijdverbreid zijn, wat verder wordt ondersteund door de hoge erfelijkheidsgraad van AE [2]. Dus, hoewel er verschillende statistische modellen naar voren zijn gebracht, waarvan er vele variaties van een bèta-binomiaal model gebruiken om het niveau van overdispersie af te leiden [35, 41, 42], blijft het inherent moeilijk om biologische bronnen van overdispersie te onderscheiden van vermeende technische effecten . Eén benadering is om AE over individuen en weefsels te analyseren om te controleren op confounders en het biologische signaal van belang vast te leggen - zoals cis-regulatoire variatie [35, 41], imprinting [13], of nonsens-gemedieerd verval [20].Veel van de statistische benaderingen voor het analyseren van AE-gegevens zijn echter net in opkomst en hun volledige benchmarking valt buiten het bestek van dit artikel. Ter referentie: een lijst van de momenteel beschikbare tools en publicaties die AE-gegevens analyseren, inclusief hun specifieke biologische toepassing, gebruikte statistische tests en vereiste invoer, is te vinden in aanvullend bestand 10.

QC-maatregelen verminderen valse positieven, aangetoond met een binomiale test voor allelische onbalans. een QQ plot van P waarden gegenereerd uit binominale testen na verschillende QC-metingen. Basislijn = STAR-uitgelijnd testen tegen een null van 0,5 zonder enige correctie voor dubbeltelling, mapping bias of genotyperingsfout Geen dubbeltellingen = als basislijn maar zonder dubbele en overlappende partnerparen die eenmaal zijn geteld Sitefilter = als geen dubbeltelling maar zonder vooringenomen en lage toewijsbaarheid het-SNP's Nul aangepast = Als sitefilter maar met gemiddelde referentieverhouding per basis als de binomiale nul WASP-filter = als sitefilter maar met WASP-filtering van reads Monoallelisch filter = als Aangepaste Null maar het verwijderen van monoallele sites om rekening te houden met vermeende genotyperingsfout. B Histogram dat de verdeling van de dekking toont voor sites met significante (5 % FDR) allelische onbalans volgens een binomiale test (primaire as), en het percentage van alle het-SNP's dat significante allelische onbalans in elke dekkingsruimte laat zien met behulp van toenemende allelische effect-cutoffs (secundaire as). C, NS Multidimensionale schaling (MDS) clustering van Geuvadis-monsters op basis van het aantal locaties met significante AE dat verschilt tussen monsterparen. Monsters worden gekleurd door sequentiëringslaboratorium en gelabeld per populatie. Als significante locaties worden toegewezen op basis van een eenvoudige binomiale test (FDR 5 %), clusteren de monsters eerst door het laboratorium te sequensen vanwege laboratoriumspecifieke verschillen in dekking (C). Dit effect wordt meestal verwijderd in (NS) door van significante locaties te eisen dat ze 5% FDR hebben en een effectgrootte van > 0,15

Vaak is het tijdens de AE-analyse de bedoeling om de allelische onbalans tussen verschillende plaatsen of tussen individuen te vergelijken. Dit wordt gecompliceerd door de zeer variabele totale leestellingen bij het-SNP's (Fig. 2a), omdat ze leiden tot aanzienlijke verschillen in statistische power op verschillende locaties. Deze verschillen worden veroorzaakt door verschillen in bibliotheekdiepte tussen monsters, evenals biologisch variabele expressieniveaus tussen genen en monsters. Dergelijke verschillen kunnen ertoe leiden dat monsters clusteren per experimentele batch (figuur 6c). Als het doel van de analyse is om AE vast te leggen, zijn patronen die door expressieniveaus worden geïntroduceerd vaak niet wenselijk. Hoewel dit probleem uiteindelijk moet worden aangepakt met op maat gemaakte statistische benaderingen, kan het worden verlicht met een eenvoudige cut-off van de minimale effectgrootte die de verrijking van significante sites in sterk bedekte het-SNP's vermindert (figuur 6b), en verantwoordelijk is voor de sterkste afhankelijkheid van totale leestellingen (Fig. 6d). Een experimentele benadering is om een ​​test te gebruiken die hoge leestellingen oplevert, zoals mmPCR-seq, in plaats van of naast RNA-seq-gegevens [9, 12, 13, 43].

QC-maatregelen verbeteren het vermogen om biologisch relevante AE . te detecteren

Ongeacht de specifieke toepassing, zouden de hier voorgestelde QC-maatregelen de echte signalen van AE moeten verhogen, wat resulteert in een verbeterd vermogen om biologische verschijnselen van belang te detecteren. Om dit aan te tonen, analyseerden we AE op 1154 genen met bekende eQTL (eGenes) in 343 Europese individuen met behulp van Geuvadis LCL RNA-seq-gegevens [5]. Van personen die heterozygoot zijn voor een eQTL SNP (eSNP) wordt verwacht dat ze verhoogde AE ​​binnen het eGene vertonen in vergelijking met degenen die homozygoot zijn. Het toepassen van QC-metingen verhoogde de significantie van het verschil in AE en verminderde de variantie van AE bij eGenes (aanvullend bestand 11). Al met al verhoogde dit het vermogen om onderscheid te maken tussen AE-niveaus in eSNP heterozygote versus homozygote eGenes, met een toename van 6,8% in echte positieven en 59,3% afname in valse positieven na het toepassen van QC-metingen (Fig. 7a, b). De maatregelen verhoogden ook significant het verschil in het aantal individuen dat allelische onbalans vertoonde (AE > 0.25) tussen de twee klassen (Fig. 7c), en resulteerden in een robuuste verrijking van locaties binnen heterozygote eQTL over het spectrum van allelische onbalans (Fig. 7d). Deze resultaten illustreren duidelijk het directe voordeel van het garanderen van hoge kwaliteit AE-gegevens die voor analyse worden gebruikt door de hier beschreven QC-maatregelen toe te passen.

QC-maatregelen verbeteren het vermogen om biologisch relevante AE te detecteren bij genen die eQTL's (eGenes) hebben, waarbij individuen die heterozygoot zijn voor de top eQTL SNP (eSNP) naar verwachting meer AE hebben dan homozygote individuen. Plot van mediane AE bij heterozygote versus homozygote individuen voor elk eGene, vóór (een) en daarna (B) QC-maatregelen. Rode punten een significant (1 % FDR) verschil in AE-niveau in de verwachte richting aangeven (AE het > AE homo, true positive), blauwe punten geven een significant verschil in de tegenovergestelde richting aan (AE het < AE homo, vals positief), en het aantal echte en valse positieven wordt vermeld. C Boxplot van het percentage individuen met een allelische onbalans (AE > 0.25) die ofwel heterozygoot ofwel homozygoot zijn voor de hoogste eQTL bij elke eGene voor en na QC-metingen. Uitschieters zijn verborgen voor een betere weergave. NS Gemiddeld percentage het-SNP's dat wordt gevonden binnen heterozygote eGenes in bakken met AE tussen individuen voor en na QC-metingen. Foutbalken vertegenwoordigen de standaardfout van het gemiddelde, en sterretjes een significant verschil aangeven (1 % FDR) na het toepassen van QC-maatregelen voor die bin


UITDRUKKINGEN

Deze filterexpressies worden door de meeste opdrachten geaccepteerd.

Geldige uitdrukkingen kunnen bevatten:

numerieke constanten, tekenreeksconstanten, bestandsnamen (dit wordt momenteel alleen ondersteund om te filteren op de ID-kolom)

". De uitdrukkingen zijn hoofdlettergevoelig, tenzij "/i" wordt toegevoegd.

logische operatoren. Zie ook de onderstaande voorbeelden en de filterhandleiding over het onderscheid tussen "&&" versus "&" en "||" tegen "|".

INFO-tags, FORMAT-tags, kolomnamen

beginnend met 1.11 kan de kolom FILTER als volgt worden opgevraagd:

1 (of 0) om de aanwezigheid (of afwezigheid) van een vlag te testen

ontbrekende genotypen kunnen worden gematcht, ongeacht fase en ploïdie (".|.", "./.", ".", "0|.") met behulp van deze uitdrukkingen

ontbrekende genotypen kunnen worden gematcht, inclusief de fase en ploïdie (".|.", "./.", ".") met behulp van deze uitdrukkingen

voorbeeldgenotype: referentie (haploïde of diploïde), alternatieve (hom of het, haploïde of diploïde), ontbrekend genotype, homozygoot, heterozygoot, haploïde, ref-ref hom, alt-alt hom, ref-alt het, alt-alt het, haploïde ref, haploïde alt (hoofdlettergevoelig)

TYPE voor varianttype in REF,ALT-kolommen (indel,snp,mnp,ref,bnd,other,overlap). Gebruik de regex-operator "

" om ten minste één allel van het opgegeven type of het gelijkteken te vereisen " literallayout">TYPE="snp" TYPE

array-subscripts (gebaseerd op 0), "*" voor elk element, "-" om een ​​bereik aan te geven. Merk op dat voor het opvragen van FORMAT-vectoren de dubbele punt ":" kan worden gebruikt om een ​​monster en een element van de vector te selecteren, zoals weergegeven in de onderstaande voorbeelden

bij veel samples kan het praktischer zijn om een ​​bestand te voorzien van samplenamen, één samplenaam per regel

functie op FORMAT-tags (over steekproeven) en INFO-tags (over vectorvelden): maximum minimum rekenkundig gemiddelde (AVG is synoniem met MEAN) mediaan standaarddeviatie van gemiddelde som stringlengte absolute waarde aantal elementen:

Houd er rekening mee dat bovenstaande functies worden geëvalueerd tot één waarde voor alle voorbeelden en bedoeld zijn om sites te selecteren, niet voorbeelden, zelfs wanneer ze worden toegepast op FORMAT-tags. Als ze echter worden voorafgegaan door SMPL_ (of "s" voor beknoptheid, bijv. SMPL_MAX of sMAX), zullen ze evalueren naar een vector van waarden per steekproef wanneer ze worden toegepast op FORMAT-tags:

tweezijdige binominale test. Merk op dat voor N=0 de test een ontbrekende waarde oplevert en dat wanneer FORMAT/GT wordt gebruikt om de vectorindices te bepalen, deze op 1 uitkomt voor homozygote genotypen.

variabelen direct berekend indien niet aanwezig: aantal alternatieve allelen aantal monsters telling van alternatieve allelen minor allel count (vergelijkbaar met AC maar is altijd kleiner dan 0,5) frequentie van alternatieve allelen (AF=AC/AN) frequentie van minder belangrijke allelen ( MAF=MAC/AN) aantal allelen in genoemde genotypen aantal monsters met ontbrekend genotype fractie van monsters met ontbrekend genotype indellengte (deleties negatief, inserties positief)

het aantal (N_PASS) of fractie (F_PASS) monsters die de uitdrukking passeren

aangepaste perl-filtering. Merk op dat dit commando niet standaard is gecompileerd, zie de sectie Optionele compilatie met Perl in het INSTALL-bestand voor hulp en misc/demo-flt.pl voor een werkend voorbeeld. De demo definieerde de perl-subroutine "severity" die als volgt kan worden aangeroepen vanaf de opdrachtregel:

Komma in strings wordt geïnterpreteerd als een scheidingsteken en wanneer meerdere waarden worden vergeleken, wordt de OR-logica gebruikt. Bijgevolg zijn de volgende twee uitdrukkingen equivalent, maar niet de derde:

Bij het opvragen van meerdere waarden worden alle elementen getest en wordt de OR-logica op het resultaat gebruikt. Als u bijvoorbeeld "TAG=1,2,3,4" opvraagt, wordt deze als volgt geëvalueerd:

Shell-uitbreiding:

Merk op dat uitdrukkingen vaak geciteerd moeten worden omdat sommige karakters een speciale betekenis hebben in de shell. Een voorbeeld van een expressie tussen enkele aanhalingstekens die ervoor zorgt dat de hele expressie zoals bedoeld aan het programma wordt doorgegeven:

Raadpleeg de documentatie van uw shell voor details.


Discussies

De collineariteit van een genetische koppelingskaart met hoge dichtheid met een referentiegenoom kan worden gebruikt om de nauwkeurige kartering van kwantitatieve eigenschappen mogelijk te maken. In soja werd één kaart bestaande uit 5785 SNP's geconstrueerd om de genen te identificeren die coderen voor isoflavon-biosynthetische enzymen, waarbij de gedetecteerde QTL vervolgens relatief in kaart werd gebracht met het soja-referentiegenoom 43 . Evenzo werd een genetische kaart met hoge dichtheid met 3441 SNP-markers gegenereerd voor appel, en 80, 64, 17 genen gerelateerd aan respectievelijk vruchtgewicht, fruitvastheid en fruitzuurgraad werden gedetecteerd, nadat de relevante QTL's relatief in kaart waren gebracht op de volledige appelgenoom 44 . Er is ook geprobeerd een vergelijkende kaartstrategie op basis van sequencing van de volgende generatie te maken voor de lokalisatie van één "mut" -locus voor een verstoord vertakkingspatroon in Ectocarpus siliculosus 45 . Hier, in S. japonica, hebben we een genetische koppelingskaart met hoge dichtheid geconstrueerd op basis van 7627 SNP's met een gemiddelde genetische afstand van 0,69 cM. We hebben deze kaart gebruikt om fijne mapping uit te voeren voor QTL's met betrekking tot bladlengte en bladbreedte in S. japonica. Uiteindelijk 14 Tic20 genen en drie peptidase s8- en s53-genen werden geïdentificeerd als zijnde geassocieerd met bladlengte en -breedte in S. japonica. De colineariteit van genetische koppelingskaarten met hoge dichtheid met referentiegenomen kan dus een haalbare en efficiënte manier zijn om kandidaatgenen voor kwantitatieve eigenschappen te identificeren.

Er werd een genetische correlatie gevonden tussen bladlengte en bladbreedte in S. japonica in dit onderzoek. De correlatiecoëfficiënt tussen deze twee eigenschappen varieerde van 0,80 tot 0,92 (tabel S4). Evenzo rapporteerde Wang (1984) dat de fenotype-correlatiecoëfficiënt tussen bladlengte en bladbreedte in S. japonica varieerde van 0,81 tot 0,95 16 . Deze resultaten leveren verder bewijs dat fenotypisch gecorreleerde eigenschappen vaak samen in kaart worden gebracht, zoals de lengte en breedte van het blad in Pyropia haitanensis 26 en het aantal korrels per aar en het gewicht van duizend pitten in tarwe 46 . Liu et al. 20 geloofden dat de QTL's die de lengte en breedte van het blad bepalen in S. japonica waren gekoppeld en gelokaliseerd in hetzelfde chromosoomgebied, maar deze auteurs ontdekten in hun onderzoek geen nauwe correlatie tussen bladlengte en bladbreedte-QTL's 20 . Daarentegen bleek uit onze studie dat veel QTL's die zowel de lengte als de breedte van het blad bepalen, werden toegewezen aan dezelfde gebieden, zoals het interval tussen marker57879 en marker57878 (Tabel 3). Dit gaf aan dat de nauwe fenotypische correlatie van bladlengte en -breedte in S. japonica was voornamelijk te wijten aan genetische correlatie, hoewel omgevingsinvloeden ook een rol kunnen spelen. Vanwege de positieve genetische correlatie van bladlengte en bladbreedte in S. japonica, kan selectie voor bladlengte gelijktijdige veranderingen in bladbreedte veroorzaken. Daarom zijn de geïdentificeerde locaties van QTL's die zowel de bladlengte als de bladbreedte in S. japonica zou markers moeten opleveren voor efficiëntere marker-assisted selection (MAS) voor deze twee eigenschappen in toekomstige fokkerij.

De genetisch afgeleide fenotypische correlatie tussen bladlengte en -breedte kan worden toegeschreven aan pleiotropie of aan onevenwichtigheid in de koppeling 47 . Hoewel sommige QTL's voor bladlengte en bladbreedte co-gelokaliseerd waren in dezelfde genomische regio's in deze studie, moet de mogelijkheid dat de genen in de in kaart gebrachte QTL's pleiotroop zijn voor deze twee eigenschappen verder worden geverifieerd. De effecten die tot nu toe zijn waargenomen, kunnen in plaats daarvan te wijten zijn aan een onevenwicht in de koppeling tussen verschillende genen die deze twee eigenschappen bepalen.

Veertien Tic20 genen en drie peptidase s8- en s53-genen werden geannoteerd op de QTL-intervallen tussen respectievelijk marker26422 en marker53425 in LG24 en tussen marker26129 en marker26127 in LG30. Deze bevinding sluit echter niet uit dat het bestaan ​​van andere genen of regulatoren geassocieerd met bladlengte en bladbreedte in S. japonica omdat de gegevens die in deze studie werden gebruikt onvolledig waren, bevat het kelp-genoom enkele gaten in de contigs en blijft de juiste assemblage van sommige steigers onzeker.

De genen die zijn geïdentificeerd uit de peptidase s8- en s53-genfamilies kunnen kandidaatgenen zijn voor selectie en fokken in kelp. In rijst bleek één GS5-QTL te coderen voor een vermoedelijk serinecarboxypeptidase dat behoort tot de peptidase S10-familie en dat een promotorgebied bevat waarvan gerapporteerd is dat het geassocieerd is met korrelbreedte 48 . Aangenomen wordt dat de peptidase s8- en s53-genfamilies een grote evolutionaire expansie in bruine algen hebben ondergaan, en populatiegenoomstudies hebben aangetoond dat deze genfamilies kunstmatig werden geselecteerd tijdens de domesticatie van S. japonica 49 . Verder onderzoek zou de directe relatie van deze genen met de lengte en breedte van het blad moeten onderzoeken.

De uitdrukkingsverschillen in vier Tic20 genen in de ouderlijke genotypen op de vier kweekdata werden onderzocht (Fig. 3). Of deze nu Tic20 genen zijn betrokken bij het bepalen van bladlengte en bladbreedte in S. japonica, moet nog worden geverifieerd. In de toekomst zouden NIL (nabij isogene lijnen) of CSSL (chromosoomsegmentvervangingslijnen) kunnen worden geconstrueerd om op een kaart gebaseerde klonering van de genen in het QTL-gebied mogelijk te maken, of RNAi zou kunnen worden gebruikt om de functies van deze genen in de groei van kelp te verifiëren 50,51 .

Concluderend werd een genetische koppelingskaart met hoge dichtheid met 7627 SNP's geconstrueerd voor QTL-analyses van bladlengte en -breedte in S. japonica. Veel van 12 QTL's bleken geassocieerd te zijn met bladlengte en 10 met bladbreedte. De kandidaatgenen die aan deze QTL-intervallen zijn toegewezen, omvatten 14 Tic20 genen en drie peptidase s8- en s53-genen, die werden voorgesteld als kandidaatgenen voor bladlengte en -breedte in S. japonica. De geïdentificeerde locaties van QTL's die zowel de lengte als de breedte van het blad regelen in S. japonica zou moeten leiden tot markers die een efficiëntere MAS mogelijk maken voor deze twee eigenschappen in toekomstige fokkerij.


GEN-bestandsindeling, SNP's en allelen - Biologie

Welkom op de website van GenAlEx 6.5!

GenAlEx: Genetische analyse in Excel is een populair platformoverschrijdend pakket voor populatiegenetische analyse dat wordt uitgevoerd in Microsoft Excel. GenAlEx biedt analyse van codominante, haploïde en binaire genetische loci en DNA-sequenties. Zowel op frequentie gebaseerde (F-statistieken, heterozygotie, HWE, populatietoewijzing, verwantschap) als op afstand gebaseerde (AMOVA, PCoA, Mantel-tests, multivariate ruimtelijke autocorrelatie) analyses worden verstrekt. In GenAlEx 6.5 introduceren we opwindende nieuwe functies, waaronder de berekening van nieuwe schatters van de populatiestructuur: G'ST , G''ST , Jost's D est en F'ST via AMOVA, Shannon-informatieanalyse, koppelingsonevenwichtanalyse voor biallele gegevens en heterogeniteit tests voor ruimtelijke autocorrelatieanalyse. Directe data-export wordt geleverd naar meer dan 30 andere softwarepakketten, en indirect via gangbare formaten naar veel meer pakketten. Er zijn ook nieuwe onderwijshandleidingen en extra stapsgewijze opties inbegrepen. De uitgebreide, onafhankelijk geschreven handleiding is volledig herzien.

Ga naar Download om GenAlEx 6.503 te verkrijgen of om de bètaversie van GenAlEx 6.51 te testen!

GenAlEx 6.5 (Peakall en Smouse 2006, 2012) biedt een breed scala aan populatiegenetische analyse-opties voor het volledige spectrum van genetische markers binnen de Microsoft Excel-omgeving op zowel pc- als Macintosh-computers. In combinatie met zijn gebruiksvriendelijke interface, rijke grafische output voor gegevensverkenning en publicatie, tools voor gegevensmanipulatie en exportopties naar vele andere softwarepakketten, zijn we van mening dat GenAlEx een ideaal startpunt biedt voor populatiegenetische analyse door studenten, docenten en onderzoekers gelijk.

Publicaties over GenAlEx

Peakall, R. en Smouse P.E. (2012) GenAlEx 6.5: genetische analyse in Excel. Populatiegenetische software voor onderwijs en onderzoek - een update. Bio-informatica 28, 2537-2539.

* Peakall, R. en Smouse P.E. (2006) GENALEX 6: genetische analyse in Excel. Populatiegenetische software voor onderwijs en onderzoek. Moleculaire ecologie Opmerkingen 6, 288-295.

*In juni 2018 geeft Google Scholar aan dat het aantal citaties voor GenAlEx de 14.000 overschrijdt! We danken de vele gebruikers voor het gebruiken en citeren van GenAlEx!

Merk op dat in 2013 GenAlEx 6.501 werd uitgebracht als een kritieke update voor alle GenAlEx-gebruikers! Lees de pdf's Release History en Read Me in het downloadpakket voor cruciale informatie over de verbeteringen en bugfixes.

GenAlEx 6.503 - Uitgebracht in december 2016

Deze release voor Excel 2016 in Windows bood nieuwe toegang tot alle GenAlEx-opties via het Excel-lint, terwijl het tegelijkertijd achterwaarts compatibel bleef met Excel 2010. Vóór deze release was alle toegang tot GenAlEx-opties via het GenAlEx-menu. De locatie van het GenAlEx-menu is afhankelijk van de gebruikte versie van Excel en het besturingssysteem. Het Excel-lint biedt nu een gemeenschappelijke interface en toegangspunt tot GenAlEx-opties in Excel-versies en besturingssystemen.

Recente tests geven aan dat de functionaliteit van Visual Basic for Applications (VBA) op de Macintosh in toenemende mate wordt verbeterd door Microsoft. Bijgevolg kunnen de meeste GenAlEx-opties nu worden uitgevoerd in GenAlEx 2016 op de Macintosh via het lint, hoewel er nog enkele kleine problemen met het dialoogvenster en de lintknop zijn. Deze kleine, meestal cosmetische problemen moeten nog volledig worden opgelost. Onze excuses aan onze al lang bestaande GenAlEx-gebruikers op de Macintosh voor deze problemen die buiten onze controle liggen.

GenAlEx 6.51b2 - Verschenen in juni 2018

In deze bètaversie van GenAlEx 6.51 bieden we de nieuwe QDiver-analyseoptie die in onze publicatie is geïntroduceerd:

Smouse, P.E., Banks, S.C. en Peakall, R. (2017) Kwadratische entropie omzetten in diversiteit: zowel dieren als allelen zijn divers, maar sommige zijn meer divers dan andere. PLOS ONE 12, e0185499.


Referentie bestandsindeling

Een tekstbestand met een kopregel en vervolgens één regel per set of polymorfe variant met de volgende 8-11 velden:

CHRChromosoomcode. Niet aanwezig bij set testen.
'SNP'/'SET'Variant/set-ID
UNADJNiet-aangepaste p-waarde
GCDevlin & Roeder (1999) genomische controle gecorrigeerde p-waarde. Vereist een additief model.
QQP-waarde kwantiel. Alleen aanwezig met 'qq-plot'-modifier.
BONFBonferroni-correctie
HOLMHolm-Bonferroni (1979) aangepaste p-waarde
SIDAK_SS&Scaronid´k in één stap aangepaste p-waarde
SIDAK_SD&Scaronid´k step-down aangepaste p-waarde
FDR_BHBenjamini & Hochberg (1995) voeren controle op valse ontdekkingen op
FDR_BYBenjamini & Yekutieli (2001) voeren valse ontdekkingscontrole op

Varianten/sets worden gesorteerd in p-waardevolgorde. (Als resultaat, als het QQ-veld aanwezig is, nemen de waarden ervan gewoon lineair toe.)

.allele.no.snp (allel mismatch rapport)

Geproduceerd door --update-alleles wanneer er een mismatch is tussen de geladen allelen voor een variant en kolommen 2-3 van het --update-alleles invoerbestand.

Een tekstbestand zonder kopregel en één regel per niet-overeenkomende variant met de volgende drie velden:

  1. Variant-ID
  2. Verwacht allel #1 (van --update-alleles invoerbestand)
  3. Verwacht allel #2
.assoc, .assoc.fisher (case/control associatie allelische testrapport)

Geproduceerd door --assoc handelend op een case/control fenotype.

Een tekstbestand met een kopregel en vervolgens één regel per variant, meestal met de volgende 9-10 velden:

CHRChromosoomcode
SNPVariant-ID
BPCoördinaat basenpaar
A1Allel 1 (meestal klein)
FAAllel 1-frequentie onder gevallen
F_UAllel 1-frequentie onder bedieningselementen
A2allel 2
CHISQAllelische test chikwadraatstatistiek. Niet aanwezig met 'fisher'/'fisher-midp' modifier.
PAllelische test p-waarde
OFodds(allel 1 | case) / odds(allel 1 | control)

Als de 'counts'-modifier aanwezig is, worden de 5e en 6e velden vervangen door:

C_AAllel 1 telt onder de gevallen
C_UAllel 1 telling onder controles

Als --ci 0.xy ook is opgegeven, zijn er drie extra velden aan het einde:

SEStandaardfout bij schatting van de oddsratio
LxyBodem van xy% symmetrisch ca. betrouwbaarheidsinterval voor odds ratio
HxyBovenkant van xy% ca. betrouwbaarheidsinterval voor odds ratio

.assoc.dosage (analyserapport doseringsassociatie)

Een tekstbestand met een kopregel, en dan meestal één regel per variant met de volgende 8-10 velden:

CHRChromosoomcode. Vereist --map.
SNPVariant-ID.
BPCoördinaat van het basenpaar. Vereist --map.
A1Allel 1 (meestal klein)
A2Allel 2 (meestal majeur)
FRQAllel 1 frequentie
INFOR-kwadraat kwaliteitsstatistiek/informatie-inhoud
'BTA'/'OF'Regressiecoëfficiënt (voor kwantitatieve eigenschappen) of odds ratio
SEStandaardfout van schatting van effect (geen oddsratio)
PAssociatietest p-waarde

Als de modifier 'case-control-freqs' aanwezig is, wordt de FRQ-kolom vervangen door FRQ_A- en FRQ_U-kolommen die respectievelijk case- en controlefrequenties rapporteren, en NCHROBS zal geen ontbrekende fenotype-monsters bevatten. (Tenzij het fenotype kwantitatief is in plaats van case/control, worden fenotypes genegeerd en zijn FRQ_A en FRQ_U beide gelijk aan de totale FRQ-waarde.)

.assoc.linear, .assoc.logistic (rapport voor analyse van multi-covariate associaties)

Een tekstbestand met een kopregel, en t regels per variant meestal met de volgende negen velden (waar t is normaal gesproken het aantal termen, maar de 'genotypische' en 'hethom' modifiers en de --tests vlag kunnen dit veranderen):

CHRChromosoomcode. Niet aanwezig met 'no-snp'-modifier.
SNPVariant-ID. Niet aanwezig met 'no-snp'.
BPCoördinaat van het basenpaar. Niet aanwezig met 'no-snp'.
A1Allel 1 (meestal klein). Niet aanwezig met 'no-snp'.
TOETSTest-ID
NMISSAantal waarnemingen (niet-ontbrekende genotype, fenotype en covariaten)
'BTA'/'OF'Regressiecoëfficiënt (--lineair, "--logistic beta") of odds ratio (--logistic zonder 'bèta')
STATT-statistiek
PAsymptotische p-waarde voor t-statistiek

Als --ci 0.xy ook is opgegeven, worden de volgende drie velden ingevoegd vóór 'STAT':

SEStandaardfout van bèta (log-odds) schatting
LxyBodem van xy% symmetrisch ca. Betrouwbaarheidsinterval
HxyBovenkant van xy% ca. Betrouwbaarheidsinterval

Raadpleeg de PLINK 1.07-documentatie voor meer informatie.

.auto.R (R-plug-in functie resultaten)

Een tekstbestand zonder kopregel en één regel per variant, elk met minimaal vier velden. De eerste vier zijn:

  1. Chromosoomcode
  2. Variant-ID
  3. Coördinaat basenpaar
  4. Allel 1 (overeenkomend met alleltellingen in GENO-matrix, meestal gering)

Daaropvolgende velden worden gedefinieerd door de plug-in-functie. Regels mogen verschillende aantallen velden bevatten.

.bcf (1000 Genomes Project binaire Variant Call Format, versie 2)

Variantinformatie + monster-ID + binair genotype-oproepbestand, geladen met --bcf. Kan momenteel niet worden gegenereerd door PLINK. Gebruik "--recode vcf<,-fid,-iid>" om voorlopig een VCF-bestand te maken.

De specificatie voor dit formaat staat op https://github.com/samtools/hts-specs.

.beagle.dat, .chr-*.dat, .chr-*.map (BEAGLE niet-gefaseerde genotype en variant informatiebestanden)

Geproduceerd door "--recode beagle[-nomap]", voor gebruik door BEAGLE. In de 'beagle'-modus wordt één bestandspaar gegenereerd per autosoom, terwijl in de 'beagle-nomap'-modus een enkel .beagle.dat-bestand wordt gegenereerd dat alle autosomen bevat. Dit formaat kan niet worden geladen met PLINK.

Elk door PLINK geproduceerd .dat-bestand is een tekstbestand met drie kopregels, gevolgd door één regel per variant met 2N+2 velden waar N is het aantal monsters:

1e kopregel2e kopregel3e kopregellatere inhoud
'P''L''A' voor C/C feno., 'T' voor scalair'M'
'FID''IID''PHE'Variant-ID
FID's, 2x per monster. IID's, 2x per monsterFenotypen, 2x per monsterAllel-oproepen (ongefaseerd)

Elk door PLINK geproduceerd .chr-*.map-bestand is een tekstbestand zonder kopregel en één regel per variant met de volgende vier velden:

  1. Variant-ID
  2. Coördinaat basenpaar
  3. Allel 1 (meestal klein), 'X' indien afwezig
  4. Allel 2 (meestal majeur), 'X' indien afwezig
.bed (PLINK binaire biallele genotypetabel)

Primaire representatie van genotype roept biallele varianten op. Moet vergezeld gaan van .bim- en .fam-bestanden. Geladen met --bfile gegenereerd in veel situaties, met name wanneer het --make-bed commando wordt gebruikt. Verwar dit niet met het BED-formaat van de UCSC Genome Browser, dat totaal anders is.

De eerste drie bytes moeten in die volgorde 0x6c, 0x1b en 0x01 zijn. (Er zijn oude versies van het .bed-formaat die met een ander "magisch getal" beginnen. PLINK 1.9 herkent ze, maar zal de voorbeeld-grote bestanden converteren naar het huidige variant-grote formaat op zicht. Zie onderaan de originele .bed-definitie pagina voor details die pagina bevat ook een meer uitgebreide versie van de onderstaande discussie.)

De rest van het bestand is een reeks van V blokken van N/4 (naar boven afgerond) bytes elk, waarbij V is het aantal varianten en N is het aantal monsters. Het eerste blok komt overeen met de eerste markering in het .bim-bestand, enz.

De twee bits van lage orde van de eerste byte van een blok slaan de genotypecode van het eerste monster op. ("Eerste monster" betekent hier het eerste monster dat wordt vermeld in het bijbehorende .fam-bestand.) De volgende twee bits slaan de genotypecode van het tweede monster op, enzovoort voor de 3e en 4e monsters. De tweede byte slaat genotypecodes op voor de 5e-8e samples, de derde byte slaat codes op voor de 9e-12e, enz.

De twee-bits genotypecodes hebben de volgende betekenissen:

00Homozygoot voor eerste allel in .bim-bestand
01Ontbrekend genotype
10Heterozygoot
11Homozygoot voor tweede allel in .bim-bestand

Indien N niet deelbaar is door vier, zijn de extra hoge-orde bits in de laatste byte van elk blok altijd nul.

Beschouw bijvoorbeeld de volgende tekstbestandenset:

test.ped:
1 1 0 0 1 0 G G 2 2 C C
1 2 0 0 2 0 A A 0 0 A C
1 3 1 2 1 2 0 0 1 2 A C
2 1 0 0 1 0 A A 2 2 0 0
2 2 0 0 2 2 A A 2 2 0 0
2 3 1 2 1 2 A A 2 2 A A

test.map:
1 snp1 0 1
1 snp2 0 2
1 snp3 0 3

Als u het in PLINK 1.9 laadt, wordt een .bed-bestand met de volgende reeks bytes automatisch gegenereerd (u kunt het bijvoorbeeld bekijken met Unix xxd):

0x6c 0x1b 0x01 0xdc 0x0f 0xe7 0x0f 0x6b 0x01

en het volgende .bim-bestand zal het vergezellen:

1 snp1 0 1 G A
1 snp2 0 2 1 2
1 snp3 0 3 A C

(Om het kort te houden, we reproduceren de .fam hier niet.) We kunnen het .bed-bestand als volgt ontleden:

  • De eerste drie bytes zijn het magische getal.
  • Aangezien er zes monsters zijn, heeft elk markeringsblok een grootte van 2 bytes (zes gedeeld door vier, naar boven afgerond). Dus genotypegegevens voor de eerste marker ('snp1') worden opgeslagen in de 4e en 5e bytes.
  • De 4e bytewaarde van 0xdc is 11 01 11 00 in binair. Aangezien de twee bits van lage orde '00' zijn, is het eerste monster homozygoot voor het eerste allel voor deze marker die wordt vermeld in het .bim-bestand, dat 'G' is. Het tweede monster heeft genotypecode '11', wat betekent dat ze homozygoot is voor het tweede allel ('A'). De code van het derde monster '01' duidt een ontbrekende genotype-aanroep aan, en de vierde code van '11' geeft een andere AA aan.
  • De 5e bytewaarde van 0x0f is 0000 11 11 in binair. Dit geeft aan dat de vijfde en zesde monsters ook het AA-genotype op snp1 hebben. Er is geen sample #7 of #8, dus de 4 bits van de hoogste orde van deze byte zijn nul.
  • De 6e en 7e bytes slaan genotypegegevens op voor de tweede marker ('snp2'). De 6e bytewaarde van 0xe7 is 11 10 01 11 in binair getal. De '11'-code voor het eerste monster betekent dat hij homozygoot is voor het tweede snp2-allel ('2'), de '01'-code voor het tweede monster geeft een ontbrekende oproep aan, de '10'-code voor het derde geeft een heterozygoot genotype aan , en '11' voor de vierde geeft een ander homozygoot '2' aan. De 7e bytewaarde van 0x0f geeft aan dat de vijfde en zesde monsters ook homozygote '2' genotypen hebben.
  • Ten slotte slaan de 8e en 9e bytes genotypegegevens op voor de derde marker ('snp3'). U kunt uw begrip van het bestandsformaat testen door dit met de hand te interpreteren en vervolgens te vergelijken met het .ped-bestand hierboven.
.bim (PLINK uitgebreid MAP-bestand)

Uitgebreid variantinformatiebestand bij een .bed binaire genotypetabel. (--make-just-bim kan worden gebruikt om alleen dit bestand bij te werken.)

Een tekstbestand zonder kopregel en één regel per variant met de volgende zes velden:

  1. Chromosoomcode (een geheel getal, of 'X'/'Y'/'XY'/'MT' '0' geeft onbekend aan) of naam
  2. Variant-ID
  3. Positie in morganen of centimorganen (veilig te gebruiken dummywaarde '0')
  4. Basepaarcoördinaat (gebaseerd op 1 beperkt tot 2 31 -2)
  5. Allel 1 (komt overeen met duidelijke bits in .bed, meestal klein)
  6. Allel 2 (komt overeen met setbits in .bed, meestal majeur)

Allelcodes kunnen meer dan één teken bevatten. Varianten met negatieve bp-coördinaten worden door PLINK genegeerd.

.blocks, .blocks.det (haplotype-blokken, geschat met behulp van het standaardalgoritme van Haploview)

.blocks-bestanden bevatten één regel per blok, elk met een asterisk gevolgd door variant-ID's.

.blocks.det-bestanden hebben een kopregel, gevolgd door één regel per blok met de volgende zes velden:

CHRChromosoomcode
BP1Eerste basenpaarcoördinaat
BP2Laatste basenpaarcoördinaat
KBBloklengte in kbs
NSNPSAantal varianten in blok
SNPS'|'-gescheiden variant-ID's

.clst (clusterlidmaatschapsbestand)

Geproduceerd door --write-cluster. Geldige invoer voor --within.

Een tekstbestand zonder kopregel en één regel per voorbeeld met de volgende drie velden:

Monsters mogen niet meer dan één keer voorkomen.

.clumped, .clumped.best, .clumped.ranges (opnieuw verwerkte LD-clumped rapporten)

Het .clumped-bestand heeft normaal gesproken één kopregel, gevolgd door één regel per indexvariant (laagste p-waarden eerst) met de volgende 11-12 velden:

CHRChromosoomcode
F1-gebaseerd bestandsnummer
SNPIndexvariant-ID
BPCoördinaat basenpaar
PIndexvariant p-waarde
TOTAALAantal andere varianten in klomp
NSIGAantal samengeklonterde varianten met p &ge .05
S05Aantal samengeklonterde varianten met .01 &le p < .05
S01Aantal samengeklonterde varianten met .001 &le p < .01
S001Aantal samengeklonterde varianten met .0001 &le p < .001
S0001Aantal geklonterde varianten met p < .0001
SP2Door komma's gescheiden ID's en bestandsnummers van leden met p < --clump-p2 drempel. Niet aanwezig met --clump-verbose.

Met --clump-verbose wordt de kopregel hierboven herhaald voor elk klonter, in plaats van slechts één keer te verschijnen, en onderbroken lijnverdelers zijn aanwezig tussen klonten. Elke niet-lege klomp heeft ook zijn eigen subsectie, met de verschillende kopregel eronder, één regel die overeenkomt met de indexvariant (met '(INDEX)' voor de variant-ID), een lege regel en vervolgens één regel voor elk ander klomplid met de volgende 6-7 velden:

(blank)Variant-ID
KB[huidige variant bp-coördinaat] - [index bp-coördinaat], ondertekend
RSQKwadratische correlatiecoëfficiënt met indexvariant
ALLELESKlein allel voor indexvariant, anders vaker dan verwachte haplotypes
F1-gebaseerd bestandsnummer
PP-waarde
ANNOTDoor komma's gescheiden extra velden. Vereist --clump-annotate.

Elke niet-lege klomp heeft ook de volgende 2-3 voettekstregels:

  1. 'RANGE:', gevolgd door ' chr <#> : <bp1> .. <bp2>' (inclusief --clump-range-border padding)
  2. 'SPAN:', gevolgd door bereiklengte in kbs
  3. "GENES w/SNPs:", gevolgd door namen van regio's die ten minste één variant in de klomp bevatten (alleen aanwezig met --clump-range)

Ten slotte, met --clump-range + --clump-verbose, is er een laatste voettekst die begint met 'GENES:', gevolgd door namen van regio's die fysiek de klomp overlappen. (Dit wordt zelfs gemeld voor lege klonten.)

Als --clump-range wordt gebruikt zonder --clump-verbose, worden regio-overlappingen in plaats daarvan gerapporteerd in een apart .clumped.ranges-bestand. Deze heeft een kopregel, gevolgd door één regel per klomp met de volgende zeven velden:

CHRChromosoomcode
SNPIndexvariant-ID
PIndex variant p-waarde
NAantal varianten in klomp (inclusief indexvariant)
POSBereik van basenparen, als ' chr <#> : <bp1> .. <bp2>' (inclusief --clump-range-border padding)
KBBereiklengte in kbs (d.w.z. (<bp2> - <bp1> + 1) / 1000)
BEREIKENDoor komma's gescheiden namen van overlappende --clump-range regio's, tussen haakjes

Als ten slotte --clump-best is opgegeven, wordt een .clumped.best-bestand gegenereerd. Dit heeft een kopregel, gevolgd door één regel per klomp met de volgende 7-8 velden:

INHOUDSOPGAVEIndexvariant-ID
PSNPID van de beste proxy (maximaal r-kwadraat), of 'NA' als er geen is
RSQKwadratische correlatiecoëfficiënt tussen index en proxy
KB<proxy bp-coördinaat> - <index bp-coördinaat>, ondertekend
PProxy p-waarde
ALLELESMeer voorkomende dan verwachte haplotypes
FProxy-bestandsnummer
(blank)Door komma's gescheiden extra velden voor proxyvariant. Vereist --clump-annotate.

.cluster1, .cluster2, .cluster3, .cluster3.missing (hiërarchische clusteringrapporten)

--cluster genereert normaal gesproken drie bestanden, met de extensies .cluster1, .cluster2 en .cluster3[.missing]. Het .cluster2-bestand deelt het .clst-formaat, dus het is geldige invoer voor --within. De andere twee bestanden zijn ook tekstbestanden zonder kopregel.

.cluster1-bestanden bevatten één regel per cluster, met een clusternaam ervoor ('SOL-0', 'SOL-1', . ), gevolgd door ID's van de clusterleden (opgemaakt als FID + '_' + IID + mogelijk case/control-status tussen haakjes).

.cluster3[.missing]-bestanden bevatten één regel per sample, met hun FID en IID als de eerste twee velden (niet samengevoegd met een onderstrepingsteken hier), gevolgd door een reeks niet-negatieve gehele getallen die de clustertoewijzing van het monster in elke fase van het clusteringproces vertegenwoordigen.

.cmh (Cochran-Mantel-Haenszel 2x2xK testrapport)

Een tekstbestand met een kopregel en vervolgens één regel per variant met de volgende 12-14 velden (waarbij 0.xy is de --ci parameter, of 0.95 als er geen is opgegeven):

CHRChromosoomcode
SNPVariant-ID
BPCoördinaat basenpaar
A1Allel 1 (meestal klein)
MAFAllel 1 frequentie
A2Allel 2 (meestal majeur)
CHISQCochran-Mantel-Haenszel statistiek (1df)
PAsymptotische p-waarde voor CMH-teststatistiek
OFCMH odds ratio
SEStandaardfout bij schatting van de oddsratio
LxyBodem van xy% symmetrisch ca. Betrouwbaarheidsinterval
HxyBovenkant van xy% ca. Betrouwbaarheidsinterval
CHISQ_BDBreslow-Day-teststatistiek. Vereist --bd.
P_BDAsymptotische p-waarde voor Breslow-Day-teststatistiek. Vereist --bd.

.cmh2 (Cochran-Mantel-Haenszel IxJxK testrapport)

Een tekstbestand met een kopregel en vervolgens één regel per variant met de volgende vijf velden:

CHRChromosoomcode
SNPVariant-ID
CHISQCochran-Mantel-Haenszel IxJxK teststatistiek
DFChi-kwadraat vrijheidsgraden
PAsymptotische p-waarde

(DF werd niet rechtstreeks gerapporteerd door PLINK 1.07.)

.cnv (gesegmenteerde gegevens over kopienummers)

Geproduceerd door nabewerking van de uitvoer van Birdsuite of een vergelijkbaar pakket. Geladen met --cnv-list/--cfile. Moet vergezeld gaan van een .fam-bestand.

Een tekstbestand met een optionele kopregel en één regel per segmentoproep met de volgende acht velden:

FIDGezins-ID
IIDID binnen het gezin
CHRChromosoomcode
BP1Eerste basenpaarcoördinaat
BP2Laatste basenpaarcoördinaat
TYPEAantal exemplaren van variant
SCOREBetrouwbaarheidsscore geassocieerd met variant (veilig te gebruiken dummywaarde '0')
SITESAantal sondes in de variant (veilig te gebruiken dummywaarde '0')

.cnv.indiv (samenvatting per steekproefsegment)

Geproduceerd wanneer het laden van --cfile/--cnv-list is voltooid.

Een tekstbestand met een kopregel en één regel per voorbeeld met de volgende 6-7 velden:

FIDGezins-ID
IIDID binnen het gezin
PHfenotype
NSEGAantal segmenten dat steekproef heeft
KBTotale kilobase-afstand overspannen door segmenten
KBAVGGemiddelde segmentgrootte
GRAAF (Alleen aanwezig bij --cnv-count, dat nog niet is geïmplementeerd.)

.cnv.overlap (overlappend CNV-segmentrapport)

Een tekstbestand met een kopregel en één regel per overlap met de volgende vijf velden:

FIDGezins-ID
IIDID binnen het gezin
CHRChromosoomcode
BP1Segmentstart (eenheden van basenparen)
BP2Segment einde

.cnv.summary (CNV-samenvatting per variant)

Geproduceerd wanneer het laden van --cfile/--cnv-list is voltooid.

Een tekstbestand met een kopregel en één regel per variant met de volgende vijf velden:

CHRChromosoomcode
SNPVariant-ID
BPCoördinaat basenpaar
AFFCNV-telling bij variant, alle gevallen
UNAFFCNV-telling bij variant, alle bedieningselementen

.cov (covariabele tabel)

Geproduceerd door --write-covar, --make-bed en --recode wanneer een covariabele invoertabel is genoemd met --covar. Geldige invoer voor --covar.

Een tekstbestand met een kopregel en één regel per voorbeeld met de volgende 2+C of 6+C velden (waar C is het aantal covariaten):

FIDGezins-ID
IIDID binnen het gezin
PATID van de vader binnen het gezin. Vereist --with-fenotype zonder 'geen-ouders'.
MATID van de moeder binnen het gezin. Vereist --with-fenotype zonder 'geen-ouders'.
SEKSSeks. Vereist --with-fenotype zonder 'geen seks'.
FENOTYPEBelangrijkste fenotypewaarde. Alleen aanwezig met --with-fenotype.
Covariabele ID's. Covariabele waarden

Merk op dat --covar ook kan worden gebruikt met bestanden zonder een koprij.

.dfam (sib-TDT associatierapport)

Een tekstbestand met een kopregel, en dan één regel per variant met de volgende acht velden:

CHRChromosoomcode
SNPVariant-ID
A1Allel 1 (meestal klein)
A2Allel 2 (meestal majeur)
OBSAantal waargenomen A1-allelen
EXPVerwacht aantal A1-allelen
CHISQSib-TDT-teststatistiek
PAsymptotische p-waarde voor sib-TDT-teststatistiek

.diff (conflictrapport samenvoegen)

Geproduceerd door --merge/--bmerge + --merge-mode 6 of 7.

Een tekstbestand met een kopregel en vervolgens één regel per conflict met de volgende vijf velden:

SNPVariant-ID
FIDGezins-ID
IIDID binnen het gezin
NIEUWEGenotype in samenvoegbestandsset (genoemd in --merge/--bmerge)
OUDGenotype in referentiebestandsset (geladen met bijvoorbeeld --bfile)

.dist (genomische Hamming-afstandsmatrix)

Een door tabs gescheiden tekstbestand dat ofwel lager driehoekig is (de eerste regel heeft slechts één item met de <genome 1-genoom 2> Hamming-afstand, de tweede regel heeft twee items met de <genome 1-genome 3> en <genome 2-genome 3> Hamming-afstanden in die volgorde, enz.) of vierkant. Als het vierkant is, kan de driehoek rechtsboven op nul worden gesteld of het spiegelbeeld van de driehoek linksonder, afhankelijk van of de modifier 'square0' of 'square' is gebruikt.

Wanneer ontbrekende waarden aanwezig zijn, worden de betrokken onbewerkte Hamming-afstanden opnieuw geschaald om vergelijkbaar te zijn met paarsgewijze afstanden die niet worden beïnvloed door ontbrekende gegevens.

.dupvar (duplicaat-positie-en-allelen variant rapport)

Normaal gesproken een door tabs gescheiden tekstbestand met een kopregel, gevolgd door één regel per dubbele variantgroep met de volgende 4 kolommen:

CHRChromosoomcode
POSCoördinaat basenpaar
ALLELESDoor komma's gescheiden allelcodes
IDSRuimte-gescheiden variant-ID's

Met de 'alleen-id'-modifier worden de koptekst en de positie/allel-kolommen weggelaten, alleen door spaties gescheiden lijsten met variant-ID's blijven over. (Dit formulier is direct bruikbaar met --extract/--exclude.)

Met 'require-same-ref' (en zonder 'ids-only') wordt de kolom ALLELES vervangen door de volgende twee kolommen:

REFA2 allel
ALTA1-allel (wordt een door komma's gescheiden lijst in PLINK 2.0)

.eigenvec, .eigenvec.var (hoofdcomponenten)

Geproduceerd door --pca. Vergezeld van een .eigenval-bestand, dat één eigenwaarde per regel bevat.

Het .eigenvec-bestand is standaard een door spaties gescheiden tekstbestand zonder kopregel en 2+V kolommen per monster, waarbij V is het aantal gevraagde hoofdcomponenten. De --pca 'header' modifier zorgt ervoor dat er een kopregel wordt geschreven, en de 'tabs' modifier maakt dit bestand tab-gescheiden. De eerste twee kolommen zijn de FID/IID van het monster en de rest zijn de gewichten van de hoofdcomponenten in dezelfde volgorde als de .eigenval-waarden (als de kopregel aanwezig is, hebben deze kolommen de titel 'PC1', 'PC2', . ).

Met de 'var-wts'-modifier wordt ook een .eigenvec.var-bestand gegenereerd. Het vervangt de FID/IID-kolommen door de kolommen 'CHR', 'VAR', 'A1' en 'A2' die respectievelijk chromosoomcodes, variant-ID's, A1-allelen en A2-allelen bevatten, anders zijn de formaten identiek.

.epi., .epi..summary (epistatische interactiescanrapporten)

Geproduceerd door --epistasis en --fast-epistasis. 'cc' secundaire extensie geeft een case/control-test aan, 'co' geeft "--fast-epistasis case-only" aan, en 'qt' geeft --epistasis lineaire regressie op een kwantitatieve eigenschap aan.

Het hoofdrapport is normaal gesproken een tekstbestand met een kopregel, gevolgd door één regel per variantpaar, waarbij de --epi1-drempel wordt gewist met de volgende 5-7 velden:

CHR1Variant 1 chromosoomcode
SNP1Variant 1 id
CHR2Variant 2 chromosoomcode
SNP2Variant 2 identificatie
'OR_INT'/'BETA_INT'Odds ratio (case/control) of regressiecoëfficiënt (QT). Vereist --epistase.
STATChi-kwadraat statistiek
DFChi-kwadraat vrijheidsgraden. Alleen aanwezig met 'boost'.
PChi-kwadraat p-waarde. Niet aanwezig met --fast-epistasis 'nop' modifier.

Het .summary-bestand is een tekstbestand met een kopregel, gevolgd door één regel per variant (of slechts één regel per variant in set #1, als 'set-by-set' of 'set-by-all' is opgegeven) met de volgende 7-8 velden:

CHRChromosoomcode
SNPVariant-ID
N_SIGAantal 'significante' (gebaseerd op --epi2-waarde) epistatische testresultaten
N_TOTTotaal aantal geldige testresultaten
PROPAandeel significant. Niet altijd aanwezig in tussenliggende --parallel bestanden.
BEST_CHISQGrootste chikwadraatstatistiek (bij benadering bij 'boost'-test en &le --epi1-drempel)
BEST_CHRChromosoom van de grootste statistische variant
BEST_SNPID van de grootste statistische variant

Voor de 'boost'-test komt de vermelding BEST_CHISQ/BEST_CHR/BEST_SNP soms niet overeen met de laagste p-waarde, aangezien DF variabel is.

Voor tests met twee sets, als variant v1 is in beide sets maar v2 is alleen in set #1, de v1-v2 test wordt alleen meegeteld in de v2 samenvatting rij. (Dit is een wijziging ten opzichte van PLINK 1.07.)

.fam (PLINK voorbeeldinformatiebestand)

Voorbeeldinformatiebestand bij een .bed binaire genotypetabel. (--make-just-fam kan worden gebruikt om alleen dit bestand bij te werken.) Ook gegenereerd door "--recode lgen" en "--recode rlist".

Een tekstbestand zonder kopregel en één regel per voorbeeld met de volgende zes velden:

  1. Gezins-ID ('FID')
  2. ID binnen het gezin ('IID' kan niet '0' zijn)
  3. Binnengezins-ID van vader ('0' als vader niet in dataset staat)
  4. Binnengezins-ID van moeder ('0' als moeder niet in dataset staat)
  5. Geslachtscode ('1' = man, '2' = vrouw, '0' = onbekend)
  6. Fenotypewaarde ('1' = controle, '2' = hoofdletter, '-9'/'0'/niet-numeriek = ontbrekende gegevens als hoofdletter/controle)

Met het gebruik van extra laadvlag(gen) kan PLINK ook sommige .fam-bestanden die een of meer van deze velden missen correct interpreteren.

Als er andere numerieke fenotypewaarden zijn dan <-9, 0, 1, 2>, wordt het fenotype geïnterpreteerd als een kwantitatieve eigenschap in plaats van als geval/controlestatus. In dit geval duidt -9 normaal gesproken nog steeds op een ontbrekend fenotype-gebruik --missing-phenotype als dit problematisch is.

Verschillende PLINK-commando's (bijv. --cluster) voegen de FID en IID samen met een onderstrepingsteken in hun rapporten, bijvoorbeeld een voorbeeld met FID = 'Chang' en IID = 'Christopher' zou worden aangeduid als 'Chang_Christopher'. We bewaren dit gedrag voor achterwaartse compatibiliteit, dus u moet het gebruik van onderstrepingstekens in FID's en IID's vermijden (overweeg '

Als uw case/control-fenotype is gecodeerd als '0' = control en '1' = case, moet u --1 opgeven om het correct te laden.

.flipscan, .flipscan.verbose (rapport over inconsistentie van hoofdletters/controlestrengen)

Het .flipscan-bestand is een tekstbestand met een kopregel en één regel per variant met de volgende 11 velden:

CHRChromosoomcode
SNPVariant-ID
BPCoördinaat basenpaar
A1Allel 1 (meestal klein)
A2Allel 2 (meestal majeur)
FAllel 1 frequentie
POSAantal positieve LD-overeenkomsten
R_POSPositieve LD match gemiddelde correlatie
NEGAantal negatieve LD-overeenkomsten
R_NEGNegatieve LD komt overeen met gemiddelde correlatie
NEGSNPSNegatieve LD-overeenkomst-ID('s), '|'-gescheiden

Als de 'uitgebreide' modifier aanwezig is, wordt ook een .flipscan.verbose-bestand gegenereerd. Dit is een tekstbestand met een kopregel en één regel per relevant variantpaar (d.w.z. indexvariant heeft ten minste één negatieve LD-overeenkomst en case- en/of controlecorrelatie heeft voldoende absolute waarde) met de volgende negen velden:

CHR_INDXChromosoomcode
SNP_INDXIndexvariant-ID
BP_INDXIndexvariant basenpaarcoördinaat
A1_INDXIndex variant allel 1
SNP_PAIRTweede variant-ID
BP_PAIRTweede variant basenpaarcoördinaat
A1_PAIRTweede variant allel 1
R_AAlleen geval-correlatie
R_UAlleen controle correlatie

.frq (basisrapport over allelfrequentie)

Geproduceerd door --freq. Geldige invoer voor --read-freq.

Een tekstbestand met een kopregel en vervolgens één regel per variant met de volgende zes velden:

CHRChromosoomcode
SNPVariant-ID
A1Allel 1 (meestal klein)
A2Allel 2 (meestal majeur)
MAFAllel 1 frequentie
NCHROBSAantal allelwaarnemingen

.frq.cc (case/control fenotype-gestratificeerd allelfrequentierapport)

Geproduceerd door "--freq case-control". Niet geldige invoer voor --read-freq.

Een tekstbestand met een kopregel, en dan één regel per variant met de volgende acht velden:

CHRChromosoomcode
SNPVariant-ID
A1Allel 1 (meestal klein)
A2Allel 2 (meestal majeur)
MAF_AAllel 1-frequentie in gevallen
MAF_UAllel 1-frequentie in bedieningselementen
NCHROBS_AAantal case-allelwaarnemingen
NCHROBS_UAantal controle-allelwaarnemingen

.frq.count (basisrapport over allelentellingen)

Een tekstbestand met een kopregel en vervolgens één regel per variant met de volgende zeven velden:

CHRChromosoomcode
SNPVariant-ID
A1Allel 1 (meestal klein)
A2Allel 2 (meestal majeur)
C1Allel 1 tel
C2Allel 2 tellen
G0Ontbrekend aantal genotypes (dus C1 + C2 + 2 * G0 is constant op autosomale varianten)

.frq.strat (geclusterd gestratificeerd allelfrequentierapport)

Geproduceerd door --freq bij gebruik met --within/--family. Niet geldige invoer voor --read-freq.

Een tekstbestand met een kopregel, en dan C regels per variant (waar C is het aantal clusters) met de volgende 8-9 regels:

CHRChromosoomcode
SNPVariant-ID
CLSTCluster-ID
A1Allel 1 (meestal klein)
A2Allel 2 (meestal majeur)
MAFAllel 1-frequentie in cluster
MACAllel 1 telling in cluster
NCHROBSAantal allelwaarnemingen in cluster

.frqx (rapport genotypetelling)

Geproduceerd door --freqx. Geldige invoer voor --read-freq.

Een tekstbestand met een kopregel, en dan één regel per variant met de volgende tien velden:

CHRChromosoomcode
SNPVariant-ID
A1Allel 1 (meestal klein)
A2Allel 2 (meestal majeur)
C(HOM A1)A1 aantal homozygoten
C(HET)Heterozygoot aantal
C(HOM A2)A2 homozygoot aantal
C(HAP A1)Haploïde A1-telling (inclusief mannelijk X-chromosoom)
C (HAP A2)Haploïde A2-telling
C(ONTMIST)Ontbrekend aantal genotype

.fst (fixatie-indexrapport)

Een tekstbestand met een kopregel en vervolgens één regel per autosomaal diploïde variant met de volgende vijf velden:

CHRChromosoomcode
SNPVariant-ID
POSCoördinaat basenpaar
NMISSAantal overwogen genotype-oproepen
FSTWright's FNS schatting, via de methode van Weir en Cockerham

.gen (Oxford genotype bestandsformaat)

Inheemse tekstgenotype-bestandsindeling voor Oxford statistische genetica-tools, zoals IMPUTE2 en SNPTEST. Moet altijd vergezeld gaan van een .sample-bestand. Geladen met --data/--gen, en geproduceerd door "--recode oxford".

Een tekstbestand zonder kopregel en één regel per variant met ofwel 3N+5 of 3N+6 velden waar N is het aantal monsters. Elke regel slaat informatie op voor een enkele SNP.

in de 3N+5 geval (komt overeen met de oorspronkelijke specificatie), de eerste vijf velden zijn:

  1. "SNP-ID"
  2. rsID (behandeld door PLINK als de hoofdvariant-ID)
  3. Coördinaat basenpaar
  4. Allel 1 (meestal klein)
  5. Allel 2 (meestal majeur)

Tenzij de chromosoomcode is aangegeven met --oxford-single-chr (in welk geval de SNP ID-kolom wordt genegeerd), heeft PLINK geen andere keuze dan aan te nemen dat de "SNP ID"-kolom daadwerkelijk chromosoomcodes opslaat. (Dit is de conventie wanneer PLINK een .gen-bestand met 5 voorloopkolommen exporteert.)

De nieuwere 3N+6-kolomsmaak heeft een speciale chromosoomkolom ervoor. Dit werd vóór 16 april 2021 niet ondersteund door PLINK 1.9 of 2.0.

Elke volgende triplet van waarden geeft vervolgens de waarschijnlijkheid aan van homozygote A1-, heterozygote en homozygote A2-genotypen bij deze SNP, respectievelijk, voor één monster. Als ze optellen tot minder dan één, is de rest een no-call-kansgewicht.

Aangezien het binaire formaat PLINK 1 geen waarschijnlijkheden van het genotype kan weergeven, worden oproepen met een onzekerheid groter dan 0,1 momenteel als ontbrekend beschouwd en de rest als harde oproepen. (Dit gedrag kan worden gewijzigd met --hard-call-threshold.) Deze beperking is verwijderd in PLINK 2.0.

.genome (identiteit-per-afstammingsrapport)

Geproduceerd door --genome. Geldige invoer voor --read-genome.

Een tekstbestand met een kopregel en één regel per paar verschillende voorbeelden, meestal met de volgende 14 velden:

FID1Gezins-ID van het eerste monster
IID1ID van het eerste monster binnen de familie
FID2Gezins-ID tweede monster
IID2ID van het tweede monster binnen het gezin
RTRelatietype afgeleid uit .fam/.ped-bestand
EZIBD deelt verwachte waarde, gebaseerd op alleen .fam/.ped-relatie
Z0P(IBD=0)
Z1P(IBD=1)
Z2P(IBD=2)
PI_HATAandeel IBD, d.w.z. P(IBD=2) + 0,5*P(IBD=1)
PHPaarsgewijze fenotypische code (1, 0, -1 = respectievelijk case-case, case-ctrl en ctrl-ctrl paren)
ZomertijdIBS-afstand, d.w.z. (IBS2 + 0,5*IBS1) / (IBS0 + IBS1 + IBS2)
PPCIBS binomiale test
VERHOUDINGHETHET : IBS0 SNP-ratio (verwachte waarde 2)

De stamboomrelatietypecodes zijn als volgt:

Met de 'volledige' modifier zijn er aan het einde vijf extra velden:

IBS0Aantal IBS 0 niet-ontbrekende varianten
IBS1Aantal IBS 1 niet-ontbrekende varianten
IBS2Aantal IBS 2 niet-ontbrekende varianten
HOMHOMAantal IBS 0 SNP-paren gebruikt in PPC-test
HETHETAantal IBS 2 het/het SNP-paren gebruikt in PPC-test

.grm (GCTA-tekstrelatiematrix)

Een tekstbestand zonder kopregel en één regel per paar voorbeelden (niet noodzakelijk verschillend) met de volgende vier velden:

  1. 1-gebaseerde index van eerste voorbeeld in .grm.id-bestand
  2. 1-gebaseerde index van tweede voorbeeld in .grm.id-bestand
  3. Aantal waarnemingen (varianten waarbij geen van beide monsters een ontbrekende oproep heeft)
  4. Relatiewaarde
.grm.N.bin, .grm.bin (GCTA 1.1+ driehoekige binaire relatiematrix)

Deze bestanden bevatten single-precision (4-byte) drijvende-kommawaarden. Met behulp van 1-gebaseerde matrixindices is de eerste waarde in elk bestand de (1, 1) relatiewaarde (.grm.bin) of observatietelling (.grm.N.bin). De tweede en derde waarde zijn de (2, 1 ) en (2, 2) relaties/tellingen de vierde tot en met zesde waarden zijn de (3, 1), (3, 2) en (3, 3) relaties/tellingen in die volgorde enzovoort.

Houd er rekening mee dat .grm.bin-bestanden die zijn gegenereerd door GCTA-versies vóór 1.1 een andere indeling hebben.

.gvar (genetische variantformaat)

Geproduceerd door pakketten zoals Birdsuite. Geladen met --gfile. Moet vergezeld gaan van .fam- en .map-bestanden.

Een tekstbestand zonder kopregel en één regel per variantaanroep met de volgende zeven velden:

  1. Gezins-ID
  2. ID binnen het gezin
  3. variantnaam
  4. Code voor allel van eerste ouder
  5. Kopieer nummer voor eerste allel (kan niet-geheel getal zijn)
  6. Code voor allel van tweede ouder
  7. Kopieer nummer voor tweede allel
.het (methode-van-momenten F coëfficiënt schattingen)

Een tekstbestand met een kopregel en één regel per voorbeeld met de volgende zes velden:

FIDGezins-ID
IIDID binnen het gezin
O(HOM)Waargenomen aantal homozygoten
E(HOM)Verwacht aantal homozygoten
N(NM)Aantal niet-ontbrekende autosomale genotypen
FMethod-of-momenten F coëfficiënt schatting

.hh (heterozygote haploïde en niet-mannelijke Y-chromosoom-oproeplijst)

Automatisch geproduceerd wanneer de invoergegevens heterozygote oproepen bevatten waar ze niet mogelijk zouden moeten zijn (haploïde chromosomen, mannelijk X/Y), of er zijn niet-ontbrekende oproepen voor niet-mannetjes op het Y-chromosoom.

Een tekstbestand met één regel per fout (voornamelijk gesorteerd op variant-ID, secundair op voorbeeld-ID) met de volgende drie velden:

.hom (run-of-homozygosity-lijst)

Geproduceerd wanneer een vlag in de --homozyg-familie aanwezig is. Vergezeld van minimaal een .hom.indiv en een .hom.summary bestand.

Een tekstbestand met een kopregel en één regel per run met de volgende dertien velden:

FIDGezins-ID
IIDID binnen het gezin
PHFenotype waarde
CHRChromosoomcode
SNP1ID van eerste SNP in run
SNP2ID van laatste SNP in run
POS1Basepaarcoördinaat van SNP1
POS2Basepaarcoördinaat van SNP2
KBLengte van de regio in kb
NSNPAantal SNP's in uitvoering
DICHTHEIDInverse SNP-dichtheid in kb/SNP
PHOMAandeel van de oproepen homozygoot
PHETAandeel gesprekken heterozygoot

Merk op dat PHOM + PHET kleiner dan 1 kan zijn als er ontbrekende oproepen zijn.

.hom.indiv (voorbeeldgebaseerd run-of-homozygosity-rapport)

Geproduceerd wanneer een vlag in de --homozyg-familie aanwezig is.

Een tekstbestand met een kopregel en één regel per voorbeeld met de volgende zes velden:

FIDGezins-ID
IIDID binnen het gezin
PHFenotype waarde
NSEGAantal runs van homozygotie
KBTotale lengte van de runs (kb)
KBAVGGemiddelde lengte van runs (kb)

.hom.overlap (lijst met run-of-homozygosity pool)

.hom.overlap-bestanden bevatten een kopregel, en P+2 lijnen per segmentpool (waar P is het aantal segmenten in de pool) met de volgende 13 velden:

kopEerst P lijnenLaatste twee regels
ZWEMBADPool-ID(dezelfde)
FIDGezins-ID'CON'/'UNIE'
IIDID binnen het gezinP
PHFenotype waarde[case ct]:[noncase ct]
CHRChromosoomcode(dezelfde)
SNP1ID van eerste SNP in segment(dezelfde)
SNP2ID van laatste SNP in segment(dezelfde)
BP1Basepaarcoördinaat van SNP1(dezelfde)
BP2Basepaarcoördinaat van SNP2(dezelfde)
KBLengte van de regio in kb(dezelfde)
NSNPAantal SNP's in uitvoering(dezelfde)
NSIMAantal overeenkomende segmenten in pool'NA'
GVKAllelische matchgroep (zie --homozyg-match)'NA'

De voorlaatste regel voor elke pool beschrijft het consensusovereenkomstsegment, terwijl de laatste regel de vereniging van alle segmenten in de pool beschrijft. Pools worden gescheiden door lege regels en voornamelijk gesorteerd op poolgrootte (grootste eerst) en secundair op fysieke positie. De eerste pool in het bestand heeft ID 'S1', de tweede pool heeft ID 'S2', enz.

PLINK 1.07's productie van dit bestand heeft een kleine bug en een paar eigenaardigheden (paarsgewijze allelische overeenkomsten worden beoordeeld op basis van (<# mismatches op joint-homozygote overlappende varianten> / <# van overlappende varianten>) in plaats van (<# mismatches op joint-homozygote overlappende varianten> / <# van joint-homozygote overlappende varianten>), in tegenstelling tot de documentatiepools worden gesorteerd op achteruit fysieke positie sommige ID-nummers zijn overgeslagen samples binnen een allelische matchgroep geschreven in een ongesorteerde volgorde) die niet worden gerepliceerd door PLINK 1.9.

.hom.overlap.S*.verbose (enkel ROH-poolrapport)

"--homozyg group-verbose" produceert ook één .hom.overlap. <pool ID> .uitgebreide bestand per zwembad. (Wees hier voorzichtig mee, zodat u niet per ongeluk uw hele harde schijf vol raakt.) Deze bestanden bevatten elk: G+3 secties, waar G is het aantal allelische matchgroepen. (Merk op dat dit formaat niet echt bedoeld was om machinaal leesbaar te zijn als er voldoende interesse is, kunnen we het in de toekomst opruimen.)

De eerste sectie heeft een kopregel, gevolgd door één regel per monster in de pool met de volgende vier velden:

(blank)'1)', '2)', enz.
FIDGezins-ID
IIDID binnen het gezin
GVKAllelische matchgroep (zonder '*'s achteraan)

Het eindigt met een enkele lege regel.

De tweede sectie heeft een kopregel, gevolgd door een lege regel, gevolgd door één regel per variant in de segmentunie met het volgende: P+1 velden:

SNPVariant-ID
'1', '2' enz.'/'-gescheiden genotype-aanroep, [tussen haakjes] wanneer het deel uitmaakt van een ROH

Er zijn enkele lege regels die het begin en einde van het consensusovereenkomstsegment markeren, en twee opeenvolgende lege regels aan het einde van dit gedeelte.

De volgende G secties beginnen elk met het volgende: S+6 kopregels (waar G is de 1-gebaseerde allel-match groepsindex, S is de grootte van de groep, en P is de 1-gebaseerde index die is toegewezen aan de steekproef in het eerste veld van de eerste sectie):

  • 1. 'Groep' G'
  • 2. (blanco lijn)
  • 3-(S+2). 4 velden: 'P)', FID, IID, fenotypewaarde
  • S+3. (lege regel)
  • S+4. (lege regel)
  • S+5. S+1 velden: 'SNP', P1, . PS
  • S+6. (lege regel)

Dit wordt gevolgd door één regel per variant met het volgende: S+2 velden:

  • 1. Variant-ID
  • 2. Consensus haplotype, of '?' als die er niet is
  • 3-(S+2). Genotype-aanroep uit sectie 2 (inclusief haakjes)

Enkele lege regels markeren het begin en einde van het consensusovereenkomstsegment, evenals het einde van de sectie.

Het laatste deel begint met twee extra lege regels, gevolgd door één regel per variant met het volgende: G+1 velden:

.hom.summary (SNP-gebaseerd run-of-homozygosity-rapport)

Geproduceerd wanneer een vlag in de --homozyg-familie aanwezig is.

Een tekstbestand met een kopregel en één regel per SNP met de volgende vijf velden:

CHRChromosoomcode
SNPVariant-ID
BPCoördinaat basenpaar
AFFAantal gevallen met een run-of-homozygosity inclusief deze SNP
UNAFFAantal niet-gevallen met een ROH inclusief deze SNP

Merk op dat monsters met ontbrekende fenotypes worden geteld in de kolom 'UNAFF'. Als het fenotype kwantitatief is, wordt iedereen meegeteld in 'UNAFF'.

.homog (chi-kwadraat verdeling odds ratio homogeniteit testrapport)

Een tekstbestand met een kopregel, gevolgd door K+3 regels per variant met de volgende 13 velden (waar K > 1 is het aantal clusters):

CHRChromosoomcode
SNPVariant-ID
A1Allel 1 (meestal klein)
A2Allel 2 (meestal majeur)
FAGeval A1 frequentie
F_UControle A1 frequentie
N_AAantal gevallen allelen
N_UAllelentelling controleren
TOETSType test: een van
CHISQChi-kwadraat associatiestatistiek
DFGraden van vrijheid
PAsymptotische p-waarde
OFOdds ratio

.hwe (Hardy-Weinberg evenwicht exacte teststatistiekenrapport)

Een tekstbestand met een kopregel en één regel per markering met de volgende negen velden:

CHRChromosoomcode
SNPVariant-ID
TOETSType test: een van
A1Allel 1 (meestal klein)
A2Allel 2 (meestal majeur)
GENO'/'-gescheiden genotype tellingen (A1 hom, het, A2 hom)
O(HET)Waargenomen heterozygote frequentie
E(HET)Verwachte heterozygote frequentie
PHardy-Weinberg evenwicht exacte test p-waarde

.ibc (GCTA inteeltcoëfficiëntrapport)

Een tekstbestand met een kopregel en één regel per voorbeeld met de volgende zes velden:

FIDGezins-ID
IIDID binnen het gezin
NIET MISAantal niet-ontbrekende genotype-oproepen
Fhat1Variantie-gestandaardiseerde relatie min 1
Fhat2Overmatige schatting van op homozygotie gebaseerde inteelt (hetzelfde als PLINK --het)
Fhat3Schatting gebaseerd op correlatie tussen het verenigen van gameten

.imiss (op steekproeven gebaseerd rapport met ontbrekende gegevens)

Geproduceerd door --missing, met een begeleidend .lmiss-bestand.

Een tekstbestand met een kopregel en één regel per voorbeeld met de volgende zes velden:

FIDGezins-ID
IIDID binnen het gezin
MISS_PHENOFenotype ontbreekt? (J/N)
N_MISSAantal ontbrekende genotype-aanroepen, exclusief verplichte ontbrekende of het. haploïden
N_GENOAantal mogelijk geldige oproep(en)
F_MISSOntbrekende gesprekssnelheid

.info (Haploview-kaartbestand)

Geproduceerd door "--recode HV[-1chr]", voor gebruik door Haploview. Begeleidt een .ped-bestand. Met "--recode HV" wordt één .ped + .info-bestandsset gegenereerd per chromosoom, en de volledige bestandsextensies hebben de vorm .chr- <chromosoomnummer> .info . Dit formaat kan niet worden geladen met PLINK.

Een tekstbestand zonder kopregel en één regel per variant met de volgende twee velden:

.lasso (schattingen van effectgrootte LASSO-variant)

Geproduceerd door --lasso. Geldige invoer voor --score.

Een tekstbestand met een kopregel en één regel per variant met de volgende vier velden:

CHRChromosoomcode (of 'COV' voor covariaten)
SNPVariant/covariaat-ID
A1Allel 1 (meestal kleine 'NA' voor covariaten)
EFFECTA1 effectgrootte schatting aan genormaliseerd fenotype ('NA' op monomorfe varianten)

.ld (intervariante correlatietabel of matrix)

Als een matrixindeling is aangevraagd, is de uitvoer gestructureerd als een .dist-bestand (door spaties gescheiden in plaats van door tabs gescheiden als 'spaties' is opgegeven), of het binaire equivalent ervan als de bestandsextensie eindigt op .bin. (Zie het R-codefragment onder de --distance-documentatie voor een voorbeeld van het laden van de binaire vorm.)

Als in plaats daarvan een tabelrapport is aangevraagd, bevat het bestand een kopregel, gevolgd door één regel per gefilterd variantpaar met de volgende 7-11 velden:

CHR_AChromosoomcode voor eerste variant
BP_ABasepaarcoördinaat van eerste variant
SNP_AID van eerste variant
MAF_AAllel 1-frequentie voor de eerste variant. Vereist 'met-freqs'.
CHR_BChromosoomcode voor tweede variant
BP_BBasepaarcoördinaat van tweede variant
SNP_BID van tweede variant
FASEIn-fase allelparen. Vereist 'in-fase'.
MAF_BAllel 1 frequentie voor tweede variant. Vereist 'met-freqs'.
'R'/'R2'Correlatiecoëfficiënt (kwadraat als --r2).
'D'/'DP'Koppelingsonevenwicht D, of Lewontin's D-priemgetal. Vereist 'd'/'dprime'/'dprime-signed'.

.ldset (rapport met hoge LD-varianten met dezelfde set)

Geproduceerd door --set-r2 wanneer de 'write' modifier aanwezig is.

Een tekstbestand zonder kopregel en één sectie per set. Een sectie heeft één regel voor elke variant in de set, te beginnen met de volgende twee velden:

Deze worden gevolgd door een (door spaties gescheiden) lijst met ID('s) van andere varianten met dezelfde set die paarsgewijs r 2 & ge 0,5 hebben met de huidige variant.

Merk op dat sets die geen significante varianten bevatten niet aanwezig zijn in dit rapport. Dit is een verandering ten opzichte van het gedrag van PLINK 1.07 --write-set-r2. (Gebruik "--set-p 1" als dit een probleem is.)

.lgen (PLINK lang genotypebestand)

Geproduceerd door "--recode lgen" en "--recode lgen-ref". Vergezeld van een .fam-, .map- en eventueel een .ref-bestand. Geladen met --lfile.

Een tekstbestand zonder kopregel en één regel per genotype-aanroep (of alleen niet-homozygote-major aanroepen als 'lgen-ref' werd aangeroepen) meestal met de volgende vijf velden:

  1. Gezins-ID
  2. ID binnen het gezin
  3. Variant-ID
  4. Allel call 1 ('0' voor ontbrekend)
  5. Allel oproep 2

Er zijn verschillende variaties die ook door PLINK worden behandeld, zie de originele discussie voor details.

.list (genotypelijstbestand)

Geproduceerd door "--recode list". Dit formaat kan niet worden geladen met PLINK.

Een tekstbestand zonder kopregel en vier regels per variant. Elke regel begint met de volgende drie velden:

Dit wordt gevolgd door twee extra velden (FID, dan IID) voor elk monster met de gespecificeerde genotype-aanroep bij de variant.

.lmiss (op varianten gebaseerd rapport over ontbrekende gegevens)

Geproduceerd door --missing, met een begeleidend .imiss-bestand.

Een tekstbestand met een kopregel, en K regel(s) per variant met de volgende 5-7 velden (waarbij K is het aantal cluster(s) als --in/--family is opgegeven, of 1 als dat niet zo is):

CHRChromosoomcode
SNPVariant-ID
CLSTCluster-ID. Alleen aanwezig bij --binnen/--familie.
N_MISSAantal ontbrekende genotype-aanroep(en), verplichte missen of het niet meegerekend. haploïden
N_CLSTClustergrootte (exclusief niet-mannetjes op chrY). Alleen aanwezig bij --binnen/--familie.
N_GENOAantal mogelijk geldige oproep(en)
F_MISSOntbrekende gesprekssnelheid

.map (PLINK tekstbestand met variantinformatiebestand)

Variant-informatiebestand bij een .ped-tekststamboom + genotypetabel. Ook gegenereerd door "--recode rlist".

Een tekstbestand zonder headerbestand en één regel per variant met de volgende 3-4 velden:

  1. Chromosoomcode. PLINK 1.9 staat hier ook contig-namen toe, maar de meeste oudere programma's niet.
  2. Variant-ID
  3. Positie in morganen of centimorganen (optioneel ook veilig om dummywaarde '0' te gebruiken)
  4. Coördinaat basenpaar

Alle regels moeten hetzelfde aantal kolommen hebben (dus geen regels bevatten de morgans/centimorgans-kolom, of alle regels bevatten).

.mdist (genomische afstandsverhoudingsmatrix)

Een tekstbestand dat door spaties wordt gescheiden als het wordt geproduceerd met --distance-matrix en anders door tabs wordt gescheiden. Vorm en inhoud zijn identiek aan die van .dist-bestanden, behalve dat alle waarden worden gedeeld door tweemaal het totale aantal varianten om ze te converteren van Hamming-afstanden naar breuken tussen 0 en 1.

.mdist.missing (identiteit-per-missing-matrix)

Een driehoekig, door spaties gescheiden tekstbestand met coëfficiënten voor identiteit per ontbrekendheid.

.mds (Haploview-vriendelijk multidimensionaal schaalrapport)

Een tekstbestand met een kopregel met het volgende: NS+3 velden (waar NS is het aantal gevraagde afmetingen), en één regel per monster met dezelfde velden:

FIDGezins-ID
IIDID binnen het gezin
SOLClusterindex (0-gebaseerd)
Cx. Positie op maat x (1-gebaseerde dimensie-indexen)

.mendel, .imendel, .fmendel, .lmendel (Mendel-foutrapporten)

Het .mendel-bestand is een tekstbestand met een kopregel en één regel per fout met de volgende zes kolommen:

FIDGezins-ID
KINDID kind binnen het gezin
CHRChromosoomcode
SNPVariant-ID
CODENumerieke foutcode
FOUTBeschrijving van de fout

Merk op dat '*/*' in de foutbeschrijving niet (noodzakelijkerwijs) verwijst naar een ontbrekende genotype-aanroep, het betekent dat er een Mendel-fout aanwezig is, ongeacht wat het genotype van die ouder is.

Het .lmendel-bestand heeft een kopregel en één regel per variant met de volgende drie kolommen:

CHRChromosoomcode
SNPVariant-ID
NAantal Mendel-fouten

Het .imendel-bestand heeft een kopregel en één subsectie per kerngezin. Elke subsectie bevat één regel per gezinslid met de volgende drie kolommen:

FIDGezins-ID
IIDID binnen het gezin
NAantal fouten met betrekking tot deze steekproef (alleen rekening houdend met het kerngezin)

Monsters kunnen meer dan één keer in dit bestand voorkomen.

Ten slotte heeft het .fmendel-bestand een kopregel en één regel per kerngezin met de volgende vijf kolommen:

FIDGezins-ID
PATID van de vader binnen het gezin (0 indien ontbreekt)
MATID van de moeder binnen het gezin (0 indien ontbreekt)
CHLDAantal nakomelingen in kerngezin
NAantal Mendel-fouten in het kerngezin

.meta (meta-analyse)

Een tekstbestand met een kopregel en vervolgens één regel per geanalyseerde variant met de volgende 8-(F+14) velden (waar F is het aantal invoerbestanden):

CHRChromosoomcode. Niet aanwezig met 'no-map'-modifier.
BPCoördinaat van het basenpaar. Niet aanwezig met 'no-map'-modifier.
SNPVariant-ID
A1Allel 1. Niet aanwezig met 'no-map' of 'no-allel' modifier.
A2Allel 2. Niet aanwezig met 'no-map' of 'no-allel' modifier.
NAantal geldige onderzoeken voor variant
PVaste effecten meta-analyse p-waarde
P(R)Random-effecten meta-analyse p-waarde
'BTA'/'OF'Bèta/OF-schatting met vaste effecten
'BTA(R)'/'OF(R)'Random-effecten BTA/OF schatting
Qp-waarde voor Cochran's Q-statistiek
lI 2 heterogeniteitsindex (0-100 schaal)
WEIGHTED_ZGewogen Z-score, zoals berekend door METAL. Vereist 'weighted-z'-modifier.
P(WZ)p-waarde voor gewogen Z-score. Vereist 'weighted-z'-modifier.
F[x].Studie x (0-gebaseerde invoerbestandsindexen) effectschatting. Vereist 'studie'-modifier.

.mibs (identiteit-per-staat matrix)

Een tekstbestand dat door spaties wordt gescheiden als het wordt geproduceerd met --distance-matrix en anders door tabs wordt gescheiden. Mogelijke vormen zijn dezelfde als voor .dist- en .mdist-bestanden. Elke waarde voor identiteit per staat is gelijk aan één minus de bijbehorende .mdist-waarde.

.missing (geval/controle niet-willekeurig ontbrekend testrapport)

Een tekstbestand met een kopregel en vervolgens één regel per niet-ontaarde variant met de volgende 5 velden:

CHRChromosoomcode
SNPVariant-ID
F_MISS_AOntbrekende oproepfrequentie, gevallen
F_MISS_UOntbrekende oproepfrequentie, bedieningselementen
PFisher's exact test p-waarde

.missing.hap (aangrenzend, op varianten gebaseerd, niet-willekeurig testrapport voor ontbrekende gegevens)

Een tekstbestand met een kopregel en vervolgens één sectie per autosomale diploïde variant met 5+ ontbrekende oproepen. Elke sectie bevat één regel per beschouwd flankerend haplotype, gevolgd door een 'HETERO'-lijn die flankerende heterozygotie omvat (slechts één flankerende oproep hoeft heterozygoot te zijn), met de volgende 9 velden:

SNPCentrale variant-ID
HAPLOTYPEHaplotype allel(en), of 'HETERO'
F_0Haplotype frequentie, centrale oproep ontbreekt
F_1Haplotype-frequentie, centrale oproep niet-ontbrekend
M_H1#(centrale oproep ontbreekt, deze hap.) / #(centrale oproep ontbreekt, deze hap.)
M_H2#(centrale oproep ontbreekt, andere hap.) / #(centrale oproep ontbreekt, andere hap.)
CHISQChi-kwadraat statistiek
PChi-kwadraat p-waarde
FLANKENFlankerende variant-ID('s), '|'-gescheiden

Haplotype-frequenties worden geschat via het EM-algoritme.

.model (case/control volledig modelassociatierapport)

Een tekstbestand met een kopregel, en dan 1-5 regels per variant met de volgende 8-10 velden:

CHRChromosoomcode
SNPVariant-ID
A1A1-allel (meestal klein)
A2A2-allel (meestal groot)
TOETSType test: een van
AFF'/'-gescheiden genotype of alleltellingen onder gevallen
UNAFF'/'-gescheiden genotype of alleltellingen onder controles
CHISQChi-kwadraat statistiek. Niet aanwezig met 'fisher'/'fisher-midp' modifier.
DFChi-kwadraat vrijheidsgraden. Niet aanwezig bij 'fisher'/'fisher-midp'.
PP-waarde

Merk op dat de Cochran-Armitage trendtest is gebaseerd op de volledige 2x3 genotype contingentietabel, ook al wordt alleen de 2x2 alleltellingtabel weergegeven in de AFF/UNAFF kolommen op die regel.

.*.mperm (max(T) permutatie testrapport)

Geproduceerd door verschillende associatie-analysecommando's wanneer de 'mperm=<value>'-modifier wordt gebruikt.

Een tekstbestand met een kopregel, en dan meestal één regel per variant met de volgende vier velden:

CHRChromosoomcode
SNPVariant-ID
EMP1Empirische p-waarde (puntsgewijs), of permutatietelling met lagere p-waarde
Large2Gecorrigeerde empirische p-waarde (max(T) familywise) of aantal permutaties

In het geval --linear/--logistic no-snp is er in plaats daarvan één regel per variabele met de volgende drie velden:

TOETSTest-ID
EMP1Empirische p-waarde of permutatietelling met lagere p-waarde
NPAantal uitgevoerde permutaties

.nearest (afstandsrapport dichtstbijzijnde buur)

Een tekstbestand met een kopregel, en n2-n1+1 regels per monster met de volgende 7-8 velden:

FIDGezins-ID
IIDID binnen het gezin
NNDichtstbijzijnde niveau
MIN_DSTIBS-afstand van de NNe naaste buur
ZZ-score van MIN_DST
FID2FID van NNe naaste buur
IID2IID van NNe naaste buur
PROP_DIFFAandeel buren onder --ppc drempel. Niet aanwezig zonder --ppc.

.occur.dosage (rapport over optreden van variant van doseringsgegevens)

Een tekstbestand zonder kopregel en één regel per variant met de volgende 2 velden:

.out.dosage (samengevoegd doseringsgegevensbestand)

Een tekstbestand met een kopregel en één regel per variant met de volgende 3 beginvelden:

SNPVariant-ID
A1Allel 1 (meestal klein)
A2Allel 2 (meestal majeur)

Dit wordt gevolgd door N 2-veldblokken in de kopregel (met FID/IID's), en N blokken van m doseringsgegevensvelden in volgende regels (waar m is de --dosage 'format' parameter).

.ped (PLINK/MERLIN/Haploview tekst stamboom + genotype tabel)

Origineel standaard tekstformaat voor voorbeeldstamboominformatie en genotype-oproepen. Normaal gesproken moet dit vergezeld gaan van een .map-bestand. Haploview heeft in plaats daarvan een begeleidend .info-bestand nodig. Geladen met --file, en geproduceerd door --recode.

Bevat geen kopregel en één regel per monster met 2V+6 velden waar V is het aantal varianten. De eerste zes velden zijn dezelfde als die in een .fam-bestand. Het zevende en achtste veld zijn allel-oproepen voor de eerste variant in het .map-bestand ('0' = geen oproep), het 9e en 10e zijn allel-oproepen voor de tweede variant enzovoort.

Als alle allelen uit één teken bestaan, zal PLINK 1.9 de meer compacte "samengestelde genotype"-variant van dit formaat correct ontleden, waarbij elke genotype-aanroep wordt weergegeven als een enkele reeks van twee tekens. Hiervoor is geen extra laadvlag nodig. U kunt zo'n bestand maken met "--recode compound-genotypes".

.*.perm (adaptieve permutatie testrapport)

Geproduceerd door verschillende associatie-analysecommando's wanneer de 'perm'-modifier wordt gebruikt.

Een tekstbestand met een kopregel en vervolgens één regel per variant met de volgende 4-7 velden:

CHRChromosoomcode
SNPVariant-ID
BTARegressiehelling voor echte gegevens. Alleen aanwezig met "--qfam emp-se".
EMP_BETASteekproefgemiddelde van permutatieregressiehellingen. Alleen aanwezig met "--qfam emp-se".
EMP_SEVoorbeeld stdev van permutatieregressiehellingen. Alleen aanwezig met "--qfam emp-se".
EMP1Empirische p-waarde (puntsgewijs), of permutatietelling met lagere p-waarde
NPAantal uitgevoerde permutaties voor deze variant

.pphe (fenotype permutaties)

Geproduceerd door --make-perm-pheno. Geldige invoer voor --pheno.

Een tekstbestand zonder kopregel en één regel per voorbeeld met het volgende: P+2 velden (waar P is het gevraagde aantal permutaties):

Ontbrekende fenotypes worden altijd weergegeven door de waarde --[output-]missing-phenotype (dit is een zeer kleine wijziging ten opzichte van PLINK 1.07).

.prob (lijst met afgewezen varianten van meta-analyse)

Geproduceerd door --meta-analyse, wanneer ten minste één variant wordt afgewezen.

Een tekstbestand zonder kopregel, en dan één regel per opgave met de volgende 3 velden:

Er kunnen meerdere problemen worden gemeld voor één (bestandsnaam, variant-ID) paar.

.profile (allele scoreresultaten)

Een tekstbestand met een kopregel en vervolgens één regel per voorbeeld met de volgende 4-6 velden:

FIDGezins-ID
IIDID binnen het gezin
FENOFenotype waarde
CNT# niet-ontbrekende allelen gebruikt voor het scoren. Mogelijk is 'include-cnt' vereist.
CNT2Som van benoemde alleltellingen. Niet aanwezig bij --dosage.
'SCORE'/'SCORESUM'Score (normaal gesproken een op allel gebaseerd gemiddelde, tenzij de 'som'-modifier wordt gebruikt)

.qassoc (kwantitatief kenmerkassociatie testrapport)

Geproduceerd door --assoc handelend op een kwantitatief fenotype.

Een tekstbestand met een kopregel en vervolgens één regel per variant met de volgende 9-11-velden:

CHRChromosoomcode
SNPVariant-ID
BPCoördinaat basenpaar
NMISSAantal niet-ontbrekende genotype-oproepen
BTARegressiecoëfficiënt
SEStandaardfout
R2Regressie r-kwadraat
tWald-test (gebaseerd op t-verdeling)
PWald-test asymptotische p-waarde
LINLin statistiek. Alleen aanwezig met 'lin'-modifier.
LIN_PLin-test p-waarde. Alleen aanwezig met 'lin'.

.qassoc.gxe (kwantitatief kenmerk interactie testrapport)

Een tekstbestand met een kopregel, en dan één regel per variant met de volgende 10 velden:

CHRChromosoomcode
SNPVariant-ID
NMISS1Niet-ontbrekende genotype-oproepen in eerste groep
BTA1Regressiecoëfficiënt voor eerste groep
SE1Regressiecoëfficiënt standaardfout voor eerste groep
NMISS2Niet-ontbrekende genotype-oproepen in tweede groep
BTA2Regressiecoëfficiënt voor tweede groep
SE2Regressiecoëfficiënt standaardfout voor tweede groep
Z_GXEZ-score, test op interactie
P_GXEAsymptotische p-waarde

.qassoc.means (kwantitatief kenmerkassociatie genotype-gestratificeerd gemiddeld rapport)

Een tekstbestand met een kopregel en vervolgens vijf regels per variant met de volgende zes velden:

CHRChromosoomcode
SNPVariant-ID
WAARDEType waarde: een van
G11Waarde voor homozygoot A1-genotype
G12Waarde voor heterozygoot genotype
G22Waarde voor homozygoot A2-genotype

.qfam.* (gebaseerd rapport over kwantitatief kenmerkassociatie)

Geproduceerd door de --qfam familie van commando's.

Een .qfam. bestand heeft een kopregel en één regel per variant met de volgende negen velden:

CHRChromosoomcode
SNPVariant-ID
BPCoördinaat basenpaar
A1Allel 1 (meestal klein)
TOETSTesttype ('TOT', 'BET' of 'MET')
NINDAantal steekproeven in lineaire regressie
BTARegressiecoëfficiënt
STATT-statistiek (alleen voor permutatietest, gebruik het niet direct)
RAW_PNiet-gecorrigeerde p-waarde

.range.report (opnieuw verwerkt op genen gebaseerd rapport)

Het .range.report-bestand heeft één subsectie per niet-lege gen. Elke subsectie bevat een kopregel van de vorm "<gene naam> -- <start/end coördinatenparen, indien nodig door komma's gescheiden> ( <kb lengte> ) [grensbeschrijving, indien nodig]" gevolgd door een lege regel, de kopregel van het oorspronkelijke rapport met 'DIST' ervoor ingevoegd, en de regels in het oorspronkelijke rapport die betrekking hadden op SNP's in het gen (voorafgegaan door <current pos> - <gene startcoördinaat> DIST-waarden). Subsecties worden gescheiden door twee lege regels.

Er zijn vier kleine wijzigingen ten opzichte van PLINK 1.07:

  • Genen verschijnen nu in natuurlijk gesorteerde in plaats van ASCII-gesorteerde volgorde (bijv. ABCA1 < ABCA3 < ABCA10, in plaats van de oude ABCA1 < ABCA10 < ABCA3).
  • kb-lengtes zijn 0,001 groter, omdat intervallen in gengebiedbestanden volledig gesloten zijn in plaats van halfopen.
  • Als --gene-list-border is opgegeven, bevatten intervallen en lengtes in kopregels geen extra opvulling.
  • Wanneer een gen meerdere onsamenhangende regio's op hetzelfde chromosoom bevat, worden ze nu gerapporteerd in een enkele subsectie.
.raw (additief + dominant componentbestand)

Geproduceerd door "--recode A" en "--recode AD", voor gebruik met R. Dit formaat kan niet worden geladen door PLINK.

Een tekstbestand met een kopregel en vervolgens één regel per voorbeeld met V+6 (voor "--hercode A") of 2V+6 (voor "--recode AD") velden, waarbij V is het aantal varianten. De eerste zes velden zijn:

FIDGezins-ID
IIDID binnen het gezin
PATID van de vader binnen het gezin
MATID van de moeder binnen het gezin
SEKSGeslacht (1 = man, 2 = vrouw, 0 = onbekend)
FENOTYPEBelangrijkste fenotypewaarde

Daarna volgen één of twee velden per variant:

<Variant-ID>_<geteld allel>Allelische dosering (0/1/2/'NA' voor diploïde varianten, 0/2/'NA' voor haploïde)
<Variant-ID>_HETDominante component (1 = het, anders 0). Vereist "--recode AD".

Als 'include-alt' is opgegeven, worden in de kopregel ook alternatieve allelcodes tussen haakjes genoemd, b.v. 'rs5939319_G(/A)'.

.hercoderen..txt (BIMBAM-genotype-, fenotype- en variantpositiebestand)

Geproduceerd door "--recode bimbam", voor gebruik door BIMBAM. Dit formaat kan niet worden geladen met PLINK.

Het .recode.geno.txt-bestand geproduceerd door PLINK is een door komma's gescheiden tekstbestand. Het begint met twee korte kopregels: N op zijn eigen regel (waar N is het aantal monsters), gevolgd door het aantal varianten op zijn eigen lijn. De derde kopregel begint met 'IND' en wordt gevolgd door de IID's van alle monsters.

Het hoofdgedeelte van het bestand heeft één regel per variant met N+1 velden: de variant-ID, gevolgd door samengestelde genotypen (met ontbrekende genotypen aangeduid met '??').

Het .recode.pheno.txt-bestand geproduceerd door PLINK is slechts een reeks voorbeeldfenotypewaarden, één per regel.

Het .recode.pos.txt-bestand geproduceerd door PLINK is een tekstbestand zonder kopregel en één regel per variant met de volgende 2-3 (door spaties gescheiden) velden:

  1. Variant-ID
  2. Coördinaat basenpaar
  3. Chromosoomcode (niet aanwezig bij 'bimbam-1chr')
.recode.phase.inp (fastPHASE-indeling)

Geproduceerd door "--recode fastphase[-1chr]", voor gebruik door fastPHASE. Met "--recode fastphase" wordt één bestand per chromosoom gegenereerd en hebben de volledige bestandsextensies de vorm .chr- <chromosoomnummer> .recode.phase.inp . Dit formaat kan niet worden geladen met PLINK.

Elk .phase.inp-bestand dat door PLINK wordt geproduceerd, begint met twee korte kopregels: aantal samples op zijn eigen regel, gevolgd door V op zijn eigen regel (waar V is het aantal varianten). De derde kopregel begint met 'P' en wordt gevolgd door de basenpaarcoördinaten van alle varianten.

Het hoofdgedeelte van het bestand heeft drie regels per monster. De eerste regel in elk triplet is:

De tweede en derde regel hebben elk een enkele m-tekenreeks, met één teken per allelaanroep. Ontbrekende oproepen worden gecodeerd als '?'.

.recode.strct_in (Structuur formaat)

Geproduceerd door "--recode structure", voor gebruik door Structuur. Dit formaat kan niet worden geladen met PLINK.

Een tekstbestand met twee kopregels: de eerste kopregel geeft alles weer V variant-ID's, terwijl elk item op de tweede regel de . is verschil tussen de basenpaarcoördinaat van de huidige variant en de bp-coördinaat van de vorige variant (of -1 wanneer de huidige variant een nieuw chromosoom begint). Dit wordt gevolgd door één regel per monster met de volgende 2V+2 velden:

  • 1. Binnen-gezins-ID
  • 2. Positief geheel getal, uniek voor elke FID
  • 3-(2V+2). Genotype-aanroepen, met het A1-allel gecodeerd als '1', A2 = '2' en ontbrekend = '0'
.ref (lang-formaat referentie-allelbestand)

Referentie-allelbestand dat een .lgen-bestand vergezelt wanneer het wordt gegenereerd met "--recode lgen-ref". Geladen met --lfile + --reference.

Een tekstbestand zonder kopregel en één regel per polymorfe variant met de volgende 2-3 velden:

  1. Variant-ID
  2. belangrijk allel
  3. Klein allel (niet aanwezig als er geen minor allel is)
.rel (tekstrelatiematrix)

De inhoud is identiek aan die van een .grm/.grm.bin-bestand. Mogelijke vormen zijn in wezen hetzelfde als voor .dist-bestanden, het enige verschil is dat .dist-bestanden een weggelaten of nuldiagonaal hebben, terwijl .rel-bestanden dat niet hebben.

.rlist (zeldzaam genotypelijstbestand)

Geproduceerd door "--recode rlist". Begeleid door .fam- en .map-bestanden. Dit formaat kan niet worden geladen met PLINK.

Een tekstbestand zonder kopregel en 0-3 regels per variant. Elke regel begint met de volgende vier velden:

  1. Variant-ID
  2. Genotypeklasse ('HOM' = homozygoot minderjarig, 'HET' = heterozygoot, 'NIL' = ontbrekende oproep)
  3. Allel 1 ('0' voor ontbrekend)
  4. allel 2

Dit wordt gevolgd door twee extra velden (FID, dan IID) voor elk monster met de gespecificeerde genotype-aanroep bij de variant. Als er geen dergelijke voorbeelden zijn, wordt de hele regel weggelaten uit het bestand. (Als gevolg hiervan worden alle varianten met niets anders dan homozygote grote genotypen helemaal niet genoemd.)

.sample (Oxford voorbeeldinformatiebestand)

Voorbeeldinformatiebestand bij een .gen-genotypedoseringsbestand. Geladen met --data/--sample, en geproduceerd door "--recode oxford".

De .sample door spaties gescheiden bestanden uitgezonden door --recode hebben twee kopregels en vervolgens één regel per voorbeeld met 3-5 relevante velden:

Eerste kopregelTweede kopregellatere inhoud
ID_10Gezins-ID
ID_20ID binnen het gezin
missend0Ontbrekende oproepfrequentie
seksNSGeslachtscode ('1' = man, '2' = vrouw, '0' = onbekend)
fenotype'B'/'P'Binair ('0' = controle, '1' = case) of continu fenotype

Een specificatie voor dit formaat staat op de QCTOOL v2-website.

.set ('END'-beëindigde variant set lidmaatschapslijstbestand)

Geproduceerd door --write-set, en geladen met --set.

Een tekstbestand met een reeks definities van variantensets. Elke setdefinitie begint met de set-ID, gevolgd door ID's van alle varianten in de set, gevolgd door 'END'. Spaties, tabs en nieuwe regels zijn acceptabel en gelijkwaardige tokenbegrenzers de bestanden die worden uitgezonden door --write-set hebben een enkele token per regel en een lege regel tussen sets, maar u kunt b.v. beschrijf in plaats daarvan een hele set per regel, en --set zal het bestand nog steeds correct lezen.

GEN1
rs123456
rs10912
rs66222
EINDE

GEN2 rs66222 rs929292
rs288222 EINDE

wijst varianten rs123456 en rs10912 toe aan 'GENE1', rs929292 en rs288222 aan 'GENE2' en rs66222 aan beide sets.

Wanneer meerdere setdefinities dezelfde set-ID delen, resulteert dat momenteel in een fout in plaats van een samenvoeging.

.set. (set associatie permutatie testrapport)

Geproduceerd door --assoc/--model/--linear/--logistic/--tdt/--mh/--bd wanneer uitgevoerd met de 'set-test' modifier.

Een tekstbestand met een kopregel en vervolgens één regel per set met de volgende 6-7 velden:

SETID instellen
NSNPGrootte instellen
NSIGRuw aantal significante varianten
ISIGUiteindelijke grootte van de meest significante varianten subset (na --set-r2 en --set-max drempels)
EMP1Empirische set p-waarde, of lagere p-waarde permutatietelling
NPAantal uitgevoerde permutaties. Vereist 'perm-count'.
SNPS'|'-gescheiden ID's voor de meest significante varianten-subset ('NA' indien leeg)

De berekening van NSIG wordt niet langer afgebroken wanneer de --set-max-waarde wordt bereikt.

.set.table (variantenset lidmaatschapstabel)

Een door tabs gescheiden tekstbestand met een kopregel, en dan één regel per variant met de volgende 3+S kolommen (waar S is het aantal sets):

SNPVariant-ID
CHRChromosoomcode
BPCoördinaat basenpaar
ID's instellen. 1 = lid, 0 = geen lid

Varianten die geen lid zijn van een set verschijnen nog steeds in de tabel.

PLINK 1.07 schreef dubbele tabs op de meeste regels tussen de 3e en 4e kolom, dit komt niet meer voor.

.sexcheck (X-chromosoom-gebaseerd geslachtsvaliditeitsrapport)

Een tekstbestand met een kopregel en vervolgens één regel per voorbeeld met de volgende 6-7 velden:

FIDGezins-ID
IIDID binnen het gezin
PEDSEXGeslachtscode in invoerbestand
SNPSEXToegekende geslachtscode (1 = man, 2 = vrouw, 0 = onbekend)
TOESTAND'OK' als PEDSEX en SNPSEX overeenkomen en niet nul zijn, anders 'PROBLEEM'
FInteeltcoëfficiënt, alleen rekening houdend met X-chromosoom. Niet aanwezig met 'alleen y'.
YCOUNTAantal niet-ontbrekende genotype-oproepen op Y-chromosoom. Vereist 'ycount'/'y-only'.

.simfreq (simulatieparameterbestand)

Indien gegenereerd door --simulate zonder de 'tags' of 'haps' modifier, is het een tekstbestand zonder kopregel, en één regel per SNP-set met de volgende 6 velden:

  1. Aantal SNP's in set (altijd 1 in automatisch gegenereerd bestand)
  2. Label van deze set SNP's
  3. Referentie allel frequentie ondergrens
  4. Bovengrens van referentie-allelfrequentie (gelijk aan ondergrens in automatisch gegenereerd bestand)
  5. odds(case | heterozygoot) / odds(case | homozygoot voor alternatief allel)
  6. odds(case | homozygoot voor ref. allel) / odds(case | homozygoot voor alt. allel)

Bij 'tags' of 'haps' heeft elke regel in plaats daarvan de volgende 9 velden:

  1. Aantal SNP's in set (altijd 1 in automatisch gegenereerd bestand)
  2. Label van deze set SNP's
  3. Referentie allelfrequentie ondergrens, causale variant
  4. Bovengrens van referentie-allelfrequentie, causale variant
  5. Referentie allel frequentie ondergrens, marker
  6. Referentie allel frequentie bovengrens, marker
  7. Marker-causale variant LD
  8. odds(case | heterozygoot) / odds(case | homozygoot voor alternatief allel)
  9. odds(case | homozygoot voor ref. allel) / odds(case | homozygoot voor alt. allel)

Met --simulate-qt worden in beide subcases de laatste twee velden vervangen door:

.tags.list (tagging variantrapport)

Geproduceerd door --show-tags, wanneer gebruikt in 'all' modus of met de --list-all vlag.

Een tekstbestand met een kopregel en vervolgens één regel per doelvariant met de volgende acht velden:

SNPVariant-ID
CHRChromosoomcode
BPCoördinaat basenpaar
NTAGAantal andere varianten die dit taggen
LINKSBasepaarcoördinaat van de vroegste tagvariant, inclusief dit
RECHTSAFCoördinaat van het basenpaar van de laatste tagvariant, inclusief deze
KBSPAN(RECHTS - LINKS + 1) / 1000
TAGS'|'-gescheiden lijst met ID's van andere varianten die dit taggen (of 'NONE')

.tdt (transmissieonevenwicht testrapport)

Geproduceerd door --tdt (tenzij analyse van de ouder-van-oorsprong is gevraagd).

Een tekstbestand met een kopregel en vervolgens één regel per autosomale/chrX-variant, meestal met de volgende 14-15 velden:

CHRChromosoomcode
SNPVariant-ID
BPCoördinaat basenpaar
A1Allel 1 (meestal klein)
A2Allel 2 (meestal majeur)
tOvergedragen A1-alleltelling
uNiet-verzonden A1-alleltelling
OFTDT odds ratio
CHISQTDT chikwadraatstatistiek. Niet aanwezig bij 'exact'/'exact-midp'.
PChi-kwadraat (standaard) of binomiale test (indien 'exact'/'exact-midp' gespecificeerd) p-waarde
A:U_PAROuderlijk eigen risico A2: niet-aangetast eigen risico A2
CHISQ_PARChi-kwadraat statistiek van ouderlijke onenigheid
P_PAROuderlijke discordantie chikwadraat p-waarde
CHISQ_COMGecombineerde chikwadraattoets voor tests
P_COMGecombineerde test chi-kwadraat p-waarde

De laatste vijf velden verschijnen niet als geen enkel weloverwogen trio ouders heeft met tegenstrijdige fenotypes.

Als --ci 0.xy ook is opgegeven, worden de volgende twee velden ingevoegd na 'OF':

LxyBodem van xy% symmetrisch ca. betrouwbaarheidsinterval voor TDT odds ratio
uxyBovenkant van xy% ca. betrouwbaarheidsinterval voor TDT odds ratio

.tdt.poo (analyse van ouder-van-oorsprong)

Een tekstbestand met een kopregel en vervolgens één regel per autosomale/chrX-variant met de volgende 11 velden:

CHRChromosoomcode
SNPVariant-ID
A1:A2Allel 1-code: allel 2-code
T:U_PATVaderlijke A1:A2 transmissie telt
CHISQ_PATStatistiek van vaderlijke chikwadraat
P_PATPaternale chikwadraat p-waarde
T:U_MATMaternale A1:A2 transmissie telt
CHISQ_MATMaternale chikwadraatstatistiek
P_PATMaternale chikwadraat p-waarde
Z_POOZ-score voor verschil in oddsratio vader/moeder
P_POOAsymptotische ouder-van-oorsprong-test p-waarde

.tfam (PLINK voorbeeldinformatiebestand)

Voorbeeldinformatiebestand bij een .tped-bestand dat identiek is aan de .fam-bestanden.

.tped (PLINK getransponeerde tekst genotypetabel)

Variant informatie + genotype call tekstbestand. Moet vergezeld gaan van een .tfam-bestand. Geladen met --tfile, en geproduceerd door "--recode transpose".

Bevat geen kopregel en één regel per variant met 2N+4 velden waar N is het aantal monsters. De eerste vier velden zijn dezelfde als die in een .map-bestand. De vijfde en zesde velden zijn allelaanroepen voor het eerste monster in het .tfam-bestand ('0' = geen aanroep), de 7e en 8e zijn allelaanroepen voor de tweede persoon enzovoort.

.traw (variant-groot additief componentbestand)

Geproduceerd door "--recode A-transpose", voor gebruik met R. Dit formaat kan alleen worden geladen door PLINK 2.0.

Een tekstbestand met een kopregel en vervolgens één regel per variant met het volgende: N+6 velden (waar N is het aantal monsters):

CHRChromosoomcode
SNPVariant-ID
(CMPositie in morganen of centimorganen
POSCoördinaat basenpaar
geteldGeteld allel (standaard A1)
ALTAndere allel(en), door komma's gescheiden
<FID>_<IID>. Allelische doseringen (0/1/2/'NA' voor diploïde varianten, 0/2/'NA' voor haploïde)

Aangezien dit formaat nieuw is voor PLINK 1.9, wordt het standaard door tabs gescheiden. Gebruik de 'spacex'-modifier om spaties te forceren.

.twolocus (4x4 gezamenlijke genotype teltabel, enkele variant paar)

Een tekstbestand met 1-3 secties, afhankelijk van de aanwezigheid van cases en/of controles. De eerste sectie begint met twee kopregels:

Daarna volgen twee tabellen. Elke tabel heeft twee eigen kopregels:

dan rijen die overeenkomen met A1/A1, A1/A2, A2/A2 en ontbrekende eerste variant genotypen, dan een vijfde rij met (sub)totalen. De eerste tabel bevat ruwe tellingen, terwijl de tweede tabel verhoudingen van het eindtotaal bevat.

Dit wordt gevolgd door een sectie 'Cases' als er minstens één case is, en tot slot een sectie 'Controls' als er minstens één controle is.

.var.ranges (varianten van gelijke grootte)

Een tekstbestand met een kopregel en vervolgens één regel per bereik met de volgende twee velden:

EERSTEerste variant-ID
LAATSTELaatste variant-ID

.vcf (1000 Genomes Project tekst Variant Call Format)

Variantinformatie + monster-ID + genotype oproeptekstbestand. Geladen met --vcf, en geproduceerd door "--recode vcf" (of vcf-fid/vcf-iid). Gebruik PLINK niet voor algemene VCF-verwerking: alle informatie in VCF-bestanden die niet kan worden weergegeven door het binaire formaat PLINK 1 wordt genegeerd.

De VCFv4.2-bestanden die worden uitgezonden door --recode beginnen normaal gesproken met 5+C kopregels, waar C is het aantal chromosomen:

  • 1. ##fileformat=VCFv4.2
  • 2. ##fileDate= <yyyymmdd datum>
  • 3. ##source=PLINKv1.90
  • 4-(C+3). ##contig=<ID= <chromosoomcode> ,length= <laatste bp-coördinaatwaarde + 1, of 2 31 - 3 indien onbekend> >
  • C+4. ##INFO=<ID=PR,Number=0,Type=Flag,Description="Voorlopig referentie-allel, mogelijk niet gebaseerd op echt referentiegenoom">
  • C+5. ##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">

(De INFO-regel wordt weggelaten wanneer --real-ref-alleles is opgegeven.)

Dit wordt gevolgd door een door tabs gescheiden kopregel met het volgende: N+9 velden (waar N is het aantal monsters), en één door tabs gescheiden regel per variant met dezelfde velden:

#CHROMChromosoomcode/naam
POSCoördinaat basenpaar
ID kaartVariant-ID
REFAllel 2-code (ontbreekt = 'N')
ALTAllel 1-code (ontbreekt = '.')
KWALLeeg gelaten ('.')
FILTERLeeg gelaten ('.')
INFONormaal gesproken 'PR' '.' wanneer --real-ref-allelen opgegeven
FORMAAT'GT' (signalering van de aanwezigheid van genotype-oproepen)
Voorbeeld-ID's. Genotype-aanroepen ('/'-gescheiden indien diploïde, 0=ref, 1=alt, '.'=ontbrekend)

Allele codes moeten ofwel beginnen met '<', alleen tekens in de set bevatten , of vertegenwoordigen een break-end. --recode geeft een waarschuwing als een allelcode niet aan deze beperking voldoet.


Wat zijn varianten, allelen en haplotypes?

Op het gebied van genetische variatie is de term variant wordt gebruikt om te verwijzen naar een specifiek gebied van het genoom dat verschilt tussen twee genomen.

Wat zijn allelen?

Verschillende versies van dezelfde variant worden genoemd allelen. Een SNP kan bijvoorbeeld twee alternatieve basen of allelen hebben, C en T4.

Bij het werken met gegevens op genoomschaal wordt de term referentie-allel verwijst naar de base die wordt gevonden in het referentiegenoom. Omdat de referentie slechts iemands genoom is, is het niet altijd het belangrijkste allel. Daarentegen is de alternatief allel verwijst naar elke base, anders dan de referentie, die op die locus wordt gevonden. Het alternatieve allel is niet noodzakelijk het minder belangrijke allel en het kan al dan niet gekoppeld zijn aan een fenotype. Er kan meer dan één alternatief allel per variant zijn.

Wat is koppelingsonevenwicht?

In het genoom komen allelen van varianten die dicht bij elkaar liggen op hetzelfde chromosoom vaker samen voor dan op basis van toeval wordt verwacht. Deze blokken van allelen worden haplotypes genoemd. Koppelingsonevenwicht (LD) is een maat voor hoe vaak twee allelen of specifieke sequenties samen worden overgeërfd, waarbij allelen die altijd samen worden geërfd, naar verluidt in een onevenwicht in de koppeling zijn.


Clusters van monsters

--binnenin laat u onsamenhangende clusters/strata van monsters definiëren voor permutatieprocedures en gestratificeerde analyses. Het accepteert normaal gesproken een bestand met FID's in de eerste kolom, IID's in de tweede kolom en clusternamen in de derde kolom --mbinnen zorgt ervoor dat clusternamen worden gelezen uit kolom (N+2) in plaats daarvan.

Als alternatief kunt u --familie om een ​​cluster te maken voor elke gezins-ID.

Standaard genereert --write-cluster een bestand met 'NA' in het clusternaamveld voor alle voorbeelden die niet in een cluster zitten, en als zo'n bestand opnieuw wordt geladen met --within, blijven ze niet toegewezen. Om daadwerkelijk een 'NA'-cluster te maken (dit is het gedrag van PLINK 1.07), gebruikt u de 'keep-NA' modificatie.

Met een clusterbestand voert dit elke opgegeven opdracht voor case/control-associatie één keer uit voor elk cluster, waarbij lidmaatschap van het cluster als fenotype wordt gebruikt. Dit kan worden gecombineerd met --mwithin.


Invoerbestandsindelingen en conversieprogramma

Dit bestand bevat documentatie van het programma converteren, die converteert tussen de 5 verschillende bestandsindelingen die we ondersteunen. Merk op dat "bestandsindeling" tegelijkertijd verwijst naar de indelingen van drie verschillende bestanden:

  • genotypebestand: bevat genotypegegevens voor elk individu bij elke SNP
  • snp-bestand: bevat informatie over elke SNP
  • indiv-bestand: bevat informatie over elk individu

Hieronder documenteren we alle 5 formaten:

en we leggen uit hoe te gebruiken converteren om van het ene formaat naar het andere te gaan. Merk op dat alle voorbeeldbestanden in de map staan:

ANCESTRYMAP-formaat:

  • genotype-bestand: zie voorbeeld.ancestrymapgeno
  • snp-bestand: zie voorbeeld.snp
  • indiv-bestand: zie voorbeeld.ind

Het genotypebestand bevat 1 regel per geldig genotype en heeft 3 kolommen:

Aantal variantallelen (0,1 of 2)

Ontbrekende genotypen worden gecodeerd door het ontbreken van een vermelding in het genotypebestand.

Het SNP-bestand bevat 1 regel per SNP. Er zijn 4 kolommen:

Gebruik 23 voor X-chromosoom. De genetische positie kan in Morgans of centiMorgans zijn, en de fysieke positie in basen.

Het indiv-bestand bevat 1 regel per persoon en heeft 3 kolommen:

De geslachtskolom kan M(mannelijk), F(vrouwelijk) of U (onbekend) zijn. De statuskolom kan verwijzen naar de status Case of Control, of kan een populatiegroeplabel zijn. Als dit item is ingesteld op "Negeren", dan worden die persoon en alle genotypegegevens van die persoon verwijderd uit de gegevensset in alle convertf-uitvoer. De naam "ANCESTRYMAP-indeling" wordt alleen om historische redenen gebruikt. Deze software is volledig onafhankelijk van onze 2004 ANCESTRYMAP-software.

EIGENSTRAT-formaat: Gebruikt door EIGENSTRAT (zowel in de release van 23-07-06 als in de huidige release).

  • § genotypebestand: zie voorbeeld.eigenstratgeno
  • § snp-bestand: zie voorbeeld.snp (hetzelfde als hierboven)
  • § indiv-bestand: zie voorbeeld.ind (hetzelfde als hierboven)

Het genotypebestand bevat 1 regel per SNP. Elke regel bevat 1 karakter per persoon:

0 betekent nul kopieën van het referentie-allel.

1 betekent één kopie van het referentie-allel.

2 betekent twee kopieën van het referentie-allel.

Het programma ind2pheno.perl in deze map zal converteren van voorbeeld.ind naar de voorbeeld.pheno bestand dat nodig is voor de EIGENSTRAT-software. Om dit scripttype op de opdrachtregel uit te voeren:

>> ./ind2pheno.perl voorbeeld.ind voorbeeld.pheno

  • genotypebestand: zie voorbeeld.ped *** bestandsnaam MOET eindigen op .ped ***
  • snp-bestand: zie voorbeeld.pedsnp *** bestandsnaam MOET eindigen op .pedsnp *** convertf ondersteunt ook .map-achtervoegsel voor deze invoerbestandsnaam
  • indiv-bestand: zie voorbeeld.pedind *** bestandsnaam MOET eindigen op .pedind *** en conversie tussen verschillende formaten

convertf ondersteunt ook het volledige .ped-bestand (voorbeeld.ped) voor dit invoerbestand

Merk op dat verplichte achtervoegselnamen onze software in staat stellen dit bestandsformaat te herkennen.

Het indiv-bestand bevat de eerste 7 kolommen van het genotypebestand (zie hieronder).

Het genotypebestand is 1 regel per persoon. Elke regel bevat 7 kolommen met informatie over het individu, plus twee genotype-kolommen voor elke SNP in de volgorde waarin de SNP's zijn gespecificeerd in het SNP-bestand.

  • 1e kolom is familie-ID.
  • 2e kolom is monster-ID.
  • 3e en 4e kolom zijn voorbeeld-ID's van ouders.
  • 5e kolom is geslacht (man is 1, vrouw is 2)
  • 6e kolom is casus/controlestatus (1 is controle, 2 is casus) OF kwantitatieve eigenschapswaarde OF populatiegroeplabel.
  • 7e kolom (deze kolom is optioneel) is altijd ingesteld op 1.

converteren ondersteunt geen stamboominformatie, dus de 1e, 3e en 4e kolom worden genegeerd in converteren invoer en ingesteld op willekeurige waarden in converteren uitvoer. In de twee genotypekolommen voor elke SNP worden ontbrekende gegevens weergegeven door 0.

Het SNP-bestand bevat 1 regel per SNP. Er zijn 4 kolommen:

Gebruik X voor X-chromosoom. De genetische positie is in Morgans en de fysieke positie in basen.

Het indiv-bestand bevat de eerste 7 kolommen van het genotypebestand.

Het PED-formaat wordt gebruikt door het PLINK-pakket van Shaun Purcell. Zie https://www.cog-genomics.org/plink2

PACKEDPED-indeling:

  • genotypebestand: zie voorbeeld.bed *** bestandsnaam MOET eindigen op .bed ***
  • snp-bestand: zie voorbeeld.pedsnp *** bestandsnaam MOET eindigen op .pedsnp ***
  • convertf ondersteunt ook het .map-achtervoegsel voor deze invoerbestandsnaam
  • indiv-bestand: zie voorbeeld.pedind *** bestandsnaam MOET eindigen op .pedind ***

convertf ondersteunt ook een .ped-bestand (voorbeeld.ped) voor dit invoerbestand

Merk op dat verplichte achtervoegselnamen onze software in staat stellen dit bestandsformaat te herkennen.

voorbeeld.bed is een ingepakt binair bestand (2 bits per genotype).

Het PACKEDPED-formaat wordt gebruikt door het PLINK-pakket van Shaun Purcell. Zie https://www.cog-genomics.org/plink2

Voor invoer in PACKEDPED-indeling MOET het snp-bestand in genoombrede volgorde staan.

Voor invoer in PACKEDPED-indeling MOET het genotypebestand in SNP-hoofdvolgorde staan ​​(de PLINK-standaard: zie PLINK-documentatie voor details.)

PACKEDANCESTRYMAP Formaat:

  • genotypebestand: zie example.packedancestrymapgeno
  • snp-bestand: zie voorbeeld.snp (hetzelfde als hierboven)
  • indiv-bestand: zie voorbeeld.ind (hetzelfde als hierboven)

Merk op dat voorbeeld.packedancestrymapgeno een ingepakt binair bestand is (2 bits per genotype).

DOCUMENTATIE VAN convertf programma:

Om dit programmatype op de opdrachtregel uit te voeren:

>> /bin/convertf -p parfile

We illustreren hoe: parfile werkt via een speelgoedvoorbeeld: (zie voorbeeld.perl in deze map)

par.ANCESTRYMAP.EIGENSTRAT converteert ANCESTRYMAP naar EIGENSTRAT-formaat

par.EIGENSTRAT.PED converteert EIGENSTRAT naar PED-formaat

par.PED.EIGENSTRAT converteert PED naar EIGENSTRAT-formaat

par.PED.PACKEDPED converteert PED naar PACKEDPED-formaat

par.PACKEDPED.PACKEDANCESTRYMAP zet PACKEDPED om in PACKEDANCESTRYMAP

par.PACKEDANCESTRYMAP.ANCESTYMAP zet PACKEDANCESRYMAP om in ANCESTYMAP

Merk op dat de keuze van welk allel het referentie-allel is, willekeurig kan zijn en dat het converteren naar een nieuw formaat en weer terug de keuze van het referentie-allel kan veranderen.


Bekijk de video: SNP Polymorphysim Microarray Chip - How to Test a Persons DNA (Januari- 2022).