Informatie

Haplotype-gegevens voor 1000 genomen


Ik heb haplotype-gegevens nodig voor HapMap of 1000 genomen voor CEU, MKK, TSI, CHB en JPT voor ± 1 Mb bij LCT-gen. Ik ben vrij nieuw in het gebied. Eigenlijk ken ik de betekenis van "± 1 Mb" niet. Van welke sites en hoe krijg ik de gegevens? Heb ik een programma nodig?

Voor zover ik begrijp, zit het LCT-gen op chromosoom 2. Daarom heb ik de volgende code gebruikt: wget -r --reject="index.html*" http://ftp.1000genomes.ebi.ac.uk/vol1/ftp /release/20130502/ALL.chr2.phase3_shapeit2_mvncall_integrated_v5a.20130502.genotypes.vcf.gz Nu heb ik een vcf-bestand.

Ik heb ook een vcf-bestand verkregen van Data Slicer ( http://grch37.ensembl.org/Homo_sapiens/Tools/DataSlicer ). Ik koos populaties en schreef 2:135.787.840-135.837.200 voor het opzoeken van regio's. Wat houdt dit bestand in? Hoe kan ik de inhoud van het bestand zien? Wat moet ik nog meer doen om haplotypes te krijgen? Ik zal proberen haplotypes te clusteren en te visualiseren volgens populaties. Als je me kunt begeleiden, ben ik erg blij.

Bedankt!


Om populatiegerelateerde vcf-bestanden te verkrijgen, heb ik eerst de respectievelijke (CEU, MKK,... ) stalenlijst gemaakt met behulp van het voorbeeldbestand. U kunt ook de 1000 genoom-ftp-site downloaden.

grep CEU integrated_call_samples_v3.20130502.ALL.panel | cut -f1 > CEU.samples.list

Daarna installeerde ik vcf-tools (https://vcftools.github.io/index.html) en gebruikte ik de opdracht vcf-subset.

Ik heb de commando's van deze faq-pagina: http://www.internationalgenome.org/faq/how-can-i-get-allele-frequency-my-variant/

Ik heb geen haplotypes uit de bestanden berekend, maar ik las in een ander bericht dat je dat met PLINK kunt doen. Heb je dat gecontroleerd?


Bekijk de video: SNPs, haplotypes and linkage disequilibrium (Januari- 2022).