Informatie

Ik heb net mijn genoom laten sequensen. Kan iemand mij vertellen wat deze verschillende bestandsformaten zijn?


Ik heb net mijn hele genoom gesequenced en nu wil ik een beetje spelen met bio-informatica. De documentatie over de gebruikte bestandsstandaarden is echter vrij schaars.

Dit zijn de bestanden die ik heb gekregen (de "onbewerkte" gegevens):

Kan iemand me met enig detail uitleggen wat elk bestandsformaat is en waarvoor ze worden gebruikt?

Getranscribeerde lijst met bestandsformaten van de afbeelding:

  • Indel (TBI)
  • Indel (VCF)
  • SNP (VCF)
  • SNP (TBI)
  • CNV (TBI)
  • CNV (VCF)
  • BAM (BAI)
  • BAM
  • FASTQ R2
  • FASTQ R1

Dit is een geweldige biologische vraag! Het vraagt ​​veel over hoe empirische wetenschap wordt gedaan op het gebied van moderne biologie. Ik ben blij dat we dergelijke vragen aanmoedigen van nieuwsgierige mensen die meer willen weten.


Je genoom heeft een sequentie die uniek is voor jou, je is geschonken door je ouders en door kleine veranderingen door willekeurig toeval.

Je genoom ligt redelijk dicht bij wat het referentiegenoom wordt genoemd, dat wordt bijgewerkt - niet vaak1 - naarmate sequencingplatforms, pijplijnen en algoritmen veranderen.

Het referentiegenoom is de "standaarddrager". Alle andere individuele genomen worden ermee vergeleken. Hierdoor kan iedereen appels met appels vergelijken wanneer hij iets over het genoom probeert te zeggen, in de geaggregeerde of "big picture"-weergave.

De bestanden die aan het VCF-formaat zijn gekoppeld, specificeren plaatsen in uw genoom die verschillen van het referentiegenoom - en hoe ze verschillen. Deze verschillen zijn onder meer:

  1. Indels - inserties of deleties van DNA, in vergelijking met de referentie.
  2. SNP's - enkele basen die verschillen van de referentie.
  3. CNV's - herhaalde stukken DNA die verschillen van herhalingen in de referentie.

De specifieke kenmerken van elk van deze klassen van varianten kunnen worden geassocieerd met verschillende ziekten of andere kenmerken die u uniek en interessant maken. Daarover later meer.

Elk van deze VCF-bestanden in uw dataset heeft een bijbehorend TBI-bestand. Dit is een indexbestand waarmee u snel interessante elementen uit deze datasets kunt ophalen met behulp van een opdrachtregelprogramma genaamdtabix.

Als u op zoek bent naar verschillen binnen een specifiek genoominterval - zeg maar alle verschillen op chromosoom 4, van basen 123456 tot 567890 - dan kunt u dat interval doorgeven aantabixsamen met uw VCF-bestand van belang, en het zal alle indels, SNP's of CNV's binnen dat bereik retourneren, als die er zijn binnen dat interval. Deze subset is VCF-geformatteerd, dus als u de indeling kent, kunt u meer informatie krijgen over die verschillen.

Het BAM-geformatteerde bestand verzamelt alle individuele sequencing-lezingen in een vorm die is toegewezen aan of uitgelijnd met het referentiegenoom, samen met wat beknopte informatie om u te vertellen hoe die reads verschillen van het referentiegenoom.

Net als bij de VCF-bestanden heeft dit BAM-bestand een BAI-indexbestand. Leuk vindentabix, kunt u de samtoolsopdrachtregelprogramma om de set uitlezingen over uw genomische regio van belang te extraheren, als u ze verder wilt onderzoeken.

Beidetabixensamtoolszijn verkrijgbaar bij dezelfde auteur. Als je vragen hebt over deze tools, is de site Bioinformatics This Site een geweldige plek om vragen te stellen3. Veel bio-informatici daar hebben veel ervaring met die toolkits en kunnen helpen bij het beantwoorden van meer specifieke vragen.

De twee FASTQ-bestanden zijn de onbewerkte sequentiegegevens die van de sequencer komen, samen met kwaliteitsgegevens. De sequentielezingen in deze twee bestanden zijn gekoppeld voor een hogere kwaliteit en langere lezingen, waardoor het sequencingplatform sneller, goedkoper en beter wordt.

Ik liep hier expres een stukje achteruit.

De ruwe FASTQ-bestanden zijn uitgangsmateriaal voor het maken van het BAM-bestand. Het BAM-bestand wordt dan op zijn beurt gebruikt met variant-aanroepsoftware (voorbeeld) om de variatiedatasets (VCF) te genereren.

Waarom achteruit door deze datasets lopen?

De meeste mensen geven niet om de onbewerkte FASTQ-gegevens, behalve misschien om handmatige uitlijning uit te voeren of de gegevenskwaliteit te controleren. Wat voor de meesten vaak interessanter of nuttiger is, is hoe iemands genoom verschilt van de referentie, die wordt vastgelegd in de variatiegegevens.

Die verschillen, in totaal, zijn hoe bedrijven zoals 23andme een product verkopen2 dat vertelt je dat je meer verwant bent met die-en-die-populatie dan met die-en-die-populatie, of dat je meer of minder kans hebt op een ziekte of andere vreemde, interessante fenotypische eigenschap.

1. Zelfs als er om de paar jaar nieuwe versies van dit referentiegenoom worden uitgebracht, kunt u, als u weet welk origineel referentiegenoom is gebruikt om uw BAM- en VCF-bestanden te genereren, de analyses opnieuw uitvoeren op basis van die kennis. Er zijn waarschijnlijk enkele metadata gekoppeld aan uw sequencing-resultaten die u kunt opzoeken om dit te weten te komen, of u kunt het sequencing-centrum vragen waar u deze resultaten hebt verkregen.

2. Voor een beetje meer context, in dit antwoord op een andere SE-vraag, heb ik het wat over SNP's en hoe ze worden gebruikt voor het testen van associatie met zogenaamde Mendeliaanse stoornissen, ziekten veroorzaakt door enkele baseveranderingen, die van belang kunnen zijn voor je hebt gegeven wat je motiveerde om je genoomsequens te krijgen, in de eerste plaats: /a/88839/5075

3. Je kunt er hier ook vragen over stellen, maar dan maak je bepaalde mensen chagrijnig. Daarvoor kun je beter naar de andere SE-site gaan.


Huidige uitdagingen in de novo sequencing en assemblage van plantengenoom

Genoomsequencing is nu betaalbaar, maar het samenstellen van plantengenomen de novo blijft uitdagend. We beoordelen de stand van zaken op het gebied van assemblage en beoordelen de best practices voor de gemeenschap.

Het plantenrijk is gevuld met verbazingwekkende diversiteit en betekenis. Planten vormen de basis van de voedselketen die alle levende organismen van voedsel voorziet, en slechts 15 gewassen zorgen voor 90% van de wereldwijde voedselinname [1]. Plantensoorten zijn verantwoordelijk voor het in evenwicht houden van de koolstofkringlopen [2], voor het ontwikkelen en in stand houden van de bodem tegen erosie [3], en zijn veelbelovende bronnen van hernieuwbare energie [4]. Plantaardige bijproducten worden in veel geneesmiddelen voor mensen gebruikt [5], en planten zijn essentiële modelorganismen geweest voor het bestuderen van biologische systemen zoals de rol van transposons en epigenetica [6]. Om al deze redenen en nog veel meer is er grote belangstelling voor het sequencen van plantengenomen, maar er zijn relatief weinig plantensoorten gesequenced vergeleken met de honderdduizenden soorten over de hele wereld.

De eerste vrijlevende organismen werden minder dan 20 jaar geleden gesequenced, te beginnen met eenvoudige microbiële genomen [7], en in complexiteit toenemend tot de eerste eukaryote genomen [8], de eerste meercellige soort [9], en vervolgens tot plantgenomen , inclusief Arabidopsis thaliana (waterkers) [10], Oryza sativa (rijst) [11], Carica papaja (papaja) [12] en Zea mays (maïs) in 2009 [13], met behulp van capillaire sequencing van de eerste generatie. Sindsdien zijn vele anderen gesequenced met behulp van sequencing van de tweede generatie, waaronder: Fragaria vesca (aardbei) [14], Solanum lycopersicum (tomaat) [15] en Cajanus cajan (pigeonpea) [16], en tientallen andere naderen hun voltooiing [17]. Deze toename van het aantal plantengenomen waarvan de sequentie is bepaald, is grotendeels te danken aan technologische verbeteringen: terwijl de eerste generatie geautomatiseerde instrumenten voor DNA-sequencing duizenden basenparen per dag konden sequencen, kunnen de huidige state-of-the-art instrumenten voor het sequencen van de tweede generatie vele miljarden bases per dag voor honderden of duizenden dollars per gigabase in plaats van miljoenen of miljarden dollars per gigabase [18]. Deze technologieën zijn toegepast om duizenden genomen over de levensboom te bestuderen, waardoor een rijke annotatie van hun gennetwerken mogelijk is [19], de ontwikkeling van vergelijkende genomica-benaderingen om evolutionaire en domesticatiekrachten af ​​te leiden [13], de catalogisering van genomische markers om te optimaliseren plantenveredeling [20], en tal van andere onderzoeken die de genoomsequentie gebruiken als de ruggengraat van de analyse [21].

In tegenstelling tot de enorme vooruitgang in de doorvoer, blijft het samenstellen van sequencing-uitlezingen een substantiële onderneming, veel groter dan de sequencing-inspanningen alleen zouden suggereren [22-24]. Grote complexe plantengenomen blijven een bijzonder moeilijke uitdaging voor de novo assemblage om verschillende biologische, computationele en biomoleculaire redenen. Het genoom van planten kan bijna 100 keer groter zijn [25] dan het genoom van vogels [26], vissen [27] of zoogdieren [28]. Bovendien kunnen ze een veel hogere ploïdie hebben, die naar schatting voorkomt in tot 80% van alle plantensoorten [29], en hogere snelheden van heterozygotie en herhalingen [30] dan hun tegenhangers in andere koninkrijken. Bovendien kan de geninhoud in planten zeer complex zijn, zoals blijkt uit de aanwezigheid van grote genfamilies en overvloedige pseudogenen met bijna identieke sequenties die zijn afgeleid van recente duplicatiegebeurtenissen van het hele genoom en transposon-activiteit [13]. Planten hebben de neiging om hoge kopie-chloroplasten en mitochondria-organellen te hebben, wat de assemblage van hun overblijfselen in het nucleaire genoom bemoeilijkt en de dekkingsniveaus scheeftrekken [12]. Ten slotte is het vaak erg moeilijk om grote hoeveelheden hoogwaardig DNA uit plantaardig materiaal te extraheren, waardoor het moeilijk is om goede bibliotheken voor sequencing voor te bereiden.

Om al deze redenen, sequencing en de novo het samenstellen van een plantengenoom kan een sterk gefragmenteerd resultaat opleveren. In plaats van grote contigs en scaffolds die grote chromosoomgebieden overspannen die zijn gezien in recente genoomassemblages van gewervelde dieren [31], is er een grotere kans om de sequencing-uitlezingen te verzamelen in geïsoleerde geneilanden tegen de achtergrond van hoge kopie-herhalingen [13]. Bovendien zijn de gensequenties mogelijk niet altijd correct, aangezien bijna identieke genfamilies notoir moeilijk te assembleren zijn en kunnen instorten tot een mozaïeksequentie zonder noodzakelijkerwijs een lid van de familie te vertegenwoordigen [32]. Als het niveau van fragmentatie en verkeerde assemblage te groot is, zal de stroomafwaartse analyse ruis veroorzaken en zelfs tot verkeerde conclusies van de biologie kunnen leiden [33].

Weten hoe deze genomen nauwkeurig te assembleren, hoe de potentieel sterk gefragmenteerde assemblages het beste te gebruiken en hoe deze toepassingen tegen de laagste kosten uit te voeren, zijn belangrijk in de huidige financieringsomgeving. Genoomassemblage is altijd een incrementeel proces geweest, en er zijn tegenwoordig nog maar een handvol echt voltooide grote genomen - zelfs de nieuwste release van het 'voltooide' menselijke referentiegenoom heeft miljoenen onopgeloste nucleotiden [34]. Daarom moeten we beoordelen wanneer een vergadering goed genoeg is om nuttig te zijn voor de gemeenschap en hoe de agentschappen het meeste uit de beschikbare financiering kunnen halen. Ten slotte, hoe kunnen onderzoekers het hoofd boven water houden in het snel evoluerende landschap met technologie die zo snel evolueert dat het een uitdaging is om te weten wat de richtlijnen voor fabrieksassemblage over 12 maanden of daarna zullen zijn. Hier beoordelen we de stand van de techniek van de novo assemblage, beoordelen wat zich naar verwachting zal ontwikkelen en bekijken wat de beste praktijken voor de plantengemeenschap zijn.


Het menselijk genoomproject

Het Human Genome Project (HGP) was een van de grote ontdekkingen in de geschiedenis. In plaats van een uiterlijke verkenning van de planeet of de kosmos, was de HGP een innerlijke ontdekkingsreis onder leiding van een internationaal team van onderzoekers die alle genen - samen bekend als het genoom - van leden van onze soort in kaart wilden brengen en in kaart wilden brengen. , Homo sapiens. De HGP, die begon op 1 oktober 1990 en werd voltooid in april 2003, gaf ons voor het eerst de mogelijkheid om de volledige genetische blauwdruk van de natuur te lezen voor het bouwen van een mens.

Het Human Genome Project was de internationale onderzoeksinspanning om de DNA-sequentie van het gehele menselijke genoom te bepalen.

In 2003 werd een nauwkeurige en volledige sequentie van het menselijk genoom voltooid, twee jaar eerder dan gepland en tegen lagere kosten dan het oorspronkelijk geschatte budget.

Sleutelmomenten en persberichten uit de geschiedenis van het Human Genome Project.

15 februari 2021 markeert het 20-jarig jubileum van publicaties die de concept-sequentie van het menselijk genoom rapporteren.

Videogetuigenissen van prominente leden van de genomics-gemeenschap ter herdenking en viering van de 30e verjaardag van de lancering van het Human Genome Project.

Ontdek veelgestelde vragen en antwoorden over het Human Genome Project en de impact ervan op het gebied van genomics.


Mitochondriaal DNA onthult onverwachte voorouderlijke verbindingen

Vooruitgang in DNA-sequencing zal mensen helpen meer te weten te komen over hun voorouders. Krediet: SVShot/Shutterstock

Biochemici bestuderen het leven op moleculair niveau. Dus, als biochemicus, was het logisch om mijn eigen bestaan ​​op dat diepste niveau te onderzoeken, en daarom liet ik mijn DNA-sequentie bepalen - mijn mitochondriaal DNA, of mtDNA, om precies te zijn.

Dit genetische materiaal wordt gevonden in mitochondriën, de subcellulaire compartimenten of organellen waar voedsel wordt omgezet in energie. DNA van dit organel wordt voornamelijk doorgegeven van moeders op hun kinderen. Tijdens de bevruchting brengt het sperma van de vader zijn chromosomale DNA over in het vrouwelijke ei, waarbij de mitochondriën achterblijven.

Als een van de mannelijke mitochondriën in het ei wordt overgebracht, wordt het meestal vernietigd door interne processen. Recent gepubliceerd werk heeft echter aangetoond dat in een klein aantal gevallen mitochondriën van de vader in het ei terechtkwamen, niet werden vernietigd en aan de kinderen werden doorgegeven.

In de meeste gevallen geven zonen mtDNA echter niet door aan hun kinderen. Elke moeder draagt ​​echter haar mtDNA over aan haar dochter, die het op haar beurt door de eeuwen heen aan haar dochter zal overdragen, enzovoort. Omdat mtDNA in de loop van de tijd niet veel verandert, wordt informatie over de moederlijke afstamming van duizenden jaren geleden tegenwoordig toegankelijk.

Mijn vrouwelijke voorouder zou, dacht ik, Khoi-San zijn. Dat suggereerden familiegegevens en kennis van mijn directe voorouders. De Khoi-San waren de eerste mensen van zuidelijk Afrika en domineerden de regio duizenden jaren lang.

Ik verwachtte tot de haplogroep L0 te behoren, typisch voor alle Khoi-San en veel kleurlingen. "Gekleurd" is een raciale classificatie geïntroduceerd door de bevolkingsregistratiewet uit het apartheidstijdperk om te verwijzen naar een multiraciale etnische groep afkomstig uit Zuid-Afrika met Khoi-San, Bantu, Afrikaner, Engelse, Indiase en Zuid-Aziatische afkomst.

Een haplogroep is een genetische populatiegroep van mensen die een gemeenschappelijke voorouder delen in de matrilineaire of patrilineaire lijn. De resultaten van de sequentiëringstests verrasten me: mijn mtDNA werd toegewezen aan de M2-haplogroep, een groep waarvan de oorsprong wordt beschreven als niet inheems in Afrika (zie figuur 1), maar veel voorkomt bij Kaap-Maleisische of Kaapse moslims die hun oorsprong buiten het continent hebben.

Routes gebruikt door de VOC-slavenschepen stonden tegenover de voorspelde bewegingen van Haplogroep M. Credit: https://en.wikipedia.org/wiki/Haplogroup_M_(mtDNA)#/media/File:Peopling_of_eurasia.jpg https://slavery.iziko .org.za/sites/default/files/images/2015-11-06/DetailedMap.jpg

Historisch gezien werden mensen in deze groep vanuit Zuidoost-Azië naar Zuid-Afrika overgebracht als slaven voor Europese kolonisten. Apartheid verplaatste het slavernijverhaal naar de uithoeken van de Zuid-Afrikaanse geschiedenis: als land richten we ons op apartheid als de oorsprong van al onze kwalen, terwijl ons slavernijerfgoed grotendeels wordt vergeten. Nu, zoals mijn ervaring laat zien, brengen ontwikkelingen in mtDNA-sequencing het weer in beeld. Dit is belangrijk omdat de Zuid-Afrikaanse identiteit complexer is dan alleen zwart en wit, en slavernij heeft de samenleving gevormd op manieren die niet mogen worden genegeerd.

De geschiedenis van haplogroepen

Dus wat is haplogroep M2, degene waarvan ik heb ontdekt dat ik er bij hoor? Haplogroep M, samen met zijn zustergroep N, is afkomstig van dezelfde voorouder, bekend als haplogroep L3. Leden van deze haplogroep worden verondersteld de eerste mensen te zijn die tussen 80 000 en 60 000 jaar geleden uit Oost-Afrika migreerden. Toen deze oude mensen het Afrikaanse continent verlieten, gingen ze de wereld bevolken.

Haplogroep M komt bijna uitsluitend voor in Azië (Figuur 1) M2, met een geschatte leeftijd van 50 000 jaar, komt vooral voor in Zuidoost-India en Bangladesh.

Ik twijfelde aan mijn resultaten. Maar de mitochondriale DNA-sequentieresultaten van mijn broers en zussen werden toegewezen aan dezelfde haplogroep en analyses uitgevoerd in drie verschillende laboratoria - twee nationale en één internationale - kwamen tot dezelfde conclusies. Dus bleef ik achter met het vinden van een manier om deze uitkomst logisch te maken.

De kolonisatie van wat tegenwoordig de provincie West-Kaap is en het daaropvolgende contact van de inheemse Khoi-San met Europeanen en hun slaven, biedt een plausibele verklaring voor hoe het mitochondriale M2-haplogroeppatroon terecht zou kunnen komen bij iemand met gedocumenteerde Khoisan-afkomst.

Een mogelijke moedererfgoedkaart met startpunt rond 1660, uitgaande van 9-10 gezinscycli tot de geboorte van mijn overgrootmoeder in 1904, op voorwaarde dat de leeftijd van de vrouwtjes bij de bevalling tussen 24-25 jaar was. Op basis van familiegegevens zou John Doe Europeaan/Khoi-San/Slaaf/Gekleurd kunnen zijn. Krediet: Debra Meyer

De dominantie van de Khoi-San in zuidelijk Afrika werd in 1652 door de Verenigde Oost-Indische Compagnie-VOC of de Verenigde Oost-Indische Compagnie beëindigd met de oprichting van een verversingsstation dat een kolonie en uiteindelijk een nederzetting werd.

De plannen van de VOC vergden arbeid. Zo werd de eerste lading slaven, veelal buitgemaakt in het huidige Angola of Guinee, in 1658 door respectievelijk de slavenschepen Amersfoort en Hasselt naar de Kaap gebracht. In de daaropvolgende jaren werd het overgrote deel van de slaven aangevoerd vanuit Madagaskar, het Indiase subcontinent en Zuidoost-Azië (Figuur 1). Sommige van deze slavinnen brachten de M2-haplogroep met zich mee.

Gedurende de 180 jaar slavernij aan de Kaap waren er veel meer slaven dan de koloniale bevolking. De koloniale economie kon niet functioneren zonder het gebruik van slavenarbeid, wat betekent dat slavenbezit wijdverbreid was. Er zijn verslagen van gemengde huwelijken tussen de KhoiKhoi- en San-bevolking met koloniale slavenpopulaties, evenals met Afrikaanse boeren en blanke kolonisten.

Voeg daarbij de ongeregistreerde en onvrijwillige verbintenissen tussen met name de meesters en hun slaven, en het wordt gemakkelijk om je seksueel contact voor te stellen tussen een vrouwelijke slaaf en een Europese man rond 1660 - en de geboorte van een vrouwelijk kind of kinderen die later nakomelingen kregen - relaties aangaan met andere Europese/Slaaf/Khoisan/Gekleurde mannen in volgende cycli, totdat uiteindelijk uit één zo'n cyclus mijn overgrootmoeder voortkwam. Dit wordt geïllustreerd in figuur 2 hieronder.

Met een of meer van de mannelijke voorouders in mijn moederlijn die Khoi-San zijn, verklaart het cross-over delen van chromosomaal DNA tussen ouders het Khoi-San-fenotype - dat wil zeggen waarneembare fysieke kenmerken - in mijn familie.

Vooruitgang in de technologie

Zonder de technologie om mitochondriaal DNA te sequencen, zou ik mijn voorouderlijke banden met slavernij niet kennen. Kunstmatige intelligentie maakt sequencing sneller, goedkoper en nauwkeuriger, terwijl machine learning-algoritmen die met de ervaring verbeteren, ons vermogen versnellen om grote, complexe DNA-sequencing-datasets te vergelijken en de betekenis ervan te interpreteren.

De kans is dus groot dat mtDNA-sequencing over een paar jaar nog meer ontwrichtende voorouderlijke informatie zal onthullen - en ons in staat zal stellen onszelf en onze geschiedenis duidelijker te zien.

Dit artikel is opnieuw gepubliceerd vanuit The Conversation onder een Creative Commons-licentie. Lees het originele artikel.


Influenzavirus-genoomsequentiebepaling en genetische karakterisering

Influenzavirussen veranderen voortdurend, in feite ondergaan alle influenzavirussen in de loop van de tijd genetische veranderingen (zie voor meer informatie Hoe het griepvirus kan veranderen: &ldquoDrift&rdquo en &ldquoShift&rdquo). Het genoom van een griepvirus bestaat uit alle genen waaruit het virus bestaat. CDC houdt het hele jaar door toezicht op circulerende influenzavirussen om veranderingen in het genoom (of delen van het genoom) van deze virussen te volgen. Dit werk wordt uitgevoerd als onderdeel van de routinematige surveillance van griep in de VS en als onderdeel van de rol van het CDC als een samenwerkingscentrum voor referentie en onderzoek naar griep van de Wereldgezondheidsorganisatie (WHO). De informatie die het CDC verzamelt bij het bestuderen van genetische veranderingen (ook bekend als &ldquo-substituties,&rdquo &ldquovarianten&rdquo of &ldquomutaties&rdquo) in influenzavirussen speelt een belangrijke rol voor de volksgezondheid door te helpen bepalen of vaccins en antivirale geneesmiddelen zullen werken tegen de momenteel circulerende influenzavirussen, en ook om te helpen om de mogelijkheid te bepalen van influenzavirussen bij dieren om mensen te infecteren.

Genoomsequencing onthult de volgorde van de nucleotiden in een gen, zoals alfabetletters in woorden. Nucleotiden zijn organische moleculen die de structurele eenheidsbouwsteen vormen van nucleïnezuren, zoals RNA of DNA. Alle influenzavirussen bestaan ​​uit enkelstrengs RNA in tegenstelling tot dubbelstrengs DNA. De RNA-genen van influenzavirussen bestaan ​​uit ketens van nucleotiden die aan elkaar zijn gebonden en gecodeerd door de letters A, C, G en U, die respectievelijk staan ​​voor adenine, cytosine, guanine en uracil. Door de samenstelling van nucleotiden in één virusgen te vergelijken met de volgorde van nucleotiden in een ander virusgen, kunnen variaties tussen de twee virussen aan het licht komen.

Genetische variaties zijn belangrijk omdat ze de structuur van de oppervlakte-eiwitten van een griepvirus kunnen beïnvloeden. Eiwitten zijn opgebouwd uit opeenvolgingen van aminozuren.

De vervanging van het ene aminozuur door een ander kan de eigenschappen van een virus beïnvloeden, zoals hoe goed een virus tussen mensen wordt overgedragen en hoe vatbaar het virus is voor antivirale geneesmiddelen of huidige vaccins.

Genoomsequencing onthult de volgorde van de nucleotiden in een gen, zoals alfabetletters in woorden. Door de samenstelling van nucleotiden in één virusgen te vergelijken met de volgorde van nucleotiden in een ander virusgen, kunnen variaties tussen de twee virussen aan het licht komen.

Genetische variaties zijn belangrijk omdat ze de structuur van de oppervlakte-eiwitten van een griepvirus beïnvloeden. Eiwitten zijn opgebouwd uit opeenvolgingen van aminozuren.

De vervanging van het ene aminozuur door een ander kan de eigenschappen van een virus beïnvloeden, zoals hoe goed een virus tussen mensen wordt overgedragen en hoe vatbaar het virus is voor antivirale geneesmiddelen of huidige vaccins.

Influenza A- en B-virussen &ndash de primaire influenzavirussen die mensen infecteren &ndash zijn RNA-virussen met acht gensegmenten. Deze genen bevatten instructies voor het maken van nieuwe virussen, en het zijn deze instructies die een influenzavirus gebruikt zodra het een menselijke cel infecteert om de cel te misleiden tot het produceren van meer influenzavirussen, waardoor de infectie wordt verspreid.

Influenza-genen bestaan ​​uit een reeks moleculen die nucleotiden die zich in een kettingachtige vorm aan elkaar hechten. Nucleotiden worden aangeduid met de letters A, C, G en U.

Genoomsequencing is een proces dat de volgorde of sequentie bepaalt van de nucleotiden (d.w.z. A, C, G en U) in elk van de genen die aanwezig zijn in het genoom van het virus. Volledige genoomsequencing kan de sequentie van ongeveer 13.500 letters van alle genen van het virusgenoom onthullen.

Elk jaar voert CDC sequencing van het hele genoom uit op ongeveer 7.000 influenzavirussen uit originele klinische monsters die zijn verzameld via virologisch toezicht. Het genoom van een influenza A- of B-virus bevat acht gensegmenten die coderen (d.w.z. de structuur en kenmerken bepalen van) de 12 eiwitten van het virus, waaronder de twee primaire oppervlakte-eiwitten: hemagglutinine (HA) en neuraminidase (NA). De oppervlakte-eiwitten van een influenzavirus bepalen belangrijke eigenschappen van het virus, waaronder hoe het virus reageert op bepaalde antivirale geneesmiddelen, de genetische gelijkenis van het virus met de huidige influenzavaccinvirussen en het potentieel voor zoönotische (van dierlijke oorsprong) influenzavirussen om menselijke gastheren te infecteren.

Genetische karakterisering

CDC en andere volksgezondheidslaboratoria over de hele wereld sequensen sinds de jaren tachtig de genen van influenzavirussen. CDC draagt ​​gensequenties bij aan openbare databases, zoals het externe pictogram GenBank en het externe pictogram Global Initiative on Sharing Avian Influenza Data (GISAID) , voor gebruik door volksgezondheidsonderzoekers. De resulterende bibliotheken van gensequenties stellen CDC en andere laboratoria in staat om de genen van momenteel circulerende influenzavirussen te vergelijken met de genen van oudere influenzavirussen en virussen die in vaccins worden gebruikt. Dit proces van het vergelijken van genetische sequenties heet genetische karakterisering. CDC gebruikt genetische karakterisering om de volgende redenen:

  • Om te bepalen hoe nauw &ldquo-verwante&rdquo of gelijkaardige griepvirussen genetisch aan elkaar zijn
  • Om te volgen hoe griepvirussen zich ontwikkelen
  • Om genetische veranderingen te identificeren die de eigenschappen van het virus beïnvloeden. Bijvoorbeeld om de specifieke veranderingen te identificeren die verband houden met het gemakkelijker verspreiden van influenzavirussen, het veroorzaken van een meer ernstige ziekte of het ontwikkelen van resistentie tegen antivirale geneesmiddelen
  • Om te beoordelen hoe goed een griepvaccin zou kunnen beschermen tegen een bepaald griepvirus op basis van zijn genetische gelijkenis met het virus
  • Om te controleren op genetische veranderingen in influenzavirussen die circuleren in dierpopulaties die hen in staat zouden kunnen stellen om mensen te infecteren.

De relatieve verschillen tussen een groep influenzavirussen worden getoond door ze te ordenen in een afbeelding die een "fylogenetische boom" wordt genoemd. Fylogenetische bomen voor influenzavirussen zijn als familiebomen (genealogie) voor mensen. Deze bomen laten zien hoe nauw de individuele virussen met elkaar verwant zijn. Virussen worden gegroepeerd op basis van het feit of hun genen en nucleotiden identiek zijn of niet. Fylogenetische bomen van influenzavirussen laten meestal zien hoe vergelijkbaar de genen voor hemagglutinine (HA) of neuraminidase (NA) van het virus op elkaar lijken. Elke sequentie van een specifiek influenzavirus heeft zijn eigen tak aan de boom. De mate van genetisch verschil (aantal nucleotideverschillen) tussen virussen wordt weergegeven door de lengte van de horizontale lijnen (takken) in de fylogenetische boom. Hoe verder virussen uit elkaar staan ​​op de horizontale as van een fylogenetische boom, hoe genetisch meer de virussen van elkaar verschillen.

Figuur. Een fylogenetische boom.

Na bijvoorbeeld CDC-sequenties van een influenza A(H3N2)-virus dat door middel van surveillance is verzameld, wordt de virussequentie gecatalogiseerd met andere virussequenties die een vergelijkbaar HA-gen (H3) en een vergelijkbaar NA-gen (N2) hebben. Als onderdeel van dit proces vergelijkt CDC de nieuwe virussequentie met de andere virussequenties en zoekt naar onderlinge verschillen. CDC gebruikt vervolgens een fylogenetische boom om visueel weer te geven hoe genetisch verschillend de A(H3N2)-virussen van elkaar zijn.

CDC voert het hele jaar door genetische karakterisering van influenzavirussen uit. Deze genetische gegevens worden gebruikt in combinatie met virus-antigeenkarakteriseringsgegevens om te helpen bepalen welke vaccinvirussen moeten worden gekozen voor de aanstaande griepvaccins op het noordelijk halfrond of zuidelijk halfrond. In de maanden voorafgaand aan de WHO-vaccinatieoverlegbijeenkomsten in februari en september, verzamelt CDC griepvirussen door middel van surveillance en vergelijkt de HA- en NA-gensequenties van huidige vaccinvirussen met die van circulerende griepvirussen. Dit is een manier om te beoordelen hoe nauw de circulerende influenzavirussen zijn met de virussen waartegen het seizoensgriepvaccin is samengesteld om te beschermen. Omdat virussen worden verzameld en genetisch gekarakteriseerd, kunnen verschillen worden onthuld.

Soms veranderen circulerende virussen bijvoorbeeld in de loop van een seizoen genetisch, waardoor ze anders worden dan het overeenkomstige vaccinvirus. Dit is een indicatie dat er mogelijk een ander vaccinvirus moet worden geselecteerd voor het volgende griepseizoen, hoewel andere factoren, waaronder bevindingen op het gebied van antigene karakterisering, de vaccinbeslissingen sterk beïnvloeden. De HA- en NA-oppervlakte-eiwitten van influenzavirussen zijn antigenen, wat betekent dat ze worden herkend door het immuunsysteem en in staat zijn een immuunrespons op te wekken, inclusief de productie van antilichamen die infectie kunnen blokkeren. Antigene karakterisering verwijst naar de analyse van de reactie van een virus met antilichamen om te helpen beoordelen hoe het zich verhoudt tot een ander virus.

Methoden voor het sequencen van het griepgenoom

Eén griepmonster bevat: veel influenzavirusdeeltjes die in een reageerbuis zijn gekweekt en die vaak kleine genetische verschillen hebben in vergelijking met elkaar onder de hele populatie van broers en zussen.

Traditioneel hebben wetenschappers een sequencing-techniek gebruikt, genaamd "de Sanger-reactie", om de evolutie van de griep te volgen als onderdeel van virologische surveillance. Sanger-sequencing identificeert de overheersende genetische sequentie onder de vele influenzavirussen die in een isolaat worden gevonden. Dit betekent dat kleine variaties in de populatie van virussen die in een monster aanwezig zijn, niet worden weerspiegeld in het uiteindelijke resultaat. Wetenschappers gebruiken vaak de Sanger-methode om gedeeltelijke genoomsequencing van influenzavirussen uit te voeren, terwijl nieuwere technologieën (zie volgende paragraaf) beter geschikt zijn voor sequencing van het hele genoom.

In de afgelopen vijf jaar heeft CDC &ldquoNext Generation Sequencing (NGS)&rdquo-methodologieën gebruikt, die de hoeveelheid informatie en details die sequencing-analyse kan bieden aanzienlijk hebben uitgebreid. NGS gebruikt geavanceerde moleculaire detectie (AMD) om gensequenties van elk virus in een monster te identificeren. Daarom onthult NGS de genetische variaties tussen veel verschillende influenzavirusdeeltjes in een enkel monster, en deze methoden onthullen ook het volledige coderende gebied van de genomen. Dit detailniveau kan de besluitvorming op het gebied van de volksgezondheid op belangrijke manieren rechtstreeks ten goede komen, maar gegevens moeten zorgvuldig worden geïnterpreteerd door hoogopgeleide experts in de context van andere beschikbare informatie. Zie AMD-projecten: verbetering van griepvaccins voor meer informatie over hoe NGS en AMD een revolutie teweegbrengen in het in kaart brengen van het griepgenoom bij CDC.


Genoom in een fles: DNA & rsquos & lsquoDark & ​​rsquo sequenties spellen

Deze machines voor genetische sequencing produceren een enorme hoeveelheid gegevens. Mijn taak is om het te analyseren en referentiemateriaal te ontwikkelen om andere onderzoekers te helpen zoeken naar genetische varianten, zoals degenen die verantwoordelijk zijn voor ziekten, in het vertrouwen dat hun tests goed werken.

Toen het Human Genome Project 20 jaar geleden begon, besteedde het consortium van onderzoekers van 20 onderzoeksinstituten meer dan $ 1 miljard aan de sequentie van de miljard plus basen van dat eerste genoom. Onlangs stuurden onderzoekers van het Harvard Personal Genome Project (PGP) me mijn hele genoomsequentie, die misschien een paar duizend dollar kostte. Ze vergeleken mijn genoom met het referentiegenoom dat is gegenereerd door het Human Genome Project en vonden meer dan 3 miljoen kleine verschillen of varianten. Ik was opgewonden om mijn genoom te verkennen en misschien enkele aanwijzingen te vinden met betrekking tot de bron van mijn type 1 diabetes en lymfoedeem, die soms genetisch zijn maar niet in mijn familie voorkomen. Maar op basis van ons gezamenlijke werk in het door NIST gehoste "Genome in a Bottle" (GIAB) Consortium, weet ik dat er nog steeds veel uitdagingen zijn, zowel bij het karakteriseren van de volgorde van alle miljarden basen in het menselijk genoom als bij het begrijpen van wat de volgorde betekent.

Van de meer dan drie miljoen varianten die in mijn genoom zijn gevonden, hebben er momenteel minder dan 100 een duidelijke betekenis. Sommige waren niet verrassend, zoals een variant die me een zeven keer hoger risico op mannelijke kaalheid geeft, zoals blijkt uit de vele kale mannen in mijn familie, waaronder ik. Een paar vertellen me ook dat ik varianten die verband houden met zeldzame ziekten in mijn DNA heb, dus als mijn vrouw toevallig drager zou zijn, zouden onze kinderen er last van kunnen hebben. Sommige varianten vertellen me ook dat ik voorzichtig moet zijn met bepaalde soorten medicijnen. Ten slotte suggereren een paar varianten dat ik een iets hoger risico heb op bepaalde ziekten, waaronder één variant die me nog steeds een vijf keer hoger risico geeft om diabetes type 1 te ontwikkelen, de helft van de bevolking heeft de variant en de meeste krijgen de wanorde. Van geen van mijn varianten is momenteel bekend dat ze verband houden met lymfoedeem. Dit soort onzekerheid komt vaak voor, zelfs bij het sequencen van iemand met een ernstige ziekte waarvan wordt aangenomen dat deze genetisch is, maar waarom?

Er zijn veel verklaringen waarom we vaak geen duidelijke genetische oorzaak voor een ziekte kunnen vinden. Veel ziekten hebben bijvoorbeeld zowel omgevings- als genetische oorzaken. Ook zijn de genetische oorzaken van veel ziekten complex, vaak zwak gerelateerd aan veel verschillende varianten in het genoom, dus onderzoekers zullen miljoenen individuen van verschillende voorouders moeten analyseren. Bovendien zijn onze huidige methoden niet krachtig genoeg om de vele soorten varianten en regio's van het genoom te karakteriseren, wat mijn huidige werk motiveert. Hoewel mijn NIST-onderzoek de afgelopen zeven jaar draaide om het analyseren van gegevens over genoomsequenties, is de hoeveelheid gegevens en de complexiteit ervan nog steeds overweldigend.

De technologieën voor DNA-sequencing zijn enorm verbeterd tijdens en sinds het Human Genome Project, zodat tegenwoordig het sequencen van een typisch genoom slechts $ 1.000 tot $ 10.000 kost, afhankelijk van de technologie. De nieuwe methoden brengen echter compromissen met zich mee en vereisen complexe computeranalyse om miljoenen sequentiefragmenten uit het menselijk genoom samen te voegen. Deze analyse is tegenwoordig zeer nauwkeurig voor ongeveer 80-90 procent van de kleine varianten van het genoom, maar grotere veranderingen in het genoom en veranderingen in de repetitieve, slecht begrepen "donkere materie" van het genoom zijn veel uitdagender. Gelukkig worden sequencing-technologieën en analysemethoden voortdurend verbeterd om steeds moeilijker wordende regio's van het genoom tegen lagere kosten te karakteriseren.

Om vertrouwen te krijgen in de resultaten van nieuwe sequentiemethoden en deze te verbeteren, hebben experts uit de industrie, academische laboratoria en de overheid het Genome in a Bottle Consortium (GIAB) opgericht. Deze door NIST geleide samenwerking omvat bedrijven en onderzoekers die nieuwe sequentietechnologieën en analysemethoden ontwikkelen die samenwerken om klinische en onderzoekslaboratoria te helpen de vraag te beantwoorden: "Dus je hebt een genoom gesequenced, hoe goed heb je het gedaan?" We richten ons op het karakteriseren van een klein aantal genomen en stoppen ze letterlijk in "flessen" die iedereen bij NIST kan kopen als referentiemateriaal. Referentiematerialen zijn in wezen materialen waarvoor we ten minste één ding over hen uitgebreid hebben gekarakteriseerd. We hebben bijvoorbeeld referentiemateriaal met een bekende hoeveelheid cholesterol die klinische laboratoria kunnen gebruiken bij het testen van uw bloed om ervoor te zorgen dat ze het juiste antwoord krijgen, of u nu wordt getest in de VS, Azië of waar ook ter wereld.

Voor onze DNA-referentiematerialen, onze genomen in een fles, kozen we twee moeder-vader-zoon-trio's uit het Personal Genome Project en karakteriseerden hun DNA-sequenties uitzonderlijk goed met veel sequentiemethoden. Terwijl verschillende sequentiemethoden op de markt met elkaar concurreren, werkt iedereen openlijk samen in GIAB om te profiteren van de sterke punten van elke methode en, gegeven enige onzekerheid, de ware sequentie van deze genomen te benaderen. Veel van ons NIST-werk voor Genome in a Bottle heeft methoden ontwikkeld om de resultaten van alle sequentiemethoden te integreren en onze beste schatting van de werkelijke sequentie te ontwikkelen. Net zoals klinische laboratoria periodiek cholesterolreferentiematerialen testen om er zeker van te zijn dat ze een vergelijkbare waarde krijgen als die van NIST, sequensen ze onze openbaar beschikbare DNA-referentiematerialen en vergelijken ze hun DNA-sequentieresultaten met onze benadering van de echte sequentie. Ontwikkelaars van methoden gebruiken deze genomen om hun methoden te optimaliseren, en sommigen hebben het zelfs gebruikt om kunstmatige-intelligentiemodellen te trainen om genomen nauwkeuriger te karakteriseren. Normen zoals onze referentiematerialen maken deel uit van het waarmaken van de belofte van 'precisiegeneeskunde', waarmee artsen behandelingen op maat kunnen maken en het juiste medicijn op het juiste moment aan de juiste persoon kunnen geven. Net zoals de door NIST ontwikkelde atoomklokken onverwachte technologieën zoals GPS mogelijk hebben gemaakt, hebben onze nauwkeurig gekarakteriseerde genomen nieuwe technologieën mogelijk gemaakt die we ons in het begin niet hadden voorgesteld.

Om anderen te helpen onze nauwkeurig gekarakteriseerde genomen te gebruiken, leidden we het Global Alliance for Genomics and Health Benchmarking Team. Dit team ontwikkelde gestandaardiseerde methoden voor elk laboratorium om de varianten die ze vinden in het DNA van NIST's referentiematerialen te vergelijken met het antwoord van NIST. Het vergelijken van varianten is complex omdat ze op veel verschillende manieren kunnen worden weergegeven, dus het grootste deel van het werk van het team was een 'meta-vergelijking' van de tools die werden gebruikt om varianten te vergelijken. Na een paar jaar van regelmatige telefonische vergaderingen met wetenschappers van Nieuw-Zeeland tot het VK tot de VS, hebben we zojuist beste praktijken voor benchmarking gepubliceerd, zodat de prestaties van elke sequencing-methode kunnen worden vergeleken met elke andere methode.

Hoewel de varianten die door de meest prominente DNA-tests worden gevonden waarschijnlijk nauwkeurig zijn in de gemakkelijkere regio's van het genoom, kan interpretatie een uitdaging zijn. DNA heeft vaak een bepaalde mystiek, zodat het gemakkelijk is om te geloven dat iets "genetisch" onze bestemming bepaalt. In feite zijn de meeste van onze kenmerken een complex samenspel tussen de sequentie in veel verschillende delen van ons genoom en onze omgeving.Bovendien geven klinische tests voor genoomsequencing vaak "varianten van onzekere betekenis", waarvan het bewijs nog niet duidelijk is of ze een ziekte kunnen veroorzaken. Het is zelfs nog uitdagender om populaire DNA-gebaseerde vooroudertests te interpreteren die zijn besteld door miljoenen mensen over de hele wereld. Deze tests kunnen inzicht geven in de vaderlijke of moederlijke lijn, The NY Times publiceerde een reeks artikelen over het misbruik van voorouderlijke tests ter ondersteuning van de blanke supremacistische ideologie, en genetica-experts van de American Society of Human Genetics veroordeelden deze verkeerde interpretatie met klem. NPR's Code Switch organiseerde een podcast met een interessante discussie over de belangrijke verschillen tussen ras en afkomst. Dat gezegd hebbende, kan het leuk zijn om bijvoorbeeld te zien hoe één voorouderstest duidelijk voorspelde dat veel van mijn voorouders migreerden van Zwitserland naar Oost- en Midden-Pennsylvania, zoals ik zou verwachten op basis van mijn doopsgezinde afkomst.

Het werken met genomen uit het PGP is belangrijk geweest voor het project Genome in a Bottle. Als deelnemer aan de PGP (hoewel ik niet een van de GIAB-genomen ben), heb ik hun rigoureuze toestemmingsproces doorlopen om de potentiële risico's te begrijpen voor het openbaar maken van mijn genoomgegevens en -monsters. Deze risico's variëren van het leren over ziekten waar ik niets aan kon doen tot levensverzekeringsmaatschappijen die mijn premies verhogen vanwege een ziekte die door mijn genoom wordt voorspeld, tot iemand die mijn DNA synthetiseert en het op een plaats delict plant. We zijn de PGP en zijn deelnemers erg dankbaar omdat ze ermee hebben ingestemd dat iedereen secundaire referentiemonsters mag maken. Verschillende bedrijven hebben bijvoorbeeld al ongeveer 100 verschillende secundaire referentiemonsters gemaakt van de GIAB/PGP-genomen om te voldoen aan specifieke behoeften voor klinische laboratoriumtests, zoals monsters die kleine DNA-fragmenten van tumoren in bloed proberen na te bootsen. Een huidige uitdaging is het gebrek aan families van niet-blanke afkomst, dus schreef PGP een blog waarin de behoefte aan diverse vrijwilligers voor het project werd beschreven. We werken aan het vinden van referentiemonsters van individuen met andere voorouders dan de Kaukasische en Aziatische families die we tot nu toe hebben gekarakteriseerd, omdat dit zal helpen de nauwkeurigheid van sequentietests voor alle voorouders te garanderen.

Misschien ligt de oorzaak van mijn ziekten in de 'donkere materie' van het genoom. Wat nog belangrijker is, een dieper begrip van het genoom kan ons helpen om aandoeningen zoals kanker, spierdystrofie, de ziekte van Huntington en schizofrenie te behandelen. Ik voel me vereerd om tot de grote verscheidenheid aan experts in het Genome in a Bottle Consortium te behoren die werken aan het mogelijk maken van de nieuwe technologieën die deze uitdagende delen van het genoom zullen meten en licht werpen op een pad naar genezing van voorheen onbehandelbare ziekten.


Vraag en antwoord: een nieuw hulpmiddel voor het waarborgen van genetische privacy

Amanda Heidt
12 november 2020

De vraag naar gegevens over de genetische sequenties van individuen groeit, zowel van consumenten - het aantal testkits dat door toonaangevende bedrijven als 23andMe en Ancestry.com werd verkocht begin 2019 bedroeg 26 miljoen - als van wetenschappers die grote datasets willen verzamelen voor medisch onderzoek. Naast sequencing en genotypering van het hele genoom, waarbij wetenschappers de genetische varianten van een persoon identificeren, hebben nieuwe functionele genomics-tools zoals RNA-seq, ChIP-seq en single-cell sequencing geleid tot een exploderend aantal tests die gedetailleerd beschrijven hoe mensen (en hun individuele cellen) reageren op omgevingsfactoren, medicijnen of ziekten.

Maar naarmate meer en meer mensen hun informatie vrijwillig verstrekken, worden de schijnbaar geanonimiseerde gegevens die uit dergelijke tests voortkomen een doelwit voor hackers die gevoelige medische informatie willen verzamelen. Met name de vele genetische varianten die elke persoon uniek maken, kunnen worden gebruikt om ze net zo zeker te identificeren als een vingerafdruk, waardoor vertrouwelijke informatie wordt onthuld, zoals hun ziektestatus. In een proces dat bekend staat als een koppelingsaanval, kan een hacker bekende informatie over een persoon gebruiken uit bronnen zoals openbare registers of zelfs afgedankte objecten die het DNA van een persoon bevatten om deze te identificeren in een anonieme database die is samengesteld door academische onderzoekers. Als iemand bijvoorbeeld anoniem zou deelnemen aan een aids-onderzoek, zou het mogelijk zijn om hun deelname - en dus hun hiv-status - te achterhalen met behulp van DNA-sequentie van een sigaret.

Bio-informatici en datawetenschappers werken daarom aan de ontwikkeling van nieuwe manieren om gegevens op te slaan en te analyseren die de anonimiteit beschermen en tegelijkertijd het soort gezamenlijk delen mogelijk maken dat nodig is om de medische wetenschap vooruit te helpen.

De wetenschapper sprak met Gamze Gursoy en Mark Gerstein, twee bio-informatici aan de Yale School of Medicine, over hoe gevoelige informatie kan worden verkregen uit genomische gegevens en over manieren om privacy en bruikbaarheid in evenwicht te brengen. Hun paper, vandaag (12 november) gepubliceerd in Cel, beschrijft een nieuwe methode voor het opschonen of verwijderen van gevoelige informatie uit functionele genomics-datasets door identificerende varianten te scheiden op een manier die de gegevenskwaliteit niet beïnvloedt.

Zie "Techniek om Golden State Killer-verdachte te volgen, zou jou ook kunnen vinden"

De wetenschapper:We horen veel over genetische privacy in de context van zaken als 23andMe en Ancestry.com-resultaten, maar wat u in dit artikel beschrijft, is een ander soort gegevens. Wat onderscheidt functionele genomica van zoiets als DNA-sequencing of genotypering?

Gamze Gursoy: De soorten gegevens die 23andMe en Ancestry.com [leveren] wanneer mensen geïnteresseerd zijn in het kijken naar voorouders of hun aanleg voor ziekten, zijn de genetische varianten die je krijgt van DNA-sequencing. . . . Als het gaat om functionele genomica, doe je deze experimenten om de activiteiten in de celkern te begrijpen - of genen tot expressie worden gebracht, of transcriptiefactoren binden. Deze experimenten zijn niet noodzakelijkerwijs gedaan om de genetische varianten van het individu te identificeren.

Mark Gerstein: Je kunt je genoom maar één keer sequencen, maar je kunt in wezen een oneindig aantal functionele genomics-experimenten op één persoon doen. Onverbiddelijk zullen die menselijke monsters je varianten geven van de mensen die die monsters hebben gedoneerd, maar het is vaak volkomen irrelevant voor waar je in geïnteresseerd bent.

TS:Wat kunnen onze functionele genomische gegevens over ons als individuen onthullen, en waarom zouden we ons daarom zorgen maken over de privacy van deze informatie?

GG: Er zijn twee soorten informatie die u kunt krijgen. Omdat dit sequenties zijn van een sequencer, kun je [sommige] genetische varianten van het individu krijgen. Dat proberen we te zuiveren, omdat we ze bijvoorbeeld niet nodig hebben om genexpressie te berekenen.

Maar er is nog iets. Als je erachter komt van wie je functionele genomics-gegevens hebt, kun je fenotypische informatie over hen krijgen. Omdat deze functionele genomics-experimenten meestal worden gedaan om te begrijpen of een gen aan of uit staat bij een ziekte. Je probeert de genetische varianten te beschermen zodat je de persoon niet opnieuw kunt identificeren, want als je dat eenmaal doet, kun je wat persoonlijke, gevoelige fenotypische informatie krijgen.

MG: De analogie om over na te denken is wat er met internet is gebeurd. Aanvankelijk dachten mensen dat het heel onschuldig was om foto's op Facebook te plaatsen. Nu, er zijn zoveel mensen in de wereld die naar deze dingen kijken. Ik denk echt dat het een heel analoog proces is, omdat het de bedoeling van de biomedische onderneming is om een ​​zeer groot deel van de genomen van mensen te sequencen en enorme databases te bouwen. Wat erg jammer zou zijn, is dat mensen niet van tevoren over dit soort dingen nadenken, dat we in de toekomst deze enorme database bouwen en ontdekken dat deze al deze vervelende lekken heeft. Dat zou zeer schadelijk zijn voor de biomedische wetenschap.

Ook al lijkt het misschien academisch en een beetje dwaas om nu over al deze dingen na te denken, het is echt belangrijk om het te doen voordat het op schaal komt.

Zie "Hackers breken in in medische databases om patiëntgegevens te beschermen"

TS:Wat is een koppelingsaanval en kunt u een voorbeeld uit de praktijk delen?

GG: Stel dat u twee datasets hebt. De ene heeft informatie afkomstig van een bekende persoon en de andere is een geanonimiseerde dataset. Bij een koppelingsaanval gebruik je de bekende informatie om de geanonimiseerde dataset te deanonimiseren.

Wat we bijvoorbeeld hebben gedaan, is koffiekopjes van een persoon nemen en het DNA dat we op het koffiekopje hebben gevonden, sequencen. . . . We kennen de eigenaar van het koffiekopje en we hebben een functionele genomics-database. We hebben de database gedeanonimiseerd door het genotype dat we uit het koffiekopje hebben verkregen te koppelen om fenotypische informatie over de eigenaar van het koffiekopje te onthullen.

TS:Denkt u dat de privacywetgeving gelijke tred houdt met de snelheid waarmee we deze genomische tools ontwikkelen?

MG: Niet precies. Aan de ene kant zijn er mensen die het helemaal niet begrijpen, die in wezen genetische gegevens delen zonder het risico te begrijpen. Maar ik denk dat dat meer een minderheid is. Het gangbare denkproces is nu dat genomische privacy een groot probleem is.

Maar wat er gebeurt, is dat alles op slot gaat. Het is erg moeilijk om veel studies samen te voegen. . . om statistische power te krijgen om belangrijke genetische correlaties te achterhalen. Dit denkproces, hoewel we het zeker begrijpen, is niet echt een geweldig denkproces voor functionele genomics-gegevens waarbij het punt van de gegevens niet de DNA-varianten zijn.

Het punt van ons artikel is dat er misschien een andere manier van denken over is. Je zou de resultaten van de experimenten kunnen nemen en dit soort ontsmetting kunnen doen, en ze dan op een veel vrijere manier kunnen delen. Je kunt één keer iemands DNA sequensen en de genotypen hebben en ze veilig opbergen. Maar dan heeft het individu veel weefsels, veel cellen, voor functioneel genomics-werk.

Zie "Startups plannen de Gold Rush voor gezondheidsgegevens"

TS:Hoe kunt u de functionele genomics-gegevens opschonen om u te beschermen tegen deze koppelingsaanvallen?

GG: Deze functionele genomics-gegevens worden in bepaalde bestandsformaten gedeeld. [Tijdens de analyse nemen onderzoekers] de sequencing-lezingen en brengen ze deze in kaart met een menselijk referentiegenoom. [Het bestand] vertelt ons waar deze reads in het genoom in kaart worden gebracht, maar het vertelt ons ook wat de volgorde van de reads is.

We kijken naar dit gegevensbestandsformaat en [wanneer we een genetische variant vinden in de read], veranderen we deze in feite in een formaat waarin [er geen] verschil is tussen het referentiegenoom en de read. Dus als je een sequentie hebt die verschilt van dat referentiegenoom, [overschrijven we het met] het referentiegenoom terwijl we behouden waar [de sequentie] in het genoom is afgebeeld.

Als je varianten met één nucleotide hebt waarbij je een letter verandert, is dat heel eenvoudig. [Bijvoorbeeld], als u alleen een letter A in C verandert, verandert de leeslengte niet en heeft dit geen invloed. Maar het wordt echt ingewikkeld als je verwijderingen en invoegingen hebt. Je zou een regio kunnen hebben waar je genoom die regio niet heeft, maar het referentiegenoom wel. Ik [zou] bijvoorbeeld een paar letters aan het einde van de read moeten toevoegen, zodat deze nog steeds dezelfde lengte heeft.

TS:Ik was benieuwd of je een genetische test voor consumenten hebt gedaan en of je je zorgen maakt over privacy.

GG: Ik sprak met mijn familie en toen deed ik het. Ik was een beetje bezorgd, maar mijn nieuwsgierigheid was iets groter dan mijn bezorgdheid. Ook al vertrouwen mensen bedrijven niet, in termen van datamisbruik denk ik dat er echt goede dataopslagsystemen zijn die deze bedrijven opzetten. Natuurlijk zal het voor commerciële doeleinden worden gebruikt. Maar als het gaat om het opsporen van mij en het schenden van mijn privacy, zie ik niet zo'n probleem.


Verspreiding van SARS-CoV-2 in India

Samenvatting van vroege verspreiding: opkomst en ondergang van een India-specifieke variant

Eind maart werd in India een uniek cluster van sequenties geïdentificeerd dat niet kon worden geclassificeerd in eerder geannoteerde wereldwijde clades. Dit cluster, de clade I/A3i genaamd, wordt gekenmerkt door een set van vier mutaties zoals beschreven in ons eerdere werk (Banu et al. 2020). Clade I/A3i is mogelijk ontstaan ​​uit een enkele uitbraak en verspreidde zich snel over het land en heeft een lagere mutatiesnelheid in vergelijking met andere clades. De evolutie van de I/A3i-clade wordt grotendeels bepaald door veranderingen in de genen Nucleocapside (N) en Membrane (M), in tegenstelling tot de overheersende A2a-clade, die wordt gekenmerkt door veranderingen in het gen Spike (S). Toen eind mei voor het eerst werd gekarakteriseerd, behoorde 42% van alle genomen in India tot deze groep. Leden van de Clade I/A3i vormden de overheersende klasse van isolaten uit de staten Delhi, Telangana, Maharashtra, Karnataka en Tamil Nadu en waren de op één na grootste leden in Haryana, Madhya Pradesh, West-Bengalen, Odisha, Uttar Pradesh en Bihar. Wereldwijd behoorden ongeveer 300 genomen die zijn bemonsterd uit Singapore, Maleisië, Australië, de Verenigde Staten, Canada, Taiwan, Japan, Thailand, de Filippijnen, Oman, Guam en Saoedi-Arabië tot deze groep en een paar van hen hadden een bemonsteringsdatum eerder dan de vroegste monster van dit cluster uit India. Hoewel het oorspronkelijk een dominante clade was, is de representatie ervan niet meer aanwezig in recente monsters, zoals voorspeld door het mutatieprofiel (Banu et al. 2020). Momenteel vallen, rekening houdend met alle beschikbare genomische gegevens uit India, 547 genomen (10%) uit 17 van de 20 staten waaruit de genomen afkomstig zijn, onder de clade I/A3i.

Huidige SARS-CoV-2-varianten in India

De overname van A2a van A3i en andere kleinere varianten in India is samengevat in figuur ​ figuur3. 3 . Het eerste exemplaar van de A2a-variant werd geïdentificeerd uit monsters die begin maart waren verzameld, met een toenemende prevalentie in de volgende maanden. Momenteel zijn twee subtypes van A2a dominant in India, gekenmerkt door verschillende mutaties in het N-gen en andere ORF's, naast de D614G-spikemutatie.

Tijdlijn van clade-distributie in India (boven) en over verschillende staten (staatsafkortingen zijn aan de linkerkant aangegeven). Clades worden onderscheiden door kleuren volgens de legende aan de bovenkant, terwijl de grootte van de bubbel hun prevalentie aangeeft. Zoals te zien is op de landweg bovenaan, was de A3i-clade (groen) dominant in de maanden maart-mei en werd uiteindelijk ingehaald door de A2a-clade (blauw).

Het variante landschap komt grotendeels overeen tussen staten in India. Er lijken echter gevallen te zijn van een hoge vertegenwoordiging van specifieke varianten in geselecteerde staten. Deze omvatten de ORF3a-mutatie L46F van Telangana en de Spike-mutatie L54F die wordt gezien in Gujarat (Singh et al. 2020 Hassan et al. 2020). Een andere Spike-mutatie N440K werd eind juni voor het eerst geïdentificeerd in de staat Andhra Pradesh en is aanwezig geweest in

6% van de monsters die sindsdien in India zijn verzameld (Jolly et al. 2020). De top drie genen waar de meeste mutaties zijn geïdentificeerd zijn ORF1a (2333), ORF1b (1278) en S (714). Figuur ​ Figuur4 4 toont de frequentie van mutaties geïdentificeerd in Indiase monsters voor alle virale genen en tabel ​ tabel2 2 geeft een overzicht van de mutaties in Indiase varianten die zijn geïdentificeerd tijdens de laatste 10 maanden van de pandemie. De clade-analyse en variantinformatie kunnen interactief worden bekeken op onze website https://data.ccmb.res.in/gear19/. De meeste varianten lijken oververtegenwoordigd in staten die momenteel de meeste monsters rangschikken en indienen bij GISAID. Er moet meer sequentiebepaling uit ondervertegenwoordigde gebieden worden uitgevoerd om een ​​duidelijker beeld te krijgen van de landelijke trends van de virale verspreiding.

Plot met het aantal mutaties dat is geïdentificeerd in genen in het SARS-CoV-2-genoom, uit Indiase monsters. ORF1a, ORF1b en S vertonen een hogere frequentie van mutaties in vergelijking met de rest van de genen.

Tafel 2

Meest voorkomende SARS-CoV-2-mutaties in India

VariantEiwit_PositieEiwit_MutatieprevalentiePercentage
A23403GS:614D614G443082.29
C14408TORF1b:314P314L437581.12
G28881AN:203R203K209638.87
G28883CN:204G204R208638.68
G28882AN:203R203K208638.68
G25563TORF3a:57Q57H125623.29
C5700AORF1a:1812A1812D120922.42
C28854TN:194S194L109620.32
G11083TORF1a:3606L3606F76114.11
C13730TORF1b:88A88V65512.15
C28311TN:13P13L65012.05
C6312AORF1a:2016T2016K59311
C8917TORF1a:2884F2884F4478.29
C6573TORF1a:2103S2103F3015.58
G9389AORF1a:3042D3042N3005.56
C25528TORF3a:46L46F2955.47
T1947CORF1a:561V561A2344.34
C9693TORF1a:3143A3143V2153.99
C3267TORF1a:1001T1001I1923.56
G26173TORF3a:261E261*1903.52
C21034TORF1b:2523L2523F1873.47
G28183TORF8:97S97I1873.47
T28277CN:2S2P1633.02
C1218TORF1a:318S318L1212.24
G21724TS:54L54F1152.13
G28878AN:202S202N1041.93
A4372GORF1a:1369G1369G1031.91
T28144CORF8:84L84S1031.91
G29474TN:401D401Y931.72
A21551TORF1b:2695N2695L871.61
A21550CORF1b:2695N2695L871.61
C10815TORF1a:3517S3517F841.56
C6310AORF1a:2015S2015R801.48
A2292CORF1a:676Q676P741.37
C18568TORF1b:1701L1701F731.35
C16726TORF1b:1087H1087Y711.32
C21575TS:5L5F701.3
G23593TS:677Q677H701.3
G11417TORF1a:3718V3718F671.24
G1820AORF1a:519G519S631.17
C20384TORF1b:2306A2306V611.13
G3871TORF1a:1202K1202N601.11
C19862TORF1b:2132A2132V581.08
G8371TORF1a:2702Q2702H581.08
C26447TE:68S68F581.08
T25556GORF3a:55V55G581.08
G21974TS:138D138Y561.04
C23604AS:681P681H530.98
G28899TN:209R209I530.98
G28209CORF8:106E106Q520.96
C26060TORF3a:223T223I520.96
T8022GORF1a:2586V2586G520.96
G28221TORF8:110E110*470.87
C11195TORF1a:3644L3644F470.87
C19154TORF1b:1896T1896I460.85
C6027TORF1a:1921P1921L440.82
T22882GS:440N440K430.8
C22227TS:222A222V50.09
G23012AS:484E484K30.06
A23063TS:501N501Y20.04
G22992AS:477S477N10.02

Samenvatting van de top 61 niet-synonieme Indiase varianten van SARS-CoV-2 (gerangschikt op prevalentie) met een lijst van de genomische mutatie en de overeenkomstige aminozuurverandering in het bijbehorende virale eiwit (van de 6888 totale varianten https://data.ccmb. res.in/gear19/). De positie van de verandering in het genoom (kolom 1) en op de eiwitsequentie (kolom 2) wordt aangegeven. Prevalentietrends in termen van frequentie en proportie in de totale reeksen van de Indiase monsters worden ook gegeven. De laatste paar varianten zijn relatief nieuw en hebben daarom een ​​lage prevalentie onder de monsters die tot nu toe in India zijn gesequenced, maar ze zijn sterke kandidaten voor verhoogde virale overdracht en/of immuunontsnapping.

Het eerste positieve geval in India werd in januari gemeld vanuit Kerala van een patiënt die vanuit Wuhan was gereisd, en de staat biedt een unieke kans om virale diversiteit te bestuderen (Yadav et al. 2020). Een studie uitgevoerd op 200 monsters identificeerde 4 nieuwe genetische varianten en 89 varianten die exclusief waren voor Kerala en niet aanwezig waren in andere delen van het land (Radhakrishnan et al. 2020). Dit werk wordt momenteel opgeschaald door de lokale deelstaatregering om inzicht te krijgen in de transmissie en moet in alle Indiase staten worden uitgevoerd.

Vanaf december 2020 is een nieuw landelijk consortium met de naam INSACOG opgericht om nieuwe en circulerende varianten te identificeren door middel van genoomsequencing in meerdere staten (MoHFW 2020). Een van de hoofddoelen van dit consortium is om 5% van alle COVID-19-positieve gevallen in het land te sequensen.

Nieuwe globale varianten en redenen tot zorg

Het mutatielandschap van SARS-CoV-2 staat onder constant wereldwijd onderzoek om het effect van deze veranderingen op de besmettelijkheid en antigeniciteit van het virus te begrijpen. Hoewel de meeste mutaties weinig tot geen gevolgen hebben, krijgt het virus soms een mutatie die het een voordeel geeft ten opzichte van andere stammen. Het Spike-eiwit wordt door het virus gebruikt om via de ACE2-receptor menselijke cellen binnen te dringen. Spike-mutaties kunnen dus mogelijk een betere affiniteit of binding vergemakkelijken en gemakkelijker toegang tot de gastheercel mogelijk maken, zoals te zien is in het geval van de D614G-mutatie die in de voorgaande sectie is beschreven. Het receptorbindende domein (RBD) in het spike-eiwit is het meest variabele deel van het coronavirusgenoom (Zhou et al. 2020). Mutaties kunnen vermoedelijk ook het virus resistent maken tegen neutralisatie door gastheerantilichamen en moeten dus worden geïdentificeerd en gecontroleerd op de werkzaamheid van antilichaamtherapeutica. Afbeelding 5 5 toont de positie van enkele van de belangrijkste Spike-mutaties die de biologie kunnen veranderen in termen van overdracht, infectiviteit en het mogelijk maken van immuunontduiking.

Vertegenwoordiging van het spike-gen dat wijst op belangrijke mutaties die zorgwekkend zijn en in India moeten worden gecontroleerd. De verschillende subdomeinen van het spike-gen worden weergegeven als gekleurde vakken en gedefinieerd in de legenda. De positie en kleur van elke lijn geeft de locatie van de specifieke mutatie aan, gedefinieerd boven het gen.

Enkele van de recentelijk geïdentificeerde piekmutaties die zorgwekkend zijn, zijn de N439K, N440K, Q493K en E484K, die vatbaar zijn voor immuunontsnapping (Andreano et al. 2020 Thomson et al. 2020 Weisblum et al. 2020). Hiervan is de N440K-variant gevonden in

42% van de monsters van Andhra Pradesh en E484K in 3 monsters van Maharashtra (Jolly en Scaria 2020 Singh et al. 2020). De meeste andere mutaties zijn afwezig in momenteel gesequencedeerde monsters van Indiase isolaten en moeten actief worden gecontroleerd. Tabel ​ Tabel3 3 belicht de belangrijkste Spike-mutaties van mondiaal belang die een prioriteit zijn voor surveillance in het Indiase landschap.

Tafel 3

Zorgwekkende S-genmutaties die monitoring via genoomsequencing vereisen

MutatieReden tot bezorgdheid
�H-70VImmuunontsnapping, diagnostisch falen in testen gericht op het S-gen, geïdentificeerd als onderdeel van de lijn van UK Variant of Concern (VOC) 202012/01 (B.1.1.7 of 501Y.V1), onderdeel van Cluster 5 nertsenset
A222VSnelgroeiende afstamming in Europa
N439KVerbeterde bindingsaffiniteit voor de hACE2-receptor en kan waarschijnlijk neutraliserende antilichamen ontwijken
N440KHoge frequentie in Andhra Pradesh
Y453FVerbeterde bindingsaffiniteit voor hACE2-receptor en kan waarschijnlijk neutraliserende antilichamen ontwijken, onderdeel van Cluster 5 nertsenset
N501YVerbeterde bindingsaffiniteit voor hACE2-receptor, mogelijke rol bij verhoogde transmissie, geïdentificeerd als onderdeel van de afstamming van UK Variant of Concern (VOC) 202012/01, geïdentificeerd als onderdeel van afstamming van Zuid-Afrikaanse 501Y.V2 (B.1.351), en als onderdeel van afstamming 501Y.V2 (B.1.351) in Zuid-Afrika en 501Y.V3 (P.1) in Brazilië
D614GVerbeterde bindingsaffiniteit voor hACE2-receptor, verhoogde transmissie, huidige overwegend voorkomende stam
P681HDirect grenzend aan de furine-splitsingsplaats, geïdentificeerd als onderdeel van de afstamming van UK Variant of Concern (VOC) 202012/01, geïdentificeerd als onderdeel van afstamming in Nigeria (B.1.1.207)
E484KVerminderde gevoeligheid voor neutralisatie door antilichamen, geïdentificeerd als onderdeel van de lijn van Zuid-Afrikaanse 501Y.V2 (B.1.351), geïdentificeerd als onderdeel van de lijn in Brazilië (B.1.1.28), en als onderdeel van de B.1.1.28 lijn in Brazilië (501Y.V3 of P.1)

Indiase en globale mutaties geïdentificeerd in het S-gen die een wijziging in het spike-eiwit veroorzaken en schadelijk kunnen zijn voor de menselijke populatie in termen van virale overdracht, besmettelijkheid en immuunontsnapping.

Europese geslachten geïdentificeerd in Denemarken en Spanje

SARS-CoV-2 is onlangs door mensen in nertsen geïntroduceerd en heeft zich sindsdien aangepast aan de nertsgastheer. Een unieke stam genaamd Cluster 5 werd in beide gastheren geïdentificeerd die drie aminozuurveranderingen (I692V, M1229I en Y453F) en twee deleties (del 69�) in het spike-eiwit omvat (Oude Munnink et al. 2020 Van Dorp et al. 2020a, b). Deze variant werd voor het laatst gezien in september over genomen. Recente surveillancestudies door Europese consortia hebben verschillende andere stammen van SARS-CoV-2 geïdentificeerd die een verhoogde overdracht vertonen. Sequentie- en analyse-inspanningen door Spanje hebben de EU1- en EU2-stammen geïdentificeerd, die twee mutaties in hun Spike-eiwitten herbergen (respectievelijk A222V en S477N) (Hodcroft et al. 2020a, b). Deze spanningen werden in verband gebracht met de toename van het aantal gevallen in verschillende Europese landen tijdens de zomer. In Indiase isolaten zijn tot op heden vijf monsters met A222V- en één monster met S477N-mutaties geïdentificeerd. Aanvullende studies zijn nodig om inzicht te krijgen in de mogelijke implicaties ervan op het gebied van diagnostiek, therapieën en vaccins in ontwikkeling.

Afstamming B.1.351 geïdentificeerd in Zuid-Afrika

De laatste maand van het jaar 2020 begon met verontrustend nieuws over nieuwe varianten van SARS-CoV-2 die een verhoogde overdraagbaarheid vertonen, voor het eerst geïdentificeerd in het VK en Zuid-Afrika. Recente rapporten uit Zuid-Afrika maken melding van bezorgdheid met betrekking tot afstamming B.1.351 die een mutatie heeft in de RBD van het Spike-eiwit (N501Y) die geassocieerd kan zijn met snellere overdracht en mogelijk nadelige ziekte bij jonge en gezonde personen (Tegally et al. 2020). Gekenmerkt door een andere niet-synonieme Spike-mutatie, vervangt de variant asparagine (N) door tyrosine (Y) in het RBD en verhoogt het de virale affiniteit voor de ACE2-receptor op de gastheercellen. Dit zou de dominante verspreiding van 501Y.V2 in de regio in de afgelopen paar maanden kunnen verklaren, hoewel verdere studies nodig zijn om de epidemiologie ervan te begrijpen.

Afstamming B.1.1.7 geïdentificeerd in het VK

Nog zorgwekkender is het laatste rapport van het COVID-19 Genomics UK Consortium (COG-UK), waarin de variant VUI-202012/01 (afstamming B.1.1.7) wordt beschreven die wordt geassocieerd met snelgroeiende uitbraken in Londen, Kent , en de andere Britse provincies (COG-UK 2020 Volz et al. 2020). Een verviervoudiging van het aantal gevallen in een tijdsbestek van slechts 10 weken leidde tot onmiddellijke monitoring en onderzoek van de nieuwe variant, gevolgd door wereldwijde maatregelen om de verspreiding ervan te beperken. Afstamming B.1.1.7 wordt verondersteld 70% meer overdraagbaar te zijn dan andere stammen en is veel sneller gemuteerd dan andere varianten (Europees Centrum voor ziektepreventie en -bestrijding 2020). Sequentiebepaling van deze stam heeft een cluster van ongeveer 23 mutaties geïdentificeerd (Public Health England 2020), waarvan er 17 niet-synoniem zijn, waaronder N501Y en P681H, evenals de twee deleties (69-70 del en 144 del) in Spike-eiwit, geassocieerd met het vermogen om aan eerdere immuunreacties te ontsnappen (Kemp et al. 2020). Virale fusie met gastheercellen wordt mogelijk gemaakt door de splitsing van S in S1- en S2-subregio's (via gastheerenzym furine) en de P681H-mutatie naast de splitsingsplaats is dus ook een reden tot bezorgdheid (figuur ​ (figuur 5). 5). Tot nu toe hebben 54 Indiase isolaten de P681H-mutatie en is aanwezig in

4% van de isolaten uit Maharashtra. Meer dan 12% van de door de COG-UK geanalyseerde monsters behoren momenteel tot deze lijn. Ondanks dat er vanaf de tweede helft van december 2020 grootschalige beperkingen op het wereldwijde reizen worden ingevoerd, heeft de VUI-202012/01-variant zich al verspreid naar een paar andere Europese landen vanuit het VK, terwijl de Zuid-Afrikaanse variant 501Y.V2 nu is geïdentificeerd in het VK (Europees Centrum voor ziektepreventie en -bestrijding 2020). Varianten met een efficiënte overdracht kunnen zich dus zeer snel over de hele wereld verspreiden zonder passende zorg en toezicht.

De VUI-202012/01 is onlangs ook geïdentificeerd in de Indiase bevolking, waarbij gevallen van geïnfecteerde reizigers uit het VK positief testten voor de B.1.1.7-lijn die snel 100 gevallen naderde. Tot dusver is er geen bewijs van overdracht door de gemeenschap van de variant in India, maar dit kan alleen worden bevestigd als een voldoende aantal positieve monsters in het hele land is gesequenced. Als deze stam inderdaad een transmissievoordeel heeft, zal hij waarschijnlijk de D614G inhalen en de pandemie in 2021 aandrijven, tenzij strikte maatregelen worden genomen voor wereldwijde inperking. Het begrijpen van de genomische epidemiologie van het virus in India zal van cruciaal belang zijn om te anticiperen op de opkomst van varianten, het opsporen van transmissienetwerken, het onderscheiden van selectieve druk en het evalueren van de ernst van de ziekte van uitbraken.

Afstamming P.1 geïdentificeerd in Brazilië

Een variant die circuleert in Manaus, Brazilië, werd geïdentificeerd door internationale reizigers in Japan in virale genomen die werden bemonsterd van half eind december 2020 tot begin januari 2021. De nieuwe lijn P.1 (afstammeling van B.1.1.28) heeft 17 aminozuurmutaties, waaronder die van zorg zoals E484K, K417T en N501Y in spike-gen. Dit viel samen met een heropflakkering van infecties in Manaus en een snelle toename van het aantal ziekenhuisopnames met COVID-19 in januari 2021 ondanks hoge seroprevalentie 76% van de bevolking had in oktober 2020 al antistoffen tegen het virus aangetoond (Sabino et al. 2021). Een nieuwe sublijn P.2 (die onafhankelijk de spike E484K-mutatie heeft verkregen die geassocieerd is met immuunontduiking) is nu gedetecteerd op veel locaties in Brazilië, waaronder in Manaus. Er zijn onlangs drie gevallen van herinfectie vastgesteld in Brazilië, waarvan er één tot P.1 behoort en twee andere tot de P.2-lijn (Resende et al. 2021 Naveca et al. 2021 Vasques Nonaka et al. 2021). Dergelijke varianten die meerdere mutaties bevatten die een hogere transmissie en/of immuunontsnapping kunnen veroorzaken, zijn sterke kanshebbers om herinfecties mogelijk te maken en de werkzaamheid van vaccins wereldwijd te verlagen.


Ik heb net mijn genoom laten sequensen. Kan iemand mij vertellen wat deze verschillende bestandsformaten zijn? - Biologie

Welkom! In dit bericht zullen we karakter voor karakter de broncode van het BioNTech/Pfizer SARS-CoV-2 mRNA-vaccin bekijken.

Ik wil de grote groep mensen bedanken die tijd hebben besteed aan het bekijken van dit artikel voor de leesbaarheid en correctheid. Alle fouten blijven echter van mij, maar ik hoor ze graag snel via [email protected] of @PowerDNS_Bert

Nu, deze woorden kunnen enigszins schokkend zijn - het vaccin is een vloeistof die in uw arm wordt geïnjecteerd. Hoe kunnen we praten over broncode?

Dit is een goede vraag, dus laten we beginnen met een klein deel van de broncode van het BioNTech/Pfizer-vaccin, ook bekend als BNT162b2, ook bekend als Tozinameran, ook bekend als Comirnaty.

Het BNT162b2-mRNA-vaccin heeft deze digitale code als kern. Het is 4284 tekens lang, dus het zou in een heleboel tweets passen. Helemaal aan het begin van het productieproces van het vaccin heeft iemand deze code geüpload naar een DNA-printer (ja), die de bytes op de schijf vervolgens heeft omgezet in echte DNA-moleculen.

Uit zo'n machine komen minuscule hoeveelheden DNA, die na veel biologische en chemische verwerking als RNA (waarover later meer) in de vaccinflacon terechtkomen. Een dosis van 30 microgram blijkt inderdaad 30 microgram RNA te bevatten. Daarnaast is er een slim lipide (vet) verpakkingssysteem dat het mRNA in onze cellen krijgt.

RNA is de vluchtige 'werkgeheugen'-versie van DNA. DNA is als de opslag op de flashdrive van de biologie. DNA is zeer duurzaam, intern redundant en zeer betrouwbaar. Maar net zoals computers code niet rechtstreeks vanaf een flashstation uitvoeren, wordt code, voordat er iets gebeurt, gekopieerd naar een sneller, veelzijdiger maar veel kwetsbaarder systeem.

Voor computers is dit RAM, voor biologie is dit RNA. De gelijkenis is treffend. In tegenstelling tot flash-geheugen, gaat RAM zeer snel achteruit, tenzij er liefdevol voor wordt gezorgd. De reden waarom het mRNA-vaccin van Pfizer/BioNTech in de diepste diepvriezers moet worden bewaard, is dezelfde: RNA is een fragiele bloem.

Elk RNA-teken weegt in de orde van grootte van 0,53·10⁻²¹ gram, wat betekent dat er ongeveer 6·10¹⁶ tekens zijn in een enkele vaccindosis van 30 microgram. Uitgedrukt in bytes is dit zo'n 14 petabytes, al moet gezegd worden dat dit uit zo'n 13.000 miljard herhalingen van dezelfde 4284 karakters bestaat. De feitelijke informatieve inhoud van het vaccin is iets meer dan een kilobyte. SARS-CoV-2 zelf weegt ongeveer 7,5 kilobytes.

Update: In de originele post stonden deze nummers uit. Hier is een spreadsheet met de juiste berekeningen.

Het kortste stukje achtergrond

DNA is een digitale code. In tegenstelling tot computers, die 0 en 1 gebruiken, gebruikt het leven A, C, G en U/T (de 'nucleotiden', 'nucleosiden' of 'basen').

In computers slaan we de 0 en 1 op als de aan- of afwezigheid van een lading, of als een stroom, als een magnetische overgang, of als een spanning, of als een modulatie van een signaal, of als een verandering in reflectiviteit. Of kortom, de 0 en 1 zijn niet een soort abstract concept - ze leven als elektronen en in vele andere fysieke belichamingen.

In de natuur zijn A, C, G en U/T moleculen, die als ketens in DNA (of RNA) zijn opgeslagen.

In computers groeperen we 8 bits in een byte, en de byte is de typische gegevenseenheid die wordt verwerkt.

De natuur groepeert 3 nucleotiden in een codon en dit codon is de typische verwerkingseenheid. Een codon bevat 6 bits informatie (2 bits per DNA-teken, 3 karakters = 6 bits. Dit betekent 2⁶ = 64 verschillende codonwaarden).

Tot nu toe redelijk digitaal. Ga bij twijfel naar het WHO-document met de digitale code om het zelf te zien.

Verdere literatuur is hier beschikbaar - deze link ('Wat is het leven') kan helpen om de rest van deze pagina te begrijpen. Of, als je van video houdt, ik heb twee uur voor je.

Dus wat doet die code?

Het idee van een vaccin is om ons immuunsysteem te leren hoe het een ziekteverwekker moet bestrijden, zonder dat we daadwerkelijk ziek worden. Historisch gezien is dit gedaan door het injecteren van een verzwakt of onbekwaam (verzwakt) virus, plus een 'adjuvans' om ons immuunsysteem tot actie aan te zetten. Dit was een beslist analoge techniek waarbij miljarden eieren (of insecten) betrokken waren. Het vergde ook veel geluk en veel tijd. Soms werd ook een ander (niet-gerelateerd) virus gebruikt.

Een mRNA-vaccin bereikt hetzelfde ('ons immuunsysteem opvoeden'), maar dan op een laserachtige manier. En ik bedoel dit in beide betekenissen - erg smal maar ook erg krachtig.

Dus hier is hoe het werkt. De injectie bevat vluchtig genetisch materiaal dat het beroemde SARS-CoV-2 'Spike'-eiwit beschrijft. Door slimme chemische middelen slaagt het vaccin erin om dit genetische materiaal in sommige van onze cellen te krijgen.

Deze beginnen dan plichtsgetrouw SARS-CoV-2 Spike-eiwitten te produceren in voldoende grote hoeveelheden zodat ons immuunsysteem in actie komt. Geconfronteerd met Spike-eiwitten en (belangrijkerwijs) verklikkers dat cellen zijn overgenomen, ontwikkelt ons immuunsysteem een ​​krachtige reactie tegen meerdere aspecten van het Spike-eiwit EN het productieproces.

En dit brengt ons bij het 95% efficiënte vaccin.

Dit is een soort inhoudsopgave. We beginnen met de 'pet', eigenlijk afgebeeld als een hoedje.

Net zoals je niet zomaar opcodes in een bestand op een computer kunt plaatsen en uitvoeren, vereist het biologische besturingssysteem headers, heeft linkers en dingen zoals het aanroepen van conventies.

De code van het vaccin begint met de volgende twee nucleotiden:

Dit is vergelijkbaar met elk uitvoerbaar bestand van DOS en Windows dat begint met MZ, of UNIX-scripts die beginnen met #! . In zowel levens- als besturingssystemen worden deze twee tekens op geen enkele manier uitgevoerd. Maar ze moeten er zijn, want anders gebeurt er niets.

De mRNA 'cap' heeft een aantal functies. Ten eerste markeert het code als afkomstig van de kern. In ons geval natuurlijk niet, onze code komt van een vaccinatie. Maar dat hoeven we de cel niet te vertellen. Door de dop ziet onze code er legitiem uit, waardoor deze wordt beschermd tegen vernietiging.

De eerste twee GA-nucleotiden verschillen ook chemisch enigszins van de rest van het RNA. In die zin heeft de GA wat out-of-band-signalering.

De "vijf-priemgetallen onvertaalde regio"

Hier wat jargon. RNA-moleculen kunnen maar in één richting worden gelezen. Verwarrend genoeg wordt het deel waar de lezing begint de 5' of 'vijf-priemgetal' genoemd. De meting stopt bij het 3'- of drie-priemgetal.

Het leven bestaat uit eiwitten (of dingen die door eiwitten worden gemaakt). En deze eiwitten worden beschreven in RNA. Wanneer RNA wordt omgezet in eiwitten, wordt dit translatie genoemd.

Hier hebben we het 5' onvertaalde gebied ('UTR'), dus dit bit komt niet in het eiwit terecht:

Hier stuiten we op onze eerste verrassing. De normale RNA-tekens zijn A, C, G en U. U is ook bekend als 'T' in DNA. Maar hier vinden we een Ψ, wat is er aan de hand?

Dit is een van de uitzonderlijk slimme dingen over het vaccin. Ons lichaam heeft een krachtig antivirussysteem ("de originele"). Om deze reden zijn cellen extreem onenthousiast over vreemd RNA en doen ze erg hun best om het te vernietigen voordat het iets doet.

Dit is een beetje een probleem voor ons vaccin - het moet langs ons immuunsysteem sluipen. Na vele jaren van experimenteren is gebleken dat als de U in RNA wordt vervangen door een licht gewijzigd molecuul, ons immuunsysteem zijn interesse verliest. Echt.

Dus in het BioNTech/Pfizer-vaccin is elke U vervangen door 1-methyl-3'-pseudouridylyl, aangeduid met Ψ. Het echt slimme is dat hoewel deze vervanging Ψ ons immuunsysteem kalmeert (kalmeert), het door relevante delen van de cel als een normale U wordt geaccepteerd.

In computerbeveiliging kennen we deze truc ook - het is soms mogelijk om een ​​licht beschadigde versie van een bericht te verzenden dat firewalls en beveiligingsoplossingen verwart, maar dat nog steeds wordt geaccepteerd door de backend-servers - die vervolgens kan worden gehackt.

We plukken nu de vruchten van fundamenteel wetenschappelijk onderzoek uit het verleden. De ontdekkers van deze Ψ-techniek moesten vechten om hun werk gefinancierd en geaccepteerd te krijgen. We zouden allemaal heel dankbaar moeten zijn, en ik weet zeker dat de Nobelprijzen te zijner tijd zullen arriveren.

Veel mensen hebben gevraagd, kunnen virussen de Ψ-techniek ook gebruiken om ons immuunsysteem te verslaan? Kortom, dit is zeer onwaarschijnlijk. Het leven heeft eenvoudigweg niet de machinerie om 1-methyl-3'-pseudouridylyl-nucleotiden te bouwen. Virussen vertrouwen op de machinerie van het leven om zichzelf te reproduceren, en deze mogelijkheid is er gewoon niet. De mRNA-vaccins worden snel afgebroken in het menselijk lichaam en er is geen mogelijkheid dat het Ψ-gemodificeerde RNA repliceert terwijl het Ψ er nog in zit. "Nee, echt, mRNA-vaccins zullen uw DNA niet beïnvloeden" is ook goed te lezen.

Oké, terug naar de 5' UTR. Wat doen deze 51 karakters? Zoals alles in de natuur heeft bijna niets één duidelijke functie.

Wanneer onze cellen dat nodig hebben vertalen RNA in eiwitten, dit wordt gedaan met behulp van een machine die het ribosoom wordt genoemd. Het ribosoom is als een 3D-printer voor eiwitten. Het neemt een streng RNA op en op basis daarvan geeft het een reeks aminozuren af, die zich vervolgens tot een eiwit vouwen.

Dit is wat we hierboven zien gebeuren. Het zwarte lint onderaan is RNA. Het lint dat in het groene deel verschijnt, is het eiwit dat wordt gevormd. De dingen die in en uit vliegen zijn aminozuren plus adapters om ze op RNA te laten passen.

Dit ribosoom moet fysiek op de RNA-streng zitten om aan het werk te gaan. Eenmaal gezeten, kan het eiwitten gaan vormen op basis van verder RNA dat het opneemt. Hieruit kun je je voorstellen dat het de delen waar het als eerste op landt nog niet kan lezen. Dit is slechts een van de functies van de UTR: de ribosoomlandingszone. De UTR zorgt voor 'lead-in'.

Daarnaast bevat de UTR ook metadata: wanneer moet de vertaling plaatsvinden? En hoe veel? Voor het vaccin namen ze de meeste 'nu' UTR die ze konden vinden, genomen van het alfaglobine-gen. Van dit gen is bekend dat het veel eiwitten produceert. In voorgaande jaren hadden wetenschappers al manieren gevonden om deze UTR nog verder te optimaliseren (volgens het WHO-document), dus dit is niet helemaal de alfaglobine-UTR. Het is beter.

Het S-glycoproteïne-signaalpeptide

Zoals opgemerkt, is het doel van het vaccin om de cel grote hoeveelheden van het Spike-eiwit van SARS-CoV-2 te laten produceren. Tot nu toe zijn we vooral metadata en "calling convention"-dingen tegengekomen in de broncode van het vaccin. Maar nu betreden we het eigenlijke virale eiwitgebied.

We hebben echter nog één laag metadata te gaan. Als het ribosoom (uit de schitterende animatie hierboven) een eiwit heeft gemaakt, moet dat eiwit nog ergens heen. Dit wordt gecodeerd in het "S-glycoproteïne-signaalpeptide (verlengde leidersequentie)".

De manier om dit te zien is dat er aan het begin van het eiwit een soort adreslabel is - gecodeerd als onderdeel van het eiwit zelf. In dit specifieke geval zegt het signaalpeptide dat dit eiwit de cel moet verlaten via het "endoplasmatisch reticulum". Zelfs Star Trek-jargon is niet zo luxe als dit!

Het "signaalpeptide" is niet erg lang, maar als we naar de code kijken, zijn er verschillen tussen het virale en vaccin-RNA:

(Merk op dat ik voor vergelijkingsdoeleinden de mooie gewijzigde Ψ heb vervangen door een gewone RNA U)

Dus wat is er aan de hand? Ik heb het RNA niet per ongeluk in groepen van 3 letters gezet. Drie RNA-tekens vormen een codon. En elk codon codeert voor een specifiek aminozuur. Het signaalpeptide in het vaccin bestaat uit: precies dezelfde aminozuren als in het virus zelf.

Dus hoe komt het dat het RNA anders is?

Er zijn 4³=64 verschillende codons, aangezien er 4 RNA-tekens zijn, en er zijn er drie in een codon. Toch zijn er maar 20 verschillende aminozuren. Dit betekent dat meerdere codons coderen voor hetzelfde aminozuur.

Life gebruikt de volgende bijna universele tabel voor het in kaart brengen van RNA-codons aan aminozuren:

In deze tabel kunnen we zien dat de wijzigingen in het vaccin (UUU -> UUC) allemaal synoniem. De RNA-code van het vaccin is anders, maar er komen dezelfde aminozuren en hetzelfde eiwit uit.

Als we goed kijken, zien we dat de meeste veranderingen plaatsvinden in de derde codonpositie, aangegeven met een '3' hierboven. En als we de universele codontabel bekijken, zien we dat deze derde positie inderdaad vaak niet uitmaakt voor welk aminozuur wordt geproduceerd.

De veranderingen zijn dus synoniem, maar waarom zijn ze er dan? Als we goed kijken, zien we dat alle veranderingen behalve een leiden tot meer C en G's.

Dus waarom zou je dat doen? Zoals hierboven opgemerkt, heeft ons immuunsysteem een ​​zeer vage kijk op 'exogeen' RNA, RNA-code die van buiten de cel komt. Om detectie te ontwijken was de 'U' in het RNA al vervangen door een Ψ.

Het blijkt echter dat RNA met een hogere hoeveelheid Gs en Cs ook efficiënter wordt omgezet in eiwitten,

En dit is bereikt in het vaccin-RNA door waar mogelijk veel karakters te vervangen door G's en C's.

Ik ben een beetje gefascineerd door de een wijziging die niet heeft geleid tot een aanvullende C of G, de CCA -> CCU wijziging. Als iemand de reden weet, laat het me weten! Merk op dat ik me ervan bewust ben dat sommige codons vaker voorkomen dan andere in het menselijk genoom, maar ik heb ook gelezen dat dit niet veel invloed heeft op de vertaalsnelheid.

De volgende 3777 karakters van het vaccin-RNA zijn op dezelfde manier 'codon-geoptimaliseerd' om veel C's en G's toe te voegen. In het belang van de ruimte zal ik hier niet alle code opsommen, maar we gaan inzoomen op een uitzonderlijk speciaal stukje. Dit is het deel dat ervoor zorgt dat het werkt, het deel dat ons daadwerkelijk zal helpen om weer normaal te gaan leven:

Hier zien we de gebruikelijke synonieme RNA-veranderingen. In het eerste codon zien we bijvoorbeeld dat CUU wordt veranderd in CUG. Dit voegt nog een 'G' toe aan het vaccin, waarvan we weten dat het de eiwitproductie verbetert. Zowel CUU als CUG coderen voor het aminozuur 'L' of Leucine, dus er verandert niets aan het eiwit.

Als we het hele Spike-eiwit in het vaccin vergelijken, zijn alle veranderingen zo synoniem... behalve twee, en dit is wat we hier zien.

De derde en vierde codons hierboven vertegenwoordigen feitelijke veranderingen. De K- en V-aminozuren zijn daar beide vervangen door 'P' of Proline. Voor 'K' waren er drie wijzigingen ('. ') nodig en voor 'V' waren er slechts twee ('!!').

Het blijkt dat deze twee veranderingen de vaccinefficiëntie enorm verbeteren.

Dus wat gebeurt hier? Als je naar een echt SARS-CoV-2-deeltje kijkt, kun je het Spike-eiwit zien als, nou ja, een stel spikes:

De spikes worden op het viruslichaam gemonteerd ('het nucleocapside-eiwit'). Maar het punt is, ons vaccin genereert alleen de spikes zelf, en we monteren ze niet op een soort viruslichaam.

Het blijkt dat ongewijzigde, vrijstaande Spike-eiwitten instorten in een andere structuur. Indien geïnjecteerd als een vaccin, zou dit er inderdaad voor zorgen dat ons lichaam immuniteit ontwikkelt... maar alleen tegen het ingestorte spike-eiwit.

En de echte SARS-CoV-2 verschijnt met de stekelige Spike. Het vaccin zou dan niet zo goed werken.

Dus wat te doen? In 2017 werd beschreven hoe het plaatsen van een dubbele Proline-substitutie op precies de juiste plaats ervoor zou zorgen dat de SARS-CoV-1- en MERS S-eiwitten hun 'pre-fusie'-configuratie zouden aannemen, zelfs zonder deel uit te maken van het hele virus. Dit werkt omdat Proline een zeer rigide aminozuur is. Het werkt als een soort spalk en stabiliseert het eiwit in de staat die we aan het immuunsysteem moeten laten zien.

De mensen die dit hebben ontdekt, zouden zichzelf onophoudelijk moeten high-fiven. Ondraaglijke hoeveelheden zelfvoldaanheid zouden van hen moeten uitgaan. En het zou allemaal welverdiend zijn.

Update! Ik ben benaderd door het McLellan-lab, een van de groepen achter de Proline-ontdekking. Ze vertellen me dat de high-fiving ingetogen is vanwege de aanhoudende pandemie, maar ze zijn blij dat ze hebben bijgedragen aan de vaccins. Ze benadrukken ook het belang van vele andere groepen, arbeiders en vrijwilligers.

Het einde van het eiwit, volgende stappen

Als we door de rest van de broncode scrollen, komen we aan het einde van het Spike-eiwit enkele kleine wijzigingen tegen:

Aan het einde van een eiwit vinden we een 'stop'-codon, hier aangegeven met een kleine 's'. Dit is een beleefde manier om te zeggen dat het eiwit hier moet eindigen. Het oorspronkelijke virus gebruikt het UAA-stopcodon, het vaccin gebruikt twee UGA-stopcodons, misschien voor de goede orde.

De 3' onvertaalde regio

Net zoals het ribosoom wat inleiding nodig had aan het 5'-uiteinde, waar we het 'vijf prime onvertaalde gebied' vonden, vinden we aan het einde van een eiwitcoderend gebied een soortgelijk construct genaamd de 3' UTR.

Er kunnen veel woorden worden geschreven over de 3'-UTR, maar hier citeer ik wat de Wikipedia zegt: "Het 3'-niet-vertaalde gebied speelt een cruciale rol in genexpressie door de lokalisatie, stabiliteit, export en translatie-efficiëntie van een mRNA te beïnvloeden. . ondanks ons huidige begrip van 3'-UTR's, zijn het nog steeds relatieve mysteries".

Wat we wel weten, is dat bepaalde 3'-UTR's zeer succesvol zijn in het bevorderen van eiwitexpressie. Volgens het WHO-document werd het BioNTech/Pfizer-vaccin 3'-UTR gekozen uit "de amino-terminale versterker van gesplitst (AES) mRNA en het mitochondriaal gecodeerde 12S-ribosomaal RNA om RNA-stabiliteit en hoge totale eiwitexpressie te verlenen". Waarop ik zeg, goed gedaan.

Het AAAAAAAAAAAAAAAAAAAAA einde van dit alles

Het uiteinde van mRNA is gepolyadenyleerd. Dit is een mooie manier om te zeggen dat het eindigt op veel AAAAAAAAAAAAAAAAAA. Zelfs mRNA heeft genoeg van 2020, zo lijkt het.

mRNA kan vele malen opnieuw worden gebruikt, maar als dit gebeurt, verliest het aan het einde ook een deel van de A's. Zodra de A's op zijn, is het mRNA niet langer functioneel en wordt het weggegooid. Op deze manier is de 'poly-A'-staart bescherming tegen degradatie.

Er zijn studies gedaan om erachter te komen wat het optimale aantal A's aan het einde is voor mRNA-vaccins. Ik las in de open literatuur dat dit piekte op 120 of zo.

Het BNT162b2-vaccin eindigt met:

Dit is 30 A's, dan een "10 nucleotide linker" (GCAUAUGACU), gevolgd door nog eens 70 A's.

Er zijn verschillende theorieën waarom deze linker er is. Sommige mensen vertellen me dat het te maken heeft met de stabiliteit van DNA-plasmiden, ik heb dit ook gekregen van een echte expert:

"De 10-nucleotide-linker in de poly(A)-staart maakt het gemakkelijker om de synthetische DNA-fragmenten aan elkaar te naaien die de sjabloon worden voor het transcriberen van het mRNA. Het vermindert ook het slippen door T7-RNA-polymerase, zodat het getranscribeerde mRNA meer uniform van lengte is ".

Hiermee weten we nu de exacte mRNA-inhoud van het BNT162b2-vaccin, en voor de meeste delen begrijpen we waarom ze er zijn:

  • De CAP om ervoor te zorgen dat het RNA eruitziet als gewoon mRNA
  • Een bekende succesvolle en geoptimaliseerde 5' onvertaalde regio (UTR)
  • Een codon-geoptimaliseerd signaalpeptide om het Spike-eiwit naar de juiste plaats te sturen (aminozuren 100% gekopieerd van het originele virus)
  • Een codon-geoptimaliseerde versie van de originele spike, met twee 'Proline'-substituties om ervoor te zorgen dat het eiwit in de juiste vorm verschijnt
  • Een bekende succesvolle en geoptimaliseerde 3' onvertaalde regio
  • Een ietwat mysterieuze poly-A staart met een 'linker' erin

De codonoptimalisatie voegt veel G en C toe aan het mRNA. Ondertussen helpt het gebruik van Ψ (1-methyl-3'-pseudouridylyl) in plaats van U ons immuunsysteem te ontwijken, zodat het mRNA lang genoeg in de buurt blijft zodat we daadwerkelijk kunnen helpen het immuunsysteem te trainen.

In 2017 hield ik een twee uur durende presentatie over DNA, die je hier kunt bekijken. Like deze pagina, deze is bedoeld voor computermensen.

Daarnaast onderhoud ik sinds 2001 een pagina over 'DNA voor programmeurs'.

Ten slotte bevat deze lijst van mijn blogposts behoorlijk wat DNA, SARS-CoV-2 en COVID-gerelateerd materiaal.


Kan uw DNA u vertellen wat de gezondste manier is om uw leven te leiden?

Bedrijven die genetische sequentiëring toepassen, gaan verder dan het risico op voorouders en ziekten en bieden specifieke aanbevelingen voor de levensstijl.

Een dubbele helix begint op mijn scherm te draaien nadat ik de onbewerkte gegevens van mijn 23andMe genetische test heb geüpload naar een site genaamd DNA Lifestyle Coach. Een etnisch dubbelzinnig geïllustreerd meisje begroet me, terwijl ze vrolijk een kom groenten eet terwijl ze haar mobiele telefoon vasthoudt. Tegen een zalmkleurige achtergrond staan ​​de woorden: "MY DIET COACH", die een gezondheidsplan aanbiedt dat is afgestemd op mijn genetica.

Dit is wat de DNA Lifestyle Coach, gerund door een bedrijf genaamd Titanovo, belooft: voor tussen $ 215 en $ 320 stuurt het je een speekselpakket en analyseert het je genen om te bepalen hoe je je leven het beste kunt leiden voor een optimale mentale en fysieke gezondheid, evenals optimale tand- en huidverzorging. Voor nog eens $ 150 meet het de lengte van uw telomeren (de beschermende doppen aan de uiteinden van onze chromosomen, die doorgaans krimpen naarmate we ouder worden en worden bestudeerd om veroudering te begrijpen), om u te helpen uw levensduur te beoordelen. Je kunt ook de DNA-test van Titanovo omzeilen en in plaats daarvan gegevens samenvoegen die je al hebt ontvangen van 23andMe (zoals ik deed) of een ander testbedrijf.

DNA Lifestyle Coach maakt deel uit van een reeks bedrijven die de afgelopen jaren zijn ontstaan ​​en beloven verwarrende persoonlijke DNA-gegevensrapporten te verminderen met behulp van wetenschap, waardoor u in plaats daarvan een eenvoudige reeks opsommingstekens krijgt over hoe u gezonder, gelukkiger, sterker, slimmer, langer.

Er is DNAFit. En Kinetische Diagnostiek. En zelfs een "genetische superheldentest" van Orig3n, die op DNA gebaseerde voorspellingen doet over je kracht, intelligentie en snelheid. De meeste hiervan zijn gericht op het verbeteren van atletische en fysieke prestaties en het voorkomen van sportgerelateerde blessures. Maar DNA Lifestyle Coach waagt zich aan cosmetisch advies en advies om stress te verminderen en probeert antwoord te geven op vragen als: Wat kunnen onze genen ons vertellen over hoe we beter kunnen slapen? Welke geheimen heeft mijn DNA over het voorkomen van veroudering?

Terwijl ik mijn rapport begin te lezen, informeert DNA Lifestyle Coach me: "Uw genetica leidt af dat u meer moeite zult hebben om gewicht te verliezen dan de meesten, dus uw caloriebeperking moet strikt zijn." Als ik op dieet ben, staat er dat ik moet streven naar 600 calorieën minder per dag.

Op het eerste gezicht voelt deze informatie niet meer verhelderend dan enig ander dieet of fitnessplan dat ik ooit in mijn leven heb geprobeerd. Sluit mijn gewicht, lengte, BMI-nummers en hartslaggemiddelden aan op apps zoals MyFitnessPal of Fitbit en ze zullen allemaal vergelijkbare schattingen uitspugen. Vertel me iets wat ik niet weet. Dan doet het dat wel.

Volgens mijn genen zegt het dat tot drie kopjes koffie per dag nuttig kunnen zijn, maar geeft geen details over die voordelen. En de psychologische effecten van cafeïne zijn voor mij zogenaamd minder uitgesproken, wat betekent dat ik na een paar uur kan slapen, zelfs als ik 's nachts koffie drink. Het voorspelt ook dat ik sneller nuchter word na alcohol dan de meesten. Super goed! Meer koffie? Minder dronkenschap? Allemaal van mijn genen?

Het wordt beter. Blijkbaar heb ik een geweldig uithoudingsvermogen. Zoals uithoudingsvermogen op marathonloperniveau (als ik een professionele atleet wilde worden). En mijn DNA Lifestyle Coach zegt dat ik mezelf push in lichaamsbeweging en competitie. Dat komt omdat ik geen enkel risico loop op 'overmatige angst' of andere 'negatieve emoties'. Ik denk niet dat mijn man het daarmee eens zou zijn. Maar wat maakt het uit. Ik begin mijn genen nog leuker te vinden.

Ik voel me aangemoedigd en meld me aan voor de telomeertest van het bedrijf, waarvoor meer van mijn speeksel per post moet worden verzonden. Het zal enkele weken duren om de resultaten terug te krijgen, maar ik heb het gevoel dat de test me zal vertellen dat ik ook robuuste telomeren heb en dat ik een lange, lange tijd zal leven. Het begint allemaal veel te lijken op die keer dat ik mijn handpalmen liet lezen op een straathoek in de French Quarter in New Orleans.

Maar die feelgood-endorfines die gepaard gaan met het horen dat je superieur bent, kunnen snel vervagen, en je hoeft alleen maar in de gegevens te graven om erachter te komen dat zo'n opgeblazen gevoel van persoonlijke biologie misschien niet veel meer is dan een illusie.

"Je moet weten, dit is net als de dingen die je na middernacht op tv ziet", vertelt Stuart K. Kim me nadat ik het wachtwoord van mijn DNA Lifestyle Coach-site met hem heb gedeeld en de resultaten van mijn gezondheidsprofiel met hem heb ingevuld. Hij is emeritus hoogleraar ontwikkelingsbiologie en genetica aan de Stanford University. “Gewichtsverlies soort dingen, anti-veroudering soort dingen. Het is vrij ver daarbuiten."

Ik blijf aan de telefoon met Kim terwijl hij en ik op de kleine informatiebubbels in mijn rapport klikken naast suggesties voor koolhydraten, vetten, vezels, waterinname, vitamines, gluten en lactose. In elke categorie belicht het rapport mijn genen en SNP's in die gensequenties (single-nucleotide polymorphisms, uitgesproken als "snips", dit zijn alternatieve spellingen van genen die neerkomen op een verschil van één letter. Die ene letter kan leiden tot het functioneren van het gen anders). Bij elke SNP komt een link naar een samenvatting voor een gepubliceerd academisch artikel (de meeste achter een betaalmuur) waarin wordt uitgelegd hoe het kan worden geassocieerd met gezondheid.

Kim gaat voor mij een stap verder. Met behulp van zijn eigen academische verslagen trekt hij vriendelijk de onderzoeken aan en bekijkt ze. Hij geeft het bedrijf de eer voor het plaatsen van de links naar de kranten in de eerste plaats, zodat klanten enkele van de conclusies kunnen bekijken als ze dat willen. “Het is koper pas op. Je kunt niet alles zomaar aannemen.”

Het probleem is dat als Kim de papers over mijn DNA Lifestyle Coach-rapport begint te interpreteren in verband met mijn eigen SNP's, hij kan het allemaal niet eens begrijpen. Kim heeft gediend als redacteur van PLOS Genetica, evenals op de National Science Advisory Council. Hij ontwikkelde zelfs zijn eigen DNA-interpretatiesite voor een Stanford-les die hij over genetica gaf, die studenten (of het publiek) gratis kunnen gebruiken.

Op de DNA Lifestyle Coach-site, mijn SNP's + de onderzoeken = conclusies zoals: Je eetgedrag is voor 50 procent waarschijnlijk hedonisch (het soort eten voor je plezier dat leidt tot obesitas en vergelijkbaar is met verslaving). Dan gaat het verder met het aanbevelen van het LEARN-dieet voor mijn genotype. Toch is er geen duidelijk antwoord over hoe het bedrijf precies tot die beoordeling is gekomen.

Op een gegeven moment hoor ik Kim gefrustreerd zeggen: 'Misschien gaan ze er gewoon vanuit dat niemand echt gaat kijken naar wat ze zeggen? Je moet bijna rechercheur zijn om dit uit te zoeken.”

"We proberen open en eerlijk te zijn over waar de wetenschap zich bevindt", zegt Corey McCarren, de chief operating officer van Titanovo. Het bedrijf is vorig jaar gelanceerd na een succesvolle Kickstarter-campagne. De specialiteit van McCarren is marketing, niet genetica, maar hij merkt op dat zijn oprichtende partner en CEO, Oleksandr Savsunenko, een Ph.D. in macromoleculaire chemie van de Franse universiteit van Toulouse, en creëerde de telomeerlengtetestkit van het bedrijf.

"De wetenschap bevindt zich nu op een plek waar er zeer sterke correlaties zijn" tussen bepaalde genvariaties en gezondheidsresultaten, zegt McCarren. Big data - de analyse van grote hoeveelheden gegevens om patronen te identificeren en voorspellingen te doen - wordt nu gebruikt in een groot aantal industrieën, zoals McCarren opmerkt. Het bedrijf is van mening dat big data ook met succes kunnen worden 'toegepast op genetica, met behulp van probabilistische benaderingen'.

Studies waarnaar wordt verwezen over DNA Lifestyle Coach zijn gepubliceerd in wetenschappelijke tijdschriften. Maar sommige onderzoeken zijn beter bewezen dan andere, zegt hij, en het bedrijf probeert de sterkere studies gewicht te geven. De tijdschriften verschillen in onderscheid, de onderzoeken variëren in omvang en reikwijdte, en sommige experimenten zijn herhaald, terwijl andere - zoals deze over hoe troebel appelsap gezonder kan zijn voor sommige genotypen - niet.

Het DNA Lifestyle Coach-algoritme rangschikt onderzoeken, waarbij meer gewicht wordt toegekend aan de meer prominente of bevestigde onderzoeken.Naarmate onderzoeksresultaten worden bijgewerkt, ingetrokken of opnieuw bevestigd, zal het algoritme ook het rapport van de klant herzien en bijwerken. Het bedrijf is van plan om binnen een paar maanden zijn tests voor mentaal welzijn, tandheelkunde en huidverzorging uit te brengen (tot nu toe kun je alleen resultaten krijgen voor dieetfitness en telomeren).

In de toekomst is het van plan om persoonlijke gegevens over het dagelijkse gezondheidsgedrag van elk individu op te nemen, als gebruikers ervoor kiezen om vragen over zichzelf te beantwoorden, "net zoals Facebook en Google alle big data nemen van wat mensen online doen en veronderstellingen maken over mensen ', zegt McCarren. “Dat is wat we willen doen. We willen die belangrijke correlaties ontdekken die ertoe zullen leiden dat mensen hun beste leven kunnen leiden.”

"We laten niet alle onderzoeken zien" waarnaar wordt verwezen en het gemiddelde wordt genomen, legt Savsunenko uit als ik naar de methodologie vraag. "Het aantal exacte onderzoeken dat we hebben gebruikt en gecombineerd om het resultaat te genereren - het is ons eigendom. Hoewel in werkelijkheid de meeste aanbevelingen gebaseerd zijn op de vrij eenvoudige genetische en wiskundige benaderingen.”

Eerlijk genoeg. Maar de vergelijkingen achter de gevolgtrekkingen voelen nog steeds een beetje als voodoo.

Neem mijn alcoholresultaten: ik zal snel nuchter worden en "alcoholgebruik zal waarschijnlijk leiden tot katers." Dit wordt gevolgd door 10 van mijn SNP's en links naar zes wetenschappelijke artikelen over hoe genen gerelateerd zijn aan alles, van drinkgedrag en -intensiteit, drang om te drinken en alcoholismerisico.

Maar DNA Lifestyle Coach zegt niets over de ALDH2-genvariant, waarvan ik al weet dat ik die heb, dankzij 23andMe. Het veroorzaakt een reactie die bekend staat als 'Aziatische flush'. Mijn lichaam mist het enzym dat normaal gesproken aceetaldehyde afbreekt, een giftige stof in alcohol. Het bouwt zich op tot abnormale niveaus, zelfs na een half glas wijn, waardoor de bloedvaten in mijn gezicht beginnen uit te zetten. Mijn huid krijgt de kleur van mijn merlot. Mijn hart klopt. Binnen 15 minuten zien mijn gezicht en borst er warm uit, alsof ik per ongeluk op het strand in slaap ben gevallen. Mensen met deze genvariant hebben ook een verhoogd risico op slokdarmkanker.

Kim, die ook dezelfde genetische roze gloed ervaart als hij alcohol drinkt, was verrast dat mijn DNA Lifestyle Coach het helemaal wegliet.

Als ik Savsunenko ernaar vraag, antwoordt hij dat de meeste mensen die dit gen hebben al weten dat ze het hebben. "We proberen in kleinere details van dingen te komen. Maar ja, je hebt gelijk - we moeten het misschien opnemen.'

Wat u ook opneemt of weglaat, of hoe u het optelt en het gemiddelde maakt, de interpretatie van genomische gegevens is een ethisch netelige en juridisch riskante zaak. Ik wilde weten, niet alleen of deze algoritmische conclusies veilig zijn, maar ook of ze legaal zijn.

In de meest romantische gebaren kocht mijn man me een 23andMe speekselkit voor mijn verjaardag in 2015. Dat was twee jaar nadat 23andMe een FDA-waarschuwing ontving om te stoppen met het interpreteren van specifieke gezondheidsgegevens van zijn genetische tests.

Het gebruik van een medisch hulpmiddel zoals een DNA-kit en vertrouwen op de interpretaties van bedrijven in plaats van artsen van onze niet-gecontroleerde genetische informatie uit die kits, aldus de FDA, kan ertoe leiden dat een patiënt onnodige operaties ondergaat om kanker te voorkomen, doses te verhogen of te verlagen of helemaal stoppen met het voorschrijven en de therapie van een arts.

Tegen de tijd dat ik mijn 23andMe-resultaten ontving, was het bedrijf overgeschakeld om zich meer op voorouders te concentreren (het vertelde me dat ik 50 procent Oost-Aziatisch en 50 procent Europees ben - geen shocker), andere eigenschappen zoals oogkleur (ik heb waarschijnlijk donkere -gekleurde ogen - ook duh), of ik een bittere of zoete smaak kan detecteren (het vertelde me dat ik van beide houd), of dat ik meer kans heb om in de zon te niezen (blijkbaar ben ik dat). Mijn verslag was een paar uur licht vermakelijk, maar het onthulde geen echte levensveranderende informatie. Ik opende het pas vorige maand, toen ik de inhoud in DNA Lifestyle Coach dumpte.

Tegen die tijd had de FDA haar standpunt over de tests van 23andMe verzacht en het bedrijf goedkeuring verleend om haar klanten te vertellen of ze een verhoogd risico hebben voor 10 specifieke aandoeningen. Deze omvatten de ziekte van Parkinson, de ziekte van Alzheimer met late aanvang, coeliakie en een handvol andere aandoeningen die van invloed kunnen zijn op beweging, bloedstolling, spijsvertering of andere gezondheidsproblemen. Mijn bijgewerkte 23andMe-rapport bood de geruststellende woorden "variant niet gedetecteerd" naast elk van de voorwaarden.

Maar in de jaren sinds het juridische drama zich voor het eerst begon te ontvouwen met 23andMe, kwamen andere sites in opmars, voorzichtig op hun tenen rond het soort regels dat hen een opschortingsbrief van de FDA zou kunnen bezorgen.

DNA Lifestyle Coach heeft deze controverse voorlopig vermeden door medische discussies uit de weg te gaan, vertelt McCarren me. Wanneer een genetisch testbedrijf tegen een klant zegt: "Je hebt negen keer meer kans op het ontwikkelen van een hartaandoening - neem twee aspirine per dag", denkt hij dat het juridische terrein troebel wordt. DNA Lifestyle Coach "is geen product om u te helpen bij het beheersen van ziekten", zegt hij. "Dit is een product om u te helpen betere beslissingen te nemen over uw levensstijl."

Het is niet zo anders dan advies vragen aan een personal trainer in je sportschool, of een dieet- en fitnessboek op Amazon, zegt McCarren. Misschien zie je gezondheidsverbeteringen, misschien niet, maar je krijgt geen medische diagnose en je loopt niet het risico om echt kwaad te doen. Het verschil, voegt hij eraan toe, is "dat er sterk genoeg bewijs is om mensen nuttig advies te geven, wat beter is dan een pijltje naar een (dieet)bord te gooien en te zeggen: 'Ik ga voor deze.'"

De meeste van deze bedrijven vertrouwen op vergelijkbare datasets en "verpakken het op verschillende manieren om het begrijpelijk te maken", vertelt Barry Starr, een andere geneticus van Stanford University. "Ik probeerde een resultaat te bedenken waardoor ik mijn levensstijl zou veranderen - ik kon er geen bedenken."

Er is gewoon nog zoveel dat genetici nog niet weten, zegt Starr. Alleen omdat 23andMe me heeft vrijgemaakt van varianten voor 10 aandoeningen, wil dat helemaal niet zeggen dat ik er nog steeds geen zal ontwikkelen. Eén gensequentie maakt hoogstwaarschijnlijk deel uit van een orkest van een dozijn of zelfs honderd andere (velen nog niet geïdentificeerd) - die allemaal op elkaar inwerken om een ​​bepaald resultaat te creëren. We hebben ook gensequenties die ons beschermen - die de 'slechte' SNP-effecten kunnen tegengaan.

Je omgeving, de manier waarop je bent opgegroeid en opgevoed, en elke keuze die je tot nu toe in je leven hebt gemaakt, kan van invloed zijn geweest op de vraag of sommige van je genen zijn ingeschakeld of "tot expressie komen" (zoals bestudeerd in het groeiende veld van epigenetica). En Starr vertelt me ​​dat verschillende DNA-sequencingbedrijven verschillende genen testen, wat zou kunnen leiden tot tegenstrijdige voorspellende gezondheidsvooruitzichten.

In de nasleep van het 23andMe-verbod van de FDA raakten de studenten van Kim gecharmeerd van het debat over hoeveel je het recht hebt om te weten over je eigen genen. Sommigen beweerden: "Ik heb het recht om het te weten. Het is mijn DNA. Ik mag mijn hersenen gebruiken om naar mijn eigen DNA te kijken”, vertelt Kim. Maar anderen beweerden dat “interpretatie mis kan gaan. Iemand kan een domme beslissing nemen en zichzelf pijn doen.”

DNA Lifestyle Coach wekt mijn interesse genoeg om meer gegevens op te zoeken. Voor slechts $ 5 meld ik me ook aan voor Promethease, een uitwisselingscentrum voor genomische informatie. Nogmaals, ik sluit mijn onbewerkte 23andMe-resultaten aan.

Promethease vermijdt de FDA-voorschriften die aan 23andMe zijn opgelegd omdat het de spitkit niet aanbiedt. Promethease neemt de ruwe resultaten van 23andMe of Ancestry.com en vergelijkt het allemaal met gepubliceerde academische genetische studies in SNPedia (gemaakt door de oprichters van Promethease), dat is als een Wikipedia voor genomische gegevens, waardoor je een veel uitgebreider beeld krijgt van je DNA dan 23andMe of DNA Lifestyle Coach.

Wanneer ik mijn Promethease-bestand download, dat op het scherm voor mij is gecompileerd tot een geestdodend document van veelkleurige taartgrafieken, zijn 20.269 van mijn SNP's op zoek naar associaties met alles, van verbeterd hippocampusvolume tot beter presterende spieren, tot slechter hangen overs, gebrek aan empathie, een lang leven en jicht. Ze zijn onderverdeeld in kleuren: rood voor 'slechte' impact, groen voor 'goed' en grijs voor 'niet ingesteld' of onvoldoende informatie om te weten.

Door eerst te filteren op alleen het "slechte" zoals elke morbide nieuwsgierige persoon zou doen (is daar een SNP voor?) Het lijkt erop dat mijn DNA wordt geteisterd door gevaarlijke risico's: melanoom, eierstokkanker, depressie, obesitas, schizofrenie, coronaire hartziekte, borst kanker, longkanker, colorectale kanker en natuurlijk de ziekte van Alzheimer en Parkinson. Afhankelijk van hoe je naar mijn Promethease-rapport kijkt, loop ik ook risico op leeftijdsgebonden maculaire degeneratie, of niet. Ik loop het risico de ziekte van Crohn te krijgen, of wacht, misschien ook niet. Verschillende SNP's spreken elkaar tegen.

Moet ik dit door een dokter laten doen? Ik vraag me af. Of een geneticus? Wat doet iemand? doen met zo'n braaksel aan persoonlijke gegevens?

Het is juist dit raadsel dat een bedrijf als DNA Lifestyle Coach - naarmate zijn algoritmen geavanceerder worden - in de toekomst de overhand zou kunnen geven bij het publiek. "We zijn gefocust op bruikbare resultaten, zegt McCarren. "We gaan ervan uit dat onze klanten niet alleen geïnteresseerd zijn in de genetische rapporten... we proberen u niet te overladen met de informatie."

Met mijn eigen DNA-bijbel nu binnen handbereik, voel ik me nog steeds niet beter geïnformeerd over mijn eigen gezondheidstoekomst dan voorheen. Ondanks de gelukskoekjesachtige voorspellingen van DNA Lifestyle Coach, omarm ik nog steeds ons onvermogen om de meeste resultaten te voorspellen. Mijn vader heeft suikerziekte. Mijn grootvader had een hartziekte. Mijn oma had borstkanker. Ik heb altijd geweten dat ik elk van deze aandoeningen zou kunnen krijgen, of dat ik ze helemaal zou kunnen ontwijken.

Hoe oogverblindend het ook is om te zien hoe ons DNA voor zo weinig kosten wordt gesequenced, het is voor ons voorbarig om levensplannen uitsluitend op basis van onze genen in kaart te brengen. Nu de wetenschap zo snel vordert, kan dat natuurlijk in de komende jaren veranderen. Mijn telomeertestresultaten, die ongeveer twee maanden duurden om terug te komen, geven aan dat ik misschien net lang genoeg leef om die toekomst te zien.

Langere telomeren zijn in verband gebracht met een meer veerkrachtige cellulaire gezondheid. Mijn telomeren zijn langer dan 59 procent van de vrouwen van mijn leeftijd, volgens de testresultaten, wat me in de "Very Good Zone" plaatst. Het bood me geen suggesties om mijn telomeerlengte te verbeteren, hoewel studies hebben aangetoond dat meditatie en verminderde stress een impact kunnen hebben. In plaats daarvan kreeg ik een berekening van mijn biologische leeftijd (35), die drie jaar jonger is dan mijn werkelijke leeftijd. Aan het einde van de resultatenpagina bood het ook dit voorbehoud: "Houd in gedachten dat de volledige dynamiek van telomeerlengte nog moet worden ontdekt."


Bekijk de video: What is Genomic Sequencing? (December 2021).