Informatie

Sequentie van het hele genoom versus sequencing van het hele exoom


Ik ben bezig met een project waarbij ik oorzakelijke genen wil ontdekken voor een bepaalde ziekte die ik heb. Ik vroeg me af of ik WGS of WES zou krijgen om dit experiment uit te voeren: -

Ik kijk naar SNP's en CNV's van mijn genen en ik wil mijn gegevens vergelijken met die van normale en zieke individuen. Voor een gen bereken ik de documentafstand voor elke groep (normaal en ziek) met behulp van dit algoritme (https://math.stackexchange.com/questions/1080377/how-close-apart-are-two-message-document-distance- algoritme) omdat dit me in staat zal stellen te bepalen welke genen ik heb die abnormaal zijn of "dichtbij" zijn om als abnormaal te worden geclassificeerd en welke genen normaal zijn of "dichtbij" normaal worden genoemd volgens het algoritme en de gegevens die zijn verkregen uit de twee groepen .

Om dit experiment uit te voeren, moet ik mijn genoom sequencen EN databases identificeren die mij in staat zouden stellen mijn analyse uit te voeren. Ik wilde weten wat het beste is voor mijn experiment WGS of WES, omdat openbaar beschikbare gegevens ook van invloed kunnen zijn op de beslissing.

Ik geloof ook dat alternatieve splicing een laag van complexiteit toevoegt en wilde weten waarom WES toch wordt uitgevoerd.

Bij voorbaat dank voor uw antwoorden. Gelieve te beantwoorden wat je kunt. Nogmaals bedankt!


WES, vrijwel zeker. Allereerst wordt de overgrote meerderheid van fenotype-veroorzakende varianten gevonden in exons. Voor de meeste analyses die kijken naar ziekteverwekkende mutaties, is WGS zinloos. Het maakt je analyse alleen maar moeilijker en voegt eigenlijk niets nuttigs toe.

als jij weten je bent geïnteresseerd in CNV's, dat is iets anders. CNV-detectie is over het algemeen moeilijk, maar is bijzonder moeilijk op basis van WES-gegevens. Het detecteren van CNV's in WGS-gegevens is veel minder foutgevoelig. Houd er echter rekening mee dat er momenteel geen 'goede' methoden zijn om CNV's te detecteren. Dit is een niet-triviaal probleem en staat nog in de kinderschoenen. Hoewel er verschillende methoden zijn die CNV's kunnen detecteren, vindt geen van hen alle (of zelfs maar bijna alle). In feite is dit zo'n probleem in het veld dat de momenteel geaccepteerde wijsheid is dat je meerdere methoden moet gebruiken en de resultaten moet combineren. In feite doen veel recente CNV-detectoren precies dat. En zij nog altijd vind ze niet allemaal (vooral niet in WES-gegevens). Kortom, CNV-detectie is niet voor angsthazen en zeker niet voor niet-experts.

Het goede nieuws is dat als je een ziekteveroorzakende mutatie hebt, het zeer onwaarschijnlijk is dat het een CNV is. Het is veel waarschijnlijker dat u alleen op zoek bent naar SNP's. Dat brengt ons bij het volgende probleem. Ik ben bang dat het algoritme waarnaar je linkt, voor zover ik kan zien, je helemaal niet zal helpen. Je probeert je gen niet te vergelijken met een lijst van gezonde en ongezonde genen en erachter te komen welke groep het meest lijkt op wat je hebt. Ten eerste omdat er veel verschillen (mutaties) zijn die eigenlijk geen enkel effect hebben. Deze zogenaamde synonieme mutaties worden nog steeds geteld door uw algoritme, maar moeten worden genegeerd. Ten tweede omdat kleine verschillen enorm belangrijk kunnen zijn. Er zijn specifieke tools voor wat je wilt doen; probeer geen brede, algemene wiskundige benaderingen toe te passen. Je hebt algoritmen nodig die specifiek zijn ontworpen om met biologische data om te gaan en die rekening houden met de onderliggende biologie.

U zoekt dus programma's die "Variant Bellers" worden genoemd. Twee van de meest populaire zijn GATK en FreeBayes. Deze zullen een invoergenoom lezen en het vergelijken met een referentiegenoom en u een lijst geven van "varianten", sites waar de invoer verschilt van de referentie. U wilt dan middelen als ClinVar of MutationTaster gebruiken om te controleren of die varianten als pathogeen worden beschouwd. Dit is een beetje schaamteloze zelfpromotie aangezien ik werk voor het bedrijf dat het heeft gemaakt, maar VarSome, "The Human Genomic Variant Search Engine", is een nieuwe variantzoekmachine die informatie uit veel verschillende bronnen combineert in een gecentraliseerde en gemakkelijk te doorzoeken opslagplaats. Ik raad het ten zeerste aan (en het is gratis).

Voordat u echter uw varianten kunt vinden, moet u uw genoom afstemmen op de referentie. Kortom, moderne sequentiemethoden werken door het genoom in vele, vele kleine stukjes te knippen, elk stuk meerdere keren te kopiëren en vervolgens elk stuk te sequencen. Dus de uitvoer van een sequencing-run is een tekstbestand dat er als volgt uitziet:

@ SN956: 1934: H55WMBBXX: 2: 1101: 0: 15733 1: N: 0: NTTACTCG NCCCCAAGGAGACTTGCTGAGACCTTGAACAAGTGACACAATGTGAGCAGAACTTGTCTTGACAGAAAATGCTTTG + # AAAFJJJJJJJJJFFJJJJJJJJJJJJJJJJJJJJJJJJJJFJJJJJJJJJJJJJJJJJAJJJJFAJJJJJFJJ7 @ SN956: 1934: H55WMBBXX: 2: 1101: 0: 15743 1: N: 0: NTTACTCG NCTTCCTCACTAAAGTCCCATTTAGTGCTGATTGTGCTTTGGCTACTTCTCCTCTTGCCATTTTCCTGAACCCACG + #AAFFJJJJJJJJJJJJJJJJJJJJJJJJJFJJJJJJJJJJJJJJJJJJJJJJJJJFJJJJJJJJJJJJJJJJJJF

Dit is meestal enkele gigabytes (zoiets als ~2-3G voor WES en >80G voor WGS). Daarom heeft de uitlijning van deze reeksen een krachtige machine nodig en u wilt niet eens proberen om WGS-reeksen op uw laptop uit te lijnen. Het duurt weken en zal waarschijnlijk mislukken. Nog een reden om hiervoor WES te verkiezen boven WGS. In mijn werk stem ik routinematig WGS-gegevens af op het referentiegenoom en dat kan gemakkelijk duren >100 GB RAM.

Waar het op neerkomt en wat dit onsamenhangende antwoord probeert over te brengen, is dat:

  • WES is beter dan WGS bij het zoeken naar ziekteverwekkende mutaties. Het is veel gemakkelijker om de gegevens te analyseren en 99% van de gevallen die u wilt, bevinden zich in exons. Het is ook veel en veel goedkoper.
  • Dit is niet eenvoudig. Je lijkt te denken dat je een soort van binnen kunt walsen en het zelf kunt doen. Dat kan, maar het is verre van triviaal. Het is ook niet goedkoop.

Dus als je echt het geld hebt om een ​​WGS-analyse te betalen (dit kost enkele duizenden euro's/dollars, voor het geval je het niet wist), wat heel verrassend is als je gewoon een particulier bent, in plaats van het uit te geven op WGS, ontvang een WES en geef uw geld uit aan een expert om uw gegevens voor u te analyseren. Serieus, dit is wat ik doe voor de kost, je lijkt echt niet helemaal te begrijpen hoe ingewikkeld het is. En nee, ik suggereer niet dat je mij inhuurt :). Er zijn echter bedrijven die dit soort diensten aanbieden. Gebruik ze, vind het wiel niet opnieuw uit.

Referenties

Nuttige overzichtsartikelen voor CNV-detectie:

  1. Zhao et al. BMC Bio-informatica, 2013, 14(Suppl 11):S1 (DOI: 10.1186/1471-2105-14-S11-S1, link)
  2. Tattini L, D'Aurizio R en Magi A Voorkant. Bioeng. Biotechnologie, 2015. 3:92. (DOI: 10.3389/fbioe.2015.00092, link)

WES vs WGS-sequencing: voor- en nadelen

Massaal parallelle DNA-sequencing heeft een nieuw tijdperk voor genomische technologie gecreëerd, waardoor de sequencing van duizenden tot miljoenen DNA-moleculen tegelijk mogelijk is. Opmerkelijke vooruitgang heeft plaatsgevonden op het gebied van gepersonaliseerde geneeskunde, genetica en klinische diagnostiek. De evolutie van sequencingtechnologie heeft talloze kansen en toepassingen gecreëerd op het gebied van biologische wetenschappen en heeft de sequencingkosten drastisch verlaagd. Bovendien is ook de software voor het interpreteren en analyseren van DNA-seq-gegevens verbeterd (Berglund, Kiialainen, & Syvänen, 2011).

Routinematige klinische praktijken zijn begonnen met het incorporeren van whole-genome sequencing (WGS) en whole-exome sequencing (WES). De toepassingen van WES en WGS hebben de ontdekking en diagnose van genetische aandoeningen al versneld (Bick & Dimmock, 2011).

Hoewel sequencing-technologieën kosten- en tijdbesparend zijn geworden, blijven veel onderzoekers WES verkiezen boven WGS. Het exoom wordt beschouwd als een blauwdruk van een organisme en heeft de neiging om alle antwoorden te bevatten. Onlangs is er een discussie ontstaan ​​dat deze eiwitcoderende entiteit niet alle antwoorden bevat. Mutaties buiten de eiwitcoderende regio's kunnen evenzeer het fenotype van een organisme beïnvloeden door de genactiviteit te beïnvloeden.

Sequentie van het hele exoom versus sequencing van het hele gen

WES is een next-generation sequencing (NGS) techniek voor het sequencen van de eiwitcoderende gebieden van het genoom, gezamenlijk een exoom genoemd, dat slechts 1% van het genoom uitmaakt. WGS daarentegen is een techniek om in één keer de volledige DNA-sequentie van een organisme te sequensen.

Sequentietechnieken en platforms voor WES en WGS zijn min of meer hetzelfde, met uitzondering van een extra stap die vereist is in WES, de doelverrijking. Doelverrijking wordt gedaan voorafgaand aan sequencing om het genomische gebied (exome) selectief vast te leggen. Technieken voor doelverrijking omvatten het invangen van hybridisatie in de vaste fase en hybridisatie in de vloeistoffase (Teer & Mullikin, 2010).

DNA-seq data-analyse

Na voltooiing van de sequencing wordt DNA-seq-analyse uitgevoerd. DNA-seq-analyse omvat een verscheidenheid aan bioinformatica-beoordelingen, die min of meer hetzelfde zijn voor zowel WGS als WES. Somatische en kiembaanmutaties kunnen ook worden geïdentificeerd die kunnen helpen bij de diagnose van een ziekte of genetische aandoening. Er zijn veel gratis online tools en softwarepakketten die DNA-seq-analyse kunnen uitvoeren, hoewel de meeste enige kennis van programmeren en bio-informatica vereisen (Grada & Weinbrecht, 2013).

Aard van de studie: wanneer WGS en WES gebruiken?

Niet-exonische regio's beslaan ongeveer 98,8% van het genoom, maar zijn slecht gekarakteriseerd en begrepen. Daarom wordt WGS meestal uitgevoerd in op onderzoek gebaseerde DNA-seq-analysestudies om deze niet-exonische gebieden van het genoom beter te begrijpen.

Clinici daarentegen beschouwen WES als een gunstiger techniek voor de diagnose van ziekten op genetisch niveau. Clinici gebruiken WES om de genmutaties te identificeren die verantwoordelijk zijn voor een breed scala aan aandoeningen, waaronder verstandelijke handicaps, kanker, immunologische ziekten en andere (Angelo DePalma, 2018). WES kan echter incidentele mutaties die verantwoordelijk zijn voor zeldzame aandoeningen over het hoofd zien. Deze aandoeningen kunnen een mogelijke fenotypische verstoring in het leven van een persoon veroorzaken. Daarom wordt WGS meestal uitgevoerd om deze zeldzame aandoeningen te onderzoeken (Grada & Weinbrecht, 2013).

Kosten en tijd

De geschatte kosten van WES variëren van 5 tot 169 en het wordt meestal gebruikt in klinische onderzoeken om geld en tijd te besparen. Voorheen waren de geschatte kosten van WGS $ 15.146 in 2013 voor een niet-gespecificeerd platform, maar de recente lancering van het Illumina HiSeq X Ten-sequencingplatform heeft de WGS-kosten aanzienlijk verlaagd tot $ 1.906. WES heeft geen prijsvoordeel meer ten opzichte van WGS voor de studie van lagere organismen (bijv. bacteriën), maar in klinische onderzoeken neemt WES nog steeds het voortouw ten opzichte van WGS (Schwarze, Buchanan, Taylor, & Wordsworth, 2018).

Een fenotype kan het resultaat zijn van een enkele mutatie (Mendeliaanse aandoeningen) of meerdere mutaties in een genoom. Deze mutaties komen meestal voor in een exoom, eiwitcoderende gebieden van het genoom, maar niet-exonische mutaties kunnen ook de genactiviteit beïnvloeden. WES mist mogelijk de niet-exonische variaties en slaagt er ook niet in om de incidentele mutaties vast te leggen.

De meeste niet-exonische regio's in een genoom zijn slecht gekarakteriseerd en begrepen. Daarom zijn gegevens die door WGS worden gegenereerd complex en moeilijk te interpreteren. De kosten- en tijdbarrière zijn onlangs opgeheven met de lancering van het Illumina HiSeq X Ten-sequencingplatform.

Uiteindelijk hebben zowel WES als WGS sterke voorstanders. Het is echter moeilijk te zeggen dat de ene beter of slechter is dan de andere, omdat hun bruikbaarheid sterk afhankelijk is van het doel van een onderzoek of experiment. Wat wel duidelijk is, is dat zowel het hele genoom als het hele exoom zeer populaire sequencing-technologieën van de volgende generatie zijn die onderzoekers hebben geholpen om het samenspel tussen genetica en ziekte beter te begrijpen.


Wat is Whole Genome Sequencing?

Whole genome sequencing (WGS) is een uitgebreide methode om de volledige genomische DNA-sequentie van een cel in één keer te analyseren. WGS is een technologie waarmee wetenschappers de exacte volgorde kunnen lezen van alle letters waaruit uw complete DNA-set bestaat. Het menselijk genoom is nog steeds slecht begrepen en zelfs het best bestudeerde deel van het genoom wordt vertegenwoordigd door ongeveer 3% van het genoom dat codeert voor eiwitten. En ook de functies van de eiwitten in het menselijk genoom worden gedeeltelijk begrepen. Om deze redenen heeft de computationele analyse van genoomsequentiegegevens tot doel de medische betekenis van alle functionele elementen van het genoom te identificeren en genfuncties en hun betrokkenheid bij ziekten te identificeren. Verwacht wordt dat WGS met behulp van NGS-technologieën een revolutie teweeg zal brengen in de klinische zorg, maar de algemene belofte van sequencing van het hele genoom is nog lang niet vervuld. WGS omvat het sequencen van het hele genoom om mutaties en herschikkingen te bestuderen.


Gerichte genpanels versus volledige exome-sequencing

Een veelgestelde vraag die we op Genohub horen, is: 'Moet ik een aangepast paneel maken voor deze genenset, of niet de moeite nemen en hele exome-sequencing uitvoeren?'. Hoewel sequencing van het hele genoom alle mogelijke mutaties kan vastleggen, zijn hele exoom- of gerichte genpaneel-sequencing kosteneffectieve benaderingen voor het vastleggen van fenotype-veranderende mutaties. In een eerdere blogpost gaan we in op de voordelen van WGS vs. WES. Een resterende vraag is echter welke benaderingen het beste zijn. We proberen dit hier aan te pakken:

Voordelen van het richten op alle exons – whole exome sequencing (WES)

Als uw onderzoek op ontdekking is gebaseerd, met andere woorden, u weet niet op welke genen u zich moet richten, dan is WES de voor de hand liggende keuze.

  • Beter voor op ontdekking gebaseerde toepassingen waarbij u niet zeker weet op welke genen u zich moet richten.
  • Exome-panelen zijn in de handel verkrijgbaar, ze hoeven niet te worden aangepast of ontworpen.
  • Exome-sequencingservices zijn redelijk standaard, de kosten variëren tussen $ 550-800 voor 100-150x gemiddelde op doeldekking.

Voordelen van gerichte genpanels (amplicon-seq of gerichte hybridisatiemethoden)

Gerichte genpanels zijn ideaal voor het analyseren van specifieke mutaties of genen waarvan vermoed wordt dat ze verband houden met ziekte.

  • Door te focussen op individuele genen of genregio's kun je op een veel grotere diepte sequensen dan exome-seq, b.v. 2.000-10.000x in tegenstelling tot 200x wat typisch is voor exome-seq.
  • Sequentie met hoge diepte maakt de identificatie van zeldzame varianten mogelijk
  • Kan worden aangepast voor verschillende soorten monsters, b.v. FFPE, cf/ctDNA, gedegradeerde monsters.
  • Lagere invoerhoeveelheden kunnen worden gebruikt met gerichte genpanelen (1 ng versus 100 ng met volledige exome-sequencing).
  • Genpanelen kunnen worden aangepast om alleen genomische regio's van belang op te nemen. Waarom alles op volgorde zetten als je die extra informatie niet nodig hebt?
  • Panelen kunnen eenvoudig worden ontworpen voor niet-menselijke soorten. Het ontwerpen van een niet-menselijk exoom is veel arbeidsintensiever.
  • De workflows van het genenpanel zijn een stuk eenvoudiger en de tijd tot resultaten is vaak slechts 1-2 dagen.
  • U kunt duizenden monsters verwerken in een enkele sequencing-run. Gerichte genpanels kunnen met een hogere doorvoer worden uitgevoerd en zijn vaak kosteneffectiever dan hele exome-sequencing.

Door te focussen op genen die waarschijnlijk bij ziekte betrokken zijn, kunt u de kosten verlagen en de middelen voor sequencing concentreren op uw doelregio. Als je echter maar een paar samples hebt die je met een lage dekkingsdiepte moet sequencen, overweeg dan of het de moeite waard is om een ​​paneel te ontwerpen of een volledige exome-sequencing uit te voeren met een bestaand commercieel paneel.

Als u geïnteresseerd bent in het ontwerpen van een aangepast genpaneel of al een bestaand paneel heeft dat u wilt sequencen, dien dan een verzoek in om uw project te beschrijven of bekijk hier enkele van de bestaande commercieel verkrijgbare panelen.


Achtergrond

Chromosomen, de genetische structuren van een cel, zijn opgebouwd uit deoxyribose-nucleïnezuur (DNA) en de eiwitten en andere elementen die het DNA beschermen, reguleren en verpakken. Mensen hebben normaal gesproken 23 paar chromosomen, waarvan de helft van elke ouder wordt geërfd. Tijdens celreplicatie gaan soms chromosomen verloren of gewonnen, of gebroken en herschikt. Herschikkingen variëren in grootte en complexiteit, en kunnen in evenwicht zijn, zonder verlies of winst van genetisch materiaal, of onevenwichtig zijn.

Onevenwichtige chromosomale herschikkingen die aanwezig zijn bij de conceptie of die optreden tijdens de ontwikkeling van de foetus, hebben ingrijpende gevolgen voor de zich ontwikkelende foetus, resulterend in foetale sterfte, structurele defecten, genetische ziekten of intellectuele stoornissen.5 Chromosomale afwijkingen komen voor bij 43,8 per 10.000 geboorten die overleven tot 20 weken zwangerschap of later.6 Trisomieën 21, 18 en 13 45, X en andere geslachtschromosoomafwijkingen zijn verantwoordelijk voor de meeste afwijkingen. Exclusief deze, is de prevalentie van zeldzamere afwijkingen 7,4 per 10.000 geboorten.6 Kleine pathologische duplicaties of deleties komen voor bij 1 op de 270 zwangerschappen.7 Studies naar de prevalentie van chromosomale afwijkingen hebben zich gericht op de prenatale periode,6 de prevalentie bij de geboorte,8 of de prevalentie bij personen met specifieke structurele afwijkingen9 of ontwikkelingsstoornissen.10 Het aantal levende kinderen of volwassenen met een chromosomale afwijking is niet bekend. Hoewel de levensverwachting van personen met een chromosomale afwijking aanzienlijk kan worden verkort door geboorteafwijkingen en andere aandoeningen, is de levensduur van getroffen personen de afgelopen jaren toegenomen.

In 2010 bracht het International Standard Cytgenomic Array (ISCA) Consortium een ​​consensusverklaring uit dat chromosomale (ook bekend als genomische) microarray G-banded karyotype zou moeten vervangen als een eersteklas test voor de diagnose van personen met ontwikkelingsstoornissen of aangeboren afwijkingen. In 2013 adviseerde het American College of Medical Genetics (ACMG) dat chromosomale microarray het G-band-karyotype vervangt voor de klinische evaluatie van autismespectrumstoornissen. Deze uitspraken, gecombineerd met de toenemende prevalentie van autisme, zou de bestellingen voor genomische microarrays aanzienlijk kunnen verhogen. GA resulteert in een verhoogde diagnostische opbrengst van GA in vergelijking met karyotype, dat ten grondslag ligt aan de ISCA- en ACMG-consensusverklaringen. De omstandigheden waarin deze tests het meest nuttig zijn en hun bijdrage aan de medische en educatieve behandeling van getroffen kinderen is echter onduidelijk.


WES vs WGS: waarom het exoom niet het hele verhaal is (en soms wanneer het beter is)

In de aflevering van deze maand gaan we wat dieper in op een onderwerp dat eerder in deze ruimte is aangesneden, dat wil zeggen, de verschillen tussen een hele genoomsequentie (WGS) en een hele exoomsequentie (WES). Op het eerste gezicht zijn de verschillen eenvoudig en expliciet in de namen. WGS levert de sequentie van het genomische (nucleaire) DNA van een monster, inclusief allerlei niet-coderende regio's zoals centromeren, telomeren, lange zich herhalende stukken "junk" DNA en verschillende niet-getranscribeerde controleregio's die de activiteit van de werkelijke genen. Voor een mens is een heel genoom ongeveer 3,3 miljard basenparen, haploïde, dus 6,6 miljard basenparen om het hele diploïde complement per cel vast te leggen. Het exoom daarentegen is slechts de verzameling tot expressie gebrachte RNA's (inclusief zowel coderende mRNA's als niet-coderende functionele RNA's die alles kunnen zijn van rRNA-functionele ribosomale componenten tot tRNA's die essentieel zijn voor eiwitexpressie tot zaken als miRNA's die belangrijk zijn voor gen-uitschakeling en post-transcriptionele regulatie). Het menselijke exoom heeft een totale grootte van ongeveer 30 miljoen basenparen, of slechts ongeveer één procent van het genoom.

Het sequencen van een genoom of een exoom vereist het verzamelen van een aanzienlijke "overmaat" aan gegevens, of "sequencing-diepte". Dit wordt gedaan om twee redenen: de ene is om de nauwkeurigheid te verbeteren (een enkele aflezing kan een bepaald basenpaar verkeerd voorstellen, dus een consensus van meerdere aflezingen op dezelfde plek is nauwkeuriger) en de andere is dat het opbouwen van volledige chromosoomlengte aflezingen van korte bits vereist 'tiling' of overlap tussen reads, zodat we lange aaneengesloten reeksen kunnen genereren. Aangezien de overheersende next generation sequencing (NGS)-technologieën individuele leeslengtes produceren die veel korter zijn dan veel RNA-transcripten, is betegeling evenzeer een vereiste voor WES als voor WGS. Over het geheel genomen, hoewel er veel nuances zijn waar we niet op in zullen gaan, terwijl een WGS of WES veel gegevens vereist om te worden gegenereerd en verwerkt door bio-informatische pijpleidingen, is een WES in eerste instantie 30 keer minder gegevens dan een WGS (u bent verontschuldigd omdat u verwacht dat dit 100 keer zal zijn, maar WGS wordt meestal uitgevoerd)

100x, om meer zeldzame varianten te kunnen vastleggen hieronder). Het is duidelijk dat WES één onmiddellijk voordeel heeft ten opzichte van WGS, omdat het sneller en goedkoper te verkrijgen en te analyseren is.

Over het algemeen denken we aan het doen van een vorm van NGS in een klinische context als een manier om te proberen de hoofdoorzaak van een bepaalde fysieke manifestatie te achterhalen - een fenotype. We negeren de ongemakkelijke realiteit dat een bepaald fenotypisch gedrag voortkomt uit complexe polygene eigenschappen en nemen voor de eenvoud aan dat het in dit hypothetische voorbeeld een eenvoudige monogene Mendeliaanse oorzaak is. Afgezien van kosten- en tijdfactoren, wat zijn de voor- en nadelen van het gebruik van een WGS- of WES-benadering om dit aan te pakken?

Verrassing #1: voor volledige exon-dekking verslaat WGS WES

Binnen eiwitcoderende sequenties kunnen mutaties in sommige gevallen pathogeen zijn van andere voorbeelden, of ze kunnen nieuw zijn maar van een duidelijk zichtbare impact, zoals stopcodons, significante inserties/deleties of frameverschuivingen. Zelfs minder gemakkelijk te interpreteren aminozuursubstituties kunnen in sommige gevallen worden onderzocht aan de hand van bekende of computervoorspelde eiwitstructuren met een redelijke kans om significant verstorende veranderingen te ontdekken (een proline in het midden van die kritieke α-helix plaatsen is waarschijnlijk geen goede zaak) ! Hoewel je misschien zou denken dat mutaties in coderende regio's even waarneembaar zouden moeten zijn in zowel WES- als WGS-benaderingen, is waargenomen dat dat met name niet helemaal waar is, GC-rijke gensequenties lijken nauwkeuriger vastgelegd door WGS dan WES. WGS scoort ook beter voor volledigheid onder vooraf geselecteerde panels van ziekte-relevante genen, waar WES naar verluidt tussen 0,42 procent en maar liefst 24,44 procent van de exonische gegevens mist, zoals vastgelegd in een PCR-vrije WGS-strategie. (Voor een meer diepgaande blik op deze cijfers, zie bijvoorbeeld [1]). Als volledige dekking, zelfs alleen van exons, uw doel is, dan haalt WGS WES uit.

Betekenisvolle mutaties kunnen ook optreden buiten exons, in regulerende elementen zoals transcriptionele promoters, enhancers en suppressors, waardoor het expressieniveau en/of de locatie verandert. Evenzo kunnen mutaties in introns de selectie van de splitsingsplaats beïnvloeden en leiden tot ongepaste expressie van bepaalde isovormen van de splitsingsvariant van een gen dat anders tot expressie wordt gebracht op een algemeen geschikt niveau. Aangezien deze van nature voorkomen in niet-getranscribeerde secties van het genoom (of in ieder geval niet worden vastgehouden in rijpe transcripten), zou een onmiddellijke verwachting kunnen zijn dat deze in WGS en niet in WES zullen worden vastgelegd. Strikt genomen is dat waar, een WGS-dataset zal al dit soort regio's bevatten, maar er komt een uitdaging wanneer we proberen te interpreteren. Net als bij exons zijn er in sommige gevallen zeer specifieke variaties zoals SNP's (single nucleotide polymorphisms) in niet-exonische regio's die een bekende fenotypische impact hebben (of het ontbreken daarvan). Naarmate databases worden gevuld met steeds meer menselijke genomen met klinische correlaten, wordt de bibliotheek met bekende variaties groter. Op dit moment is deze bekende bibliotheek echter klein in vergelijking met de grootte van het menselijk genoom en de frequentie waarmee variaties van referentiegenomen worden gezien, en in de meeste gevallen hebben de waargenomen variaties een onbekende impact. Deze hebben zelfs hun eigen naam "VUS" (varianten van onbekende betekenis) en veroorzaken een aantal hoofdpijnen in de klinische praktijk, niet alleen interpretatief maar ook met betrekking tot ethische kwesties over zelfs het onthullen ervan. Vooral als ze worden onthuld aan niet-specialisten, kunnen ze misverstanden veroorzaken (voor een meer diepgaande discussie, zie bijvoorbeeld [2]). Volgens sommige schattingen loopt ieder van ons rond met ongeveer een half miljoen VUS in onze respectievelijke genomen. Dus hoewel de WGS-gegevens dit allemaal vastleggen, weten we in veel gevallen niet hoe we moeten interpreteren wat we hebben.

Verrassing #2: kijk naar de exons als je wilt weten wat er buiten hen is gebeurd

Paradoxaal genoeg is de beste benadering om bewijs van betekenisvolle niet-exonische variatie te vinden waarschijnlijk via WES. Dat klopt, we moeten naar de exons kijken om erachter te komen wat er elders is gebeurd. De sleutel hier is om te onthouden dat een WES wordt gegenereerd uit cDNA en niet alleen individuele sequenties omvat, maar ook relatieve waarnemingsfrequenties van genproducten en zelfs bepaalde splitsingsvarianten van een enkel gen. Als (en dat is een kritisch voorbehoud) de cDNA-bibliotheek die voor WES wordt gebruikt, afkomstig is van de celpopulatie van belang, biedt dit een momentopname, niet van de werkelijke niet-exonische sequenties, maar van hun significante effecten. In het geval van mutaties die bijvoorbeeld van invloed zijn op het netto genexpressieniveau, zal het beïnvloede gen een lager of hoger niveau vertegenwoordigen dan verwacht wanneer wordt verwezen naar andere huishoudgenen in het monster. Wanneer de mutatie iets genuanceerder beïnvloedt, zoals splitsingsplaatsbias in een bepaald gen, zullen relatieve niveaus van genisovormen in het monster afwijken van equivalente isovormverhoudingen in controlemonsters. Hoewel dit ons geen informatie geeft over wat de werkelijke hoofdoorzaakmutatie(s) is (zijn), negeert het de impact van werkelijk onbeduidende variaties die we anders zouden classificeren als VUS en niet wijzer zouden zijn.

Dus, wat is beter, WGS of WES?

Het antwoord daarop hangt af van wat u zoekt en de beschikbare middelen in termen van tijd, kosten en bioinformatica-tools. WES werd al vroeg populair en het blijft een kosteneffectieve, gerichte strategie om te kijken naar wat waarschijnlijk de meest informatieve verzameling genomische gegevens uit een steekproef is. Houd echter rekening met de opmerking hierboven dat cDNA-populaties en hun afgeleide WES-gegevenssets tot op zekere hoogte weefselspecifiek zijn. Daarnaast hebben ze vooroordelen aangetoond tegen het vertegenwoordigen van sommige sequentietypes en kunnen ze de volledigheid van een WGS missen. Ter vergelijking: PCR-vrije WGS vereist meer kosten en inspanning, maar is completer in zijn dekking en is generaliseerbaar over het hele organisme (we zullen doen alsof deze ruimte niet onlangs was gewijd aan somatisch microchimerisme als uitzondering hierop). Als we op een bepaald moment in de toekomst veel meer gegevens hebben, zodat VUS tot het verleden behoort, dan is WGS waarschijnlijk de 'betere' keuze. Voordat dat echter gebeurt, en naarmate de kosten van NGS-technologie blijven dalen en het gebruiksgemak toeneemt, kunnen we een situatie bereiken waarin het meest complete en interpreteerbare genomische beeld wordt verkregen door zowel een WGS als een gepaarde weefselrelevante WES vast te leggen. Elk geeft een iets ander inzicht in het genoom en in werkelijkheid zijn de twee vormen van gegevens complementair.


Gehele genoom- of exoomsequencing: een individueel inzicht

Focussen op delen in plaats van het geheel, als het gaat om genoomsequencing, kan buitengewoon nuttig zijn, vindt onderzoek in het open access-tijdschrift van BioMed Central Genoomgeneeskunde. Het onderzoek vergelijkt verschillende sequencing-technologieën bij dezelfde persoon met de ziekte van Charcot-Marie-Tooth (CMT), en laat zien dat alleen door alleen de coderende regio's te sequensen met een hoge dekkingsgraad, de genetische variatie achter deze ziekte kan worden geïdentificeerd en ook eerdere problemen kunnen worden opgelost. onduidelijkheden.

Sequencing van de volgende generatie voor het begrijpen van menselijke DNA-variatie en genetische aandoeningen gaat met grote sprongen vooruit. Whole genome sequencing leest al het DNA van een individu, terwijl exome sequencing alleen de delen van het DNA vastlegt die coderen voor eiwitten. Exome-sequencing is sneller en goedkoper, maar er is al eerder bezorgdheid geuit over het missen van belangrijke informatie.

Een team van het Baylor College of Medicine onder leiding van prof. James Lupski en prof. Richard Gibbs vergeleek verschillende exoom- en hele genoomsequencing-technologieën op DNA van dezelfde persoon met CMT. Prof. Jim Lupski legde uit: "Beide methoden waren in staat om dezelfde 12 varianten te vinden die de cellulaire respons op specifieke geneesmiddelen zoals bètablokkers, warfarine en het antikankergeneesmiddel paclitaxel beïnvloeden, en nieuwe CMT-geassocieerde mutaties in SH3TC2 te identificeren die coderen voor een eiwit met een rol bij myelinisatie van perifere zenuwen."

Exome-sequencing had minder valse positieven en een grotere gevoeligheid vanwege de hogere dekking die werd bereikt bij het focussen op slechts een klein deel van het genoom. Bijgevolg was het in staat om nucleotiden correct te identificeren die dubbelzinnig waren bij gebruik van sequencing van het hele genoom bij een lagere dekking, en zo duidelijk te maken of ze geassocieerd waren met CMT of niet.

Prof. Richard Gibbs merkte op: "De hogere dekking die wordt geboden door te focussen op het exoom bij ongeveer 120x voor klinische exomen maakt een grotere precisie van exome-sequencing mogelijk, waardoor dit een superieure benadering is, in plaats van een kortere weg, om te ontdekken welke mensen mogelijk reageren op een bepaalde therapie of om te bepalen wie een specifieke ziekte heeft."


Resultaten

De databasezoekopdracht identificeerde 1.277 publicaties, waarvan 302 duplicaten waren (Figuur 1). Nadat titels en abstracts waren gescreend en full-text publicaties waren beoordeeld op geschiktheid, werden 14 publicaties geïdentificeerd die voldeden aan de inclusiecriteria. Een overzicht van de referentielijsten van gevonden publicaties en de publicaties van erkende auteurs op dit gebied identificeerde 22 aanvullende relevante publicaties (waarvan 7 werden geïdentificeerd na juli 2016, de geplande einddatum voor literatuuronderzoek 18,19,20,21). In totaal werden 36 relevante publicaties geïdentificeerd.

Literatuur zoekresultaten.

Studie kenmerken

Tabel 2 vat de kenmerken van deze 36 publicaties samen. Gedetailleerde beschrijvingen zijn te vinden in aanvullende bijlage S3. De publicaties onderzochten het gebruik van WES en WGS in verschillende omstandigheden met een genetische achtergrond. De meest voorkomende aandoeningen waren neurologische of neurologische ontwikkelingsstoornissen (7 publicaties), met 13 (36%) publicaties waarin WES en WGS uitsluitend bij kinderen of pasgeborenen werden onderzocht. De grootte van de onderzoekssteekproef varieerde van een enkel kind tot een cohort van 2.000 patiënten.

De onderzoeken die in de volgende negen publicaties (22%) worden gerapporteerd, hadden geen patiëntenpopulatie. Bennet et al. 22 gebruikten een beslissingsanalysemodel om de kosteneffectiviteit te evalueren van het retourneren van incidentele bevindingen van WES en WGS in de Verenigde Staten. Buchanan-Hughes et al. 23 construeerde een beslisboom om het kostennut van bacteriële WGS in de diagnostische route van urineweginfecties te berekenen. Chrystoja en Diamandis 24 presenteerden een bespreking van de uitdagingen en kansen die samenhangen met het gebruik van WGS als diagnostische test. Het rapport van de Foundation for Genomics and Population Health 25 beschrijft de kosten van WES voor colorectale kanker in drie Britse National Health Service-laboratoria. Plothner et al. 26 onderzocht de kosten verbonden aan het uitvoeren van WGS in de Duitse klinische praktijk. Sabatini et al. 27 voerde een bottom-up kostenonderzoek uit van WES in Canada en vergeleek de bevindingen met de kosten van de traditionele klinische route voor het diagnosticeren van neurologische ontwikkelingsstoornissen, met behulp van betaler-kosten-impactmodellen. Van Nimwegen 28 constructed a decision model to examine the cost-effectiveness of WES in clinical practice in the Netherlands. Finally, Tsiplova et al. 20,21 calculated the cost-effectiveness of WES and WGS compared with chromosomal microarray analysis (CMA) in three hypothetical testing scenarios.

Twenty-one economic evaluations were identified, of which 8 were full economic evaluations 18,19,20,21,22,23,28,29,30 and 13 were partial economic evaluations. 3,31,32,33,34,35,36,37,38,39,40,41,42 Seven studies presented data on the costs of WES or WGS testing pathways, 24,25,26,27,43,44,45 and eight studies presented data on clinically relevant outcome measures for these tests. 5,6,8,9,10,46,47,48 Of the eight full economic evaluations, two were CUAs 22,23 and six were CEAs, published between 2014 and 2017 in Australia (2), the United States (1), the UK (1), the Netherlands (1), and Canada (1). 18,19,20,21,28,29,30 Of these publications, the study by Soden et al. 29 did not directly report WES costs but estimated the cost-effectiveness threshold for WES in pediatric neurodevelopmental disorders by calculating the cost of the current diagnostic pathway.

All 13 partial economic evaluations were cost-consequence analyses. These studies were published between 2013 and 2016 in the Netherlands (4), Australia (3), Canada (2), France (1), the United States (2) and the United Kingdom (1). Eleven of these publications investigated WES, with the study by Pankhurst et al. 42 evaluating bacterial WGS and the study by Shashi et al. 3 evaluating several potential NGS approaches. While all 13 publications reported cost estimates for WES or WGS, only 3 stated the methods and sources underlying these estimates. 35,37,42

Of the seven studies that presented data on the costs of WES or WGS testing pathways, four evaluated WGS. Chrystoja and Diamandis 24 reviewed the potential of WGS and summarized cost data extracted from previously published scientific studies and commercial sources. Dewey et al. 43 estimated the costs of WGS in the United States as well as the costs associated with curation and clinical follow-up. Weymann et al. 45 estimated the costs of using WGS to inform treatment decisions in patients with advanced cancers. Towne et al. 44 estimated the cost of using WES to achieve a diagnosis in rare presentations in a pediatric population. The studies by the Foundation for Genomics and Population Health, 25 Sabatini et al., 27 and Plöthner et al. 26 have been described previously.

Eight studies, published between 2011 and 2016, presented data on clinically relevant outcome measures for WES and WGS. Seven of these studies investigated WES 5,6,8,9,10,46,47 the eighth evaluated WGS. 48 Four publications used the traditional care pathway in the investigated condition as a comparator. 6,10,46,48 Three publications were retrospective analyses 6,47,48 and three were diagnostic studies, estimating the diagnostic yield of WES in a variety of conditions. 5,8,9 The final two studies were case studies on single probands and families. 10,46

Twenty-four (67%) of the publications that met the inclusion criteria focused on WES, with five (14%) focusing on WGS, five (14%) focusing on both WGS and WES, and two (6%) evaluating bacterial WGS. The most common study setting was the United States (36% of publications). The earliest two studies were published in 2011, with all other studies published between 2013 and 2017.

WES and WGS costs

Table 3 summarizes the cost estimates for NGS approaches, with detailed information provided in Supplementary Appendix S4. Twenty-nine studies reported cost estimates, of which 18 reported costs for WES. Estimates ranged from £382 ($555) 32 to £3,592 ($5,169) 34,38 for a single WES test. The highest estimate for a single test (£3,592) was based on commercial prices. The highest estimate of the actual costs of a single WES test (i.e. not commercial prices) was £1,808 ($2,602). 37 Cost estimates for a trio ranged from £2,658 ($3,825) 44 to £6,466 ($9,304). 38 Thirteen publications stated that costs were estimated within the study nine of these publications reported their costing approach. 19,20,21,26,27,28,36,37,45 Many publications did not state which components were included in the cost estimate. The costs for reagents ranged from £291 ($420) 35 to £1,171 ($1,685). 31

Cost estimates varied little over time. The lowest estimate for a single WES test was £736 ($1,060) 44 in 2013 and £736 ($1,070) 28 in 2017. In terms of country-level costs, the lowest estimate (£382 $555) 32 was reported in an Australian study from 2015, and the highest estimate (£3,592 $5,169) 36,38 was reported in two Canadian studies from 2014. There were no regional differences: the lowest cost estimates in North America (£736 $1,060) 44 and the rest of the world (£382 $555) 32 were similar, but far less with the higher cost estimates (£3,592 $5,169 in North America, 36,38 £3,401 $4,907 in the rest of the world). 40,41

Six studies estimated the cost of WGS, four of which used data from commercial sources. 24,26,28,43 Cost estimates ranged from £1,312 ($1,906) for sequencing using the HiSeq X in Germany 26 to £17,243 ($24,810) for an unspecified platform in Canada. 24 Four studies used a transparent bottom-up approach to estimate the cost of WGS. 20,21,26,28,45 There was limited evidence of a reduction in the cost of WGS over time, with the lowest estimate declining from £10,497 ($15,146) 43 in 2013 to £1,312 ($1,906) 26 in 2017. However, this is based on a small sample. The two cost estimates for bacterial WGS were considerably lower than those for WES or WGS in humans.

Finally, of the 16 studies that calculated test costs rather than applying an assumed figure or using a commercial price, only 10 described the cost calculation in a transparent manner.

WES and WGS outcomes

A variety of outcomes were assessed in the publications that met the inclusion criteria, including successful diagnoses, diagnostic yield, sensitivity and specificity, quality-adjusted life years (QALYs), time to diagnosis, change in clinical management, acute clinical usefulness, mortality/survival, parent satisfaction, frequencies of disease subtypes, mode of inheritance, spectrum of genetic events, reporting of incidental findings, target capture, and prediction of bacterium species and drug susceptibility. Diagnostic yield was the most common outcome measure (18 publications). Table 4 summarizes diagnostic yield estimates by sequencing approach, with detailed information provided in Supplementary Appendix S5. The lowest diagnostic yield for WES (3%) was estimated in a patient group with colorectal cancer. 37 The highest rate for WES (79%) was reported for individuals with childhood-onset muscle disorders. 18 Around a third of the included publications investigated WES or WGS in a population group that was difficult to diagnose.

WES and WGS cost-effectiveness

Eight studies estimated the cost-effectiveness of WES or WGS. Sagoo et al. 30 estimated the cost-effectiveness of WES compared with usual testing practice (genetic tests and disease gene panel tests) in a variety of disease contexts. When WES was introduced later in the testing pathway, the incremental cost per additional positive diagnosis was £3,213 ($4,670). When WES was used as a near first-line test the incremental cost per additional positive diagnosis was £2,230 ($3,242).

Van Nimwegen 28 compared the costs and outcomes associated with WES (using the HiSeq 4000) with those of conventional diagnosis for pediatric neurological disorders (which includes magnetic resonance imaging scans, electroencephalography, and muscle biopsies). In the author’s first analysis, WES was treated as a last-resort test, with an incremental cost per additional diagnosis of £8,319 ($12,092). The second analysis treated WES as a first-line test, and in many plausible scenarios this resulted in cost savings.

Soden et al. 29 estimated that WES would be cost-effective in pediatric neurodevelopmental disorders, compared with existing nongenomic investigative approaches (including laboratory tests, radiologic procedures, and electromyograms) on a cost-per-diagnosis basis if the cost of WES was no more than £2,123 ($3,063) per individual.

Schofield et al. 18 reported that WES offered a cost saving per diagnosis of £6,483 ($9,342) compared with traditional investigations (muscle biopsy, histological and biochemical analyses, Sanger sequencing) for the diagnosis of pediatric muscle diseases.

Stark et al. 19 examined the cost-effectiveness of three scenarios for implementing WES as a routine clinical test for infants with suspected monogenic disorders. Integrating WES after standard investigations (including biochemical investigations, imaging, and neurophysiological studies) cost £3,830 ($5,518) per additional diagnosis, replacing a subset of existing investigations with WES cost £1,238 ($1,784) per additional diagnosis, and implementing WES as a first-line test to replace most investigations saved £1,030 ($1,484) per additional diagnosis.

Tsiplova et al. 20,21 evaluated the cost-effectiveness of strategies involving WES and WGS compared with CMA in autism spectrum disorder. Adding WES to CMA cost £13,912 ($20,046) per additional diagnosis, whereas implementing WGS instead of CMA cost £32,219 ($46,424) per additional diagnosis using a HiSeq 2500 sequencer, and £14,219 ($20,488) using a HiSeq X sequencer. Implementing WGS compared with a WES-plus-CMA approach cost £106,590 ($153,587) per additional diagnosis using a HiSeq 2500 sequencer, and £15,464 ($22,283) using a HiSeq X sequencer.

Buchanan-Hughes et al. 23 investigated the cost-effectiveness of bacterial WGS to guide targeted antibiotic selection in urinary tract infections, finding that bacterial WGS was more expensive than methods employed in current clinical practice, with poorer health outcomes.

Finally, Bennette et al. 22 estimated the cost-effectiveness of generating information on incidental findings using genomic sequencing. The cost per QALY gained for cardiomyopathy patients was estimated to be £32,187 ($46,313), for colorectal cancer patients it was £82,623 ($118,883), and for healthy individuals it was £42,102 ($60,578). Generating information on incidental findings for cardiomyopathy patients and healthy individuals was therefore cost-effective, compared with a threshold of $100,000 per QALY gained.


23andMe and AncestryDNA Genotyping vs Whole Genome Sequencing

If you’ve been genotyped by 23andMe, AncestryDNA, MyHeritage, Family Tree DNA (FTDNA), or Living DNA you may believe you had all of your DNA sequenced. What if you learned that 23andMe only genotypes around 0.02% of your DNA? Whole genome sequencing gives you over 4,000 times more data and over 900 times more known genetic variants. Yes, you’ve read that right — over four thousand times more data!

Verrast? Je bent niet alleen. You can now get affordable Whole Exome Sequencing (WES) and Whole Genome Sequencing (WGS) from several providers. You can sequence 100% of your DNA with Whole Genome Sequencing.

The Difference Between Genotyping and Whole Genome Sequencing

Comparing consumer genotyping data to Whole Genome Sequencing data is like comparing a mountain to a small mound. Or for a better perspective it’s like comparing a 1/4000 scale Star Wars Imperial Star Destroyer to a actual Imperial Star Destroyer!

Imperial Star Destroyer 1/4000 scale (source: YouTube)

Don’t get me wrong, a 1/4000 scale Imperial Star Destroyer is pretty cool. But do you really think it can take on a echtStar Destroyer. Ik denk het niet! Jokes aside, you honestly can’t compare genotyping to sequencing. It’s like comparing apples to oranges.

Genotyping is like picking specific words from a page and sequencing is like reading and storing the entire book. With genotyping, if you want to grab a specific word that you did not have genotyped out of the book, you are out of luck. You have to be genotyped again looking for that specific word. In more scientific terms, genotyping gives you selected Single Nucleotide Polymorphisms (SNPs) and Insertion/Deletion variants (Indels). Whole Genome Sequencing gives you the SNPs, Indels, and all other DNA.

I borrowed this comparison from Helix. Perhaps they state this concept better than I did in this video:

Back to the Book Analogy

When sequencing, we use some pretty strange techniques. We basically take your book (your DNA), shred it into tiny fragments, and then xerox it 30 times (for 30x sequencing). These fragments are usually around 100-250 letters long (scientifically referred to as base pairs). So it’s usually shredded into somewhere between 12 million and 30 million unique parts depending on the type of sequencing. Counting the xeroxed copies, there are around 360 million to 900 million fragments.

After we are done shredding the book and xeroxing the shreds, we take all these shreds and figure out where they belong again to the best of our ability. We reference another book to do this. This book has slight differences than our book. But the purpose of this process it determine what the difference is between our book and the reference book. And we can almost put this book completely back together even with the slight differences. About 5% of the book is too difficult to assemble. But it’s the best we can currently do!

After we finish assembling the book, we store all the pieces with a map and index of exactly where they belong. We call this book, “My Genome.” We don’t usually discard the pieces we couldn’t map. Instead, we store them in an envelope called “unmapped reads.” These unmapped reads may belong to pieces of the book that couldn’t be assembled. Or it may be DNA of things that contaminated the book — Viruses, Bacteria, Archae, Fungi and Parasites. Goor! There are a lot of germs on books!

In technical jargon, the shredded book is random readings of your DNA stored in compressed computer files called a FASTQ files. A high end computer or cloud computing would then take these random FASTQ reads in these files and create a map of where they belong. The computer stores the reads, the map, and an index into a compressed binary file called a BAM (Binary Alignment Map) file. These files can vary in size, but for a whole genome, it’s not uncommon that the FASTQ and BAM files are around 50-120 gigabytes each and about 100-240 gigabytes combined.

But this book is very large in size and is hard to carry around. And we are mostly interested in the differences between “My Genome” and the reference book. So we scan the assembled version of this book and create notes of where all the differences are. We also reference the xeroxed copies to determine not only how many times sentences of the book was read, but how accurately we read it. Remember, when you xerox things a lot of times, parts will inevitably come out blurry and it can be hard to read each letter or word. If the accuracy is good, we mark things as pass. If we can’t tell exactly what the book says, we mark why it didn’t pass. We then have a notebook filled with everything that’s different between “My Genome” and the reference book and whether or not it passed our accuracy check.

Going technical again, what we are doing is generating what’s called a VCF (Variant Call Format) file from the BAM file. The VCF file tells us where our genome didn’t match the reference genome. In simpler words, this helps show us where are genetic polymorphisms and mutations are. This file is compressed to save disk space and make it more portable. VCF files are typically between 150-300 megabytes for a Whole Genome Sequence. But they can be a little bigger or smaller than this depending on the tools used to make them.

Summary of What We Just Learned

Wow, that was a lot. But in summary:

  1. Consumer genotyping gives you about 0.02% of your DNA while Whole Genome Sequencing gives you roughly 4000x that amount.
  2. Consumer genotyping represents a tiny fraction of your DNA while Whole Genome Sequences represents close to 100% of your DNA.
  3. For 30x sequencing, random reads of your DNA are read 30x on average and stored in a files called FASTQ files. Since these reads are random, they are not mapped to you or anything.
  4. We use intensive computing (usually cloud computing) to map these FASTQ files to a BAM file. This BAM file contains all the data in our FASTQ files along with a map and an index of where the reads align to the reference genome.
  5. From this BAM file, we make a more compact file called a VCF file that tells us exactly where we differ from the reference genome. These are our variants and mutations. VCF files contain 1 letter differences from the reference genome (SNPs) or insertions or deletions of several letters (Indels).

If you are still confused, I recommend watching this two minute video titled What is Genomic Sequencing? from Mayo Clinic:

I hope that helped explain the difference between genotyping and sequencing and explained the concepts of sequencing without breaking your brain. I’m pretty sure I broke my brain a few times trying to write this, so don’t feel bad if your brain feels broken too.

If you have any feedback or think I got a concept wrong, please let me know in the comments.


Author information

Voorkeuren

German Center for Neurodegenerative Diseases (DZNE), Otfried-Müller-Str. 23, Tübingen, 72076, Germany

Iris E. Jansen, Sasja Heetveld, Marie C. Lechler, Javier Simon-Sanchez, Melissa Castillo-Lizardo, Patrizia Rizzu, Cornelis Blauwendraat, Della C. David, Shushant Jain & Peter Heutink

Department of Clinical Genetics, VU University Medical Center, Amsterdam, 1081HZ, The Netherlands

Iris E. Jansen & Peter Heutink

Department of Molecular and Human Genetics, Baylor College of Medicine, Houston, TX, USA

Graduate School of Cellular & Molecular Neuroscience, Tübingen, 72074, Germany

European Research Institute for the Biology of Aging, University of Groningen, University Medical Centre Groningen, Groningen, 9700AD, The Netherlands

Helen Michels, Renée I. Seinstra & Ellen A. Nollen

Department of Clinical Neuroscience, UCL Institute of Neurology, London, UK

Steven J. Lubbe & Huw R. Morris

Northwestern University Feinberg School of Medicine, Ken and Ruth Davee Department of Neurology, Chicago, IL, USA

Inserm U1127, CNRS UMR7225, Sorbonne Universités, UPMC Univ Paris 06, UMR_S1127, Institut du Cerveau et de la Moelle épinière, Paris, France

Valérie Drouet, Suzanne Lesage & Alexis Brice

Institute of Psychological Medicine and Clinical Neurosciences, MRC Centre for Neuropsychiatric Genetics and Genomics, Cardiff University, Cardiff, UK

Laboratory of Neurogenetics, National Institute on Aging, Bethesda, MD, USA

J. Raphael Gibbs, Mike A. Nalls & Andrew B. Singleton

Department of Molecular Neuroscience, UCL Institute of Neurology, London, UK

Mina Ryten, Juan A. Botia & Jana Vandrovcova

Department of Medical & Molecular Genetics, King’s College London, London, UK

Hertie Institute for Clinical Brain Research, University of Tübingen, Tübingen, Germany

Javier Simon-Sanchez & Peter Heutink

Department of Neurology, Baylor College of Medicine, Houston, TX, USA

Amit K. Chouhan, Yarong Li, Puja Yogi & Joshua M. Shulman

Genetic Epidemiology Unit, Department of Epidemiology, Erasmus MC, Rotterdam, The Netherlands

Najaf Amin & Cornelia M. van Duijn

Assistance Publique Hôpitaux de Paris, Hôpital de la Salpêtrière, Département de Génétique et Cytogénétique, Paris, France

Department of Neuroscience and Program in Developmental Biology, Baylor College of Medicine, Houston, TX, USA

Jan and Dan Duncan Neurological Research Institute, Texas Children’s Hospital, 1250 Moursund St., N.1150, Houston, TX, 77030, USA


Bekijk de video: Гены и геном человека рассказывает профессор Константин Северинов (December 2021).