Informatie

5: Genoomassemblage en uitlijning van het hele genoom - biologie


5: Genoomassemblage en uitlijning van het hele genoom

Genoomassemblage op chromosoomniveau voor reuzenpanda biedt nieuwe inzichten in de evolutie van het Carnivora-chromosoom

Chromosoomevolutie is een belangrijke aanjager van soortvorming en soortevolutie. Eerdere studies hebben chromosoomherschikkingsgebeurtenissen tussen verschillende Carnivora-soorten gedetecteerd met behulp van chromosoomverfstrategieën. Weinig van deze onderzoeken hebben zich echter gericht op chromosoomevolutie met een nucleotideresolutie vanwege de beperkte beschikbaarheid van Carnivora-genomen op chromosoomniveau. Hoewel de de novo-genoomassemblage van de reuzenpanda beschikbaar is, zijn de huidige korte, op lezen gebaseerde assemblages beperkt tot scaffolds van gemiddelde grootte, wat de studie van chromosoomevolutie moeilijk maakt.

Resultaten

Hier presenteren we een reuzenpanda-ontwerpgenoom op chromosoomniveau met een totale grootte van 2,29 Gb. Op basis van het reuzenpanda-genoom en gepubliceerde honden- en kattengenomen op chromosoomniveau, voeren we zes grootschalige paarsgewijze syntenie-uitlijningen uit en identificeren we evolutionaire breekpuntregio's. Interessant is dat genfunctionele verrijkingsanalyse aantoont dat voor alle drie Carnivora-genomen, sommige genen die zich in evolutionaire breekpuntregio's bevinden, aanzienlijk zijn verrijkt in paden of termen die verband houden met zintuiglijke waarneming van geur. Bovendien vinden we dat het zoete receptorgen TAS1R2, waarvan is bewezen dat het een pseudogen is in het kattengenoom, bevindt zich in een evolutionair breekpuntgebied van de reuzenpanda, wat suggereert dat interchromosomale herschikking een rol kan spelen bij de kat TAS1R2 pseudogenisering.

Conclusies

We laten zien dat de gecombineerde strategieën die in deze studie worden gebruikt, kunnen worden gebruikt om efficiënte genoomassemblages op chromosoomniveau te genereren. Bovendien bieden onze vergelijkende genomica-analyses nieuwe inzichten in Carnivora-chromosoomevolutie, waarbij chromosoomevolutie wordt gekoppeld aan functionele genevolutie.


Abstract

Het MUMmer-systeem en de daarin opgenomen genoomsequentie-aligner-nucmer behoren tot de meest gebruikte uitlijningspakketten in de genomica. Sinds de laatste grote release van MUMmer versie 3 in 2004, is het toegepast op vele soorten problemen, waaronder het uitlijnen van hele genoomsequenties, het uitlijnen van reads op een referentiegenoom en het vergelijken van verschillende samenstellingen van hetzelfde genoom. Ondanks zijn brede bruikbaarheid heeft MUMmer3 beperkingen die het moeilijk kunnen maken om het te gebruiken voor grote genomen en voor de zeer grote sequentiegegevenssets die tegenwoordig gebruikelijk zijn. In dit artikel beschrijven we MUMmer4, een aanzienlijk verbeterde versie van MUMmer die de beperkingen van de genoomgrootte aanpakt door de 32-bits achtervoegselboomgegevensstructuur in de kern van MUMmer te wijzigen in een 48-bits suffix-array, en die verbeterde snelheid biedt door parallelle verwerking van queryreeksen invoeren. Met een theoretische limiet op de invoergrootte van 141 Tbp, kan MUMmer4 nu werken met invoersequenties van elke biologisch realistische lengte. We laten zien dat als resultaat van deze verbeteringen het nucmer-programma in MUMmer4 gemakkelijk in staat is om uitlijningen van grote genomen te verwerken. We illustreren dit met een uitlijning van het genoom van de mens en de chimpansee, waarmee we kunnen berekenen dat de twee soorten 98% identiek zijn over 96% van hun lengte. Met de hier beschreven verbeteringen kan MUMmer4 ook worden gebruikt om reads efficiënt uit te lijnen met referentiegenomen, hoewel het minder gevoelig en nauwkeurig is dan de speciale read aligners. De nucmer aligner in MUMmer4 kan nu worden aangeroepen vanuit scripttalen zoals Perl, Python en Ruby. Deze verbeteringen maken MUMer4 tot een van de meest veelzijdige pakketten voor genoomuitlijning die er zijn.

Citaat: Marçais G, Delcher AL, Phillippy AM, Coston R, Salzberg SL, Zimin A (2018) MUMmer4: een snel en veelzijdig genoomuitlijningssysteem. PLoS-comput Biol 14(1): e1005944. https://doi.org/10.1371/journal.pcbi.1005944

Editor: Aaron E. Darling, Technische Universiteit Sydney, AUSTRALI

Ontvangen: 15 augustus 2017 Geaccepteerd: 1 januari 2018 Gepubliceerd: 26 januari 2018

Dit is een open access artikel, vrij van alle auteursrechten, en mag door iedereen vrijelijk worden gereproduceerd, gedistribueerd, verzonden, gewijzigd, erop voortgebouwd of anderszins worden gebruikt voor elk wettig doel. Het werk is beschikbaar gesteld onder de Creative Commons CC0 publieke domein toewijding.

Beschikbaarheid van data: De gegevens die voor dit artikel zijn gebruikt, zijn beschikbaar via de NCBI SRA https://www.ncbi.nlm.nih.gov/sra en van de Cold Spring Harbor Laboratory-website http://schatzlab.cshl.edu/data/ectools /.

Financiering: Dit onderzoek werd gedeeltelijk ondersteund door de Amerikaanse National Institutes of Health onder subsidie ​​R01 GM083873 aan Steven Salzberg, gedeeltelijk door het Data-Driven Discovery Initiative van de Gordon en Betty Moore Foundation via Grant GBMF4554 aan Carl Kingsford, en gedeeltelijk door National Science Foundation Grants IOS-1238231 voor Jan Dvorak, IOS-144893 voor Herbert Aldwinckle, Keithanne Mockaitis, Aleksey Zimin, James Yorke en Marcela Yepes. De financiers hadden geen rol bij het ontwerp van de studie, het verzamelen en analyseren van gegevens, de beslissing om het manuscript te publiceren of de voorbereiding van het manuscript.

Concurrerende belangen: De auteurs hebben verklaard dat er geen concurrerende belangen bestaan.

Dit is een PLOS Computational Biology Software papier.


Resultaten

Algoritme overzicht

Zoals beschreven in de inleiding, is de belangrijkste algoritmische innovatie van dit artikel het SibeliaZ-LCB-algoritme. SibeliaZ-LCB neemt als input een de Bruijn-grafiek die is gebouwd op een verzameling geassembleerde genomen. Een geassembleerd genoom is zelf een reeks aaneengesloten sequenties. SibeliaZ-LCB identificeert en voert alle niet-overlappende blokken van homologe subsequenties van de ingevoerde genomen uit. Een blok kan zijn samengesteld uit twee of meer sequenties van een of meer genomen. In deze subsectie geven we een overzicht op hoog niveau van SibeliaZ-LCB, waarbij we de meer formele en gedetailleerde versie overlaten aan de "Methoden".

SibeliaZ-LCB leunt zwaar op de de Bruijn-grafiek van de genomen. In deze grafiek komen de hoekpunten overeen met de k-mers (substrings van vaste lengte k) van de ingang. EEN k-mer die meerdere keren in de invoer voorkomt, wordt weergegeven met slechts één knooppunt. Vervolgens, k-meren die opeenvolgend verschijnen in een invoerreeks zijn verbonden door een rand van de linker naar de rechter (zie Fig. 1a voor een voorbeeld). Op deze manier komt elk genoom overeen met een pad in de grafiek dat springt van k-meer naar k-mer met behulp van de randen.

een De grafiek opgebouwd uit strings "GCACGTCC" en "GCACTTCC", met k = 2. De twee snaren worden gereflecteerd door respectievelijk de blauwe en magenta wandelingen. Dit is een voorbeeld van een collineair blok van twee wandelingen. Er zijn vier bubbels. De bel gevormd door hoekpunten "AC" en "TC" beschrijft een vervanging binnen het blok, terwijl drie andere bellen worden gevormd door evenwijdige randen. De blauwe en magenta wandeling vormen een ketting van vier opeenvolgende bellen. B Een voorbeeld van een complexer blok, waarbij we een derde reeks "CACGTTCC" (turquoise) aan de invoer hebben toegevoegd. We kunnen het blok niet langer omschrijven als een keten van bellen, omdat ze elkaar overlappen om verwarde structuren te vormen. In plaats daarvan beschouwen we het pad in de grafiek (zwart gestippeld) dat veel hoekpunten deelt met de drie collineaire wandelingen. Dit draagpad deelt veel hoekpunten met de drie bestaande wandelingen, en elke wandeling vormt er zijn eigen ketting mee. De taak om goede collineaire blokken te vinden, kan dan worden ingekaderd als het vinden van draagpaden die goede ketens vormen met de genomische wandelingen.

In deze grafiek vormen twee homologe sequenties een zogenaamde keten: een verweven sequentie van parallelle randen, die overeenkomen met identieke sequenties, en "bubbels", die overeenkomen met kleine variaties zoals enkele nucleotidevarianten of indels. Het concept van een keten is echter moeilijk uit te breiden tot meer dan twee homologe sequenties omdat het verwarde patroon in de grafiek moeilijk precies te definiëren is (zie figuur 1b voor een voorbeeld).

Om deze uitdaging aan te gaan, introduceren we het idee dat elk blok een "draagpad" heeft in de de Bruijn-grafiek die het blok bij elkaar houdt. Het basisidee is dat de homologe sequenties die het blok vormen veel gedeelde k-mers en hun overeenkomstige genomische paden gaan door bijna dezelfde hoekpunten. Een draagpad is dan een pad dat door de meest bezochte hoekpunten gaat, losjes vergelijkbaar met het idee van een consensusreeks van uitlijning. Elk genoompad uit het blok vormt dan een ketting met dit draagpad (zie figuur 1b voor een voorbeeld).

We kennen de draagpaden niet van tevoren, maar we kunnen ze gebruiken als geleidingsmechanisme om blokken te vinden. We beginnen met een willekeurig voordeel e in de grafiek en alle andere genomische paden die bellen vormen met e. Wij maken e het startpunt van een draagpad en gebruik het samen met de andere genomische paden om de verzameling van sequenties te initiëren die het blok vormen dat overeenkomt met dit draagpad. Om het draagpad te verlengen, kijken we naar de randen die de genomische paden in het huidige blok verlengen en nemen we de meest voorkomende. De gegevensstructuren die de genomische paden in het blok en het draagpad behouden, worden vervolgens bijgewerkt en de verlengingsprocedure wordt herhaald. Figuur 2 toont een voorbeeld van het uitvoeren van dit algoritme.

Elke subfiguur toont de inhoud van het collineaire blok P en het draagpad. De collineaire wandelingen zijn solide, het draagpad is onderbroken en de rest van de grafiek is gestippeld. Subfiguur een toont de status van deze variabelen na de initialisatie-subfiguren BNS tonen de staat na de voltooiing van elke fase.

We gaan door met dit proces totdat de scorefunctie die beschrijft hoe goed een draagpad het blok bij elkaar houdt, onder nul komt. Op dat moment overwegen we de mogelijkheid dat we het blok mogelijk hebben overbelast en in plaats daarvan eerder hadden moeten beëindigen. Om dit te doen, kijken we naar alle tussenliggende blokken die we tijdens het uitbreidingsproces hadden gemaakt en geven we het blok met de hoogste score af. Zodra een blok een uitvoer is, voeren we alle samenstellende randen uit zoals gebruikt, zodat ze niet worden gekozen als onderdeel van een toekomstig blok.

Op deze manier vindt SibeliaZ-LCB een enkel blok. Daarna proberen we een ander blok te vinden door vanaf een andere willekeurige rand te beginnen. Dit proces gaat door totdat alle randen in de grafiek zijn gebruikt of zijn uitgeprobeerd als potentiële starters voor een draagpad.

Gegevenssets, tools en evaluatiestatistieken

Evaluatie van meerdere aligners van het hele genoom is een uitdagend probleem op zich en daarom hebben we ervoor gekozen om de praktijken die zijn beschreven in de Alignathon 1-competitie als uitgangspunt te gebruiken. Ze presenteren verschillende benaderingen om de kwaliteit van een meervoudig genoomuitlijning te beoordelen. Idealiter is het het beste om een ​​uitlijning te vergelijken met een handmatig samengestelde gouden standaard, helaas bestaat zo'n gouden standaard niet. We hebben er daarom voor gekozen om onze evaluatie te concentreren op echte gegevens.

We evalueerden het vermogen van SibeliaZ om echte genomen uit te lijnen door het uit te voeren op verschillende datasets bestaande uit een variërend aantal muizengenomen. We hebben 16 muizengenomen gevonden die beschikbaar zijn bij GenBank 30 en zijn gelabeld met een "chromosoom" -assemblageniveau. Ze bestaan ​​uit het muisreferentiegenoom en 15 verschillende stammen die zijn samengesteld als onderdeel van een recente studie 12 (aanvullende tabel 1). De genomen variëren in grootte van 2,6 tot 2,8 Gbp en het aantal scaffolds (tussen 2977 en 7154, behalve de referentie die er 377 heeft). Hun GenBank-toetredingsnummers staan ​​vermeld in tabel 1. We hebben vier datasets van toenemende omvang geconstrueerd om de schaalbaarheid van de pijplijnen te testen met betrekking tot het aantal invoergenomen. De datasets bevatten genomen 1-2, 1-4, 1-8 en 1-16 uit aanvullende tabel 1, waarbij genoom 1 het referentiegenoom is.

Om de nauwkeurigheid te meten, hebben we verschillende grond-waarheid-uitlijningen gebruikt (nog te beschrijven) en de metrieken van precisie en terugroeping gebruikt in de Alignathon en geïmplementeerd door het mafTools-pakket 1 . Voor deze metrieken wordt uitlijning gezien als een equivalentierelatie. We zeggen dat twee posities in de inputgenomen equivalent zijn als ze afkomstig zijn van dezelfde positie in het genoom van hun recente gemeenschappelijke voorouder. We duiden aan met H de verzameling van alle equivalente positieparen, die deelnemen aan de "echte" uitlijning. Laten EEN duiden de relatie aan die wordt geproduceerd door een uitlijningsalgoritme. De nauwkeurigheid van de uitlijning wordt dan gegeven door recall(EEN) = 1 − ∣ HEEN ∣ / ∣ H ∣ en precisie(EEN) = 1 − ∣ EENH ∣ / ∣ EEN ∣ , waarbij ⧹ het setverschil aangeeft.

Om het terugroepen te evalueren, vergeleken we onze resultaten met annotaties van eiwitcoderende genen. We hebben alle paren van homologe eiwitcoderende gensequenties van Ensembl opgehaald en vervolgens paarsgewijze globale uitlijningen daartussen berekend met behulp van LAGAN 31 . De uitlijning bevat zowel orthologe als paraloge genen, hoewel de meeste paraloge paren afkomstig zijn van het goed geannoteerde muisreferentiegenoom. We hebben alle paren paraloge genen met overlappende coördinaten verwijderd, omdat dit waarschijnlijk verkeerde annotaties waren, zoals bevestigd door de Ensembl-helpdesk 32 . We hebben deze gefilterde uitlijningen en de uitlijningen geproduceerd door SibeliaZ beschikbaar gemaakt voor openbare download vanuit onze GitHub-repository (zie de sectie "Beschikbaarheid van gegevens" voor de links).

We definiëren de nucleotide-identiteit van een uitlijning als het aantal overeenkomende nucleotiden gedeeld door de lengte van een uitlijning, inclusief hiaten. De verdeling van nucleotide-identiteiten, evenals de dekking van de annotatie, wordt getoond in aanvullende figuur 1. In onze analyse hebben we paren genen weggegooid op basis van hun nucleotide-identiteit.

Omdat eiwitcoderende genen slechts een klein deel van het genoom compromitteren, hebben we ook alles-tegen-alles paarsgewijze lokale uitlijningen berekend tussen chromosomen 1 van genomen 1-2 en 1-4 met behulp van LASTZ 6 , een betrouwbare lokale uitlijner die bekend staat om zijn nauwkeurigheid. We berekenden alleen uitlijningen tussen chromosomen van verschillende genomen, d.w.z. omvatten geen zelf-uitlijningen, wat duplicaties zoals paraloge genen uitsluit van de uitlijning. We hebben de standaardinstellingen van LASTZ gebruikt, behalve dat we de uitlijning van de nucleotide-identiteit voor ten minste 90% hebben uitgevoerd. We evalueerden vervolgens de herinnering en precisie van onze uitlijningen, maar beperkten onze uitlijningen tot de sequenties van chromosoom 1. Vervolgens behandelden we de LASTZ-uitlijningen als de grondwaarheid. De LASTZ-uitlijningen kunnen worden gedownload van de aanvullende gegevenssectie van onze repository. Merk op dat omdat de uitlijning wordt weergegeven als een set positieparen, het mogelijk is om meerdere uitlijningen van het hele genoom te evalueren met behulp van paarsgewijze lokale uitlijningen.

Om de precisie te meten, gebruiken we de LASTZ-uitlijningen op chromosoom 1. Het is echter rekenkundig onbetaalbaar om dergelijke uitlijningen met LASTZ voor het hele genoom te berekenen. We gebruiken daarom ook een indirecte manier om de precisie voor het hele genoom te beoordelen. Voor elke kolom in de uitlijning berekenen we het gemiddelde aantal nucleotideverschillen 33 . In een uitlijning van zeer vergelijkbare genomen die een hoge precisie heeft, verwachten we dat deze getallen voor de meeste kolommen in de uitlijning onder (dicht bij 0) zullen liggen. Anders zou dit wijzen op de aanwezigheid van onbetrouwbare, slecht uitgelijnde blokken in de uitlijning. Formeel, gegeven een kolom C van een meervoudig genoomuitlijning met Cl zijn . zijn le element wordt het gemiddelde aantal nucleotideverschillen gegeven door (pi (c)=_<1le ile | c| >_,jle | c| >ik[_<,> e <,>_]/Big(egin| c| 2eindGroot)) . de variabele l[ClCJ] is gelijk aan 1 als beide Cl en CJ zijn verschillende geldige DNA-tekens en anders 0 ∣ C ∣ is het aantal rijen in de kolom C.

We hebben de prestaties van SibeliaZ vergeleken met Progressive Cactus 34 , een aligner op basis van analyse van de Cactus-grafieken 35 die zijn opgebouwd uit paarsgewijze uitlijningen. We hebben ook geprobeerd Sibelia 23 (een voorloper van SibeliaZ) en MultiZ + TBA 8 uit te voeren, maar deze zouden binnen een week kunnen worden voltooid op zelfs een enkel muisgenoom. Andere meervoudige aligners 9,10,16 die in de Alignathon zijn gebenchmarkt, konden een dataset van 20 vliegen niet aan en zullen daarom waarschijnlijk niet worden geschaald naar een dataset van zoogdieren. We hebben er ook voor gekozen om Mercator 14 niet uit te voeren, omdat het een set gen-exons als invoer vereist en dus een ander probleem oplost: in dit artikel concentreren we ons op het berekenen van de uitlijning van het hele genoom rechtstreeks vanuit de nucleotidesequenties zonder externe informatie te gebruiken. Meer informatie over parameters, versies en hardware vindt u in aanvullende opmerking 1 en aanvullende tabel 4.

Looptijd en geheugen

De looptijden van SibeliaZ en Cactus worden getoond in Fig. 3 (aanvullende tabel 2 bevat de ruwe waarden). Op de dataset bestaande uit 2 muizen is SibeliaZ meer dan 10 keer sneller dan Cactus, terwijl op 4 muizen SibeliaZ meer dan 20 keer sneller is. Op de datasets met 8 en 16 muizen voltooide SibeliaZ in respectievelijk minder dan 7 en 16 uur, terwijl Cactus niet klaar was (we beëindigden het na een week). Voor SibeliaZ merken we op dat de globale uitlijning met spoa 44-73% van de looptijd in beslag neemt, en voor sommige toepassingen (bijv. herschikkingsanalyse) kan deze stap verder worden weggelaten om tijd te besparen. Geheugen wordt weergegeven in aanvullende tabel 2. Als Cactus het kan voltooien, heeft het betere geheugenprestaties dan SibeliaZ, maar beide tools hebben geheugen nodig dat ruim binnen het bereik van de meeste moderne servers ligt, maar buiten het bereik van personal computers.

Elke staaf komt overeen met een pijplijn. De balk van SibeliaZ is opgesplitst volgens zijn componenten: spoa (hatch fill), TwoPaCo (solid fill) en SibeliaZ-LCB (empty fill). Cactus wordt niet weergegeven in datasets 1-8 en 1-16 omdat deze niet zijn voltooid. We gebruikten 32 threads voor elk experiment.

Nauwkeurigheid

In Tabellen 2 en 3 tonen we de eigenschappen van de uitlijningen gevonden door SibeliaZ en Cactus. Om het terugroepen te berekenen, hebben we alleen nucleotiden gebruikt van genenparen met ten minste 90% identiteit in de annotatie. Voor de datasets die Cactus kon voltooien, had SibeliaZ een soortgelijke recall op orthologe paren. We hebben de resultaten op paralogen door Cactus niet geëvalueerd, omdat het paraloge uitlijningen 34 heuristisch uitfiltert als onderdeel van zijn pijplijn. De terugroepactie van SibeliaZ neemt slechts licht af naar de hele dataset van 16 muizen, wat aangeeft dat de terugroepactie schaalt met het aantal genomen.

We hebben ook de dekking gemeten, het percentage van de genoomsequentie dat is opgenomen in de uitlijning. De dekking van beide tools is ongeveer hetzelfde, maar SibeliaZ heeft slechts ongeveer de helft van de blokken. De verschillende hoeveelheden blokken die door de tools worden geproduceerd, zijn waarschijnlijk het gevolg van de verschillende benaderingen van de opmaak van de uitvoer. De weergave van meerdere uitlijningen van het hele genoom is dubbelzinnig en dezelfde uitlijning kan worden opgemaakt in verschillende, maar wiskundig equivalente vormen die variëren met het aantal blokken.

We onderzoeken verder hoe de terugroepactie zich gedroeg als een functie van nucleotide-identiteit, voor de dataset met twee en vier muizen (Fig. 4). Zoals verwacht neemt de recall af met de nucleotide-identiteit, hoewel de recall van SibeliaZ boven de 90% blijft voor nucleotiden van vergelijkbare (80-100% identiteit) orthologe genen.Cactus heeft een iets betere herinnering in orthologe genen met een lagere identiteit op de dataset met twee muizen. We merken op dat de genannotatie werd geconstrueerd 12 met behulp van een uitlijning geproduceerd door Cactus die verder werd verwerkt door annotatiesoftware CAT 36. Dit feit zou Cactus een klein voordeel kunnen geven in deze vergelijking en verklaren waarom Cactus een iets betere recall heeft. Recall op orthologe genparen blijft consistent in datasets van zowel twee als vier muizen voor beide datasets.

Panelen tonen terugroepen van orthologe (een) en paraloge (B) nucleotideparen weggegooid volgens de nucleotide-identiteit van hun respectievelijke genen in de annotatie. Het terugroepen van paralogen van Cactus wordt niet getoond (zie tekst).

Tegelijkertijd zagen we een veel minder consistent beeld voor paraloge genenparen. SibeliaZ was bijvoorbeeld in staat om bijna 90% van de paraloge baseparen die behoren tot genenparen met een nucleotide-identiteit van 90% te herstellen, maar vond minder dan 45% van de baseparen van genenparen met een identiteit van 80%.

De resultaten van de precisie en recall gemeten met betrekking tot LASTZ-uitlijningen worden weergegeven in aanvullende tabel 3. Op de dataset bestaande uit twee genomen had Cactus een iets hogere recall van 0,97 versus 0,95 van SibeliaZ. Daarentegen had SibeliaZ een betere precisie: 0,93 tegen 0,89 van Cactus. Met de vier genomen handhaafde SibeliaZ zijn terugroepactie van 0,95, terwijl de terugroepactie van Cactus daalde tot 0,92. Op deze dataset had SibeliaZ ook een hogere precisie: respectievelijk 0,96 en 0,90. Over het algemeen laten deze cijfers zien dat de uitlijningsnauwkeurigheid van SibeliaZ en Cactus vergelijkbaar is.

Ten slotte, omdat we de genoombrede precisie niet konden evalueren, gebruiken we de proxy van het gemiddelde aantal nucleotideverschillen voor de uitlijnkolommen (aanvullende figuur 2). De uitlijning van SibeliaZ vertoont een hoge mate van overeenkomst: meer dan 95% van de uitlijnkolommen heeft π(C) ≤ 0,1, wat we zouden verwachten van het op één lijn brengen van nauw verwante genomen. Cactus heeft een iets lager percentage zeer vergelijkbare kolommen, wat erop kan wijzen dat het meer blokken met een hogere divergentie vindt.

We merken op dat de resultaten in deze sectie de nauwkeurigheid van SibeliaZ-LCB en spoa tegelijkertijd evalueren, maar aangezien SibeliaZ gericht is op nauw verwante genomen, verwachten we dat de globale uitlijningsprocedure een verwaarloosbaar effect op de nauwkeurigheid zal hebben. Dit komt door het feit dat de globale uitlijning van vergelijkbare sequenties waarschijnlijk ondubbelzinnig is bij homologe nucleotiden en robuust is met betrekking tot verschillende algoritmen en hun parameters.

Resultaten op gesimuleerde gegevens

Naast de echte gegevens hebben we de prestaties van verschillende genoom-aligners gemeten op een grotere gesimuleerde dataset met kleine genomische divergentie, "primaten" genoemd in ref. 1 . In deze dataset is de afstand van de wortel tot de bladeren in de fylogenetische boom gelijk aan 0,02 substituties per site. De dataset heeft vier genomen, met elk vier chromosomen, en elk genoom is ongeveer 185 Mbp groot. We hebben de andere gesimuleerde dataset niet gebruikt in ref. 1 aangezien het verschil van ongeveer 0,4 vervangingen per locatie buiten het doelbereik van SibeliaZ ligt.

Op deze dataset was de SibeliaZ-pijplijn 20 keer sneller dan Cactus en verbruikte hij 2,5 keer minder geheugen: SibeliaZ eindigde in 18 minuten met 7 GB geheugen, terwijl Cactus 363 minuten nodig had om te voltooien en 18 GB geheugen gebruikte. Sibelia en MultiZ konden de dataset "primaten" niet binnen een week afronden. Tabel 4 toont de terugroep- en precisiewaarden voor de uitlijningen geproduceerd door SibeliaZ en Cactus op deze dataset. SibeliaZ toonde een terugroepactie van 95% en een precisie van 92%, terwijl Cactus een terugroepactie van 98% en een precisie van 95% had. We merken op dat volgens ref. 1, kunnen de met deze dataset berekende precisiewaarden als ondergrenzen worden beschouwd vanwege de kenmerken van het simulatieproces. In het bijzonder zal de grondwaarheid voor deze dataset waarschijnlijk enkele repetitieve uitlijningen missen, daarom zijn we van mening dat de lagere precisiewaarden van SibeliaZ hieraan te wijten kunnen zijn.

Gen families

We wilden het vermogen van SibeliaZ om homologe nucleotiden uit grote genfamilies terug te roepen, beter begrijpen. Het uitlijnen van genen met veel kopieën is een uitdagende taak, omdat ze een verwarde De Bruijn-grafiek genereren. Om dit te onderzoeken, namen we elk paar genen in de dataset met twee muizen die meer dan 90% nucleotide-identiteit hebben. We identificeren vervolgens alle andere homologe genen die een nucleotide-identiteit hadden van ten minste 90% voor een van de genen in het paar. We noemen het aantal van dergelijke genen de afgeleide familiegrootte van het genenpaar, wat ongeveer overeenkomt met de genfamiliegrootte in biologische zin. Aanvullend Fig. 3 toont vervolgens het terugroepen van nucleotideparen met betrekking tot de afgeleide familiegrootte van hun respectieve genen. De terugroepactie laat veel variatie zien met betrekking tot de afgeleide gezinsgrootte, maar vertoont wel een algemene trend van afnemende omvang naarmate de gezinsgrootte toeneemt. De grootste bin (met een afgeleide familiegrootte van 58) komt overeen met een enkele grote genfamilie op het Y-chromosoom (PTHR19368) en heeft eigenlijk een relatief hoge recall.

Dit experiment laat zien dat het vinden van alle kopieën van zelfs zeer vergelijkbare homologe sequenties binnen lange genomen een uitdagende taak kan zijn. Bovendien geeft de hoge variantie die we waarnemen aan dat deze uitdaging niet kan worden teruggebracht tot een enkele factor, zoals de gezinsgrootte. Een handmatige inspectie van fout-negatieven suggereert dat de daling in terugroepactie te wijten kan zijn aan complexe substructuren van niet-geannoteerde herhalingen die verwarde grafiekstructuren vormen.

Effect van parameters en sequentiedivergentie

SibeliaZ-LCB heeft vier primaire parameters die de prestaties beïnvloeden. De meest kritische afhankelijkheid is de grootte van a k-mer (d.w.z. k) en de maximaal toegestane lengte van een bel B. Voor een gegeven sequentiedivergentie is de afstand tussen gedeelde k-meren die bellen vormen in homologe regio's nemen toe met k. Tegelijkertijd is de maximaal toegestane lengte van een bel: B. Als de afstand groter is dan B, dan kan SibeliaZ dergelijke regio's mogelijk niet ontdekken en resulteren in een lagere terugroepactie. Om deze situatie te voorkomen, kunnen we ofwel verlagen k of verhogen B. Afnemende k is tot op zekere hoogte wenselijk, maar wanneer? k te laag wordt, wordt de de Bruijn-grafiek ingewikkeld en wordt ons algoritme meer tijd en geheugengebruik. Toenemend B kan ook worden gedaan, maar vergroot tegelijkertijd de toegestane spleetlengte, wat leidt tot verminderde precisie.

Over-uitlijning is het probleem van het combineren van niet-homologe sequenties in een enkel blok, wat nauw verband houdt met lage precisie 37 . In ons geval kan men over-uitlijning controleren door te kijken naar de π(C) scores, zoals we hebben gedaan in onze analyse (aanvullende figuur 2). Een hogere score geeft aan dat er meer uiteenlopende reeksen in een blok zijn opgenomen. Als de afwijking door de gebruiker te hoog wordt geacht, wordt aanbevolen om de afwijking te verkleinen B.

Om dit complexe samenspel tussen k en B en de relatie met sequentiedivergentie, gebruikten we simulaties (aanvullende opmerking 2) om herinnering (aanvullende figuur 4) en precisie (aanvullende figuur 5) onder verschillende combinaties te meten. Zoals voorspeld, neemt de herinnering toe met afnemende k en met toenemende B, en de precisie neemt af met toenemende B. We merken echter op dat de precisie maar weinig varieert en hoog blijft. Op basis van deze analyses adviseren we twee waarden van k voor praktisch gebruik. Voor minder complexe organismen (bijv. bacteriën), raden we aan: k = 15, omdat het de hoogste terugroepactie oplevert. Deze waarde is onpraktisch voor complexe organismen (bijv. zoogdieren) vanwege runtime, dus we raden aan om k = 25 in die gevallen, omdat het een redelijke afweging biedt tussen nauwkeurigheid en vereiste computerbronnen (we gebruikten dit voor onze muizendatasets). Voor de waarde van B, zagen we dat toenemende B verlaagt de precisie alleen bij hogere waarden. Daarom raden we aan B = 200 als standaard in alle gevallen, omdat dit leidde tot een hoge terugroepactie in alle geteste reeksen van k op onze gesimuleerde gegevens zonder de precisie te verlagen.

Om de mate van divergentie te testen die SibeliaZ-LCB kan verdragen, hebben we de standaardwaarden van genomen k = 15 of 25 en B = 200 en plotte de precisie versus terugroepcurve als een functie van de wortel-naar-blad divergentie van de dataset (aanvullende figuur 6). We zien dat voor k = 25 de terugroepactie verslechtert aanzienlijk voor datasets met een evolutionaire afstand van wortel tot blad van meer dan 0,09 substituties per locatie. Op basis hiervan raden we aan om voor grote datasets SibeliaZ-LCB alleen te gebruiken voor het detecteren van homologen met een evolutionaire afstand tot de MRCA van maximaal 0,09 substituties per site.

De andere twee parameters die de prestaties van SibeliaZ-LCB kunnen beïnvloeden, zijn de minimale grootte van een lokaal collineair blok m en de parameter voor het snoeien van overvloed een. Deze parameters moeten worden ingesteld op basis van het type gegevens en het beoogde gebruik. De parameter m regelt de fragmentatie van de uitlijning en de dekking - hoger m resulteert in langere blokken die minder van de genomen overspannen, omdat korte blokken niet worden gerapporteerd. We raden de parameter aan: m worden ingesteld op de lengte van de kortste homologe sequentie die van belang is voor de stroomafwaartse analyse. wij zetten m = 50 als standaard, aangezien dit kleiner is dan 93,1% van de bekende muizen-exons 38 en, meer in het algemeen, verwachten we niet dat de meeste toepassingen geïnteresseerd zullen zijn in veel blokken korter dan 50 nt. In het geval dat een gebruiker geïnteresseerd is in grotere homologe eenheden, kunnen deze toenemen m samen met B. Als alternatief kunnen ze synteny-blokgeneratie of uitlijningsketenalgoritmen gebruiken voor het nabewerken van de uitlijningen die door SibeliaZ zijn geproduceerd (zie aanvullende opmerking 3 voor relevante referenties).

De parameter voor het snoeien van overvloed: een is een filterparameter voor k-mers wiens overvloed boven is een. Zo een k-mers worden nog steeds overwogen door SibeliaZ-LCB, maar in mindere mate, wat resulteert in verminderde recall in regio's met dergelijke k-meer. We raden aan om in te stellen: een zo hoog als de computerbronnen toelaten, rekening houdend met het feit dat homologe blokken met een multipliciteit hoger dan een worden mogelijk niet gevangen genomen. Voor de muizendataset gebruikten we een = 150.


Gehele genoomuitlijning en vergelijkende annotatie

Snel verbeterende sequentietechnologie in combinatie met computationele ontwikkelingen in sequentieassemblage maken genoomassemblage van referentiekwaliteit economisch. Honderden genoomassemblages van gewervelde dieren zijn nu openbaar beschikbaar en er worden projecten voorgesteld om de komende jaren duizenden extra soorten te sequensen. Een dergelijke dichte bemonstering van de levensboom zou een ongekend nieuw begrip van evolutie moeten geven en een gedetailleerde bepaling mogelijk maken van de gebeurtenissen die hebben geleid tot de rijkdom aan biodiversiteit om ons heen. Om deze kennis op te doen, moeten deze nieuwe genomen worden vergeleken door middel van genoomuitlijning (op sequentieniveau) en vergelijkende annotatie (op genniveau). Verschillende uitlijnings- en annotatiemethoden hebben echter verschillende kenmerken voordat een vergelijkende genomica-analyse wordt gestart. Het is belangrijk om de aard en vooroordelen en beperkingen die inherent zijn aan de gekozen methoden te begrijpen. Deze beoordeling is bedoeld als een technisch maar op hoog niveau overzicht van het veld dat dit inzicht zou moeten bieden. We geven een kort overzicht van de staat van de genoomuitlijning en vergelijkende annotatievelden en mogelijke toekomstige richtingen voor deze velden in een nieuw, grootschalig tijdperk van vergelijkende genomica.


Herhalingen hebben een duidelijke invloed op de continuïteit

Voor assemblages gegenereerd met behulp van onze geautomatiseerde pijplijn (Extended Data Fig. 3a) vóór handmatige curatie, overtroffen alle behalve 2 (de stekelige skate en channel bull blenny) van de 17 assemblages de gewenste continuïteitsstatistieken (aanvullende tabel 13). Bij het zoeken naar een verklaring voor deze resultaten, ontdekten we dat contig NG50 exponentieel afnam met toenemende herhalingsinhoud, waarbij de doornige vleet de hoogste herhalingsinhoud had (Fig. 2b, aanvullende tabel 13). Dientengevolge zagen we na steigers en het opvullen van gaten een significante positieve correlatie tussen herhalingsinhoud en aantal gaten (figuur 2c). De kākāpō-papegaai, die 15% herhalingsinhoud had, had ongeveer 325 hiaten per Gb, waaronder 2 van de 26 chromosomen zonder hiaten (chromosomen 16 en 18) en geen bewijs van instortingen of lage ondersteuning, wat suggereert dat de chromosomale contigs compleet waren (bStrHab1 in aanvullende tabel 6). Daarentegen had de doornige vleet, met een herhalingsgehalte van 54%, ongeveer 1.400 gaten per Gb (Extended Data Table 1). (sAmbRad1 in aanvullende tabel 6). Zelfs na curatie en andere aanpassingen om de assemblagekwaliteit te verhogen (aanvullende opmerking 2), correleerde het aantal instortingen, hun totale grootte, ontbrekende basen en het aantal genen in de instortingen allemaal met herhaalde inhoud (uitgebreide gegevens Fig. 4a-d) . De gemiddelde ingeklapte lengte correleerde echter met gemiddelde CLR-leeslengtes (10-35 kb Extended Data Fig. 4e). Er waren geen correlaties tussen het aantal ingeklapte basen en heterozygotie of genoomgrootte (Extended Data Fig. 4f, g). Afhankelijk van de soort bestond 77,4 tot 99,2% van de ingeklapte regio's uit onopgeloste segmentale duplicaties (Extended Data Fig. 4h). De rest waren herhalingen met een hoog aantal kopieën, meestal van voorheen onbekende typen (Extended Data Fig. 4i), en van bekende typen zoals satellietarrays, eenvoudige herhalingen, lange terminale herhalingen (LTR's) en korte en lange afgewisselde nucleaire elementen (SINE's en LINE's), afhankelijk van de soort (Extended Data Fig. 4j). We ontdekten dat herhaalde maskering voordat contigs werden gegenereerd, verhinderde dat sommige herhalingen in de eindassemblage kwamen (aanvullende opmerking 3). Alle bovenstaande bevindingen tonen kwantitatief het effect aan dat herhaalde inhoud heeft op het vermogen om zeer continue en complete assemblages te produceren.


Inhoud

Als twee sequenties in een uitlijning een gemeenschappelijke voorouder delen, kunnen mismatches worden geïnterpreteerd als puntmutaties en hiaten als indels (dat wil zeggen, insertie- of deletiemutaties) die in een of beide lijnen zijn geïntroduceerd in de tijd sinds ze van elkaar zijn afgeweken. Bij sequentie-uitlijning van eiwitten kan de mate van overeenkomst tussen aminozuren die een bepaalde positie in de sequentie innemen, worden geïnterpreteerd als een ruwe maatstaf voor hoe geconserveerd een bepaald gebied of sequentiemotief is tussen lijnen. De afwezigheid van substituties, of de aanwezigheid van slechts zeer conservatieve substituties (dat wil zeggen, de substitutie van aminozuren waarvan de zijketens vergelijkbare biochemische eigenschappen hebben) in een bepaald gebied van de sequentie, suggereert [3] dat dit gebied structureel of functioneel belang heeft . Hoewel DNA- en RNA-nucleotidebasen meer op elkaar lijken dan aminozuren, kan het behoud van basenparen wijzen op een vergelijkbare functionele of structurele rol.

Zeer korte of zeer vergelijkbare reeksen kunnen met de hand worden uitgelijnd. De meest interessante problemen vereisen echter de uitlijning van lange, zeer variabele of extreem talrijke sequenties die niet alleen door menselijke inspanning kunnen worden uitgelijnd. In plaats daarvan wordt menselijke kennis toegepast bij het construeren van algoritmen om sequentie-uitlijningen van hoge kwaliteit te produceren, en af ​​en toe bij het aanpassen van de uiteindelijke resultaten om patronen weer te geven die algoritmisch moeilijk weer te geven zijn (vooral in het geval van nucleotidesequenties). Computationele benaderingen voor sequentie-uitlijning vallen over het algemeen in twee categorieën: globale afstemmingen en lokale uitlijning. Het berekenen van een globale uitlijning is een vorm van globale optimalisatie die de uitlijning "dwingt" om de volledige lengte van alle queryreeksen te bestrijken. Daarentegen identificeren lokale uitlijningen regio's van overeenkomst binnen lange sequenties die in het algemeen vaak sterk uiteenlopen. Lokale uitlijningen hebben vaak de voorkeur, maar kunnen moeilijker te berekenen zijn vanwege de extra uitdaging om de regio's van overeenkomst te identificeren. [4] Er zijn verschillende computationele algoritmen toegepast op het sequentie-uitlijningsprobleem. Deze omvatten langzame maar formeel correcte methoden zoals dynamisch programmeren. Deze omvatten ook efficiënte, heuristische algoritmen of probabilistische methoden die zijn ontworpen voor grootschalige zoekopdrachten in databases, die niet garanderen dat de beste overeenkomsten worden gevonden.

Uitlijningen worden gewoonlijk zowel grafisch als in tekstformaat weergegeven. In bijna alle weergaven van sequentie-uitlijning worden sequenties geschreven in rijen die zo zijn gerangschikt dat uitgelijnde residuen in opeenvolgende kolommen verschijnen. In tekstformaten worden uitgelijnde kolommen met identieke of vergelijkbare tekens aangegeven met een systeem van conserveringssymbolen. Zoals in de afbeelding hierboven, wordt een sterretje of pijpsymbool gebruikt om de identiteit tussen twee kolommen aan te geven. Andere minder gebruikelijke symbolen zijn een dubbele punt voor conservatieve vervangingen en een punt voor semiconservatieve vervangingen. Veel sequentievisualisatieprogramma's gebruiken ook kleur om informatie weer te geven over de eigenschappen van de individuele sequentie-elementen in DNA- en RNA-sequenties, dit komt neer op het toekennen van een eigen kleur aan elke nucleotide. In eiwituitlijningen, zoals die in de afbeelding hierboven, wordt kleur vaak gebruikt om aminozuureigenschappen aan te geven om te helpen bij het beoordelen van het behoud van een bepaalde aminozuursubstitutie. Voor meerdere sequenties is de laatste rij in elke kolom vaak de consensussequentie die wordt bepaald door de uitlijning. De consensussequentie wordt ook vaak grafisch weergegeven met een sequentielogo waarin de grootte van elke nucleotide- of aminozuurletter overeenkomt met de mate van bewaring ervan. [5]

Sequentie-uitlijningen kunnen worden opgeslagen in een groot aantal op tekst gebaseerde bestandsindelingen, waarvan vele oorspronkelijk zijn ontwikkeld in combinatie met een specifiek uitlijningsprogramma of -implementatie. De meeste webgebaseerde tools staan ​​een beperkt aantal invoer- en uitvoerformaten toe, zoals het FASTA-formaat en het GenBank-formaat, en de uitvoer is niet gemakkelijk te bewerken. Er zijn verschillende conversieprogramma's beschikbaar die grafische en/of opdrachtregelinterfaces bieden [ dode link ] , zoals READSEQ en EMBOSS. Er zijn ook verschillende programmeerpakketten die deze conversiefunctionaliteit bieden, zoals BioPython, BioRuby en BioPerl. De SAM/BAM-bestanden gebruiken het CIGAR-tekenreeksformaat (Compact Idiosyncratic Gapped Alignment Report) om een ​​uitlijning van een reeks met een referentie weer te geven door een reeks gebeurtenissen te coderen (bijv. match/mismatch, invoegingen, deleties). [6]

SIGAR-formaat bewerken

ref. : GTCGTAGAATA
Lees: CACGTAG—TA
SIGAAR: 2S5M2D2M waar:
2S = 2 zachte clipping (kan niet-overeenkomende zijn, of een leeslengte die langer is dan de overeenkomende reeks)
5M = 5 overeenkomsten of mismatches
2D = 2 verwijderingen
2M = 2 overeenkomsten of mismatches

Het originele CIGAR-formaat van het vrijgestelde uitlijningsprogramma maakte geen onderscheid tussen mismatches of matches met het M-teken.

Het SAMv1-specificatiedocument definieert nieuwere SIGAR-codes. In de meeste gevallen heeft het de voorkeur om de tekens '=' en 'X' te gebruiken om overeenkomsten of mismatches aan te duiden in plaats van het oudere 'M'-teken, dat dubbelzinnig is.

  • "Consumeert query" en "consumeert reference" geven aan of de SIGAR-bewerking ervoor zorgt dat de uitlijning langs de queryreeks en de referentiereeks gaat.
  • H kan alleen als eerste en/of laatste bewerking aanwezig zijn.
  • S mag alleen H-bewerkingen hebben tussen hen en de uiteinden van de SIGAR-reeks.
  • Voor mRNA-naar-genoomuitlijning vertegenwoordigt een N-bewerking een intron. Voor andere soorten uitlijningen is de interpretatie van N niet gedefinieerd.
  • De som van de lengtes van de M/I/S/=/X-bewerkingen moet gelijk zijn aan de lengte van SEQ

Globale uitlijningen, die proberen elk residu in elke reeks op één lijn te brengen, zijn het nuttigst wanneer de reeksen in de queryset vergelijkbaar zijn en ongeveer even groot zijn. (Dit betekent niet dat globale uitlijningen niet kunnen beginnen en/of eindigen in gaten.) Een algemene techniek voor globale uitlijning is het Needleman-Wunsch-algoritme, dat gebaseerd is op dynamisch programmeren. Lokale uitlijningen zijn nuttiger voor ongelijksoortige sequenties waarvan wordt vermoed dat ze regio's van overeenkomst of vergelijkbare sequentiemotieven bevatten binnen hun grotere sequentiecontext. Het Smith-Waterman-algoritme is een algemene lokale uitlijningsmethode die is gebaseerd op hetzelfde dynamische programmeerschema, maar met extra keuzes om op elke plaats te beginnen en te eindigen. [4]

Hybride methoden, bekend als semi-global of "glocal" (afkorting van global-locali) methoden, zoeken naar de best mogelijke gedeeltelijke uitlijning van de twee sequenties (met andere woorden, een combinatie van een of beide beginpunten en een of beide uiteinden wordt aangegeven uitgelijnd te zijn). Dit kan vooral handig zijn wanneer het stroomafwaartse deel van de ene reeks overlapt met het stroomopwaartse deel van de andere reeks. In dit geval is globaal of lokaal alignement niet helemaal geschikt: een globale alignering zou proberen de alignering te forceren om verder te reiken dan het overlapgebied, terwijl een lokale alignering het overlapgebied mogelijk niet volledig dekt. [7] Een ander geval waarin semi-globale uitlijning nuttig is, is wanneer de ene sequentie kort is (bijvoorbeeld een gensequentie) en de andere erg lang (bijvoorbeeld een chromosoomsequentie). In dat geval moet de korte sequentie globaal (volledig) worden uitgelijnd, maar voor de lange sequentie is alleen een lokale (gedeeltelijke) uitlijning gewenst.

Snelle uitbreiding van genetische gegevens daagt de snelheid van de huidige algoritmen voor het uitlijnen van DNA-sequenties uit. Essentiële behoeften aan een efficiënte en nauwkeurige methode voor het ontdekken van DNA-varianten vragen om innovatieve benaderingen voor parallelle verwerking in realtime. Optische computerbenaderingen zijn gesuggereerd als veelbelovende alternatieven voor de huidige elektrische implementaties, maar hun toepasbaarheid moet nog worden getest [1].

Paarsgewijze sequentie-uitlijningsmethoden worden gebruikt om de best overeenkomende stuksgewijze (lokale of globale) uitlijningen van twee zoekreeksen te vinden. Paarsgewijze uitlijningen kunnen alleen tussen twee sequenties tegelijk worden gebruikt, maar ze zijn efficiënt te berekenen en worden vaak gebruikt voor methoden die geen extreme precisie vereisen (zoals het doorzoeken van een database op sequenties met een hoge gelijkenis met een zoekopdracht). De drie belangrijkste methoden voor het produceren van paarsgewijze uitlijning zijn dot-matrixmethoden, dynamisch programmeren en woordmethoden [1], maar technieken voor het uitlijnen van meerdere sequenties kunnen ook paren van sequenties uitlijnen. Hoewel elke methode zijn individuele sterke en zwakke punten heeft, hebben alle drie de paarsgewijze methoden moeite met zeer repetitieve reeksen met een lage informatie-inhoud - vooral wanneer het aantal herhalingen verschilt in de twee reeksen die moeten worden uitgelijnd.

Maximale unieke overeenkomst Bewerken

Een manier om het nut van een bepaalde paarsgewijze uitlijning te kwantificeren, is de 'maximale unieke overeenkomst' (MUM), of de langste subreeks die in beide zoekreeksen voorkomt. Langere MUM-sequenties weerspiegelen doorgaans een nauwere verwantschap. [8] in de uitlijning van meerdere sequenties van genomen in computationele biologie. Identificatie van MUM's en andere potentiële ankers, is de eerste stap in grotere uitlijnsystemen zoals MUMmer. Ankers zijn de gebieden tussen twee genomen waar ze sterk op elkaar lijken. Om te begrijpen wat een MUM is, kunnen we elk woord in het acroniem opsplitsen. Match houdt in dat de substring voorkomt in beide sequenties die uitgelijnd moeten worden. Uniek betekent dat de substring slechts één keer voorkomt in elke reeks. Ten slotte stelt maximaal dat de substring geen deel uitmaakt van een andere grotere string die aan beide eerdere vereisten voldoet. Het idee hierachter is dat lange sequenties die exact overeenkomen en maar één keer in elk genoom voorkomen, vrijwel zeker deel uitmaken van de globale uitlijning.

  • het is maximaal, dat wil zeggen, het kan niet aan beide kanten worden verlengd zonder een mismatch op te lopen en
  • het is uniek in beide reeksen" [9]

Dot-matrix methoden Bewerken

De dot-matrixbenadering, die impliciet een familie van uitlijningen voor individuele sequentieregio's produceert, is kwalitatief en conceptueel eenvoudig, hoewel tijdrovend om op grote schaal te analyseren. Als er geen ruis is, kan het gemakkelijk zijn om bepaalde sequentiekenmerken visueel te identificeren, zoals invoegingen, deleties, herhalingen of omgekeerde herhalingen uit een dot-matrixplot. Om een ​​dot-matrixplot te construeren, worden de twee reeksen geschreven langs de bovenste rij en de meest linkse kolom van een tweedimensionale matrix en wordt een punt geplaatst op elk punt waar de tekens in de juiste kolommen overeenkomen - dit is een typische herhalingsplot. Sommige implementaties variëren de grootte of intensiteit van de punt, afhankelijk van de mate van overeenkomst van de twee karakters, om conservatieve vervangingen mogelijk te maken. De puntendiagrammen van zeer nauw verwante reeksen verschijnen als een enkele lijn langs de hoofddiagonaal van de matrix.

Problemen met dotplots als informatieweergavetechniek zijn onder meer: ​​ruis, gebrek aan duidelijkheid, niet-intuïtiviteit, moeite met het extraheren van wedstrijdoverzichtsstatistieken en wedstrijdposities op de twee reeksen. Er is ook veel verspilde ruimte waar de matchgegevens inherent worden gedupliceerd over de diagonaal en het grootste deel van het werkelijke gebied van de plot wordt ingenomen door lege ruimte of ruis, en ten slotte zijn dot-plots beperkt tot twee reeksen. Geen van deze beperkingen is van toepassing op Miropeats-uitlijningsdiagrammen, maar ze hebben hun eigen specifieke gebreken.

Puntplots kunnen ook worden gebruikt om herhaling in een enkele reeks te beoordelen. Een reeks kan tegen zichzelf worden uitgezet en gebieden die significante overeenkomsten vertonen, verschijnen als lijnen buiten de hoofddiagonaal. Dit effect kan optreden wanneer een eiwit uit meerdere vergelijkbare structurele domeinen bestaat.

Dynamisch programmeren Bewerken

De techniek van dynamisch programmeren kan worden toegepast om globale uitlijningen te produceren via het Needleman-Wunsch-algoritme en lokale uitlijningen via het Smith-Waterman-algoritme. Bij typisch gebruik gebruiken eiwituitlijningen een substitutiematrix om scores toe te kennen aan aminozuurovereenkomsten of -mismatches, en een gap penalty voor het matchen van een aminozuur in de ene sequentie met een hiaat in de andere. Bij DNA- en RNA-uitlijningen kan een scoringsmatrix worden gebruikt, maar in de praktijk wordt vaak eenvoudig een positieve matchscore, een negatieve mismatch-score en een negatieve gap-penalty toegewezen. (Bij standaard dynamisch programmeren is de score van elke aminozuurpositie onafhankelijk van de identiteit van zijn buren, en daarom wordt er geen rekening gehouden met base-stacking-effecten. Het is echter mogelijk om met dergelijke effecten rekening te houden door het algoritme aan te passen.) gemeenschappelijke uitbreiding van standaard lineaire gap-kosten, is het gebruik van twee verschillende gap-sancties voor het openen van een gap en voor het vergroten van een gap. Typisch is de eerste veel groter dan de laatste, b.v. -10 voor opening open en -2 voor spleetverlenging. Het aantal openingen in een uitlijning wordt dus gewoonlijk verminderd en residu's en openingen worden bij elkaar gehouden, wat doorgaans meer biologisch zinvol is. Het Gotoh-algoritme implementeert affiene gap-kosten door drie matrices te gebruiken.

Dynamisch programmeren kan nuttig zijn bij het afstemmen van nucleotide op eiwitsequenties, een taak die gecompliceerd wordt door de noodzaak om rekening te houden met frameshift-mutaties (meestal inserties of deleties). De framesearch-methode produceert een reeks globale of lokale paarsgewijze uitlijningen tussen een query-nucleotidesequentie en een zoekreeks van eiwitsequenties, of vice versa. Het vermogen om frameshifts te evalueren die worden gecompenseerd door een willekeurig aantal nucleotiden, maakt de methode bruikbaar voor sequenties die grote aantallen indels bevatten, wat erg moeilijk kan zijn om uit te lijnen met efficiëntere heuristische methoden. In de praktijk vereist de methode grote hoeveelheden rekenkracht of een systeem waarvan de architectuur is gespecialiseerd in dynamisch programmeren. De BLAST- en EMBOSS-suites bieden basishulpmiddelen voor het maken van vertaalde uitlijningen (hoewel sommige van deze benaderingen profiteren van de neveneffecten van de sequentiezoekmogelijkheden van de hulpmiddelen). Meer algemene methoden zijn beschikbaar via open source software zoals GeneWise.

De dynamische programmeermethode zal gegarandeerd een optimale afstemming vinden, gegeven een bepaalde scorefunctie, maar het identificeren van een goede scorefunctie is vaak eerder een empirische dan een theoretische kwestie. Hoewel dynamisch programmeren kan worden uitgebreid tot meer dan twee reeksen, is het onbetaalbaar traag voor grote aantallen reeksen of extreem lange reeksen.

Woordmethoden Bewerken

Woordmethoden, ook wel bekend als k-tupel-methoden zijn heuristische methoden die niet gegarandeerd een optimale uitlijningsoplossing zullen vinden, maar die aanzienlijk efficiënter zijn dan dynamisch programmeren. Deze werkwijzen zijn in het bijzonder bruikbaar bij grootschalige zoekacties in databases waarbij het duidelijk is dat een groot deel van de kandidaatsequenties in wezen geen significante overeenkomst met de querysequentie zal hebben. Word-methoden zijn vooral bekend om hun implementatie in de databasezoekhulpmiddelen FASTA en de BLAST-familie. [1] Woordmethoden identificeren een reeks korte, niet-overlappende deelreeksen ("woorden") in de zoekreeks die vervolgens worden gekoppeld aan kandidaat-databasereeksen. De relatieve posities van het woord in de twee sequenties die worden vergeleken, worden afgetrokken om een ​​offset te verkrijgen. Dit zal een uitlijningsgebied aangeven als meerdere verschillende woorden dezelfde offset produceren. Alleen als dit gebied wordt gedetecteerd, passen deze methoden meer gevoelige uitlijningscriteria toe, waardoor veel onnodige vergelijkingen met sequenties van geen merkbare overeenkomst worden geëlimineerd.

In de FASTA-methode definieert de gebruiker een waarde k om te gebruiken als de woordlengte waarmee in de database moet worden gezocht. De methode is langzamer maar gevoeliger bij lagere waarden van k, die ook de voorkeur hebben voor zoekopdrachten met een zeer korte reeks zoekopdrachten. De BLAST-familie van zoekmethoden biedt een aantal algoritmen die zijn geoptimaliseerd voor bepaalde soorten zoekopdrachten, zoals het zoeken naar verre verwante reeksovereenkomsten. BLAST is ontwikkeld om een ​​sneller alternatief voor FASTA te bieden zonder veel nauwkeurigheid op te offeren, zoals FASTA, BLAST gebruikt een woordzoeker van lengte k, maar evalueert alleen de meest significante woordovereenkomsten, in plaats van elke woordovereenkomst zoals FASTA doet. De meeste BLAST-implementaties gebruiken een vaste standaardwoordlengte die is geoptimaliseerd voor de query en het databasetype, en die alleen onder speciale omstandigheden wordt gewijzigd, zoals bij het zoeken met repetitieve of zeer korte queryreeksen. Implementaties zijn te vinden via een aantal webportals, zoals EMBL FASTA en NCBI BLAST.

Uitlijning van meerdere sequenties is een uitbreiding van paarsgewijze uitlijning om meer dan twee sequenties tegelijk op te nemen. Meerdere uitlijningsmethoden proberen alle reeksen in een bepaalde queryset uit te lijnen. Meerdere uitlijningen worden vaak gebruikt bij het identificeren van geconserveerde sequentiegebieden in een groep sequenties waarvan wordt verondersteld dat ze evolutionair verwant zijn. Dergelijke geconserveerde sequentiemotieven kunnen worden gebruikt in combinatie met structurele en mechanistische informatie om de katalytisch actieve plaatsen van enzymen te lokaliseren. Uitlijningen worden ook gebruikt om te helpen bij het vaststellen van evolutionaire relaties door fylogenetische bomen te construeren. Uitlijning van meerdere sequenties is rekenkundig moeilijk te produceren en de meeste formuleringen van het probleem leiden tot NP-complete combinatorische optimalisatieproblemen. [10] [11] Desalniettemin heeft het nut van deze uitlijningen in de bioinformatica geleid tot de ontwikkeling van een verscheidenheid aan methoden die geschikt zijn voor het op één lijn brengen van drie of meer sequenties.

Dynamisch programmeren Bewerken

De techniek van dynamisch programmeren is theoretisch toepasbaar op een willekeurig aantal reeksen, maar omdat het rekenkundig duur is in zowel tijd als geheugen, wordt het zelden gebruikt voor meer dan drie of vier reeksen in zijn meest basale vorm. Deze methode vereist het construeren van de N-dimensionaal equivalent van de reeksmatrix gevormd uit twee reeksen, waarbij N is het aantal reeksen in de query. Standaard dynamisch programmeren wordt eerst gebruikt op alle paren zoekreeksen en vervolgens wordt de "uitlijningsruimte" ingevuld door mogelijke overeenkomsten of hiaten op tussenliggende posities te beschouwen, en uiteindelijk een uitlijning te construeren die in wezen tussen elke uitlijning van twee reeksen ligt. Hoewel deze techniek rekenkundig duur is, is de garantie van een globale optimale oplossing nuttig in gevallen waarin slechts een paar sequenties nauwkeurig hoeven te worden uitgelijnd. Een methode voor het verminderen van de rekenkundige eisen van dynamisch programmeren, die berust op de "som van paren"-doelfunctie, is geïmplementeerd in het MSA-softwarepakket. [12]

Progressieve methoden Bewerken

Progressieve, hiërarchische of boommethodes genereren een uitlijning van meerdere sequenties door eerst de meest gelijkaardige sequenties op één lijn te brengen en vervolgens achtereenvolgens minder verwante sequenties of groepen aan de uitlijning toe te voegen totdat de volledige queryset in de oplossing is opgenomen. De initiële boom die de verwantschap van de sequentie beschrijft, is gebaseerd op paarsgewijze vergelijkingen die heuristische paarsgewijze uitlijningsmethoden kunnen omvatten die vergelijkbaar zijn met FASTA. Progressieve uitlijningsresultaten zijn afhankelijk van de keuze van "meest verwante" sequenties en kunnen dus gevoelig zijn voor onnauwkeurigheden in de initiële paarsgewijze uitlijning. De meeste progressieve uitlijningsmethoden voor meerdere sequenties wegen de sequenties in de queryset bovendien op basis van hun verwantschap, wat de kans op het maken van een slechte keuze van initiële sequenties vermindert en dus de nauwkeurigheid van de uitlijning verbetert.

Veel variaties van de progressieve implementatie van Clustal [13] [14] [15] worden gebruikt voor meervoudige sequentie-uitlijning, fylogenetische boomconstructie en als input voor voorspelling van de eiwitstructuur. Een langzamere maar nauwkeurigere variant van de progressieve methode staat bekend als T-Coffee. [16]

Iteratieve methoden Bewerken

Iteratieve methoden proberen de grote afhankelijkheid van de nauwkeurigheid van de initiële paarsgewijze uitlijningen te verbeteren, wat het zwakke punt is van de progressieve methoden. Iteratieve methoden optimaliseren een objectieve functie op basis van een geselecteerde scoremethode voor uitlijning door een initiële globale uitlijning toe te wijzen en vervolgens sequentiesubsets opnieuw uit te lijnen. De opnieuw uitgelijnde subsets worden vervolgens zelf uitgelijnd om de uitlijning van meerdere sequenties van de volgende iteratie te produceren. Verschillende manieren om de sequentiesubgroepen en de objectieve functie te selecteren worden besproken in. [17]

Motief vinden Bewerken

Motiefbevinding, ook bekend als profielanalyse, construeert globale uitlijningen van meerdere sequenties die proberen korte geconserveerde sequentiemotieven uit te lijnen tussen de sequenties in de queryset. Dit wordt meestal gedaan door eerst een algemene globale uitlijning van meerdere sequenties te construeren, waarna de sterk geconserveerde gebieden worden geïsoleerd en gebruikt om een ​​reeks profielmatrices te construeren. De profielmatrix voor elk geconserveerd gebied is gerangschikt als een scorematrix, maar de frequentietellingen voor elk aminozuur of nucleotide op elke positie zijn afgeleid van de karakterverdeling van het geconserveerde gebied in plaats van van een meer algemene empirische verdeling. De profielmatrices worden vervolgens gebruikt om in andere sequenties te zoeken naar voorkomen van het motief dat ze kenmerken. In gevallen waarin de oorspronkelijke dataset een klein aantal sequenties bevatte, of alleen sterk verwante sequenties, worden pseudotellingen toegevoegd om de karakterverdelingen die in het motief worden weergegeven te normaliseren.

Technieken geïnspireerd door informatica Bewerken

Een verscheidenheid aan algemene optimalisatie-algoritmen die gewoonlijk in de informatica worden gebruikt, zijn ook toegepast op het probleem van de uitlijning van meerdere sequenties. Verborgen Markov-modellen zijn gebruikt om waarschijnlijkheidsscores te produceren voor een familie van mogelijke uitlijning van meerdere sequenties voor een bepaalde queryset, hoewel vroege HMM-gebaseerde methoden teleurstellende prestaties opleverden, hebben latere toepassingen ontdekt dat ze bijzonder effectief zijn bij het detecteren van op afstand gerelateerde sequenties omdat ze minder gevoelig zijn op ruis veroorzaakt door conservatieve of semiconservatieve substituties. [18] Genetische algoritmen en gesimuleerde annealing zijn ook gebruikt bij het optimaliseren van scores voor uitlijning van meerdere sequenties, zoals beoordeeld door een scorefunctie zoals de som-van-paren-methode. Meer volledige details en softwarepakketten zijn te vinden in het hoofdartikel meervoudige sequentie-uitlijning.

De Burrows-Wheeler-transformatie is met succes toegepast op snelle uitlijning van korte uitlezingen in populaire tools zoals Bowtie en BWA. Zie FM-index.

Structurele uitlijningen, die meestal specifiek zijn voor eiwit- en soms RNA-sequenties, gebruiken informatie over de secundaire en tertiaire structuur van het eiwit of RNA-molecuul om te helpen bij het uitlijnen van de sequenties. Deze methoden kunnen worden gebruikt voor twee of meer sequenties en produceren meestal lokale uitlijningen, maar omdat ze afhankelijk zijn van de beschikbaarheid van structurele informatie, kunnen ze alleen worden gebruikt voor sequenties waarvan de overeenkomstige structuren bekend zijn (meestal door röntgenkristallografie of NMR-spectroscopie) . Omdat zowel de eiwit- als de RNA-structuur evolutionair meer geconserveerd is dan de sequentie, [19] structurele uitlijningen kunnen betrouwbaarder zijn tussen sequenties die zeer ver verwant zijn en die zo uitgebreid zijn gedivergeerd dat sequentievergelijking hun gelijkenis niet betrouwbaar kan detecteren.

Structurele uitlijningen worden gebruikt als de "gouden standaard" bij het evalueren van uitlijningen voor op homologie gebaseerde eiwitstructuurvoorspelling [20] omdat ze expliciet regio's van de eiwitsequentie uitlijnen die structureel vergelijkbaar zijn in plaats van uitsluitend te vertrouwen op sequentie-informatie. Het is echter duidelijk dat structurele uitlijningen niet kunnen worden gebruikt bij structuurvoorspelling, omdat ten minste één sequentie in de queryset het doel is dat moet worden gemodelleerd, waarvan de structuur niet bekend is. Het is aangetoond dat, gezien de structurele uitlijning tussen een doelwit en een matrijssequentie, zeer nauwkeurige modellen van de doelwit-eiwitsequentie kunnen worden geproduceerd. . [20]

DALI Bewerken

De DALI-methode, of afstandsmatrixuitlijning, is een op fragmenten gebaseerde methode voor het construeren van structurele uitlijningen op basis van contactovereenkomstpatronen tussen opeenvolgende hexapeptiden in de zoeksequenties. [21] Het kan paarsgewijze of meervoudige uitlijningen genereren en de structurele buren van een querysequentie in de Protein Data Bank (PDB) identificeren. Het is gebruikt om de FSSP-database voor structurele uitlijning te construeren (vouwclassificatie op basis van structuur-structuuruitlijning van eiwitten of families van structureel vergelijkbare eiwitten). Een DALI-webserver is toegankelijk bij DALI en de FSSP bevindt zich in The Dali Database.

SSAP bewerken

SSAP (sequentiële structuuruitlijningsprogramma) is een op dynamische programmering gebaseerde methode voor structurele uitlijning die atoom-naar-atoomvectoren in de structuurruimte gebruikt als vergelijkingspunten. Het is sinds de oorspronkelijke beschrijving uitgebreid met zowel meerdere als paarsgewijze uitlijningen [22] en is gebruikt bij de constructie van de CATH (Class, Architecture, Topology, Homology) hiërarchische databaseclassificatie van eiwitvouwen. [23] De CATH-database is toegankelijk via CATH Protein Structure Classification.

Combinatorische extensie Bewerken

De combinatorische uitbreidingsmethode van structurele uitlijning genereert een paarsgewijze structurele uitlijning door lokale geometrie te gebruiken om korte fragmenten van de twee eiwitten die worden geanalyseerd uit te lijnen en deze fragmenten vervolgens samen te voegen tot een grotere uitlijning. [24] Op basis van metingen zoals de gemiddelde kwadratische afstand van het stijve lichaam, de residuafstanden, de lokale secundaire structuur en de omringende omgevingskenmerken zoals de hydrofobiciteit van de naburige residu's, worden lokale uitlijningen die "uitgelijnde fragmentparen" worden genoemd, gegenereerd en gebruikt om een ​​overeenkomstmatrix te bouwen die alle mogelijke structurele uitlijningen vertegenwoordigen binnen vooraf gedefinieerde afkapcriteria. Een pad van de ene eiwitstructuurtoestand naar de andere wordt vervolgens door de matrix getraceerd door de groeiende uitlijning met één fragment tegelijk uit te breiden. Het optimale pad definieert de combinatorische extensie-uitlijning. Een webgebaseerde server die de methode implementeert en een database levert van paarsgewijze uitlijningen van structuren in de Protein Data Bank bevindt zich op de Combinatorial Extension-website.

Fylogenetica en sequentie-uitlijning zijn nauw verwante velden vanwege de gedeelde noodzaak om de verwantschap van sequenties te evalueren. [25] Het veld van de fylogenetica maakt uitgebreid gebruik van sequentie-uitlijning bij de constructie en interpretatie van fylogenetische bomen, die worden gebruikt om de evolutionaire relaties tussen homologe genen die in de genomen van uiteenlopende soorten worden vertegenwoordigd, te classificeren. De mate waarin sequenties in een queryset verschillen, is kwalitatief gerelateerd aan de evolutionaire afstand van de sequenties van elkaar. Globaal gesproken suggereert een hoge sequentie-identiteit dat de sequenties in kwestie een relatief jonge meest recente gemeenschappelijke voorouder hebben, terwijl een lage identiteit suggereert dat de divergentie ouder is. Deze benadering, die de "moleculaire klok"-hypothese weerspiegelt dat een ruwweg constante snelheid van evolutionaire verandering kan worden gebruikt om de verstreken tijd te extrapoleren sinds twee genen voor het eerst divergeerden (dat wil zeggen, de samensmeltingstijd), gaat ervan uit dat de effecten van mutatie en selectie zijn constant over sequentielijnen. Daarom houdt het geen rekening met mogelijke verschillen tussen organismen of soorten in de snelheid van DNA-herstel of de mogelijke functionele conservering van specifieke regio's in een sequentie. (In het geval van nucleotidesequenties negeert de moleculaire klokhypothese in zijn meest basale vorm ook het verschil in acceptatiepercentages tussen stille mutaties die de betekenis van een bepaald codon niet veranderen en andere mutaties die ertoe leiden dat een ander aminozuur wordt opgenomen in het eiwit). Met meer statistisch nauwkeurige methoden kan de evolutiesnelheid op elke tak van de fylogenetische boom variëren, waardoor betere schattingen van de samensmeltingstijden voor genen worden geproduceerd.

Progressieve meervoudige uitlijningstechnieken produceren noodzakelijkerwijs een fylogenetische boom omdat ze sequenties opnemen in de groeiende uitlijning in volgorde van verwantschap. Andere technieken die meerdere sequentie-uitlijningen en fylogenetische bomen assembleren, scoren en sorteren bomen eerst en berekenen een meervoudige sequentie-uitlijning van de hoogst scorende boom. Veelgebruikte methoden voor fylogenetische boomconstructie zijn voornamelijk heuristisch omdat het probleem van het selecteren van de optimale boom, net als het probleem van het selecteren van de optimale uitlijning van meerdere sequenties, NP-moeilijk is. [26]

Beoordeling van significantie

Sequentie-uitlijning is nuttig in de bio-informatica voor het identificeren van sequentieovereenkomst, het produceren van fylogenetische bomen en het ontwikkelen van homologiemodellen van eiwitstructuren. De biologische relevantie van sequentie-uitlijningen is echter niet altijd duidelijk. Er wordt vaak aangenomen dat uitlijningen een zekere mate van evolutionaire verandering weerspiegelen tussen sequenties die afstammen van een gemeenschappelijke voorouder, maar het is formeel mogelijk dat convergente evolutie kan optreden om schijnbare gelijkenis te produceren tussen eiwitten die evolutionair niet verwant zijn maar vergelijkbare functies hebben en vergelijkbare structuren hebben.

Bij zoekopdrachten in databases zoals BLAST kunnen statistische methoden de waarschijnlijkheid bepalen dat een bepaalde uitlijning tussen sequenties of sequentiegebieden door toeval ontstaat, gegeven de grootte en samenstelling van de database die wordt doorzocht. Deze waarden kunnen aanzienlijk variëren, afhankelijk van de zoekruimte. In het bijzonder neemt de kans op het vinden van een bepaalde uitlijning door toeval toe als de database alleen bestaat uit sequenties van hetzelfde organisme als de zoeksequentie. Herhaalde reeksen in de database of zoekopdracht kunnen ook zowel de zoekresultaten als de beoordeling van statistische significantie vervormen. BLAST filtert dergelijke repetitieve reeksen automatisch in de zoekopdracht om schijnbare hits die statistische artefacten zijn, te voorkomen.

Methoden voor het schatten van statistische significantie voor uitlijning van gapped sequenties zijn beschikbaar in de literatuur. [25] [27] [28] [29] [30] [31] [32] [33]

Beoordeling van de geloofwaardigheid Bewerken

Statistische significantie geeft de waarschijnlijkheid aan dat een uitlijning van een bepaalde kwaliteit door toeval zou kunnen ontstaan, maar geeft niet aan hoeveel superieur een bepaalde uitlijning is ten opzichte van alternatieve uitlijningen van dezelfde sequenties. Maatregelen voor de geloofwaardigheid van de uitlijning geven de mate aan waarin de best scorende uitlijningen voor een gegeven paar sequenties in wezen gelijk zijn. Methoden voor het schatten van de geloofwaardigheid van uitlijning voor uitlijningen met gapped sequenties zijn beschikbaar in de literatuur. [34]

Scorefuncties Bewerken

De keuze van een scorefunctie die biologische of statistische observaties over bekende sequenties weerspiegelt, is belangrijk voor het produceren van goede uitlijningen. Eiwitsequenties worden vaak uitgelijnd met behulp van substitutiematrices die de waarschijnlijkheid van gegeven karakter-naar-karakter substituties weerspiegelen. Een reeks matrices genaamd PAM-matrices (Point Accepted Mutation-matrices, oorspronkelijk gedefinieerd door Margaret Dayhoff en soms aangeduid als "Dayhoff-matrices") coderen expliciet voor evolutionaire benaderingen met betrekking tot de snelheden en waarschijnlijkheden van bepaalde aminozuurmutaties. Een andere veel voorkomende reeks scorematrices, bekend als BLOSUM (Blocks Substitution Matrix), codeert voor empirisch afgeleide substitutiekansen. Varianten van beide typen matrices worden gebruikt om sequenties met verschillende niveaus van divergentie te detecteren, waardoor gebruikers van BLAST of FASTA zoekopdrachten kunnen beperken tot nauwer verwante overeenkomsten of uitbreiden om meer uiteenlopende sequenties te detecteren. Gap-straffen verklaren de introductie van een hiaat - in het evolutionaire model, een insertie- of deletiemutatie - in zowel nucleotide- als eiwitsequenties, en daarom moeten de boetewaarden evenredig zijn met de verwachte snelheid van dergelijke mutaties. De kwaliteit van de geproduceerde alignementen hangt dus af van de kwaliteit van de scoringsfunctie.

Het kan erg handig en leerzaam zijn om dezelfde uitlijning meerdere keren te proberen met verschillende keuzes voor het scoren van matrix- en/of gap penalty-waarden en de resultaten te vergelijken. Regio's waar de oplossing zwak of niet-uniek is, kunnen vaak worden geïdentificeerd door te observeren welke regio's van de uitlijning robuust zijn voor variaties in uitlijningsparameters.

Gesequenced RNA, zoals tot expressie gebrachte sequentietags en mRNA's van volledige lengte, kunnen worden uitgelijnd op een genoom waarvan de sequentie is bepaald om te vinden waar er genen zijn en om informatie te krijgen over alternatieve splicing [35] en RNA-editing. [36] Sequentie-uitlijning is ook een onderdeel van genoomassemblage, waarbij sequenties worden uitgelijnd om overlap te vinden, zodat: contigs (lange reeksen sequenties) kunnen worden gevormd. [37] Een ander gebruik is SNP-analyse, waarbij sequenties van verschillende individuen worden uitgelijnd om enkele basenparen te vinden die vaak verschillend zijn in een populatie. [38]

De methoden die worden gebruikt voor biologische sequentie-uitlijning hebben ook toepassingen gevonden op andere gebieden, met name in natuurlijke taalverwerking en in sociale wetenschappen, waar het Needleman-Wunsch-algoritme gewoonlijk wordt aangeduid als Optimale matching. [39] Technieken die de reeks elementen genereren waaruit woorden zullen worden geselecteerd in algoritmen voor het genereren van natuurlijke taal, hebben technieken voor het uitlijnen van meerdere sequenties uit de bio-informatica geleend om taalkundige versies van computergegenereerde wiskundige bewijzen te produceren. [40] Op het gebied van historische en vergelijkende taalkunde is sequentie-uitlijning gebruikt om de vergelijkende methode waarmee taalkundigen traditioneel talen reconstrueren, gedeeltelijk te automatiseren. [41] Bedrijfs- en marketingonderzoek heeft ook technieken voor het uitlijnen van meerdere sequenties toegepast bij het analyseren van reeksen aankopen in de loop van de tijd. [42]

Een meer complete lijst van beschikbare software gecategoriseerd op algoritme en uitlijningstype is beschikbaar bij sequentie-uitlijningssoftware, maar veelgebruikte softwaretools die worden gebruikt voor algemene sequentie-uitlijningstaken zijn ClustalW2 [43] en T-coffee [44] voor uitlijning, en BLAST [45] en FASTA3x [46] voor het doorzoeken van databases. Commerciële tools zoals DNASTAR Lasergene, Geneious en PatternHunter zijn ook beschikbaar. Tools die zijn geannoteerd als het uitvoeren van sequentie-uitlijning, worden vermeld in het bio.tools-register.

Uitlijningsalgoritmen en software kunnen direct met elkaar worden vergeleken door gebruik te maken van een gestandaardiseerde set referentie-uitlijningen met meerdere sequenties die bekend staat als BAliBASE. [47] De dataset bestaat uit structurele uitlijningen, die als een standaard kunnen worden beschouwd waarmee zuiver op sequentie gebaseerde methoden worden vergeleken. De relatieve prestaties van veel veelvoorkomende uitlijningsmethoden op veelvoorkomende uitlijningsproblemen zijn getabelleerd en geselecteerde resultaten zijn online gepubliceerd op BAliBASE. [48] ​​[49] Een uitgebreide lijst van BAliBASE-scores voor veel (momenteel 12) verschillende uitlijningstools kan worden berekend binnen de eiwitwerkbank STRAP. [50]


Bioinformatica-workflow voor sequencing van het hele genoom

Whole genome sequencing (WGS) heeft het vermogen om de genomische kennis aanzienlijk te vergroten en mysteries van het leven te begrijpen door gebruik te maken van de meest geavanceerde genetische sequencing-technologieën. WGS kan worden gebruikt voor het aanroepen van varianten, annotatie van het genoom, fylogenetische analyse, constructie van het referentiegenoom en meer. WGS probeert het hele genoom te bestrijken, maar dekt in feite 95% van het genoom met technische problemen bij het sequensen van regio's zoals centromeren en telomeren. Een andere uitdaging voor WGS is datamanagement. Naarmate grotere datasets toegankelijker en betaalbaarder worden, zal computationele analyse de snelheidsbeperkende factor zijn in plaats van sequencing-technologie. Hier bespreken we de bio-informatica-workflow voor detectie van genetische variaties in WGS om u te helpen er doorheen te komen.

De bioinformatica-workflow voor WGS is vergelijkbaar met die voor hele exome-sequencing. U kunt ons artikel Bioinformatics Workflow voor Whole Exome Sequencing bekijken. De bio-informatica-workflow voor WGS valt uiteen in de volgende stappen: (1) onbewerkte leeskwaliteitscontrole (2) voorverwerking van gegevens (3) uitlijning (4) variantoproep (5) genoomassemblage (6) genoomannotatie (7) andere geavanceerde analyses op basis van uw onderzoeksinteresse, zoals fylogenetische analyse.

Figuur 1. Bioinformatica workflow van hele genoom sequencing.

Raw lezen QC en preprocessing

De onbewerkte bestanden (fastq) moeten worden verwijderd uit lees-/reeksen van slechte kwaliteit en technische reeksen zoals adapterreeksen. Dit proces is belangrijk voor nauwkeurige en betrouwbare variatiedetectie. FastQC (http://www.bioinformatics.babraham.ac.uk/projects/fastq) is een krachtig hulpmiddel voor onbewerkte lees-QC dat statistische gegevensresultaten genereert, inclusief basisstatistieken, sequentiekwaliteit, kwaliteitsscores, sequentie-inhoud, GC-inhoud, sequentielengteverdeling, oververtegenwoordigde sequenties, sequentieduplicatieniveauplots, adapterinhoud en k-mer-inhoud. Tools zoals Fastx_trimmer en cutadapt kunnen worden gebruikt voor lezen trimmen.

Er moet een referentiegenoom worden bepaald. Mash stelt ons in staat om de sequencing-uitlezingen die zijn gegenereerd te vergelijken met de referentieset van NCBI RefSeq-genomen (//www.ncbi.nlm.nih.gov/refseq) om genetische afstand en verwantschap te bepalen. De volgende stap is om de kwaliteit-gecontroleerde uitlezingen toe te wijzen aan het referentiegenoom. Burrows-Wheeler Aligner (BWA) en Bowtie2 zijn twee populaire korte uitlijningsalgoritmen. De uitvoer van BWA en Bowtie2 is het standaard sequentie-uitlijning/kaartformaat dat bekend staat als SAM, wat de volgende stappen vergemakkelijkt. Als alternatief wordt BLAST (//blast.ncbi.nlm.nih.gov/Blast.cgi) veel gebruikt voor lokale uitlijning.

Tabel 1. De gebruikelijke computerprogramma's voor uitlijning van lezen.

Programma Bron Type Website
Vlinderdas2 Open source http://bowtie-bio.sourceforge.net/bowtie2/index.shtml
ZEGEL Open source http://compbio.case.edu/seal/
SOAP3 Open source http://www.cs.hku.hk/2bwt-tools/soap3/ http://soap.genomics.org.cn/soap3.html
BWA, BWA-SW Open source http://bio-bwa.sourceforge.net/
Novoalign Commercieel beschikbaar http://www.novocra.com/
SHRiMP/SHRIMP2 Open source http://compbio.cs.toronto.edu/shrimp/
MAQ Open source http://maq.sourceforget.net/
Stampy Open source http://www.well.ox.ac.uk/project-stampy/
ELAND Commercieel beschikbaar http://www.illumina.com/
SARUMAN Open source http://www.cebitec.uni-bielefeld.de/brf/saruman/saruman.html

variant bellen

Zodra de uitlezingen zijn uitgelijnd met het referentiegenoom, kunnen varianten worden geïdentificeerd door het monstergenoom te vergelijken met het referentiegenoom. Gedetecteerde varianten kunnen in verband worden gebracht met ziekte of eenvoudigweg niet-functionele genomische ruis zijn. Variant call format (VCF) is het standaardformaat voor het opslaan van sequentievariaties, waaronder SNP's (single nucleotide polymorphisms), indels, structurele varianten en annotaties. Het oproepen van varianten kan gecompliceerd zijn vanwege het hoge percentage fout-positieve en fout-negatieve identificaties van SNV's en indels. De softwarepakketten in Tabel 2 zijn handig voor het verbeteren van variantoproepen.

Tabel 2. De softwarepakketten voor variantbellen.

  • Herschikking van meerdere reeksen
  • Herkalibratie van de kwaliteitsscore
  • SNP-genotypering
  • Indel ontdekking en genotypering
  • Consensusbellen en SNP-detectie
  • Berekening van de waarschijnlijkheid van elk genotype
  • Detecteert varianten met een frequentie van 1%
  • Normaliseert de sequentiediepte op elke positie
  • Variant aanroepen van uitgelijnde data van diverse NGS-platforms

Genoomassemblage

nieuw assemblage is het proces om overlappende reads uit te lijnen om langere contigs (grotere aaneengesloten sequenties) te vormen en de contigs in scaffolds te ordenen (een raamwerk van het gesequenced genoom). Als er een referentiegenoom is van een verwante soort, is de gebruikelijke methode om eerst contigs te genereren de novo en lijn ze vervolgens uit met het referentiegenoom voor steigermontage. Een alternatieve benadering is het "Align-Layout-Consensus"-algoritme. Deze methode stemt reads eerst af op een nauw verwant referentiegenoom en bouwt vervolgens contigs en scaffolds de novo.

Tabel 3. De gemeenschappelijke assemblers voor diverse sequencing-platforms.

Gebruikers kunnen de kwaliteit van conceptgenoomassemblages beoordelen of assemblages vergelijken die met verschillende methoden zijn gegenereerd. Er zijn verschillende metrische gegevens die de kwaliteit van de montage weerspiegelen. Alleen aaneengesloten, bijna volledige (ongeveer 90%) assemblage onderbroken door kleine openingen zal succesvolle genoomannotatie opleveren.

  • Genoomgrootte. Zowel op C-waarde als op k-mer gebaseerde benaderingen kunnen de genoomgrootte afleiden.
  • Assemblagecontiguïteit. N50-statistieken kunnen worden gebruikt om de contiguïteit van de assemblage te evalueren, die een soort mediaan van geassembleerde sequentielengtes beschrijft.
  • Nauwkeurigheid. Transcriptoomgegevens vormen een belangrijke bron voor het valideren van de nauwkeurigheid van de sequentie en het corrigeren van steigers. Vergelijkende genomische benaderingen kunnen ook begeleiding bieden bij het opsporen van mis-assemblages en chimere contigs.

Genoomannotatie

Om de genoomsequentie volledig te begrijpen, moet deze worden geannoteerd met biologisch relevante informatie zoals genontologie (GO) -termen, KEGG-routes en epigenetische modificaties. De annotatie bestaat uit twee fasen:

(1) Computationele fase. Een computationele fase omvat herhaalde maskering, voorspelling van coderende sequentie (CDS) en voorspelling van genmodellen.

  • Herhaal het maskeren. Aangezien herhalingen slecht geconserveerd zijn tussen soorten, wordt het aanbevolen om een ​​soortspecifieke herhalingsbibliotheek te creëren door gebruik te maken van tools zoals RepeatModeler, RepeatExplorer.
  • Voorspelling van CDS. Voorspel CDS met behulp van ab initio algoritmen.
  • Voorspelling van genmodellen. Eiwituitlijning, syntenische eiwitlift-overs van andere soorten, EST- en RNA-seq-gegevens kunnen een waardevolle bron zijn voor het voorspellen van genmodellen.

(2) Annotatiefase. Al het hierboven genoemde bewijs (ab initio voorspelling, evenals eiwit-, EST- en RNA-uitlijningen) wordt vervolgens gesynthetiseerd in een genannotatie. Daarnaast zijn er geautomatiseerde annotatietools zoals MAKER en PASA beschikbaar om het bewijsmateriaal te integreren en af ​​te wegen. WebApollo kan worden gebruikt om de annotatie via de visuele interface te bewerken als er iets mis is met de genannotaties.

Zodra de genoomannotatie is beoordeeld door visuele inspectie, kunt u de conceptgenoomsequenties en annotatie publiceren. Om anderen in staat te stellen de genoomassemblage en annotatie te verbeteren, moeten alle onbewerkte gegevens worden geüpload. De beschikbare databases voor het uploaden van genoom zijn ENSEMBL en NCBI.

  1. Dolled-Filhart M P, Lee M, Ou-yang C, et al. Computationele en bioinformatica-raamwerken voor de volgende generatie hele exoom- en genoomsequencing. Het wetenschappelijke wereldjournaal, 2013, 2013.
  2. Ekblom R, Wolf JBW. Een veldgids voor sequencing, assemblage en annotatie van het hele genoom. Evolutionaire toepassingen, 2014, 7(9): 1026-1042.
  3. Kwong JC, McCallum N, Sintchenko V, et al. Gehele genoomsequencing in klinische en volksgezondheidsmicrobiologie. Pathologie, 2015, 47(3): 199-210.
  4. Meena N, Mathur P, Medicherla KM, et al. Een bioinformatica-pijplijn voor Whole Exome-sequencing: overzicht van de verwerking en stappen van onbewerkte gegevens tot stroomafwaartse analyse. bioRxiv, 2017: 201145.
  5. Oakeson KF, Wagner JM, Mendenhall M, et al. Bioinformatische analyses van sequentiegegevens van het hele genoom in een volksgezondheidslaboratorium. Opkomende infectieziekten, 2017, 23(9): 1441.

Ontvang elke maand geavanceerde wetenschappelijke informatie van CD Genomics rechtstreeks in uw inbox.


Auteurs informatie

Huidig ​​adres: Huidig ​​adres: PubBio-Tech, Wuhan 430070, China,

Huidig ​​adres: Huidig ​​adres: Rice Science Center en Department of Agronomy, Faculty of Agriculture, Kasetsart University, Kamphaeng Saen, Nakhon Pathom 73140, Thailand,

Sebastian Reyes-Chin-Wo, Zhiwen Wang en Xinhua Yang: deze auteurs hebben in gelijke mate bijgedragen aan dit werk.

Voorkeuren

UC Davis Genome Center, Davis, 95616, Californië, VS

Sebastian Reyes-Chin-Wo, Alexander Kozik, Lutz Froenicke, Dean O. Lavelle, María-José Truco, Huaqin Xu, Kyle Cox, Ian Korf & Richard W. Michelmore

BGI Shenzhen, Shenzhen, 518083, China

Zhiwen Wang, Xinhua Yang, Chi Song, Liangfeng Xia, Shilin Zhu, Chunyan Xu & Xun Xu

Delaware Biotechnology Institute, Universiteit van Delaware, Newark, 19711, Delaware, VS

Siwaret Arikit & Blake C. Meyers

Donald Danforth Plant Science Center, 975 North Warson Road, St. Louis, 63132, Missouri, VS

Afdeling Moleculaire & Cellulaire Biologie, UC Davis, 95616, Californië, VS

Ian Korf & Richard W. Michelmore

Department of Plant Sciences, UC Davis, 95616, Californië, VS

Afdeling Medische Microbiologie en Immunologie, UC Davis, 95616, Californië, VS

U kunt deze auteur ook zoeken in PubMed Google Scholar

U kunt deze auteur ook zoeken in PubMed Google Scholar

U kunt deze auteur ook zoeken in PubMed Google Scholar

U kunt deze auteur ook zoeken in PubMed Google Scholar

U kunt deze auteur ook zoeken in PubMed Google Scholar

U kunt deze auteur ook zoeken in PubMed Google Scholar

U kunt deze auteur ook zoeken in PubMed Google Scholar

U kunt deze auteur ook zoeken in PubMed Google Scholar

U kunt deze auteur ook zoeken in PubMed Google Scholar

U kunt deze auteur ook zoeken in PubMed Google Scholar

U kunt deze auteur ook zoeken in PubMed Google Scholar

U kunt deze auteur ook zoeken in PubMed Google Scholar

U kunt deze auteur ook zoeken in PubMed Google Scholar

U kunt deze auteur ook zoeken in PubMed Google Scholar

U kunt deze auteur ook zoeken in PubMed Google Scholar

U kunt deze auteur ook zoeken in PubMed Google Scholar

U kunt deze auteur ook zoeken in PubMed Google Scholar

U kunt deze auteur ook zoeken in PubMed Google Scholar

U kunt deze auteur ook zoeken in PubMed Google Scholar

Bijdragen

Het BGI-team (Z.W., X.Y., C.S., L.X., S.Z., C.X., X.X.) was verantwoordelijk voor de bibliotheekconstructie, genoomsequencing en initiële assemblage en analyses. Het UC Davis-team (SR-C.-W., DOL, AK, LF, M.-JT, HX, KC, IK, RWM) was verantwoordelijk voor materiaalvoorbereiding, sequencing van de genenruimte, cDNA's en RIL's, genetische validatie en secundaire analyses. Kleine RNA's werden geanalyseerd door S.A. en R.X. met inbreng van B.C.M. Het artikel is geschreven door S.R.-C.-W. en R.W.M. met belangrijke bijdragen van veel van de auteurs.

Corresponderende auteur


Methoden en hulpmiddelen voor gegevensanalyse van hele genoomsequenties

Inleiding tot sequencing van het hele genoom

Door gebruik te maken van de meest geavanceerde genetische sequencing-innovaties, heeft whole-genome sequencing (WGS) het potentieel om het genoombegrip enorm te verbeteren en de geheimen van het leven te ontsluiten. WGS kan voor verschillende doeleinden worden gebruikt, waaronder het aanroepen van varianten, annotatie van het genoom, fylogenetische beoordeling en ontwikkeling van het referentiegenoom. Gegevensbeheer is een ander probleem voor WGS. Computationele beoordeling, in plaats van innovatie op volgorde te zetten, zal de snelheidsbeperkende variabele zijn naarmate grotere datasets beschikbaarder en kosteneffectiever worden.

De volgende zijn de fasen in de bioinformatica-sjabloon voor WGS: (1) kwaliteitscontrole van onbewerkte uitlezingen (2) voorverwerking van gegevens (3) uitlijning (4) variant aanroepen (5) genoomassemblage en (6) genoomannotatie. Afhankelijk van de software zijn verschillende soorten gegevensbeoordeling nodig.

Raw Read QC en voorverwerking

Lees/sequenties van slechte kwaliteit, evenals technische sequenties zoals adaptersequenties, moeten uit de onbewerkte bestanden worden verwijderd (fastq). Deze procedure is van cruciaal belang voor het nauwkeurig en betrouwbaar detecteren van variaties. FastQC is een effectieve tool voor kwaliteitscontrole van onbewerkte leeskwaliteit die statistische gegevensbevindingen genereert met betrekking tot basisstatistieken, sequentiekwaliteit, kwaliteitsscores, sequentie-inhoud, GC-inhoud, sequentielengtedistributie, oververtegenwoordigde sequenties, ontwerp van sequentieduplicatieniveau, adaptersamenstelling en k-mer-samenstelling . Instrumenten zoals Fastx trimmer en cutadapt kunnen worden gebruikt voor lezen trimmen.

Uitlijning

Het is noodzakelijk om een ​​referentiegenoom vast te stellen. Mash stelt ons in staat om genetische afstand en verwantschap te evalueren door de sequencing-uitlezingen die zijn geproduceerd te vergelijken met de referentieset van NCBI RefSeq-genomen. De kwaliteit gecontroleerde uitlezingen moeten nu worden toegewezen aan het referentiegenoom. De conventionele sequentie-uitlijning / kaartsjabloon die bekend staat als SAM wordt geproduceerd door BWA en Bowtie2, wat de volgende processen eenvoudiger maakt. BLAST daarentegen wordt vaak gebruikt voor lokale uitlijning.

Variant bellen

Varianten kunnen worden beoordeeld door het monstergenoom te vergelijken met het referentiegenoom nadat de uitlezingen zijn uitgelijnd met het referentiegenoom. De ontdekte varianten kunnen verband houden met ziekte of gewoon niet-functionele genomische ruis. SNP's (single nucleotide polymorphisms), indels, structurele varianten en annotaties worden allemaal opgeslagen in VCF, de conventionele sjabloon voor het opslaan van sequentievariaties. Vanwege het hoge percentage fout-positieve en fout-negatieve detectie van SNV's en indels, kan het aanroepen van varianten moeilijk zijn.

Genoomassemblage

Het proces van het uitlijnen van overlappende reads om langere contigs (grotere aaneengesloten sequenties) te construeren en de contigs in scaffolds te ordenen staat bekend als de novo assembly (een sjabloon van het gesequenced genoom). Wanneer een referentiegenoom van een verwant exemplaar beschikbaar is, is het normaal om contigs vanaf nul te produceren voordat ze worden uitgelijnd met het referentiegenoom voor het samenstellen van een steiger. Het algoritme "Align-Layout-Consensus" is een andere optie. Deze techniek lijnt reads uit met een sterk gekoppeld referentiegenoom voordat contigs en scaffolds helemaal opnieuw worden gemaakt.

De kwaliteit van de assemblage kan worden gemeten met behulp van verschillende metrieken. Effectieve genoomannotatie vereist een aaneengesloten bijna volledige (ongeveer 90%) assemblage die wordt verstoord door kleine openingen.
- Genoomgrootte: kan worden geschat met behulp van zowel op C-waarde als op k-mer-frequentie gebaseerde methoden.
- Contiguïteit van de assemblage: de N50-statistiek, die een type mediaan van geassembleerde sequentielengten definieert, kan worden gebruikt om de contiguïteit van de assemblage te beoordelen.
- Nauwkeurigheid: transcriptoomgegevens zijn een waardevolle bron voor het verifiëren van de nauwkeurigheid van de sequentie en het repareren van steigers. Mis-assemblages en chimere contigs kunnen ook worden gedetecteerd met behulp van vergelijkende genomische methoden.

Genoomannotatie

Om de genoomsequentie volledig te begrijpen, moeten biologisch geschikte details zoals genontologie (GO) -termen, KEGG-routes en epigenetische modificaties worden geformatteerd. De annotatie bestaat uit twee fasen:

    Stadia van berekening. Herhaalde maskering, codering van sequentievoorspelling (CDS) en voorspelling van genmodellen maken allemaal deel uit van de computationele fase.

Herhaal het maskeerproces. Omdat herhalingen in organismen slecht worden bewaard, is het aan te raden tools zoals RepeatModeler en RepeatExplorer te gebruiken om een ​​soortspecifieke herhalingsbibliotheek te ontwikkelen. Genmodellen worden voorspeld. Eiwituitlijning, syntenische eiwitlift-overs van andere soorten, EST- en RNA-seq-gegevens kunnen allemaal nuttig zijn bij het voorspellen van genmodellen.

Over CD Genomics Bioinformatica Analyse

De afdeling bioinformatica-analyse van CD Genomics biedt nieuwe oplossingen voor datagedreven innovatie gericht op het ontdekken van het verborgen potentieel in biologische data, het aanboren van nieuwe inzichten met betrekking tot life science-onderzoek en het voorspellen van nieuwe vooruitzichten.


Bekijk de video: The Human Genome Project. Genetics. Biology. FuseSchool (December 2021).