Informatie

Hoe zoek je snel naar vergelijkbare sequenties?


Geprobeerd een Blast-zoekopdracht uit te voeren naar een PPO-gen in een advocado-genoom: https://www.ncbi.nlm.nih.gov/blast/Blast.cgi?PAGE_TYPE=BlastSearch&PROG_DEFAULTS=on&BLAST_SPEC=OGP__3435__73885&DATABASE=GPIPE/3435/current

Er zijn echter geen overeenkomsten, wat kan zijn omdat het een andere soort is met een iets andere volgorde? Van het genoom dat ik zoek is bekend dat het PPO bevat.


Zoals vermeld in de opmerkingen hier, is er tot nu toe geen volledige genoomsequentie voor avocado, hoewel mensen eraan lijken te werken.

Er zijn echter een groot aantal EST's en het doen van een BLAST van hun vertalingen met de tomaten-PPO-sequentie (tblastn) geeft enkele hits.

Hier is een link naar die BLAST.


Er zijn echter geen overeenkomsten, wat kan zijn omdat het een andere soort is met een iets andere volgorde?

Dit is precies het probleem waarvoor BLAST is ontworpen om op te lossen.


FASTA is een andere veelgebruikte zoekfunctie voor sequentieovereenkomst die heuristieken gebruikt voor snel lokaal uitlijning zoeken.

SSEARCH is een optimale (in tegenstelling tot op heuristieken gebaseerde) lokaal zoekfunctie voor uitlijning met behulp van het Smith-Waterman-algoritme. Optimale zoekopdrachten garanderen dat u de beste uitlijningsscore vindt voor uw opgegeven parameters.

PSI-Search combineert de gevoeligheid van het Smith-Waterman-zoekalgoritme (SSEARCH) met de PSI-BLAST-profielconstructiestrategie om ver verwante eiwitsequenties te vinden.

GGSEARCH presteert optimaal globaal-globaal uitlijningszoekopdrachten met behulp van het Needleman-Wunsch-algoritme.

GLSEARCH voert een optimale sequentiezoekactie uit met behulp van uitlijningen die: globaal in de vraag maar lokaal in de databasevolgorde. Dit kan handig zijn als u een hele korte queryreeks wilt koppelen aan een deel van een grotere databasereeks.

Met deze gespecialiseerde programma's kunnen databases worden doorzocht met sequentiefragmenten als query.


Het BLAST-algoritme

  1. Zoekopdracht splitsen in overlappende woorden met lengte W (de W-mers)
  2. Zoek een &ldquobuurt&rdquo met vergelijkbare woorden voor elk woord (zie hieronder)
  3. Zoek elk woord in de buurt op in een hashtabel om de locatie in de database te vinden waar elk woord voorkomt. Noem deze de zaden, en laat S de verzameling zaden zijn.
  4. Verleng de zaden in S totdat de score van de uitlijning onder een bepaalde drempel zakt x.
  5. Rapporteer wedstrijden met de hoogste scores

Afbeelding 3.13: Het BLAST-algoritme

De voorbewerkingsstap van BLAST zorgt ervoor dat alle substrings van W-nucleotiden worden opgenomen in onze database (of in een hashtabel). Deze worden de W -mers van de databank. Net als in stap 1 splitsen we eerst de query door te kijken naar alle substrings van W opeenvolgende nucleotiden in de query. Om de buurt van deze te vinden W-mers, passen we deze reeksen vervolgens aan door ze enigszins te veranderen en hun gelijkenis met de originele reeks te berekenen. We genereren steeds meer verschillende woorden in onze buurt totdat onze mate van overeenkomst onder een bepaalde drempel zakt t. Dit biedt ons de flexibiliteit om overeenkomsten te vinden die niet exact W opeenvolgende overeenkomende tekens op een rij hebben, maar die wel genoeg overeenkomsten hebben om als vergelijkbaar te worden beschouwd, d.w.z. om aan een bepaalde drempelscore te voldoen.

Vervolgens zoeken we al deze woorden op in onze hashtabel om zaden van W opeenvolgende overeenkomende nucleotiden te vinden. Vervolgens breiden we deze zaden uit om onze uitlijning te vinden met behulp van het Smith-Waterman-algoritme voor lokale uitlijning, totdat de score onder een bepaalde drempel X daalt. Aangezien het gebied dat we overwegen een veel korter segment is, zal dit niet zo traag zijn als het uitvoeren van de algoritme op de gehele DNA-database.

Het is ook interessant om de invloed van verschillende parameters van BLAST op de prestaties van het algoritme op te merken ten opzichte van runtime en gevoeligheid:

  • W Hoewel een grote W zou resulteren in minder onechte treffers/botsingen en dus sneller zou zijn, zijn er ook compromissen verbonden, namelijk: een grote buurt met iets andere queryreeksen, een grote hashtabel en te weinig treffers. Aan de andere kant, als W te klein is, kunnen we te veel treffers krijgen, wat de runtime-kosten naar de seed-uitbreiding/uitlijningsstap duwt.
  • t Als T hoger is, zal het algoritme sneller zijn, maar je kunt reeksen missen die evolutionair verder verwijderd zijn. Als je twee verwante soorten vergelijkt, kun je waarschijnlijk een hogere T instellen, omdat je verwacht meer overeenkomsten te vinden tussen reeksen die behoorlijk op elkaar lijken.
  • x De invloed ervan is vrij gelijkaardig aan die van T omdat beide de gevoeligheid van het algoritme zullen regelen. Hoewel W en T van invloed zijn op het totale aantal hits dat men krijgt, en dus de runtime van het algoritme dramatisch beïnvloeden, zal het instellen van een echt strenge X ondanks minder strenge W en T runtimekosten veroorzaken door het proberen van onnodige sequenties die niet zouden voldoen aan de striktheid van X. Het is dus belangrijk om de strengheid van X te matchen met die van W en T om onnodige rekentijd te vermijden.

Oefening 2: De resultaten bekijken

Wanneer het zoeken is voltooid, worden alle resultaten gedownload van NCBI en in de nieuw gemaakte map geplaatst. Standaard moeten de zoekresultaten worden geordend op hun E-waarde die de verwachte frequentie van optreden van elke uitlijning bij toeval aangeeft. Als uw resultaten niet op E-waarde zijn gerangschikt, klikt u op de kolomkop E-waarde. Uw hittabel zou er ongeveer zo uit moeten zien als de onderstaande tabel, maar de werkelijke hits kunnen enigszins variëren omdat er voortdurend nieuwe reeksen aan GenBank worden toegevoegd.

Voor E-waarden geldt: hoe kleiner het getal, hoe beter. Deze worden weergegeven met exponenten. De tophit die hier wordt weergegeven als 1.18e-107 is hetzelfde als 1.18吆 -107 . Dit is een zeer klein aantal en geeft aan dat het hoogst onwaarschijnlijk is dat deze uitlijning ooit bij toeval zou plaatsvinden. Je hebt misschien zelfs voorbeelden waarbij de E-waarde 0.00e+00 is en dit vertelt je dat het statistisch gezien niet waarschijnlijk is dat deze uitlijning toevallig is gebeurd. U moet deze statistieken als richtlijn nemen, omdat er nog steeds interessante afstemmingen kunnen zijn die veel minder belangrijk lijken.

Naast de E-waarde is er ook een kolom met het label % paarsgewijze identiteit. Dit is ook handig omdat het aangeeft hoe vergelijkbaar de volgorde die in de database is gevonden, is met de volgorde die u als query hebt gebruikt. U kunt zien dat veel van de treffers in dit voorbeeld 100% identiek zijn aan de zoekopdracht over de lengte van de uitlijning, maar verschillende Sequentielengtes. Dit is omdat de geproduceerde uitlijning een lokale gelijkenis-uitlijning is en het maximale gebied heeft uitgelijnd dat het zou kunnen vinden tussen de twee sequenties. De identiteit verwijst alleen naar het uitgelijnde gebied, dus het is mogelijk om zeer korte uitlijningen te hebben die een hoge identiteit hebben. Dit is de reden waarom afstemmingen de neiging hebben om te worden gerangschikt op hun E-waarde in plaats van op identiteit. Geneious produceert ook een Cijfer score, die zoekopdrachtdekking, e-waarde en identiteitswaarden voor elke hit combineert met respectievelijk gewichten 0,5, 0,25 en 0,25, zodat u de langste en hoogste identiteitshits kunt bepalen.

Nu u een reeks zoekresultaten heeft, moet u enkele uitlijningen bekijken. Klik op de hit om NP_001014408 en je zou zoiets als dit moeten zien:

U kunt aan de groene identiteitsgrafiek boven de uitlijning zien dat de twee sequenties identiek zijn. Net als elke andere uitlijning in Geneious, kun je inzoomen op de basisweergave, de kleurinstellingen wijzigen en overeenkomsten of onenigheid markeren met de consensus in de algemene bedieningselementen rechts van de kijker.

Deze uitlijningsweergave toont alleen het uitlijningsgebied tussen de query en de trefferreeks. Het geretourneerde explosie-hitdocument is een samenvattend document en bevat niet het volledige GenBank-record voor die reeks. Om de volledige reeks en annotaties voor de explosiehit te krijgen, klik op Volledige reeks(en) downloaden. Zodra de volledige reeks is gedownload, ziet u dat a Volgordeweergave tabblad wordt toegevoegd aan de viewer. Dit toont de volledige, geannoteerde reeks van de BLAST-hit, met een nieuwe annotatie '8220BLAST Hit'8221 die laat zien welk gebied van de reeks overeenkomt met de zoekopdracht.

Querygerichte weergave

Querygerichte weergave is handig om alle treffers tegen uw zoekopdracht in één venster te visualiseren, zodat u kunt zien waar geconserveerde gebieden van uw reeks zich bevinden. Klik op de Querycentrische weergave tabblad bovenaan de hittabel, schakel vervolgens de annotaties uit in het tabblad Annotaties en sporen en kies op het tabblad Weergave om te markeren meningsverschillen tot Verwijzing. Uw display zou er ongeveer zo uit moeten zien:

De zoekreeks wordt weergegeven als een referentiereeks, met gele arcering, bovenaan de uitlijning. Je kunt zien dat veel van de tophits extreem veel lijken op de zoekopdracht, wat aangeeft dat dit eiwit over het grootste deel van zijn lengte sterk geconserveerd is. De eerste 20 resten van de zoekopdracht zijn mogelijk minder goed bewaard gebleven omdat veel van de treffers deze regio niet omspannen. De reeksen zijn uitgelijnd in volgorde van E-waarde en als u naar beneden scrolt, zult u zien dat de reeksen meer verwant worden aan de zoekopdracht naarmate de E-waarde afneemt.


Hoe zoek je snel naar vergelijkbare sequenties? - Biologie

Tegen het einde van 2002 had de GenBank-database meer dan 28x109 basenparen aan DNA-sequentiegegevens. Een deel hiervan is geannoteerd, maar veel ervan heeft geen annotaties of is onjuist geannoteerd. Hoe kan men sequenties vinden die van belang kunnen zijn als ze niet zijn geweest? geannoteerd? Een manier om interessante reeksen te vinden, is door te zoeken naar reeksen die lijken op een bekende reeks. Er zijn verschillende zoekalgoritmen ontwikkeld die de database kunnen doorzoeken op sequenties die lijken op a vraag volgorde.

Een van de belangrijkste algoritmen die momenteel (2003) worden gebruikt om sequentiedatabases te doorzoeken, is een familie van algoritmen die zijn gebaseerd op BLAST, de "Basic Local Alignment Search Tool". BLAST presteert bijzonder goed met eiwitcoderende sequenties. Een tweede, iets ouder, algoritme FASTA presteert mogelijk beter met niet-coderende DNA-sequenties.

Het doorzoeken van een grote sequentiedatabase is een moeilijk probleem omdat er veel mogelijke manieren zijn waarop de queryreeks kan worden uitgelijnd met de database. Om dit proces te versnellen, zoekt BLAST naar kleine regio's met een perfecte match tussen de query- en doelsequenties, en onderzoekt vervolgens de sequentie die aan deze regio's grenst om te zien of er een langere strook is die perfect overeenkomt.

De eerste stap om dit proces te begrijpen is om vertrouwd te raken met de empirische eigenschappen van het doorzoeken van databases met BLAST. Het doel van deze oefening is om varianten van BLAST te gebruiken om GenBank te doorzoeken en te bestuderen hoe ze zich onder verschillende omstandigheden gedragen.

Beschouw de volgende DNA-sequentie:

ATTTGGAGCATCATGCCTGCAAACTCCGAGAAGGAGCACCTCTCCATCGT
GATTTGCGGCCATGTCGACAGTGGCAAGAGCACCACAACAGGGCGGCTC A
TCTTCGAGCTCGGTGGCCTTCCAGAGCGCGAACTTGACAAGCTGAAGCA G
GAGGCTGAGCGTCTTGGGAAAGGTTCTTTCGCCTTTGCATTCTACATGGA
CCGGCAGAAGGAGGAGCGTGAGCGTGGGGTGACCATCGCTTGCACCACG A
AGGAGTTCTACACGAGAAGTGGCACTACACAATCATTGATGCACCGGGC
CACCGTGATTTCATCAAGAACATGATCACGGGTGCATCCCAGGCTGATGT
CGCACTCATCATGGTTCCCGCAGACGGAAACTTCACGACAGCAATCGCCA
AGGGCAACCACAAGGCGGGGGAAATCCAGGGCCAGACCAGGCAGCATTCC
CGGCTCATCAACTTGCTTGGCGTGAAGCAGATCTGCATTGGCGTGAACAA
GATGGACTGCGACACGCGGCATACAAGCAGGCCCGTTATGATGAGATTG
CAAATGAGATGAAGAGCATGCTCGTGAANGTCGGGTGGAAGAAGGACTTT
ATTCGAGAAAACACACCCGTGATGCCCATCT

Dit is een DNA-sequentie die is verkregen door willekeurige screening van een cDNA-bibliotheek. We willen graag meer weten over de volgorde. Een gemakkelijke manier om inzicht te krijgen in een sequentie is om te achterhalen of deze lijkt op sequenties die al in andere onderzoeken zijn gerapporteerd. Om dit te doen, zullen we BLAST gebruiken om de sequentie te vergelijken met de GenBank-database die wordt onderhouden door NCBI (het National Center for Biotechnology Information, een tak van de NIH National Library of Medicine). We zullen de bovenstaande reeks gebruiken als een queryreeks en BLAST gebruiken om de queryreeks te vergelijken met de GenBank-database. De eigenlijke analyse zal worden uitgevoerd op een enorm parallelle supercomputer die door NCBI wordt beheerd als een service aan de onderzoeksgemeenschap. Er zijn verschillende manieren om zoekopdrachten in te dienen bij de blastserver, we beginnen met de webinterface.

Opmerking! Het is essentieel dat u begrijpt hoe verschillende computers op elkaar inwerken om de analyses die u uitvoert uit te voeren. Wanneer u een webbrowser gebruikt om verbinding te maken met een website, initieert u een host/client-interactie. Uw desktopcomputer is de client, de computer waarop de webhostsoftware draait, is de host. In dit geval voert u een rekenintensieve taak uit op de hostcomputer, dus de schijnbare snelheid waarmee de analyse wordt uitgevoerd, is een functie van de belasting van de hostcomputer (naast andere factoren).

Kopieer eerst de reeks. Ga dan naar de website van de NCBI (http://www.ncbi.nlm.nih.gov/ dit staat ook op de klaspagina "links"), en volg de link voor ONTPLOFFING op de NCBI-startpagina en vervolgens de link voor Standaard nucleotide-nucleotide BLAST [blastn]. Plak de reeks in de daarvoor bestemde ruimte en klik vervolgens op de knop met de tekst ONTPLOFFING!

De pagina zal worden vervangen door een pagina met de naam "formatting BLAST." Merk op dat het u een blast-ID-nummer geeft, een schatting van hoe lang het duurt voordat de resultaten worden geretourneerd, en enkele opmaakopties.

Terwijl u wacht tot uw explosieresultaten worden geretourneerd, opent u een ander browservenster en opent u de NCBI-startpagina. NCBI biedt veel nuttige bronnen en u zult deze site regelmatig bezoeken. Het loont de moeite om er de weg in te vinden. Lees ook het explosieoverzicht (http://www.ncbi.nlm.nih.gov/BLAST/blast_overview.html) en andere informatie die is gekoppeld aan de explosiepagina.

Na een redelijke tijd gewacht te hebben, ga terug naar de "formatting BLAST" pagina en klik op de FORMAAT knop. De resultaten van uw explosiezoektocht worden weergegeven op een nieuwe webpagina. Er is informatie over hoe u deze analyse kunt citeren in wetenschappelijke publicaties en over de aard van uw zoekopdracht, gevolgd door een reeks gekleurde lijnen die de resultaten van de zoekopdracht illustreren, en dan tekst die de resultaten van de zoekopdracht beschrijft, en daaronder meer tekst met voorbeelden van de beste overeenkomsten.

Beweeg de muis over de gekleurde lijnen en zie hoe de weergave verandert. Kijk hoe deze informatie correleert met de tekst verderop op de pagina en merk op dat er links zijn naar de reeksen waarmee de zoekreeks overeenkwam. Neem hier de tijd en probeer alle functies op deze webpagina te bekijken. Als u deze bronnen goed begrijpt, bespaart u in de toekomst veel tijd.

Welke conclusies over deze reeks kun je uit deze informatie trekken?

Wat is de identiteit van de sequentie?

Voor welk gen denk je dat het codeert?

Uit welk organisme denk je dat het komt?

Hoe betrouwbaar denkt u dat deze gevolgtrekking is? Waarom?

Tip: kijk naar de bitscore, bij de e-waarde, en bij de individuele wedstrijden (merk op dat er links zijn die u kunt volgen).

Bedenk dat de sequentie afkomstig was uit een cDNA-bibliotheek. Dat betekent dat het waarschijnlijk een eiwitcoderende sequentie is. Blast is gevoeliger voor subtiele patronen in aminozuursequenties dan in nucleotidesequenties, dus het kan nuttig zijn om een ​​zoekopdracht uit te voeren waarbij gebruik wordt gemaakt van de informatie dat dit een eiwitcoderende sequentie is. We weten niet of de sequentie in frame is, dus we zullen een vertaling van de sequentie in alle zes mogelijke leesframes willen zoeken in een eiwitdatabase.

Omdat u met een nucleotidesequentie werkt, moet u een vertaalde zoekopdracht uitvoeren. Ga terug naar de BLAST-startpagina (http://www.ncbi.nlm.nih.gov/BLAST/) en onder Vertaalde BLAST-zoekopdrachten selecteer Nucleotide-query - Eiwit db [blastx].

Merk op dat er een aantal andere opties zijn die u kunt selecteren, maar verander ze niet.

Dien de zoekopdracht in en ontspan en leer meer van de site totdat de resultaten worden geretourneerd.

Opmerking: Blast-zoekopdrachten die via de website worden ingediend, worden in een wachtrij geplaatst en krijgen een prioriteit die afhankelijk is van het aantal zoekopdrachten dat u tegelijkertijd indient. Als u een reeks zoekopdrachten vanaf dezelfde computer indient, duurt elke zoekopdracht steeds langer. Als u meerdere zoekopdrachten wilt indienen, kunt u het beste de webinterface niet gebruiken om zoekopdrachten in te dienen. We zullen zoekopdrachten later in het semester via e-mail indienen, maar als je zoekopdrachten via e-mail wilt indienen, stuur dan een e-mail die bestaat uit het enkele woord HELP naar [email protected]

Hoe verschillen de resultaten van de blastn-zoekopdracht?

Welke conclusies kun je trekken uit de verschillende resultaten in de twee zoekopdrachten?

Wat is de identiteit van de sequentie?

Voor welk gen denk je dat het codeert?

Uit welk organisme denk je dat het komt?

Hoe betrouwbaar denkt u dat deze gevolgtrekking is? Waarom?

Waarom gedragen nucleotide- en aminozuurzoekopdrachten zich heel verschillend? Hoe verschillen deze twee soorten gegevens in de manier waarop ze informatie bevatten? Onthoud dat elk aminozuur wordt gecodeerd door drie nucleotiden, maar dat een aminozuursequentie ook uit een derde van het aantal tekens bestaat als de bijbehorende nucleotidesequentie.

Welk percentage sequentie-identiteit zou je verwachten in een uitlijning (zonder gaten) van twee willekeurige DNA-sequenties?

Hoe zit het met twee willekeurige aminozuursequenties?

Overweeg de verschillende opties, inclusief parameters, die kunnen worden ingesteld vanaf de BLAST-pagina. Kunt u bepalen welk effect elk van deze zal hebben? Sommige bepalen de manier waarop de BLAST-resultaten worden geformatteerd, terwijl andere bepalen hoe het algoritme zelf zal functioneren.

Verander de woordgrootte van 11 naar 7 en herhaal de BLASTN-zoekopdracht. Zijn de resultaten identiek aan de zoekopdracht op woordgrootte 11? Hoe verschillen de twee zoekopdrachten? Wat gebeurt er als je een woordgrootte van 15 gebruikt?

Er zijn aanvullende onbekende reeksen beschikbaar van eerdere huiswerkopdrachten die zijn gekoppeld aan de startpagina van de klas. Kies een van deze reeksen en herhaal de bovenstaande zoekopdrachten. Welke opmerkingen kunt u maken over hoe u BLAST het meest effectief kunt gebruiken?

BLAST uitvoeren vanaf een opdrachtregelinterface

NCBI stelt een BLAST-client, blastcl3, beschikbaar die kan worden gebruikt om BLAST-zoekopdrachten vanaf een lokale computer te starten zonder een webinterface te gebruiken. Hoewel dit iets meer aandacht vergt dan het gebruik van de webinterface, is het veel gemakkelijker te automatiseren en heeft het daarom de voorkeur voor analyses van meerdere sequenties.

Een tweede BLAST-client, NetBLAST, maakt deel uit van het GCG-analysepakket. We zullen dit later in het semester gebruiken.


Vergelijkbare nucleotidesequenties vinden met behulp van Network BLAST-zoekopdrachten

De Basic Local Alignment Search Tool (BLAST) is de eerste tool in de annotatie van nucleotide- of aminozuursequenties. BLAST is een vlaggenschip van bio-informatica vanwege zijn prestaties en gebruiksvriendelijkheid. Beginners en gevorderde gebruikers leren ontwerpen en indienen blastn en Megablast zoekopdrachten op de webpagina's van het National Center for Biotechnology Information. We brengen nucleïnezuursequenties in kaart met genomen, vinden identieke of vergelijkbare mRNA's, tot expressie gebrachte sequentietag en niet-coderende RNA-sequenties, en voeren Megablast zoekopdrachten, die veel sneller zijn dan blastn. Het begrijpen van resultaten wordt ondersteund door taxonomierapporten, genomische weergaven en meerdere uitlijningen. We interpreteren verwachte frequentiedrempels, biologische significantie en statistische significantie. Zwakke treffers leveren geen bewijs, maar geven hints voor verdere analyses. We vinden genen die kunnen coderen voor homologe eiwitten door getranslateerde BLAST. We verminderen valse positieven door regio's met een lage complexiteit uit te filteren. Geparseerde BLAST-resultaten kunnen worden geïntegreerd in analysepijplijnen. Koppelingen in de uitvoer maken verbinding met Entrez en PubMed, evenals met structurele, sequentie-, interactie- en expressiedatabases. Dit vergemakkelijkt de integratie met een breed spectrum aan biologische kennis. © 2017 door John Wiley & Sons, Inc.


Hoe twee reeksen te vergelijken met behulp van NCBI online BLAST?

Deze tutorial richt zich op het eenvoudig afstemmen van twee DNA-sequenties van belang met het online NCBI BLAST-programma.

Hier kiezen we 2 DNA-sequenties en stemmen elkaar af met behulp van het BLAST-programma online. De gebruikte sequenties zijn een subset van sequenties van deze link

De tweede Sequence is een subset van de eerste die is gedownload via de bovenstaande link, om te laten zien hoe de BLAST de overeenkomst vindt.

Moeilijkheidsgraad: Gemakkelijk

  • Open NCBI BLAST vanaf hier
  • Omdat onze sequenties van Nucleotide zijn, kunnen we Nucleotide BLAST selecteren.
  • U wordt naar de BLASTN-suite gebracht zoals op de onderstaande afbeelding. Nu moeten we de optie “ . aanvinkenLijn twee of meer reeksen uit” onder het tabblad Functietitel. Dit stelt ons in staat om twee sequenties als invoer voor de BLAST te geven.
  • Nadat we de optie voor het uitlijnen van twee reeksen zoals hierboven vermeld hebben aangevinkt, krijgen we twee invoervakken voor het geven van de reeksen.
  • We gebruiken de subset van de gedownloade reeks als de queryreeks die kan worden toegevoegd aan het eerste vak voor “Query Sequence'8221. Plak de queryreeks in het vak. Voeg een functietitel toe (optioneel) om de zoekopdracht die u later hebt uitgevoerd te identificeren.

    Tip:
    U kunt meerdere queryreeksen toevoegen om te vergelijken met dezelfde onderwerpreeks.

Lees onze andere tutorials – Klik hier
Bekijk hier andere NGS-analysefragmenten


ONTPLOFFING Resultaten

Het analyseren van de resultaten van een BLAST-zoekopdracht, hoewel vergelijkbaar, hangt af van of de oorspronkelijke zoekopdracht naar een nucleotide- of aminozuursequentie was.

Als we kijken naar de sectie "Sequenties die significante uitlijningen produceren", zien we:

Aminozuur (Eiwitresultaat)

Nucleotide (mRNA)

In beide gevallen zijn de items van belang:

  • Max[imum] Score: de hoogste uitlijningsscore berekend op basis van de som van de beloningen voor gematchte nucleotiden of aminozuren en sancties voor mismatches en hiaten.
  • Tot[al] Score: de som van de uitlijningsscores van alle segmenten van dezelfde onderwerpreeks.
  • Queryomslag[leeftijd]: het percentage van de lengte van de zoekopdracht dat is opgenomen in de uitgelijnde segmenten.
  • E[verwacht] Waarde: het aantal uitlijningen dat bij toeval wordt verwacht met de berekende score of beter. De verwachtingswaarde is de standaard sorteermetriek voor significante uitlijningen. De E-waarde moet zeer dicht bij nul zijn.
  • Identificeren[ity]: het hoogste percentage identiteit voor een set uitgelijnde segmenten met dezelfde onderwerpsequentie.

Deze resultaten kunnen helpen bij het identificeren van wat de gezochte sequentie overeenkomt en welke andere soorten vergelijkbare stoffen hebben.

Als u op de naam van een van de resultaten klikt, wordt. weer andere resultaten weergeven:

Aminozuur (Eiwitresultaat)

De resultaten tonen de aminozuurovereenkomsten

Nucleotide (mRNA)

De resultaten tonen de uitlijning van de basenparen

Vergelijk meerdere reeksen

Een andere vorm van zoeken is om 2 reeksen met elkaar te vergelijken. De afbeelding hieronder is van BLASTP, maar de BLASTN heeft een vergelijkbare faciliteit. Dit wordt geactiveerd door op de link "twee of meer reeksen uitlijnen" te klikken:

Taxonomieboom

Een ander interessant resultaat is het rapport van de taxonomieboom van de significante overeenkomende sequenties. Nogmaals, de resultaten zijn vergelijkbaar voor BLASTN en BLASTP. Het getoonde voorbeeld is van BLASTP:

Klik op de link "Afstandsboom met resultaten".

Het resultaat is een visuele boom van de wedstrijden. Het is mogelijk om meer details te krijgen door op een van de boombladeren te klikken:


Vergelijkbare nucleotidesequenties vinden met behulp van Network BLAST-zoekopdrachten

De Basic Local Alignment Search Tool (BLAST) is een hoeksteen van bio-informatica vanwege zijn prestaties en gebruiksvriendelijkheid. Beginnende en gevorderde gebruikers leren ontwerpen en indienen blastn en Megablast zoekopdrachten op de webpagina's van het National Center for Biotechnology Information. We brengen nucleïnezuursequenties in kaart met genomen, vinden identiek of vergelijkbaar mRNA, tot expressie gebrachte sequentietag en niet-coderende RNA-sequenties, en voeren Megablast zoekopdrachten, die veel sneller zijn dan blastn. Het begrijpen van resultaten wordt ondersteund door taxonomierapporten, genomische weergaven en meerdere uitlijningen. We interpreteren verwachte frequentiedrempels, biologische significantie en statistische significantie. Zwakke treffers leveren geen bewijs, maar hints voor verdere analyses. We vinden genen die kunnen coderen voor homologe eiwitten door getranslateerde BLAST. We verminderen valse positieven door regio's met een lage complexiteit uit te filteren. Geparseerde BLAST-resultaten kunnen worden geïntegreerd in analysepijplijnen. Koppelingen in de uitvoer maken verbinding met Entrez-, PUBMED-, structurele, sequentie-, interactie- en expressiedatabases. Dit vergemakkelijkt de integratie met een breed spectrum aan biologische kennis. Curr. Protoc. Bio-informatie. 26:3.3.1-3.3.26. © 2009 door John Wiley & Sons, Inc.


Hoe zoek je snel naar vergelijkbare sequenties? - Biologie

Instructies voor het uitvoeren van BLASTN-analyse

Je gaat nu een BLAST-zoekopdracht uitvoeren met behulp van de wildtype-reeks(en) die je aan het begin van het semester hebt opgehaald. Als u meer dan één reeks heeft, moet u deze stappen voor elk van de reeksen uitvoeren.

Kopieer en plak de reeks die u wilt analyseren.

U doet een standaard nucleotide-nucleotide-zoekopdracht (BLASTN). Plak de fly-gensequentie die u uit uw Word-bestand hebt gekopieerd in het vak en zorg ervoor dat u de database "Others (nr etc.)" doorzoekt (standaard is om de een of andere reden ingesteld op menselijk). Er verschijnt een nieuwe regel met het label "Organisme". Voer " inDrosophila" in het tekstvak en vink het vakje voor "Uitsluiten" aan.
Dit zal alles verwijderen Drosophila sequenties uit uw resultaten en maakt analyse gemakkelijker.
U moet ook Meer ongelijke sequenties (niet-aaneengesloten megablast) selecteren in het vak Programmaselectie .

Klik ten slotte op het woord "BLAST".

Het eerste scherm dat wordt geladen, is alleen om u te laten weten dat u wacht tot het programma de zoekopdracht voltooit.

(Soms kan het wachten enkele minuten zijn, dus wees geduldig).

De laatste herlaadpagina bevat de resultaten van de BLASTN-zoekopdracht. De pagina heeft 3 secties. De eerste sectie is een afbeelding die locaties toont van overeenkomst tussen uw reeks (de queryreeks) en enkele van de vergelijkbare reeksen die door het programma zijn geïdentificeerd. Het tweede gedeelte is een tabel met reeksen die vergelijkbaar zijn met uw zoekreeks met numerieke scores (E-waarden). De derde sectie toont de feitelijke uitlijning van uw zoekreeks met elk van de overeenkomende reeksen.

Het standaard aantal hits is 100 (meestal), dus als dit niet genoeg is om te vinden wat je zoekt, ga dan terug naar de BLASTN-pagina met het vak, voer alles opnieuw uit en klik op "Algorithm Parameters" onderaan de pagina voordat je op de Blast-knop drukt. Hiermee kunt u het aantal aligneringen dat u ontvangt wijzigen, zodat u kans heeft om de juiste hit te vinden.