Informatie

Blast-databases


Ik help een collega bij het opzetten van een lokale blastserver. Mijn achtergrond is informatica, dus mijn excuses als ik onjuiste terminologie gebruik.

Met behulp van de NCBI blastn-webpagina is een van de vermelde databases "NCBI Genomes (chromosoom)." Ik kan deze database niet vinden op de downloadpagina van de database (ftp://ftp.ncbi.nlm.nih.gov/blast/db/).

Wat is de naam van deze database zoals vermeld op de ftp-site?


Met de blast-binaries krijg je een perl-scriptupdate_blastdb.pldie u kunt gebruiken om voorgeformatteerde databases van de ncbi te downloaden (het is in ieder geval een script dat de gegevens ophaalt van de locatie die u hebt gevonden). Metupdate_blastdb.pl --showallzal een lijst maken van alle beschikbare explosiedatabases en waarschijnlijk is refseq_genomic wat u nodig hebt, tenzij uw zoekopdracht alleen menselijke gegevens is.

Dat is echter gebaseerd op de veronderstelling dat uw querygegevens nucleotidegegevens zijn - u moet mogelijk verschillende databases en hulpmiddelen voor eiwitten kiezen

In tegenstelling tot de beweringen van Maxim Kuleshov, maken de NC- en NT-toetredingsvoorvoegsels geen onderscheid tussen organismen, maar de status van de genoomassemblage, zoals vermeld in de gekoppelde documentatie en de refseq-release-opmerkingen, sectie 3.8


human_genomic.*tar.gzis Human RefSeq (NC_######) chromosoomrecords met gap-gecorrigeerde aaneengeschakelde NT_ contigs enandere_genomic.*tar.gzvoor niet-menselijke organismen (meer over RefSeq toegangsnummers zoals NC_ en NT_). Meer informatie vindt u in het leesmij-bestand.


Bioinformatica-tools en databases gebruiken in AP® Biology

Sarah Bottorff
Technische ondersteuningsspecialist, Live Materials

Naarmate studenten verder gaan met onderzoek met moleculaire technieken, zal een goed begrip van bio-informaticahulpmiddelen van onschatbare waarde worden naarmate ze verder gaan met hun studie van de biologie. De cursus AP'xAE Biologie moet studenten een basiskennis geven van de hulpmiddelen die worden gebruikt in moleculair onderzoek en hun toepassing op verschillende gebieden binnen de levenswetenschappen. We zullen 2 bioinformatica-tools bekijken die elke student of onderzoeker met een computer en een internetverbinding kan openen en gebruiken.

Nucleotide-analyse met BLAST'xAE

Het National Center for Biotechnology Information (NCBI) onderhoudt een openbare database met moleculaire biologie en ontwikkelt softwaretools die onderzoekers kunnen gebruiken bij het analyseren van genomische gegevens. Dit staat bekend als de BLAST'xAE-database (Basic Local Alignment Search Tool). Onderzoekers kunnen kiezen uit verschillende algoritmen, afhankelijk van de sequentie die wordt geanalyseerd en hun specifieke onderzoeksvraag.

Om BLAST'xAE te gebruiken, dient de gebruiker een sequentie van belang in (dit kan DNA, RNA of een aminozuurketen zijn) voor analyse door een geselecteerd algoritme. Het algoritme vergelijkt vervolgens de ingediende sequentie met sequenties in zijn database. BLAST'xAE vertelt de gebruiker welke databasereeks het meest overeenkomt met de ingediende reeks. Deze tool kan worden gebruikt om verschillende onderwerpen binnen het curriculum van AP'xAE Biologie te koppelen, zoals evolutie, eiwitstructuur en -functie, evenals enkele aspecten van ecologie en milieuwetenschappen.

Bredere beschikbaarheid van tools zoals BLAST'xAE stelt AP'xAE Biologie-studenten in staat om cladistiek en fylogenie op moleculair niveau te bestuderen. In de AP® Biology Investigative Labs: een op onderzoek gebaseerde benadering handleiding, leert Investigation 3 studenten over de basisfuncties van BLAST en staat open onderzoek toe zodra ze het programma onder de knie hebben. Het onderzoek maakt gebruik van sequenties die vooraf zijn geladen voor studenten.

Het identificeren van organismen is belangrijker geworden naarmate we de effecten van een veranderend klimaat volgen en proberen de biodiversiteit in de meest aangetaste ecosystemen van onze planeet te behouden. Verschillende belangrijke moleculaire technieken kunnen worden gebruikt om genomische informatie in verzamelde monsters te analyseren. U kunt het AP'xAE-onderzoek verder brengen en een onderdeel van moleculaire technieken aan uw evolutie-eenheid leveren met Carolina's 2019s DNA-barcodes gebruiken om levende dingen te identificeren en classificeren.

Met deze kits verzamelen en extraheren studenten DNA en voeren ze PCR- en elektroforese-analyses uit op monsters van biologisch materiaal. U hebt de mogelijkheid om tegen een kleine meerprijs monsters naar een sequencing-service te sturen. Zodra sequenties zijn verkregen, kunnen ze worden geanalyseerd met behulp van BLAST'xAE. Studenten zijn dan in staat om fylogenetische bomen te bouwen met behulp van informatie verkregen uit hun monsters.

Aminozuursequentievergelijkingsactiviteit met UniProt

UniProt is een vrij toegankelijke database van eiwitsequentie en functie. Het bevat informatie die is afgeleid van primaire literatuurbronnen en grote sequencing-projecten. De database blijft groeien naarmate meer sequencing-projecten worden voltooid.

De AP® Biology Investigative Lab: een op onderzoek gebaseerde benadering open onderzoeksactiviteit voor Onderzoek 3 suggereert dat studenten een fylogenetische boom maken voor een eiwit dat voorkomt in een verscheidenheid aan organismen naar keuze. Vervolgens leggen de studenten aan de hand van bioinformatica uit hoe een groep organismen op eiwitniveau aan elkaar verwant is.

De handleiding geeft een lijst met voorgestelde eiwitten voor studenten om te onderzoeken. Enkele aanvullende opties zijn hemoglobine (alleen dieren), PEP-carboxylase (alleen planten), tubuline, NADH-ubiquinonoxidoreductase, cytochroom-c-oxidase-subeenheid en collageen.

Procedure

  1. Ga naar de UniProt-site. Controleer of het vervolgkeuzemenu in het zoekvak “UniProtKB.” . toont
  2. Voer het door u gekozen eiwit en de Latijnse naam van het gekozen organisme in het zoekvak in. Zie de volgende voorbeeldzoekopdrachten:
    1. Hemoglobine Mus musculus (huismuis)
    2. Hemoglobine Canis lupus familiaris (hond)
    3. Hemoglobine Procyon lotor (wasbeer)
    4. Hemoglobine Myotis lucifugus (kleine bruine vleermuis)
    5. Hemoglobine Carassius auratus (goudvis)

    Geef de leerlingen voor een beoordeling een korte paper waarin de conclusies worden uitgelegd die ze kunnen trekken over de evolutionaire relaties tussen de organismen die ze hebben gekozen op basis van het eiwit dat ze hebben gekozen. Zouden de resultaten hetzelfde zijn als ze een ander eiwit zouden analyseren? Moedig leerlingen aan om relevante woordenschat uit de fylogenetische eenheid en concepten die in eerdere onderzoeken zijn geleerd, te gebruiken om hun conclusies te rechtvaardigen.


    AP'xAE is een handelsmerk geregistreerd en/of eigendom van de College Board'sxAE, die niet betrokken was bij de productie van deze producten en deze niet onderschrijft.

    Ontvang docententips en exclusieve aanbiedingen

    Meld u aan om handige tips voor docenten en exclusieve kortingen te ontvangen, te beginnen met $ 25 korting op uw volgende bestelling.


    U kunt de documenten hier controleren. U kunt echter gemakkelijk een van de volgende opdrachten gebruiken om biopython te installeren.

    Een van de babystappen bij het analyseren van biologische sequenties is het lezen van de FASTA-geformatteerde sequenties. Hiervoor kunnen we biopython SeqIO API gebruiken.

    De bovenstaande code herhaalt elk van de FASTA-records in het bestand. De afdrukopdrachten worden uitgevoerd: volgorde-ID, beschrijvingstekst, lengte van sequentierecord en eerste 50 tekens respectievelijk van de volgorde. Hier is een voorbeelduitvoer voor de eerste iteratie van het FASTA-bestand.


    BLAST+: architectuur en toepassingen

    Achtergrond: Sequentieovereenkomst zoeken is een zeer belangrijke bioinformatica-taak. Hoewel de Basic Local Alignment Search Tool (BLAST) beter presteert dan exacte methoden door het gebruik van heuristieken, is de snelheid van de huidige BLAST-software niet optimaal voor zeer lange zoekopdrachten of databasereeksen. Er zijn ook enkele tekortkomingen in de gebruikersinterface van de huidige opdrachtregeltoepassingen.

    Resultaten: We beschrijven functies en verbeteringen van herschreven BLAST-software en introduceren nieuwe opdrachtregeltoepassingen. Lange queryreeksen worden voor verwerking opgedeeld in brokken, wat in sommige gevallen leidt tot aanzienlijk kortere doorlooptijden. Voor lange databasereeksen is het mogelijk om alleen de relevante delen van de reeks op te halen, waardoor de CPU-tijd en het geheugengebruik voor zoekopdrachten van korte query's op databases van contigs of chromosomen wordt verminderd. Het programma kan nu maskeerinformatie voor databasesequenties ophalen uit de BLAST-databases. Een nieuwe modulaire softwarebibliotheek heeft nu toegang tot onderwerpreeksgegevens uit willekeurige gegevensbronnen. We introduceren verschillende nieuwe functies, waaronder strategiebestanden waarmee een gebruiker zijn favoriete set opties kan opslaan en hergebruiken. De strategiebestanden kunnen worden geüpload naar en gedownload van de NCBI BLAST-website.

    Conclusie: De nieuwe BLAST-opdrachtregeltoepassingen laten, vergeleken met de huidige BLAST-tools, aanzienlijke snelheidsverbeteringen zien voor lange zoekopdrachten en databasesequenties met chromosoomlengte. We hebben ook de gebruikersinterface van de opdrachtregeltoepassingen verbeterd.


    • BLAST+ uitvoerbare bestanden (geïnstalleerd en in uw PATH)
    • Aangepaste Perl-scripts (BLASTN_parse.pl en BLASTP_parse.pl)
    • R
    • BBEdit of een tekstverwerker naar keuze
    • Cyberduck of software voor bestandsoverdracht naar keuze
    • Microsoft Excel

    [Opmerking: als u geen lokale BLAST en/of BioPerl hebt geïnstalleerd, worden tussenliggende bestanden opgeslagen in de

    /TodosSantos/local_blast/prerun/ map zodat u kunt volgen.]


    Discussie en conclusie

    De annotatie van structuur en functie van het onbekende eiwit is een van de grootste uitdagingen in de bio-informatica. In het verleden zijn er een aantal methoden ontwikkeld voor het uitvoeren van annotatie op residuniveau van eiwitten met hoge nauwkeurigheid met behulp van op kennis gebaseerde en nieuwe technieken. Daarnaast is er een significante ontwikkeling in technieken voor het zoeken naar overeenkomsten [8, 17, 26]. Dit roept de vraag op waarom er behoefte is aan het ontwikkelen van een eenvoudige op BLAST gebaseerde server voor annotatie van eiwitten. Bioinformatica-wetenschappers zijn geïnteresseerd in het ontwikkelen van geavanceerde technieken voor betere annotatie. Ondanks dat BLAST twee decennia geleden is ontwikkeld en is geciteerd door

    54.000 onderzoeksartikelen, is het voor een bioloog moeilijk om een ​​query-eiwit op residuniveau te annoteren met behulp van op BLAST gebaseerde zoekopdrachten tegen PDB. Je zou kunnen stellen dat het voor een bio-informaticus een triviale taak is om een ​​eiwit op residuniveau te annoteren, maar we moeten begrijpen dat het moeilijk is voor een bioloog die daadwerkelijk annotatie op residuniveau nodig heeft. In deze studie doen we een systematische poging om een ​​bioloog te helpen bij het toekennen van structuur of functie aan hun eiwit op residuniveau.

    Onze server heeft een reeks modules voor het uitvoeren van uitgebreide annotaties van eiwitten. De standaardannotatie is gebaseerd op de consensus van structuur/functie-informatie van de meest vergelijkbare tien PDB-ketens. De structuur/functie-informatie van PDB-ketens is afgeleid van de ccPDB-database en niet-redundante databases worden gemaakt met behulp van de NCBI-toolkit. Het aantal PDB-ketens kan worden verhoogd om de betrouwbaarheidsscore voor annotaties en de PDB-zoekruimte te vergroten. Aangezien veel PDB-ketens op elkaar lijken, kan de gebruiker de verschillende niet-redundante databases selecteren om de annotatiedekking in PDB te vergroten. De annotatiemodule voor liganden is de enige methode die in staat is om alle liganden die aanwezig zijn in VOB te annoteren. Het stelt gebruikers ook in staat om hun querysequentie te annoteren tegen een specifiek ligand of een set liganden. Met behulp van de structuur- en functiemodules kan de gebruiker de meest gerelateerde PDB-keten bepalen en de queryreeksstructuur en het interactiegebied beter begrijpen met behulp van de PDB-ketenannotatiemodule. Om een ​​rijke visualisatie-omgeving te bieden, hebben we jqxWidgets geïntegreerd.

    In deze studie hebben we tien databases gemaakt voor het uitvoeren van BLAST-zoekopdrachten, één database voor elk type structuur- of functieannotatie. Je kunt de vraag stellen waarom we specifieke structuur/functiedatabases hebben gemaakt in plaats van te zoeken in de hele PDB. Het is omdat verschillende structuur/functie-gerelateerde PDB-ketens niet gelijk verdeeld zijn in PDB, er zijn bijvoorbeeld beperkte DNA-interagerende PDB-ketens. Het is mogelijk dat DNA-interagerende ketens of regio's niet in tophits komen als we PDB brede BLAST-zoekopdracht uitvoeren. In onze DNA-annotatiemodule voeren we BLAST-zoekopdrachten uit tegen alleen DNA-interagerende eiwitketens. Dit stelt ons in staat om DNA-interagerende regio's te annoteren, ondanks dat hun distributie in PDB zeldzaam is. Deze tien typen databases die op onze server worden gebruikt, stellen de gebruiker in staat om onbevooroordeelde annotaties uit te voeren.

    Met deze StarPDB kan de gebruiker zoeken naar overeenkomsten tegen eiwitketens op verschillende niveaus, waaronder een redundantieniveau van 100, 70 en 40%. Dit is belangrijk om te begrijpen waarom we drie niveaus van redundantie hebben gebruikt in plaats van een BLAST-zoekopdracht uit te voeren op een 100% niet-redundante database. Standaard voert de server zoekopdrachten uit op gespecificeerde niet-redundante databases op redundantieniveau 100 % (uniek eiwit). Deze database met unieke eiwitketens heeft het voordeel dat deze geen identieke eiwitketen bevat, dus identieke hits worden verwijderd die de prestaties zullen verbeteren. Hoewel onze database van identieke eiwitketens nog steeds alle identieke ketens verwijdert, bevat deze zeer vergelijkbare eiwitketens. Het is mogelijk dat de top tien van vergelijkbare PDB-ketens alleen een gespecificeerd gebied van het query-eiwit annoteren en er niet in slagen om de hele query-sequentie te annoteren. Om deze beperking te overwinnen, zal BLAST-zoeken tegen verschillende PDB-ketens de PDB-zoekruimte en de annotatiedekking van de queryreeks vergroten. We staan ​​gebruikers toe om BLAST uit te voeren tegen niet-redundante datasets op 70 en 40%, die diverse klasse van PDB-ketens bevat. We adviseerden gebruikers om eerst te zoeken op niet-redundant op niveau 100% als ze er niet in slagen hele regio's te annoteren, dan moeten ze redundantie proberen op 70 of 40%. StarPDB is een unieke bron voor de bioloog om annotaties te maken en de structuur en functionele aspecten van hun eiwitten te analyseren.


    Blast-databases - Biologie

    WormBase is een internationaal consortium van biologen en computerwetenschappers… Meer weten

    Meer weten over wormonderzoek?

    Begin hier om toegang te krijgen tot encyclopedische informatie over het wormgenoom en zijn genen, eiwitten en andere gecodeerde functies… Meer informatie

    Begin

    • op soort
      • C. elegans
        [ Legacy GBrowse ]
      • B. maleisië
        [ Legacy GBrowse ]
      • C. brenneric
        [ Legacy GBrowse ]
      • C. briggsae
        [ Legacy GBrowse ]
      • C. japonica
        [ Legacy GBrowse ]
      • C. remanei
        [ Legacy GBrowse ]
      • O. volvulus
        [ Legacy GBrowse ]
      • P. pacificus
        [ JBrowse ] [ Legacy GBrowse ]
      • S. ratti
        [ Legacy GBrowse ]
      • T. muris
        [ Legacy GBrowse ]
      • Meer…
      • Databases
      • Gen klasse
      • Laboratorium
      • Methoden:
      • Motief
      • Papier
      • Persoon
      • Protocollen
      • Proces & Pad:
      • Reagens
      • Transposon-familie

      Laatste updates

      Ontdek WormBase's complexe verzameling informatie met een verscheidenheid aan bio-informatische tools en meer… Meer informatie

      Begin

      Algemeen zoeken

      Op volgorde

      op uitdrukking

      op literatuur

      Datamining en batchquery's

      Voor parasieten

      Voor ontwikkelaars

      door ontologie

      Top 3 meest gebruikte tools

      WormBase biedt een groot aantal vooraf berekende bestanden om downstream-analyse te vergemakkelijken… Meer informatie

      Begin

      Veel gevraagde gegevens

      Doe mee en maak contact met wormexperts online en daarbuiten… Meer informatie

      Directory's

      Raak betrokken

      Externe links

      We hebben verschillende gebruikershandleidingen gemaakt voor verschillende interesses en ervaringsniveaus… Meer informatie


      Nieuwe ribosomale RNA BLAST-databases beschikbaar op de web-BLAST-service en om te downloaden

      We hebben een samengestelde set van ribosomale RNA (rRNA) referentiesequenties (Targeted Loci) met verifieerbare organismebronnen en huidige namen. Deze set is van cruciaal belang voor het correct identificeren en classificeren van prokaryotische (bacteriën en archaea) en schimmelmonsters (tabel 1). Om gemakkelijke toegang tot deze reeksen te bieden, hebben we onlangs een aparte rRNA/ITS-databases sectie op de nucleotide BLAST-pagina voor deze gerichte sequenties, waardoor het gemakkelijk is om bronorganismen snel te identificeren (Figuur 1)

      Tabel 1. NCBI samengestelde gerichte rRNA-sequenties nu beschikbaar als BLAST-databases.

      Figuur 1. Het databaseselectiemenu op de nucleotide-nucleotide BLAST-pagina met het keuzerondje rRNA/ITS-database geselecteerd.

      Het gebruik van deze databases voor identificatie zal uw zoekopdrachten versnellen en u de meest informatieve resultaten opleveren. Als u uw zoekopdracht wilt uitbreiden met niet-gecureerde 16S rRNA-sequenties, wijzigt u de in de Nucleotidenverzameling (nr/nt) databank. U kunt ook de Organisme filter naar uw taxonomische groep van belang.

      U kunt deze nieuwe databases ook downloaden van de BLAST db FTP-directory voor gebruik in lokale BLAST-zoekopdrachten.


      Blast-databases - Biologie

      *een bijgewerkte versie van dit artikel is hier te vinden
      Het is algemeen bekend dat wetenschappelijke informatie in een exponentieel toenemend tempo wordt gegenereerd. Een recent streven naar moleculaire biologie is van bijzonder algemeen belang: het Human Genome Project (HGP) heeft het volledige menselijke genoom gesequenced en in kaart gebracht. Hoewel het HGP met succes is afgerond, is het werk van het HGP nog lang niet voorbij. De structuur, functie en moleculaire mechanismen van alle genetische elementen waaruit het menselijk genoom bestaat, moeten nog worden ontdekt. Bioinformatica is een benadering die op dit gebied wordt gebruikt. Bio-informatica kan worden gedefinieerd als de toepassing van computerhulpmiddelen bij het oplossen van biologische problemen. Het internet biedt een toegankelijk en efficiënt platform dat bio-informatica kan huisvesten.
      Veel wetenschappers noemen de volgende golf in de bio-informatica systeembiologie, een benadering om nieuwe en complexe biologische vragen aan te pakken. Systeembiologie omvat de integratie van genomica, proteomics en bioinformatica om een ​​volledig systeembeeld van een biologische entiteit te creëren.
      Er is een overvloed aan bio-informatische hulpmiddelen op internet, maar een bijzonder goede bron van informatie, hulpmiddelen en bronnen is gemakkelijk te vinden op de website van het National Center for Biotechnology Information (NCBI) (http://www.ncbi.nlm.nih. regering/). De NCBI-website is momenteel de belangrijkste bron voor bio-informatica die beschikbaar is voor onderzoekers en het publiek. De NCBI biedt vele diensten die zowel voor wetenschappers als voor studenten interessant zijn. Maar zelfs de middelen van de NCBI zijn niet uitputtend.

      Dit artikel geeft een beknopt overzicht van de NCBI en de verschillende middelen die beschikbaar worden gesteld voor wetenschappelijk onderzoek en openbaar onderwijs. De NCBI is een zeer algemene bron voor bio-informatische hulpmiddelen en er zijn krachtigere en gespecialiseerdere hulpmiddelen elders op internet beschikbaar. Het belang van de NCBI is dat het een toegankelijke en uitgebreide bron van moleculair biologische informatie is.

      Geschiedenis van de NCBI

      Het National Center for Biotechnology Information (NCBI) is een multidisciplinaire onderzoeksgroep die dient als een bron voor moleculaire biologie-informatie. Het werd in 1988 opgericht als aanvulling op de activiteiten van de National Institutes of Health (NIH) en de National Library of Medicine (NLM). De faciliteiten zijn gevestigd in Bethesda, Maryland, VS. Aanvankelijk was de oprichting van NCBI bedoeld om te helpen bij het begrijpen van de moleculaire mechanismen die van invloed zijn op de menselijke gezondheid en ziekte met de volgende doelen: het creëren en onderhouden van openbare databases, het ontwikkelen van software om genomische gegevens te analyseren en om onderzoek te doen in computationele biologie. Na verloop van tijd, en door wijdverbreid gebruik van internet, werd de NCBI zich steeds meer bewust van de rol van puur biologisch onderzoek. Moleculaire biologie werd net zo prominent als biomedisch onderzoek. Dit bleek duidelijk toen de NCBI verschillende gespecialiseerde databases aanmaakte. Gezondheid en ziekte van de mens waren niet langer het primaire aandachtsgebied. NCBI begon ook diensten aan te bieden:
      -ontwikkelen van nieuwe methoden om met de omvang en complexiteit van data om te gaan; het onderzoeken van methoden die de structuur en functie van macromoleculen kunnen analyseren
      -het creëren van geautomatiseerde systemen voor het opslaan en analyseren van gegevens over moleculaire biologie
      -toegang verlenen tot analyse- en computertools (die het gebruik van databases en software vergemakkelijken) aan onderzoekers en het publiek

      Tijdens het proces van databaseontwikkeling heeft NCBI databasestandaarden gevormd, zoals databasenomenclatuur die ook worden gebruikt door andere niet-NCBI-databases. Een NCBI-database is GenBank, de nucleïnezuursequentiedatabase die sequentie-informatie van meer dan 100.000 verschillende organismen bevat. GenBank is waarschijnlijk de meest populaire database in gebruik. Voor velen is de naam synoniem met de NCBI.

      Genbank als modeldatabase

      Een van de taken van NCBI is het onderhouden van openbaar beschikbare databases. Maar wat zijn databases precies en waarom zijn ze belangrijk voor de moleculaire biologie? Kortom, een database is een grote en georganiseerde hoeveelheid gegevens. Maar een van de belangrijkste criteria voor een biologische database zijn persistente gegevens. Met andere woorden, de informatie die wordt gecodeerd en weergegeven door de gegevens kan veranderen, maar het type gegevens is beter bestand tegen verandering. Deze inflexibiliteit van gegevens is een weerspiegeling van wat macromoleculen omvat en hoe wetenschappers ervoor hebben gekozen om de natuur te symboliseren. De sequentie van nucleïnezuren kan bijvoorbeeld worden gesymboliseerd door letters die nucleotiden voorstellen en een eiwitsequentie kan worden voorgesteld door 20 letters die de aminozuren symboliseren. Deze reeksen lettersymbolen vormen een duizelingwekkende hoeveelheid informatie, maar voor geautomatiseerde systemen kunnen ze gemakkelijk op een optimale manier worden georganiseerd en gemanipuleerd. Een modelsequentiedatabase is GenBank.

      GenBank, een database die alle bekende nucleïnezuursequenties bevat, is een van de leden van de "Triple Entente" van sequentiedatabases, de andere twee zijn het European Molecular Biology Laboratory (EMBL) en de DNA Database of Japan (DDBJ). Vanaf augustus 2003 bevatte Genbank 27,2 miljoen verschillende sequenties. Er zijn meer dan 130 volledige microbiële genomen beschikbaar, evenals meer dan een dozijn eukaryote genomen (inclusief het menselijk genoom). Ongeveer 26% van de sequenties in de database zijn van menselijke oorsprong (1).

      Zoeken naar een sequentie in GenBank wordt "een zoekopdracht maken" genoemd. De informatie die naar boven komt, wordt de "record" (entry) voor de query genoemd. Het record voor elke sequentie in GenBank bevat een korte beschrijving van de sequentie, de wetenschappelijke naam en taxonomie van het bronorganisme waarvan de sequentie is afgeleid, bibliografische referenties en een lijst met "kenmerken". Kenmerken omvatten de coderende sequentiegebieden van het nucleïnezuur en andere plaatsen van biologisch belang (zoals transcriptiemotieven, herhalingsgebieden, mutatieplaatsen en modificatiegebieden). Bovendien zijn de eiwitsequenties van de getranslateerde nucleïnezuurcoderende gebieden inbegrepen. Aan elk GenBank-record wordt een "toetredingsnummer" toegewezen dat een stabiele en unieke identificatie van het record is die niet verandert met de tijd. Bovendien wordt aan elke reeks een "GenInfo (gi) nummer" toegekend, evenals de "versie van het toegangsnummer" deze nummers veranderen. Als de volgorde bijvoorbeeld wordt bijgewerkt voor CUT1-Receptor (toegangsnummer: AB123456, versie: AB123456.1, gi-nummer: 123456789), veranderen de versie- en gi-nummers. Dit vergemakkelijkt het archiveren van gegevens en voorkomt inconsistenties van sequentie-informatie in de literatuur.

      De inzendingen van Genbank zijn over het algemeen verdeeld volgens de taxonomische indelingen - de belangrijkste gebieden zijn bacteriën, virussen, knaagdieren en mensen, en welke methoden experimenteel werden gebruikt om de sequentie-informatie te genereren. Ongeveer 70% van alle sequenties in GenBank zijn bijvoorbeeld EST's (Expressed Sequence Tags), die worden gegenereerd door mRNA's omgekeerd te transcriberen in complementaire cDNA's. EST's vertegenwoordigen segmenten van DNA die coderen voor een mRNA. Andere veelgebruikte experimentele methoden voor het genereren van sequenties zijn onder meer Sequence-Tagged Sites (STS) die worden gebruikt om fysieke kaarten af ​​te leiden bij de constructie van het genoom, en Genome Survey Sequence (GSS).

      NCBI biedt online software om onderzoekers te helpen sequentiegegevens in GenBank in te dienen. Individuele onderzoekers kunnen één sequentie indienen. Grotere inzendingen komen vaak van sequencing-centra, die veel sequenties of hele genomen kunnen indienen. De link tussen het indienen van sequentiegegevens bij GenBank en publicatie is ook een gecoördineerde inspanning. tijdschriften die sequentiegegevens publiceren, vereisen doorgaans de indiening van GenBank als voorwaarde voor publicatie. En onderwerping aan GenBank berust ook op de intentie om de sequentie te publiceren van de kant van de auteur of onderzoeker. De online indieningstool heet BankIt. Deze tool vereist dat de auteur de reeks invoert, bewerkt en biologische annotaties toevoegt, zoals coderingsgebieden. BankIt is een tool voor kleine inzendingen, daarom gebruiken genoomcentra in plaats daarvan de indieningstool Sequin. Sequin zorgt voor de indiening van langere reeksen en heeft een meer georganiseerde methode voor het indienen van reeksen.

      Als een sequentie eenmaal aan de database is toegevoegd, welke voorbereidingen zijn er dan nodig voordat de analyse van de gegevens kan beginnen? Het antwoord is te vinden in hulpprogramma's voor het ophalen van databases.

      Genbank-gegevens en gegevens uit andere NCBI-databases ophalen

      Het primaire database-ophaalsysteem bij NCBI is Entrez, dat verschillende databases met elkaar verbindt, waaronder GenBank. De centrale database in Entrez is de nucleotidedatabase Genbank, die linkt naar de volgende databases: PubMed, Protein Sequence, Genomes, Taxonomy, Structure, Population, Online Mendelian Inheritance in Man (OMIM), Books en 3D Domains. Verbindingen tussen vermeldingen in een database worden buren genoemd en verbindingen tussen vermeldingen van verschillende databases worden hardlinks genoemd. Een sequentie die is opgehaald uit GenBank kan bijvoorbeeld hardlinken naar een literatuurvermelding in PubMed voor de specifieke sequentie. PubMed is de NCBI-database met literatuurcitaten die abstracts van meer dan 12 miljoen tijdschriftabstracts bevat. Zodra een sequentie is gevonden in GenBank, of zodra er gegevens zijn gevonden in een van de verschillende databases, kan met behulp van hardlinks een lijst met onderwerpgerelateerde tijdschriftabstracts worden opgeroepen in PubMed. Helaas zijn full-text elektronische tijdschriften niet gratis toegankelijk via een van de NCBI-databases. Gelukkig bieden universiteitsbibliotheken (zoals de UBC-bibliotheek) deze service wel gratis aan.

      Andere door NCBI aangeboden database-ophaalsystemen zijn LocusLink en de Taxonomy Browser. LocusLink biedt beschrijvende informatie over genen en is gebaseerd op samengestelde gegevens. De taxonomiebrowser biedt informatie over de afstamming van organismen die overeenkomstige sequenties hebben in GenBank. Taxonomische en fylogenetische bomen kunnen ook worden bekeken via de Taxonomy Browser.

      Zodra gegevens door Entrez zijn opgehaald, moeten deze correct worden geformatteerd voordat de gegevensanalysesoftware van NCBI kan worden toegepast. Het FASTA-formaat wordt meestal toegepast op sequentiegegevens van GenBank om de gegevens om te zetten in een vorm die kan worden gelezen door gegevensanalysesoftwaretools.

      NCBI's data-analytische softwaretools

      Het uiteindelijke doel van bioinformatica is om conclusies te trekken over data. Analytische softwaretools maken het mogelijk wetenschappelijke experimenten uit te voeren, hypothesen te verwerpen en conclusies te trekken met betrekking tot de moleculaire biologie. Hoewel het geen vervanging is voor de werkbank, fungeert bio-informatica als een nuttige aanvulling op in het laboratorium gegenereerde gegevens. Bij NCBI en op andere plaatsen op internet bestaan ​​veel tools voor gegevensanalyse. Vanwege het overweldigende aantal beschikbare technieken voor het analyseren van gegevens en de relatieve nieuwheid van veel analytische software, kunnen de voorwaarden voor het gebruik van een tool verwarrend zijn. Het optreden van fouten door onbekendheid komt vrij vaak voor. Andere tools zijn wijdverbreid gebruikt, simpelweg omdat ze gemakkelijk te gebruiken zijn. Een van die tools is de Basic Linear Alignment Search Tool (BLAST), die het meest wordt gebruikt om nucleïnezuursequenties van GenBank te analyseren.

      BLAST is een softwaretool die twee sequenties op één lijn brengt om te beslissen of er homologie bestaat tussen de twee sequenties. De sequenties kunnen ofwel twee nucleotidesequenties zijn of twee eiwitsequenties. Homologie geeft aan dat de sequenties die worden bestudeerd afkomstig zijn van een gemeenschappelijke voorouderlijke sequentie. Homologie tussen sequenties is ook indicatief voor (maar niet voldoende om) vergelijkbare functie op moleculair niveau te bewijzen. Misverstand over de betekenis van de term kan worden geïllustreerd door uitspraken als "deze twee sequenties zijn 66% homoloog" en "er bestaat in deze mate homologie". Homologie is niet gebaseerd op percentage of graad, het bestaan ​​ervan is extreem. Homologie bestaat tussen sequenties of niet. Dus hoe leidt BLAST homologie af? Kortom, BLAST is gebaseerd op het idee van procentuele overeenkomst tussen sequenties. BLAST is gebaseerd op statistische modellen van de verdeling van het toevallig verkrijgen van een bepaalde nucleotidesequentie. Als twee nucleotidesequenties een mate van overeenkomst vertonen, zouden ze, volgens het statistische model, worden geclassificeerd als homologe sequenties. Er bestaan ​​verschillende statistische modellen voor eiwitsequenties. NCBI biedt een verscheidenheid aan op BLAST gebaseerde tools voor het analyseren van verschillende gegevenstypen. Naast het gebruik van BLAST om homologie tussen twee sequenties af te leiden, is het mogelijk om een ​​querysequentie te BLAST tegen het menselijke genoom of het muizengenoom om homologe sequenties te zoeken.

      Andere NCBI-tools voor gegevensanalyse zijn onder meer Electronic-PCR, waarmee Sequence-Tagged Sites worden gelokaliseerd, en BLAST-Link (Blink), die eiwit-BLAST-uitlijningen toont voor elke eiwitsequentie die in Entrez wordt gevonden. Veel meer tools zijn toegankelijk via de website van NCBI. Sommige van deze tools voor gegevensanalyse zijn ook databases. Een niet-uitputtende lijst van tools omvat: OrfFinder (voor open leesframes), RefSeq, UniGene, SNP Database (voor single-nucleotide polymorfismen), Human Genome Sequencing, Human MapViewer (om het ontwerp van het menselijk genoomproject te bekijken), Gene Expression Omnibus, Online Mendelian Inheritance in Man (OMIM) (catalogiseert menselijke genetische ziekten), de Molecular Modeling Database (MMDB), een database met 3D-eiwitstructuur, en de Conserved Domain Database (CDD).

      Databases en openbaar onderwijs

      Eén Entrez-database dient als een potentiële bron voor openbaar onderwijs in de moleculaire biologie: het is de BOOKS-database. De op internet gebaseerde boeken vullen niet alleen onderwerpen aan en verduidelijken ze, ze dienen ook als een zeer geloofwaardige bron voor wetenschapsverslaggevers en journalisten. Het nieuws is vaak de enige manier van wetenschappelijke informatieoverdracht tussen de onderzoeker en het publiek. Daarnaast kunnen universitaire studenten enkele vereiste cursusboeken in de database vinden. Bijvoorbeeld Lodish's Molecular Cell Biology (UBC's Biology 350), Albert's Essential Cell Biology (UBC's Biology 441), Gilbert's Developmental Biology (UBC's Biology 331), Modern Genetic Analysis (UBC's Biology 334&335) en Janeway's Immunobiology (UBC's Microbiology 301) inhoud zijn volledig beschikbaar.

      Daarnaast biedt NCBI "Science Primers" op gebieden die de theoretische basis van NCBI zelf vormen, met tutorials over onderwerpen als bio-informatica, EST's, microarray-technologie, STS'en en moleculaire modellering. Ten slotte biedt NCBI zelfstudies over het gebruik van de verschillende databases en softwaretools voor gegevensanalyse

      Conclusies

      Met input bij het in kaart brengen van het menselijk genoom, zijn de diensten van NCBI onmiskenbaar belangrijk. NCBI biedt een uitgebreide reeks databases en softwaretools om informatie te analyseren. Het voordeel van het hebben van NCBI is dat ze een aanzienlijke hoeveelheid toegankelijke informatie aan het publiek aanbieden. NCBI zet de wetenschappelijke traditie voort om wetenschappelijke kennis voor iedereen gratis te maken, wat een ongewoon fenomeen is in de huidige wereld van biotechbedrijven en hun streng bewaakte patenten. Bio-informatica blijft als discipline exponentieel groeien. The NCBI currently combats the problem of redundancy of information by establishing non-redundant databases to limit search-times and increase the ease of making a query. The NCBI website currently handles its services efficiently, despite the overwhelming amount of services present. To continue this efficiency, NCBI must be aware of and receptive to new ways of assimilating data into an organized form

      Woordenlijst

      1. Curated data = the information supplied is based on the consensus and opinions of a number of researchers.
      2. BLAST a query sequence = To input a sequence under study into the database and compare it to the entire collection of sequences in the GenBank database in order to search for homologous sequences.

      Referenties

      1. Benson DA, Karsch-Mizrachi I, Lipman DJ, Ostell J, Wheeler DL. GenBank: Update. Nucleic Acids Research, 2004, vol
      32, Database Issue: D23-D26.

      Recommended Resources for Further Information

      1. The NCBI Website http://www.ncbi.nlm.nih.gov/
      There is a never-ending series of links. The most useful place to start is probably the SiteMap. The best place to visualize the databases and software tools is the website itself. Experimenting and playing with NCBI's services is the best way to learn about how they work.

      2. A printed resource is the book by Baxevanis and Ouelette entitled Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins, 2nd edition.
      This book is very theoretical and may soon be out of date.
      It contains colourplates of many different databases (some of which are NCBI databases).

      3. Journals
      A good journal for information on bioinformatics databases is Nucleic Acids Research.
      This journal publishes an issue devoted entirely to databases at the beginning of each year

      Genome Projects
      the ins and outs of sequencing

      What is Bioinformatics?
      Article based on an interview with Francis
      Ouelett, director of the UBC Bioinformatics
      Centre.


      Genome Warrior
      New Yorker article on Craig Venter from Celera &
      the race to sequence the human genome.

      NCBI tutorials
      links to online tutorials for using BLAST & tips
      for teaching bioinformatices to students


      Usage

      Set-up

      To load BLAST, type the following into the command line:

      Then create a resource file .ncbirc, and put it under your home directory.

      Using BLAST

      The five flavors of BLAST mentioned above perform the following tasks:

      blastp: compares an amino acid query sequence against a protein sequence database

      blastn: compares a nucleotide query sequence against a nucleotide sequence database

      blastx: compares the six-frame conceptual translation products of a nucleotide query sequence (both strands) against a protein sequence database

      tblastn: compares a protein query sequence against a nucleotide sequence database dynamically translated in all six reading frames (both strands).

      tblastx: compares the six-frame translations of a nucleotide query sequence against the six-frame translations of a nucleotide sequence database. (Due to the nature of tblastx, gapped alignments are not available with this option)

      NCBI BLAST Database

      We provide local access to nt and refseq_protein databases. You can access the database by loading desired blast-database modules. If you need other databases, please send a request email to OSC Help .


      A small bonus: viewing your results using your web browser

      Working with these files becomes cumbersome because their length easily exceeds the viewport of your terminal.

      I wont go into detail about how any of this works as that would escape the purpose of this BLAST tutorial, but I will show you, very quickly, how you can set up an http server and make these files available over the web.

      Don&rsquot worry! You&rsquoll be the only one who can see them.

      Download and install nodejs and npm on your Exoscale instance:

      Verify that they were installed correctly:

      You should get something like:

      Now, go to the location where the files you want to see are stored (or to your $HOME directory), and execute:

      You should see something like:

      You just set up a web server on your instance, listening to requests at port 8080. This port is not open in your instance by default, so it is not accesible by the public. Instead, we are going to route it to your local computer with an SSH tunnel.

      Open up a new terminal on your computer (note: not your Exoscale instance) and execute:

      If you want to know how all of this works, you should read up about SSH Tunnels. But for now, you just forwarded port 8080 on Exoscale&rsquos instance to your local computer, so you can open any web browser, navigate to http://localhost:8080/ and voila, see your files in there.

      Navigate to your results.txt file and you should see your work displayed in a much more user-friendly environment.

      That&rsquos it for now, stay tuned for the second part, where we&rsquoll show you how to set up your own private BLAST databases and start submitting queries against them.