Informatie

Wat is de beste manier om te achterhalen welke domeinen in een lijst met InterPro-ID's katalytisch zijn?


Wat is de beste manier om te achterhalen welke domeinen in een lijst met InterPro-ID's katalytisch zijn?

(In dit geval kijken we naar menselijke enzymen en de InterPro-ID's van hun domeinen.)

Bij voorbaat dank! Setz


In InterPro kunt u "op tekst" zoeken en "katalytisch" typen. Het geeft je een lijst met ID's met een beschrijving en je kunt de lijst downloaden.


2 Wat is PlanMine?

PlanMine is een database voor het delven van planaire transcriptomen. We hosten onafhankelijk geassembleerde transcriptomen van de modelsoort S. meditteranea bijgedragen door verschillende groepen, evenals transcriptomen van "wilde" planaire soorten voor vergelijkende analyse. U kunt PlanMine zoeken op volgorde (met behulp van onze BLAST-query) of op annotatie (dit is het gemakkelijkst met behulp van onze vooraf gedefinieerde sjablonen). Minable informatie omvat momenteel BLAST homologieën, GO-termen, orthologen in andere vlakke soorten, genexpressie-informatie en taxonomische informatie over de vertegenwoordigde soorten. PlanMine is gebouwd met het Intermine datawarehouse-platform, dat ook wordt gebruikt door andere gemeenschappen van modelorganismes, waaronder WormMine, FlyMine, YeastMine en ZebrafishMine, en maakt zo eenvoudige systeemoverschrijdende vergelijkingen mogelijk.


Wat zijn alle mogelijke toepassingen van GO?

Het zou onmogelijk zijn om alle mogelijke toepassingen van GO op te sommen, maar toepassingen waarvoor GO al is gebruikt, zijn onder meer:

  • integratie van proteomische informatie van verschillende organismen
  • functies toewijzen aan eiwitdomeinen
  • het vinden van functionele overeenkomsten in genen die tot overexpressie of onderexpressie worden gebracht bij ziekten en naarmate we ouder worden
  • het voorspellen van de waarschijnlijkheid dat een bepaald gen betrokken is bij ziekten die nog niet zijn toegewezen aan specifieke genen
  • het analyseren van groepen genen die tijdens de ontwikkeling tot expressie worden gebracht
  • het ontwikkelen van geautomatiseerde manieren om informatie over genfunctie uit de literatuur af te leiden
  • het verifiëren van modellen van genetische, metabole en productinteractienetwerken.

Voor verwijzingen naar deze en andere onderzoeken waarin GO is gebruikt, zie de GO en de wetenschappelijke literatuurpagina.


<p>Deze sectie bevat alle nuttige informatie over het eiwit, voornamelijk biologische kennis.<p><a href='/help/function_section' target='_top'>Meer. </a></p> Functie i

<p>Deze subsectie van de sectie <a href="http://www.uniprot.org/help/function%5Fsection">Functie</a> beschrijft de katalytische activiteit van een enzym, dwz een chemische reactie die het enzym katalyseert.<p ><a href='/help/catalytic_activity' target='_top'>Meer. </a></p> Katalytische activiteit i

    in UniProtKB voor dit molecuul. in Rhea voor dit molecuul. van dit molecuul in ChEBI.
    in UniProtKB voor dit molecuul. in Rhea voor dit molecuul.
    in UniProtKB voor dit molecuul. in Rhea voor dit molecuul. van dit molecuul in ChEBI.
    in UniProtKB voor dit molecuul. in Rhea voor dit molecuul. van dit molecuul in ChEBI.
    in UniProtKB voor dit molecuul. in Rhea voor dit molecuul.

<p>Informatie die is gegenereerd door het UniProtKB automatische annotatiesysteem, zonder handmatige validatie.</p> <p><a href="/manual/evidences#ECO:0000256">Meer. </a></p> Automatische bevestiging volgens regels i


<p>Deze sectie geeft informatie over de locatie en de topologie van het rijpe eiwit in de cel.<p><a href='/help/subcellular_location_section' target='_top'>Meer. </a></p> Subcellulaire locatie i

Golgi-apparaat

Automatische bevestiging volgens regels i

Automatische bevestiging volgens regels i

Andere locaties

Automatische bevestiging volgens regels i

Automatische bevestiging volgens regels i

Automatische bevestiging volgens regels i

Golgi-apparaat
Kern
Plasma membraan
Andere locaties
    Bron: UniProtKB-SubCell Bron: Ensembl Bron: Ensembl Bron: Ensembl Bron: HPA Bron: Ensembl Bron: Ensembl Bron: Ensembl Bron: Ensembl

Topologie

FunctietoetsPositie(s)Beschrijving Acties Grafische weergaveLengte
<p>Deze subsectie van de sectie <a href="http://www.uniprot.org/help/subcellular%5Flocation%5Fsection">'Subcellular location'</a> beschrijft de omvang van een membraan-overspannend gebied van het eiwit . Het duidt de aanwezigheid aan van zowel alfa-helix transmembraanregio's als de membraanoverspannende regio's van beta-barrel transmembraaneiwitten.<p><a href='/help/transmem' target='_top'>Meer. </a></p> Transmembraan i 676 – 696 Spiraalvormige sequentieanalyse

Automatische bevestiging volgens sequentieanalyse i

Trefwoorden - Mobiele component i


Wat is de beste manier om te achterhalen welke domeinen in een lijst met InterPro-ID's katalytisch zijn? - Biologie

    Het domeinmodel moet ofwel: (1) het best gerangschikte (beste E-waarde) door NCBI beheerde domein zijn, of (2) het best gerangschikte domeinmodel van een externe bron, als er geen door NCBI beheerd domein is dat voldoet aan alle criteria voor een specifieke hit.

Als meerdere door NCBI samengestelde domeinmodellen overeenkomen met een bepaald interval op een query-eiwitsequentie en voldoen aan beide bovenstaande criteria, dan is het hoogst scorende model de specifieke hit en worden de andere modellen vermeld als niet-specifieke hits. Het hoogst scorende model is over het algemeen degene met de beste E-waarde, maar als twee of meer modellen dezelfde E-waarde hebben, dan wordt hun bitscore gebruikt om de gelijkspel te doorbreken. De CD-zoekresultaten voor eiwitsequentie NP_229631 NP_229631 laten bijvoorbeeld verschillende door NCBI beheerde domeinen zien die zijn uitgelijnd op hetzelfde gebied van de zoekopdracht. De best gerangschikte door NCBI beheerde domeinen zijn cd05297 (GH4_alpha_glucosidase_galactosidase) en cd05197 (GH4_glycoside_hydrolases), die beide een E-waarde van 2e-169 hebben (per 08 maart 2010). De bitscore voor de hit naar cd05297 (590,69) is echter hoger dan de bitscore voor cd05197 (590.65), dus cd05297 wordt weergegeven in de CD-zoekresultaten als de specifieke hit en cd05197 wordt weergegeven als een niet-specifieke hit. In het onwaarschijnlijke geval dat de bitscore onvoldoende is om de gelijke stand te doorbreken, wordt willekeurig slechts één treffer gekozen als een specifieke treffer. (Opmerking: de bitscore van een CD-Search-treffer naar een domeinmodel kan worden bekeken door op het plusteken (+) links van het toegangsnummer te klikken in de tabel "List of Domain Hits" op de CD-Search-resultatenpagina Bovendien wordt de domeinspecifieke drempelbitscore voor een door NCBI beheerd domein weergegeven in het statistiekvak van de cd-overzichtspagina van het domeinmodel.)

Daarentegen kunnen sommige eiwitquerysequenties meerdere hits hebben op door NCBI beheerde domeinen, en geen van hen zal verschijnen als een specifieke hit. Dat is waar in de CD_Search-resultaten voor eiwitsequentie NP_486772 (per 08 maart 2010). In dat geval is cd01662 (Ubiquinol oxidase I) het best gerangschikte (beste E-waarde) door NCBI beheerde domein, maar het wordt niet weergegeven als een specifieke hit omdat de bitscore van die hit niet overeenkomt met of hoger is dan het domein- specifieke drempel. De hits op twee andere door NCBI beheerde domeinen, cd01663 (Cyt_c_Oxidase_I) en cd00919 (Heme_Cu_Oxidase_I), hebben bitscores die voldoen aan de domeinspecifieke drempels voor die modellen, maar ze worden niet vermeld als specifieke hits omdat geen van beide is het best gerangschikte (dwz beste E-waarde) door de NCBI beheerde domein.

Om een ​​specifieke hit te zijn, moet een domeinmodel: (a) het best gerangschikte domeinmodel *EN* zijn (b) een bitscore hebben die voldoet aan of hoger is dan de domeinspecifieke drempelscore. Het combineren van de twee criteria bleek het aantal fout-positieve oproepen te verminderen.

  • Er is een hoog betrouwbaarheidsniveau dat de opgevraagde eiwitsequentie een lid is van de eiwitfamilie die wordt vertegenwoordigd door het domeinmodel en de specifieke functie heeft die op dat domein is geannoteerd.
  • Als de querysequentie zich in de Entrez Protein-database bevindt, wordt de afgeleide functie geannoteerd als "regio" op het eiwitsequentierecord, met de naam van het hoogscorende domeinmodel en de basespan. Als de specifieke hit betrekking heeft op een door NCBI samengesteld domeinmodel dat geconserveerde kenmerken bevat (residuen die betrokken zijn bij katalyse of binding), worden deze geannoteerd op het eiwitsequentierecord als 'sites'. Als de specifieke hit betrekking heeft op een domeinmodel van een externe bron, en het model behoort tot een superfamilie waarvan de vertegenwoordiger een door de NCBI beheerd domein is dat dergelijke annotaties heeft, dan zullen de geconserveerde kenmerken/sites die zijn geannoteerd op de superfamilievertegenwoordiger zijn toegewezen aan de queryreeks.
  • De algemene functie van de domeinsuperfamilie kan worden afgeleid voor de query-eiwitsequentie, maar de specifieke functie is minder zeker.
  • Als de opgevraagde eiwitsequentie zich in de Entrez Protein-database bevindt, wordt de naam en algemene functie van de domeinsuperfamilie geannoteerd in het eiwitsequentierecord (als een "regio"). De naam en functietekst zijn afgeleid van het domeinmodel dat als superfamilievertegenwoordiger is geselecteerd. Geconserveerde kenmerken ("sites") worden ook geannoteerd op het eiwitsequentierecord als de vertegenwoordiger van de superfamilie een door de NCBI beheerd domein is dat dergelijke annotaties heeft.

Hoe kan ik meerdere reeksuitlijningen bekijken met mijn queryreeks ingesloten?

Alignment visualisatie inclusief 3D-structuren

Als u een uitlijningsweergave weergeeft die een queryreeks bevat, kunt u dezelfde uitlijning ook in het Cn3D-programma bekijken door op de knop Structuurweergave te drukken. (De installatie van Cn3D duurt slechts een paar minuten en een zelfstudie beschrijft de kenmerken en functies van het programma. Het programma moet worden geïnstalleerd om de Structure View-knop te laten werken.)

Als een eiwitsequentie van een 3D-structuur is opgenomen in de sequenties die worden gebruikt om een ​​domeinmodel te cureren, zal Cn3D ook de 3D-structuur tonen. Als het domeinmodel sequenties van meer dan één 3D-structuur bevat, worden alle structuren weergegeven, over elkaar heen gelegd, en worden hun sequenties weergegeven in de uitlijning met meerdere sequenties.

Cn3D biedt kolomspecifieke kleuring door sequentiebehoud wanneer aangeroepen met meerdere uitlijningsweergaven. Dit is een handige functie om sequentieconservering binnen een CD-alignment te bestuderen en om uit te zoeken hoe goed de uitgelijnde query past bij de bestaande patronen van conservering en variabiliteit.

Hoe lang moet ik wachten op de resultaten van CD-Search?

CD-Search loopt parallel aan eiwit BLAST:  Wanneer komen zoekopdrachten in de BLAST-Queue?

Kan ik RPS-BLAST lokaal uitvoeren?
Hoe kan ik mijn eigen zoekdatabase maken voor lokaal zoeken?
Hoe kan ik de CDD-zoekdatabase van NCBI krijgen voor lokaal zoeken?

Ja, u kunt RPS-BLAST lokaal uitvoeren. Een zelfstandige versie van RPS-BLAST wordt geleverd met de uitvoerbare bestanden van BLAST die beschikbaar zijn op de NCBI FTP-site, en is ook beschikbaar als onderdeel van de NCBI-toolkitdistributie (zie ftp://ftp.ncbi.nih.gov/toolbox).

Afzonderlijke mappen op de FTP-site bieden documenten die elk van de BLAST-toepassingen beschrijven, inclusief documenten voor RPS-BLAST en een Formatrpsdb-toepassing die kan worden gebruikt om zoekdatabases te bouwen die correct zijn geformatteerd voor gebruik met RPS-BLAST.

Voorgeformatteerde zoekdatabases, die al zijn verwerkt door Formatrpsdb, zijn beschikbaar op de CDD FTP-site. Een README-bestand op de CDD FTP-site biedt ook meer details over het aanpassen van zoekdatabases.

Wat verklaart de verschillen in zoekresultaten die worden gegenereerd door de CD-Search-webservice en de zelfstandige RPS-BLAST?

Er zijn verschillende verschillen tussen de CD-Search-webservice en de zelfstandige RPS-BLAST, zoals gedistribueerd door NCBI en gebruikt met zoekdatabases zoals gedistribueerd door de CDD-groep.

De webserver is geoptimaliseerd voor het meest voorkomende gebruik van de CDD-bron, namelijk het annoteren van eiwitsequenties met duidelijk geïdentificeerde en goed begrepen eiwitdomeinen, en is ook geoptimaliseerd voor snelheid om een ​​groot aantal zoekopdrachten mogelijk te maken.

Daarentegen maakt standalone RPS-BLAST geen gebruik van de constante, veronderstelde databasegrootteparameter. Dus wanneer u een zoekset gebruikt die is gedownload van de CDD FTP-site, kan de databasegrootte anders zijn dan die welke wordt gebruikt door de CD-Search-webservice, en dezelfde hit van uw query-eiwit naar een model zal een andere E-waarde ontvangen in het zelfstandige resultaat. Als de grootte van de FTP-database bijvoorbeeld kleiner is dan wat de CD-Search-webservice aanneemt in de parameter voor databasegrootte, krijgt dezelfde hit van uw query-eiwit naar een model een lagere E-waarde in de standalone. Omgekeerd, als de grootte van de FTP-database groter is dan wat de CD-Search-webservice aanneemt in zijn databasegrootteparameter, zal dezelfde hit van uw query-eiwit naar een geconserveerd domeinmodel een hogere E-waarde ontvangen in de standalone .

Als u wilt dat standalone RPS-BLAST dezelfde parameter voor databasegrootte gebruikt die wordt gebruikt voor de webserver (en daarbij dezelfde E-waarden reproduceert met standalone RPS-BLAST die worden gegenereerd door de webservice), kunt u dat doen door een "alias"-bestand op uw lokale computer en plaats het in dezelfde map als het zelfstandige uitvoerbare RPS-BLAST-bestand. Het bestand kan een naam hebben zoals "mycdd.pal" en kan de volgende inhoud hebben (waarbij regels die beginnen met "#" opmerkingen zijn):
Hiermee kunt u nu zoeken in de database met de naam "Cdd" met behulp van de twee parameters voor de grootte van de zoekset zoals gespecificeerd, bijvoorbeeld: Naast de verschillende statistische parameters, filtert de CD-Search-webservice de qua samenstelling vertekende regio's niet uit de zoekreeks standaard. Het maakt gebruik van compositie-gecorrigeerde scores om de effecten van compositiebias te verminderen. Daarentegen filtert stand-alone RPS-BLAST composities met vooringenomenheid uit en maakt geen gebruik van compositie-gecorrigeerde scores. In de huidige RPS-BLAST versie 2.2.29 (vanaf februari 2014), kunt u parameters instellen om de CD-Search-instellingen te repliceren door " -comp_based_stats 1 " en " -seg no " op de opdrachtregel op te geven. Als deze opties niet zijn gespecificeerd, kan standalone RPS-BLAST enigszins andere resultaten opleveren. Ten slotte zijn sommige geavanceerde opties in stand-alone RPS-BLAST niet beschikbaar in de webservice, zoals de mogelijkheid om een ​​single-hit/two-pass-modus te gebruiken om verder verwijderde homologe relaties te detecteren. Gebruikers die dergelijke opties in de zelfstandige versie selecteren, krijgen mogelijk andere zoekresultaten met de webservice.

Hoe kan ik de CDD-zoekdatabase van NCBI krijgen voor lokaal zoeken?

Hoe kan ik mijn eigen zoekdatabase maken voor lokaal zoeken?

 
Batch-cd-zoekhulpdocument

  • Alleen eiwitsequenties
    • Batch CD-zoeken accepteert alleen eiwitsequenties . Het maximale aantal queries per aanvraag is 4000, zoals hieronder vermeld onder maximale invoer. (Standaard CD-zoeken, die wordt gebruikt om individuele zoekopdrachten in te voeren, kan zowel eiwit- als nucleotidesequenties accepteren.)
    • Een lijst met zoekeiwitten kan direct (getypt of gekopieerd/geplakt) in het tekstvak op de Batch CD-Search-webpagina worden ingevoerd of als tekstbestand worden geüpload. (Een apart gedeelte van dit document beschrijft het downloaden van gescripte gegevens.)
    • De query-eiwitten kunnen worden weergegeven als een lijst met sequentie-ID's of als sequentiegegevens, gescheiden door regeleinden, zoals hieronder beschreven.
    • Elke taak krijgt een willekeurig gegenereerde, unieke zoek-ID.
    • Opmerking: als er per ongeluk meerdere zoekeiwitten worden ingevoerd op de gewone cd-zoekpagina, wordt uw zoekactie automatisch doorgestuurd naar de Batch-cd-zoekfunctie. Als er echter geen regeleinden zijn tussen de query-eiwitten, wordt er een foutmelding weergegeven en vindt er geen omleiding plaats. Merk ook op dat Batch CD-search geen nucleotidesequenties accepteert. nucleotidesequentiequery's kunnen echter afzonderlijk worden ingediend bij de standaard CD-Search-tool.

    Om als VALID te worden beschouwd, moet een GI of toetreding aanwezig zijn in (1) de live Entrez Protein-database (deze worden beschouwd als CURRENT identifiers) OF (2) in de backend, archiveringsdatabase, die zowel CURRENT als NOT CURRENT ( dwz verouderde of voorlopige) identifiers.

    Merk op dat NOT CURRENT identifiers alleen worden verwerkt door Batch CD-Search als de optie om gepensioneerde sequenties op te nemen (oorspronkelijk "search ID1 for unknown identifers" genoemd) is geactiveerd. Als het is gedeactiveerd, worden alle niet-huidige identifiers in uw zoeklijst genegeerd door Batch CD-Search en worden alleen resultaten geretourneerd voor de huidige identifiers. De batch-cd-zoekuitvoer zal elke niet-huidige identifier markeren met het bericht "Waarschuwing: dit sequentierecord kan verouderd of voorlopig zijn."

    Als een identifier niet wordt gevonden in de live Entrez Protein-database of in de archiefdatabase, wordt deze als ONGELDIG beschouwd en genegeerd door het Batch CD-Search-programma. Ongeldige ID's verschijnen niet in de tabel met voorbeeldgegevens van de voorlopige taakoverzichtspagina of in gedownloade uitvoergegevensbestanden. Ze zullen echter verschijnen in het menu "navigeer naar resultaten" van de grafische weergave van zoekresultaten, weergegeven als " Zoekopdracht #N - XXXXXXXX(ongeldig) " in een grijs lettertype.

    • FASTA-formaat of kale sequentiegegevens -- Query-eiwitsequenties kunnen ook in Batch CD-Search worden ingevoerd in FASTA-formaat of gewoon als kale sequentiegegevens (eenlettercode). In beide gevallen moeten de eiwitgegevens eindigen met een lege regel (d.w.z. de sequentiegegevens moeten worden gevolgd door twee opeenvolgende nieuweregeltekens ( ) om het einde van de gegevens aan te geven). Voor FASTA-indeling moet het teken ">" verschijnen als het eerste teken van de definitieregel (defline) van een FASTA-geformatteerde reeks, anders kan de defline worden geparseerd als een identifier en daarom worden geïnterpreteerd als een andere zoekopdracht dan de reeksgegevens.
    • Tot 4.000 eiwitsequenties en/of identifiers kunnen worden ingevoerd in Batch CD-Search, hetzij via de webinterface of via scripting. Verzoeken met meer dan 4000 zoekopdrachten worden afgewezen omdat het piekgebruik van deze gedeelde bron aanzienlijk is toegenomen en de beschikbaarheid van de service is aangetast.

    Standaard is de "zoekmodus" ingesteld op "automatisch". Deze modus past automatisch de zoekparameters toe die zijn gebruikt om vooraf berekende resultaten te genereren voor alle sequenties in de NCBI Protein-database, en biedt de snelste manier om Batch-cd-zoekresultaten te verkrijgen.

    De zoekmodus verandert automatisch in "alleen live zoeken" als u de database wijzigt waarop u wilt zoeken, een minder strenge verwachtingswaarde gebruikt, compositie-gecorrigeerde scores toepast of het filter met lage complexiteit toepast.

    Als u de zoekmodus terugzet naar " automatisch ", worden de zoekparameters teruggezet naar hun standaardwaarden.

    Opmerking: Het wijzigen van het " maximum aantal treffers " of het activeren/deactiveren van de optie om " teruggetrokken sequenties op te nemen " verandert de zoekmodus niet. In plaats daarvan filtert het gewoon uw zoekresultaten zoals u hebt opgegeven.

    Hieronder vindt u meer details over de zoekmodus en elk van de andere parameters:

    • Zoekmodus
      • automatisch -- Het Batch CD-Search-programma kiest ervoor om vooraf berekende of live zoekresultaten op te halen voor elk afzonderlijk item in de zoeklijst, afhankelijk van de aard van het item. Als het query-item bijvoorbeeld een geldig UID is, zal het programma altijd proberen het vooraf berekende zoekresultaat op te halen. Als dat niet lukt, zal het programma een live RPS-BLAST-zoekopdracht proberen. Als sequentiegegevens echter expliciet worden ingediend (als FASTA of basissequentie), gaat het programma rechtstreeks naar live zoeken. (Merk op dat de "automatische" zoekmodus de standaard zoekparameters gebruikt als u de parameters van hun standaardinstellingen wilt wijzigen, gebruik dan de "live zoeken alleen" modus.)
      • alleen voorberekend -- Het Batch CD-Zoekprogramma haalt alleen voorberekende gegevens op voor sequentie-ID's in uw zoeklijst. Als er geen vooraf berekende gegevens beschikbaar zijn voor een bepaalde sequentie-ID, wordt er voor dat item geen zoekresultaat geretourneerd. Merk op dat deze zoekmodus alleen werkt voor invoer die is ingevoerd als sequentie-ID's als uw invoer sequentiegegevens was, er worden geen resultaten geretourneerd. (Houd er ook rekening mee dat de modus "alleen vooraf berekend" de standaard zoekparameters gebruikt als u de parameters van hun standaardinstellingen wilt wijzigen, gebruik dan de modus "alleen live zoeken".)
      • alleen live zoeken -- Het Batch CD-Search-programma zal een live PRS-BLAST-zoekopdracht uitvoeren voor elk item in de invoerlijst, of het item nu een sequentie-identificatie of sequentiegegevens is. In deze modus kunt u ook de zoekparameters wijzigen van hun standaardinstellingen.
      • Als het filter met lage complexiteit AAN was voor de zoekopdracht, werden de qua compositie vertekende regio's NIET GEBRUIKT bij het zoeken tegen de domeindatabase en worden ze weergegeven als SOLID cyaanblokken . (Open bijvoorbeeld de standaard CD-zoekresultaten voor P14780, GI 269849668, met filtering ingeschakeld.) Deze regio's kunnen echter nog steeds overlappen met of worden opgenomen in een domeinvoetafdruk en de paarsgewijze uitlijning gegenereerd door RPS-BLAST .

      • Als het filter met lage complexiteit was uitgeschakeld voor het zoeken, werden de qua compositie vertekende regio's GEBRUIKT bij het zoeken en worden ze weergegeven als blokken OUTLINED in cyaan . (Open bijvoorbeeld de cd-zoekresultaten voor P14780, GI 269849668, met filtering uitgeschakeld.) Houd er echter rekening mee dat qua compositie vertekende regio's een onnauwkeurige annotatie van de queryreeks kunnen veroorzaken.

      • Als het lage-complexiteitsfilter GEEN compositorisch vertekende regio's in de zoekreeks HEEFT DETECTEERD, dan wordt het weergegeven als een effen grijze balk (zonder cyaanregio's), zoals weergegeven in de illustraties van de beknopte weergave van het voorbeeld en de volledige weergave van CD-Search resultaten.
      • Deze optie doorzoekt de ID1-database van de backend-archiefdatabase op eiwitsequentie-ID's in uw invoerlijst die niet worden herkend als actueel in de live Entrez Protein-database. Als deze sequentie-identifiers worden gevonden in de archiefdatabase, zal het Batch CD-Search-programma de resultaten voor hen ophalen, zelfs als ze zijn verouderd. Deze optie is standaard geactiveerd. Als het is gedeactiveerd, worden alle niet-huidige identifiers in uw zoeklijst genegeerd door Batch CD-Search en worden alleen resultaten geretourneerd voor de huidige identifiers . (Zie de sectie over UID-validatie voor meer details.)
      • Als titel voor een bepaalde zoekopdracht kan een willekeurige string worden opgegeven, met een maximum van 256 karakters. (Als er een langere sterk is, wordt deze ingekort.) De functietitel wordt op geen enkele manier gebruikt door de zoekmachine. Het is daarom volledig optioneel, maar wordt aanbevolen voor gemakkelijke identificatie van zoekresultaten, vooral wanneer meerdere vacatures tegelijkertijd worden ingediend.
      • U kunt hier een of meer e-mailadressen opgeven om een ​​melding te ontvangen wanneer de zoekopdracht is voltooid. Meerdere e-mailadressen moeten worden gescheiden door komma's. De titel van de taak, indien toegewezen, verschijnt in de onderwerpregel.
      • Wanneer een batch-cd-zoekopdracht succesvol is ingediend, wordt een unieke, willekeurig gegenereerde identifier, of " Zoek-ID ", toegewezen om de zoekopdracht te identificeren (bijvoorbeeld QM2-qcdsearch-xxxxxxxxxx) . De zoek-ID kan worden gebruikt om de zoekstatus/resultaten op te halen tot 2 dagen nadat de zoekopdracht voor het eerst is uitgevoerd. Om dit te doen, voert u de zoek-ID in het tekstvak "Een eerdere zoekopdracht ophalen" op de pagina Batch-cd-zoekopdracht in en klikt u op de knop "Ophalen". Meer details over zoek-ID's vindt u in een apart deel van dit document.
      • _______________________
      • _______________________
      • _______________________
        • _____________
        • _____________
        • _____________
        • Taakoverzicht
          • Zoeken met succes voltooid -- Nadat een batch-cd-zoekopdracht met succes is uitgevoerd (zie taakstatuscodes), wordt een voorlopige webpagina weergegeven met het bericht "zoekopdracht succesvol voltooid". Dit geeft aan dat de volledige zoekresultaten zijn gecompileerd in een tijdelijke database, die dient als een stamgegevensstructuur waaruit u kunt kiezen om gegevens te downloaden (domeinhits, uitlijningsdetails of functies) of de resultaten grafisch te bekijken. Nadat u de gewenste download- of grafische weergaveoptie hebt geselecteerd, extraheert het programma de gespecificeerde uitvoer uit de stamgegevensstructuur en presenteert deze als een tekstbestand of webweergave. De stamgegevensstructuur blijft tot 2 dagen na de eerste zoekopdracht voor u beschikbaar. Zorg ervoor dat u de zoek-ID opslaat om de resultaten over die periode op te halen, hetzij via het tekstvak "een eerdere zoekopdracht ophalen" op de startpagina van Batch CD-Search of via gescripte gegevensdownloads met behulp van een web-API.
          • Statistieken
Zoek-ID Wanneer een zoekopdracht wordt gestart, wordt een unieke, willekeurig gegenereerde zoek-ID geretourneerd om de zoekopdracht en de stamgegevensstructuur te identificeren die de volledige reeks resultaten bevat die door de zoekopdracht zijn opgehaald. (Het programma gebruikt later die stamgegevensstructuur om de subset van informatie te extraheren die de gebruiker heeft aangevraagd en construeert de uiteindelijke uitvoer, afhankelijk van de parameters die u opgeeft.) De zoek-ID begint met "QM2-qcdsearch-" als handtekening en wordt gevolgd door een willekeurig gegenereerd hexadecimale nummer (xxxxxxxxxxx), bijvoorbeeld: QM2-qcdsearch-xxxxxxxxxxxx

Beide vormen van zoek-ID zijn geldig als invoer voor het tekstvak "een eerdere zoekopdracht ophalen" op de startpagina van Batch CD-Search en voor het downloaden/afhandelen van gescripte gegevens (met behulp van de cdsid-parameter). De zoek-ID kan worden gebruikt om de zoekstatus/resultaten op te halen tot 2 dagen nadat de zoekopdracht voor het eerst is uitgevoerd.

Verklaringen van de kolomkoppen die in de voorbeeldgegevenstabel voorkomen, worden gegeven in de sectie domeinhits van dit helpdocument en zijn ook toegankelijk door op de kolomkoppen in het voorbeelduitvoerbestand te klikken.

  • Gegevenstype (doelgegevens)
    • Domeinhits -- Een lijst met geconserveerde domeinmodellen, uit de database die u hebt geselecteerd om te zoeken, die statistisch significante hits hebben voor de eiwitsequenties in uw zoekopdrachtlijst. (Een voorbeeld vindt u in een apart bestand.)

    Formaat: door tabs gescheiden tabel met de volgende informatie voor elke eiwitsequentie in uw querylijst:

    Q#N - XXXXXXXX Querynummer : Het volgnummer (N) van de queryreeks uit uw oorspronkelijke invoerlijst. Het querynummer wordt geregistreerd als Q#N - XXXXXXXX, waarbij XXXXXXXX ofwel de sequentie-identificatie is, de eerste 15 tekens van de FASTA-definitieregel of de eerste 15 aminozuren van de kale sequentiegegevens.

    Opmerking: als uw ingevoerde sequentie-ID's en sommige van die ID's ongeldig waren, ontbreken hun zoekopdrachtnummers en ID's in het uitvoerbestand, maar kunnen ze desgewenst worden bekeken in het menu "navigeer naar resultaten" van de grafische weergave van zoekresultaten . Als uw invoerbestand bijvoorbeeld vier sequentie-ID's bevat en de derde ongeldig was, toont het uitvoerbestand de resultaten voor Q#1, Q#2 en Q#4. De ongeldige zoekopdracht (Q#3) kan echter worden gezien als grijze tekst in het formaat "Query #3 - XXXXXXXX(ongeldig)" in de grafische weergave.

    Type treffer Cd-zoekresultaten kunnen treffertypen bevatten die verschillende betrouwbaarheidsniveaus vertegenwoordigen (specifieke treffers, niet-specifieke treffers) en domeinmodelbereik (superfamilies, meerdere domeinen). Ze zijn te zien in zowel de beknopte weergave als de volledige weergave, met uitzondering van niet-specifieke treffers, die alleen in de volledige weergave worden weergegeven.
    PSSM-ID Een PSSM-ID is de unieke identificatie voor de positiespecifieke scorematrix (PSSM) van een domeinmodel. Als de PSSM van een domeinmodel op enigerlei wijze verandert als gevolg van updates van de uitlijning van meerdere sequenties, ontvangt het een nieuwe PSSM-ID. Elk superfamilierecord in de Conserved Domain Database heeft ook een PSSM-ID, die verwijst naar de specifieke set geconserveerde domein-PSSM-ID's waaruit de superfamilie bestaat, in plaats van naar een daadwerkelijke positiespecifieke scorematrix voor de algehele superfamilie. meer. (Aanvullende opmerkingen: elk superfamilierecord in de Conserved Domain Database heeft ook een PSSM-ID, die verwijst naar de specifieke set geconserveerde domein-PSSM-ID's waaruit de superfamilie bestaat, in plaats van naar een daadwerkelijke positiespecifieke scorematrix voor de algehele superfamilie. PSSM's (bijv. 667) kunnen niet worden opgehaald via de Entrez CDD-zoekinterface omdat ze niet langer worden geïndexeerd, maar ze kunnen wel worden opgehaald uit de archiefkopie van de database met behulp van de optie "Direct Fetch via UID" op de CDD-zoekmethoden bladzijde.)
    Van naar Het bereik van aminozuren in de query-eiwitsequentie waarop het domeinmodel is uitgelijnd. (Opmerking: als de door RPS-BLAST gevonden uitlijning meer dan 20% van de omvang van de CD aan de n- of c-terminus of beide wegliet, wordt de gedeeltelijke aard van de hit aangegeven in de kolom "Incomplete" van de hittabel Gedeeltelijke treffers kunnen ook worden gezien in de grafische weergave als domeinmodelcartoons met gekartelde randen ( geïllustreerd voorbeeld ).) (Opmerking: het bereik in een gedownload uitvoerbestand geeft niet aan of een treffer gedeeltelijk is, dwz of de uitlijning gevonden door RPS-BLAST liet meer dan 20% van de omvang van de CD aan de n- of c-terminus weg, of beide. Gedeeltelijke treffers kunnen echter in de grafische weergave worden gezien als domeinmodelcartoons met gekartelde randen ( geïllustreerd voorbeeld ).)
    E-waarde De verwachtingswaarde, of E-waarde, geeft de statistische significantie van de treffer aan als de waarschijnlijkheid dat de treffer door toeval is gevonden. meer.
    Bitscore De waarde S' is afgeleid van de ruwe uitlijningsscore S ruwe uitlijningsscore S waarbij rekening is gehouden met de statistische eigenschappen van het gebruikte scoresysteem. Omdat bitscores zijn genormaliseerd met betrekking tot het scoresysteem, kunnen ze worden gebruikt om uitlijningsscores van verschillende zoekopdrachten te vergelijken. (Een bitscore is gedefinieerd in de NCBI Handbook-woordenlijst BLAST-woordenlijst en Field Guide-woordenlijst.)
    Toetreding Het toegangsnummer van de hit, dat een domeinmodel of een superfamiliecluster kan zijn. (Als de hit een domeinmodel is, wordt het toegangsnummer (cl*) van het superfamiliecluster waartoe het behoort vermeld in de kolom "Superfamilie" van het uitvoerbestand.)
    Korte naam De korte naam van een geconserveerd domein, die het domein beknopt definieert. "Voltage-gated ClC" is bijvoorbeeld de korte titel van het door de NCBI samengestelde geconserveerde domeinmodel voor het voltage-gated chloridekanaal (cd00400).
    Incompleet Als de treffer naar een geconserveerd domein gedeeltelijk is (dwz als de uitlijning gevonden door RPS-BLAST meer dan 20% van de omvang van de CD aan de n- of c-terminus of beide wegliet), wordt deze kolom gevuld met een van de volgende waarden:
          N :      onvolledig bij het N-eindpunt
          C :      onvolledig bij de C-terminus
          NC :    onvolledig aan zowel de N-terminus als de C-terminus
    (de uitlijning gevonden door RPS-BLAST weggelaten)
    meer dan 40% van de totale omvang van de cd)
    Als de treffer naar een behouden domein compleet is, wordt deze kolom gevuld met een streepje (-).
    (Opmerking: Gedeeltelijke treffers kunnen ook in de grafische weergave worden gezien als cartoons van domeinmodellen met gekartelde randen (geïllustreerd voorbeeld).)
    Superfamilie Deze kolom wordt alleen ingevuld voor domeinmodellen die specifieke of niet-specifieke treffers zijn, en het vermeldt het toegangsnummer van de superfamilie waartoe het domeinmodel behoort.

    (Als de treffer naar een superfamilie zelf is, wordt deze kolom gewoon gevuld met een streepje omdat de superfamilietoetreding al in de voorgaande kolom "Toetreding" staat.)

    ______ ______

    ASN-tekst XML JSON BLAST tekst
         

    Klik op een van de eerste drie formaten hierboven om er meer over te lezen. Het BLAST-tekstformaat wordt hieronder beschreven.

    Het BLAST-tekstformaat voor het downloaden van uitlijningsdetails van Batch CD-zoekresultaten geeft een paarsgewijze uitlijning weer tussen de eiwitquery-sequentie en de consensussequentie van elk domeinmodel en/of superfamilie die een hit op de sequentie had. Exacte overeenkomsten worden gemarkeerd door een pijpsymbool ("|") tussen de query en de databasevolgorde. Als voorbeeld vindt u hieronder een uittreksel van de uitlijningsdetails in BLAST-tekstindeling voor domeinhits op NP_000240 (GI:4557757). Klik op het onderstaande voorbeeld om het volledige voorbeeldbestand te openen, met de beknopte resultaten voor die queryreeks per 01 november 2010:

    Formaat: door tabs gescheiden tabel met de volgende informatie voor elke eiwitsequentie in uw querylijst:

    Q#N - XXXXXXXX Querynummer : Het volgnummer (N) van de queryreeks uit uw oorspronkelijke invoerlijst. Het querynummer wordt geregistreerd als Q#N - XXXXXXXX, waarbij XXXXXXXX ofwel de sequentie-identificatie is, de eerste 15 tekens van de FASTA-definitieregel of de eerste 15 aminozuren van de kale sequentiegegevens.

    Opmerking: als er querynummers ontbreken in het uitvoerbestand, betekent dit dat ofwel: (a) er geen kenmerken zijn gevonden op die eiwitsequenties, of (b) de sequentie-ID's ongeldig waren. (Ongeldige sequentie-ID's zijn te zien in het menu "navigeer resultaten" van de grafische weergave van zoekresultaten, indien gewenst. Als uw invoerbestand bijvoorbeeld vier sequentie-ID's bevatte en de derde ongeldig was, toont het uitvoerbestand de resultaten voor Q#1, Q#2 en Q#4. De ongeldige query (Q#3) kan echter worden gezien als grijze tekst in het formaat "Query #3 - XXXXXXXX(ongeldig)" in de grafische weergave. )

    Type Het kenmerktype kan zijn:

    specifiek: geconserveerde functies/sites die zijn toegewezen aan de reeks queryreeksen van specifieke hits.

    generiek: geconserveerde kenmerken/sites die zijn toegewezen aan de reeks zoekreeksen van niet-specifieke treffers, omdat die niet-specifieke treffers tot een superfamilie behoren waarvan de vertegenwoordiger een door de NCBI beheerd domein is dat dergelijke annotaties heeft.

    Titel De korte naam van de geconserveerde functie/site, bijvoorbeeld "actieve site", "katalytische tetrad", "Ca2+-bindingsplaats", enz.
    Coördinaten Een door komma's gescheiden lijst van de éénletterige aminozuurcodes en hun posities op de querysequentie, die aangeeft welke residuen in het query-eiwit overeenkomen met de geconserveerde functie/site die is geannoteerd op het domeinmodel. Bijvoorbeeld: D50,Y55,K84,H117
    Volledige maat Het totale aantal residuen in de geconserveerde functie/site die is geannoteerd op het domeinmodel.
    Toegewezen grootte Het aantal residuen in de query-eiwitsequentie dat overeenkomt met residuen in het geconserveerde kenmerk/de geconserveerde site die was geannoteerd op het domeinmodel.
    Brondomein De PSSM-ID van het domeinmodel waarop de geconserveerde functie/site is geannoteerd.
    ______ ______

    1. Linkerpaneel biedt bedieningselementen waarmee u individuele eiwitten uit uw lijst met zoekopdrachten kunt selecteren waarvoor u domeinannotaties grafisch wilt bekijken, of om de volledige zoekresultaten te downloaden.
      • Navigeer door resultaten -- De linkerkant van het browservenster bevat een vak "Navigeren met resultaten" met een lijst van elke reeks zoekopdrachten uit uw oorspronkelijke invoerlijst. De sequenties worden weergegeven in de indeling Q#N - XXXXXXXX, waarbij Q#N het querynummer is en XXXXXXXX ofwel de sequentie-identificatie, de eerste 15 tekens van de FASTA-definitieregel of de eerste 15 aminozuren van de kale sequentiegegevens. Klik op een queryreeks om een ​​grafische weergave van de domeinhits en -functies te bekijken. Als u meerdere zoekreeksen uit de lijst wilt selecteren, gebruikt u de CTRL- of SHIFT-toetsen terwijl u op de gewenste reeksen klikt.
        • Compacte modus -- De optie "Compacte modus" in het vak "Navigeren met resultaten" geeft de domeinarchitectuur van elke queryreeks op een enkele regel weer. Dit weergavetype is met name handig als u twee of meer query-eiwitten uit de lijst selecteert en hun domeinarchitecturen wilt vergelijken. (Zoals hierboven vermeld, kunt u de CTRL- of SHIFT-toetsen gebruiken terwijl u op de query-eiwitten klikt die worden vermeld in het vak "Navigeren met resultaten", als u meerdere sequenties uit die lijst wilt selecteren.)
        • Opmerking: als uw invoer de volgorde-ID's en sommige van die identificaties ongeldig waren, worden hun zoekopdrachtnummers en ID's weergegeven als grijze tekst in de indeling " Query #N - XXXXXXXX (ongeldig) " in het menu "navigeer naar resultaten". (Ongeldige ID's en hun querynummers worden echter niet weergegeven in gedownloade gegevensbestanden.)
      • Gegevens downloaden -- De " Opties voor het downloaden van gegevens " onder het vak "navigeer resultaten" zijn dezelfde als die worden weergegeven op de pagina met het taakoverzicht.

    • De eerste weergave toont de domeinvoetafdrukken op de eerste queryreeks. Gebruik het vak "Navigeren met resultaten" om een ​​andere eiwitqueryreeks uit uw invoerlijst te selecteren. Standaard wordt een beknopte weergave (geïllustreerd voorbeeld) van domeinen getoond. Als er ook geconserveerde kenmerken/sites zijn gevonden, worden deze weergegeven als kleine driehoekjes ( geïllustreerd voorbeeld ).
    • Met de bedieningselementen "Show functional sites" en "View: Concise / Standard / Full display " aan de rechterrand van het grafische display kunt u de functie-annotaties in- of uitschakelen en het gewenste detailniveau op het display selecteren.
    • Beweeg de muis over een domeinvoetafdruk om een ​​paarsgewijze uitlijning van de queryreeks met de consensusreeks van het domeinmodel te bekijken.
      • Als de voetafdruk een superfamilie vertegenwoordigt, klikt u op de voetafdruk om het bijbehorende superfamilierecord te openen, dat op zijn beurt de verschillende domeinmodellen vermeldt die erin zijn opgenomen.
      • Als de footprint een specifieke hit is (zichtbaar in zowel de beknopte als de volledige weergave van zoekresultaten) of een niet-specifieke hit (alleen zichtbaar in de volledige weergave van zoekresultaten), kunt u op de footprint klikken om de ingesloten zoekreeks te bekijken in de uitlijning van meerdere sequenties voor het domeinmodel.
      • Klik op het driehoekje om aanvullende details over het kenmerk te bekijken, waaronder een uitlijning van meerdere sequenties van uw zoeksequentie en de eiwitsequenties die worden gebruikt om het domeinmodel te beheren, waarbij hekjes (#) boven de uitgelijnde sequenties de locatie van de geconserveerde kenmerkresten aangeven .
      • Als een 3D-structuur is opgenomen in het bewijs dat wordt gebruikt om de functie te annoteren, toont de detailpagina een miniatuurafbeelding , die een geschatte weergave van de locatie van de functie in 3 dimensies geeft en waarmee u een interactieve 3D-structuurweergave kunt openen in de gratis Cn3D programma.

      SCRIPTED DATA DOWNLOADS (WEB API)

      Indien aangeroepen met parameters, kan Batch CD-Search worden gebruikt als een interface voor het downloaden/afhandelen van gescripte gegevens. Een query kan worden ingediend als een HTTP GET- of een HTTP POST-verzoek.

      Een HTTP GET-verzoek wordt ingediend als een URL en kan maximaal ongeveer 1000 tekens bevatten. Er is geen tekenlimiet voor de lengte van een HTTP POST-verzoek, maar er is een limiet van 4.000 eiwitsequenties en/of identifiers in een enkele batch-cd-zoekopdracht.

      Het programma haalt uitvoergegevens op in twee stappen: eerst zoekt het en verzamelt alle beschikbare informatie uit de zoekresultaten in een mastergegevensstructuur, vervolgens extraheert het de subset van informatie die de gebruiker heeft gevraagd en construeert het de uiteindelijke uitvoer.

      Beide vormen van zoek-ID zijn geldig als invoer (met behulp van de cdsid-parameter) voor het downloaden/afhandelen van gescripte gegevens. De zoek-ID kan worden gebruikt om de zoekstatus/resultaten op te halen tot 2 dagen nadat de zoekopdracht voor het eerst is uitgevoerd.

      om de status van een eerdere zoekopdracht te controleren of resultaten op te halen:
      cdsid Geef de zoek-ID-tekenreeks op, bijvoorbeeld " cdsid=QM2-qcdsearch-xxxxxxxxxxx " als u de status van een eerdere zoekopdracht wilt controleren. Voeg een tweede hexadecimale nummer toe, bijvoorbeeld " cdsid=QM2-qcdsearch-xxxxxxxxxxx-yyyyyyyyyyyy " als u specifieke uitvoergegevens wilt ophalen die eerder zijn aangevraagd voor de zoekopdracht. (Beide vormen van zoek-ID zijn geldig tot 2 dagen nadat de zoekopdracht voor het eerst is uitgevoerd.) Als u een andere subset van uitvoergegevens wilt ophalen voor een eerder uitgevoerde zoekopdracht, geeft u de zoek-ID-tekenreeks op, bijvoorbeeld " cdsid= QM2-qcdsearch-xxxxxxxxxxx ," plus een van de hieronder beschreven uitvoerparameters.
      om een ​​nieuwe zoekopdracht uit te voeren:
      db Geef de naam van de database op. Toegestane waarden zijn onder meer: ​​" cdd ," " pfam ," " smart ", " tigrfam ," " cog ," " kog ". Deze parameter is alleen van toepassing als de zoekmodus (smode) live is. Als de zoekmodus is ingesteld op vooraf berekend of automatisch, wordt de standaard CDD-database doorzocht.
      dbpath Geef de directory op waarin de database zich bevindt. Deze parameter is alleen voor intern gebruik.
      smode Specificeer de gewenste zoekmodus: " auto " (automatisch), " prec " (alleen vooraf berekend) of " live " (live)
      useid1 " true "/" false ", deze parameter specificeert of het programma in de backend archiefdatabase moet zoeken naar eiwitsequentie-ID's in uw invoerlijst die niet worden herkend als actueel in de live Entrez Protein-database. Als deze sequentie-identifiers worden gevonden in de archiefdatabase, zal het Batch CD-Search-programma de resultaten voor hen ophalen, zelfs als ze zijn verouderd. Deze optie is standaard geactiveerd. Als het is gedeactiveerd, worden alle niet-huidige identifiers in uw zoeklijst genegeerd door Batch CD-Search en worden alleen resultaten geretourneerd voor de huidige identifiers . (Zie de sectie over UID-validatie voor meer details.)
      compbasedadj " 0 "/" 1 " 2 "/" 3 " -->, deze parameter specificeert of het programma compositie-gecorrigeerde scoring zal gebruiken. De mogelijke waarden zijn:

      0: NoCompositionBasedStats (statistieken op basis van samenstelling uitgeschakeld)
      1 : CompositionBasedStats (op samenstelling gebaseerde statistieken ingeschakeld (standaard))
      2: CompositionMatrixAdjust
      3: CompoForceFullMatrixAdjust

      filter " true "/" false ", deze parameter specificeert of het programma qua compositie vooringenomen regio's uit de queryreeksen zal filteren. De standaardinstelling is "false".
      Opmerking: Als het filter voor lage complexiteit is ingeschakeld, moet in het algemeen de compositie-gecorrigeerde score worden uitgeschakeld. Het is echter mogelijk om beide opties tegelijkertijd aan te zetten (om fout-positieven te filteren die door de kieren van de compositie-correctie glippen), of tegelijkertijd uit te zetten (om meer verre verwanten te vinden voor qua compositie vooringenomen zoekopdrachten), indien gewenst. vragen Specificeer de query-eiwitten, hetzij als unieke identifiers of als sequentiegegevens. Raadpleeg de sectie "invoer" van dit document voor regels. evalueren Drijvende-kommagetal , specificeert de verwachtingswaarde (E-waarde) cut-off, die de statistische significantiedrempel aanpast die wordt gebruikt voor het rapporteren van overeenkomsten met PSSM's in de database. Deze parameter is alleen van toepassing als de zoekmodus (smode) live is. Als de zoekmodus is ingesteld op vooraf berekend of automatisch, wordt de standaard E-waarde van 0,01 toegepast. maxhit Integer , specificeert het maximum aantal treffers dat moet worden geretourneerd voor elk eiwit in de querylijst. Deze parameter is alleen van toepassing als de zoekmodus (smode) live is. Als de zoekmodus is ingesteld op vooraf berekend of automatisch, wordt het standaard maxhit-getal van 500 toegepast. om de gewenste uitvoer voor een nieuwe of vorige zoekopdracht te specificeren: tdata Specificeer het gewenste gegevenstype (doelgegevens) in de uitvoer. Toegestane waarden zijn: " hits " (domeinhits), " aligns " (uitlijningsdetails) of " feats " (functies). alnfmt Als u tdata=aligns (uitlijningsdetails) hebt opgegeven, kunt u de parameter "alnfmt" gebruiken om het gewenste downloadformaat te specificeren. Toegestane waarden zijn: " asn ", " xml " of " json ". dmode Specificeer de gewenste datamodus in de uitvoer. Toegestane waarden zijn:
      " rep " (hoogst scorende hit, voor elke regio van de zoekreeks, zoals getoond in de beknopte resultaten), of
      " std " (best scorende hit uit elke brondatabase, voor elke regio van de zoekopdrachtreeks, zoals weergegeven in de standaardresultaten), of
      " full " (de complete set hits in de volledige resultaten).
      (De waarde " all " is nog steeds toegestaan ​​en werd vroeger gebruikt om het volledige resultaat weer te geven, maar geeft nu het standaardresultaat weer, sinds 12 februari 2014, toen de standaardmodus beschikbaar kwam als een nieuwe weergave-optie.) qdefl " true "/" false ", deze parameter specificeert of definitieregels voor de query-eiwitten in de uitvoer moeten worden opgenomen. cddefl " true "/" false ", deze parameter specificeert of de titels van geconserveerde domeinen in de uitvoer moeten worden opgenomen. ___BLUE_CELL___  

      Voorbeeld 1: Dien query-eiwitten in met sequentie-ID's 116863, 122, 1065303 en 109389365 controleer de backend-archiefdatabase op ongeldige sequentie-ID's en retourneer een beknopte lijst (wat de standaardinstelling is, omdat er geen dmode-parameter is opgegeven) van domeinhits in het resultaat:

      https://www.ncbi.nlm.nih.gov/Structure/bwrpsb/bwrpsb.cgi?queries=116863%0A122%0A1065303%0A109389365&useid1=true&tdata=hits

      Voorbeeld #2: Voor een eerder uitgevoerde zoekopdracht met cdsid=QM2-qcdsearch-xxxxxxxxxxx, haalt u de uitlijningsdetails (tdata=aligns) op in XML-formaat (alnfmt=xml) voor de volledige resultaten (dmode=all):

      https://www.ncbi.nlm.nih.gov/Structure/bwrpsb/bwrpsb.cgi?cdsid=QM2-qcdsearch-xxxxxxxxxxxx&tdata=aligns&alnfmt=xml&dmode=all

      Voorbeeld #3: _____Description_of_what_this_HTTP_GET_request_will_do_______:

      Houd er rekening mee dat de bovenstaande voorbeeldzoek-ID op dit moment niet werkt, omdat een zoek-ID slechts 2 dagen geldig is nadat de zoekopdracht voor het eerst is uitgevoerd. Het wordt hier alleen als voorbeeld gegeven.

      0 De klus is succesvol geklaard
      1 Ongeldige zoek-ID
      2 Geen effectieve invoer (meestal geen query-eiwitten of zoek-ID opgegeven)
      3 Taak loopt/wacht nog
      4 Servicefout in wachtrijbeheer (qman)
      5 Gegevens zijn beschadigd of niet langer beschikbaar (cache opgeschoond, enz.)
      ___BLUE_CELL___  
      • voorbeeldinvoerbestand -- Een invoerbestand kan eiwitsequentie-ID's en/of sequentiegegevens bevatten. Het volgende voorbeeld (met bestandsnaam "samplefile.in") bevat een combinatie van GI's, accessies en onbewerkte sequentiegegevens:

      Onder verwijzing naar de Conserved Domain Database (CDD):

      Een structuuroverzichtspagina biedt de volgende informatie voor een driedimensionaal macromoleculaire structuurrecord (voorbeeld: __PDB_ACCN_AND_MMDB_ID__: ___short_title_of_record):

      CDD: geconserveerde domeinen en driedimensionale eiwitstructuur. Nucleïnezuren Res. 2013 januari 141(D1):D348-52. Epub 28 november 2012. [PubMed PMID: 23197659] [Volledige tekst] CDD: een Conserved Domain Database voor de functionele annotatie van eiwitten. Nucleïnezuren Res. 2011 Jan39 (Databaseprobleem): D225-9. Epub 24 november 2010 CDD: specifieke functionele annotatie met de Conserved Domain Database. Nucleïnezuren Res. 2009 Jan 37 (Database probleem): D205-10.
      Lu S, Wang J, Chitsaz F, Derbyshire MK, Geer RC, Gonzales NR, Gwadz M, Hurwitz DI, Marchler GH, Song JS, Thanki N, Yamashita RA, Yang M, Zhang D, Zheng C, Lanczycki CJ, Marchler- Bauer A. CDD/SPARCLE: de geconserveerde domeindatabase in 2020. Nucleic Acids Res. 2020 januari 848(D1):D265-D268. doi: 10.1093/nar/gkz991. (Epub 28 november 2019.) [PubMed PMID: 31777944] [Volledige tekst bij Oxford Academic]
      Marchler-Bauer A, Bo Y, Han L, He J, Lanczycki CJ, Lu S, Chitsaz F, Derbyshire MK, Geer RC, Gonzales NR, Gwadz M, Hurwitz DI, Lu F, Marchler GH, Song JS, Thanki N, Wang Z, Yamashita RA, Zhang D, Zheng C, Geer LY, Bryant SH. CDD/SPARCLE: functionele classificatie van eiwitten via subfamiliedomeinarchitecturen. Nucleïnezuren Res. 2017 januari 445 (D1): D200-D203. doi: 10.1093/nar/gkw1129. Epub 2016 29 november. [PubMed PMID: 27899674] [Volledige tekst bij Oxford Academic] [Volledige tekst in PubMed Central] Marchler-Bauer A, Derbyshire MK, Gonzales NR, Lu S, Chitsaz F, Geer LY, Geer RC, Hij J, Gwadz M, Hurwitz DI, Lanczycki CJ, Lu F, Marchler GH, Song JS, Thanki N, Wang Z, Yamashita RA, Zhang D, Zheng C, Bryant SH. CDD: de geconserveerde domeindatabase van NCBI. Nucleïnezuren Res. 2015 jan. 2843 (Database-uitgave): D222-2. doi: 10.1093/nar/gku1221. Epub 2014 20 november. [PubMed PMID: 25414356] [Volledige tekst]

      Onder verwijzing naar de CD-Search of Batch CD-Search tool:

      Een structuuroverzichtspagina biedt de volgende informatie voor een driedimensionaal macromoleculaire structuurrecord (voorbeeld: __PDB_ACCN_AND_MMDB_ID__: ___short_title_of_record):


      Materialen en methodes

      'Eiwit Wereld' dataset

      Voor een onbevooroordeelde vergelijking van alle behandelde methoden werd altijd dezelfde dataset gebruikt. Deze 'Protein World' (ongepubliceerde data) dataset [18] is gemaakt door alle momenteel bekende en voorspelde eiwitten (SpTrEMBL [19], RefSeq [20], Ensembl [21]) te vergelijken met het Smith-Waterman-algoritme [22] ], met behulp van Z-waarden om een ​​onafhankelijke schatting van de significantie van de databasegrootte te verkrijgen [23]. Het Smith-Waterman-algoritme is gevoeliger [24] gebleken dan de snellere (niet-dynamische programmering) benaderingen, de BLAST [25] en FASTA [26]-algoritmen. De dataset is vrij beschikbaar via de website van het Centre for Molecular and Biomolecular Informatics [27]. Omdat goede expressiegegevens en andere functionele gegevens beschikbaar waren voor mens, muis en worm, hebben we de orthologe relaties tussen deze drie soorten voor onze studie gebruikt.

      Orthologe identificatiemethoden

      De zes orthologe identificatiemethoden die in dit onderzoek worden behandeld, worden hieronder vermeld. Inbegrepen zijn de beste bidirectionele hitmethode en vijf veel-op-veel-methoden. De veel-op-veel methoden zijn onderverdeeld in groepsorthologiemethoden en niet-groepsorthologiemethoden. De groepsorthologiemethoden, KOG [9], INP [6] en MCL [7], definiëren verschillende, verschillende groepen van orthologe genen en eiwitten. De twee veel-op-veel niet-groepsmethoden, PGT [10] en Z1H, definiëren geen orthologe groepen, maar kunnen nog steeds veel-op-veel orthologe relaties bepalen. Tabel 3 toont de aantallen orthologe groepen, unieke eiwitten en eiwitparen binnen de verschillende orthologe sets. De gemiddelde proteoomgrootte is het geometrische gemiddelde van het totale aantal unieke humane eiwitten en het totale aantal unieke muis/wormeiwitten binnen de vastgestelde orthologe relaties.

      Beste bidirectionele hit

      De 'best bidirectionele hit' (BBH) methode is de meest toegepaste methode om orthologe paren te bepalen. Het gaat ervan uit dat een eiwitpaar van verschillende soorten waarin elk eiwit het andere eiwit teruggeeft als de beste treffer in het hele andere proteoom, een ortholoog paar is. In dit onderzoek werden de beste bidirectionele treffers bepaald op basis van Z-waarden van de Protein World-set mens-muis en mens-worm, zonder een cutoff voor sequentieovereenkomst. In totaal werden 12.817 mens-muis en 5.714 mens-worm orthologe paren geïdentificeerd. Hoewel de BBH-methode theoretisch enkele veel-op-veel orthologen kan geven, geeft deze praktisch slechts één-op-één orthologe paren.

      In Paranoïde

      In de INP-methode [6] worden alle mogelijke paarsgewijze overeenkomstscores tussen datasets A-A, B-B, A-B en B-A die hoger scoren dan een cutoff (bitscore ≥50, overlap ≥50%) gedetecteerd. Vervolgens worden de beste bidirectionele treffers bepaald en gemarkeerd als potentiële orthologen. De in-species-paren die hoger scoren dan deze orthologe paren worden gemarkeerd als extra orthologen. Deze 'in-paralogen' krijgen betrouwbaarheidswaarden die aangeven hoe vergelijkbaar ze zijn met de hoofdortholoog: 100% wordt toegewezen aan de hoofdortholoog en 0% wordt toegewezen aan een reeks met de minimale overeenkomstscore die moet worden gemarkeerd als in-paralog van een bepaalde groep. Ten slotte worden overlappende groepen orthologen opgelost en worden op bootstrap gebaseerde betrouwbaarheidswaarden toegevoegd voor alle groepen orthologen. Bovendien kan een outgroup-proteoom worden gebruikt om de significantie van de in-paraloge scores te testen. InParanoid versie 1.35 werd gedownload [28] en het programma werd uitgevoerd met de standaard parameters, behalve het gebruik van de BLOSUM80-matrix in plaats van de standaard BLOSUM62-matrix. De BLOSUM80-matrix is ​​meer geschikt voor het bestuderen van eiwitparen met relatief kleine evolutionaire afstanden. Het optionele derde outgroup-proteoom werd weggelaten. We gebruikten Paracel BLAST 1.4.9. Via het INP-algoritme werden 19.482 orthologe paren geïdentificeerd tussen mens en muis, bestaande uit 12.610 orthologe groepen. 17.011 orthologe paren werden geïdentificeerd tussen mens en worm, bestaande uit 4.135 orthologe groepen.

      EuKaryote orthologe groepen

      De KOG-database [9] is de eukaryote-specifieke versie van de COG-database [5]. Deze laatste database wordt door velen beschouwd als de standaard orthologiedatabase van dit moment. Zowel de COG- als de KOG-procedure beginnen met een alles-tegen-alles-vergelijking met BLAST, gevolgd door de detectie van driehoeken van onderling consistente, genoomspecifieke best hits (BeTs). Vervolgens worden driehoeken met een gemeenschappelijke zijde samengevoegd tot ruwe, voorlopige KOG's, waarna een case-by-case analyse van elke kandidaat-KOG wordt uitgevoerd, onder meer om gefuseerde eiwitten te splitsen. Het verschil tussen COG en KOG zit in de laatste stap, de handmatige curatie. In de KOG-procedure wordt extra aandacht besteed aan multidomein-eiwitten, die vrij veel voorkomen bij eukaryoten. De KOG-database bestaat momenteel uit zeven eukaryote proteomen. Een BLAST alles-tegen-alles werd gebruikt om de overeenkomstige KOG te bepalen voor elk mens-, muis- en wormeiwit in de SpTrEMBL-set. Binnen een KOG werden orthologe relaties bepaald tussen alle menselijke, muis- en wormeiwitten. Vanwege de grote groepen die KOG's kunnen vormen, zijn maar liefst 810.697 mens-muis orthologe eiwitparen bepaald, verdeeld over 7.874 orthologe groepen. 155.387 orthologe paren tussen mens en worm, bestaande uit 4.155 orthologe groepen.

      OrthoMCL

      Het MCL-algoritme [7] begint met een alles-tegen-alles BLASTP, waarna de wederzijdse beste overeenkomstparen tussen soorten worden gemarkeerd als vermeende orthologen en de wederzijdse betere overeenkomstparen als recente paralogen. Er wordt een overeenkomstmatrix berekend, gevolgd door een Markov-clustering [29], die de orthologe groepen bepaalt. Een lijst van alle menselijke en muizen Ensembl-eiwitidentificaties gekoppeld aan een OrthoMCL-groeps-ID werd verkregen van de auteurs. Deze Ensembl-eiwit-ID's werden toegewezen aan het SpTrEMBL-proteoom met behulp van EnsMart [30] versie 19.3 [31]. Er werden orthologe relaties bepaald tussen alle menselijke en muizeneiwitten binnen alle 7.002 groepen, wat een totaal van 12.625 orthologe eiwitparen oplevert. Het verlies van gedefinieerde orthologen werd gecorrigeerd door te berekenen hoeveel ensemble-ID's zijn toegewezen aan een SpTrEMBL-ID (57,3397%). De gemiddelde proteoomgrootte van 9.018 (voor mens-muis) werd gedeeld door 0.573397, wat een gecorrigeerd aantal eiwitten opleverde van 15.727. De mens-worm-ID's werden verkregen via de nieuwe OrthoMCL-DB [32] 9.749 orthologe eiwitparen tussen mens en worm werden geïdentificeerd, bestaande uit 4.705 orthologe groepen. Vanwege de verschillende kaartmethode hoefden we de gemiddelde proteoomgrootte van de mens-worm niet te corrigeren.

      Z 1 Honderd

      Binnen de Z1H-methode worden alle eiwitparen tussen soorten met een Z-score van 100 of hoger als orthologen beschouwd. De Z-waarde schat de statistische significantie van een Smith-Waterman dynamische uitlijningsscore (SW-score) door het gebruik van een Monte-Carlo-proces [23]. In deze benadering worden geselecteerde paren sequenties 200 keer willekeurig geschud en opnieuw uitgelijnd. De significantie van de SW-score van een geselecteerd paar wordt vervolgens bepaald door de SW-score van het geselecteerde paar te vergelijken met de scores van de geschudde paren. Door de score te vergelijken met die van de geschudde sequenties houdt de methode impliciet rekening met effecten van sequentiesamenstelling en sequentielengte. De Z1H-set bevat paren sequenties waarvan de SW-score honderd standaarddeviaties hoger is dan de gemiddelde SW-score voor de geschudde sequenties. Met behulp van de Z1H-methode werden 290.176 mens-muis en 21.509 mens-worm orthologe eiwitparen geïdentificeerd. Het algoritme identificeert geen afzonderlijke groepen eiwitten en is daarom een ​​niet-groepsmethode.

      PhyloGenetische boom

      De PGT-methode gebruikt de uitvoer die wordt gegenereerd door meerdere uitlijningen en daaropvolgende boomberekening [10] om orthologe relaties te definiëren. Hoewel dergelijke berekeningen nogal tijdrovend zijn, zouden ze een beter inzicht moeten geven in de evolutie van de bestudeerde eiwitten en in principe het dichtst in de buurt komen van de oorspronkelijke evolutionaire definitie van orthologie. Orthologieën werden bepaald door alle eiwitten te groeperen over de 9 eukaryote soorten die in Protein World worden behandeld en die een Z-waarde van meer dan 20 hebben in vergelijking met een van de menselijke eiwitten, en een homologiegebied hebben dat groter is dan 50% van de lengte van de zoekopdracht. De resulterende 23.829 groepen werden uitgelijnd met behulp van ClustalW versie 1.82 [33], en fylogenieën werden gecreëerd met behulp van buur-joining [34]. Voor de berekening van de fylogenetische bomen gebruikten we alleen de posities die aanwezig waren in alle uitgelijnde sequenties, en niveaus van eiwitsequentie-identiteit werden vertaald naar evolutionaire afstanden met behulp van de Kimura-correctie zoals geïmplementeerd in ClustalW. De andere parameters zijn standaard ingesteld. Na de berekeningen selecteert een ortholoog-identificatie-algoritme partities in de boom die alleen orthologen en in-paralogen bevatten om de orthologe relaties per soortenpaar te definiëren [10]. Voor mens en muis werden 85.848 relaties geïdentificeerd. Voor mens en worm werden 49.979 relaties geïdentificeerd. Omdat voor de homologen van elke sequentie een fylogenetische boom wordt berekend en de bomen niet worden samengevoegd, is deze methode net als de Z1H-methode, geen pure groepsmethode.

      Benchmarks

      Hieronder vindt u een beschrijving en de workflow van de gebruikte benchmarks. De eerste twee benchmarks meten 'direct behoud van functionele parameters', dat wil zeggen dat ze slechts één eiwit in de mens en één eiwit in muis/worm onderzoeken. De laatste drie methoden vergelijken de relatie tussen twee eiwitten bij de mens met de relatie van hun twee orthologen in muis/worm ('paarsgewijze behoud van functionele parameters').

      De resultaten van de groepsorthologiemethoden werden op twee manieren geanalyseerd: we bepaalden de gemiddelde score voor alle paarsgewijze orthologierelaties binnen een orthologe groep en we beschouwden alleen het best scorende paar binnen een orthologe groep. De laatste optie leidt uiteraard tot een veel hogere score voor de veel-op-veel-orthologierelaties. Door echter slechts één paar orthologe sequenties per orthologe groep op te nemen, wordt die hoge score gecompenseerd door een vermindering van het totale aantal orthologe relaties (één per orthologe groep). Zowel het aantal orthologe relaties als de kwaliteit van deze relaties wordt meegewogen in de eindbeoordeling van de orthologe identificatiealgoritmen.

      Direct behoud van functionele parameters

      Om het behoud van functie te testen, werd de Pearson-correlatie tussen de expressieprofielen van de eiwitten in een ortholoog paar berekend. De expressiedataset die hier werd gebruikt [35] was een subset van pathologisch normale weefselmonsters van mens en muis uit het Gene Logic BioExpress Database-product [36]. Vanwege de kleine overlap van weefselcategorieën (115 bij mensen, 25 bij muizen), werden de SNOMED [37] weefselcategorieën gebruikt om de correlatiecoëfficiënt te berekenen (15 bij mensen, 12 bij muizen, 12 overlappende categorieën). De humane dataset bestaat uit 3.269 weefselmonsters en 44.792 cDNA-fragmenten, de muizendataset uit 859 weefselmonsters en 36.701 cDNA-fragmenten. Een perfecte correlatie heeft een score van 1, een perfecte anticorrelatie heeft een score van -1. We gebruikten expressiegegevens van Stuart en collega's [38] voor de mens-wormanalyse, waarbij weefsels van beide soorten werden vergeleken die vergelijkbare expressieprofielen hadden. Om rekentijdbesparende redenen hebben we een steekproef van de dataset gebruikt om te berekenen welke weefsels vergelijkbaar waren: de eerste 10 menselijke weefsels werden vergeleken met alle 978 wormweefsels, met behulp van de eerste 10 metagenen gedefinieerd door Stuart et al. De 'best hit' van de wormweefselmonsters voor elk menselijk weefselmonster werd gezien als corresponderend weefsel. Deze tien corresponderende weefsels werden vervolgens gebruikt om de Pearson-correlatiecoëfficiënten tussen de menselijke en wormeiwitten te berekenen, waarvan alleen de positieve correlaties werden gebruikt. Proteoomgroottes werden hiervoor gecorrigeerd door ze met twee te vermenigvuldigen, voordat de gemiddelde proteoomgrootte werd berekend. Om visualisatieredenen hebben we foutbalken weergegeven van slechts een achtste van de SD. Vanwege de verschillen tussen de mens-muis- en mens-wormexpressiegegevensanalyses, benadrukken we dat de twee figuren (figuren 1a en 1b) niet met elkaar moeten worden vergeleken. De cijfers kunnen echter worden gebruikt om de verschillende orthologe identificatiemethoden binnen deze soortenparen te vergelijken.

      Het behoud van de moleculaire functie kan ook worden gebenchmarkt door te onderzoeken of de orthologen tot dezelfde InterPro [39]-familie behoren. Elk InterPro-toegangsnummer vertegenwoordigt een eiwitfamilie of -domein, dat een reeks homologe eiwitten van verschillende soorten bevat met zijn eigen functionele annotatie. Eiwitten binnen een InterPro-eiwitfamilie hebben vergelijkbare domeinsamenstellingen. Nogmaals, hoe hoger het percentage met gelijke InterPro-toegangsnummers, hoe beter het behoud van functie. Aangezien InterPro-annotatie gebaseerd is op gelijkenis met vooraf gedefinieerde domeinen, is het niet onafhankelijk van de volgorde en kan het niet worden gebruikt als een volledig onafhankelijke benchmark. Wel is het mogelijk om te beoordelen in hoeverre eiwitten die als ortholoog worden beschouwd daadwerkelijk dezelfde domeinsamenstelling hebben. Dit is belangrijk omdat de meeste automatische methoden voor orthologie-voorspelling, zoals OrthoMCL, niet vereisen dat eiwitten homologen van volledige lengte zijn.

      Paarsgewijze behoud van functionele parameters

      Om het behoud van co-expressie te meten, werd eerst de correlatie tussen de expressieprofielen van elk mens-mens genenpaar berekend. De gebruikte expressiegegevensset was een subset van pathologisch normale weefselmonsters van mens en muis uit het Gene Logic BioExpress Database-product, zoals hierboven vermeld. Deze keer hebben we alle 115 categorieën gebruikt om de Pearson-correlatiecoëfficiënt voor de mens-mensparen te berekenen, en we hebben de Pearson-correlatiecoëfficiënten voor de muis-muisgenparen berekend met behulp van de 25 weefselcategorieën in de muis. Co-expressie wordt als geconserveerd beschouwd wanneer het bestudeerde menselijke genenpaar met een Pearson-correlatiecoëfficiënt boven een bepaalde drempel een ortholoog genenpaar bij muizen heeft met een Pearson-correlatiecoëfficiënt boven dezelfde drempel. Deze drempel werd gevarieerd tussen 0,0 en 1,0 met een interval van 0,1. Co-expressie kan worden gebruikt om de eiwitfunctie te voorspellen, met name wanneer het in evolutie is geconserveerd [10, 15]. Om te testen welke van de orthologe sets het beste kunnen worden gebruikt om op co-expressie gebaseerde functievoorspelling te verbeteren, hebben we ook bepaald welke eiwitparen actief waren in hetzelfde proces, met behulp van de GO-database [16]. Van twee eiwitten werd gezegd dat ze actief zijn in hetzelfde proces als ze een element van het 4e niveau van de biologische procesboom van GO deelden, waarbij de wortel het element van het 0e niveau is en elke volgende vertakking een niveau hoger is. Ten slotte werd de fractie van de totale eiwitset die dit element van het vierde niveau deelt, berekend voor de verschillende drempels, als een maat voor de gevoeligheid en selectiviteit van de orthologe identificatiemethode voor functievoorspelling door behoud van co-expressie. In deze analyse werden GO-labels zoals 'undefined' weggegooid. De mens-wormanalyse werd op een vergelijkbare manier uitgevoerd, maar met gebruikmaking van expressiegegevens van Stuart en collega's [38]. Voor het berekenen van betrouwbare correlatiecoëfficiënten hebben we hier alleen genen gebruikt die expressiegegevens hadden voor ten minste 900 van de 1.202 menselijke weefselmonsters. In worm gebruikten we alle genen met expressiegegevens voor ten minste 500 van de 979 weefselmonsters.

      Het behoud van genvolgorde is de tweede maatstaf voor paarsgewijze conservering. Hier onderzochten we of twee genen naast elkaar lagen op het genoom met behulp van EnsMart [30] versie 19.3 [31] voor de mens-muisanalyse en EnsMart-versie 34 voor de mens-wormanalyse. Voor elk van de paren waarbij dit het geval was, onderzochten we of de orthologen in muis/worm ook aangrenzend waren op het genoom. Als dat zo is, werd de genvolgorde geacht te zijn behouden voor dit genenpaar. Omdat er geen variërende drempel nodig is (twee genen liggen naast elkaar of niet), is dit eenvoudiger dan het meten van het behoud van co-expressie. De fractie van naburige menselijke genen waarvan de orthologen in muis/worm ook buren zijn, wordt gebruikt als een maat voor de nauwkeurigheid van orthologische voorspelling.

      Een derde maatstaf voor paarsgewijze conservering is het behoud van eiwit-eiwitinteractie. De Database of Interacting Proteins (DIP) database [40] werd gebruikt om de eiwit-eiwit interacties in mens en muis/worm te bepalen. Een eiwit-eiwitinteractie wordt als geconserveerd beschouwd wanneer twee interagerende eiwitten bij mensen orthologen hebben in muis/worm die ook interactie hebben. Nogmaals, de fractie van interagerende menselijke eiwitten waarvan de orthologen in muis/worm ook een interactie aangaan, wordt beschouwd als een maat voor het behoud van functie.

      Orthologische referentieset

      We hebben een lijst met 'echte orthologe paren' gedefinieerd, voor zowel mens-muis als mens-worm, als referentieset. We kozen de Hox-clustereiwitten en hemoglobines als referentieset voor mens en muis vanwege de goed bestudeerde evolutie ervan bij gewervelde dieren. We bepaalden de homeobox-orthologen met behulp van figuur 1 uit [41]. Dit resulteerde in 41 orthologe eiwitparen, bestaande uit 31 humane eiwitten en 35 muizeneiwitten. De hemoglobine-orthologen werden geïdentificeerd met het gebruik van Lecomte et al. [42], resulterend in negen paren van vier menselijke en negen muizeneiwitten. Voor mensworm hebben we de analyse van nucleaire receptoren gebruikt door Gissendanner et al. [43], resulterend in 29 orthologe paren van 22 menselijke eiwitten en 18 wormeiwitten. Een tweede mens-worm orthologie-analyse werd uitgevoerd op de familie van toll-like receptoren [44], die slechts één lid in de worm heeft maar 10 leden in de mens. De vijfde en laatste eiwitfamilie, de Sm- en Sm-achtige eiwitten [45], werd geanalyseerd op zowel mens-muis- als mens-wormorthologen. Voor deze familie vonden we 13 menselijke eiwitten en 17 muizeneiwitten in 17 orthologe paren, samen met 6 menselijke eiwitten en 6 wormeiwitten in 6 paren.

      Voor elk van deze onderdelen van onze referentieset en voor elk van de zes orthologe identificatiemethoden hebben we bepaald hoeveel van deze orthologe paren werden gedekt, samen met het aantal valse positieven (paren met alleen het menselijke eiwit of het muis/worm-eiwit). van een referentiepaar). Ten slotte hebben we, om een ​​eerlijke vergelijking te krijgen tussen de verschillende orthologe identificatiemethoden, het aantal orthologe paren gedeeld door de gemiddelde proteoomgrootte berekend.


      Proteasen van mensen en muizen: een vergelijkende genomische benadering

      Proteolytische enzymen spelen een fundamentele rol in alle levende organismen. Naast niet-specifieke hydrolytische activiteiten, kunnen proteasen ook werken als verwerkingsenzymen die zeer selectieve en beperkte splitsing van specifieke substraten uitvoeren. Deze proteolytische verwerkingsgebeurtenissen zijn essentieel bij de controle van celgedrag, overleving en dood, en kunnen in veel pathologische omstandigheden worden gewijzigd.

      De recente beschikbaarheid van de genoomsequenties van mensen en muizen heeft de mogelijkheid geopend voor een vergelijkende en globale analyse van hun overeenkomstige degradomen - de complete sets proteasen die door deze organismen worden geproduceerd.

      Het menselijke degradoom bestaat uit ten minste 553 proteasen en homologen, die zijn verdeeld in vijf klassen: 21 asparagine-, 143 cysteïne-, 186 metallo-, 176 serine- en 27 threonineproteasen. Het degradoom van de muis is complexer, met ten minste 628 leden - 514 zijn echte orthologen van menselijke proteasen. Deze verhoogde complexiteit komt voornamelijk voort uit de uitbreiding van muizenproteasefamilies die geassocieerd zijn met reproductieve en immunologische functies.

      De evolutie van zowel menselijke als muizendegradomen is ook gedreven door de integratie van een breed scala aan gespecialiseerde functionele modules in hun katalytische domeinen. Deze hulpdomeinen zijn aanwezig in meer dan 40% van de proteasen en werken om hun interactie met substraten, remmers en receptoren te moduleren.

      Veel proteasen zijn gekoppeld aan ziekten bij de mens vanwege hun overexpressie in pathologieën zoals kanker, artritis, neurodegeneratieve en cardiovasculaire ziekten. We hebben echter ook 53 erfelijke degradomopathieën gecatalogiseerd die voornamelijk worden veroorzaakt door functieverliesmutaties in proteasegenen. Het genereren van muismodellen heeft waardevolle informatie opgeleverd over de moleculaire mechanismen die een rol spelen bij de ontwikkeling en progressie van vele ziekten waarbij veranderingen in de proteasefunctie betrokken zijn.

      Moleculaire analyse van proteasesystemen zou de ontwikkeling van nieuwe strategieën voor de behandeling van ziekten van proteolyse kunnen vergemakkelijken door middel van identificatie van doelwitten en het rationele ontwerp van selectieve remmers voor het blokkeren van tot overexpressie gebrachte proteasen of, als alternatief, door middel van methoden die gericht zijn op het vervangen of verhogen van de activiteit van afwezige of defecte proteasen.


      Wat is de beste manier om te achterhalen welke domeinen in een lijst met InterPro-ID's katalytisch zijn? - Biologie

      De volgende externe sites kunnen andere samenstellingen of annotaties gebruiken dan FlyBase.

      Raadpleeg de JBrowse-weergave van Dmel Sodh-1 voor informatie over andere functies

      Gebruik het formulier Contact FlyBase om een ​​correctie voor een genmodel in te dienen

      Genmodel beoordeeld tijdens 5.50

      Genmodel beoordeeld tijdens 5.55

      De hieronder aangegeven groep(en) van polypeptiden delen een identieke sequentie met elkaar.

      Klik voor een lijst met regelgevende kenmerken (versterkers, TFBS, enz.) en genverstoringen (puntmutaties, indels, enz.) binnen of overlappende DmelSodh-1 met behulp van de Functietoewijzer hulpmiddel.

      Opmerking: anlage in statu nascendi

      Opmerking: anlage in statu nascendi

      Opmerking: anlage in statu nascendi

      Opmerking: gerapporteerd als speekselklierprimordium

      Sodh-1- en Sodh-2-transcripten worden gedetecteerd in larvale en volwassen stadia, en in lage niveaus in popstadia. Sodh-1 is het belangrijkste transcript in alle bestudeerde stadia.

      GBrowse - Visuele weergave van RNA-Seq-signalen

      Houd er rekening mee dat FlyBase beheert niet langer genomische kloontoetredingen, dus deze lijst is mogelijk niet compleet

      Houd er rekening mee dat Deze sectie somt cDNA's en EST's op die binnen de genomische omvang van het genmodel vallen, waaronder cDNA's en EST's van genen binnen introns, of van overlappende genen. Zie GBrowse voor uitlijning van de cDNA's en EST's met het genmodel.

      Voor elk cDNA waarvan de sequentie volledig is bepaald, handhaaft het DGRC verschillende vormen van het cDNA (bijv. gemerkt of niet-getagd) in verschillende gastheervectoren voor daaropvolgende klonering en expressie in Drosophila- en Drosophila-cellijnen.


      Wat is de beste manier om te achterhalen welke domeinen in een lijst met InterPro-ID's katalytisch zijn? - Biologie

      De volgende externe sites kunnen andere samenstellingen of annotaties gebruiken dan FlyBase.

      Zie de JBrowse-weergave van Dmel Jheh3 voor informatie over andere functies

      Gebruik het formulier Contact FlyBase om een ​​correctie voor een genmodel in te dienen

      Genmodel beoordeeld tijdens 5.50

      Er is slechts één eiwitcoderend transcript en één polypeptide geassocieerd met dit gen

      Klik voor een lijst met regelgevende kenmerken (versterkers, TFBS, enz.) en genverstoringen (puntmutaties, indels, enz.) binnen of overlappende DmelJheh3 met behulp van de Functietoewijzer hulpmiddel.

      GBrowse - Visuele weergave van RNA-Seq-signalen

      Houd er rekening mee dat FlyBase beheert niet langer genomische kloontoetredingen, dus deze lijst is mogelijk niet compleet

      Houd er rekening mee dat Deze sectie somt cDNA's en EST's op die binnen de genomische omvang van het genmodel vallen, waaronder cDNA's en EST's van genen binnen introns, of van overlappende genen. Zie GBrowse voor uitlijning van de cDNA's en EST's met het genmodel.

      Voor elk cDNA waarvan de sequentie volledig is bepaald, handhaaft het DGRC verschillende vormen van het cDNA (bijv. gemerkt of niet-getagd) in verschillende gastheervectoren voor daaropvolgende klonering en expressie in Drosophila- en Drosophila-cellijnen.


      Bekijk de video: JetMinds: најдобриот начин да учиш математика (Januari- 2022).