Informatie

Hulpmiddel voor het samenstellen van aminozuren in het hele genoom?


Ik ben geïnteresseerd in een statistisch hulpmiddel om het gebruik van bacteriële codons op genomisch niveau te krijgen. Idealiter zou de tool flexibel moeten zijn om honderden bacteriële genomen te analyseren.

Ik heb in de database met MeSH-termen gekeken, maar ik ben een beetje de weg kwijt als ik zoek naar "Genetic Code" en Software.

Ik ben op zoek naar een output zoals deze:


Ik heb een script geschreven waarmee je aan de slag kunt. Het downloadt alle eiwitcoderende transcripten van de soort van belang van Ensembl en drukt het codongebruik voor elk codon op elk transcript af.

U moet deBio::EnsEMBL::RegistryPerl-module, zie hier voor instructies. Het script gebruikt ook de Wiskunde::Ronde module, moet al het andere standaard worden geïnstalleerd met uw Perl-distributie. Ten slotte verwacht het script te worden uitgevoerd vanuit een Unix/Linux-besturingssysteem.

Voorbeeld run

ensembl_get_codon_count.pl mens > mens.csv

Voorbeeld uitvoer

Gennaam Gen-ID Transcript-ID Ala_GCC Ala_GCC_% Ala_GCA Ala_GCA_% Ala_GCG Ala_GCG_% Ala_GCT Ala_GCT_% CRLF2 ENSG00000205755 ENST00000400841 6 40 6 40 0 ​​0 3 20

In het bovenstaande voorbeeld bevat het transcript ENST00000400841 van het humane CRLF2-gen in totaal 15 Alanine-residuen, waarvan 6 worden gecodeerd door het GCC-codon (40%), 6 door het GCA-codon (40%) en 3 door het GCT-codon (20%). Het GCG-codon wordt niet gebruikt (0%).

Dit is een gesneden versie van de uitvoer, de daadwerkelijke uitvoerregels zijn veel langer omdat ze alle codons bevatten en er zal één regel per eiwitcoderend transcript zijn.

Dit script zou u in ieder geval op weg moeten helpen, aangezien het u de onbewerkte gegevens zal geven die nodig zijn om uw statistische analyses uit te voeren. Als je het in gepubliceerd werk gebruikt, zou ik het op prijs stellen als je het me zou kunnen laten weten (mijn e-mailadres is opgenomen in het script) en misschien zou je me in de dankbetuiging willen vermelden :).


Hulpmiddel voor het samenstellen van aminozuren in het hele genoom? - Biologie

ONLINE ANALYSE HULPMIDDELEN
(INTERNETBRONNEN voor MOLECULAIRE BIOLOGEN)

Analyse van nucleotide- en eiwitsequentiegegevens was aanvankelijk beperkt tot die met toegang tot gecompliceerde mainframe- of dure desktopcomputerprogramma's (bijvoorbeeld PC/GENE, Lasergene, MacVector, Accelrys enz.). De beschikbaarheid van online tools geeft zelfs de beginnende moleculair bioloog de mogelijkheid om een ​​aanzienlijke hoeveelheid bruikbare informatie af te leiden uit nucleotide- of eiwitsequentiegegevens. Voor degenen zonder ervaring heb ik drie sequenties gegeven: (a) een DNA-sequentie, (b) een eiwitsequentie en (c) vier eiwitsequenties gepresenteerd in FASTA-formaat. Voordat u een website uitprobeert, selecteert u de volgorde en kopieert u deze naar het klembord. Elk van de items in blauwe tekst is gehyperlinkt naar een site op het web. Elk van deze websites heeft een vak waarin u uw reeks kunt "plakken". Klik op de knop "Zoeken", "Uitvoeren" of "Verzenden". Gebruik bij twijfel de standaardinstelling die de sites bieden, maar voor de meer avontuurlijke sites bieden sommige sites de mogelijkheid om de zoekstrategie aan te passen.


UITLIJNINGEN

LALIGN - (EMBnet) vindt meerdere overeenkomende subsegmenten in twee reeksen. Biedt een met % identiteit voor verschillende subsegmenten van de sequentie.

FFAS - Het vouw- en functietoewijzingssysteem. Het profiel van het eiwit van een gebruiker kan nu worden vergeleken met

20 extra profieldatabases. De gebruiker kan via een reeks tabbladen door meerdere resultatenpagina's navigeren en bevat ook nieuwe functionaliteit, zoals een dotplot-grafiekviewer, modelleertools, een verbeterde 3D-uitlijningsviewer en links naar de database met structurele overeenkomsten. (Referentie: Jaroszewski, L. et al. 2011. Nucleic Acids Res. 39(probleem met webserver): W38-44)

Vergelijk twee sequenties met LALIGN/PLALIGN vind interne duplicaties door niet-kruisende lokale uitlijningen van eiwit- of DNA-sequenties te berekenen. LALIGN toont de uitlijning en gelijkheidsscores, terwijl PLALIGN een "dot-plot"-achtige grafiek toont.

SFESA (Sovergaan naar Fix secundaire structuur EelementS in EENlignments) - is een webserver voor paarsgewijze afstemmingsverfijning door secundaire structuurverschuivingen.SFESA evalueert uitlijningsvarianten die worden gegenereerd door lokale verschuivingen en selecteert de best scorende uitlijningsvariant. (Referentie: Tong J et al (2015). Eiwitten. 83(3): 411-427).

LAATSTE - biedt veel controle over de gegevensverwerking, samen met dotplots en gekleurde uitlijningen (referentie: Kielbasa SM et al. Genome Res 21(3): 487-93).

Wasabi- (Andres Veidenberg, Universiteit van Helsinki, Finland) is een browsergebaseerde applicatie voor de visualisatie en analyse van moleculaire sequentiegegevens met meerdere uitlijningen.

VerAlign-uitlijning van meerdere sequenties is een vergelijkingsprogramma dat de kwaliteit van een testuitlijning beoordeelt ten opzichte van een referentieversie van dezelfde uitlijning.

Paarsgewijze nucleotidesequentie-uitlijning voor taxonomie (EzBioCloud, Seoul National University, Republiek Korea) - voor nucleotidesequenties < 5 kb geeft het kleuruitlijningen en een overeenkomstscore op basis van Myers en Miller (Globale uitlijning)

GeneWise (EMBL-EBI) - vergelijkt een eiwitsequentie met een genomische DNA-sequentie, waarbij rekening wordt gehouden met introns en frameshifting-fouten.

SIM - Uitlijningstool voor eiwitten (ExPASy, Zwitserland) geeft gefragmenteerde uitlijningen vergelijkbaar met LALIGN.

WebPRANK - server ondersteunt de uitlijning van DNA-, eiwit- en codonsequenties evenals eiwit-vertaalde uitlijning van cDNA's, en bevat ingebouwde structuurmodellen voor de uitlijning van genomische sequenties. De resulterende uitlijningen kunnen worden geëxporteerd in verschillende formaten die veel worden gebruikt in evolutionaire sequentieanalyses. De webPRANK-server bevat ook een krachtige webgebaseerde uitlijnbrowser voor de visualisatie en naverwerking van de resultaten in de context van een cladogram dat de sequenties relateert, waardoor (bijvoorbeeld) uitlijningskolommen kunnen worden verwijderd met een lage posterieure betrouwbaarheid. Naast de novo uitlijningen, kan webPRANK worden gebruikt voor de inferentie van voorouderlijke sequenties met fylogenetisch realistische gap-patronen, en voor de annotatie en nabewerking van bestaande uitlijningen. (Referentie: Löytynoja, A., & Goldman, N. 2010. BMC Bioinformatics 11: 579).

BLAST2 (NCBI) - ook bruikbaar voor vergelijkingen van DNA-sequenties. Biedt een kleine afbeelding die alleen van nut is bij eiwitten of korte DNA-sequenties.

Eiwitsequentie-overeenkomst en identiteitsscores:

EMBOSS supermatcher Gebruik 10 en 0,5 als de standaardwaarden in respectievelijk de Gap openingspenalty en Gap extension penalty.
EMBOSS-matcher - vindt de beste lokale uitlijningen tussen twee sequenties

FOLDALIGN - vouwt en lijnt RNA-structuren uit (maak een vouwlijn) op basis van een lichtgewicht energiemodel en sequentieovereenkomst. De huidige versie maakt paarsgewijze vouwuitlijningen. (Referentie: J.H. Havgaard et al. 2005. Bioinformatica 21: 1815 - 1824).

VERGELIJK MEERDERE SEQUENTIES :

ACHTERGROND INFORMATIE: Er zijn twee goede online hulpsites voor CLUSTAL W. Dit zijn: (een) Online hulp voor CLUSTAL (Wiki.) en, (B) Uitlijning van meerdere sequenties , (Wiki)

ClustalW - Uitlijning van meerdere reeksen (EBI, Verenigd Koninkrijk). Dit biedt een aantal opties voor datapresentatie, homologiematrices [BLOSUM (Henikoff), PAM (Dayhoff) of GONNET, en presentatie van fylogenetische bomen (Neighbor-Joining, Phylip of Distance). Sites die ClustalW-alignering aanbieden, bevinden zich op de Universiteit van Kyoto en chEMBLnet.org

Clustal Omega - is een nieuw uitlijningsprogramma met meerdere sequenties dat gebruikmaakt van gezaaide gidsbomen en HMM-profielprofieltechnieken om uitlijningen te genereren. (Referentie: Sievers, F. et al. 2011. Molecular Systems Biology) 7 Artikelnummer: 539)

MAFFT Uitlijning van meerdere sequenties en NJ / UPGMA-fylogenie - Ik heb onlangs geprobeerd om dertien 50 kb bacteriofaaggenomen uit te lijnen met behulp van ClustalW, geen succes, MAFFT zorgde voor de uitlijning ongelooflijk snel. Helaas zou het geen boom genereren. De Clustal-gegevens werden geopend in ClustalX en de boom werd opgeslagen in de standaardinstellingen en gevisualiseerd in FigTree (referentie: Katoh, K. et al. 2002. Nucl. Acids Rese. 30 : 3059-3066).

DbClustal - (EMBL-EBI) lijnt reeksen uit een BlastP-databasezoekopdracht uit met één queryreeks. Het uitlijningsalgoritme is gebaseerd op ClustalW2 dat is aangepast om lokale uitlijningsgegevens op te nemen in de vorm van ankerpunten tussen paren sequenties. Zeer kleurrijke uitvoer.

LALIGN - onderdeel van VISTA Tools for Comparative Genomics

PROBCONS - is een nieuw hulpmiddel voor het genereren van meerdere uitlijningen van eiwitsequenties. Met behulp van een combinatie van probabilistische modellering en op consistentie gebaseerde uitlijningstechnieken heeft PROBCONS de hoogste nauwkeurigheid van alle uitlijningsmethoden tot nu toe bereikt. Op de BAliBASE benchmark-uitlijningsdatabase laten uitlijningen geproduceerd door PROBCONS een statistisch significante verbetering zien ten opzichte van de huidige programma's, met gemiddeld 7% meer correct uitgelijnde kolommen dan die van T-Coffee, 11% meer correct uitgelijnde kolommen dan die van CLUSTAL W, en 14 % correcter uitgelijnde kolommen dan die van DIAALIGN. (Referentie: C.B. Do et al. 2005. Genome Res. 15: 330-340).

webPRANK - bevat fylogeniebewuste uitlijning, visualisatie en nabewerking van meerdere sequenties in een gebruiksvriendelijke webinterface. (Referentie: Löytynoja, A., & Goldman, N. 2010. BMC Bioinformatics. 11:579).

GUIDANCE - implementeert twee verschillende algoritmen voor het evalueren van betrouwbaarheidsscores: (i) de heads-or-tails (HoT)-methode, die de uitlijningsonzekerheid meet als gevolg van co-optimale oplossingen (ii) de GUIDANCE-methode, die de robuustheid van de uitlijning meet gids-boom onzekerheid. De server projecteert de betrouwbaarheidsscores op de MSA en wijst naar kolommen en reeksen die onbetrouwbaar zijn uitgelijnd. Deze kunnen automatisch worden verwijderd ter voorbereiding op downstream-analyses. NB Minstens 8 sequenties nodig (Referentie: Penn, O. 2010. Nucleic Acids Res. 38(Webserverprobleem):W23-28).

SALIGN - bepaalt automatisch de beste uitlijningsprocedure op basis van de invoer, terwijl de gebruiker de standaard parameterwaarden kan negeren. Meerdere uitlijningen worden geleid door een dendrogram berekend uit een matrix van alle paarsgewijze uitlijningsscores. Bij het uitlijnen van sequenties op structuren, gebruikt SALIGN structurele omgevingsinformatie om hiaten optimaal te plaatsen. Als twee meervoudige sequentie-uitlijningen van verwante eiwitten worden ingevoerd in de server, wordt een profiel-profieluitlijning uitgevoerd. (Referentie: Braberg, H. et al. 2012. Bioinformatics. 28(15):2072-2073).

AlignMe (voor Alignment of Membrane Proteins) is een zeer flexibel programma voor het uitlijnen van sequenties dat het gebruik van verschillende maten van overeenkomst mogelijk maakt. Deze vergelijkbaarheidsmaatregelen omvatten: substitutiematrices, hydrofobiciteitsschalen en alle soorten profielen (d.w.z. secundaire structuurvoorspellingen of transmembraanvoorspellingen). (Referentie: Khafizov K et al. 2014. Nucl. Acids Res. 42(W1), W246-W251)

PRALINE - is een programma voor het uitlijnen van meerdere sequenties met veel opties om de informatie voor elk van de invoersequenties te optimaliseren, b.v. globale of lokale preprocessing, voorspelde secundaire structuurinformatie en iteratiemogelijkheden. (Referentie: V.A. Simossis et al. (2005) Nucleic Acids Res. 33: 816-824). Voorbeeld van PRALINE-uitvoer:

Gene Context Tool - is een ongelooflijke tool voor het visualiseren van de genoomcontext van een gen of een groep genen (synteny). In het volgende diagram is een RpoN (Sigma54) eiwit geanalyseerd. (Referentie: R. Ciria et al. (2 004) Bio-informatica 20: 2307-2308).

ConSurf is een bioinformatica-tool voor het schatten van het evolutionaire behoud van amino-/nucleïnezuurposities in een eiwit/DNA/RNA-molecuul op basis van de fylogenetische relaties tussen homologe sequenties. De mate waarin een amino- (of nucleïnezuur)zuurpositie evolutionair geconserveerd is, is sterk afhankelijk van het structurele en functionele belang ervan. Snel evoluerende posities zijn variabel, terwijl langzaam evoluerende posities behouden blijven. (Referentie: Ashkenazy, H. et al. 2010. Nucl. Acids Res. 38 (suppl 2): ​​W529-W533).

MultAlin - Uitlijning van meerdere sequenties door Florence Corpet (Institut National de la Recherche Agronomique (INRA), Frankrijk). NB De resultaten worden in kleur weergegeven.

Meerdere uitlijning - GeneBee-service (Belozersky Instituut voor Fysisch-chemische Biologie, Staatsuniversiteit van Moskou, Rusland) . NB Deze dienst biedt ook fylogenetische analyse van de gegevens.

PROMALS3D - construeert uitlijningen voor meerdere eiwitsequenties en/of structuren met behulp van informatie uit zoekopdrachten in sequentiedatabases, voorspelling van secundaire structuren, beschikbare homologen met 3D-structuren en door de gebruiker gedefinieerde beperkingen. (Referentie: Pei, J. et al. 2008. Nucleic Acids Res. 36(7): 2295-2300 ).

SANSparallel: interactief zoeken naar homologie tegen Uniprot - de webserver biedt zoekopdrachten in eiwitsequentiedatabases met onmiddellijke respons en professionele visualisatie van de uitlijning door software van derden. De output is een lijst, paarsgewijze uitlijning of gestapelde uitlijning van op sequentie gelijkende eiwitten van Uniprot, UniRef90/50, Swissprot of Protein Data Bank. De gestapelde uitlijningen worden bekeken in Jalview of als sequentielogo's. Het zoeken in de database maakt gebruik van de suffix array-buurtzoekmethode (SANS), die opnieuw is geïmplementeerd als een client-server, verbeterd en geparallelliseerd. De methode is extreem snel en zo gevoelig als BLAST met een sequentie-identiteit van meer dan 50%. (Referentie: P. Somervuo & L. Holm. 2015. Nucl. Acids Res. 43 (W1): W24-W29).

DiAlign (Univ. Bielfeld, Duitsland) - "DIALIGN is een nieuw programma voor meervoudige uitlijning ontwikkeld door Burkhard Morgenstern et al. Terwijl standaard uitlijningsmethoden afhankelijk zijn van het vergelijken van afzonderlijke residuen en het opleggen van gap-sancties, construeert DIAALIGN paarsgewijze en meervoudige uitlijningen door hele segmenten van de sequenties te vergelijken."

The Coffee Collection - T-Coffee (Lijnt DNA, RNA of Eiwitten uit met behulp van de standaard T-Coffee), M-Coffee (Lijnt DNA, RNA of Eiwitten uit door de output van populaire aligners te combineren), R-Coffee (Lijnt RNA-sequenties uit met behulp van voorspelde secundaire structuren), Expresso (Lijnt eiwitsequenties uit met behulp van structurele informatie), PSI-Coffee (Lijnt ver verwante eiwitten uit met behulp van homologie-extensie) en TM-Coffee (Lijnt transmembraan-eiwitten uit met behulp van homologie-extensie). (Referentie: Di Tommaso. P. et al. 2011. Nucleic Acids Res. 39(Webserverprobleem: W13-17 Chang, J.M. et al. 2012. BMC Bioinformatics. 13 Aanvulling 4: S1).

TM-Aligner - biedt uitlijning van meerdere sequenties voor transmembraaneiwitten (Referentie: Bhat B et al. (2017) Wetenschappelijke rapporten 7: Artikelnummer: 12543 ).

LocARNA - mmeervoudig EENaansluiting van RNAs - is een hulpmiddel voor meervoudige uitlijning van RNA-moleculen. LocARNA vereist alleen RNA-sequenties als invoer en zal tegelijkertijd de invoersequenties vouwen en uitlijnen. LocARNA voert een meervoudige uitlijning uit samen met een consensusstructuur. Voor het vouwen maakt het gebruik van een zeer realistisch energiemodel voor RNA's zoals het is door RNAfold van het Vienna RNA-pakket (of Zuker's mfold). Voor de uitlijning beschikt het over RIBOSUM-achtige gelijkenisscores en realistische gap-kosten. (Referentie: C. Smith et al. 2010. Nucl. Acids Res. 38: W373-377).

CARNA is een hulpmiddel voor meervoudige uitlijning van RNA-moleculen. CARNA vereist alleen de RNA-sequenties als invoer en zal basenpaarwaarschijnlijkheidsmatrices berekenen en de sequenties uitlijnen op basis van hun volledige ensembles van structuren. Als alternatief kunt u ook basenpaarwaarschijnlijkheidsmatrices (dotplots in .ps-formaat) of vaste structuren (als annotatie in de FASTA-uitlijning) voor uw sequenties leveren. Als u vaste structuren opgeeft, worden alleen die structuren en niet het hele ensemble van mogelijke structuren uitgelijnd. In tegenstelling tot LocARNA kiest CARNA niet de meest waarschijnlijke consensusstructuur, maar berekent het de uitlijning die het beste past bij alle waarschijnlijke structuren tegelijk. Daarom is CARNA bijzonder nuttig bij het uitlijnen van RNA's zoals riboswitches, die meer dan één stabiele structuur hebben. (Referentie: A. Dragos et al. 2012. Onderzoek naar nucleïnezuren 40: W49-W53)

Web-Beagle: een webserver voor de paarsgewijze globale of lokale uitlijning van secundaire RNA-structuren. (Referentie: E. Mattei et al. 2015. Nucl. Acids Res. 43 (W1): W493-W497).

Alternatieve presentaties van uitlijningen:
BOXSHADE - (Hofmann & Baron, Instituut Pasteur, Frankrijk) Deze versie accepteert een grote verscheidenheid aan bestandsformaten en biedt de aanvrager aanzienlijke flexibiliteit bij het definiëren van het uiterlijk van de uitvoer (kleur en rangschikking evenals formaat).

ESPript 3.0 - (IUniversite Lyon, Frankrijk) - is een programma dat sequentieovereenkomsten en secundaire structuurinformatie van uitgelijnde sequenties weergeeft voor analyse- en publicatiedoeleinden. Dit vereist dat u uw uitlijning opslaat als een *.aln-bestand. Goede controle over het uiterlijk en formaat van de uitvoer is beschikbaar (ps, tiff en gif). (Referentie: Robert X. & Gouet P. 2014. Nucl. Acids Res. 42 (W1), W320-W324).

Meervoudig uitlijnen tonen - (Bioinformatics.org/The Open Lab University of Massachusetts Lowell) Biedt een aanzienlijke keuze in kleuruitlijningen.

Sequentievergelijking tussen twee genomen:


Karakteristieke structurele kenmerken:

Opsins delen verschillende aminozuurmotieven, waaronder zeven transmembraanhelices, met andere G-proteïne-gekoppelde receptoren (GPCR's) van de rodopsine-superfamilie. De eerste primaire sequentie van een lid van de rhodopsine-superfamilie, de β-adrenerge receptor, werd bepaald in 1986 [42], en sindsdien wordt de opsine-familie beschouwd als een van de typische leden van de superfamilie. Zoals getoond in figuur 2a, zijn verschillende aminozuurresiduen sterk geconserveerd onder de opsin-familieleden, ongeveer de helft hiervan is geconserveerd in alle GPCR's van de rodopsine-superfamilie [43]. Alle opsins binden een chromofoor: de gewervelde visuele en niet-visuele opsins, de ongewervelde GQ-gekoppelde opsins en de GO-gekoppelde opsins binden allemaal 11-cis-retinaal, terwijl de foto-isomerases en de peropsins alle-trans-retinaal (Figuur 2b). De chromoforen van de andere opsins zijn onzeker.

Structuren van opsins en van de chromofoor retina. (een) Een model van de secundaire structuur van runderrhodopsine. Aminozuurresten die sterk geconserveerd zijn in de hele opsin-familie worden weergegeven met een grijze achtergrond. De retinale bindingsplaats (K296) en de tegenionpositie (E113) zijn gemarkeerd met dikke cirkels, net als E181, het tegenion in andere opsins dan de visuele en niet-visuele gewervelde dieren. C110 en C187 vormen een disulfidebinding. (B) De chemische structuren van de 11-cis en alles-trans vormen van netvlies. (C) De kristalstructuur van runderrhodopsine (Protein DataBank ID: 1U19 [PDB:1U19]). De chromofoor 11-cis-netvlies, K296 en E113 worden weergegeven in stokweergave in het geringde gebied. (NS) De structuur van de Schiff-basiskoppeling gevormd door het netvlies in de runderopsin, samen met het tegenion dat het stabiliseert.

De kristalstructuur van runderrhodopsine is opgelost [44-46] (Figuur 2c).K296 (in de enkelletterige aminozuurcode) in helix VII bindt het netvlies via een Schiff-base-koppeling, waarbij het stikstofatoom van de K296-aminogroep een dubbele binding vormt met het koolstofatoom aan het ene uiteinde van het netvlies (Figuur 2d). Het sleutelresidu K296 is belangrijk voor lichtabsorptie en de aan- of afwezigheid ervan kan worden gebruikt om te beoordelen of een nieuw gevonden rhodopsine-type GPCR echt een opsin is. Het tegenion is een ander belangrijk residu: het is een negatief geladen aminozuur dat helpt om de geprotoneerde Schiffse base te stabiliseren (zie hieronder). In de gewervelde visuele en niet-visuele opsin-subfamilie dient het sterk geconserveerde residu E113 als het tegenion [47-49], terwijl in andere opsins positie 113 wordt ingenomen door andere aminozuren (tyrosine, fenylalanine, methionine of histidine) en de sterk geconserveerde E181 dient als tegenion. Dit verschil suggereert dat vervanging van tegenionen heeft plaatsgevonden tijdens de moleculaire evolutie van visuele en niet-visuele opsins van gewervelde dieren [50, 51].


2 VOORBEELDEN VAN GEBRUIK VAN CODONEXPLORER

Histogrammen van CAI-waarden en plots van CAI tegen GC-gehalte op de derde codonpositie (P3), kan inzicht verschaffen in selectie voor translationele efficiëntie of mutatie-effecten op codongebruik. Figuur 1a en b laten zien hoe twee verschillende genomen, Mycoplasma genitalium (lage GC) en Streptomyces coelicolor (high-GC), verschillen in compositie-evolutie: genen die passen bij de algemene GC-voorkeur van elk genoom, hebben meer kans om in hoge mate tot expressie te worden gebracht met hoge CAI-waarden. Figuur 1c toont vingerafdrukplots van verschillende GC-bereiken van de S.coelicolor genoom: bij lagere (niet-voorkeur) GC is het codongebruik relatief onbevooroordeeld, terwijl bij hogere GC duidelijke voorkeuren voor specifieke codons duidelijk zijn.

Voorbeelden van CodonExplorer-uitvoer. (een en B) Plots van CAI (een maat die gecorreleerd is met expressie) tegen GC-inhoud op de derde positie voor twee genomen met extreme codonbias, M.genitalium en S.coelicolor. (C) Vingerafdrukgrafieken uitgesplitst naar reeksen van GC-inhoud per gen: codongebruik is meer bevooroordeeld bij hogere GC-inhoud. (NS) Monte Carlo-histogram van CAI-waarden voor de Salmonella pathogeniciteit eiland 2 (SPI-2), die significant verschilt (P= 0,01) in gemiddelde CAI-waarden van het genoom als geheel met a t-test om het werkelijke gemiddelde te vergelijken met een verdeling van gemiddelden van andere genen: deze zouden bij benadering normaal verdeeld moeten zijn vanwege de centrale limietstelling.

Voorbeelden van CodonExplorer-uitvoer. (een en B) Plots van CAI (een maat die gecorreleerd is met expressie) tegen GC-inhoud op de derde positie voor twee genomen met extreme codonbias, M.genitalium en S.coelicolor. (C) Vingerafdrukgrafieken uitgesplitst naar reeksen van GC-inhoud per gen: codongebruik is meer bevooroordeeld bij hogere GC-inhoud. (NS) Monte Carlo-histogram van CAI-waarden voor de Salmonella pathogeniciteit eiland 2 (SPI-2), die significant verschilt (P= 0,01) in gemiddelde CAI-waarden van het genoom als geheel met a t-test om het werkelijke gemiddelde te vergelijken met een verdeling van gemiddelden van andere genen: deze zouden bij benadering normaal verdeeld moeten zijn vanwege de centrale limietstelling.

CodonExplorer kan ook Monte Carlo-technieken gebruiken voor het testen van de statistische significantie van verschillen in codongebruik of nucleotidesequentiesamenstelling tussen vermoedelijk overgedragen sets genen en het genoom als geheel. Figuur 1d toont ongewoon lage CAI voor het SPI-2 pathogeniteitseiland in het genoom van Salmonella enterica serovar Typhimurium LT 2, consistent met de hypothese dat deze regio HGT onderging.

Door gebruikers in staat te stellen snel een breed scala aan samenstellingsanalyses uit te voeren op aanpasbare genenverzamelingen, biedt CodonExplorer een krachtig platform voor het onderzoeken van vele verschijnselen.


Bio-informatica: databases, hulpmiddelen en implicaties voor biodiversiteit

Grofweg beschrijft bioinformatica elk gebruik van computers om biologische informatie te verwerken.

In de praktijk wordt een engere definitie gehanteerd: bioinformatica is een synoniem voor “computationele moleculaire biologie”—het gebruik van computers om de moleculaire componenten van levende wezens te karakteriseren.

De meeste biologen praten over 'bio-informatica doen' als ze computers gebruiken om de samenstelling of structuur van biomoleculen op te slaan, op te halen, te analyseren of te voorspellen.

Naarmate computers krachtiger worden, zou men waarschijnlijk simuleren aan deze lijst van bioinformatica-werkwoorden kunnen toevoegen. “Biomoleculen” omvatten het genetische materiaal – nucleïnezuren – en de producten van genen: eiwitten. Dit zijn de zorgen van “klassiek” bioinformatica, die zich voornamelijk bezighoudt met sequentieanalyse. De bio-informatica is overwogen “de wiskundige, statistische en computermethoden die tot doel hebben biologische problemen op te lossen met behulp van DNA- en aminozuursequenties en gerelateerde informatie.” NIH heeft bio-informatica gedefinieerd als “onderzoek, ontwikkeling of toepassing van computerhulpmiddelen en benaderingen voor het uitbreiden van het gebruik van biologische, medische, gedrags- of gezondheidsgegevens, met inbegrip van gegevens voor het verwerven, opslaan, organiseren, archiveren, analyseren of visualiseer dergelijke gegevens.”

Het is duidelijk dat we overlappende disciplines hebben als computationele structurele biologie, moleculaire structurele biologie, bio-informatica, genomica, structurele genomica, proteomics, computationele biologie, bio-engineering enzovoort. Voor bio-informatica kunnen we echter de volgende mogelijkheden overwegen:

Bioinformatica methoden = biologie + informatica

Onderwerp Bioinformatica = Volgorde + Functie + Structuur van biomoleculen. Het is een wiskundig interessante eigenschap van de meeste grote biologische moleculen dat het polymeren zijn, geordende ketens van eenvoudigere moleculaire modules die monomeren worden genoemd. Zie de monomeren als kralen of bouwstenen die, ondanks dat ze verschillende kleuren en vormen hebben, allemaal dezelfde dikte hebben en op dezelfde manier met elkaar verbonden zijn. Monomeren die in een keten kunnen worden gecombineerd, behoren tot dezelfde algemene klasse, maar elk soort monomeer in die klasse heeft zijn eigen goed gedefinieerde reeks kenmerken.

Veel monomeermoleculen kunnen worden samengevoegd om een ​​enkel, veel groter macromolecuul te vormen. Macromoleculen kunnen buitengewoon specifieke informatieve inhoud en/of chemische eigenschappen hebben. Volgens dit schema kunnen de monomeren in een bepaald macromolecuul van DNA of eiwit rekenkundig worden behandeld als letters van een alfabet, samengebracht in voorgeprogrammeerde arrangementen om berichten te dragen of werk in een cel te doen.

De grootste prestatie van bioinformatica-methoden is het Human Genome Project. Een van de gevolgen is dat het vakgebied van de biologie verandert van een beschrijvende in een analytische wetenschap. Nauwkeurige en consistente beschrijvingen zijn nu niet alleen nodig, maar ook van vitaal belang voor analyse. Hierdoor veranderen de aard en prioriteiten van bioinformatica, onderzoek en toepassingen. Mensen praten vaak onheilspellend over ons leven in het “post-genomische”-tijdperk.

Eén visie is dat dit op verschillende manieren van invloed zal zijn op de bio-informatica:

(i) Nu hebben we meerdere hele genomen en kunnen we zoeken naar verschillen en overeenkomsten tussen alle genen van meerdere soorten. Uit dergelijke studies kunnen we bepaalde conclusies trekken over soorten en algemene over evolutie. Dit soort wetenschap wordt vaak vergelijkende genomica genoemd.

(ii) Er zijn nu technologieën die zijn ontworpen om het relatieve aantal kopieën van een genetische boodschap (niveaus van genexpressie) in verschillende stadia van ontwikkeling of ziekte of in verschillende weefsels te meten. Dergelijke technologieën voor genexpressiestudies, zoals DNA-microarrays, zullen in belang toenemen.

(iii) Andere, meer directe, grootschalige manieren om genfuncties en associaties te identificeren (bijvoorbeeld twee-hybride gistmethoden) zullen in betekenis toenemen en zullen leiden tot de groei van begeleidende bio-informatica van functionele genomica.

(iv) Er zal een algemene accentverschuiving zijn (vooral van sequentieanalyse) van genen zelf naar genproducten. Dit zal leiden tot: pogingen om de activiteiten te catalogiseren en interacties tussen alle genproducten (bij mensen) te karakteriseren: proteomics, en pogingen om de structuren van alle eiwitten (bij mensen) te kristalliseren en/of voorspellen: structurele biologie.

(v) Wat vaak onderzoek of medische informatica wordt genoemd, het beheer van alle biomedische experimentele gegevens die verband houden met bepaalde moleculen of patiënten - van massaspectroscopie tot in vitro-assays tot klinische bijwerkingen - zal de zorg van die werken in farmaceutisch bedrijf en ziekenhuis-IT (informatietechnologie) in de hoofdstroom van cel- en moleculaire biologie en migreren van de commerciële en klinische naar de academische sector.

Het is vermeldenswaard dat alle bovengenoemde niet-klassieke onderzoeksgebieden afhankelijk zijn van gevestigde sequentieanalysetechnieken.

Principes van zoekopdrachten op sequentiegelijkenis:

De karakterisering van een nieuwe DNA- of eiwitsequentie begint met een databasezoektocht om te achterhalen of er homologen van dit gen (eiwit) beschikbaar zijn, en in welk detail. Het is duidelijk dat het zoeken naar een overeenkomende reeks vrij eenvoudig is. Neem de eerste letter van de queryreeks, zoek naar de eerste keer dat deze voorkomt in de database en controleer vervolgens of de tweede letter van de query hetzelfde is in het onderwerp.

Als de twee letters overeenkomen, controleer dan de derde, dan de vierde, en ga door met deze vergelijking tot het einde van de zoekopdracht. Als de overeenkomst voor de tweede letter mislukt, wordt gezocht naar een andere instantie van de eerste letter, enzovoort. Dit identificeert alle reeksen in de database die identiek zijn aan de zoekreeks (of neemt deze op).

Hier hebben we alleen gezocht naar reeksen die exact overeenkomen met de zoekopdracht. Om sequenties te vinden met uitsluiting van de eerste letter, kan dezelfde analyse worden uitgevoerd met de fragmenten vanaf de tweede letter van de oorspronkelijke zoekopdracht, dan vanaf de derde, enzovoort.

Vraag 1:1 KVRASVKKLCRNCKIVKRDGVIRVICSAEPKHKQRQG

Vraag 2:1 VRASVKKLCRNCKIVKRDGVIRVICSAEPKHKQRQG

Vraag 3:1 RASVKKLCRNCKIVKRDGVIRVICSAEPKHKQRQG

Vraag 4:1 ASVKKLCRNCKIVKRDGVIRVICSAEPKHKQRQG

Deze zoekopdrachten, op grotere schaal, worden tijdrovend. Het vinden van naaste familieleden zou tot extra conceptuele en technische problemen leiden. Neem vervolgens aan dat sequenties die 99% identiek zijn, absoluut homoloog zijn. Wat is dan de drempel om sequenties als niet homoloog te beschouwen: 50% identiteit, 33% of misschien 25%? Het voorbeeld van twee lysozymen laat zien dat sequenties met een identiteit van slechts 8% tot orthologe eiwitten kunnen behoren en dezelfde functie kunnen uitoefenen.

Door de informatietheorie van CE Shannon [The Mathematical Theory of Communication, 1949] te volgen, kunnen we het informatiegehalte van nucleïnezuren en van eiwitten berekenen. Als we 2-bits gebruiken (0 of 1 vormt een bit), kunnen we 4 informatie-eenheden coderen (00, 01, 10, 11) wat voldoende is om één basepositie in het DNA of RNA weer te geven.

Twee basen (4-vierkant) zijn echter niet voldoende om te coderen voor de 20 aminozuren die worden gebruikt om de verschillende eiwitmoleculen te vormen. Als we drie basen (4-kubus) nemen, krijgen we een coderuimte van 64, wat meer is dan de vereiste 20. Deze redundantie leidt tot veel codons voor elk aminozuur, foutcorrigerende codes en specialiteiten op de derde plaats (zoals stop codon: TAA, TAG, TGA).

Een ander aspect is de uitvoering van het 'Central Dogma'. Dit is interessant omdat het leidt tot de introductie van ruis van bronnen als vectorsequenties, heterologe sequenties, herschikte en verwijderde sequenties, contaminatie van repetitieve elementen, frameverschuivingsfouten en sequencing fouten of natuurlijk polymorfisme.

In feite worden alle vier nucleotiden, A, T, C en G, in de database gevonden met ongeveer dezelfde frequenties en hebben ze ongeveer dezelfde kans om de ene in de andere te muteren. Als gevolg hiervan zijn DNA-DNA-vergelijkingen grotendeels gebaseerd op eenvoudige tekstvergelijking, waardoor ze vrij traag en niet bijzonder gevoelig zijn, hoewel er verschillende heuristieken zijn bedacht om dit te verhelpen.

Daarentegen hebben vergelijkingen van aminozuursequenties verschillende duidelijke voordelen, die op zijn minst potentieel leiden tot een veel grotere gevoeligheid:

(i) Er zijn 20 aminozuren maar slechts vier basen. Vandaar dat een aminozuurmatch > 4 bits informatie met zich meebrengt, in tegenstelling tot slechts twee bits voor een nucleotidematch. Zo kan statistische significantie worden vastgesteld voor veel kortere sequenties in eiwitvergelijkingen dan in nucleotidevergelijkingen,

(ii) Er is redundantie van de genetische code. Bijna een derde van de bases in codeergebieden staat onder een zwakke (indien aanwezig) selectiedruk en vertegenwoordigt ruis, wat de gevoeligheid van de zoekopdrachten nadelig beïnvloedt,

(iii) Nucleotidesequentiedatabases zijn veel groter dan eiwitdatabases vanwege de enorme hoeveelheden niet-coderende sequenties die uit eukaryote genoomprojecten komen, en dit verlaagt de zoekgevoeligheid verder,

(iv) Waarschijnlijk het belangrijkste, in tegenstelling tot de nucleotidesequentie, is de kans dat verschillende aminozuursubstituties optreden tijdens de evolutie aanzienlijk verschillend, en dit in aanmerking nemen verbetert de prestaties van databasezoekmethoden aanzienlijk. Gezien al deze voordelen worden vergelijkingen van coderende sequenties doorgaans uitgevoerd op het niveau van eiwitsequenties, zelfs als het doel is om een ​​DNA-DNA-uitlijning te produceren (bijvoorbeeld voor analyse van substituties in stille codonposities), wordt dit meestal eerst gedaan met eiwitsequenties, die vervolgens worden vervangen door de overeenkomstige coderende sequenties. Directe nucleotidesequentievergelijking is alleen onmisbaar wanneer niet-coderende regio's worden geanalyseerd.

Zowel laboratoriumgebaseerde als op onderzoek gebaseerde sequencing en andere soorten informatie met betrekking tot de nucleïnezuren en de eiwitten worden verzameld als bioinformatica-databases in twee brede categorieën: centrale repository (zoals NCBI voor nucleotidesequenties, Swiss-Prot en PDB voor eiwitsequenties, en de kleinere zoals Flybase, MGD voor muizengenoom en RGD voor rattengenoom enz.) en gecombineerde/secundaire databases (zoals KEGG voor route en genoom, prosite voor geannoteerd eiwit enz.).

De databases zijn van het meest geavanceerde type in de computerwereld en vereisen daarom zowel organisatorische als vrijwillige ondersteuning voor onderhoud en onderhoud. In feite zijn de databases niet slechts een verzameling van sequenties. De PDB (Protein Data Bank) is bijvoorbeeld de grootste wereldwijde opslagplaats voor driedimensionale structuren van grote biologische moleculen en slaat begin september 2006 38620 structuren op.

Het bevat dus de sequentie, atomaire coördinaten, afgeleide geometrische gegevens, secundaire structuurinhoud en annotaties over literatuurverwijzingen naar eiwitten. Het PDB werd opgericht met 7 structuren in 1971 en in 1998 kreeg het Research Collaboratory for Structural Bioinformatics (RCSB) de opdracht om zijn zaken te beheren in Brookhaven National Laboratory.

Wisselscores en wisselmatrices:

Het feit dat elk van de 20 standaard eiwitaminozuren zijn eigen unieke eigenschappen heeft, betekent dat de waarschijnlijkheid van de vervanging van elk specifiek residu door een ander residu tijdens de evolutie verschillend zou moeten zijn. Over het algemeen geldt dat hoe meer de fysisch-chemische eigenschappen van twee residuen op elkaar lijken, des te groter is de kans dat de substitutie geen nadelig effect heeft op de functie van het eiwit en dus ook op de fitheid van het organisme.

Daarom zou bij sequentievergelijkingen een dergelijke substitutie minder bestraft moeten worden dan een vervanging van een aminozuurresidu door een die dramatisch andere eigenschappen heeft. Dit is een te grote simplificatie, omdat het effect van een substitutie afhangt van de structurele en functionele omgeving waarin het zich voordoet.

Maar over het algemeen hebben we geen a priori kennis van de locatie van een bepaald residu in de structurele en functionele omgeving van het eiwit waar het voorkomt, en zelfs met dergelijke kennis is het opnemen ervan in een databasezoekalgoritme een uiterst complexe taak.

Er wordt dus een algemene maatstaf van de waarschijnlijkheid van aminozuursubstituties toegepast, zodat aan elke substitutie een geschikte waarde of score (gewicht) wordt gegeven om te worden gebruikt in sequentievergelijkingen. De score voor een substitutie tussen aminozuren i en j kan worden uitgedrukt door de volgende intuïtief plausibele formule, die laat zien hoe waarschijnlijk een bepaalde substitutie is, gegeven de frequenties van elk van de twee residuen in de geanalyseerde database:

waarbij K een coëfficiënt is, qij is de waargenomen frequentie van de gegeven vervanging, en pl, PJ zijn de achtergrondfrequenties van de respectieve residuen. Uiteraard is hier het product plPJ is de verwachte frequentie van de vervanging en, als qij = pl PJ (Sij = 0), komt de vervanging net zo vaak voor als verwacht. In de praktijk worden de gebruikte scores zodanig geschaald dat de verwachte score voor het op één lijn brengen van een willekeurig paar aminozuursequenties negatief is.

Er zijn twee fundamentele manieren om een ​​substitutiescorematrix te ontwerpen, namelijk een driehoekige tabel met 210 numerieke scorewaarden voor elk paar aminozuren, inclusief identiteiten (diagonale elementen van de matrix). Zoals in veel andere situaties in de computationele biologie, werkt de eerste benadering afschaffing, terwijl de tweede empirisch is.

Eén ab initio-benadering berekent de score als het aantal nucleotidesubstituties dat nodig is om een ​​codon voor het ene aminozuur in een paar om te zetten in een codon voor het andere. In dit geval is de matrix duidelijk uniek (zolang er geen rekening wordt gehouden met alternatieve genetische codes) en bevat deze slechts vier waarden, 0, 1,2 of 3.

Dienovereenkomstig is dit een zeer grove korrelmatrix die waarschijnlijk niet goed zal werken. De andere ab initio benadering kent scores toe op basis van overeenkomsten en verschillen in de fysisch-chemische eigenschappen van aminozuren.

Bij deze benadering is het aantal mogelijke matrices oneindig, en ze kunnen zo fijn zijn als wenselijk, maar een zekere mate van willekeur is onvermijdelijk omdat ons begrip van eiwitfysica onvoldoende is om weloverwogen beslissingen te nemen over welke set eigenschappen 'juist' #8221 weerspiegelt de relaties tussen aminozuren.

Empirische benaderingen, die het eerst kwamen, proberen de karakteristieke frequenties van verschillende aminozuursubstituties af te leiden uit feitelijke uitlijningen van homologe eiwitfamilies. Met andere woorden, deze benaderingen streven ernaar om de werkelijke waarschijnlijkheid te bepalen dat elke substitutie tijdens de evolutie optreedt. Het is duidelijk dat het resultaat van dergelijke inspanningen in belangrijke mate afhankelijk is van de kwantiteit en kwaliteit van de beschikbare uitlijningen, en zelfs nu is elke uitlijningsdatabase verre van volledig of perfect correct.

Bovendien zal het eenvoudig tellen van verschillende soorten substituties niet voldoende zijn als uitlijningen van ver verwante eiwitten zijn opgenomen, omdat in veel gevallen meerdere substituties op dezelfde positie kunnen hebben plaatsgevonden. Idealiter zou men de fylogenetische boom voor elke familie moeten construeren, de voorouderlijke reeks voor elk intern knooppunt, en tel vervolgens de vervangingen precies. Dit is in de meeste gevallen niet praktisch en er moeten verschillende snelkoppelingen worden genomen.

Er zijn verschillende oplossingen voor deze problemen voorgesteld, die elk resulteren in een andere reeks substitutiescores. De eerste substitutiematrix, geconstrueerd door Dayhoff en Eck (1968), was gebaseerd op een uitlijning van nauw verwante eiwitten, zodat de voorouderlijke sequentie kon worden afgeleid en alle aminozuurvervangingen als slechts eenmaal konden worden beschouwd.

Dit model werd vervolgens geëxtrapoleerd om rekening te houden met meer verre relaties, wat resulteerde in de PAM-reeks substitutiematrices. PAM (Accepted Point Mutaion) is een eenheid van evolutionaire divergentie van eiwitsequenties, overeenkomend met één aminozuurverandering per 100 residuen.

Zo wordt bijvoorbeeld verondersteld dat de PAM30-matrix van toepassing is op eiwitten die gemiddeld 0,3 verandering per uitgelijnd residu verschillen, terwijl PAM250 de evolutie van sequenties zou moeten weerspiegelen met een gemiddelde van 2,5 substitutie per positie.

Dienovereenkomstig zou de eerstgenoemde matrix moeten worden gebruikt voor het construeren van uitlijningen van nauw verwante sequenties, terwijl de laatstgenoemde nuttig is bij databaseonderzoeken die gericht zijn op het detecteren van verre relaties. Met behulp van een benadering vergelijkbaar met die van Dayhoff, gecombineerd met snelle algoritmen voor clustering en uitlijning van eiwitsequenties, produceerden Jones, Taylor en Thornton de reeks van de zogenaamde JTT-matrices, die in wezen een update zijn van de PAMS.

De PAM- en JTT-matrices hebben echter beperkingen die voortvloeien uit het feit dat ze zijn afgeleid van uitlijningen van nauw verwante sequenties en geëxtrapoleerd naar ver verwante sequenties. Deze extrapolatie is mogelijk niet volledig geldig omdat het onderliggende evolutionaire model mogelijk niet adequaat is, en de trends die sequentiedivergentie van nauw verwante sequenties bepalen, zijn mogelijk niet van toepassing op de evolutie op grotere afstanden.

In 1992 ontwikkelden Steven en Jorja Henikoff een reeks substitutiematrices met behulp van geconserveerde, niet-afgekapte uitlijningen van verwante eiwitten uit de BLOCKS-database. Het gebruik van deze uitlijningen bood drie belangrijke voordelen ten opzichte van de uitlijningen die werden gebruikt voor het construeren van de PAM-matrices.

Ten eerste omvatte de BLOCKS-collectie duidelijk een veel groter aantal en, belangrijker nog, een veel grotere diversiteit aan eiwitfamilies dan de collectie die in de jaren 70 van de vorige eeuw beschikbaar was voor Dayhoff en collega's.

Ten tweede, afkomstig van vrij ver verwante eiwitten, weerspiegelden BLOCKS-uitlijningen beter de aminozuurveranderingen die optreden over grote fylogenetische afstanden en produceerden ze dus substitutiescores die sequentiedivergentie in verre homologen direct vertegenwoordigden, in plaats van door extrapolatie.

Ten derde omvatte BLOCKS in deze verre verwante eiwitten alleen de meest zelfverzekerde uitgelijnde regio's, die waarschijnlijk het beste de heersende evolutionaire trends vertegenwoordigen. Deze substitutiematrices, de BLOSUM (= BLOCKS Substitution Matrix) serie genoemd, werden aangepast aan bepaalde evolutionaire afstanden door de sequenties te negeren die meer dan een bepaald percentage identiteit hadden.

In de BLOSUM62-matrix werden bijvoorbeeld de substitutiescores afgeleid van de rangschikkingen van sequenties die niet meer dan 62% identiteit hadden, de substitutiescores van de BLOSUM45-matrix werden berekend uit de rangschikkingen die sequenties bevatten met niet meer dan 45% identiteit.

Dienovereenkomstig zijn BLOSUM-matrices met hoge aantallen, zoals BLOSUMSO, het meest geschikt voor vergelijkingen van nauw verwante reeksen (het is ook raadzaam om BLOSUMSO te gebruiken voor databasezoekopdrachten met korte reeksen), terwijl BLOSUM-matrices met een laag aantal, zoals BLOSUM45, beter zijn voor verre relaties.

Naast de PAM-, JTT- en BLOSUM-serie voor algemene doeleinden werden enkele gespecialiseerde substitutiematrices ontwikkeld, bijvoorbeeld voor integrale membraaneiwitten, maar deze bereikten nooit vergelijkbare herkenning.

Verschillende vroege onderzoeken vonden dat de PAM-matrices op basis van empirische gegevens consequent resulteerden in een grotere zoekgevoeligheid dan een van de ab initio-matrices. Een uitgebreide empirische vergelijking toonde aan dat: (i) BLOSUM-matrices consequent beter presteerden dan PAM's in BLAST-zoekopdrachten en (ii) BLOSUM62 gemiddeld het beste presteerde in de reeks. Deze matrix wordt momenteel als standaard gebruikt in de meeste zoekopdrachten in sequentiedatabases.

Het is opmerkelijk dat empirische matrices tot nu toe consequent beter hebben gepresteerd dan die welke gebaseerd zijn op theorie, hetzij fysisch-chemisch, hetzij evolutionair. Dit wijst er misschien op dat we nog geen adequate theorie hebben om eiwitevolutie te beschrijven.

Statistieken van eiwitsequentievergelijking:

Laten we dezelfde eiwitsequentie (E. coli RpsJ) beschouwen als hierboven

Vraag ” 1 MKVRASVKKLCRNCKIVKRDGVIRVICSAEPKHKQRQG 38

en controleer hoe vaak segmenten van deze reeks van verschillende lengtes in de database worden gevonden (we kozen fragmenten vanaf de tweede positie in de reeks omdat bijna elk eiwit in de database begint met een methionine). Niet onverwacht vinden we dat hoe groter het fragment, hoe kleiner het aantal exacte overeenkomsten in de database.

Met de afname van het aantal databasehits neemt de kans toe dat deze hits biologisch relevant zijn, d.w.z. behoren tot homologen van het query-eiwit. Dus 13 van de 23 exemplaren van de tekenreeks KVRASV en alle 8 exemplaren van de tekenreeks KVRASVK zijn afkomstig van RpsJ-orthologen.

Het aantal keren dat een bepaalde string in de database voorkomt, kan als volgt ruwweg worden geschat. De kans om één aminozuurresidu te matchen is 1/20 (ervan uitgaande dat alle 20 aminozuren in de database gelijk zijn en dit niet het geval is, is de kans iets groter). De kans op het matchen van twee residuen op een rij is dan (1/20) 2 en de kans op het matchen van n residuen is (1/20) n . Aangezien de eiwitdatabase momenteel N . bevat

2 ∞ 10 8 letters, mag men verwachten dat een reeks van n letters ongeveer N ∞ (1/20) n keer overeenkomt.

Zoeken naar perfecte overeenkomsten is de eenvoudigste maar onvoldoende vorm van zoeken in de sequentiedatabase. Het is echter belangrijk als een van de basisstappen in de momenteel gebruikte zoekalgoritmen.

Verder is het doel van een zoekopdracht om homologen te vinden, inclusief homologen op afstand waarbij slechts een klein deel van de aminozuurresiduen identiek of zelfs vergelijkbaar is. Zelfs in nauwe homologen wordt een regio met een hoge gelijkenis gewoonlijk geflankeerd door ongelijke regio's zoals in de volgende uitlijning van E. coli RpmJ met zijn ortholoog van Vibrio cholerae.

In dit voorbeeld bevindt het gebied met de grootste overeenkomst zich in het midden van de uitlijning, maar het opnemen van de minder geconserveerde gebieden aan beide zijden verbetert de algehele score.

Verderop in de uitlijning verdwijnt de overeenkomst bijna, zodat het opnemen van extra letters in de uitlijning de algehele score niet zou verhogen of zelfs zou verlagen. Dergelijke fragmenten van de uitlijning van twee sequenties waarvan de overeenkomstscore niet kan worden verbeterd door letters toe te voegen of bij te knippen, worden high-scoring segment pairs (HSP's) genoemd. Om deze benadering te laten werken, moet de verwachting van de score voor willekeurige reeksen negatief zijn en worden de scorematrices die worden gebruikt bij het doorzoeken van databases dienovereenkomstig geschaald.

Dus in plaats van te zoeken naar perfecte matches, zoeken programma's voor sequentievergelijking eigenlijk naar HSP's. Zodra een set HSP's is gevonden, gaan verschillende methoden, zoals Smith-Waterman, FASTA of BLAST, er op verschillende manieren mee om.

Het belangrijkste probleem dat elke zoekmethode voor databases moet aanpakken, is echter het identificeren van die HSP's die waarschijnlijk niet bij toeval voorkomen en, door gevolgtrekking, waarschijnlijk tot homologen behoren en biologisch relevant zijn. Dit probleem is opgelost door Samuel Karlin en Stephen Altschul, die aantoonden dat maximale HSP-scores de extreme waardeverdeling volgen. Dienovereenkomstig, als de lengtes van de zoekreeks (m) en de database (n) voldoende hoog zijn, wordt het verwachte aantal HSP's met een score van ten minste S gegeven door de formule

Hier is S de zogenaamde onbewerkte score berekend onder een bepaald scoresysteem, en zijn K en λ natuurlijke schaalparameters voor respectievelijk de grootte van de zoekruimte en het scoresysteem. De score normaliseren volgens de formule:

geeft de bi-score, die een standaardeenheid heeft die wordt geaccepteerd in informatietheorie en informatica. Vervolgens,

en aangezien kan worden aangetoond dat het aantal willekeurige HSP's met score _S'8217 wordt beschreven door Poisson-verdeling, is de kans om ten minste één HSP met bitscore _S'8217 te vinden gelijk aan

Vergelijking (V) verbindt twee veelgebruikte maten van sequentieovereenkomst, de waarschijnlijkheid (P-waarde) en verwachting (E-waarde). Als de score S bijvoorbeeld zo is dat drie HSP's met deze score (of hoger) naar verwachting bij toeval worden gevonden, is de kans om ten minste één van deze HSP's te vinden (1 –e -3 ),

Per definitie variëren P-waarden van 0 tot 1, terwijl E-waarden veel groter kunnen zijn dan 1. De BLAST-programma's rapporteren E-waarden in plaats van P-waarden, omdat E-waarden van bijvoorbeeld 5 en 10 veel gemakkelijker te begrijpen dan P-waarden van 0,993 en 0,99995. Voor E < 0,01 zijn P-waarde en E-waarde echter bijna identiek.

Het product mn definieert de zoekruimte, een uiterst belangrijke parameter bij het doorzoeken van een database. Vergelijkingen (II) en (IV) codificeren het intuïtief voor de hand liggende idee dat hoe groter de zoekruimte, hoe hoger de verwachting om een ​​HSP te vinden met een score die hoger is dan een bepaalde waarde. Er zijn twee uitvloeisels hiervan die wat meer tijd nodig hebben om eraan te wennen: (i) dezelfde HSP kan statistisch significant zijn in een kleine database en niet significant in een grote database met de natuurlijke groei van de database, elke bepaalde afstemming wordt steeds minder significant (maar daarom niet minder belangrijk) en (ii) dezelfde HSP kan statistisch significant zijn in een klein eiwit (gebruikt als een zoekopdracht) en niet significant in een groot eiwit.

Het is duidelijk dat men gemakkelijk de E-waarde en de P-waarde geassocieerd met de uitlijning van de gegeven twee sequenties kan verlagen door n in vergelijking (II) te verlagen, d.w.z. door een kleinere database te doorzoeken. De resulterende toename in significantie is echter onjuist, hoewel een dergelijke truc nuttig kan zijn voor het detecteren van initiële hints van subtiele relaties die vervolgens moeten worden geverifieerd met behulp van andere benaderingen.

Het is de ervaring van de auteur dat het simpele begrip E (P)-waarde vaak verkeerd wordt begrepen en geïnterpreteerd alsof deze waarden alleen van toepassing zijn op een enkele paarsgewijze vergelijking (dwz als een E-waarde van 0,001 voor een HSP met score S wordt gerapporteerd, dan verwacht men in een database van slechts een paar duizend sequenties een score > S bij toeval te vinden).

Het is van cruciaal belang om te beseffen dat de grootte van de zoekruimte al in deze E-waarden is verwerkt en dat de gerapporteerde waarde overeenkomt met de databasegrootte op het moment van zoeken (het is dus zeker noodzakelijk om in alle rapporten van volgorde analyse, welke database is doorzocht, en bij voorkeur ook op welke exacte datum).

Het is rigoureus bewezen dat de Karlin-Altschul-statistieken alleen van toepassing zijn op sequentie-uitlijningen die geen hiaten bevatten, terwijl statistische theorie voor de meer realistische gapped-uitlijningen een open probleem blijft. Uitgebreide computersimulaties hebben echter aangetoond dat deze uitlijningen ook de extreme waardeverdeling met een hoge precisie volgen, daarom is, althans voor alle praktische doeleinden, hetzelfde statistische formalisme van toepassing.

Complexiteit van de eiwitsequentie: compositiebias:

Het bestaan ​​van een robuuste statistische theorie van sequentievergelijking zou het in principe mogelijk moeten maken om zoekresultaten gemakkelijk te sorteren op statistische significantie en dienovereenkomstig een betrouwbaarheidsniveau toe te kennen aan elke homologie-identificatie. Een belangrijk aspect van de organisatie van eiwitmoleculen bemoeilijkt echter de interpretatie van het zoeken in de database aanzienlijk en kan leiden tot grove fouten in de sequentie-analyse.

Veel eiwitten, vooral in eukaryoten, bevatten gebieden met een lage (compositionele) complexiteit, waarin de verdeling van aminozuurresten niet willekeurig is, d.w.z. afwijkt van het standaard statistische model. Met andere woorden, deze gebieden hebben typisch een vertekende aminozuursamenstelling, b.v. zijn rijk aan glycine of proline, of aan zure of basische aminozuurresiduen.

Het begrip compositorische complexiteit was ingekapseld in het SEG-algoritme en het bijbehorende programma, dat eiwitsequenties opdeelt in segmenten van lage en hoge (normale) complexiteit.

Regio's met een lage complexiteit vormen een groot probleem voor het doorzoeken van databases. Aangezien de X-parameter van vergelijking (II) voor de hele database wordt berekend, worden de Karlin-Altschul-statistieken afgebroken wanneer de samenstelling van de zoekopdracht of een databasereeks of beide significant afwijkt van de gemiddelde samenstelling van de database.

Het resultaat is dat regio's met een lage complexiteit met vergelijkbare samenstelling (bijvoorbeeld zuur of basisch) vaak 'statistisch significante' uitlijningen produceren die niets met homologie te maken hebben en volledig irrelevant zijn. Het SEG-programma kan worden gebruikt om dit probleem op een ietwat grove manier te verhelpen: de queryreeks, de database of beide kunnen worden opgedeeld in regio's met een normale complexiteit en een lage complexiteit, en de laatste worden gemaskeerd (dwz aminozuursymbolen worden vervangen door het overeenkomstige aantal X’'s).

Ten behoeve van het doorzoeken van een database wordt een dergelijke filtering meestal gedaan met behulp van korte vensters, zodat alleen de segmenten met een sterk compositorische vooringenomenheid worden gemaskeerd. Filtering met een lage complexiteit is onmisbaar geweest om van databasezoekmethoden, met name BLAST, betrouwbare tools te maken.

Zonder het maskeren van regio's met een lage complexiteit, zouden valse resultaten zijn geproduceerd voor een aanzienlijk deel van de eiwitten, vooral eukaryotische (een vroege schatting was dat regio's met een lage complexiteit bestaan ​​uit

15% van de eiwitsequenties in de SWISS-PROT-database). Deze valse resultaten zouden elk grootschalig databaseonderzoek ernstig hebben vervuild en de respectieve eiwitten zouden ongevoelig zijn geweest voor elke zinvolle sequentieanalyse.

Om deze redenen werd SEG-filtering al enkele jaren gebruikt als standaard voor BLAST-zoekopdrachten om segmenten met een lage complexiteit in de queryreeks te maskeren. Deze procedure is echter niet zonder nadelen. Niet alle sequenties met een lage complexiteit worden vastgelegd en fout-positieven komen nog steeds voor bij zoekopdrachten in databases.

Het tegenovergestelde probleem belemmert ook databasezoekopdrachten voor sommige eiwitten wanneer korte sequenties met een lage complexiteit deel uitmaken van geconserveerde regio's. In dergelijke gevallen kan de statistische significantie van een uitlijning worden onderschat, soms ongelooflijk.

In een recent werk van Alejandro Schaffer en collega's werd een andere, minder willekeurige benadering geïntroduceerd voor het omgaan met qua compositie vooringenomen sequenties. Deze methode, op samenstelling gebaseerde statistieken genoemd, herberekent de λ-parameter en, dienovereenkomstig, de E-waarden voor elke zoekopdracht en elke databasesequentie, en corrigeert zo de buitensporig lage (“significante”) E-waarden voor sequenties met een gelijkaardig vertekend aminozuur samenstelling. Dit verbetert de nauwkeurigheid van de gerapporteerde E-waarden en elimineert de meeste fout-positieven.

Genidentificatie en softwaretools:

Zoals besproken in de vorige sectie, blijft het herkennen van genen in de DNA-sequenties een van de meest urgente problemen bij genoomanalyse. Er zijn verschillende benaderingen voor genvoorspelling ontwikkeld en er zijn verschillende populaire programma's die het meest worden gebruikt voor deze taak: (i) Sommige tools voeren ab initio genvoorspelling uit, waarbij alleen op de statistische parameters in de DNA-sequentie voor genidentificatie wordt vertrouwd, (ii) Als alternatief zijn op homologie gebaseerde methoden voornamelijk afhankelijk van het identificeren van homologe sequenties in andere genomen en/of in openbare databases met behulp van BLAST- of Smith-Waterman-algoritmen. Veel van de veelgebruikte methoden combineren deze twee benaderingen.

De afwezigheid van introns en relatief hoge gendichtheid in de meeste genomen van prokaryoten en sommige eencellige eukaryoten zorgt voor een effectief gebruik van sequentie-overeenkomstonderzoeken als de eerste stap in genoomannotatie. Door homologie geïdentificeerde genen kunnen worden gebruikt als de trainingsset voor een van de statistische leden voor genherkenning, en het resulterende statistische model kan vervolgens worden gebruikt voor het analyseren van de resterende delen van het genoom.

In de meeste eukaryoten maakt de overvloed aan introns en lange intrgene regio's het moeilijk om op homologie gebaseerde methoden als eerste stap te gebruiken, tenzij men natuurlijk kan vertrouwen op gelijkenis tussen verschillende nauw verwante genomen (bijvoorbeeld mens, muis en rat). Als gevolg hiervan begint genvoorspelling voor genoomsequenties van meercellige eukaryoten meestal met ab initio-methoden, gevolgd door zoeken naar overeenkomsten met de initiële exon-assemblages.

Men moet niet vergeten dat elk van deze methoden zijn eigen voordelen en beperkingen heeft, en geen van hen is perfect. Een vergelijking van voorspellingen die door verschillende programma's zijn gegenereerd, onthult de gevallen waarin een bepaald programma het beste presteert en helpt bij het bereiken van een consistente kwaliteit van genvoorspelling.

Een dergelijke vergelijking kan bijvoorbeeld worden uitgevoerd met behulp van het TIGR Combiner-programma, dat een stemschema gebruikt om voorspellingen van verschillende programma's voor het vinden van genen te combineren, zoals GeneMark, GlimmerM, GRAIL, GenScan en Fgenes.

De computationele tools die het meest worden gebruikt voor genvoorspelling in grootschalige genoomannotatieprojecten worden hieronder beschreven.

GeneMark:

GeneMark is in 1993 ontwikkeld door Mark Borodovsky en James Mclninch. GeneMark was het eerste hulpmiddel voor het vinden van prokaryotische genen die een niet-homogeen Markov-model gebruikten om DNA-regio's te classificeren in eiwitcoderend, niet-coderend en niet-coderend maar complementair aan codering.

Net als andere programma's voor het voorspellen van genen, vertrouwt GeneMark op organisme-specifieke herkenningsparameters om de DNA-sequentie te verdelen in coderende en niet-coderende gebieden en vereist dus een voldoende grote trainingsset van bekende genen van een bepaald organisme voor de beste prestaties.

Het programma is herhaaldelijk bijgewerkt en aangepast en bestaat nu in afzonderlijke varianten voor genvoorspelling in prokaryotische, eukaryote en virale DNA-sequenties.

Glinsteren:

Gene Locator en Interpolated Markov Modeler, ontwikkeld door Steven Salzberg en collega's van de Johns Hopkins University en TIGR, is een systeem voor het vinden van genen in prokaryotische genomen. Om coderende regio's te identificeren en te onderscheiden van niet-coderend DNA, gebruikt Glimmer geïnterpoleerde Markov-modellen, d.w.z. reeksen markov-modellen waarbij de volgorde van het model bij elke stap toeneemt en de voorspellende kracht van elk model afzonderlijk wordt geëvalueerd.

Net als GeneMark heeft Glimmer een trainingsset nodig, die meestal wordt geselecteerd uit bekende genen, genen die coderen voor eiwitten met sterke databasehits en/of gewoon lange ORF's. Glimmer wordt gebruikt als het primaire hulpmiddel voor het vinden van genen bij TIGR, waar het is toegepast op de annotatie van talrijke microbiële genomen.

Onlangs hebben Salzberg en collega's GlimmerM ontwikkeld, een aangepaste versie van Glimmer die speciaal is ontworpen voor genherkenning in kleine eukaryote genomen, zoals de malariaparasiet Plasmodium falciparum.

Graal:

Gene Recognition and Assembly Internet Link, ontwikkeld door Ed Uberbacher en collega's van het Oak Ridge National Laboratory, is een hulpmiddel dat exons, polyA-sites, promotors, CpG-eilanden, repetitieve elementen en frameshift-fouten in DNA-sequenties identificeert door ze te vergelijken met een database van bekende sequentie-elementen van mens en muis. Exon en voorspelling van repetitieve elementen is ook beschikbaar voor Arabidopsis- en Drosophila-sequenties.

Grail is onlangs opgenomen in de Oak Ridge-pijplijn voor genoomanalyse, die een uniforme webinterface biedt voor een aantal handige analysetools.

Voor prokaryoten biedt het genvoorspelling met behulp van Glimmer- en Generation-programma's, gevolgd door BLASTP-zoekopdrachten van voorspelde ORF's tegen SWISS-PROT- en NR-databases en een HMMer-zoekopdracht tegen Pfam. Er is ook een optie voor BLASTN-zoekopdracht van de ingediende DNA-sequentie tegen een verscheidenheid aan databases met nucleotidesequenties.

Voor menselijke en muissequenties biedt de Oak Ridge-pijplijn genvoorspelling met behulp van GrailEXP en GenScan, ook gevolgd door BLASTP-zoekopdrachten van voorspelde ORF's tegen SWISS-PROT- en NR-databases en een HMMer-zoekopdracht tegen Pfam. Nogmaals, de gebruiker kan BLASTN-zoekopdracht uitvoeren op de ingediende DNA-sequentie tegen een verscheidenheid aan nucleotidesequentiedatabases, evenals zoeken naar CpG-eilanden, herhalingsfragmenten, tRNA's en BAC-eindparen.

GenScan:

GenScan is ontwikkeld door Chris Burge en Samuel Karlin aan de Stanford University en wordt momenteel gehost in het Burge-laboratorium van de MIT-afdeling Biologie. Dit programma maakt gebruik van een complex probabilistisch model van de genstructuur dat is gebaseerd op actuele biologische informatie over de eigenschappen van transcriptionele, translationele en splicingsignalen.

Bovendien maakt het gebruik van verschillende statistische eigenschappen van coderende en niet-coderende gebieden. Om rekening te houden met de heterogeniteit van het menselijk genoom die de genstructuur en gendichtheid beïnvloedt, leidt GenScan verschillende sets genmodellen af ​​voor genoomregio's met verschillende GC-inhoud.

De hoge snelheid en nauwkeurigheid maken GenScan de voorkeursmethode voor de eerste analyse van grote (in het megabse bereik) stukken eukaryotisch genomisch DNA. GenScan wordt gebruikt als het belangrijkste hulpmiddel voor genvoorspelling in het International Human Genome Project.

GeneBuilder:

GeneBuilder voert ab initio genvoorspelling uit met behulp van tal van parameters, zoals GC-inhoud, dicodonfrequenties, splitsingssitegegevens, CpG-eilanden, repetitieve elementen en andere. Het maakt ook gebruik van een unieke aanpak die is:

gebaseerd op het evalueren van relatieve frequenties van synonieme en niet-synonieme substituties om waarschijnlijke coderende sequenties te identificeren.

Bovendien voert het BLAST-zoekopdrachten uit van voorspelde genen tegen eiwit- en EST-databases, wat helpt om de grenzen van voorspelde exons te verfijnen met behulp van de BLAST-treffers als gids. Met het programma kan de gebruiker bepaalde parameters wijzigen, wat een interactieve voorspelling van de genstructuur mogelijk maakt. Hierdoor is GeneBuilder soms in staat om de genstructuur met een goede nauwkeurigheid te voorspellen, zelfs wanneer de overeenkomst van de voorspelde ORF met een homologe eiwitsequentie laag is.

Splice Site Voorspelling Software:

Programma's voor het voorspellen van intron-splitsingsplaatsen, die vaak worden gebruikt als subroutines in de genvoorspellingstools, kunnen ook worden gebruikt als op zichzelf staande programma's om posities van splitsingsplaatsen te verifiëren of alternatieve splitsingsplaatsen te voorspellen. Dergelijke programma's kunnen met name nuttig zijn voor het voorspellen van niet-coderende exons, die vaak worden gemist in de genvoorspellingsstudies. Herkenning van de splitsingsplaatsen door deze programma's is meestal afhankelijk van statistische eigenschappen van exons en introns en op de consensussequenties van splitsingssignalen.

Sequentie-uitlijning en zoeken naar gelijkenis:

De basisuitlijningsconcepten en belangrijkste algoritmen:

De gelijkenis zoekt lucht bij het identificeren van de homologen van de gegeven query-eiwit (of Unlockide) sequenties in de database. In principe is de enige manier om homologen te identificeren, door de zoekreeks af te stemmen op alle reeksen in de database (hieronder worden enkele belangrijke heuristieken besproken die een algoritme in staat stellen om reeksen over te slaan die duidelijk geen verband houden met de zoekopdracht), door deze hits te sorteren op basis van de mate van overeenkomst, en het beoordelen van hun statistische significantie die waarschijnlijk indicatief is voor homologie. Laten we eerst kort de uitlijningsmethoden bespreken.

Het is belangrijk om onderscheid te maken tussen een globale (d.w.z. volledige) uitlijning en een lokale uitlijning, die alleen delen van de geanalyseerde sequenties (subsequenties) omvat. Hoewel in theorie een globale uitlijning het beste is om relaties tussen sequenties te beschrijven, zijn lokale uitlijningen in de praktijk om twee redenen van meer algemeen nut: (i) het is gebruikelijk dat alleen delen van vergeleken eiwitten homoloog zijn (ze delen bijvoorbeeld één geconserveerde domein, terwijl andere domeinen uniek zijn), en (ii) vaak is slechts een deel van de sequentie voldoende geconserveerd om een ​​detecteerbaar signaal te dragen, terwijl de rest onherkenbaar uiteen is gelopen. Optimale globale uitlijning van twee sequenties werd voor het eerst geïmplementeerd in het Needleman-Wunsch-algoritme, dat dynamische programmering gebruikt.

Later werden het begrip optimale lokale uitlijning (de best mogelijke uitlijning van twee subsequenties van de vergeleken sequenties) en het bijbehorende dynamische programmeeralgoritme geïntroduceerd door Smith en Waterman. De kosten van beide zijn O (n 2 ), dwz de tijd en het geheugen die nodig zijn om een ​​optimale uitlijning te genereren, zijn evenredig met het product van de lengtes van de vergeleken reeksen (voor het gemak wordt aangenomen dat de reeksen even lang zijn n in deze notatie).

Optimale uitlijningsalgoritmen voor meerdere sequenties hebben de O(nk) complexiteit (waarbij k het aantal vergeleken sequenties is). Dergelijke algoritmen voor k > 3 zijn niet uitvoerbaar op bestaande computers, daarom produceren alle beschikbare methoden voor uitlijning van meerdere sequenties slechts benaderingen en garanderen ze geen optimale uitlijning.

Het kan op dit punt nuttig zijn om het begrip optimale afstemming te verduidelijken. Algoritmen zoals Needleman-Wunsch en Smith-Waterman garanderen de optimale uitlijning (respectievelijk globaal en lokaal) voor elke twee vergeleken sequenties.

Het is echter belangrijk om in gedachten te houden dat deze optimaliteit een puur formeel begrip is, wat betekent dat, gegeven een scorefunctie, het algoritme de uitlijning uitvoert met de hoogst mogelijke score. De statistische significantie van de uitlijning en de biologische relevantie ervan moeten echter afzonderlijk worden geschat.

Voor beter of slechter behandelen uitlijningsalgoritmen eiwitten of DNA als eenvoudige letterreeksen zonder toevlucht te nemen tot specifieke eigenschappen van biologische macromoleculen. Daarom kan het nuttig zijn om de principes van lokale uitlijning te illustreren met een tekst die vrij is van biologische context als voorbeeld. Laten we het voorbeeld bekijken op de NCBI-website (de uitlijnbare regio's zijn vetgedrukt weergegeven):

“Er was eens een sombere middernacht, terwijl ik nadacht, zwak en vermoeid,

Over menig eigenaardig en merkwaardig boekdeel van vergeten kennis,

Terwijl ik knikte, bijna duttend, werd er plotseling getikt,

Als van iemand die zachtjes klopt, op mijn kamerdeur klopt.

“‘Dit is een bezoeker,” mompelde ik, “tik op mijn kamerdeur—

Alleen dit, en niets meer.”

“Op dit moment werd mijn ziel sterker, aarzelend en toen niet langer,

'Meneer,' zei ik, 'of mevrouw, echt uw vergeving, ik smeek u

Maar het feit is dat ik aan het dutten was, en zo zachtjes kwam je rappen,

En zo zwakjes kwam je tikken, tikken op mijn kamerdeur,

Dat ik nauwelijks wist zeker dat ik je hoorde - hier deed ik de deur wijd open, -

Duisternis daar, en niets meer.”

Het is gemakkelijk te zien dat in de eerste twee regels van de twee strofen de langste gemeenschappelijke reeks uit slechts vijf letters bestaat, met één mismatch:

De tweede regels zijn beter uitgelijnd, met twee vergelijkbare blokken gescheiden door afstandhouders van variabele lengte, waarvoor openingen moeten worden aangebracht om ze in één uitlijning te combineren:

uw vergiffenis ik smeek

In de derde regel zijn er gemeenschappelijke woorden van zeven, vier en zes letters, opnieuw gescheiden door gaten:

…duttend sud-den-ly er kwam een ​​tikken, (III)

…dutten en zo zachtjes dat je — kwam — rappende

De vierde regels sluiten heel goed aan, met een lange reeks bijna-identiteit aan het einde:

Als van iemand zachtjes'8230'8230'8230'8230'8230'8230'8230 rappende kloppend op mijn kamerdeur (IV)

Een d-so ………. f aint je kwam tikken op mijn kamerdeur tikken

Daarentegen is er geen redelijke uitlijning tussen de vijfde regels, behalve het identieke woord ‘door'8217. Het is echter duidelijk dat de vierde regel van de tweede strofe niet alleen kan worden uitgelijnd met de vierde (IV), maar ook met de vijfde regel van de eerste strofe:

... mompelde ik tikkend op mijn kamerdeur (IV)

… kwam tikkend op mijn kamerdeur tikken

Uitlijningen (IV) en (IV’) kunnen dus worden gecombineerd om een ​​meervoudige uitlijning te produceren:

…rappend rappend op mijn kamerdeur (IV’)

…tikken tikken op mijn kamerdeur

Ten slotte zouden de zesde regels van de twee strofen aan hun uiteinden kunnen worden uitgelijnd:

Alleen dit- en niets meer (V)

Duisternis daar en niets meer

Welke uitlijningen weerspiegelen nu eigenlijk de homologie van de respectieve lijnen? De uitlijningen III, IV, IV'8217 (en de afgeleide IV'8221) en V lijken buiten redelijke twijfel relevant te zijn. Zijn ze echter echt correct? In het bijzonder vereist het volledig/volledig uitlijnen in III en volledig/net in IV het introduceren van hiaten in beide sequenties. Is dit gerechtvaardigd? We kunnen deze eenvoudige vraag niet beantwoorden zonder een statistische theorie voor het beoordelen van de significantie van een uitlijning, inclusief een manier om een ​​aantal redelijke gap-sancties in te voeren.

De behandeling van hiaten is een van de moeilijkste en nog steeds onopgeloste problemen van uitlijningsanalyse. Er is geen theoretische basis voor het toekennen van gap-straffen ten opzichte van vervangingsstraffen (scores). Het empirisch afleiden van deze straffen is een veel gecompliceerdere taak dan het afleiden van substitutiestraffen zoals in de PAM- en BLOSUM-reeksen, omdat, in tegenstelling tot de uitlijning van residuen in sterk geconserveerde blokken, het aantal en de posities van gaten in uitlijningen zeer onzeker zijn.

Zo worden gap-sancties doorgaans toegekend op basis van het bestaande begrip van de eiwitstructuur en van empirisch onderzoek van de uitlijning van de eiwitfamilie: (i) deletie of insertie resulterend in een gap is veel minder waarschijnlijk dan zelfs de meest radicale aminozuursubstitutie en moet zwaar worden bestraft, en (ii) zodra een deletie (insertie) heeft plaatsgevonden op een bepaalde positie, wordt de deletie of insertie van extra residuen (gap extension) veel waarschijnlijker.

Dus een lineaire functie:

waarbij a de boete voor het openen van de opening is, b de boete voor het verlengen van de opening is en x de lengte is van de opening die wordt gebruikt om hiaten op te lossen in de meeste uitlijningsmethoden. Typisch, a = 10 en b = 1 is een redelijke keuze van gap-sancties om te gebruiken in combinatie met de BLOSUM62-matrix. Aan de hand van deze waarden zou de lezer moeten kunnen achterhalen of er hiaten in de alignementen III en IV hierboven hadden moeten worden aangebracht.

In principe zouden objectieve gap-sancties kunnen worden geproduceerd door analyse van de verdelingen van hiaten in structurele uitlijningen, en een dergelijke studie suggereerde het gebruik van convexe functies voor gap-sancties. Dit maakt uitlijningsalgoritmen echter rekenkundig veel duurder en de praktische voordelen blijven onzeker, dus lineaire gap-straffen worden nog steeds universeel gebruikt.

De haalbaarheid van uitlijningen (IV) en (IV’) creëert het keuzeprobleem: welke van deze is de juiste uitlijning? Uitlijning (IV) wint omdat het duidelijk een langer geconserveerd gebied heeft. Wat is dan de oorsprong van regel 5 in de eerste strofe en dus van uitlijning (IV’) ? Het is niet zo moeilijk om erachter te komen dat dit een herhaling is, een resultaat van duplicatie van regel 4 (dit is wat we moeten concluderen aangezien regel 4 meer lijkt op de homologe regel in de tweede strofe). Dergelijke duplicaties komen ook veel voor in eiwitsequenties en veroorzaken vaak grote problemen voor uitlijningsmethoden.

We concludeerden dat de regels 3, 4 en 6 in elke strofe van '8220Raven'8221 homoloog zijn, d.w.z. geëvolueerd uit gemeenschappelijke voorouders met enige latere divergentie. In dit geval wordt de conclusie ook bevestigd door het feit dat we de Engelse woorden in deze regels herkennen en zien dat ze inderdaad bijna hetzelfde zijn en vergelijkbare betekenissen overbrengen, zij het met verschillende nuances. Hoe zit het met uitlijningen (I) en (II)? De inhoud hier vertelt ons dat er geen sprake is van homologie, ook al ziet uitlijning (II) er “geloofwaardig” uit.

Het zou echter niet als statistisch significant zijn herkend bij een zoekopdracht in een omvangrijke database. Is deze overeenkomst dan puur toeval? dat is het duidelijk niet. Dit is een geval van convergentie.

De meeste bestaande uitlijningsmethoden maken gebruik van modificaties van het Smith-Waterman-algoritme. Een recente wijziging is BALSA, een Bayesiaans lokaal uitlijningsalgoritme dat reeksen substitutiematrices en gap-penaltywaarden onderzoekt en hun posterieure kansen beoordeelt, waardoor enkele van de tekortkomingen van het Smith-Waterman-algoritme worden verholpen.

Paarsgewijze uitlijningsmethoden zijn grotendeels belangrijk in de context van een databasezoekopdracht. Voor analyse van individuele eiwitfamilies zijn meerdere uitlijningsmethoden van cruciaal belang. Feng en Doolittle introduceerden het idee van hiërarchische clustering die ruwweg de fylogenetische boom benadert en de meervoudige uitlijning begeleidt.

De sequenties worden eerst vergeleken met behulp van een snelle methode (bijv. FASTA, zie hieronder) en geclusterd op gelijkheidsscores om een ​​gidsboom te produceren. Sequenties worden stap voor stap uitgelijnd in een bottom-up opeenvolging, beginnend bij terminalclusters in de boom en doorgaand naar de interne knooppunten totdat de wortel is bereikt.

Zodra twee sequenties zijn uitgelijnd, wordt hun uitlijning gefixeerd en in wezen behandeld als een enkele sequentie met een wijziging van dynamische programmering. De hiërarchische algoritmen reduceren dus in wezen het O(nk) meervoudige uitlijningsprobleem tot een reeks O(n2)-problemen, wat het algoritme haalbaar maakt, maar mogelijk ten koste van de uitlijningskwaliteit.

De hiërarchische algoritmen proberen dit probleem te minimaliseren door te beginnen met de meeste vergelijkbare sequenties waar de kans op onjuiste uitlijning minimaal is, in de hoop dat het toegenomen gewicht van correct uitgelijnde posities fouten uitsluit, zelfs bij de volgende stappen.

De meest gebruikte methode voor hiërarchische meervoudige uitlijningen is Clustal, dat momenteel wordt gebruikt in de varianten ClustalW of ClustalX. De T-Coffee-programma's zijn een recente wijziging van Clustal die heuristieken bevat om deze problemen gedeeltelijk op te lossen.

Sequentiedatabase zoekalgoritmen:

Smith-Waterman:

Elke paarsgewijze sequentie-uitlijningsmethode kan in principe op een eenvoudige manier worden gebruikt voor het doorzoeken van databases. Het enige dat u hoeft te doen, is de zoekopdracht één voor één op één lijn te brengen met elke reeks in de database, de resultaten te rangschikken op overeenkomst met reeksen en de statistische significantie te schatten.

Het klassieke Smith-Waterman-algoritme is een logische keuze voor een dergelijke toepassing en het is geïmplementeerd in verschillende zoekprogramma's voor databases, waarvan de meest populaire SSEARCH is, geschreven door William Pearson en gedistribueerd als onderdeel van het FASTA-pakket. Het is momenteel beschikbaar op tal van servers over de hele wereld.

Het grootste probleem dat voorkomt dat SSEARCH en andere implementaties van het Smith-Waterman-algoritme de standaardkeuze worden voor routinematige databasezoekopdrachten, zijn de rekenkosten, die orden van grootte groter zijn dan voor de heuristische FASTA- en BLAST-methoden.

Omdat uitgebreide vergelijkingen van de prestaties van deze methoden bij het detecteren van structureel relevante relaties tussen eiwitten geen beslissend voordeel van SSEARCH hebben aangetoond, domineren de snelle heuristische methoden het veld. Desalniettemin is het van geval tot geval zeker raadzaam om terug te keren naar de volledige Smith-Waterman-zoekopdracht wanneer andere methoden geen bevredigend beeld geven van de homologe relatie voor een eiwit van belang. Een aangepaste, veel snellere versie van het Smith-Waterman-algoritme is geïmplementeerd in het MPSRCH-programma.

FASTA:

FASTA, in 1988 geïntroduceerd door William Pearson en David Lipman, was het eerste databasezoekprogramma dat een vergelijkbare zoekgevoeligheid bereikte als die van Smith-Waterman, maar veel sneller was. FASTA zoekt naar biologisch relevante globale uitlijningen door eerst de reeks te scannen op korte exacte overeenkomsten die '8220woorden'8221 worden genoemd. Een woordzoeker is extreem snel.

Het idee is dat van bijna elk paar homologe sequenties wordt verwacht dat ze ten minste één kort woord gemeen hebben. Onder deze aanname kan de grote meerderheid van de reeksen in de database die geen gemeenschappelijke woorden hebben met de zoekopdracht, worden overgeslagen zonder verder onderzoek met een minimale verspilling van computertijd. De gevoeligheid en snelheid van het zoeken in de database met FASTA zijn omgekeerd gerelateerd en zijn afhankelijk van de variabele “k-tuple”, die de woordgrootte doorgaans specificeert, zoekopdrachten worden uitgevoerd met k = 3, maar als een hoge gevoeligheid ten koste gaat van snelheid gewenst is, kan men overschakelen naar k = 2.

Vervolgens introduceerde Pearson verschillende verbeteringen aan het FASTA-algoritme, die zijn geïmplementeerd in het FASTA3-programma.

ONTPLOFFING:

Basic Local Alignment Search Tool (BLAST) is de meest gebruikte methode voor het zoeken naar sequentieovereenkomst, het is ook de snelste en de enige die vertrouwt op een complete, rigoureuze statistische theorie.

Net als FASTA en in tegenstelling tot het Smith-Waterman-algoritme, gebruikt BLAST de woordzoekheuristiek om snel irrelevante reeksen te elimineren, wat de zoektijd aanzienlijk verkort. Het programma zoekt in eerste instantie naar een woord van een bepaalde lengte W (meestal 3 aminozuren of 11 nucleotiden) dat ten minste T scoort in vergelijking met de zoekopdracht met een bepaalde substitutiematrix.

Woordhits worden vervolgens in beide richtingen uitgebreid in een poging een uitlijning te genereren met een score die de drempel van S overschrijdt. De W- en T-parameters bepalen de snelheid en gevoeligheid van de zoekopdracht, die dus door de gebruiker kan worden gevarieerd.

De originele versie van BLAST (bekend als BLAST 1.4) produceerde alleen niet-afgekapte lokale uitlijningen, waarvoor een rigoureuze statistische theorie beschikbaar is. Hoewel dit programma goed presteerde voor veel praktische doeleinden, vertoonde het herhaaldelijk een lagere gevoeligheid dan het Smith-Waterman-algoritme en het FASTA-programma, tenminste wanneer het werd uitgevoerd met de standaardparameters. De nieuwe generatie BLAST maakt uitlijningen met gaten, waarvoor uitgebreide simulaties dezelfde statistische eigenschappen hebben aangetoond als voor niet-afgekapte uitlijningen.

De BLASTX-, TBLASTN- en TBLASTX-programma's worden gebruikt wanneer de query of de database of beide niet-gekarakteriseerde sequenties zijn en de locatie van eiwitcoderende regio's niet bekend is. Deze programma's vertalen de Unlocked-sequentie van de query in alle zes mogelijke frames en voeren een eiwitsequentievergelijking uit die analoog is aan die in BLASTP.

Een versie van gapped BLAST, bekend als WU-BLAST, met een iets ander statistisch model, dat in sommige gevallen kan leiden tot een grotere zoekgevoeligheid, wordt ondersteund door Waren Gish van de Washington University in St. Louis. Onlangs werd de BLAST-suite aangevuld met BLAST2-sequenties, een hulpmiddel om slechts twee nucleotide- of eiwitsequenties te vergelijken.

Vanwege de snelheid, hoge selectiviteit en flexibiliteit is BLAST het programma van eerste keuze in elke situatie waarin een sequentie-overeenkomst moet worden gezocht, en belangrijker nog, deze methode wordt het vaakst gebruikt als basis voor genoomannotatie. Daarom kunnen we de praktische aspecten van BLAST-gebruik in enig detail beschouwen. Daarvoor moeten we echter enkele aanvullende concepten introduceren die cruciaal zijn voor eiwitsequentieanalyse.

Motieven, domeinen en profielen:

Eiwitsequentiemotieven en methoden voor motiefdetectie:

Vaak hebben we een zeer algemene vraag: wat onderscheidt biologisch belangrijke sequentieovereenkomsten van onechte? Door te kijken naar slechts één uitlijning van de zoekopdracht en de databasetreffer met min of meer verspreide identieke en vergelijkbare residuen, kan het moeilijk zijn om de een van de ander te onderscheiden.

Zodra we echter meer homologe sequenties op één lijn brengen, met name van verre verwante organismen, zullen we een idee hebben van de aard van het onderscheid. De constellatie van geconserveerde aminozuurresiduen geassocieerd met een bepaalde functie wordt een sequentiemotief genoemd. Motieven zijn typisch beperkt tot korte stukken eiwitsequenties, die gewoonlijk 10 tot 30 aminozuurresiduen beslaan.

Het idee van een motief, misschien wel een van de belangrijkste concepten in de computationele biologie, werd voor het eerst expliciet geïntroduceerd door Russell Doolittle in 1981. Het jaar daarop beschreven John Walker en collega's waarschijnlijk het meest prominente sequentiemotief in het hele eiwituniversum, het fosfaat -bindingsplaats van een enorme klasse van ATP/GTP-gebruikende enzymen, die nu P-loop wordt genoemd. De ontdekking van sequentiemotieven die kenmerkend zijn voor een grote verscheidenheid aan enzymatische en bindende activiteiten van eiwitten verliep eerst met een toenemende en vervolgens blijkbaar met een constante snelheid, en de motieven, in de vorm van aminozuurpatronen, werden snel opgenomen door Amos Bairoch in de PROSITE-database.

Er zijn twee strikt geconserveerde residuen in de P-lus en twee posities waar een van de twee residuen is toegestaan. Door dit patroon tegen de hele eiwitsequentiedatabase te gebruiken, realiseert men zich onmiddellijk hoe algemeen en hoe nuttig dit patroon is.

Een dergelijke zoektocht haalt inderdaad sequenties op van duizenden experimenteel gekarakteriseerde ATPases en GTPases en hun nauwe homologen. Echter, slechts ongeveer de helft van de opgehaalde sequenties zijn bekende of voorspelde NTPasen van de P-loop-klasse, terwijl de rest vals-positieven is. Dit is niet verwonderlijk gezien het kleine aantal residuen in dit patroon, wat resulteert in een kans op toeval van ongeveer

(1/10) (1/20) (1/20) (1/10) = 2,5 x 10 -5

Met de huidige databasegrootte van ongeveer 3,2 x 108 residuen, is het verwachte aantal overeenkomsten ongeveer 8.000!

Deze eenvoudige berekening laat zien dat dit en vele andere vergelijkbare patronen, hoewel ze de meest geconserveerde aminozuurresiduen van belangrijke motieven bevatten, onvoldoende selectief zijn om goede diagnostische hulpmiddelen te zijn. Toch lost dit het probleem van motiefidentificatie niet op. Het is duidelijk dat zelfs geen enkele amino geconserveerd is over alle eiwithomologen.

Gezien dit gebrek aan strikte conservering van aminozuurresiduen in een enzymatisch motief, is deze trend zelfs meer uitgesproken in motieven die verband houden met macromoleculaire interacties, waarbij invariante residuen eerder uitzondering dan norm zijn. Patroon zoeken blijft een nuttige eerste benaderingsmethode voor motiefidentificatie, vooral omdat een rijke patroonverzameling, PROSITE (zie 3.2.1), kan worden doorzocht met behulp van een snel en eenvoudig programma zoals SCANPROSITE. Door de aard van de benadering zijn patronen echter ofwel onvoldoende selectief, ofwel te specifiek en daarom geen adequate beschrijvingen van motieven.

De manier om de informatie in sequentiemotieven goed vast te leggen, is om ze weer te geven als aminozuurfrequentieprofielen, die de frequenties van elk van de 20 aminozuurresiduen op elke positie van het motief bevatten.

Zelfs in de afwezigheid van invariante residuen, kan niet-willekeurigheid van een motief vrij duidelijk zijn in een profielrepresentatie. Het gebruik van frequentieprofielen voor het doorzoeken van databases had een diepgaand effect op de kwaliteit en diepte van sequentie- en structuuranalyse. De principes en methoden die dit mogelijk maakten, worden in de volgende paragraaf besproken.

Eiwitdomeinen, PSSM's en geavanceerde methoden voor het doorzoeken van databases:

Sequentiemotieven zijn uiterst handige descriptoren van geconserveerde, functioneel belangrijke korte delen van eiwitten. Motieven zijn echter niet de natuurlijke eenheden van eiwitstructuur en evolutie. Dergelijke onderscheiden eenheden zijn eiwitdomeinen. In de structurele biologie worden domeinen gedefinieerd als structureel compacte, onafhankelijk vouwende delen van eiwitmoleculen.

In vergelijkende genomica en sequentieanalyse in het algemeen, zijn de centrale, '8220atomaire' objecten delen van eiwitten die verschillende evolutionaire banen hebben, dwz voorkomen als op zichzelf staande eiwitten of als onderdelen van variabele domeinarchitecturen (we verwijzen naar de lineaire volgorde van domeinen in eiwitsequenties als domein- of multidomeinarchitectuur), maar worden nooit in delen gesplitst. Heel vaak, waarschijnlijk in de meeste gevallen, komen dergelijke eenheden van eiwitevolutie exact overeen met structurele domeinen.

In sommige groepen eiwitten kan een evolutionaire eenheid echter uit twee of meer domeinen bestaan. In zeldzame gevallen bestaat een domein uit een enkel motief, zoals in het geval van AT-hooks, maar veel vaker zijn domeinen relatief groot, met 100 tot 300 aminozuurresiduen en met twee of meer verschillende motieven. Motieven zijn sterk geconserveerde patches in meerdere uitlijningen van domeinen die de neiging hebben om te worden gescheiden door gebieden met minder uitgesproken sequentieconservering en vaak van variabele lengte.

Het begrip eiwitmotieven is direct gebruikt in algoritmen die meerdere sequentie-uitlijningen construeren als een keten van motieven gescheiden door niet-uitgelijnde gebieden. De eerste van dergelijke methoden, Multiple Alignment Construction and Analysis Workbench (MACAW), gebruikte oorspronkelijk een BLAST-achtige methode voor het ongeveer afbakenen van geconserveerde sequentieblokken (motieven) en stelde de gebruiker vervolgens in staat te bepalen of het opnemen van extra uitlijnkolommen de significantie van de blok uitlijnen. MACAW is een zeer handig, nauwkeurig en flexibel uitlijningshulpmiddel, maar het algoritme is O(nk) en dienovereenkomstig wordt het voor een groot aantal sequenties onbetaalbaar rekenkundig duur. MACAW is een interactief hulpmiddel dat de belangrijke notie belichaamt dat het onwaarschijnlijk is dat volledig automatische methoden alle belangrijke motieven zullen vastleggen in gevallen van subtiele sequentieconservering, vooral in eiwitten die aanzienlijk in lengte verschillen.

In veel gevallen blijft het de voorkeursmethode wanneer zorgvuldige uitlijningsanalyse vereist is, hoewel, in de huidige situatie van explosieve groei van sequentiegegevens, de rekenkosten het nut van MACAW ernstig beperken. Vervolgens pasten Charles Lawrence, Andrew Neuwald en collega's de Gibbs-samplingstrategie voor motiefdetectie aan en ontwikkelden ze de krachtige (zo niet noodzakelijk gebruiksvriendelijke) PROBE-methode die het mogelijk maakt om meerdere, subtiele motieven in grote reeksen sequenties af te bakenen. Belangrijk is de Gibbs-sampler in een O(n)-algoritme, waarmee grote aantallen sequenties kunnen worden geanalyseerd. Gibbs-sampling is opgenomen in MACAW als een van de methoden voor geconserveerde blokdetectie.

In principe zou dit MACAW in staat moeten stellen om tal van sequenties efficiënt uit te lijnen. In de praktijk vinden de auteurs het problematisch om relevante motieven te identificeren tussen de vele blokken die door Gibbs-sampler zijn gedetecteerd.

De belangrijkste methodologische vooruitgang op basis van de concepten van domeinen en motieven was ongetwijfeld de ontwikkeling van positiespecifieke gewichtsmatrices (PSSM's) en hun gebruik in databasezoekopdrachten als een onvergelijkelijk krachtiger vervanging voor reguliere matrices, zoals BLOSUM's en PAM's. Een PSSM is een rechthoekige tabel die bestaat uit n kolommen (n is het aantal posities in de meervoudige uitlijning waarvoor de PSSM is gemaakt) en 20 rijen en bevat in elke cel de score (gewicht) voor het gegeven aminozuur in de gegeven positie van de meervoudige uitlijning.

In het eenvoudigste geval kan deze score de frequentie zijn van het aminozuur op de gegeven positie. Het is echter gemakkelijk te realiseren dat in de meeste gevallen het onwaarschijnlijk is dat residufrequenties uit een bepaalde uitlijning de respectieve domeinfamilie adequaat beschrijven. Ten eerste kennen we zeker nooit het volledige scala aan familieleden en bovendien is er geen bewijs dat we een representatieve set hebben.

Daarom, als een residu ontbreekt in een bepaalde uitlijningskolom, rechtvaardigt dit geen 0-score in een PSSM. In werkelijkheid bevat een PSSM nooit een score van precies 0, hoewel de scores voor sommige residuen extreem laag kunnen zijn en afronding soms kan resulteren in 0-waarden.

In plaats daarvan wordt een eindige score toegekend aan het ontbrekende residu met behulp van zogenaamde regularizes, d.w.z. verschillende wiskundige technieken die ernaar streven de juiste verdeling van aminozuren voor een bepaalde positie af te leiden op basis van een beperkte steekproef. Het is gemakkelijk in te zien dat de score die aan een ontbrekend residu wordt gegeven, afhangt van twee factoren: de daadwerkelijke verdeling in de steekproef van beschikbare superfamilieleden en de grootte van de steekproef.

Een ander aspect van PSSM-constructie dat een formele behandeling vereist die verder gaat dan het berekenen en regulariseren van aminozuurresiduscores, komt voort uit het feit dat veel eiwitfamilies die voor ons beschikbaar zijn, zijn verrijkt met nauw verwante sequenties (dit kan het resultaat zijn van een echte proliferatie van een bepaalde subset van een familie of kan worden veroorzaakt door vooringenomenheid in de volgorde).

Het is duidelijk dat een oververtegenwoordigde onderfamilie de hele PSSM's zal doen zwaaien in de richting van detectie van aanvullende nauw verwante sequenties en de prestaties zal belemmeren. Om dit probleem op te lossen, worden verschillende wegingsschema's toegepast op PSSM's om nauw verwante sequenties te verminderen en de bijdrage van verschillende te vergroten. Optimale PSSM-constructie blijft een belangrijk probleem bij sequentieanalyse, en zelfs kleine verbeteringen hebben het potentieel om de kracht van databasezoekmethoden aanzienlijk te vergroten.

Als een PSSM eenmaal is geconstrueerd, is het gebruik ervan in een databasezoekopdracht eenvoudig en niet bijzonder verschillend van het gebruik van een enkele queryreeks gecombineerd met een reguliere substitutiematrix, b.v. BLOSUM62. De gebruikelijke zoekmethoden voor databases, zoals BLAST, kunnen net zo goed werken met een PSSM en dezelfde statistieken zijn van toepassing.

Een beslissende doorbraak in de evolutie van op PSSM gebaseerde methoden voor het doorzoeken van databases was de ontwikkeling van het Position-Specific Iterating (PSl)-BLAST-programma. Dit programma voert eerst een reguliere BLAST-zoekopdracht uit van een eiwitquery tegen een eiwitdatabase. Vervolgens worden alle hits met scores boven een bepaalde grens gebruikt om een ​​meervoudige uitlijning te genereren en een PSSM te maken, die wordt gebruikt voor de tweede zoekiteratie.

Het zoeken gaat door tot convergentie of voor een gewenst aantal iteraties. Het is duidelijk dat de eerste PSI-BLAST-iteratie een reguliere substitutiematrix moet gebruiken, zoals BLOSUM62, om HSP-scores te berekenen. Voor de daaropvolgende iteraties werd de PSSM-regularisatieprocedure zo ontworpen dat de bijdrage van de initiële matrix aan de positiespecifieke cscores afneemt, terwijl de bijdrage van de feitelijke aminozuurfrequenties in de uitlijning toeneemt met de groei van het aantal opgehaalde sequenties. PSI-BLAST maakt ook gebruik van een eenvoudig sequentiewegingsschema, dat bij elke iteratie wordt toegepast voor PSSM-constructie.

Sinds zijn verschijning in 1997 is PSI-BLAST de meest gebruikelijke methode geworden voor diepgaande eiwitsequentieanalyse. De methode dankt zijn succes aan de hoge snelheid (elke iteratie duurt slechts iets langer dan een normale BLAST-run), het gebruiksgemak (er zijn geen extra stappen nodig, het zoeken begint met een enkele reeks en uitlijningen en PSSM's worden automatisch geconstrueerd op the fly), en hoge betrouwbaarheid, vooral wanneer op samenstelling gebaseerde statistieken worden ingeroepen.

Verborgen Markov-modellen (HMM's) van meerdere sequentie-uitlijningen zijn een populair alternatief voor PSSM's. HMM's kunnen worden getraind op niet-uitgelijnde sequentie of vooraf geconstrueerde meerdere uitlijningen en kunnen, net als PSI-BLAST, interactief worden uitgevoerd tegen een database in een automatisch regime. Een verscheidenheid aan HMM-gebaseerde zoekprogramma's zijn opgenomen in het HMMer2-pakket. HMM zoeken is langzamer dan PSI-BLAST, maar er zijn meldingen geweest van een grotere gevoeligheid van HMM's. In de uitgebreide ervaring van de anpratpru-ontwikkelaars zijn de resultaten van eiwitsuperfamilie-analyse met PSI-BLAST en HMMer2 opmerkelijk vergelijkbaar.

De beschikbaarheid van technieken om modellen van eiwitfamilies te construeren en deze te gebruiken bij het doorzoeken van databases leidt natuurlijk tot een visie op de toekomst van eiwitsequentieanalyse. De hierboven besproken methoden, zoals PSI-BLAST en HMMer, beginnen met een eiwitsequentie en bouwen geleidelijk een model op waarmee homologen kunnen worden gedetecteerd met een lage sequentie-overeenkomst met de zoekopdracht. Het is duidelijk dat deze benadering kan worden omgekeerd, zodat een sequentiequery wordt uitgevoerd tegen een vooraf gemaakte verzameling eiwitfamiliemodellen.

Als er modellen zouden zijn ontwikkeld voor alle eiwitfamilies, zou in principe het probleem van het classificeren van een nieuwe eiwitsequentie in principe zijn opgelost. Naast familieclassificatie leveren reguliere databasezoekopdrachten zoals BLAST ook informatie op over de meest verwante homologen van de zoekopdracht, waardoor een indicatie wordt gegeven van de evolutionaire affiniteit ervan.

Op zich levert een zoektocht in een bibliotheek van familiemodellen dergelijke informatie niet op, maar een uitbreiding van deze benadering is goed denkbaar waarbij een eiwitsequentie, na te zijn toegewezen aan een familie via PSSM en HMM search, vervolgens in een fylogenetische boom wordt ingepast . Het doorzoeken van de COG-database kan worden gezien als een ruw prototype van deze aanpak.

Een dergelijk systeem lijkt de potentie te hebben om de huidige methoden grotendeels te vervangen door een aanpak die zowel veel sneller als informatiever is. Gezien de explosieve groei van sequentiedatabases, lijkt de overgang naar het doorzoeken van databases van eiwitfamiliemodellen als de primaire benadering van sequentieanalyse in een relatief nabije toekomst onvermijdelijk.

Alleen voor het ontdekken van nieuwe domeinen zal het nodig zijn terug te keren naar het doorzoeken van de hele database, en aangezien het eiwituniversum eindig is, wordt verwacht dat deze gelegenheden steeds zeldzamer zullen worden.

Op dit moment heeft sequentieanalyse nog niet zo'n geavanceerde staat bereikt, maar zoekopdrachten in grote, zij het verre van volledige, databases van domeinspecifieke PSSM's en HMM's zijn al uiterst bruikbare benaderingen geworden in sequentieanalyse. Pfam, SMART en CDD zijn de belangrijkste tools van dit type. Pfam en SMART voeren zoekopdrachten uit op HMM's die zijn gegenereerd op basis van samengestelde uitlijningen van een verscheidenheid aan eiwitdomeinen.

De CDD-server vergelijkt een queryreeks met de PSSM-verzameling in de CDD met behulp van het programma Reversed Position-Specific (RPS)-BLAST. Algoritmisch is RPS-BLAST vergelijkbaar met BLAST, met kleine wijzigingen Karlin-Altschul-statistieken zijn van toepassing op E-waardeberekening voor deze methode. RPS-BLST doorzoekt de bibliotheek met PSSM's die zijn afgeleid van CDD, waarbij hits met één (spatie) of dubbele woorden worden gevonden en vervolgens een ungapped-extensie wordt uitgevoerd op deze kandidaat-overeenkomsten.

Als er een voldoende hoog scorende ungapped uitlijning wordt geproduceerd, wordt een gapped-extensie uitgevoerd en worden de uitlijningen met E-waarden onder de cut-off gerapporteerd. Aangezien de zoekruimte gelijk is aan nm, waarbij n de lengte van de zoekopdracht is en m de totale lengte van de PSSM's in de database (die op het moment van schrijven

100 keer sneller dan gewone BLAST.

Pattern-Hit-Initiated BLAST (PHI-BLAST) is een variant van BLAST die zoekt naar homologen van de zoekopdracht die een bepaald sequentiepatroon bevatten. Zoals hierboven besproken, is het zoeken naar patronen vaak onvoldoende selectief. PHI-BLAST corrigeert dit gedeeltelijk door eerst de subset van databasesequenties te selecteren die het gegeven patroon bevatten en vervolgens deze beperkte database te doorzoeken met behulp van het reguliere BLAST-algoritme.

Hoewel het belang van deze methode niet vergelijkbaar is met die van PSI-BLAST, kan het nuttig zijn voor het detecteren van homologen met een zeer lage algemene gelijkenis met de zoekopdracht die toch een specifiek patroon behouden.

Stand-alone (niet-web) BLAST. De vorige discussie was van toepassing op de webversie van BLAST, die inderdaad het handigst is voor de analyse van kleine aantallen sequenties, en typisch de enige vorm van zoeken in databases is die door experimentele biologen wordt gebruikt. De webgebaseerde benadering is echter niet geschikt voor grootschalige zoekopdrachten die uitgebreide nabewerking vereisen, wat gebruikelijk is bij genoomanalyse.

Voor deze taken moet men de stand-alone versie van BLAST gebruiken, die via ftp bij NCBI kan worden verkregen en lokaal onder het Unix- of Windows-besturingssysteem kan worden geïnstalleerd. Hoewel de stand-alone BLAST-programma's niet alle gemakken bieden die op internet beschikbaar zijn, bieden ze wel enkele aanvullende en nuttige mogelijkheden. In het bijzonder kan stand-alone PSI-BLAST automatisch worden uitgevoerd voor het opgegeven aantal iteraties of tot convergentie.

Met behulp van eenvoudige aanvullende scripts kunnen de resultaten van stand-alone BLAST veel meer worden gebruikt dan alleen zoeken in de database. Zoekopdrachten met duizenden zoekopdrachten kunnen automatisch worden uitgevoerd, gevolgd door verschillende nabewerkingsstappen.

Het BLASTCLUST-programma (geschreven door Ilya Dondoshansky in samenwerking met Yuri Wolf en EVK), dat ook verkrijgbaar is bij NCBI via ftp en alleen werkt met stand-alone BLAST, maakt clustering van sequenties op gelijkenis mogelijk met behulp van de resultaten van een alles-tegen-alles BLAST zoeken binnen een geanalyseerde reeks sequenties als invoer.

Het identificeert clusters met behulp van twee criteria: (i) niveau van sequenties-overeenkomst, die kan worden uitgedrukt als percentage identiteit of als scoredichtheid (aantal bits per uitgelijnde positie), en (ii) de lengte van HSP ten opzichte van de lengte van de vraag en onderwerp (zo kan men eisen dat, om de gegeven twee sequenties te clusteren, de HSP('s) ten minste 70% van elke sequentie moeten beslaan). BLASTCLUST kan bijvoorbeeld worden gebruikt om eiwitfragmenten uit een database te verwijderen of om families van paralogen te identificeren.

De kern van de BLAST-services van NCBI is BLAST 2.0, ook wel bekend als '8220Gapped BLAST8221. Deze service is ontworpen om eiwit- en nucleïnezuursequenties te nemen en deze te vergelijken met een selectie van NCBI-databases.

Het BLAST-algoritme is geschreven voor het balanceren van snelheid en verhoogde gevoeligheid voor verre sequentierelaties. In plaats van te vertrouwen op globale uitlijningen (vaak gezien in programma's voor uitlijning van meerdere sequenties), benadrukt BLAST regio's van lokale uitlijning om relaties te detecteren tussen sequenties die alleen geïsoleerde regio's van overeenkomst delen (Altschul et al., 1990).

Daarom is BLAST meer dan een hulpmiddel om sequenties te bekijken die met elkaar zijn uitgelijnd of om homologie te vinden, maar een programma om regio's met sequentieovereenkomst te lokaliseren met het oog op het vergelijken van structuur en functie.

BLAST-parameters kiezen: op compositie gebaseerde statistieken en filtering:

Zoals hierboven opgemerkt, produceren sequenties met een lage complexiteit (bijv. zure, basische of proline-rijke regio's) vaak valse databasehits in niet-homologe eiwitten. Momenteel wordt dit probleem verholpen door gebruik te maken van op samenstelling gebaseerde statistieken, aangezien de standaardinstelling voor NCBI BLAST-filtering met SEG als optie beschikbaar is, maar standaard is uitgeschakeld. Zoals aangetoond in grootschalige tests, elimineren op compositie gebaseerde statistieken valse hits voor alle, behalve de meest ernstige gevallen van lage sequentiecomplexiteit

Verwacht waarde, woordgrootte, kloofstraf, vervangingsmatrix:

De verwachte waarde (E) kan elk positief getal zijn. De standaardwaarde is 10. Het is duidelijk dat het het aantal overeenkomsten in de database is dat men louter bij toeval zou verwachten te vinden. Meestal is er geen reden om deze waarde te wijzigen. In gevallen waarin echter een extreem lage gelijkenis moet worden geanalyseerd, kan de drempel worden verhoogd (bijvoorbeeld tot 100) en omgekeerd, wanneer het wenselijk is om de grootte van de uitvoer te beperken, kunnen lagere E-waarden worden gebruikt.

Woordgrootte (W) moet een geheel getal zijn. De standaardwaarden zijn 3 voor eiwitsequenties en 11 voor nucleotidesequenties. Deze parameter bepaalt de lengte van de initiële zaden die door BLAST worden opgepikt op zoek naar HSP's. Momenteel ondersteunde waarden voor het zoeken naar eiwitten zijn slechts 3 en 2. Het wijzigen van de woordgrootte naar 2 verhoogt de gevoeligheid maar vertraagt ​​het zoeken aanzienlijk. Dit is een van de laatste toevluchtsoorden voor gevallen waarin geen homologen worden gedetecteerd voor een bepaalde zoekopdracht met reguliere zoekparameters.

BLASTN heeft de standaard woordgrootte van 11, d.w.z. rapporteert als een HSP slechts een run van 11 identieke nucleotiden. Zelfs het verkleinen van de woordgrootte tot 7, de laagste woordgrootte die momenteel is toegestaan ​​voor BLASTN, zou het resultaat niet veranderen als het langste stuk identieke nucleotiden in deze uitlijning slechts 6 basen lang is.

Dit voorbeeld laat niet alleen maar weer eens zien waarom eiwitonderzoek superieur is aan DNA-DNA onderzoek. Het toont ook aan dat het vaststellen dat twee gegeven sequenties niet homoloog zijn, evenveel voorzichtigheid vereist als bewijzen dat ze homoloog zijn.

Dienovereenkomstig moet de bewering dat de gerapporteerde sequentie “novel” is en geen homologen heeft in GenBank, vaak gevonden in wetenschappelijke literatuur, altijd met een gezonde dosis scepsis worden behandeld.

Zoals hierboven beschreven, worden verschillende aminozuursubstitutiematrices op maat gemaakt om overeenkomsten tussen sequenties met verschillende niveaus van divergentie te detecteren. Een enkele matrix, BLOSUM62, is echter redelijk efficiënt over een breed scala van evolutionaire veranderingen, zodat situaties waarin een matrixverandering nodig is zeldzaam zijn.

Voor bijzonder lange uitlijningen met een zeer lage gelijkenis, kan worden geprobeerd om over te schakelen naar BLOSUM45, maar men moet zich ervan bewust zijn dat dit ook kan leiden tot een verhoging van de fout-positieve frequentie. Daarentegen kunnen PAM30-, PAM70- of BLOSUM8O-matrices worden gebruikt voor korte zoekopdrachten.

Elke vervangingsmatrix moet worden gebruikt met de overeenkomstige reeks boetes voor gaten. Aangezien er geen analytische theorie is voor het berekenen van E-waarden voor uitlijningen met gaps, moesten de parameters van vergelijking II worden bepaald door uitgebreide computersimulaties afzonderlijk voor elke combinatie van een matrix, gap-opening penalty en gap extension penalty.

Daarom is er slechts een beperkt aantal combinaties beschikbaar voor gebruik. Er zijn echter geen aanwijzingen dat substantiële wijzigingen in deze parameters een positief effect zouden hebben op de zoekprestaties.

Een handige functie die onlangs aan NCBI BLAST is toegevoegd, is de mogelijkheid om de URL met een bepaalde BLAST-instelling op te slaan en te bookmarken met behulp van de knop 'URL ophalen' onder aan de pagina. Voor een gewone BLAST-gebruiker loont het de moeite om verschillende instellingen op te slaan die zijn aangepast voor verschillende taken.

BLAST uitvoeren en de uitvoer formatteren:

Een BLAST-zoekopdracht kan worden gestart met een GI-nummer of de reeks zelf. In de huidige implementatie op de NCBI-webpagina kan de gebruiker een BLAST-zoekopdracht uitvoeren en vervolgens verschillende manieren proberen om de uitvoer te formatteren. De standaardoptie omvat het schakelen tussen twee vensters, wat verwarrend kan zijn. Het kan handig zijn om over te schakelen naar een indeling met één venster met behulp van de lay-outschakelaar en de instellingen op te slaan zoals hierboven aangegeven.

CDD-zoekopdracht wordt standaard uitgevoerd in combinatie met BLAST. Zoals hierboven besproken, is dit zoeken veel sneller dan gewone BLAST en is het vaak gevoeliger. De CDD-zoekopdracht wordt normaal gesproken voltooid lang voordat de resultaten van conventionele BLAST beschikbaar zijn. Hierdoor kan de gebruiker de CDD-zoekoutput inspecteren en een idee krijgen van de domeinarchitectuur van het query-eiwit terwijl hij wacht op de BLAST-resultaten.

In veel gevallen is het enige dat men echt nodig heeft bij het zoeken in een database, het herkennen van een bepaald eiwit via zijn karakteristieke domeinarchitectuur of het ervoor zorgen dat een interessant eiwit geen bepaald domein bevat. In dergelijke situaties is er misschien geen reden om zelfs maar te wachten tot de normale BLAST is afgelopen.

De CDD-zoekopdracht kan ook worden uitgevoerd als een op zichzelf staand programma vanaf de hoofdpagina van BLAST. In deze modus is het mogelijk om de E-waardedrempel voor het rapporteren van domeinhits (standaard 0,01) te wijzigen, wat handig kan zijn voor het detecteren van subtiele relaties en nieuwe versies van bekende domeinen.

De huidige BLAST-configuratie omvat een beperking van het aantal beschrijvingen en het aantal uitlijningen in de uitvoer. De huidige standaardwaarden zijn respectievelijk 250 en 100. Met de snel groeiende databasegrootte is het vaak nodig om deze limieten te verhogen om een ​​bepaalde eiwitfamilie te onderzoeken. Dit zal echter waarschijnlijk resulteren in grote outputs die moeilijk te downloaden en te navigeren zijn. Het beperken van de zoekruimte zoals hierboven beschreven kan een haalbare en vaak de voorkeur verdienende optie zijn.

Met de optie grafisch overzicht kan de gebruiker selecteren of een afbeelding van de databasetreffers die zijn uitgelijnd met de zoekvolgorde, in de uitvoer moet worden opgenomen. Hoewel het het laden van de pagina vertraagt, is deze optie essentieel voor een snel onderzoek van de uitvoer om een ​​idee te krijgen van de domeinarchitectuur van de zoekopdracht. Elke uitlijning in het grafische weergavevenster heeft een kleurcode om de gelijkenis met de queryreeks aan te geven.

In het menu Uitlijningsweergaven kan de gebruiker de weergavemodus voor uitlijning kiezen. De standaard Pairwise-uitlijning is de standaard BLAST-uitlijningsweergave van de paren tussen de queryreeks en elk van de databasehits.

Alle andere weergaven zijn pseudo-meerdere uitlijningen die worden geproduceerd door de HSP's te ontleden met behulp van de query als sjabloon. Query-verankerd zonder identiteiten is dezelfde weergave met alle weergegeven residuen. Platte query-verankerd met identiteiten is een meervoudige uitlijning die het mogelijk maakt hiaten in de queryreeksresiduen die identiek zijn aan die in de queryreeks, worden weergegeven als streepjes. Flat query-verankerd zonder identiteiten laat ook hiaten in de queryreeks toe, maar toont alle residuen.

Paarsgewijze uitlijning is zeker het handigst voor inspectie van sequentieovereenkomsten, maar met de optie 'platte zoekopdracht-verankerd zonder identiteiten'8221 kan men meerdere uitlijningen van redelijke kwaliteit genereren die kunnen worden opgeslagen voor verdere analyse. Deze optie kan het beste worden gebruikt met het aantal beschrijvingen en uitlijningen (zie hierboven) beperkt tot een beheersbaar aantal (meestal niet meer dan 50).

Met de optie Taxonomierapporten kan de gebruiker een taxonomische uitsplitsing van de BLAST-uitvoer maken. Gezien het feit dat veel BLAST-outputs tegenwoordig behoorlijk groot zijn, is dit buitengewoon nuttig, waardoor men de fyletische distributie van de gegeven eiwitfamilie snel kan beoordelen en homologen van verre taxa kan identificeren.

Formatteren voor PSI-BLAST:

De uitvoer van BLAST kan worden gebruikt als invoer voor PSI-BLAST. De kritische parameter die doorgaans wordt ingesteld voordat de eerste BLAST-run wordt gestart, is de opnamedrempel. De huidige standaardwaarde is E = 0,005. Deze parameter bepaalt de E-waarde die nodig is om een ​​HSP op te nemen in de meervoudige uitlijning die wordt gebruikt om de PSSM te construeren. In combinatie met op samenstelling gebaseerde statistieken is de E-waarde van 0,005 een relatief conservatieve grens. Valse treffers met lagere E-waarden komen niet vaak voor: ze worden min of meer zo vaak waargenomen als verwacht volgens de Karlin-Altschul-statistieken, d.w.z. ongeveer eens op de 200 zoekopdrachten.

Daarom stelt het zorgvuldig onderzoeken van de resultaten met hogere E-waarden ingesteld als de inclusiedrempel, vaak in staat om subtiele relaties te ontdekken die niet detecteerbaar zijn met de standaard cut-off. Bij het bestuderen van nieuwe of slecht begrepen eiwitfamilies gebruiken we routinematig drempels tot 0,1.

In de versie van PSI-BLAST, die beschikbaar is op het web, moet elke nieuwe iteratie door de gebruiker worden gestart. Nieuwe sequenties die in de laatste iteratie zijn gedetecteerd met een E-waarde boven de grenswaarde, worden gemarkeerd in de PSI-BLAST-uitvoer. PSI-BLAST heeft ook de uiterst handige optie om sequenties handmatig te selecteren of te deselecteren voor opname in de PSSM.

Het selecteren van 'hoopvolle' sequenties met E-waarden onder de grenswaarde kan helpen bij een voorlopige verkenning van een opkomende eiwitfamilie. Het deselecteren van sequenties die onecht lijken ondanks E-waarden boven de grenswaarde, kan corruptie van de PSSM voorkomen. De PSSM die door PSI-BLAST bij elke iteratie wordt geproduceerd, kan worden opgeslagen en gebruikt voor daaropvolgende zoekopdrachten in de database.

We realiseren ons dat de bovenstaande aanbeveling om resultaten te onderzoeken die niet als statistisch significant worden gerapporteerd, een oproep tot controverse is. Wij zijn echter van mening dat er verschillende argumenten voor deze benadering zijn. Ten eerste zijn dergelijke analyses van subtiele overeenkomsten herhaaldelijk nuttig gebleken, inclusief de oorspronkelijke test van de effectiviteit van PSI-BLAST. Ten tweede, net als bij andere soorten onderzoek, is de oorspronkelijke ontdekking echt cruciaal.

Zodra men de eerste glimp opvangt van wat een belangrijke nieuwe relatie zou kunnen zijn, kan statistische significantie vaak worden aangetoond met een combinatie van aanvullende methoden. Ten derde pleiten we zeker niet voor het verlagen van de statistische grens voor grootschalige zoekopdrachten, laat staan ​​geautomatiseerde zoekopdrachten. Dit is alleen veilig als het wordt toegepast in zorgvuldig gecontroleerde casestudies.

Analyse en interpretatie van BLAST-resultaten:

Ondanks de solide statistische basis, inclusief op samenstelling gebaseerde statistieken, produceren BLAST-zoekopdrachten onvermijdelijk zowel valse positieven als valse negatieven. De belangrijkste oorzaak voor het verschijnen van valse positieven, dat wil zeggen databasehits die “significante” E-waarden hebben maar, bij meer gedetailleerde analyse, geen homologie blijken te weerspiegelen, lijkt subtiele compositie-bias te zijn die wordt gemist door op compositie gebaseerde statistieken of filtering met een lage complexiteit.

De reden waarom fout-negatieven onvermijdelijk zijn, is in zekere zin fundamenteler: in veel gevallen hebben homologen echt een lage sequentie-overeenkomst die niet gemakkelijk wordt vastgelegd in databasezoekopdrachten en, zelfs als ze worden gerapporteerd, de drempel van statistische significantie niet overschrijden. In een iteratieve procedure als PSI-BLAST worden zowel de mogelijkheden om nieuwe en interessante relaties te ontdekken als de valkuilen nog vergroot.

Naast de (conceptueel) rechtlijnige kwesties van selectiviteit en gevoeligheid, vereisen functionele toewijzingen op basis van databasezoekresultaten een zorgvuldige interpretatie als we het meeste uit dit type analyse willen halen en de kans op valse voorspellingen willen minimaliseren. Hieronder beschouwen we zowel de kwesties van zoekselectiviteit en gevoeligheid als functionele interpretatie.

Geen enkele grenswaarde is in staat om de databasehits voor een bepaalde zoekopdracht nauwkeurig te partitioneren in relevante, indicatief voor homologie, en onechte. Door alleen databasehits met een zeer hoge statistische significantie (bijv. E < 10 10 ) in aanmerking te nemen en op samenstelling gebaseerde statistieken toe te passen, kunnen valse positieven worden geëlimineerd voor de overgrote meerderheid van de zoekopdrachten, maar de prijs die moet worden betaald is hoog: talrijke homologen, vaak inclusief die die het belangrijkst zijn voor functionele interpretatie, worden gemist.

Deze korte bespreking kan zeker niet alle 'handelsgeheimen'8221 van sequentieanalyse dekken. Het bovenstaande lijkt echter voldoende om enkele vuistregels te formuleren die een onderzoeker helpen om een ​​maximale hoeveelheid informatie uit databasezoekopdrachten te halen en tegelijkertijd de kans op valse '8220ontdekkingen'8221 te minimaliseren.

Enkele fijnere punten worden hieronder vermeld:

1. Zoeken in een domeinbibliotheek is vaak gemakkelijker en informatiever dan het doorzoeken van de hele sequentiedatabase. Dit laatste levert echter aanvullende informatie op en mag niet worden overgeslagen als details van belang zijn.

2. Variëren van de zoekparameters, b.v. het in- en uitschakelen van op compositie gebaseerde statistieken kan een verschil maken.

3. Met behulp van deelreeksen, bij voorkeur gekozen volgens objectieve criteria, b.v. scheiding van de rest van het eiwit door een linker met een lage complexiteit, kan de zoekprestaties verbeteren.

4. Het uitproberen van verschillende queries is een must bij het analyseren van eiwit(super)families.

5. Zelfs hits onder de drempel van statistische significantie zijn vaak de moeite van het analyseren waard, zij het met uiterste zorgvuldigheid.

6. Het overdragen van functionele informatie tussen homologen op basis van alleen een databasebeschrijving is gevaarlijk. Het behoud van domeinarchitecturen, actieve sites en andere functies moet worden geanalyseerd (vandaar dat geautomatiseerde identificatie van eiwitfamilies moeilijk is en geautomatiseerde voorspelling van functies extreem foutgevoelig).

Bio-informatica voor het leren van de fijne kneepjes van biodiversiteit:

Een domein is de kleinste eenheid van evolutie volgens de definitie van de SCOP (Murzin et al., 1995) database van bekende eiwitstructuren. Kleine eiwitten bestaan ​​uit een enkel domein en sommige grotere eiwitten bestaan ​​uit meer dan één domein. Een deel van een eiwit wordt alleen als een op zichzelf staand domein beschouwd als het elders in de natuur alleen of in combinatie met verschillende partnerdomeinen wordt waargenomen. Domeinen met structureel, functioneel en sequentiebewijs voor een gemeenschappelijke evolutionaire voorouder worden in SCOP geclassificeerd binnen dezelfde superfamilie.

De domeinarchitectuur van een eiwit wordt beschreven door de volgorde van de domeinen en de superfamilies waartoe ze behoren. Het repertoire van architecturen aanwezig in de genomen is ontstaan ​​door de duplicatie en recombinatie (Miyata en Suga, 2001 Ohno, 1970) van de voorouderlijke superfamiliedomeinen (Chothia et al., 2003 Qian et al., 2001), die vaak grotere multi- domeineiwitten (Rossmann et al., 1974).

Onlangs heeft Julian Gough (2005) in een onderzoek de primaire vraag gesteld in hoeverre de architecturen die in de genomen worden waargenomen te wijten zijn aan functionele noodzaak of aan evolutionaire afkomst, dwz in hoeverre de strenge selectieve vereisten van genen hebben geleid tot identieke architecturen bij meerdere gelegenheden. Convergente evolutie wordt hier gedefinieerd als meer dan één onafhankelijke evolutionaire gebeurtenis (recombinatie) die leidt tot dezelfde domeinarchitectuur in verschillende genomen.

Als het verschuiven van domeinen functioneel wordt aangestuurd, verwachten we veel bewijs van convergente evolutie te vinden, aangezien dezelfde architectuur onafhankelijk zou worden bereikt in verschillende genomen. Het niet detecteren van convergente evolutie wijst erop dat evolutionaire afkomst de verklaring is voor de waargenomen aanwezigheid van architecturen in de genomen.

Hun bevindingen omvatten het feit dat tussen 0,4 en 4% van de sequenties betrokken zijn bij convergente evolutie van domeinarchitecturen, en verwachten dat het werkelijke aantal dicht bij de ondergrens ligt. Ze merkten verder op dat de gebeurtenissen die leiden tot convergente evolutie willekeurig lijken te zijn zonder functionele of structurele voorkeuren, en veranderingen in het aantal tandem-herhalingsdomeinen treden gemakkelijker op dan veranderingen die de domeinsamenstelling veranderen. Hun belangrijkste conclusie is dan ook dat de waargenomen domeinarchitecturen van de sequenties in de genomen worden aangedreven door evolutionaire afkomst in plaats van functionele noodzaak.


Resultaten

Voor onze analyses is het aantal onderzochte CDS's na uitsluiting van genen met isovormen, onbekende plaatsen of interne stopcodons voor G. bimaculatus, O. fasciatus, en P. hawaiensis was 5284, 6161 en 6731, die respectievelijk 1.680.067, 1.667.783 en 1.326.896 codons besloegen. De nucleotidesamenstelling varieerde over alle CDS tussen organismen: het was AT-rijk voor G. bimaculatus (AT = 0,6177 ± 0,006 met vergelijkbare niveaus van A en T) en O. fasciatus (0,6520 ± 0,006 vergelijkbare niveaus van A en T) en AT was iets hoger dan het GC-gehalte in P. hawaiensis (0.5529 ± 0.0417).

We vroegen eerst of we verschillen in codongebruik konden detecteren ten opzichte van expressieniveaus in alle drie de studiesoorten. Om synoniem codongebruik te bestuderen, hebben we eerst het GC3-gehalte bepaald tussen de 5% hoogste en laagste tot expressie gebrachte CDS en hebben we opvallende verschillen gedetecteerd die consistent zijn met selectie op codongebruik tussen deze twee categorieën. Een zeer effectieve methode om codonvoorkeuren te identificeren, is om deze voorkeuren te vergelijken tussen genen die op extreem hoge of extreem lage niveaus tot expressie worden gebracht (Cutter et al. 2006 Duret en Mouchiroud 1999 Ingvarsson 2008 Wang et al. 2011 Whittle et al. 2007, 2011a). Zoals weergegeven in figuur 1, vonden we dat GC3 statistisch significant lager was in CDS met de 5% hoogste RPM (gemiddelde = 0,307 ± 0,003) dan in de 5% van CDS met de laagste RPM (gemiddelde = 0,334 ± 0,006) in G. bimaculatus (t-toets P = 2,0 × 10 −4 ) en O. fasciatus (gemiddelde 5% hoogste = 0,306 ± 0,004 en gemiddelde 5% laagste = respectievelijk 0,349 ± 0,007, P = 1,5 × 10 −7 ). Deze trends geven aan dat AT3-codons vaker voorkomen bij hoge transcriptie bij deze insecten. Voor P. hawaiensisGC3 was significant verhoogd in sterk tot expressie gebrachte genen vergeleken met laag tot expressie gebrachte genen (respectievelijk gemiddeld 5% hoogste = 0,507 ± 0,005 en gemiddelde 5% laagste = 0,473 ± 0,005, P = 6,8 × 10 −7 ) suggereert selectie voor GC3-codons in sterk tot expressie gebrachte genen in dit schaaldier. Voor alle genen per soort hebben we vervolgens het effectieve aantal codons (ENC) beoordeeld, waarbij de waarden variëren van 20 (wanneer één codon uitsluitend wordt gebruikt om voor een bepaald aminozuur te coderen) tot 61 (alle codons gelijkelijk gebruikt), en lagere waarden duiden op grotere vooroordelen in codongebruik in een gen (Wright 1990). We vonden dat AT3 sterk negatief gecorreleerd was met ENC in G. bimaculatus (Spearman's Rang R = -0,65, P = 2,0 × 10 −6) en O. fasciatus (R = −0,68, P = 2,0 × 10 −7 ), dus in overeenstemming met AT3-codonvoorkeuren bij die soorten. Daarentegen was er geen correlatie voor GC3 en ENC voor alle genen van P. hawaiensis. (P > 0,05), maar er was een negatieve correlatie zichtbaar in de bovenste tot expressie gebrachte genenset (R = −0,20, P < 2.0 × 10 −4 , voor de bovenste 5%), wat wijst op uitgesproken GC3-favoritisme binnen deze dataset. Gezien deze bevindingen hebben we vervolgens het synoniem codongebruik in elk aminozuur van de geanalyseerde CDS beoordeeld om de hypothese te testen dat AT3 in de insecten en GC3 in de amfipoden optimale codons waren in deze soorten.

Het GC3-gehalte voor de 5% genen met de hoogste en laagste expressie voor elk van de drie onderzochte soorten. Verschillende letters geven een statistisch significant verschil aan tussen hoog en laag tot expressie gebrachte genen binnen elke soort (P < 0,05 met behulp van t-testen).

Identificatie van optimale codons

Hoewel er enige variatie is in benaderingen om optimale codons te identificeren (Hershberg en Petrov 2009, 2012 Wang et al. 2011), hier identificeerden we de optimale codonlijst in elk aminozuur in G. bimaculatus, O. fasciatus, en P. hawaiensis met behulp van relatief synoniem codongebruik (RSCU) ten opzichte van genexpressie (Cutter et al. 2006 Duret en Mouchiroud 1999 Ingvarsson 2008 Qiu et al. 2011 Wang et al. 2011 Whittle et al. 2007 Whittle et al. 2011a). RSCU meet de waargenomen frequentie van een bepaald codon ten opzichte van de verwachte frequentie als alle synonieme codons gelijk zouden worden gebruikt. RSCU-waarden groter dan 1 duiden op preferentieel gebruik, en hogere waarden onder codons binnen een synonieme codonfamilie duiden op verhoogd gebruik (Sharp en Li 1986). Optimale codons werden gedefinieerd als die met een statistisch significante en positieve ∆RSCU = RSCUGemiddelde sterk uitgedrukte CDS −RSCUGemiddeld laag uitgedrukt CDS wanneer meer dan één codon per aminozuur aan dit criterium voldeed, werd het codon met het grootste ∆RSCU-aminozuur gedefinieerd als het primaire optimale codon (Cutter et al. 2006 Duret en Mouchiroud 1999 Ingvarsson 2008 Whittle et al. 2011a). De ∆RSCU voor alle aminozuren wordt weergegeven in Tabel 1 en de gemiddelde RSCU en standaardfouten per expressieklasse worden weergegeven in Tabel S2. We rapporteren dat 17 van de 18 aminozuren met synonieme codons een optimaal codon hadden met een statistisch significante en positieve ∆RSCU in G. bimaculatus. Voor O. fasciatus, identificeerden we in totaal 16 optimale codons. Beide soorten gaven de voorkeur aan AT3-codons in sterk tot expressie gebrachte genen. Bijvoorbeeld, in G. bimaculatus, 15 van de 17 optimale codons eindigden in AT, terwijl 16 van de 16 optimale codons in AT eindigden O. fasciatus. In feite geldt voor elk van de acht aminozuren die worden gecodeerd door vier of meer codons (bijv., Ala, Arg, Gly, Leu, Pro, Ser, Thr en Val), eindigde het optimale codon altijd in T in O. fasciatus, terwijl zes van de acht (de twee uitzonderingen zijn Leu en Pro) eindigden in T for G. bimaculatus. Er zijn dus duidelijke voorkeuren voor specifieke typen codons (T3), zelfs voor aminozuren waarin een assortiment van synonieme codons bestaat. De voorkeur voor optimale codons die eindigen op AT werd ook waargenomen voor aminozuren met twee of drie synonieme codons (Tabel 1). Als G. bimaculatus en O. fasciatus elk inherent AT-rijke transcriptomen hebben (zie de eerste paragraaf van de sectie Resultaten), wordt het codongebruik waarschijnlijk gedeeltelijk beïnvloed door de inherente genoomsamenstelling, waarvan kan worden verwacht dat deze AT-rijke codons bevat. Desondanks laten onze gegevens zien dat het gebruik van AT3-codons aanzienlijk wordt verhoogd in sterk tot expressie gebrachte genen (niet verwacht onder mutatiedruk, zie ook Optimaal codongebruik wordt gevormd door selectie), en is dus consistent met selectie die deze optimale codons bevoordeelt in genen die hoge transcriptiesnelheden ervaren.

Voor P. hawaiensis, 13 aminozuren bleken ook een optimaal codon te hebben dat de voorkeur had in sterk tot expressie gebrachte genen (Tabel 1). Echter, in tegenstelling tot G. bimaculatus en O. fasciatus, waren de meeste (12 van de 13) optimale codons GC3-codons (Tabel 1). Met name de absolute waarde van ∆RSCU was aanzienlijk lager voor P. hawaiensis (gemiddelde en standaardfout, 0,0729 ± 0,0062) dan voor G. bimaculatus (0,1060 ± 0,0110) en O. fasciatus (0.1158 ± 0.0111) (P < 0,016 voor t-testen). Deze bevinding kan erop wijzen dat selectieve krachten die op optimale codons inwerken, zwakker zijn bij de amfipoden dan bij de twee insecten. Desalniettemin tonen de transcriptgegevens voor alle drie ongewervelde soorten gezamenlijk bewijs van vriendjespolitiek ten opzichte van specifieke synonieme codons in sterk tot expressie gebrachte genen.

Het is vermeldenswaard dat genen met langer geassembleerde CDS in de bovengenoemde analyses een hogere RPM zouden kunnen hebben met behulp van sequentiegegevens van de volgende generatie vanwege hun grotere omvang, en dus niet alleen het gevolg zijn van hoge expressie. Dienovereenkomstig, zoals beschreven in Bestand S1, herhaalden we onze analyses met behulp van RPKM, inclusief lengte bij het meten van het expressieniveau, en vonden dezelfde optimale codonlijsten als die verkregen uit RPM, met de uitzondering dat P-waarden zwakker waren. Samenvattend laten we zien dat RPM de meest rigoureuze methode biedt om optimale codons te identificeren (File S1) en dus deze codonlijsten voor alle analyses te gebruiken.

Een andere complementaire methode die wordt gebruikt om optimale codonlijsten verder te bevestigen, is het vergelijken van codongebruik tussen ribosomale eiwitgenen (RPG's), die doorgaans sterk tot expressie worden gebracht, en laag tot expressie gebrachte genen (Heger en Ponting 2007 Wang et al. 2011). Daarom herhaalden we onze analyses van RSCU met behulp van RSCURPG's= RSCURPG's – RSCUCDS met de laagste 5% expressie (Bestand S2) en vonden dat de resultaten van deze analyses ook het bestaan ​​van optimale AT3-codons in G. bimaculatus en O. fasciatus, en GC3-codons voor P. hawaiensis.

Genoombreed optimaal codongebruik

Met behulp van de optimale codonlijsten in tabel 1 berekenden we de frequentie van optimale codons (Fop) (Ikemura 1981) voor elke CDS die werd bestudeerd en ontdekten dat deze parameter zeer statistisch significant en positief gecorreleerd was met RPM voor alle CDS voor G. bimaculatus (Spearman-rang R = 0,23, P < 10 −15 ), O. fasciatus (R = 0,17, P < 10 −15 ), en P. hawaiensis (R = 0,09, P < 10 −15 ). De R-waarden waren elk <0,3, wat wijst op een matige, maar zeer significante associatie tussen Fop en RPM. Vervolgens hebben we elke CDS in een van de drie verschillende RPM-categorieën ingedeeld, namelijk laag (onder het 5e percentiel), matig (tussen het 5e en het 95e percentiel) en hoog (boven het 95e percentiel). Deze benadering bracht een ondubbelzinnige verschuiving in Fop aan het licht, die geleidelijk toenam van de lage, matige tot hoge RPM-klassen voor G. bimaculatus, O. fasciatus, en P. hawaiensis (Figuur 2), een trend die consistent is met een sterk verband tussen transcriptiesnelheden en Fop. Dus, hoewel selectie op codongebruik de grootste effecten heeft in de bovenste expressieniveaus, geeft het ook vorm aan codongebruik (zij het in mindere mate) in matig tot expressie gebrachte genen in die taxa. Het zwakste effect lijkt te zijn voor matig tot expressie gebrachte genen in P. hawaiensis, die slechts bescheiden hoger was dan de lage expressieklasse. Optimalisatie van codongebruik voor de gematigde expressieniveauklassen kan dus mild zijn in dit taxon gezien de relatief lage absolute waarde van de genoombrede R-waarde hierboven, de gelijkenis van Fop met de laagste klasse (Figuur 2) en het feit dat ENC liet alleen een effect zien in de hoogste expressiecategorie (zie Identificatie van optimale codons). Gezien deze trends is het duidelijk dat de werkwijze voor het contrasteren van expressie tussen de CDS met de 5% hoogste en laagste RPM die hierin wordt gebruikt, voordelig was bij het onthullen van de lijst van optimale codons. Dit komt overeen met eerder onderzoek dat aangeeft dat een vergelijking van het codongebruik tussen de CDS met de hoogste en de laagst tot expressie gebrachte CDS (bekend als de vergelijkingsmethode) een effectiever hulpmiddel is (niet verzwakt door milde correlaties in de middelste expressiebereiken) voor het onthullen van optimale codons dan brede correlaties tussen codongebruik en expressie over alle CDS (bekend als de correlatiemethode), althans voor deze specifieke organismen (Hershberg en Petrov 2009 Wang et al. 2011).

De gemiddelde frequentie van optimale codons (Fop) ten opzichte van het expressieniveau voor de drie soorten ongewervelde dieren. Expressie van de coderende sequentie werd gecategoriseerd als laag (boven 95e percentiel), matig (tussen 5e en 95e percentiel) en hoog (onder 5e percentiel). Foutbalken vertegenwoordigen standaardfouten en zijn erg klein.

We melden ook dat er sterke positieve correlaties zijn gevonden tussen Fop en AT3 voor G. bimaculatus (Spearman R = 0,62, P < 10 −15 ) en O. fasciatus (R = 0,82. P < 10 −15 ) en tussen Fop en GC3 (R = 0,64. P < 10 −15 ) voor P. hawaiensis (Figuur S1). Dit bevestigt het sterke verband tussen deze eigenschappen, zelfs in het laatste taxon waar slechts 12 GC3-optimale codons werden geïdentificeerd.

Optimaal codongebruik varieert tussen aminozuren

De sterkte van bias in codongebruik varieerde tussen aminozuren. In het bijzonder was de mate van vooringenomen codongebruik in de 5% genen met de hoogste en de minst sterk tot expressie gebrachte genen het sterkst voor de sterk gedegenereerde aminozuren. Voor G. bimaculatus, hadden de drie aminozuren met zes synonieme codons de neiging om de grootste ∆RSCU te hebben onder sterk en laag tot expressie gebrachte genen: Arg (+0,277), Leu (+0,300) en Ser (+0,297) (Tabel 1 zie Tabel S2 voor gemiddelden en standaardfouten per expressiecategorie), terwijl drie- en viervoudig gedegenereerde aminozuren (Ala, Gly, Ile, Pro, Thr en Val) varieerden tussen gemiddelde ∆RSCU-waarden van +0.163 en +0.311 (Tabel 1). Daarentegen varieerden voor aminozuren met tweevoudige degeneratie (Asn, Asp, Cys, Gln, Glu, His, Phe en Tyr) de ∆RSCU-waarden tussen +0,062 tot +0,170 (Tabel 1). Het lijkt er dus op dat de selectiedruk die het gebruik van optimale codons bevordert, toeneemt met een grotere degeneratie. Evenzo, voor O. fasciatus, werden de hoogste ∆RSCU-waarden gevonden voor de zesvoudig gedegenereerde aminozuren Leu (+0,346) en Ser (+0,359) en het viervoudig gedegenereerde aminozuur Ala (+0,370), terwijl de laagste waarden de tweevoudige aminozuren His (+0,102) en Phe (+0,118). Dus, zoals gevonden voor G. bimaculatus, deze gegevens over kroontjeskruid zijn consistent met een neiging tot grotere selectieve druk op het gebruik van optimale codons voor meer gedegenereerde aminozuren. Deze relatie is echter niet universeel O. fasciatus, aangezien ∆RSCU voor Arg +0, 098 was in dit taxon (tabel 1). De trends in deze twee hemimetabolische insecten zouden kunnen wijzen op een hiërarchie van selectiecoëfficiënten op codongebruik (Cutter, et al. 2006 McVean en Vieira 1999), die groter is in aminozuren met een hogere degeneratie. Voor de taxon P. hawaiensis, de hoogste ∆RSCU kwam voor voor Leu (+0,146) en Ile (+0,136), maar de overige aminozuren vertoonden geen trends met betrekking tot degeneratie. Dit kan een weerspiegeling zijn van het feit dat optimaal codongebruik en ∆RSCU het zwakst waren in dit taxon, waardoor de verschillen tussen aminozuren dienovereenkomstig minder uitgesproken waren.

Optimaal codongebruik wordt gevormd door selectie

Er is waargenomen dat, hoewel codons met een verhoogde frequentie in sterk tot expressie gebrachte genen typisch het gevolg zijn van selectie, ze ook het gevolg kunnen zijn van mutatievooroordelen (Comeron 2004). Dit kan bijvoorbeeld gebeuren als hoge transcriptiesnelheden leiden tot een voorkeur voor specifieke mutaties (bijv., C tot T) in de DNA-streng, die is waargenomen in Escherichia coli (Beletskii en Bhagwat 1996, 1998) en/of uit vooroordelen die ontstaan ​​tijdens transcriptioneel gekoppeld herstel zoals die gerapporteerd worden bij zoogdieren (Green et al. 2003). Traditioneel is een methode die wordt gebruikt om mutatiebias uit te sluiten, het GC-gehalte van introns te vergelijken tegen GC3-frequentie in CDS, waarbij de afwezigheid van een relatie mutatiebias uitsluit (Bachtrog 2007 Comeron 2004 Qiu et al. 2011 Williford en Demuth 2012). Omdat de RNA-seq-gegevens die we hier hebben bestudeerd geen introns bevatten, kunnen we met deze methode niet testen op vermeende mutatiebias. Desalniettemin wijzen verschillende kenmerken van onze gegevens in de richting van selectie als een significante factor in de evolutie van optimale codons in deze taxa, in plaats van een door expressie geïnduceerde mutatiebias. Ten eerste, voor G. bimaculatus en O. fasciatus de overgrote meerderheid van de codons die in tabel 1 als optimaal zijn gedefinieerd, eindigen in T. Echter, het onderzoeken van aminozuren met viervoudig gedegenereerde plaatsen (Ala, Gly, Pro, Thr, Val), die kunnen eindigen in A, G, C of T , is het duidelijk dat er aanzienlijke variatie is in de ∆RSCU van het optimale codon over aminozuren. Deze bevinding is niet consistent met mutatiebias, aangezien alle mogelijke soorten mutaties naar T (G naar T, C naar T, A naar T) kunnen optreden op de gedegenereerde plaats. Als een neutrale mutatie-bias voor T3 verantwoordelijk zou zijn voor de evolutie van optimale codons voor deze aminozuren, dan zou een dergelijke bias alle vijf deze aminozuren op dezelfde manier moeten beïnvloeden en dus tot vergelijkbare ∆RSCU-waarden moeten leiden. Deze waarden varieerden echter in feite van +0,139 tot +0,279 voor G. bimaculatus, en van +0.194 tot +0.370 voor O. fasciatus (Tafel 1). Ten tweede zijn de zeer grote positieve ∆RSCU-waarden voor vier- en zesvoudig gedegenereerde aminozuren (in vergelijking met tweevoudig) consistent met selectie (McVean en Vieira 2001 Cutter et al. 2006) in plaats van mutatiebias. Ten derde, voor het zesvoudig gedegenereerde aminozuur Ser, dat twee codons heeft die eindigen op T (TCT, AGT), hebben we alleen een sterk signaal waargenomen van optimale codons voor TCT en niet voor AGT in G. bimaculatus dit was ook het geval voor O. fasciatus. De aanwezigheid van een C naar T-mutatiebias zou naar verwachting resulteren in zowel TCT (van TCC naar TCT-mutaties) als AGT (van AGC naar AGT-mutaties) met een statistisch significante en positieve ∆RSCU. We hebben echter geen dergelijk effect waargenomen bij het AGT-codon (+ 0,024 voor G. bimaculatus en −0.081 voor O. fasciatus, die geen van beide significant waren Tabel 1). We merken op dat het voorbehoud voor deze specifieke bevinding voor Ser is dat het alleen een C naar T-mutatiebias bij deze soorten uitsluit. Gezamenlijk suggereren de bovengenoemde resultaten dat andere factoren dan mutatiebias, namelijk selectieve druk, bijdragen aan het vormgeven van de optimale codons voor G. bimaculatus en O. fasciatus. Desalniettemin sluiten we niet uit dat sommige mutatiedruk, zoals effecten van naburige nucleotiden, zouden kunnen bijdragen aan de nucleotidesamenstelling (Hodgkinson en Eyre-Walker 2011). Eindelijk, voor P. hawaiensis, waar de meerderheid van de optimale codons eindigde in GC, varieerde de ∆RSCU voor het optimale codon geïdentificeerd voor aminozuren met vier synonieme codons sterk (+0,028 tot +0,114), terwijl één eindigde in A. Beide waarnemingen zijn inconsistent met mutatie bias als onderliggende oorzaak van optimale codons. Kortom, onze gegevens wijzen in de richting van selectie als een factor die het codongebruik in alle drie de geleedpotigen bepaalt.

Optimaal codongebruik correleert met aminozuurgrootte en complexiteit

We hebben de kosten van eiwitsynthese beoordeeld met behulp van de Dufton (1997)-methodologie, waarbij aan elk aminozuur een grootte-complexiteitsscore (S/C) wordt toegekend op basis van het molecuulgewicht en de complexiteit ervan. De S/C-score weerspiegelt de investering in chemische energie, evenals de kosten van stabiliteit in de uiteindelijke conformatie van het eiwit (Dufton 1997 Williford en Demuth 2012). De S/C-scores staan ​​vermeld in tabel S3. Voor elke soort hebben we het aandeel aminozuren per eiwit met hoge S/C berekend (>40 PrMiddelbare school), waaronder Cys, Phe, His, Met, Arg, Trp en Tyr. We vonden dat PrMiddelbare school was omgekeerd gecorreleerd met Fop voor G. bimaculatus (Spearman R = -0,09, P < 10 −15 ) en O. fasciatus (Spearman R = -0.12, P < 10 −15 ) (zie hieronder in dit gedeelte voor) P. hawaiensis). Aangezien codon-adaptatie-indices, zoals Fop, correleren met expressie en kunnen worden gebruikt als een proxy om expressieniveaus van genen over het genoom te meten (Coghlan en Wolfe 2000 Drummond et al. 2005 pausen et al. 2006 Muur et al. 2005 Williford en Demuth 2012), kunnen we concluderen dat hogere genexpressie is gekoppeld aan een verminderde S/C-score bij deze insecten. De R-waarden zijn vergelijkbaar met die gerapporteerd voor expressie en gemiddelde S/C in de bloemkever T. castaneum (Williford en Demuth 2012) en suggereren dat selectie op verminderde S/C niet exclusief is voor genen die sterk tot expressie worden gebracht, maar eerder een geleidelijke afname vertoont met verminderde transcriptiesnelheden. Desalniettemin laten onze gegevens zien dat de relatie niet bijzonder sterk is, zoals blijkt uit de absolute waarde van R (-0,12), wat mogelijk aangeeft dat de selectiedruk op optimaal codongebruik ten opzichte van S/C tussen genen varieert. Met andere woorden, S/C kan in sommige genen onder relatief grotere selectiedruk staan ​​dan Fop en vice versa.

We bestudeerden verder de relatie tussen expressie en de frequentie van elk van de individuele 20 aminozuren. Hiervoor gebruikten we Fop als een proxy voor het relatieve expressieniveau op het genoombrede niveau (Coghlan en Wolfe 2000 Drummond et al. 2005 pausen et al. 2006 Muur et al. 2005), die minder luidruchtig is dan RPM of RPKM bij tussenliggende expressieniveaus (buiten de bovenste en onderste 5% zie Identificatie van optimale codons). Daarnaast wilden we de relatie tussen Fop en aminozuur op zichzelf beoordelen. De Spearman-rangcorrelaties tussen Fop en aminozuurfrequentie per CDS op het genoombrede niveau worden weergegeven in Tabel 2. De resultaten toonden aan dat voor G. bimaculatus, vertoonden 15 aminozuren een statistisch significante correlatie. De negatieve R-waarden, die wijzen op aminozuren die zelden worden gebruikt in genen met een hoog Fop/expressieniveau, omvatten vier van de zes aminozuren met hoge S/C-scores (>40, Tabel S3), namelijk Arg, Met, His en Trp (de laatste twee zijn niet significant), zowel consistent met de hierboven beschreven inverse relatie tussen PrMiddelbare school en Fop (zie Optimaal codongebruik correleert met aminozuurgrootte en complexiteit), en suggereren selectie tegen deze aminozuren in sterk tot expressie gebrachte genen. De positieve correlaties geven aan dat hoe vaker een aminozuur in een CDS-sequentie verscheen, hoe waarschijnlijker het was om verhoogd optimaal codongebruik te vertonen. Dienovereenkomstig hebben de aminozuren die het meest de voorkeur hebben bij hoge expressie (met R > 0,269, P < 10 −15) omvatten Glu en Asp, die matige S/C-scores hebben (tussen 32,7 en 36,5, tabel S3). De aminozuren Asn, Lys en Ile vertoonden ook aanzienlijke positieve correlaties met frequentie in CDS en expressieniveaus (respectievelijk R = 0,169, 0,151 en 0,115, P < 10 −15), en matige of lage S/C-scores hebben (respectievelijk 33,7, 30,1 en 16,0, tabel S3). De twee aminozuren met de grootste positieve R-waarden met betrekking tot Fop, namelijk Glu en Asp, en die met de meest negatieve waarden, Arg en Thr, worden geïllustreerd in figuur 3A (Fop-waarden zijn onderverdeeld in vier verschillende categorieën: Fop < 0.3 , ≥3 Fop < 0,4, ≥0,4 Fop < 0,5 en Fop ≥0,5). Deze resultaten bevestigen verder de opvallende verschuivingen in aminozuurfrequentie onder hoge Fop/expressie. Samenvattend is het duidelijk dat specifieke aminozuren de voorkeur hebben bij hoge expressie in G. bimaculatus, en deze zijn meestal van gemiddelde of lage omvang en complexiteit.

De twee aminozuren met de grootste positieve (links) en negatieve (rechts) correlatie met Fop/expressieniveau in (A) G. bimaculatus (B) O. fasciatus en C) P. hawaiensis. Fop werd weggegooid in vier categorieën, zoals weergegeven. Spearman R-correlaties in tabel 2 werden berekend met gebruikmaking van alle (niet weggegooide) gegevenspunten.

In O. fasciatus, vertoonden 16 aminozuren een statistisch significante verandering in frequentie met Fop/expressieniveau (Tabel 2). De twee aminozuren met de sterkste negatieve (Arg, Gly) en sterkste positieve (Asn, Lys) R-waarden worden geïllustreerd in figuur 3B. De sterkste negatieve correlatie was voor Arg (R = −0,252, P < 10 −15), die ook een van de hoogste S/C-scores heeft (56,3), wat impliceert dat dit metabool dure aminozuur in CDS op hoge niveaus tot expressie wordt gebracht (Tabel 2, Figuur 3B). Gly en Ala vertoonden echter ook aanzienlijke inverse correlaties (tussen -0,188 en -0,183, P < 10 −15 ) en hebben lage S/C-scores (tussen 1 en 4,8), wat een verminderde frequentie van deze aminozuren impliceert, ondanks hun zeer lage metabole kosten. De aminozuren die de sterkste positieve correlaties met Fop/expressieniveaus vertoonden, waren Asn, Lys, Asp en Glu (R tussen 0,211 en 0,287, P < 10 −15 Tabel 2, Afbeelding 3B). Opmerkelijk is dat elk van deze aminozuren S/C-scores heeft binnen een smal bereik van 30,1 tot 36,5. Dus vergelijkbaar met G. bimaculatus, genen die op hoge niveaus tot expressie worden gebracht, lijken niet de voorkeur te geven aan aminozuren met de laagste S / C-scores, maar eerder aan een smal bereik van aminozuren van gemiddelde grootte, wat mogelijk een voordeel aangeeft bij het handhaven van een tussenliggende eiwitgrootte onder hoge expressie, in plaats van de kleinst mogelijke maat. Dit verklaart dus de negatieve associatie tussen PrMiddelbare school en Fop die eerder werden gerapporteerd (zie de vorige paragraaf in deze sectie), d.w.z., een gemiddelde afname in het gebruik van aminozuren met extreme S/C in sterk tot expressie gebrachte genen, terwijl deze afname niet noodzakelijkerwijs gunstig is voor de laagste S/C-aminozuren in deze ongewervelde dieren. Met name acht van de negen aminozuren met positieve R in G. bimaculatus had ook positieve R in O. fasciatus, wat impliceert dat er vergelijkbare voorkeuren zijn voor specifieke aminozuren bij deze uiteenlopende insecten van verschillende orden (respectievelijk Orthoptera en Hemiptera). Verder waren de vier aminozuren met de sterkste positieve R-waarden (Lys, Asn, Asp en Glu) identiek tussen deze twee geleedpotigen (Tabel 2), wat een gedeelde voorkeur impliceert voor aminozuren van gemiddelde grootte onder hoge expressie. In de kever T. castaneum (Coleoptera), is gemeld dat aminozuren met matige en met lage scores de voorkeur hadden bij hoge expressie (bijv., Glu, Asp, Lys, Val, Ala en Gly) (Williford en Demuth 2012), terwijl onze gegevens voor G. bimaculatus en O. fasciatus onthullen een sterke voorkeur voor aminozuren van gemiddelde grootte (met uitzondering van de laagste klassen), wat wijst op soortspecifieke effecten op aminozuurvoorkeuren.

Samen zijn deze resultaten van individuele aminozuren in G. bimaculatus en O. fasciatus geven aan dat de matige negatieve correlatie tussen PrMiddelbare school en Fop is te wijten aan een verschuiving in de richting van een verhoogd gebruik van aminozuren met een gemiddelde kostprijs, gekoppeld aan een afname van zowel zeer dure als goedkope aminozuren bij hoge expressie. Het is vermeldenswaard dat degeneratie soms lager was voor duurdere aminozuren (bijv., Phoe tegen Ser, Tabel S3), wat mogelijk zou kunnen bijdragen aan een inverse correlatie tussen PrMiddelbare school en Fop (aangezien de codonbias was verminderd voor aminozuren met een lage degeneratie, tabel 1). Onze resultaten in tabel 2 laten echter zien dat degeneratie-effecten op Fop niet ten grondslag liggen aan de PrMiddelbare school en Fop negatieve correlatie. Bijvoorbeeld voor G. bimaculatus, vertoonden de tweevoudig gedegenereerde aminozuren Phe (S/C-score 44,0) en Cys (57,2) positieve (in plaats van negatieve) correlaties met expressie, terwijl sterk gedegenereerde aminozuren zoals Ser (S/C-score van 17,8) een grote negatieve correlatie (in plaats van positief) met transcriptie/Fop-niveau (Tabel 2). We stellen daarom voor dat onze bevindingen met betrekking tot PrMiddelbare school kan niet het gevolg zijn van een kunstmatige relatie tussen Fop en aminozuurgebruik. Integendeel, onze gegevens suggereren dat het verminderde gebruik van dure aminozuren voornamelijk wordt veroorzaakt door een grotere frequentie van matig dure aminozuren onder hoge expressie.

Voor P. hawaiensis, de relatie tussen Fop en PrMiddelbare school was zwak positief (Spearman's R = 0,050, P < 10 −15 ), consistent met een milde neiging tot hogere eiwitgrootte bij hoge expressie, en impliceert een complexere dynamiek tussen expressie en eiwitgrootte in dit taxon. Dit wordt ondersteund door de relaties tussen Fop/expressieniveau en aminozuurfrequenties per gen. In het bijzonder was het Fop/expressieniveau omgekeerd gecorreleerd met de frequentie van verschillende aminozuren per CDS, waaronder Ser, Cys, Thr en Leu (R tussen -0,377 en -0,102, P < 10 −15 ). De sterkste positieve correlaties werden op hun beurt gevonden voor Asp, Tyr, Gly, Lys, Glu en Met (R tussen 0,103 en 0,195, P < 10 −15 ). Dus een hoog Fop-/expressieniveau in P. hawaiensis genen geven de voorkeur aan het gebruik van een aparte set aminozuren in vergelijking met G. bimaculatus en O. fasciatus. Zoals weergegeven in figuur 3C, vertoonden de aminozuren met de meest positieve (Asp) en negatieve (Ser) R-waarden, wanneer ze in vier verschillende klassen van Fop-waarden werden ingedeeld, een duidelijk verband met het Fop-/expressieniveau, maar die met de op één na grootste waarde (respectievelijk Tyr en Cys) vertoonden een veel zwakker effect. Verder vertoonden sommige aminozuren die vaker voorkwamen bij een hoog Fop/expressieniveau geen duidelijke trend in S/C-score. Tyr (met positieve R) heeft bijvoorbeeld een van de hoogste S/C-scores (57), terwijl Gly (ook met positieve R) de laagste S/C-score (1) heeft (tabel 2 en tabel S3). Dit kan erop wijzen dat een balans van grote en kleine aminozuren de voorkeur heeft bij verhoogde expressie in P. hawaiensis, dat codon- en aminozuurgebruik onderhevig zijn aan een veel zwakkere selectie buiten de hoogst tot expressie gebrachte genenset (zie: Genoombreed optimaal codongebruik), of dat andere factoren dan de eiwitgrootte een overheersende rol spelen bij het vormgeven van de aminozuurfrequentie in dit organisme.

Codongebruik en CDS-lengtes in D. melanogaster orthologen ondersteunen translationele selectie

We evalueerden de rol van CDS-lengte en GO-annotatiecategorie in onze bevindingen met behulp van het goed bestudeerde en geannoteerde modelsysteem D. melanogaster (Graveley) et al. 2011 St Pierre et al. 2014) als referentiesysteem. Eerst hebben we bepaald of genen die optimaal codongebruik vertonen in elk van onze drie geleedpotigen die worden bestudeerd, ook optimaal codongebruik vertonen in hun orthologen in D. melanogaster, een soort waarvan eerder is aangetoond dat deze GC3-optimale codons heeft (Duret en Mouchiroud 1999). GC3 biedt dus een effectieve maatstaf voor optimaal codongebruik in dit taxon. Merk op dat we de CDS-sets van niet hebben vergeleken G. bimaculatus, O. fasciatus en P. hawaiensis aangezien, gezien de de novo geassembleerde transcriptomen die we gebruikten, kunnen schijnbare verliezen van orthologen tussen elk paar het gevolg zijn van expressie onder detectiedrempels, assemblagemethoden of echt genverlies, waardoor genensets worden geminimaliseerd. Deze ambiguïteit zou niet voorkomen in D. melanogaster, die een volledige geannoteerde genenlijst heeft. Daarom hebben we elke genset onafhankelijk gecontrasteerd met hun orthologen in D. melanogaster. Het doel van deze analyse was om te bepalen of orthologen van sterk tot expressie gebrachte genen in elk van de drie onderzochte soorten, ook een verhoogd optimaal codongebruik vertoonden in een afwijkend taxon. Het aantal D. melanogaster orthologen die overeenkomen met de CDS-lijst van G. bimaculatus, O. fasciatus en P. hawaiensis was respectievelijk 3960 (74,9% van de onderzochte CDS), 4190 (68,0%) en 2822 (41,9%). De ... gebruiken D. melanogaster orthologen van die CDS uit de lage (laagste 5% RPM), matige (>5% RPM < 95%) en hoge (hoogste 5% RPM) categorieën in elk van onze drie studiesoorten, hebben we de ENC gemeten. Vervolgens evalueerden we de ENC's en GC3-waarden (optimaal codon) voor de drie categorieën op expressieniveau. Zoals weergegeven in figuur 4A, is de D. melanogaster orthologen van de G. bimaculatus genen in de hoogste expressiecategorie vertoonden duidelijk lagere ENC en hogere GC3 dan die uit de lage of matige categorieën (P-waarde gerangschikte variantieanalyse [ANOVA] waren respectievelijk 2,2 × 10 −15 en 2,2 × 10 −15, Dunn’s post hoc testen P < 0,05). Dit bevestigt de optimalisatie van het codongebruik in de sterk tot expressie gebrachte genenset over deze uiteenlopende organismen, een voorkeur voor AT3-codons in G. bimaculatus en GC3 in D. melanogaster (let op: hogere uitdrukking in D. melanogaster is duidelijk gebaseerd op verhoogd facultatief codongebruik (hier gedefinieerd als GC3), (Coghlan en Wolfe 2000 Drummond et al. 2005 pausen et al. 2006 Muur et al. 2005 Williford en Demuth 2012). Voor O. fasciatus, werden identieke trends gedetecteerd (Figuur 4B), waarin: D. melanogaster orthologen van de dataset met hoge expressie hadden een lagere ENC en hogere GC3 dan die van de lage en matige klassen (P-gerangschikte ANOVA = respectievelijk 4,2 × 10 −11 en 6,9 × 10 −7, Dunn's post hoc testen P < 0,05). Eindelijk, voor P. hawaiensis, lagere ENC en hogere GC3 werden ook waargenomen voor orthologen die overeenkomen met de genen van de hoge expressiecategorie, dan voor de lage en matige expressiecategorieën (P = 5,8 × 10 −7 en 3,3 × 10 −4 , respectievelijk Dunn's post hoc testen P < 0,05) (Figuur 4C), wat wijst op een GC3-bias in elk van deze geleedpotigen. Gezamenlijk laten deze resultaten zien dat verbeterd optimaal codongebruik in de CDS-dataset met hoge expressie van G. bimaculatus, O. fasciatus en van P. hawaiensis wordt gedeeld met hun orthologen van het afwijkende familielid D. melanogaster.

Bar- en whiskerplots van het effectieve aantal codons (ENC's) en GC3-gehalte van D. melanogaster orthologen voor coderende sequentie met lage, matige en hoge expressie in (A) G. bimaculatus (B) O. fasciatus en C) P. hawaiensis. P-waarden van gerangschikte variantieanalyse <0.0003 voor elk cijfer. Verschillende letters in elke figuur geven gepaarde verschillen aan met behulp van Dunn's contrast (P < 0,05).

Vervolgens evalueerden we de relatie tussen CDS-lengte en genexpressieniveau voor elke geleedpotige die wordt bestudeerd, met behulp van lengtes verkregen uit D. melanogaster orthologen. Dit is een effectieve benadering, aangezien eiwitlengtes in eukaryoten vaak sterk geconserveerd zijn (Wang et al. 2005), en werd gebruikt omdat transcriptoomassemblage niet altijd volledige CDS-lengtes oplevert. Ons doel was om te bepalen of hoge expressie is gekoppeld aan kortere/langere eiwitlengtes. Zoals weergegeven in figuur S2, is de lengte (aantal codons) van de D. melanogaster orthologen die overeenkomen met CDS van G. bimaculatus, O. fasciatus en in P. hawaiensis waren het kortst voor de categorie met hoge expressie, gemiddeld voor matige klasse en het langst voor de categorie met de laagste expressie voor elk van de onderzochte soorten (gerangschikt ANOVA P < 2,9 × 10 −9 voor alle drie de soorten). Dit patroon geeft aan dat translationele selectie de voorkeur geeft aan korte eiwitten als een functie van expressie (Figuur 4). Alles bij elkaar genomen geven onze collectieve bevindingen aan dat sterk tot expressie gebrachte genen coderen voor korte eiwitten (Figuur 4), hoge Fop vertonen (Tabel 1 en Figuur 2) en bij voorkeur specifieke aminozuren gebruiken (Tabel 2), die elk een kostenefficiënte vertaling bevorderen.

Aangezien sterk tot expressie gebrachte genen meestal korter zijn dan en lager tot expressie gebrachte genen (Figuur S2), hebben we de rol van genetische koppeling in onze studie overwogen. Selectieve sweeps of achtergrondselectie kunnen leiden tot fixatie van gekoppelde niet-optimale codons, die grotere effecten kunnen hebben in langere genen, en Fop (Comeron) kunnen verminderen. et al. 1999 Loewe en Charlesworth 2007 Whittle et al. 2011b). We vergeleken dus Fop van lange genen (>500 codons) van de hoge expressie (hoogste 5% expressie) tegen die uit de categorie met lage expressie (laagste 5%) voor elke onderzochte soort. We ontdekten dat, in overeenstemming met de resultaten van onze analyse voor alle sterk tot expressie gebrachte genen, ongeacht de lengte (Tabel 1 en Figuur 2), Fop statistisch significant verhoogd was in de hoge- vergeleken met de lage-expressiecategorie voor lange genen in G. bimaculatus (GemeenHoog = 0,483 ± 0,003, gemiddeldeLaag= 0,441 ± 0,007 MWU P < 10 −15 ), O. fasciatus (GemeenHoog = 0,497 ± 0,005, gemiddeldeLaag= 0,426 ± 0,008 MWU P < 10 −15 ), en in P. hawaiensis (GemeenHoog = 0,409 ± 0,013, gemiddeldeLaag= 0,348 ± 0,009 MWU P = 0,0002). Dit pleit tegen een alomtegenwoordige rol van genetische koppeling, die, als het de belangrijkste factor was die de evolutie van codongebruik vormgeeft, naar verwachting vergelijkbare Fop zou opleveren in lange genen van zowel de hoge als de lage expressiecategorieën. Lange genen lijken dus het meest beïnvloed door hun expressieniveau en staan ​​onder grotere selectieve druk op het codongebruik wanneer ze in hoge mate worden getranscribeerd. Dienovereenkomstig stellen we voor dat genetische koppeling, als het een effect heeft op Fop in deze organismen, grotendeels beperkt is tot de lagere expressieklassen, waar CDS gemiddeld aanzienlijk langer zijn (Figuur S2) en zuiverende selectieve druk de neiging heeft om zwakker te zijn vanwege hun lage transcriptie (Subramanian en Kumar 2004).

Functionele ontologieannotatie laat zien dat sterk getranscribeerde CDS betrokken zijn bij celcycli en translatie

We wilden bepalen of sterk tot expressie gebrachte genen met verhoogd optimaal codongebruik bij voorkeur geassocieerd waren met bepaalde functies, biologische processen of cellulaire componenten. Hiervoor gebruikten we D. melanogaster orthologen om GO-annotatie te beoordelen (Ashburner et al. 2000) van de CDS in alle drie de geleedpotigen die worden bestudeerd. We hebben genen van de hoogste expressiecategorie (boven het 95e percentiel) in elke soort geclusterd in functionele groepen met behulp van de procedures in DAVID (Huang da et al. 2009a,b). De resultaten in Tabel 3 laten zien dat hoge expressie geassocieerd was met verrijking van genen die betrokken zijn bij celcyclusprocessen (bijv., spindelorganisatie, microtubuli-organisatie, proteosomen), translatie (ribosoomsynthese, RPG's) en DNA / RNA-binding in alle drie de geleedpotigen die worden bestudeerd, consistent met rollen in snelle celdelingen in het embryo en/of reproductieve weefsels. De optimalisatie van het codon- en aminozuurgebruik dat in deze organismen wordt waargenomen, zou dus een rol kunnen spelen bij het minimaliseren van de eiwitbiosynthetische kosten van celdeling en eiwitvernieuwing in het embryo en seksuele weefsels (Tabel S1). Opmerkelijk is dat de translationele efficiëntie optimalisatie van codons en aminozuren omvat, niet alleen in genen die betrokken zijn bij celdeling, maar ook in genen die de eiwitsynthese zelf (RPG's) regelen. Deze laatste bevinding komt overeen met uitgebreide literatuur die aantoont dat genen voor eiwitsynthese doorgaans tot de hoogste tot expressie worden gebracht in een organisme (zie bijvoorbeeld Sharp en Li 1987 Wang et al. 2011).

Voor de CDS die waren samengevoegd uit de categorieën met matige en lage expressie, vonden we verrijking van bepaalde DNA/RNA- en eiwitsynthesegenen, voornamelijk van de hogere expressieniveaus in de matige klasse. De CDS met matige en lage expressieniveaus omvatte echter een breed scala aan functionaliteiten in plaats van een significante verrijking te tonen voor een specifieke GO-categorie in vergelijking met de hoge expressiecategorie (tabel S4). Een dergelijke verdeling van GO-categorieën wordt verwacht voor zeer complexe eukaryote embryo- / seksuele weefsels, die doorgaans bestaan ​​uit een reeks verschillende celtypen en transcripten (Combs en Eisen 2013 Diez-Roux et al. 2011 Donoughe en Extavour 2015 Ewen-Campen et al. 2011 Gilboa 2015 Jankovics et al. 2014).Hoewel de matig/laag tot expressie gebrachte genen duidelijk biologisch relevant zijn, geven onze gegevens aan dat ze minder geneigd zijn om codon- of aminozuuroptimalisatie te beïnvloeden (Figuur 2, Figuur 3 en Tabel 2) en langere CDS-lengtes hebben (Figuur S2), waarschijnlijk als gevolg van hun verminderde transcriptionele en translationele niveaus, en dus biosynthetische kosten. Samen onthult de consistentie in functionaliteiten van de sterk tot expressie gebrachte dataset in alle drie de hierin bestudeerde geleedpotigen dat optimalisatie van codon- en aminozuurgebruik een gedeeld kenmerk is van sterk tot expressie gebrachte genen, met name die welke betrokken zijn bij celdeling en translatie, in deze uiteenlopende geleedpotigen.


VERTALING : DNA-EIWIT

SITES: Er zijn een aantal uitstekende sites die vertaling in alle zes leeskaders mogelijk maken. Ik zou "ORF Finder" aanbevelen vanwege de visuele elementen en Pipeline of GeneMark als je serieus geïnteresseerd bent in het identificeren van genen binnen je sequentie. De laatste twee programma's maken de analyse van lange reeksen mogelijk (indienen via bijlage, niet in de doos).

Frameshift-fouten:

AMIgene
path :: eiwit terugvertaling en uitlijning - pakt het probleem aan van het vinden van verre eiwithomologieën waarbij de divergentie het resultaat is van frameshift-mutaties en -substituties. Gegeven twee input-eiwitsequenties, lijnt de methode impliciet alle mogelijke paren van DNA-sequenties uit die ervoor coderen, door geheugenefficiënte grafische weergaven van de volledige set vermeende DNA-sequenties voor elk eiwit te manipuleren. (Referentie: Gîrdea M et al. 2010. Algoritmen voor moleculaire biologie 5:)

Eenvoudige vertaalhulpmiddelen - DNA naar eiwitsequenties:

Open leeskaderzoeker (NCBI) - zoekt naar open leesramen (ORF's) in de DNA-sequentie die u invoert. Het programma retourneert het bereik van elke ORF, samen met de eiwitvertaling. Gebruik de ORF-zoeker om nieuw gesequenced DNA te zoeken naar potentiële eiwitcoderingssegmenten, verifieer voorspeld eiwit met behulp van nieuw ontwikkelde SMART BLAST of reguliere BLASTP.

Zes-frame vertalingen kunnen worden gedaan in Tübingen, Rusland, Bioline en Science Launcher.

EMBOSS Sixpack (EMBL-EBI) - leest een DNA-sequentie en voert de drie voorwaartse en (optioneel) drie omgekeerde vertalingen op een visuele manier uit. Of gebruik EMBOSS Transeq

MBS-vertaler (JustBio-tools) - Een uitstekende nieuwe site omdat men specifiek kan vertalen vanuit ATG en de resultaten worden gepresenteerd met de nucleotidesequentie die de aminozuursequentie bedekt. Ideaal om in een manuscript te knippen/plakken. U moet zich registreren om deze gratis tool te gebruiken. Andere snelle vertaalhulpmiddelen zijn hier en hier te vinden.

Vertalen (ExPASy, Zwitserland) - is een tool die de translatie van een nucleotide (DNA/RNA) sequentie naar een eiwitsequentie mogelijk maakt.

Translatie van DNA naar eiwit (Universiteit van Baskenland, Spanje) en hier.

Vertaling van meerdere reeksen:

Virtueel ribosoom (Referentie: R. Wernersson. 2006. Nucl. Acids Res. 34 (webserverprobleem): W385-388) - Ik vind dat de uitvoer van de eerste twee sites optimaal is voor het vertalen van meerdere DNA-sequenties.

RevTrans 1.4-server (CBS, Deense Technische Universiteit)

TranslatorX - is een webserver die is ontworpen om eiwitcoderende nucleotidesequenties uit te lijnen op basis van hun overeenkomstige aminozuurvertalingen. Nieuwigheden van TranslatorX zijn onder meer: ​​(i) gebruik van alle gedocumenteerde genetische codes en de mogelijkheid om verschillende genetische codes toe te kennen aan elke sequentie (ii) een reeks verschillende programma's voor meervoudige afstemming (iii) vertaling van ambigue codons indien mogelijk (iv) een innovatief criterium om schone nucleotide-uitlijningen met GBlocks op basis van eiwitinformatie en (v) een rijke output, inclusief door Jalview aangedreven grafische visualisatie van de uitlijningen, op codons gebaseerde uitlijningen gekleurd volgens de overeenkomstige aminozuren, maten van samenstellingsbias en eerste, tweede en derde codon positiespecifieke uitlijningen. (Referentie: Abascal F, et al. (2010) Nucleic Acids Res. 38: W7-13).


Achtergrond

Zaadopbrengst en eiwitgehalte zijn grotendeels afhankelijk van overvloedige accumulatie van stikstof (N), een macronutriënt dat onmisbaar is voor optimale plantengroei en orgaanontwikkeling [1]. Planten nemen voornamelijk anorganische N-voedingsstoffen op in de vorm van nitraat (NO3 − ) en ammonium (NH4 + ), waarvan sommige direct in de wortels worden geassimileerd in aminozuren (AA's) of naar de scheuten zijn getransloceerd. Bovendien kunnen planten AA's en andere organische N-verbindingen ook rechtstreeks naar wortels in de bodem transporteren [2]. De ontwikkeling en het metabolisme van vegetatieve en reproductieve organen vereisen grote aantallen AA's in het floëem. AA's afgeleid van verouderde bladeren zijn de belangrijkste N-vormen voor zaad-N-voedingsstoffen [3]. Daarom is een efficiënte opname en translocatie van AA's gunstig voor de opbrengstproductie en ook gunstig voor de plantresistentie tegen verschillende stress [4,5,6,7].

Meer dan 100 vermeende AA-transporters (AAT's), waaronder de superfamilie van aminozuur-polyamine-choline (APC) transporters en de familie van meestal meerdere zuren die in en uit transporters (UmamiT) bewegen, zijn gekarakteriseerd in het model Arabidopsis. De APC-familie kan verder worden onderverdeeld in drie categorieën: aminozuurpermeases (AAP's), lysine/histidine-achtige transporters (LHT's) en proline, en glycine-betaïnetransporters (ProT's) [8,9,10]. Van deze AAT's worden AAP's beschouwd als een systeem met matige affiniteit met een brede substraatspecificiteit. In planten zijn AAP's ook betrokken bij verschillende fysiologische processen, waaronder AA-opname [11], floëembelading of xyleem-floëemoverdracht [12], zaadbelading [13] en graanopbrengst [14]. Op het plasmamembraan gelokaliseerde AAP's zijn betrokken bij cellulaire H+-gekoppelde inname van een breed scala aan AA's. Een recente studie heeft gemeld dat de genetische manipulatie van AAP's verbetert het AA-transport van bronnen naar putten, wat de efficiëntie van het gebruik van plant N verder verbetert (NUE) [15]. Elk lid van de AAP familie vertoont een specifiek temporeel en ruimtelijk expressiepatroon, dat de niet-redundante rollen van AAP's in planten [11].

In Arabidopsis bevat de AAP-familie acht eiwitleden (AtAAP1-8) die over het algemeen neutrale en zure AA's met matige affiniteit transporteren, behalve dat AtAAP3 en AtAAP5 ook basische AA's transporteren [16]. AtAAP1/AtNAT2 (neutrale aminozuurtransporteur 2) vergemakkelijkt de invoer van AA in het embryo [17, 18]. AtAAP8 draagt ​​bij aan de efficiënte opname van AA's in het zaad-endosperm [19]. bijAAP3 en bijAAP5 kan betrokken zijn bij de absorptie van wortel-AA [11, 20]. Van AtAAP2 en AtAAP6 is gemeld dat ze werken bij de xyleem-floëemoverdracht van AA's [21, 22].

de allotetraploïde Brassica napus (EENNEENNCNCN, 2N = 4x = 38) is de op één na belangrijkste oliehoudende gewassen ter wereld en is afkomstig van spontane hybridisatie van de diploïde Brassica rapa (EENREENR, 2N = 2x = 20) en Brassica oleracea (COCO, 2N = 2x = 18) [23,24,25]. B. napus heeft een relatief grotere vraag naar minerale voedingsstoffen, met name N, dan graangewassen om een ​​optimale zaadopbrengst te bereiken [26]. Inderdaad, ondanks zijn sterke capaciteit van N-invoer, B. napus heeft een lagere NUE dan andere belangrijke landbouwgewassen [27], wat kan worden toegeschreven aan het feit dat verouderde bladeren gemakkelijk losraken van koolzaadplanten voordat N-voedingsstoffen, met name organische amide-N, volledig opnieuw zijn gemobiliseerd om organen te laten zinken [28, 29]. Daarom is het verbeteren van de N-remobilisatie-efficiëntie in koolzaad belangrijk voor NUE-verbetering door moleculaire modulatie van AA-transporters, met name AAP's.

Er zijn echter weinig systematische analyses van AAP's in B. napus tot nu toe beschikbaar waren. In deze studie waren we gericht op (i) het identificeren van de genoom-brede AAP genen in B. napus, (ii) karakteriseren van de genomische kenmerken en transcriptionele reacties van de AAP genleden op N-stress, inclusief nitraatbeperking en ammoniumtoxiciteit, en (iii) de transcriptionele reacties van . onderzoeken AAP's aan andere nutriëntenstress, waaronder fosfaatbeperking, boortekort, cadmiumtoxiciteit en zoutstress. De genoombrede identificatie en moleculaire karakterisering van de AAP leden gaven hun evolutionaire instandhouding en functionele divergentie aan tussen allotetraploïde koolzaad en het model Arabidopsis. De mondiale landschappen van de AAP's zou uitgebreide inzichten kunnen bieden in de AA-import en -translocatie in allotetraploïde koolzaad onder verschillende nutriëntenstress.


Auteurs informatie

Voorkeuren

Afdeling Biochemie en Biotechnologie, Rovira i Virgili University (URV), Campus Sescelades, c/Marcelli Domingo s/n, 43007, Tarragona, Spanje

Pere Puigbò & Santiago Garcia-Vallve

National Center for Biotechnology Information, National Library of Medicine, National Institutes of Health, Bethesda, Maryland, 20894, VS

Experimentele Moleculaire Evolutie, Instituut voor Evolutie en Biodiversiteit, Universiteit van Münster, Duitsland

U kunt deze auteur ook zoeken in PubMed Google Scholar

U kunt deze auteur ook zoeken in PubMed Google Scholar

U kunt deze auteur ook zoeken in PubMed Google Scholar

Corresponderende auteur


Bekijk de video: Hulpmiddel voor onderlijnen (December 2021).