Informatie

3: Rapid Sequence Alignment en Database Search - Biologie


3: Snelle sequentie-uitlijning en database zoeken

Align: een C++ Class Library en Web Server voor Rapid Sequence Alignment Prototyping

Auteur(s): Silvio C.E. Tosatto, Alessandro Albiero, Alessandra Mantovan, Carlo Ferrari, Eckart Bindewald, Stefano Toppo Dept. of Biology and CRIBI Biotechnology Centre, University of Padova, V.le G. Colombo 3, 35121 Padova, Italië., Italië

Verbondenheid:

Naam dagboek: Huidige technologieën voor het ontdekken van geneesmiddelen

Deel 3, nummer 3, 2006




Abstract:

Sequentie-uitlijning blijft een fundamenteel hulpmiddel bij de meeste taken die verband houden met de voorspelling van eiwitsequentie en -structuur. Er is een C++-klassenbibliotheek ontwikkeld om de snelle implementatie van een verscheidenheid aan state-of-the-art paarsgewijze sequentie-uitlijningstechnieken te vergemakkelijken. Deze variëren van eenvoudige sequentie tot sequentie tot het geavanceerde profiel tot profieluitlijningen met optionele secundaire structuurinformatie. Suboptimale afstemmingen, vaak gebruikt om regio's van vertrouwen te schatten, kunnen ook worden gegenereerd. Het objectgeoriënteerde ontwerp maakt een snelle implementatie, testen en uitbreiding van bestaande functionaliteit mogelijk. Er wordt ook voorzien in een eenvoudige webinterface, die ook nuttig kan zijn in het bioinformatica-onderwijs. Broncode, online documentatie en een prototypische webinterface zijn vrij toegankelijk voor academische gebruikers via de URL: http://protein.cribi.unipd.it/align/. Een voorbeeldcasestudy in de modellering van humaan cytochroom P450 wordt besproken.

Huidige technologieën voor het ontdekken van geneesmiddelen

Titel: Align: een C++ Class Library en Web Server voor Rapid Sequence Alignment Prototyping


3: Rapid Sequence Alignment en Database Search - Biologie

Gelukkig zijn de statistieken voor de scores van lokale afstemmingen, in tegenstelling tot die van globale afstemmingen, goed begrepen. Dit geldt met name voor lokale afstemmingen zonder hiaten, die we eerst zullen bekijken. Dergelijke uitlijningen waren precies die waarnaar werd gezocht door de oorspronkelijke BLAST-databasezoekprogramma's [6].
Een lokale uitlijning zonder tussenruimten bestaat eenvoudigweg uit een paar segmenten van gelijke lengte, waarbij één van elk van de twee sequenties wordt vergeleken. Een wijziging van de Smith-Waterman [7] of Sellers [8] algoritmen zal alle segmentparen vinden waarvan de scores niet kunnen worden verbeterd door uitbreiding of bijsnijden. Dit worden hoog scorende segmentparen of HSP's genoemd.
Om te analyseren hoe hoog een score waarschijnlijk bij toeval ontstaat, is een model van willekeurige reeksen nodig. Voor eiwitten kiest het eenvoudigste model de aminozuurresiduen in een sequentie onafhankelijk, met specifieke achtergrondwaarschijnlijkheden voor de verschillende residuen. Bovendien moet de verwachte score voor het uitlijnen van een willekeurig aminozuurpaar negatief zijn. Als dit niet het geval was, zouden lange uitlijningen doorgaans een hoge score hebben, ongeacht of de uitgelijnde segmenten gerelateerd waren, en zou de statistische theorie instorten.
Net zoals de som van een groot aantal onafhankelijke identiek verdeelde (i.i.d) toevalsvariabelen neigt naar een normale verdeling, kan het maximum van een groot aantal i.i.d. willekeurige variabelen neigt naar een extreme waardeverdeling [9]. (We zullen de vele technische punten weglaten die nodig zijn om deze verklaring rigoureus te maken.) Bij het bestuderen van optimale lokale sequentie-uitlijningen hebben we in wezen te maken met het laatste geval [10,11]. Binnen de limiet van voldoende grote sequentielengtes m en n, worden de statistieken van HSP-scores gekenmerkt door twee parameters, K en lambda. Heel eenvoudig: het verwachte aantal HSP's met een score van minimaal S wordt gegeven door de formule


Dit noemen we de E-waarde voor de score S.
Deze formule is bij uitstek intuïtief. Het verdubbelen van de lengte van een van beide reeksen zou het aantal HSP's dat een bepaalde score haalt, moeten verdubbelen. Ook moet een HSP om de score 2x te behalen de score x twee keer achter elkaar behalen, dus men verwacht dat E exponentieel zal afnemen met de score. De parameters K en lambda kunnen eenvoudig worden beschouwd als natuurlijke schalen voor respectievelijk de grootte van de zoekruimte en het scoresysteem.

Bitscores

Ruwe scores hebben weinig betekenis zonder gedetailleerde kennis van het gebruikte scoresysteem, of eenvoudiger de statistische parameters K en lambda. Tenzij het scoresysteem wordt begrepen, is het noemen van alleen een ruwe score hetzelfde als het noemen van een afstand zonder voet, meter of lichtjaren te specificeren. Door een ruwe score te normaliseren met behulp van de formule


men behaalt een "bitscore" S', die een standaardreeks eenheden heeft. De E-waarde die overeenkomt met een bepaalde bitscore is eenvoudig


Bitscores omvatten de statistische essentie van het gebruikte scoresysteem, zodat men voor het berekenen van de significantie bovendien alleen de grootte van de zoekruimte hoeft te weten.

P-waarden

Het aantal willekeurige HSP's met score >= S wordt beschreven door een Poisson-verdeling [10,11]. Dit betekent dat de kans op het vinden van precies een HSP met score >= S wordt gegeven door


waarbij E de E-waarde van S is, gegeven door vergelijking (1) hierboven. Specifiek de kans om nul HSP's te vinden met score >= S is e -E , dus de kans om minstens één zo'n HSP te vinden is


Dit is de P-waarde die hoort bij de score S. Als men bijvoorbeeld verwacht drie HSP's te vinden met een score >= S , is de kans om er minstens één te vinden 0,95. De BLAST-programma's rapporteren E-waarde in plaats van P-waarden omdat het gemakkelijker is om het verschil te begrijpen tussen bijvoorbeeld E-waarde van 5 en 10 dan P-waarden van 0,993 en 0,99995. Echter, wanneer EP-waarden en E-waarde bijna identiek zijn.

Zoeken in databases

De statistieken van gapped alignments

Randeffecten

De keuze van wisselscores

De resultaten die een lokaal afstemmingsprogramma oplevert, zijn sterk afhankelijk van de scores die het gebruikt. Geen enkel scoreschema is het beste voor alle doeleinden, en een goed begrip van de basistheorie van lokale uitlijningsscores kan de gevoeligheid van iemands sequentieanalyses verbeteren. Zoals eerder is de theorie alleen volledig ontwikkeld voor scores die worden gebruikt om niet-afgekapte lokale uitlijningen te vinden, dus we beginnen met dat geval.
Een groot aantal verschillende aminozuursubstitutiescores, gebaseerd op verschillende grondgedachten, zijn beschreven [23-36]. De scores van elke substitutiematrix met een negatieve verwachte score kunnen echter uniek worden geschreven in de vorm


waarbij de q ij , doelfrequenties genoemd, positieve getallen zijn die optellen tot 1, de p i zijn achtergrondfrequenties voor de verschillende residuen, en lambda is een positieve constante [10,31]. De lambda is hier identiek aan de lambda van vergelijking (1).
Het vermenigvuldigen van alle scores in een substitutiematrix met een positieve constante verandert niets aan hun essentie: een uitlijning die optimaal was met de originele scores blijft optimaal. Een dergelijke vermenigvuldiging verandert de parameter lambda, maar niet de doelfrequenties qij. Dus tot een constante schaalfactor wordt elke substitutiematrix op unieke wijze bepaald door zijn doelfrequenties. Deze frequenties hebben een speciale betekenis [10,31]:

Een gegeven klasse van uitlijningen wordt het best onderscheiden van toeval door de substitutiematrix waarvan de doelfrequenties de klasse karakteriseren.

Om uit te werken, kan men een reeks uitlijningen karakteriseren die homologe eiwitgebieden vertegenwoordigen door de frequentie waarmee elk mogelijk paar resten is uitgelijnd. Als valine in de eerste sequentie en leucine in de tweede in 1% van alle uitlijningsposities voorkomen, is de doelfrequentie voor (valine, leucine) 0,01. De meest directe manier om geschikte substitutiematrices voor lokale sequentievergelijking te construeren, is door doel- en achtergrondfrequenties te schatten en de bijbehorende log-odds-scores van formule (6) te berekenen. Deze frequenties kunnen in het algemeen niet worden afgeleid uit eerste principes, en hun schatting vereist empirische input.

De aminozuursubstitutiematrices PAM en BLOSUM

DNA-substitutiematrices

Gapscores

Sequentieregio's met een lage complexiteit

Referenties

[1] Fitch, WM (1983) "Willekeurige sequenties." J. Mol. Biol. 163:171-176. (PubMed)

[2] Lipman, D.J., Wilbur, W.J., Smith T.F. & Waterman, MS (1984) "Over de statistische significantie van nucleïnezuurovereenkomsten." nucl. Zuren Res. 12:215-226. (PubMed)

[3] Altschul, S.F. & Erickson, B.W. (1985) "Betekenis van uitlijning van nucleotidesequenties: een methode voor permutatie van willekeurige sequenties die het gebruik van dinucleotide en codon behoudt." Mol. Biol. Evol. 2:526-538. (PubMed)

[4] Deken, J. (1983) "Probabilistisch gedrag van de langste-common-subreekslengte." In "Time Warps, String Edits en macromoleculen: de theorie en praktijk van sequentievergelijking." D. Sankoff & JB Kruskal (eds.), blz. 55-91, Addison-Wesley, Reading, MA.

[5] Reich, J.G., Drabsch, H. & Daumler, A. (1984) "Over de statistische beoordeling van overeenkomsten in DNA-sequenties." nucl. Zuren Res. 12:5529-5543. (PubMed)

[6] Altschul, S.F., Gish, W., Miller, W., Myers, E.W. & Lipman, D.J. (1990) "Basishulpprogramma voor lokale uitlijning." J. Mol. Biol. 215:403-410. (PubMed)

[7] Smith, T.F. & Waterman, MS (1981) "Identificatie van gemeenschappelijke moleculaire subsequenties." J. Mol. Biol. 147:195-197. (PubMed)

[8] Verkopers, P.H. (1984) "Patroonherkenning in genetische sequenties door mismatch-dichtheid." Stier. Wiskunde. Biol. 46:501-514.

[9] Gumbel, E.J. (1958) "Statistieken van uitersten." Columbia University Press, New York, NY.

[10] Karlin, S. & Altschul, S.F. (1990) "Methoden voor het beoordelen van de statistische significantie van moleculaire sequentiekenmerken door gebruik te maken van algemene scoreschema's." Proc. nat. Acad. Wetenschap. VS 87:2264-2268. (PubMed)

[11] Dembo, A., Karlin, S. & Zeitouni, O. (1994) "Beperk de distributie van maximale niet-uitgelijnde segmentscore met twee sequenties." Ann. waarschijnlijk 22:2022-2039.

[12] Pearson, W.R. & Lipman, D.J. (1988) Verbeterde hulpmiddelen voor biologische sequentievergelijking." Proc. Natl. Acad. Sci. USA 85:2444-2448. (PubMed)

[13] Pearson, W.R. (1995) "Vergelijking van methoden voor het doorzoeken van databases met eiwitsequenties." prot. Wetenschap. 4:1145-1160. (PubMed)

[14] Altschul, S.F. & Gish, W. (1996) "Lokale uitlijningsstatistieken." meth. Enzymol. 266:460-480. (PubMed)

[15] Altschul, S.F., Madden, T.L., Schäffer, A.A., Zhang, J., Zhang, Z., Miller, W. & Lipman, D.J. (1997) "Gapped BLAST en PSI-BLAST: een nieuwe generatie zoekprogramma's voor eiwitdatabases." Nucleïnezuren Res. 25:3389-3402. (PubMed)

[16] Smith, T.F., Waterman, M.S. & Burks, C. (1985) "De statistische verdeling van nucleïnezuurovereenkomsten." Nucleïnezuren Res. 13:645-656. (PubMed)

[17] Collins, J.F., Coulson, A.F.W. & Lyall, A. (1988) "De betekenis van overeenkomsten in eiwitsequenties." Berekenen. toepassing Biosc. 4:67-71. (PubMed)

[18] Mott, R. (1992) "Maximale waarschijnlijkheidsschatting van de statistische verdeling van Smith-Waterman lokale sequentieovereenkomstscores." Stier. Wiskunde. Biol. 54:59-75.

[19] Waterman, MS. & Vingron, M. (1994) "Snelle en nauwkeurige schattingen van statistische significantie voor zoekopdrachten in sequentiedatabases." Proc. nat. Acad. Wetenschap. VS 91:4625-4628. (PubMed)

[20] Waterman, MS. & Vingron, M. (1994) "Sequence vergelijking significantie en Poisson benadering." stat. Wetenschap. 9:367-381.

[21] Pearson, W.R. (1998) "Empirische statistische schattingen voor zoekopdrachten naar sequentieovereenkomst." J. Mol. Biol. 276:71-84. (PubMed)

[22] Arratia, R. & Waterman, MS. (1994) "Een faseovergang voor de score bij het matchen van willekeurige reeksen waardoor verwijderingen mogelijk zijn." Ann. toepassing waarschijnlijk 4:200-225.

[23] McLachlan, A.D. (1971) "Tests voor het vergelijken van verwante aminozuursequenties. Cytochroom c en cytochroom c-551." J. Mol. Biol. 61:409-424. (PubMed)

[24] Dayhoff, M.O., Schwartz, R.M. & Orcutt, BC (1978) "Een model van evolutionaire verandering in eiwitten." In "Atlas of Protein Sequence and Structure," Vol. 5, suppl. 3 (red. M.O. Dayhoff), blz. 345-352. nat. biomed. Onderzoek Gevonden, Washington, DC.

[25] Schwartz, R.M. & Dayhoff, MO (1978) "Matrices voor het detecteren van verre relaties." In "Atlas of Protein Sequence and Structure," Vol. 5, suppl. 3 (ed. M.O. Dayhoff), p. 353-358. nat. biomed. Onderzoek Gevonden, Washington, DC.

[26] Feng, D.F., Johnson, M.S. & Doolittle, R.F. (1984) "Aligning aminozuursequenties: vergelijking van veelgebruikte methoden." J. Mol. Evol. 21:112-125. (PubMed)

[27] Wilbur, WJ (1985) "Op het PAM-matrixmodel van eiwitevolutie." Mol. Biol. Evol. 2:434-447. (PubMed)

[28] Taylor, W.R. (1986) "De classificatie van aminozuurconservering." J. Theor. Biol. 119:205-218. (PubMed)

[29] Rao, J.K.M. (1987) "Nieuwe scorematrix voor uitwisselingen van aminozuurresiduen op basis van kenmerkende fysieke parameters voor residuen." Int. J. Peptide Protein Res. 29:276-281.

[30] Risler, JL, Delorme, MO, Delacroix, H. & Henaut, A. (1988) "Aminozuursubstituties in structureel verwante eiwitten. Een patroonherkenningsbenadering. Bepaling van een nieuwe en efficiënte scoringsmatrix." J. Mol. Biol. 204:1019-1029. (PubMed)

[31] Altschul, S.F. (1991) "Aminozuursubstitutiematrices vanuit een informatietheoretisch perspectief." J. Mol. Biol. 219:555-565. (PubMed)

[32] Staten, D.J., Gish, W. & Altschul, S.F. (1991) "Verbeterde gevoeligheid van zoekopdrachten in nucleïnezuurdatabases met toepassingsspecifieke scorematrices." Methoden 3:66-70.

[33] Gonnet, G.H., Cohen, M.A. & Benner, S.A. (1992) "Uitgebreide matching van de gehele eiwitsequentiedatabase." Wetenschap 256:1443-1445. (PubMed)

[34] Henikoff, S. & Henikoff, J.G. (1992) "Aminozuursubstitutiematrices van eiwitblokken." Proc. nat. Acad. Wetenschap. VS 89:10915-10919. (PubMed)

[35] Jones, D.T., Taylor, WR & Thornton, JM (1992) "De snelle generatie van mutatiegegevensmatrices uit eiwitsequenties." Berekenen. toepassing Biosc. 8:275-282. (PubMed)

[36] Overington, J., Donnelly, D., Johnson M.S., Sali, A. & Blundell, T.L. (1992) "Omgevingsspecifieke aminozuursubstitutietabellen: tertiaire sjablonen en voorspelling van eiwitvouwen." prot. Wetenschap. 1:216-226. (PubMed)

[37] Henikoff, S. & Henikoff, J.G. (1993) "Prestatie-evaluatie van aminozuursubstitutiematrices." Eiwitten 17:49-61. (PubMed)

[38] Gotoh, O. (1982) "Een verbeterd algoritme voor het matchen van biologische sequenties." J. Mol. Biol. 162:705-708. (PubMed)


Conclusies

In veel opzichten wijkt het optreden van RSI in de huidige spoedeisende praktijk ver af van de oorspronkelijke beschrijvingen van de procedure. Desondanks zijn de principes - snelle afgifte van een definitieve luchtweg en het vermijden van aspiratie, nog steeds zeer relevant en blijven de indicaties voor RSI relatief onveranderd. Wijzigingen in de procedure hebben een aantal overwegingen aangepakt die minder goed werden aangepakt door de oorspronkelijke techniek, waaronder het verminderen van de frequentie en ernst van hypoxemie, het verminderen van de frequentie van mislukte intubatie en het effectiever maken van detectie en behandeling van complicaties. De opmerkelijke consensus in de RSI-praktijk die jarenlang aanhield, is de afgelopen jaren afgenomen. Desondanks is er in veel systemen vaak sprake van standaardisatie. Het is moeilijk om te weten of variaties in de praktijk nodig zijn om zorg op maat te leveren aan verschillende patiëntengroepen of dat een grotere consistentie het potentieel heeft om de algehele patiëntveiligheid te verbeteren. In de praktijk in het ziekenhuis is gesuggereerd dat het vermijden van bijwerkingen en succesvolle intubatie van ernstig zieke patiënten bij de eerste poging positief kan worden beïnvloed door factoren die verband houden met de operator, waaronder training en ervaring, apparatuurkeuze en medicijnkeuzes [79]. Het beperken van de keuze en het leveren van een zeer standaard RSI is misschien meer geschikt wanneer RSI wordt geleverd door minder ervaren operators in meer sobere omgevingen [14]. Een consistentie in goed presterende systemen is de erkenning dat het leveren van hoogwaardige RSI geen solo-activiteit is en een effectieve teamaanpak vereist om de juiste technieken toe te passen. Daarnaast is aandacht voor alle factoren bij RSI-aflevering belangrijk. Systemen die verbetering melden, introduceren of wijzigen zelden slechts één onderdeel van de procedure. Gewoonlijk was er een 'bundel' van verbeteringen nodig om alle aspecten van de procedure aan te pakken en een betere kwaliteit te leveren [34, 80].

De veiligheid van RSI is nu net zo belangrijk als toen het voor het eerst werd beschreven. Het wordt uitgevoerd op onze ziekste en meest onstabiele patiënten in alle spoedeisende behandelingsgebieden. Keuzes van medicijnen en technieken zijn snel toegenomen en veel van deze veranderingen hebben het potentieel om de veiligheid te verbeteren. Aanbieders van RSI hebben nu een breed scala aan tools en technieken beschikbaar om de basisprocedure te verbeteren. Deze kunnen worden opgenomen in een gestructureerd plan om veilige noodanesthesie te leveren aan hun specifieke patiëntencasus.