Informatie

3.7: Probabilistische grondslagen van sequentie-uitlijning - biologie


Zoals hierboven beschreven, gebruikt het BLAST-algoritme een scoringsmatrix (substitutiematrix) om de lijst met . uit te breiden W -mers om een ​​ongeveer overeenkomende volgorde tijdens zaadverlenging te zoeken en te bepalen. Maar hoe construeren we deze matrix in de eerste plaats? Hoe bepaal je de waarde van ( sleft(x_{i}, y_{j} ight) ) in globale/lokale uitlijning?

Het idee achter de scorematrix is ​​dat de uitlijningsscore de waarschijnlijkheid moet weerspiegelen dat twee vergelijkbare sequenties homoloog zijn, d.w.z. de waarschijnlijkheid dat twee sequenties die een aantal nucleotiden gemeen hebben, ook een gemeenschappelijke voorouders delen. Hiervoor kijken we naar de waarschijnlijkheidsratio's tussen twee hypothesen.

1. Hypothese 1: – Dat de uitlijning tussen de twee reeksen te wijten is aan toeval en dat de reeksen in feite niets met elkaar te maken hebben.

2. Hypothese 2: – Dat de uitlijning te wijten is aan gemeenschappelijke voorouders en dat de sequenties feitelijk verwant zijn.

Vervolgens berekenen we de waarschijnlijkheid van het waarnemen van een uitlijning volgens elke hypothese. Pr(x, y|U ) is de kans dat x met y wordt uitgelijnd, ervan uitgaande dat ze geen verband houden, terwijl Pr(x,y|R) is de kans op de

uitlijning, ervan uitgaande dat ze gerelateerd zijn. Vervolgens definiëren we de uitlijningsscore als de logaritme van de waarschijnlijkheidsratio tussen de twee:

[egin{vergelijking}
S equiv log frac{P(mathbf{x}, mathbf{y} mid R)}{P(mathbf{x}, mathbf{y} mid U)}
end{vergelijking} geennummer ]

Aangezien een som van logs een log van producten is, kunnen we de totale score van de uitlijning krijgen door de scores van de individuele uitlijningen bij elkaar op te tellen. Dit geeft ons de waarschijnlijkheid van de hele uitlijning, ervan uitgaande dat elke individuele uitlijning onafhankelijk is. Een additieve matrixscore geeft ons dus precies de kans dat de twee sequenties gerelateerd zijn, en de uitlijning is niet te wijten aan toeval. Meer formeel, gezien het geval van het uitlijnen van eiwitten, voor niet-verwante sequenties, is de waarschijnlijkheid van het hebben van een n-residu-uitlijning tussen x en y een eenvoudig product van de waarschijnlijkheden van de individuele sequenties aangezien de residuparen onafhankelijk zijn.

Dat is,

[ egin{vergelijking}
egin{uitgelijnd}
mathbf{x} &=left{x_{1} ldots x_{n} ight}
mathbf{y} &=left{y_{1} ldots x_{n} ight}
q_{a} &=P( ext { aminozuur } a)
P(mathbf{x}, mathbf{y} mid U) &=prod_{i=1}^{n} q_{x_{i}} prod_{i=1}^{n} q_{ y_{i}}
end{uitgelijnd}
end{vergelijking} geennummer ]

Voor gerelateerde sequenties zijn de residuparen niet langer onafhankelijk, dus moeten we een ander gewricht gebruiken

waarschijnlijkheid, ervan uitgaande dat elk paar uitgelijnde aminozuren is geëvolueerd uit een gemeenschappelijke voorouder:

[ egin{vergelijking}
egin{uitgelijnd}
p_{a b} &=P( ext { evolutie gaf aanleiding tot } a ext { in } mathbf{x} ext { en } b ext { in } mathbf{y})
P(mathbf{x}, mathbf{y} mid R) &=prod_{i=1}^{n} p_{x_{i} y_{i}}
end{uitgelijnd}
end{vergelijking} geennummer ]

Vervolgens wordt de waarschijnlijkheidsratio tussen de twee gegeven door:

[egin{vergelijking}
egin{uitgelijnd}
frac{P(mathbf{x}, mathbf{y} mid R)}{P(mathbf{x}, mathbf{y} mid U)} &=frac{prod_{i= 1}^{n} p_{x_{i} y_{i}}}{prod_{i=1}^{n} q_{x_{i}} prod_{i=1}^{n} q_{ y_{i}}}
&=frac{prod_{i=1}^{n} p_{x_{i} y_{i}}}{prod_{i=1}^{n} q_{x_{i}} q_{y_ {l}}}
end{uitgelijnd}
end{vergelijking} geennummer ]

Omdat we uiteindelijk een som van scores willen berekenen en waarschijnlijkheden moeten producten toevoegen, nemen we het logboek van het product om een ​​handige sommatie te krijgen:

[ egin{vergelijking}
egin{uitgelijnd}
S & equiv log frac{P(mathbf{x}, mathbf{y} mid R)}{P(mathbf{x}, mathbf{y} mid U)}
v &=sum_{i} log left(frac{p_{x_{i} y_{i}}}{q_{x_{i}} q_{y_{i}}} ight)
& equiv sum_{i} sleft(x_{i}, y_{i} ight)
end{uitgelijnd}
end{vergelijking} geennummer ]

De substitutiematrixscore voor een bepaald paar a, b wordt dus gegeven door

[ egin{vergelijking}
s(a, b)=log left(frac{p_{a b}}{q_{a} q_{b}} ight)
end{vergelijking} geennummer ]

De bovenstaande uitdrukking wordt vervolgens gebruikt om een ​​substitutiematrix zoals de BLOSUM62 voor aminozuren uit te werken. Het is interessant om op te merken dat de score van een match van een aminozuur met zichzelf afhangt van het aminozuur zelf, omdat de frequentie van willekeurig voorkomen van een aminozuur de termen beïnvloedt die worden gebruikt bij het berekenen van de waarschijnlijkheidsratio-score van uitlijning. Vandaar dat deze matrices niet alleen de sequentieovereenkomst van de uitlijningen vastleggen, maar ook de chemische overeenkomst van verschillende aminozuren.

BLAST-gerelateerde algoritmen: Califino-Rigoutsos'93, Buhler'01 en Indyk-Motwani'98


Bekijk de video: Cellen: DNA en specialisatie van cellen deel 1 (November 2021).