Informatie

Hoe herken je een coiled coil uit de aminozuursequentie?


Ik vroeg me af, als we een aminozuursequentie hebben, is het voldoende om te controleren of de posities a-d overeenkomen met hydrofobe aminozuren om te zeggen of het een coiled coil-structuur kan vormen? Of moeten we ervoor zorgen dat de andere posities niet ook hydrofoob zijn?

Alle hulp wordt zeer op prijs gesteld.


De heptad-herhaling, aangeduid met [abcdefg]N, heeft typisch hydrofobe residuen bij een en NS, en polaire/geladen residuen bij e en G.

Vanaf hier.

Er is hier een voorspellingstool met handige afbeeldingen.


Classificatie van de menselijke THAP-eiwitfamilie identificeert een evolutionair geconserveerd coiled-coil-gebied

De THAP-eiwitfamilie (Thanatos Associated Proteins) bij mensen is betrokken bij verschillende belangrijke cellulaire processen zoals epigenetische regulatie, behoud van pluripotentie, transpositie en aandoeningen zoals kankers en hemofilie. De menselijke THAP-eiwitfamilie die uit twaalf leden van verschillende lengte bestaat, heeft een goed gekarakteriseerd amino-terminaal, zink-coördinerend, DNA-bindend domein dat het THAP-domein wordt genoemd. Het carboxy-uiteinde van de meeste THAP-eiwitten moet echter nog structureel worden gekarakteriseerd. Het is bekend dat een opgerolde spoelregio helpt bij eiwitoligomerisatie in THAP1 en THAP11. Het is niet bekend of andere menselijke THAP-eiwitten oligomeriseren. We hebben bio-informatische hulpmiddelen gebruikt om de mogelijkheid van dimerisatie van THAP-eiwitten via een opgerolde spoelregio te onderzoeken.

Resultaten

Classificatie van menselijk THAP-eiwit in drie op grootte gebaseerde groepen leidde tot de identificatie van een evolutionair geconserveerd alfa-helixgebied, stroomafwaarts van het aminoterminale THAP-domein. Secundaire structuurvoorspellingen, alfa-helixwielplots en eiwitmodellen toonden de sterke mogelijkheid aan van coiled-coilvorming in dit geconserveerde, leucinerijke gebied van alle THAP-eiwitten behalve THAP10.

Conclusies

De identificatie van een voorspeld oligomerisatiegebied in de menselijke THAP-eiwitfamilie opent nieuwe richtingen om de leden van deze eiwitfamilie te onderzoeken.


Achtergrond

Experimentele technieken met hoge doorvoer zijn onlangs begonnen om eiwit-eiwit-interacties op proteomische schaal te ontdekken [1-6]. Naarmate het aantal volledig gesequeneerde organismen groeit, wordt het echter steeds noodzakelijker om computationele methoden te ontwikkelen om deze interacties te voorspellen. De moeilijkheid van het computationeel voorspellen van eiwitstructuren suggereert een strategie om zich eerst te concentreren op interacties die worden gemedieerd door specifieke interfaces van bekende geometrie.

In dit artikel richten we ons op een gemeenschappelijke en goed gekarakteriseerde interface voor eiwitinteractie - de parallelle tweestrengige opgerolde spoel. Opgerolde spoelen worden gevonden in eiwitten die deelnemen aan veel verschillende processen, waaronder transcriptie, oncogenese en membraanfusie. Het voorspellen van eiwit-eiwit-interacties die door dit motief worden gemedieerd, zullen belangrijke biologische vertakkingen hebben. Coiled coils bestaan ​​uit twee of meer a-helices die om elkaar heen winden met een lichte linkshandige superhelische draai. Een karakteristieke heptad-herhaling (abcdefg)N definieert de plaatsing van residuen in elke helix ten opzichte van de interactie-interface (Figuur 1). De begraven posities een en NS bevatten meestal hydrofobe aminozuren, en de meer blootgestelde posities G en e bevatten vaak geladen en polaire aminozuren. Deze eenvoudige structuur en periodiciteit maken herkenning mogelijk van potentiële coiled-coil-sequenties door middel van statistische methoden (bijvoorbeeld [7-12]), evenals gedetailleerde voorspellingen van de structuur en energie van hun hydrofobe interfaces door middel van moleculaire modellering [13-15].

Cartoon van een parallelle tweestrengige opgerolde spoel. (een) Zijaanzicht en (B) bovenaanzicht. Het grensvlak tussen de a-helices in een coiled-coil-structuur wordt gevormd door residuen op de kernposities een, NS, e en G. Posities in de twee helices worden onderscheiden door bijvoorbeeld de priemnotatie, een en een' zijn analoge posities in de twee helices. N, aminoterminus C, carboxyterminus.

Veel van wat bekend is over de structuur en specificiteit van parallelle, tweestrengige coiled coils is vastgesteld door middel van biofysische studies van peptiden die zijn afgeleid van bZIP-transcriptiefactoren (bijvoorbeeld [16–22]). De coiled-coil-regio's van deze eiwitten worden ook wel leucine-ritssluitingen genoemd omdat de kern NS posities worden gedomineerd door leucineresiduen. bZIP's homo- en hetero-dimeriseren met elkaar via hun coiled-coil-regio's. Ondanks duidelijk voor de hand liggende sequentiehomologie, vertonen ze een hoge mate van partneringselectiviteit waardoor ze in verschillende routes kunnen functioneren. Onlangs werd eiwitarraytechnologie gebruikt om coiled-coil-interacties te bepalen binnen een bijna complete set van menselijke bZIP-transcriptiefactoren [23]. De ontdekte interacties vertoonden een hoge reproduceerbaarheid en uitstekende consistentie met eerder gepubliceerde onderzoeken, wat ons veel vertrouwen in de gegevens geeft.

In dit werk passen we een methode toe voor het voorspellen van coiled-coil-interacties [24] op de menselijke bZIP-eiwitten. De arraygegevens bieden een uitstekende gelegenheid om onze methode te testen en het nut ervan voor het algemene voorspellingsprobleem met coiled-coil te beoordelen. Onze methode vertegenwoordigt opgerolde spoelen in termen van hun interhelix-interacties en leidt, uit een basisgegevensset van sequentie- en experimentele gegevens, een 'gewicht' af dat aangeeft hoe gunstig elke residu-residu-interactie is. Onze methode is in staat om interactiepartners met veel vertrouwen te voorspellen, een significante fractie (70%) van de sterke bZIP-paren te identificeren, terwijl de meerderheid (92%) van de voorspelde interacties correct is. Verdere kruisvalidatietests tonen de mate aan waarin de menselijke bZIP-gegevens onze methode verfijnen en suggereren niveaus van vertrouwen, gebaseerd op gedeelde sequentieovereenkomst, voor het voorspellen van bZIP-interacties binnen nieuwe genomen.

Voorafgaand aan dit werk was er slechts bescheiden succes bij het voorspellen van de partneringspecificiteit van natuurlijk voorkomende coiled-coil-eiwitten. Een eerdere versie van onze methode werd getest op vezelachtige opgerolde spoelen. Het was in staat om een ​​groot deel van de niet-interagerende partners te elimineren voor een bepaalde coiled-coil-sequentie, maar niet om de daadwerkelijke partner te vinden [24]. Verschillende andere groepen hebben het aantal gunstige en ongunstige elektrostatische interacties geteld om een ​​aantal specifieke voorspellingen te doen over de aard van bepaalde coiled-coil-interacties [18, 25, 26]. Onlangs, eenvoudige regels die beide bevatten ja' elektrostatisch en aa' polaire interacties zijn gebruikt om mogelijke bZIP-dimerisatie in de Drosophila genoom [27], maar tot nu toe zijn de meeste van deze voorspellingen niet experimenteel bevestigd. Op menselijke bZIP-gegevens kunnen dergelijke eenvoudige regels slechts een klein deel van bekende sterke interacties met een hoge mate van precisie identificeren. Als ze bijvoorbeeld zo zijn gedefinieerd dat ze ten minste een derde van de sterke interacties identificeren, geven ze aanleiding tot evenveel valse positieven (FP) als echte positieven (TP).

Hele en cross-genomische benaderingen voor het voorspellen van eiwitpartners hebben enig succes gehad [28-34]. Ons werk is echter het eerste dat grootschalige, zeer betrouwbare computationele voorspellingen voor elk eiwitinteractiemotief demonstreert.


Proteïne domein voorspelling

Eiwitdomeinen zijn rangschikkingen van secundaire structuurelementen, die een biologische functie verlenen. De complexe eiwitten zijn geëvolueerd door een mix-and-match-assemblage van individuele domeinen of door verschillende eenheden van hetzelfde domein aan elkaar te koppelen. Domeinen hebben een vergelijkbare functie in verschillende organismen en de organisatie van eiwitdomeinen leidt tot hints over de eiwitfunctie. Een van de wijdverbreide motieven is een "helix-turn-helix", wat erop wijst dat je eiwit in staat is om op een bepaalde manier DNA te binden.

Voorbeelden van programma's die specifieke domeinen voorspellen:

PSIPRED –-werkbank voor eiwitsequentieanalyse, inclusief secundaire structuur en voorspelling van ongeordende eiwitten

Phobius '8211 transmembraan spiraalvormige segmenten en signaalsequenties

COILS 'voorspelling van coiled-coil-regio's, kenmerkend voor structurele eiwitten of eiwitten die betrokken zijn bij transcriptieregulatie'


Spiraalvormige wielprojecties voor eiwitten

Een spiraalvormig wiel is een soort plot of visuele weergave die wordt gebruikt om de eigenschappen van alfa-helices in eiwitten te illustreren. De volgorde van aminozuren die een helixvormig gebied van de secundaire structuur van het eiwit vormen, wordt op een roterende manier uitgezet waarbij de rotatiehoek tussen opeenvolgende aminozuren 100° is, zodat de uiteindelijke weergave langs de helix-as kijkt. De grafiek laat zien of hydrofobe aminozuren geconcentreerd zijn aan de ene kant van de helix, meestal met polaire of hydrofiele aminozuren aan de andere. Deze opstelling is gebruikelijk in alfa-helices binnen bolvormige eiwitten, waarbij één zijde van de helix is ​​gericht op de hydrofobe kern en één zijde is gericht op het aan oplosmiddel blootgestelde oppervlak. Specifieke patronen die kenmerkend zijn voor eiwitplooien en eiwitdocking-motieven worden ook onthuld, zoals bij de identificatie van leucine-ritsdimerisatiegebieden en opgerolde spoelen. Dit projectiediagram wordt vaak "Edmondson wheel" genoemd naar zijn uitvinder.

Wat zegt de uitvinder ervan?

Edumudosn vermeld in zijn klassieke paper

Hoe een spiraalvormig wiel te lezen?

Uit het basisbegrip van alfa-helixstructuren bepaald door Corey, Pauling en Ramachandran, weten we dat een volledige spiraalvormige draai (wat 360 graden rotatie betekent) wordt verkregen binnen een bereik van 3,6 residuen (en dit is de reden waarom alfa-helix ook wordt genoemd als 3.613 helix). Stel je nu voor dat je van bovenaf kijkt en alfa-helix. Elke helix van bovenaf lijkt op een wiel. Maar om een ​​sequentie te bepalen, moet men de hoeken noteren waaronder opeenvolgende aminozuren zullen worden waargenomen. Dus uit bovenstaande informatie kunnen we zeggen dat een nieuwe toevoeging van aminozuren aan een peptide in alfa-helix zal plaatsvinden bij 100 graden (360 graden gedeeld door 3,6). Men moet ook onthouden dat in het geval van een rechtshandige alfa-helix, met de klok mee wordt gelezen, terwijl bij een linkshandige alfa-helix tegen de klok in wordt gelezen.

Voorbeeld van een spiraalvormig wiel

De volgende afbeelding toont een eenvoudige spiraalvormige wielprojectie, voor alfa-helix peptide met sequentie ADITYAARYA. U kunt opmerken dat deze helix een rechtshandige helix is, dus u moet beginnen met aminozuren gemarkeerd met A1 en vervolgens met de klok mee bewegen om de volledige sequentie te verkrijgen. Als het een linkshandige helix (of helix bestaande uit D-aminozuren in plaats van L-aminozuren) was, zouden we deze tegen de klok in aflezen.


<p>Deze sectie geeft informatie over de expressie van een gen op mRNA- of eiwitniveau in cellen of in weefsels van meercellige organismen.<p><a href='/help/expression_section' target='_top'>Meer. </a></p> Expressie i

Genexpressiedatabases

Bgee-database voor genexpressie-evolutie

ExpressieAtlas, differentiële en basislijnexpressie

Genevisible zoekportaal voor genormaliseerde en samengestelde expressiegegevens van Genevestigator

Organisme-specifieke databases


<p>Deze sectie toont standaard de canonieke eiwitsequentie en op verzoek alle isovormen die in het item worden beschreven. Het bevat ook informatie die relevant is voor de sequentie(s), inclusief <a href="http://www.uniprot.org/help/sequence%5Flength">length</a> en <a href="http://www.uniprot .org/help/sequences">molecuulgewicht</a>. De informatie is opgeslagen in verschillende subsecties. De huidige subsecties en hun inhoud worden hieronder vermeld:<p><a href='/help/sequences_section' target='_top'>Meer. </a></p> Reeks s (2+) i

<p>Deze subsectie van de sectie <a href="http://www.uniprot.org/help/sequences%5Fsection">Sequence</a> geeft aan of de <a href="http://www.uniprot.org/help /canonical%5Fand%5Fisoforms">canonieke reeks</a> die standaard in het item wordt weergegeven, is volledig of niet.<p><a href='/help/sequence_status' target='_top'>Meer. </a></p> Volgordestatus i : Voltooid.

Dit bericht beschrijft 2 <p>Deze subsectie van de sectie 'Sequentie' somt de alternatieve eiwitsequenties (isovormen) op die kunnen worden gegenereerd uit hetzelfde gen door een enkele of door de combinatie van maximaal vier biologische gebeurtenissen (alternatief promotorgebruik, alternatieve splicing, alternatieve initiatie en ribosomale frameshifting). Bovendien geeft deze sectie relevante informatie over elke alternatieve eiwit-isovorm.<p><a href='/help/alternative_products' target='_top'>Meer. </a></p> isovormen die ik heb geproduceerd door alternatieve splicing . UitlijnenToevoegen aan winkelmandjeToegevoegd aan winkelmandje

Dit item heeft 2 beschreven isovormen en 1 potentiële isovorm die computationeel in kaart is gebracht.Alles weergevenAlles uitlijnen

Deze isovorm is gekozen als de <div> <p><b>Wat is de canonieke volgorde?</b><p><a href='/help/canonical_and_isoforms' target='_top'>Meer. </a></p> canonieke i-reeks. Alle positionele informatie in dit item verwijst ernaar. Dit is ook de volgorde die wordt weergegeven in de downloadbare versies van het item.

De volgorde van deze isovorm verschilt van de canonieke volgorde als volgt:
225-273: VQHKRYDAIL. ELRKCIGMQE → GLAPSPRLEC. IFSRDGVSPC

<p>In eukaryote referentie-proteomen worden niet-beoordeelde items die waarschijnlijk tot hetzelfde gen behoren, computationeel in kaart gebracht, op basis van gen-ID's van Ensembl, EnsemblGenomes en modelorganisme-databases.<p><a href='/help/gene_centric_isoform_mapping' target='_top '>Meer. </a></p> Computationeel in kaart gebrachte potentiële isovormsequenties i

Annotatiescore: 1 uit 5

Natuurlijke variant

FunctietoetsPositie(s)Beschrijving Acties Grafische weergaveLengte
<p>Deze subsectie van de sectie 'Sequentie' beschrijft natuurlijke variant(en) van de eiwitsequentie.<p><a href='/help/variant' target='_top'>Meer. </a></p> Natuurlijke variant i VAR_061579 269I → T. Komt overeen met variant dbSNP:rs9567280 Ensembl . 1

Alternatieve volgorde

FunctietoetsPositie(s)Beschrijving Acties Grafische weergaveLengte
<p>Deze subsectie van de sectie 'Sequentie' beschrijft de sequentie van natuurlijk voorkomende alternatieve eiwit-isovorm(en). De veranderingen in de aminozuursequentie kunnen het gevolg zijn van alternatieve splicing, gebruik van alternatieve promotor, alternatieve initiatie of ribosomale frameshifting.<p><a href='/help/var_seq' target='_top'>Meer. </a></p> Alternatieve volgorde i VSP_025114 225 – 273VQHKR…IGMQE → GLAPSPRLECSSAISAHCKL CLPGSRHSPASASGVAGTTG ACHHTQLIFCIFSRDGVSPC in isovorm 2. 2 Publicaties

<p>Handmatig samengestelde informatie die is gebaseerd op uitspraken in wetenschappelijke artikelen waarvoor geen experimentele ondersteuning is.</p> <p><a href="/manual/evidences#ECO:0000303"> Meer. </a></p> Handmatige bewering op basis van mening in i


Mirsky, A.E. & Pauling, L. Over de structuur van natieve, gedenatureerde en gecoaguleerde eiwitten. Proc. nat. Acad. Wetenschap. VS 22, 439–447 (1936).

Matthews, B.W. Röntgenstructuur van eiwitten. de eiwitten (eds H. Neurath & RL Hill) 403-590 (Academic Press, San Francisco, vol. 3) (1977).

Fischer, E. Einfluss der configuratie auf die wirkung der enzyme. Ber. Dt., Chem. Ges. 27, 2985–2993 (1894).

Lederberg, J.W. Genen en antilichamen. Wetenschap 129, 1649–1653 (1959).

Petsko, GA & Ringe, D. Fluctuaties in eiwitstructuur van röntgendiffractie. Ann. Rev. Biophys. Biofysica. Chem. 13, 331–371 (1984).

Carr, CM & Kirn, P.S. Een veerbelast mechanisme voor de conformationele verandering van hemagglutinine bij influenza. Cel 73, 823–832 (1993).

Bullough, P.A., Hughson, F.M., Skehel, J.J. & Wiley, DC Structuur van influenza hemagglutinine bij de pH van membraanfusie. Natuur 371, 37–43 (1994).

Stein, P. & Chothia, C. Serpin tertiaire structuurtransformatie. J. Mol Biol. 221, 615–621 (1991).

Sprang, SR et al. Structurele veranderingen in glycogeenfosforylase geïnduceerd door fosforylering. Natuur 336, 215–221 (1988).

Olson, AJ, Bricogne, G. & Harrison, SC Structuur van tomatenstruik-stuntvirus IV. Het virusdeeltje met een resolutie van 2,9 . J. Mol. Biol. 171, 61–93 (1983).

Petersen, J. M. et al. Modulatie van transcriptiefactor Ets-1 DNA-binding: DNA-geïnduceerde ontvouwing van een α-helix. Wetenschap 269, 1866–1869 (1995).

Foote, J. & Milstein, C. Conformationele isomerie en de diversiteit van antilichamen. Proc. nat. Acad. Wetenschap. VS 91, 10370–10374 (1994).

Braig, K. et al. De kristalstructuur van de bacteriële chaperonine GroELat 2,8 . Natuur 371, 578–586 (1994).

Barrow, CJ & Zagorski, M.G. Oplossingsstructuren van bèta-peptide en zijn samenstellende fragmenten: relatie tot amyloïde afzetting. Wetenschap 253, 179–182 (1991).

Betz, S.F., Bryson, J.W. & DeGrado, W.F. Native-achtige en structureel gekarakteriseerde ontworpen α-helixbundels. Curr. Opin. structuur Biol. 5, 457–463 (1995).

Hill, C.P., Anderson, D.H., Wesson, L., DeGrado, W.F. & Eisenberg, D. Kristalstructuur van alfa 1: implicaties voor eiwitontwerp. Wetenschap 249, 543–546 (1990).

Landschultz, W.H., Johnson, P.F. & McKnight, S.L. De leucine-ritssluiting: een hypothetische structuur die voorkomt in een nieuwe klasse van DNA-bindende eiwitten. Wetenschap 240, 1759–1764 (1988).

Hodges, R.S. Sodek, J., Smillie, LB. & Jurasek, L. Tropomyosin: aminozuursequentie en coiled-coil-structuur. Cold Spring Harbor Symp. aantal. Biol. 37, 299–310 (1972).

Cohen, C. & Parry, A.D. α-helix opgerolde spoelen en bundels: hoe een α-helix-eiwit te ontwerpen. Eiwitten 7, 1–15 (1990).

Harbury, P.B., Zhang, T., Kirn, P.S. & Alber, T. Een schakelaar tussen twee-, drie- en vierstrengs opgerolde spoelen in GCN4-leucine-zipper-mutanten. Wetenschap 262, 1401–1407 (1993).

Zhu, B.Y., Zhou, N.E., Kay, C.M. & Hodges, R.S. Verpakkings- en hydrofobiciteitseffecten op eiwitvouwing en stabiliteit: effecten van β-vertakte aminozuren, valine en isoleucine, op de vorming en stabiliteit van tweestrengige α-helix opgerolde spiralen/leucineritssluitingen. Eiwit Sc. 2, 383–394 (1993).

Harbury, P.B., Kirn, P.S. & Alber, T. Kristalstructuur van een isoleucine-ritstrimeer. Natuur 371, 80–83 (1994).

Liefs, B. et al. Kristalstructuur van een synthetische driestrengige leucineritssluiting. Wetenschap 259, 1288–1293 (1993).

Gonzalez, Jr., L., Plecs, J.J. & Alber, T. Een gemanipuleerde allosterische schakelaar in oligomerisatie van leucine-rits. Natuur structuur. Biol. 3, 510–515 (1996).

Betz, S., Fairman, R., O'Neil, K., Lear, J. & DeGrado, W.F. Ontwerp van tweestrengige en driestrengige coiled-coil peptiden. Fil. Trans. Roy. soc. Londen.B 348, 81–88 (1995).

Lumb, KJ & Kim, P.S. Een begraven polaire interactie zorgt voor structurele uniciteit in een ontworpen heterodimere opgerolde spoel. Biochemie 34, 8642–5648 (1995).

O'Shea, E.K., Rutkowski, R. & Kim, P.S. Bewijs dat de leucine-rits een opgerolde spoel is. Wetenschap 243, 538–542 (1989).

O'Shea, E.K., Klemm, J.D., Kim, P.S. & Alber, T. Röntgenstructuur van de GCN4-leucine-rits, een tweestrengige, parallel opgerolde spoel. Wetenschap 254, 539–544 (1991).

Hurst, HC Sequenties van bZIP-eiwitten. prot. Profiel 1, 125–134 (1994).

Junius, F.K. et al. Karakterisering van kernmagnetische resonantie van het Jun-leucine-ritsdomein: ongebruikelijke eigenschappen van polaire residu's op het grensvlak van coiled-coil. Biochemie 34, 6164–6174 (1995).

Potekhin, S.A., Medvedkin, V.N., Kashparov, I.A. & Venyaminov, S.U. Synthese en eigenschappen van het peptide dat overeenkomt met de mutante vorm van leucine zipper van de transcriptionele activator GCN4 uit gist. Eiwit Eng. 7, 1097–1101 (1994).

Brünger, A.T. Uitbreiding van moleculaire vervanging: een nieuwe zoekstrategie op basis van Patterson-correlatieverfijning. Acta Crystallogr. A46, 46–57 (1990).

Crick, F.H.C. De pakking van α-helices: eenvoudige opgerolde spoelen. Acta Crystallogr. 6, 689–697 (1953).

Harbury, P.B., Tidor, B. & Kim, P.S. Eiwitkernen opnieuw inpakken met ruggengraatvrijheid: structuurvoorspelling voor opgerolde spoelen. Proc. nat. Acad. Wetenschap. VS 92, 8408–8412 (1995).

Denk na, J.W. & Richards, FM Tertiaire sjablonen voor eiwitten. Gebruik van verpakkingscriteria bij het tellen van toegestane sequenties voor verschillende structurele klassen. J. Mol. Biol. 193, 775–791 (1987).

Goodman, EM & Kim, P.S. Periodiciteit van amide-protonwisselkoersen in een coiled-coil leucine zipper-peptide. Biochemie 30, 11615–11620 (1991).

Lumb, KJ, Carr, C.M. & Kim, P.S. Subdomein vouwen van de coiled coil leucine zipper van de transcriptionele activator GCN4. Biochemie 33, 7361–7367 (1994).

Seo, J. & Cohen, C. Pitch-diversiteit in α-helix opgerolde spoelen. Eiwitten 15, 223–234 (1993).

DeLano, W.L. & Brünger, A.T. Helix-verpakking in eiwitten: succesvolle voorspelling en energetische analyse van dimere, trimere en tetramere GCN4-coiled-coilstructuren. Eiwitten structuur. func. Genet. 20, 105–123 (1994).

Connolly, M.L. Voor oplosmiddelen toegankelijke oppervlakken van eiwitten en nucleïnezuren. Wetenschap 222, 709–713 (1983).

Eisenberg, D. & McLachlan, A.D. Solvatie-energie bij het vouwen en binden van eiwitten. Natuur 319, 199–203 (1986).

Pauling, L. & Corey, R.B. Samengestelde spiraalvormige configuraties van polypeptideketens: structuur van eiwitten van het α-keratinetype. Natuur 171, 59–61 (1953).

Philips, GN. Wat is de toonhoogte van de α-helix opgerolde spoel? Eiwitten 14, 425–429 (1992).

Aanbieding, G. & Sessions, R. Computermodellering van de α-helix opgerolde spoel: pakking van zijketens in de binnenkern. J. Mol. Biol. 249, 967–987 (1995).

Fraser, RDB & MacRae, T.P. Conformatie in vezelachtige eiwitten en gerelateerde synthetische polypeptiden. 456-462 (Londen: Academic Press, 1973).

Chothia, C., Levitt, M. & Richardson, D. Helix tot helixverpakking in eiwitten. J. Mol. Biol. 145, 215–250 (1981).

Zhang, H. et al. Conformationele overgangen in peptiden die twee vermeende alfa-helices van het prion-eiwit bevatten. J. Mol. Biol. 250, 514–526 (1995).


Resultaten

De LRIM-familie

De LRR-superfamilie bestaat uit LRR-bevattende eiwitten met een verscheidenheid aan domeinarchitecturen, zoals de transmembraan Toll-receptoren met hun intracellulaire Toll-Interleukine Receptor (TIR)-domeinen. Meer dan 180 LRR-superfamilieleden worden gevonden in de voorspelde proteomen van elk van de drie muggen, zoals herkend door hun InterPro 'Leucine-rich repeat' (IPR001611) annotaties. De zoektocht naar LRR-bevattende genen waarvan de sequentiekenmerken het meest op elkaar lijken AgLRIM1 en AgAPL1C gebruikte een combinatie van benaderingen en identificeerde Een. gambiae, 29 Ae. aegyptisch, en 30 Cx. quinquefasciatus LRIM-achtige genen (zie aanvullend bestand 1). Hun gecodeerde eiwitten vertonen alle of de meeste van de belangrijkste kenmerken van Ag LRIM1 en Ag APL1C: het signaalpeptide, de LRR's, de patronen van cysteïneresiduen en de coiled-coils. Er werden echter geen verwante genen met deze bepalende kenmerken geïdentificeerd in een van de andere representatieve insectengenomen (fruitvlieg, honingbij of lichaamsluis). De mug-LRIM's met alle belangrijke sequentiefuncties kunnen worden gegroepeerd in de "Lange" onderfamilie met 10 of meer LRR's, waaronder Ag LRIM1 en Ag APL1C en de "korte" LRIM's met slechts 6 of 7 LRR's (Figuur 1). Bijkomende verwante genen omvatten de "TM" LRIM's met een voorspeld C-terminaal transmembraangebied, en de "Coil-less" LRIM's die de karakteristieke sequentiesignaturen vertonen maar de C-terminale coiled-coil-domeinen missen.

De geïdentificeerde LRIM-eiwitten van muggen kunnen worden ingedeeld in vier verschillende subfamilies:. Leden van de LRIM-familie die aan alle bepalende kenmerken voldoen, worden geclassificeerd als lange LRIM's met 10 of meer LRR's en korte LRIM's met 6 of 7 LRR's. Degenen die de bepalende kenmerken vertonen, maar waarvan bovendien wordt voorspeld dat ze een C-terminaal transmembraandomein bevatten, worden geclassificeerd als TM-LRIM's, en die welke alleen het coiled-coil-domein missen, worden Coil-less LRIM's genoemd. De herhalende LRR-eenheden vormen een hoefijzerachtige structuur waarbij de korte bèta-strengen een evenwijdig bètablad vormen op het concave vlak van de boog en de verbindende helices of windingen op het convexe vlak liggen.

De belangrijkste sequentiekenmerken van de leden van de LRIM-familie maken het mogelijk om conclusies te trekken met betrekking tot hun waarschijnlijke structurele architecturen, met hun gemeenschappelijke kenmerk van een LRR-domein met variabele lengte. De kristalstructuren van verschillende LRR-bevattende eiwitten laten zien dat elke herhaling bestaat uit een korte beta-streng en een helix of beta-turn waarbij de strengen een parallel beta-blad vormen aan de binnenzijde van een hoefijzerachtige structuur terwijl de helices of bochten op het buitengezicht liggen. Structuurbepaling van het humane Toll-Like Receptor 3 (TLR3) LRR-ectodomein bevestigde de hoefijzervormige vouw, en maakte het mogelijk om een ​​interactiemodel voor te stellen waarbij het glycosylatievrije oppervlak belangrijk zou kunnen zijn voor zowel oligomerisatie als ligandbinding [18, 19]. Deze structuren suggereren dat de 6 of 7 LRR-bevattende LRIM's waarschijnlijk een ondiepe boog vormen, terwijl die met meer LRR's kunnen buigen in meer uitgebreide hoefijzerachtige structuren (Figuur 1).

Vergelijkende sequentieanalyses van de mug LRIM-achtige genen identificeerden waarschijnlijke orthologe en paraloge relaties. Dit werd ondersteund door onderzoek van orthologe genomische regio's (synteny) onder de drie muggen, die clusters van LRIM orthologen met lokale genduplicatie en shuffling-gebeurtenissen. Een cluster van korte LRIM's (LRIM's 7, 8, 9, en 10) is in de nabijheid van een guanine-nucleotide-uitwisselingsfactor (GNEF)-bevattend gen dat in alle drie de soorten wordt aangetroffen (Figuur 2). duplicaties van LRIM8 in Een. gambiae en LRIM10 in Ae. aegyptisch hebben twee paraloge paren gemaakt, terwijl LRIM7 en LRIM9 zijn gebleven als orthologen in één exemplaar. De relatieve locatie en oriëntatie van LRIM9 is bewaard gebleven terwijl LRIM10 verschijnt omgekeerd in Een. gambiae. De LRIM7-LRIM8 paar heeft zijn kop-staartoriëntatie behouden in alle drie de soorten (met de LRIM8B paraloog in Een. gambiae), maar in Ae. aegyptisch het is verplaatst ten opzichte van het gedupliceerde LRIM10. De genomische spanwijdte van de orthologe regio in Ae. aegyptisch is ongeveer vier keer groter, voornamelijk als gevolg van de opeenstapeling van talrijke repetitieve elementen en consistent met de algehele

4,6-voudig grotere overspanning van synteny-regio's in Ae. aegyptisch in vergelijking tot Een. gambiae [20]. Deze opmerkelijke genomische expansie in Ae. aegyptisch wordt ook waargenomen in de AgAPL1 cluster, dat zich bevindt met LRIM 3, 4, en 11 orthologen tussen geconserveerde BRICA2-achtige (gevoeligheidseiwit voor borstkanker) en zinkvingergenen. Onderzoek naar de genomische organisatie van LRIM-achtige genen onthullen dus gebeurtenissen van genduplicatie en shuffling die de evolutie van de LRIM genenfamilie in muggen.

Orthologe genomische clusters van muggen Short LRIM genen. Anopheles gambiae (rood) chromosoom (Chr) en ortholoog Culex quinquefasciatus (paars) en Aedes aegypti (geel) supercontigs (Scont) worden afgebeeld met LRIM genen (groen), een guanine-nucleotide-uitwisselingsfactor (GNEF) die een gen bevat (blauw) en herhalingsgebieden (lichtschaduw). Vergelijkende sequentieanalyses onthullen duplicaties (stippellijnen) van LRIM8 in Een. gambiae en van LRIM10 in Ae. aegyptisch, terwijl LRIM7 en LRIM9 blijven als single-copy orthologen. Wat schuifelen van LRIM genorden en oriëntaties heeft plaatsgevonden, en de accumulatie van repetitieve elementen heeft de Ae. aegyptisch regio

Een aantal van de geïdentificeerde LRIM-achtige genen zijn vermoedelijk immuungerelateerde rollen toegeschreven uit functionele studies, wat suggereert dat ze ook kunnen functioneren in belangrijke immuunreacties van muggen. Waaronder AgLRIM4, een lange LRIM geïnduceerd in de middendarm door P. falciparum ookinete invasie [21] AgLRIM7 en AgLRIM10, korte LRIM's die transcriptionele reacties op malariaparasieten vertonen [21] en AgLRIM8B, een derde Short LRIM-gen dat op parasieten reagerende transcriptiepatronen [21] vertoont en wordt gedownreguleerd tijdens infecties met een Gram-negatieve bacterie [22]. De spoelloze AgLRIM17 gen wordt ook transcriptioneel geïnduceerd in de middendarm van de mug na parasietinvasie [21] en werd aanvankelijk in dezelfde geïdentificeerd Een. gambiae bevolkingsonderzoek dat de rol van AgAPL1 als reactie op Plasmodium [6]. tot zwijgen brengen van AgLRIM17 onthulde dat het een antagonist is van beide P. berghei en P. falciparum [21]. In Ae. aegyptisch, de waarschijnlijke LRIM1 ortholoog wordt samen met andere immuungenen opgereguleerd na infectie met Wolbachia bacteriën resulterend in immuunactivatie en een verkorte levensduur van muggen [23]. Opvragen van resultaten van microarray-experimenten die onderzoeken: Een. gambiae transcriptionele reacties op malariaparasieten [24] en bloedvoeding [25] geïdentificeerd ten minste 18 LRIM's met significante veranderingen in genexpressie (zie aanvullend bestand 1). Bijna al deze Een. gambiae LRIM's reageren op bloedtoevoer, terwijl LRIM's 1, 4, 6, 8A, 8B, 10 en 26 reageren op P. berghei infecties. Daarnaast minimaal 12 LRIM's vertonen een significant hogere expressie in het vetlichaam, het belangrijkste immuunorgaan voor insecten, in vergelijking met weefsels in de middendarm of eierstokken. de geïdentificeerde LRIM-achtige genen vormen dus een familie van ziekte-vector-muggenen die belangrijke effectoren lijken te zijn in de aangeboren immuniteit van muggen.

Kenmerken van de LRIM-eiwitsequentie

De herhalende aard van zowel de LRR- als de coiled-coil-domeinen, samen met hun tolerantie voor hoge niveaus van aminozuursubstituties, vormen een aanzienlijke uitdaging voor algoritmen voor het uitlijnen van meerdere sequenties. Desalniettemin dienden stapsgewijze benaderingen met handmatige curatie van LRIM-eiwitsequentie-uitlijningen om karakteristieke kenmerken te identificeren die de familie definiëren en om waarschijnlijke sequentie-structuur-functie-relaties af te leiden. Deze sequentiekenmerken worden duidelijk waarneembaar bij het vergelijken van de muggeneiwitten die het meest verwant zijn aan Ag LRIM1 en Ag APL1A/B/C (Figuur 3): de lange LRIM's (LRIM's 1-4 en APL1), de langste spoelloze LRIM (LRIM17) en de TM LRIM's (LRIM's 15-16).

Karakteristieke sequentiekenmerken van de familie van LRIM-eiwitten van muggen. EEN. De geannoteerde uitlijning met meerdere sequenties van de lange LRIM's (LRIM1-4), de langste spoelloze LRIM (LRIM17) en de TM LRIM's (LRIM15-16) van Anopheles gambiae (Ag, rood), Aedes aegypti (Aa, geel), en Culex quinquefasciatus (Cq, paars). De uitlijning benadrukt de bepalende LRIM-kenmerken, waaronder het signaalpeptide (SP), patronen van cysteïneresiduen (C-C, C-CC en C*), leucinerijke leider (LRL), leucinerijke herhalingen (LRR's). een) en de double en single coiled-coil domeinen (donker, > 90% propensity, light < 90% propensity). Het C-terminale transmembraan (TM) gebied identificeert de TM LRIM's en de PANGGL (Pro-Ala-Asn-Gly-Gly-Leu) aminozuurherhaling is uniek voor Ag APL1C. Zwarte ruiten geven posities aan van een sequentieframeshift in het gen dat codeert Ag APL1A en een transponeerbaar element insertie in het gen dat codeert Cq LRIM2A. B. Het onderzoeken van LRR-lengtevariaties onthult verschillende beperkingen op de lengtes van sequenties die de bèta-strengen verbinden die de LRR hoefijzerachtige structuur vormen. De verhoudingen van LRR-lengtes worden weergegeven voor elke set uitgelijnde LRR's gedefinieerd in figuur 3A (exclusief die met slechts 3 of 4 representatieve sequenties) en voor die berekend op basis van automatisch scannen van alle 26 LRIM's weergegeven in paneel A (EEN), de volledige proteomen van elk van de drie muggensoorten (MEVROUW), en de proteomen van vier andere insecten (IN, Apis mellifera, Bombyx mori, Drosophila melanogaster, en Tribolium castaneum). C. Het conserveringspatroon van aminozuurresten van de ongewoon korte LRR-G (gedefinieerd in paneel A) wordt afgebeeld in sequentielogo-formaat. De LRR-signatuur onderscheidt zich door de geconserveerde asparagine (N) en leucines (L) (of de fysisch-chemisch vergelijkbare isoleucines (l) en valines (V)), en proline (P) residuen komen vaak voor op posities 17 en 18 van LRR-G.

LRIM's zijn gericht op de hemolymfe van de mug

Ag LRIM1 en Ag APL1C-peptide-antilichamen herkennen specifiek afzonderlijke eiwitbanden van de voorspelde grootte in Een. gambiae hemolymfe-extracten [3], consistent met de voorspelde signaalpeptidesequenties die ervoor zouden zorgen dat deze eiwitten in de bloedsomloop van de mug zouden worden uitgescheiden. Interessant is dat uitputting van beide transcripten de secretie van beide eiwitten uit hemocyten blokkeert, wat aangeeft dat co-expressie van deze twee LRIM's vereist is voor correcte vorming en secretie van het functionele LRIM1/APL1C-complex [3]. Behalve een van de Cx. quinquefasciatus LRIM2 paralogen (Cq LRIM2C, Figuur 3A), worden splitsingsplaatsen voor voorspellingen van signaalpeptiden gevonden voor alle LRIM-eiwitten (zie aanvullend bestand 1). Het signaalpeptide-bevattende eerste exon van CqLRIM2C wordt waarschijnlijk verduisterd door een nauw naburig transponeerbaar element (TE)-insertie die dit gen niet-functioneel kan maken. Evenzo, een

4,4 Kb stuk TE-inserties in het coderingsgebied met coiled-coil van de CqLRIM2A paraloog (Figuur 3A) kan de functie van deze kopie verstoren, waardoor CqLRIM2B als de waarschijnlijk functionele APL1/LRIM2 ortholoog. De signaalpeptiden van de TM LRIM's zouden ze naar de secretoire route moeten leiden, maar hun hydrofobe C-terminale regio's verankeren ze waarschijnlijk in het celmembraan en stellen hun LRR-bevattende ectodomeinen bloot op een manier die vergelijkbaar is met de TLR's. De korte,

30 aminozuur, intracellulaire regio's van de TM LRIM's hebben geen herkenbare sorteer- of signaleringsdomeinen, maar geconserveerde serine- en threonine-residuen zouden potentiële fosforyleringsdoelen kunnen zijn. Afgescheiden in de hemolymfe van de mug of blootgesteld op celmembranen (mogelijk hemocyten), kunnen de LRIM's dus wijd circuleren naar plaatsen waar een immuunuitdaging een reactie kan uitlokken.

De PANGGL-herhaling is uniek voor AgAPL1C

Het N-terminale gebied naast het signaalpeptide van de AgAPL1C gene encompasses multiple repeats of the consensus amino acid sequence Pro-Ala-Asn-Gly-Gly-Leu, PANGGL (Figure 3A). Such repeats are not present in the other LRIM proteins and could not be identified in any other protein-coding genes. Sequencing multiple APL1C cDNA clones from laboratory adult male An. gambiae mosquitoes indicated the existence of polymorphic AgAPL1C alleles encoding variable numbers of PANGGL repeats (Figure 4). The G3 mosquitoes exhibit three major bands likely corresponding to different alleles, while up to six different alleles were identified from individuals of the more recently colonised Yaounde strain. However, the possible structural and functional significance of these PANGGL repeat polymorphisms remains to be determined.

Variation of Anopheles gambiae APL1C PANGGL (Pro-Ala-Asn-Gly-Gly-Leu) repeats in individual male mosquitoes from three laboratory strains. PCR primers amplify variable-length fragments likely corresponding to up to three, four, and six PANGGL repeat copy-number variations in samples of 12 individual G3, L35, and Yaounde mosquitoes, respectively.

LRIMs contain 6 to 14 LRRs of different lengths

The Short LRIMs and the majority of Coil-less LRIMs contain 6 or 7 recognisable LRRs while the LRR domains of the Long, TM, and remaining 3 Coil-less LRIMs are made up of 10 to 14 repeats (see additional file 1). LRR motifs are typically 20 to 30 residues in length and are characterised by an 11-residue consensus defined principally by the spacing of the leucines, LxxLxLxxNxL (Figure 3). The LRR pattern tolerates various substitutions with the leucines (L) frequently being replaced by valine (V) or isoleucine (l) and the position of the asparagine (N) accepting serine (S), threonine (t), or cysteine (C) replacements. LRRs of the Coil-less LRIMs show frequent N replacements while the N is ubiquitous among Long LRIM LRRs and highly-conserved among TM and Short LRIMs: t replaces N in LRR-k of the TM LRIMs (Figure 3A), and the Short LRIM5 and LRIM11 each have one LRR where N is not maintained. Apart from the LRIM1 orthologues, the LRIM LRR domains are preceded by a leucine-rich leader (LRL, Figure 3A) that resembles the LRR signature sequence but exhibits elevated leucine substitutions and almost never has the characteristic N. The similarity suggests that LRLs may form similar strand-helix/turn structures of the more canonical LRRs, but as the first of these repeating structures the LRL sequences are likely to be less constrained. The Short and Coil-less LRIMs also exhibit LRL sequences, but these are less distinct among many Coil-less LRIMs where the LRR consensus sequences are generally less well-defined. Such an irregular type of LRR-like sequence found at the start of the LRR domain is also frequently observed in the sequences of vertebrate TLRs [26]. The last LRR (LRR-N) is distinct from the other LRIM LRRs, this LRR is well-conserved with a tryptophan (W) or phenylalanine (F) consistently replacing the last 'L' of the LRR consensus followed by a ubiquitously present cysteine residue (LxxLxLxxNx[WF]xC). This distinctive terminal LRR pattern is also observed among the Short and Coil-less LRIMs.

Examining the lengths of the LRIM LRRs revealed the exceptionally short LRR-G, which is consistently only 19 amino acids long (Figure 3B). The majority of LRIM LRRs are 24 residues in length, which is also the most common LRR length among LRR-containing proteins of mosquitoes and other insects. LRR lengths include the 11-residue consensus identifiable from sequence profiles plus the additional variable-length region before the start of the next consensus, which for LRR-G is just 8 residues long (Figure 3C). Although rare, examples of short LRRs with only 19 amino acids have been identified, e.g. Mimivirus protein R380 [27], suggesting that such short LRRs may not necessarily interrupt the complete LRR fold. Proline residues in the LRR variable regions are common in short LRRs where they form part of the convex side of these repeats. Consistent with this observation, proline is the most common residue at positions 17 and 18 of LRR-G (Figuur 3C). The LRR immediately following the short LRR-G exhibits the most variable lengths with LRRs of 20, 21, 22, 23, and 24 amino acids (LRR-H) and the third 'L' of its 11-residue LRR consensus is almost always replaced by a less bulky alanine (EEN) residue. The mosquito LRIM-like genes are thus characterised by a variable number of 6 to 14 recognisable LRRs of different lengths, with a subset of LRIMs that exhibit an unusually short LRR of only 19 amino acids.

Patterns of LRIM cysteine residues suggest critical disulphide bridging

The comparison of protein sequences most closely related to Ag LRIM1 and Ag APL1C highlights several well-conserved patterns of cysteine residues (Figure 3A). The leading C-C motif is notably absent from Ag LRIM1 and Ag APL1B, while the double-cysteine motif (C-CC) is incomplete in Aa LRIM2 and missing from the frameshift-disrupted Ag APL1A. This frameshift is present in the sequenced An. gambiae PEST genome assembly but may not occur in other populations where anti-parasitic effects of Ag APL1A have been observed [13]. The double-cysteine motif is consistently replaced by a tyrosine-cysteine motif in the TM LRIMs, and a third solitary cysteine (C*) is conserved in only LRIM1 and LRIM2/APL1 proteins. The leading C-C motif and the double-cysteine motif are also present in all Short and Coil-less LRIMs apart from the three LRIM20 orthologues that lack the leading C-C motif (see additional file 1). Such cysteine patterns are common to many LRR-containing proteins in the regions immediately flanking the LRR domain where they form intramolecular disulphide-bonded caps that stabilise the N-and C-terminal ends of the LRR domains [27]. A double-cysteine motif resembling that found in the LRIMs forms the disulphide-bonded C-terminal cap of the Nogo-66 receptor, a human LRR protein involved in signalling that modulates axon regeneration [28]. This motif contains six cysteines that form three disulphide bridges, suggesting that the LRIM C-CC motif, together with a ubiquitously conserved cysteine residue that immediately follows the last LRR consensus, could allow for the formation of two disulphide bridges to build a stabilising cap.

As well as forming the N-and C-terminal LRR caps, the patterns of cysteine residues may also be important in stabilising LRIM-LRIM interactions as in the case of Ag LRIM1 and Ag APL1C. Examining the behaviour of Ag LRIM1 and Ag APL1C using specific antibodies under non-reducing conditions revealed major protein bands of a high molecular weight complex that resolved into expected monomer sizes under reducing conditions [3]. Thus, these two LRIMs form a disulphide-bridged complex, further suggesting that the patterns of conserved cysteine residues that characterise the family of LRIM proteins may be critical to the formation of LRIM complexes. LRR-flanking cysteines have also been implicated in facilitating interactions with other proteins as in the case of mammalian TLR4 and its MD-2 (myeloid differentiation protein) partner required for the recognition of lipopolysaccharide [29]. The MD-2-like family of proteins is expanded in mosquitoes compared to the fruitfly and exhibits six conserved cysteines that may be important in such protein-protein interactions [1, 21]. At least one of these MD-2-like proteins in An. gambiae shows specificity in regulating resistance to P. falciparum [21]. Thus, cysteine residue patterns among LRIM-like proteins may be important for LRR capping as well as for stable interactions both in the formation of LRIM complexes and in the interaction with other protein partners.

LRIM coiled-coil domains may facilitate protein-protein interactions

The LRIM1 and APL1/LRIM2 proteins all exhibit a double coiled-coil C-terminal domain (Figure 3A), while the remaining Long LRIMs and all the Short LRIMs exhibit at least one coiled-coil C-terminal region (see additional file 1). Coiled-coil domains can take on a variety of conformations with different helix stoichiometries and orientations [30]. Protein coiled-coils are formed when alpha-helices wrap around each other into stable supercoiled structures of parallel or anti-parallel, homo-or hetero-, dimers or higher order oligomers found in both fibrous and globular proteins. Each of the seven-residue repeats that define the primary structure of coiled-coils gives rise to a complete turn along the alpha-helix, with an amphipathic nature required for supercoil formation. Despite understanding these principles, reliable predictions of coiled-coil domain interactions remain generally unfeasible.

While the predicted monomer sizes of An. gambiae LRIM1 and APL1C are

80 kD, respectively, the disulphide-bridged complex migrated at

260 kD suggesting the presence of a functional multimer in the hemolymph [3]. However, given that the observed size changes significantly depending on the resolving power of the gel system used for protein separation (Povelones M, unpublished data), and that coiled-coil containing proteins often exhibit aberrantly slow electrophoretic mobility, it is possible that the complex is assembled from 2-4 LRIM1 or APL1C monomers. Their double coiled-coil domains may facilitate initial associations that bring the proteins together in an orientation to promote the formation of stabilising disulphide bridges. The LRIM coiled-coil domains may therefore play critical roles in facilitating protein-protein interactions, both in the formation of LRIM protein complexes as well as in associating with other components of the mosquito complement-like system.


Protein Secondary Structure: α-Helices and β-Sheets

In the following we will focus on the general aspects of protein secondary structure. Many of the features discussed here are essential for practical applications &minus for example in sequence alignment and analysis, homology modelling and analysis of model quality, in planning mutations or when analyzing protein-ligand interactions.

The &alpha-helix
The most common type of secondary structure in proteins is the &alpha-helix. Linus Pauling was the first to predict the existence of &alpha-helices. The prediction was confirmed when the first three-dimensional structure of a protein, myoglobin (by Max Perutz and John Kendrew) was determined by X-ray crystallography. An example of an &alpha-helix is shown on the image below. This type of representation of a protein structure is called &ldquosticks representation&rdquo. To get a better impression of how a helix looks like, only the main chain of the polypeptide is shown, no side chains. There are 3.6 residues/turn in an &alpha-helix, which means that there is one residue every 100 degrees of rotation (360/3.6). Each residue is translated 1.5 Å along the helix axis, which gives a vertical distance of 5.4 Å between structurally equivalent atoms in a turn (pitch of a turn). The repeating structural pattern in helices is a result of repeating (similar) &phi and &psi values, which is reflected in the clustering of the torsion angles within the helical region of the Ramachandran plot . When looking at the helix in the figure below, notice how the carbonyl (C=O) oxygen atoms (shown in red) point in one direction, towards the amide NH groups 4 residues away (i, i+4). Together these groups form a hydrogen bond, one of the main forces in the stabilization of secondary structure in proteins. The hydrogen bonds are shown on the figure as dashed lines.

The &alpha-helix is not the only helical structure in proteins. Other helical structures include the 3_10 helix, which is stabilized by hydrogen bonds of the type (i, i+3) and the &pi-helix, which is stabilized by hydrogen bonds of the type (i, i+5). The 3_10 helix has a smaller radius, compared to the &alpha-helix, while the &pi-helix has a larger radius. The first detailed analysis of the occurrence of the &pi-helix in proteins, based on the analysis of entries in the Protein Data Bank (PDB), was published by Fodje & Al-Karadaghi, 2002 .
We should also note that in addition to the &ldquosimple&rdquo helical structures mentioned here, there is a number of so-called coiled-coil structures, in which two or more &alpha-helices together build higher-order helical structures.

The &beta-sheet
The second major secondary structure element in proteins is the &beta-sheet. &beta-sheets consist of several &beta-strands, stretched segments of the polypeptide chain kept together by a network of hydrogen bonds between adjacent strands. An example of a &beta-sheet, with the stabilizing hydrogen bonds between adjacent strands (shown as dotted lines), is shown in the image below:

It is important to note that unlike in helices, the residues informing hydrogen bonds between the adjacent strands are separated from each other by long segments of the amino acid sequence.

In the following image the same &beta-sheet is shown, this time in the context of the 3D structure to which it belongs and in a so-called "ribbon" representation (the coloring here is according to secondary structure - &beta-sheets in yellow and helices in magenta). Each &beta&minusstrand is represented by an arrow, which defines its direction starting from the N- to the C-terminus. When the strand arrows point in the same direction, we call such &beta-sheet parallel (the protein PDB code is 1G8P, BchI subunit of magnesium chelatase). You may also notice a &beta-hairpin, two strands connected by a loop in the left corner of the image:

In the image below you can see that the strand arrows point in opposite directions, which is a characteristic of an anti-parallel &beta-sheet (this protein PDB code is 1USR, Newcastle disease virus hemagglutinin-neuraminidase).

Loops, turns and hairpins
When there are only 2 anti-parallel &beta-strands, like in the figure below, it is called a &beta-hairpin.

The loop between the two strands is called a &beta-turn. Short turns and longer loops play an important role in protein 3D structures, connecting together strands to strands, strands to &alpha-helices, or helices to helices. The amino acid sequences in loop regions are often highly variable within a protein family. But in some cases, when a loop has some specific function, for example interaction with another protein, the sequence may be conserved. Loop length in proteins from organisms living at elevated temperatures (thermophilic organisms) is usually shorter than in protein from lower-temperature family members, presumably to give a protein additional stability at high temperatures, preventing its unfolding and denaturation. During sequence alignment and homology modeling , when it is essential to have an accurate sequence alignment, the highly variable length of loop regions justifies the localization of insertions and deletions in the amino acid sequence to loop regions.

Structural motifs that contain combinations of helices, helices and strands, etc., are closely linked to protein fold. For this reason, when viewing a protein 3D structures, it is an advantage to be able to recognize the secondary structure elements and to identify structural motifs. In the next section we will examine some of the ways by which secondary structure elements connect to each other, forming common structural motifs and folds .


Bekijk de video: Coiled coil alpha Helix (December 2021).