Informatie

G4. Voorspelling van membraaneiwitstructuur - biologie


Tot nu toe hebben we voornamelijk globulaire eiwitten besproken die oplosbaar zijn in water. In de natuur worden twee hoofdklassen van membraaneiwitten aangetroffen.

  • perifere membraaneiwitten: in water oplosbare eiwitten bonden reversibel en niet-covalent aan het membraan door middel van elektrostatische aantrekkingen tussen geladen polaire kopgroepen van de fosfolipiden en het eiwit. Deze eiwitten kunnen vaak van het membraan worden vrijgemaakt door toevoeging van een hoog zoutgehalte, omdat ze vaak worden aangetrokken door de dubbellaag door elektrostatische interacties tussen geladen fosfolipidekopgroepen en polaire/geladen groepen op het eiwitoppervlak.
  • integrale membraaneiwitten: eigenlijk invoegen in de dubbellaag. Deze kunnen van het membraan worden vrijgemaakt en effectief worden opgelost door de toevoeging van amfifielen met een enkele keten (detergentia) die een gemengde micel vormen met het integrale membraaneiwit. Niet-ionische detergentia (Trition X-100, octylglucoside, enz.) worden vaak gebruikt bij de zuivering van membraaneiwitten. Ionische detergentia (zoals SDS) lossen niet alleen de integrale membraaneiwitten op, maar denatureren ze ook.

Figuur: Soorten membraaneiwitten

In sommige van deze integrale membraaneiwitten zijn grote extracellulaire en intracellulaire domeinen van het eiwit aanwezig, verbonden door de intramembraangebieden. Het intramembraan overspannende gebied bestaat vaak uit ofwel een enkele alfa-helix, of 7 verschillende spiraalvormige gebieden die door het membraan zigzaggen. Deze transmembraansequenties kunnen gemakkelijk worden bepaald door middel van hydropathieberekeningen. Beschouw bijvoorbeeld het integrale membraan rundereiwit rhodopsine. De volgorde van 348 aminozuren (in een enkele lettercode) wordt hieronder weergegeven:

MNGTEGPNFYVPFSNKTGVVRSPFEAPQYYLAEPWQFSMLAAYMFLLIMLGFPINFLTLY
VTVQHKKLRTPLNYILLNLAVADLFMVFGGFTTTLYTSLHGYFVFGPTGCNLEGFFATLG
GEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLVGWSRYIP
EGMQCSCGIDYYTPHEETNNESFVIYMFVVHFIIPLIVIFFCYGQLVFTVKEAAAQQQES
ATTQKAEKEVTRRMVIIMVIAFLICWLPYAGVAFYIFTHQGSDFGPIFMTIPAFFAKTAV
YNPVIYIMMNKQFRNCMVTTLCCGKNPLGDDEASTTVSKTETSQVAPA

Rhodopsine hydropathie plotberekeningen laten zien dat het zeven transmembraanhelices bevat die op een kronkelige manier door het membraan kronkelen.

Figuur: Rhodopsine hydropathie plot


Figuur: zeven transmembraanhelices


Resultaten van rodopsinehydropathie

Nee.N-terminaltransmembraangebiedC-aansluitingtypelengte
140LAAYMFLLIMLGFPINFLTLYVT62PRIMAIRE23
271PLNYILLNLAVADLFMVFGGFTT93ONDERGESCHIKT23
3113EGFFATLGGEIALWSLVVLAIER135ONDERGESCHIKT23
4156GVAFTWVMALACAAPPLVGWSRY178ONDERGESCHIKT23
5207MFVVHFIIPLIVIFFCYGQLVFT229PRIMAIRE23
6261FLICWLPYAGVAFYIFTHQGSDF283PRIMAIRE23
7300VYNPVIYIMMNKQFRNCMVTTLC322ONDERGESCHIKT23

Samenvattend zijn hydropathiegrafieken daarom nuttig bij het vinden van begraven gebieden in wateroplosbare eiwitten, transmembraanhelices in integrale membraaneiwitten evenals korte stukken polaire/geladen aminozuren die oppervlaktelussen zouden kunnen vormen die herkenbaar zijn door antilichamen van het immuunsysteem. De venstergrootte die in hydropathieplots wordt gebruikt, zou uiteraard van invloed zijn op de berekende resultaten. Vensters van 20 aminozuren zijn bruikbaar om transmembraanhelices te bepalen, terwijl vensters van 5-7 aminozuren worden gebruikt om aan het oppervlak blootgestelde hydrofiele plaatsen te vinden.

Membraaneiwitten worden opgelost door toevoeging van amfifielen met een enkele keten (detergentia). De niet-polaire staarten van de detergentia interageren met het hydrofobe transmembraandomein van het membraaneiwit en vormen een "gemengde" micelachtige structuur. Niet-ionische detergentia zoals Triton X-100 en octyl-glucoside worden vaak gebruikt om membraaneiwitten in hun bijna natuurlijke staat op te lossen. Daarentegen denatureren ionische detergentia zoals natriumdedecylsulfaat (met een negatief geladen kopgroep) eiwitten tijdens het solubilisatieproces. Om membraaneiwitten in een meer natieve omgeving te bestuderen, kunnen eiwitten die oplosbaar zijn gemaakt door niet-ionisch detergens worden gereconstitueerd in tweelaagse liposoomstructuren met behulp van methoden die vergelijkbaar zijn met die van Lab 1 waarin u met kleurstof ingekapselde grote unilamellaire blaasjes (LUV's) hebt bereid. Het kan echter moeilijk zijn om de intra- en extracellulaire domeinen van membraaneiwitten in liposomen te bestuderen, aangezien een van die domeinen in het liposoom verborgen is. Onlangs heeft Sligar een nieuwe techniek ontwikkeld die deze barrière wegneemt. Hij creëerde een amfifiele eiwitschijf met een opening in het midden. De binnenste opening is bekleed met niet-polaire resten, terwijl het buitenoppervlak van de schijf polair is. Toen de schijven aan fosflipiden werden toegevoegd, vormden zich kleine dubbellagen in de schijf. Membraaneiwitten zoals de b-2-adrenerge receptor kunnen worden gereconstitueerd in de nanodisc-dubbellagen, waardoor blootstelling aan oplosmiddelen van zowel de intracellulaire als extracellulaire domeinen van het receptoreiwit mogelijk is.

Figuur: Nanodisc met membraaneiwit

  • Experimenteel bepaalde hydropathieschalen
  • Structurele kenmerken van de eiwitsequentie
  • Membraanproteïnebronnen
  • Membraanproteïnen met bekende 3D-structuur
  • 57 verschillende aminozuurschaalvoorspellers van ExPASy

G4. Voorspelling van membraaneiwitstructuur - biologie

Endogeen DNA G-quadruplex (G4)-structuren zijn gedetecteerd in menselijke cellen en in kaart gebracht in genomisch DNA en in een endogene chromatine-context door de volgende generatie sequencing-benaderingen aan te passen, om celtype- en celtoestand-specifieke G4-landschappen en een sterke link te onthullen van G4s met verhoogde transcriptie. Synthetische kleine moleculen en geconstrueerde antilichamen zijn van vitaal belang geweest om het bestaan ​​en de functies van G4 in cellen te onderzoeken.

Er is gevonden dat verschillende endogene eiwitten een interactie aangaan met DNA G4's, waaronder helicases, transcriptiefactoren en epigenetische en chromatine-remodellers. Gedetailleerde structurele en functionele studies gaven nieuw inzicht in G4-eiwitinteracties en onthulden een mogelijke betrokkenheid van G4's bij een reeks biologische processen.

Meerdere nieuwe bewijslijnen suggereren dat G4's een rol spelen bij de groei en progressie van kanker. Er zijn meer G4's detecteerbaar in de toestand van kankercellen in vergelijking met de normale toestand, waardoor G4's zeer interessante doelen zijn bij het ontdekken van geneesmiddelen. Recente studies zijn begonnen met het onderzoeken van het potentieel voor synthetische letaliteit en globale modulatie van kankergentranscriptie.

Guaninerijke DNA-sequenties kunnen worden gevouwen tot vierstrengige, niet-canonieke secundaire structuren die G-quadruplexen (G4s) worden genoemd. G4's werden aanvankelijk als een structurele curiositeit beschouwd, maar recent bewijs suggereert hun betrokkenheid bij belangrijke genoomfuncties zoals transcriptie, replicatie, genoomstabiliteit en epigenetische regulatie, samen met talrijke verbindingen met kankerbiologie. Gezamenlijk hebben deze vorderingen onderzoek gestimuleerd naar G4-mechanismen en daaruit voortvloeiende mogelijkheden voor therapeutische interventie. Hier bieden we een perspectief op de structuur en functie van G4's met de nadruk op belangrijke moleculen en methodologische vooruitgang die de studie van G4-structuren in menselijke cellen mogelijk maken. We onderzoeken ook kritisch recente mechanistische inzichten in G4-biologie en eiwitinteractiepartners en benadrukken kansen voor het ontdekken van geneesmiddelen.


G4. Voorspelling van membraaneiwitstructuur - biologie

Moleculen passen in kaarten met lage resolutie elektronendichtheid

Een groeiende techniek bij het bepalen van de eiwitstructuur is cryo-elektronenmicroscopie. Cryo-EM biedt kaarten met lage resolutie elektronendichtheid (

8 Ångström) . Naarmate deze gegevens nauwkeuriger worden, kunt u deze gegevens niet alleen gebruiken om de algehele structuur van eiwitcomplexen te bepalen, maar ook om secundaire structuurelementen en hun assemblage in de tertiaire structuur van een eiwit te bepalen. Het succesvolle veld van ab initio eiwitstructuurvoorspelling ca meer.

BCL::Jufo: Gelijktijdige voorspelling van secundaire eiwitstructuur en trans-membraanoverspanningen
Een eerste stap naar voorspelling van de tertiaire structuur van eiwitten is de identificatie van secundaire structuurelementen uit de sequentie. Bovendien is de identificatie van transmembraanoverspanningen vereist voor membraaneiwitten.

Het doel van dit project is om gelijktijdig secundaire structuur en transmembraan overspanningen te voorspellen met één enkele tool. De grondgedachte voor deze benadering is de hypothese dat beide fenomenen met elkaar samenhangen: meer.

Onderzoek in ons laboratorium probeert computationele en experimentele inspanningen te combineren om eiwitten, de fundamentele moleculen van de biologie en hun interacties met kleine molecuulsubstraten, therapieën of sondes te onderzoeken. We ontwikkelen computationele methoden met drie grote ambities voor ogen.

A) Om eiwitstructuur opheldering van membraaneiwitten mogelijk te maken, het primaire doelwit van de meeste therapeutische en grote macromoleculaire complexen zoals virussen
B) Ontwerp eiwitten met een nieuwe structuur en/of functie om nieuwe benaderingen van eiwittherapieën te onderzoeken en ons begrip van eiwitvouwingsroutes te verdiepen.
C) De relatie tussen chemische structuur en biologische activiteit kwantitatief begrijpen om efficiëntere en specifiekere medicijnen te ontwerpen.

Cruciaal voor ons succes is de experimentele validatie van onze computationele benaderingen die we nastreven in ons laboratorium of in samenwerking met andere wetenschappers.

Huidige onderzoekstoepassingen zijn gericht op nieuwe benaderingen van a) de ontwikkeling van geneesmiddelen en probes voor neurodegeneratieve aandoeningen en ziekten, waaronder schizofrenie, de ziekte van Alzheimer en de ziekte van Parkinson, b) het begrijpen van de structurele determinanten van de binding van antidepressiva aan neurotransmittertransporteurs, c) hartritmestoornissen zoals veroorzaakt door het complexe samenspel van kaliumkanaalregulatie en geneesmiddelinteracties, d) multidrugresistentie bij kanker- en bacteriële cellen gerelateerd aan multidrugtransporter-eiwitten, en e) structurele basis van virale infecties en antilichaamactiviteit.

Eli McDonald heeft een Russell G. Hamilton Graduate Leadership Institute Dissertation Enhancement Grant ontvangen! Het Graduate Leadership Institute selecteert elk jaar uitmuntende PhD-studenten en stelt $ 2000 ter beschikking voor onderzoeksuitgaven.
Gefeliciteerd Eli!


Taylor Jones ontving de Biomedical Informatics T15 Training Grant (NIEHS-gefinancierd) voor het jaar 2020-2021! 2020-05-19

Taylor Jones zal vanaf 1 juni 2020 als afstudeerstudent bij Meiler Lab komen werken! De aanstelling van de opleidingsbeurs werd aangeboden door de afdeling Biomedische Informatica van de Vanderbilt University en is opgericht door NIEHS.

Gefeliciteerd Taylor en welkom bij Meiler Lab!


Tiffany Alyssa Shields ontving de Merck Index Award! 2020-04-23

De Merck Index Award wordt jaarlijks uitgereikt aan een uitstekende afstuderende senior die naar de medische school of graduate school gaat.


Aodong Liu ontving de Thomas W. Martin Award! 2020-04-22

De Thomas W. Martin Award werd in 1993 in het leven geroepen ter nagedachtenis aan Thomas W. Martin, hoogleraar scheikunde aan Vanderbilt van 1957 tot 1991. Wordt jaarlijks uitgereikt aan een afstuderende scheikunde-majoor die heeft uitgeblonken in fysische scheikunde en van plan is om naar een graduate school in de scheikunde te gaan.

Gefeliciteerd Aodong Liu!


Pranav Kodali ontving de Biochemistry Department Aida Nureddin Outstanding Junior Researcher Award! 2020-04-15


Proficiat aan Dr. Meiler voor zijn dubbele hoogleraarschap aan de Universiteit van Leipzig en Vanderbilt University 2020-01-28


Voormalig Meiler laboratoriumstudent Bian Li ontvangt een AHA-beurs. 2019-12-09

Voormalig Meiler laboratoriumstudent Bian Li ontvangt een vooraanstaande beurs van de American Heart Association (AHA) voor zijn project "Biophysical Insights into and Probabilistic Interpretation of Cardiac Ion Channel Variants of Uncertain Significance"


Brennica Marlow is geselecteerd om medevoorzitter te zijn van een sessie op de 64e jaarvergadering van de Biophysical Society 2019-12-09

Brennica Marlow is geselecteerd om de sessie mede voor te zitten &ldquoPlatform: eiwit-lipide-interacties I&rdquo op de 64e jaarvergadering van de Biophysical Society. Deze sessie vindt plaats in San Diego CA op zondag 16 februari 2020.


Rocco Moretti, PhD is gepromoveerd tot Research Associate Professor 2019-06-17

Rocco Moretti, PhD is gepromoveerd tot Research Associate Professor als erkenning voor zijn bijdragen aan onderzoeksexcellentie aan de Vanderbilt University, het Department of Chemistry, de RosettaCommons (https://www.rosettacommons.org/) en het Meiler-laboratorium.


Marion Sauer wint de Student Leadership Award 2019 2019-06-15

Gefeliciteerd Marion en bedankt voor je taakstraf!


Eli McDonald for ontvangt de Vanderbilt Chemistry Biology Interface Training Grant 2019-05-28

Gefeliciteerd Eli McDonald met het ontvangen van de Vanderbilt Chemistry Biology Interface Training Grant (NIH-#5T32GM065086) namens het Vanderbilt Institute of Chemical Biology.


Jens Meiler ontvangt Humboldt Foundation-prijs 2018-12-18

Jens Meiler is geselecteerd voor het Humboldt-hoogleraarschap en gaat nu de benoemingsonderhandelingen aan met de Duitse universiteit die hem heeft voorgedragen. Als de onderhandelingen slagen, wordt de prijs in mei 2019 uitgereikt.


Shannon Smith ontvangt de PhRMA Foundation Pre-Doctoral Informatics Fellowship 2018-12-11

Shannon Smith ontvangt de PhRMA Foundation Pre-Doctoral Informatics Fellowship.


Samuel Schmitz is geslaagd voor zijn kwalificatie-examen! 2018-11-13

Samuel Schmitz slaagt voor zijn kwalificatie-examen met de titel "A Combined Sequence-Structure Approach to Elucidate Immunome Repertoires".


Jessica Finn is geslaagd voor haar verdediging! 2018-11-12

Jessica Finn slaagde voor haar verdediging met de titel "Sequence, Structure, and Function Relationships of Human Antibodies"


Brian Bender geslaagd voor zijn verdediging! 2018-11-11

Brian Bender slaagde voor zijn verdediging met de titel "Structuurvoorspelling en variantinterpretatie van membraaneiwitten geholpen door machine learning-algoritmen"


    Voorspelling van de eiwitstructuur heeft tot doel de ruimtelijke locatie van elk atoom in een eiwitmolecuul uit de aminozuursequentie te bepalen door computationele berekeningen. Ons lab heeft een aantal algoritmen ontwikkeld voor het voorspellen van de 3D-structuur van eiwitten, waaronder I-TASSER voor iteratieve eiwitstructuurassemblage, QUARK voor ab initio eiwitvouwing, en MUSTER en LOMETS voor identificatie van eiwitsjabloonstructuren, waarvan sommige zijn erkend als 's werelds beste en meest gebruikte door de gemeenschap.

De Critical Assessment of Structure Prediction (CASP) is een experiment voor de hele gemeenschap, dat ontworpen is om de state-of-the-art van de voorspelling van de eiwitstructuur sinds 1994 om de twee jaar te benchmarken. Ons laboratorium heeft als "Zhang-Server" deelgenomen aan de sectie geautomatiseerde structuurvoorspelling sinds 2006, waarin de methode consequent bovenaan is gerangschikt in de experimenten (tabel 1). De resultaten van recente CASP-experimenten zijn te vinden in het Protein Structure Prediction Center.

tafel 1. Top tien groepen in geautomatiseerde structuurvoorspelling in CASP 7-9, gerangschikt op basis van cumulatieve GDT-TS-score van het eerste model.
(De gegevens zijn afkomstig van http://predictioncenter.org. Als meerdere servers uit hetzelfde lab komen, werd de beste server vermeld)

Het moeilijkste probleem bij het voorspellen van de eiwitstructuur is het modelleren van eiwitten die geen opgeloste structuren hebben die als matrijs kunnen worden gebruikt, gewoonlijk "ab initio" of "vrije modellering (FM)"-modellering genoemd. Figuur 1 toont een succesvol voorbeeld van ab initio-modellering op een FM-doel (T0604_1) in CASP9, waarbij het eerste model van de I-TASSER-server een RMSD van 2,66 Angstrom heeft voor de röntgenkristalstructuur.
Figuur 1. Het eerste model van de I-TASSER-server versus de kristalstructuur van T0604_1, een FM-doelwit in CASP9.
Dit is het VP0956-eiwit van Vibrio parahaemolyticus, opgelost door het Northeast Structural Genomics Consortium.

  1. Hoe structuren met experimentele resolutie te bouwen (minder dan 1-2 Angstrom, nuttig voor screening van geneesmiddelen) wanneer homologe sjablonen beschikbaar zijn?
  2. Hoe identificeert u verre homologe sjablonen met nauwkeurige uitlijning van querysjablonen?
  3. Hoe eiwitten (vooral bèta-eiwitten) te vouwen met de juiste topologie door ab initio-modellering, als er geen sjablonen bestaan?
  4. Hoe membraaneiwitten vouwen?
    Eiwitontwerp verwijst naar de inspanning om nieuwe eiwitmoleculen te ontwerpen met een gewenste 3D-structuur en -functie. Het is een omgekeerde procedure voor het voorspellen van de eiwitstructuur, en de oplossing van het probleem is daarom sterk afhankelijk van de mate van ons begrip van het principe van eiwitvouwing (Figuur 2).
    Figuur 2. Eiwitontwerp is een omgekeerde procedure voor het voorspellen van de eiwitstructuur.

We hebben met succes een aantal nieuwe eiwitsequenties ontworpen op basis van een op fysica gebaseerd atomair krachtveld met de laagste vrije-energietoestand waarnaar wordt gezocht door Monte Carlo-simulatie, gevolgd door op sequenties gebaseerde clustering. De ontworpen eiwitsequentie kan in 62% van de gevallen door I-TASSER worden gevouwen met een RMSD <2 Angstroms, ondanks dat het I-TASSER-krachtveld aanzienlijk verschilt van dat in het ontwerp. Figuur 3 toont drie representatieve voorbeelden van de doeleiwitstructuur en het I-TASSER-model van de ontworpen sequenties.

figuur 3. I-TASSER-modellen van ontwerpsequenties (rood) versus kristalstructuur van doeleiwitten (groen)
voor calciumbindend domein van Calx (3E9TA), geurbindend eiwit (2ERBA) en peptidyl-tRNA
hydrolase (1WN2A). De sequentie-identiteiten van de ontworpen en doelsequenties zijn allemaal lager dan 30%.

Onlangs hebben we een nieuw protocol voorgesteld, EvoDesign, dat evolutionaire profielen gebruikt om de vouwverfijning van nieuwe ontwerpen te begeleiden, met biologische functies geïntroduceerd door eiwit-interface bindingsprofielen en interacties. Het protocol werd onlangs gebruikt om met succes functionele XIAP (X-linked Inhibitor of Apoptosis Protein) BIR3-domeinen te ontwerpen die in staat zijn om Smac-peptiden te binden maar de proteolytische activiteit van caspase-9 in vitro niet te remmen, wat het potentieel aantoonde om apoptose-routes te veranderen door middel van computationeel eiwitontwerp ( Figuur 4).

Figuur 4. Volgorde en structuur van twee XIAP's ontworpen door EvoDesign die bindt met
Smac-peptiden maar remmen de proteolytische activiteit van caspase-9 in vitro niet.

    Kunnen we, gegeven de aminozuurvolgorde, zien wat het eiwitmolecuul doet in levende cellen? We hebben COFACTOR ontwikkeld voor het voorspellen van eiwitfuncties, gebaseerd op het sequentie-naar-structuur-naar-functie-paradigma. Uit de aminozuursequentie worden eerst 3D-structuren geconstrueerd door I-TASSER. De functionele inzichten (inclusief enzymclassificatie, genontologie en ligandbindingsspecificiteit) worden vervolgens afgeleid door de lokale en globale vergelijking van de structurele modellen met eiwitten met bekende functies (Figuur 5).


Figuur 5. Annotatie van eiwitfuncties op basis van het paradigma van sequentie-naar-structuur-naar-functie. Het recht
panel is de functiehomologen geïdentificeerd door globale (a) en lokale (b) overeenkomsten van I-TASSER-modellen.

De COFACTOR werd getest in het gemeenschapsbrede CASP9-experiment als "I-TASSER_FUNCTION" in de Server-sectie en als "ZHANG" in de Human-sectie, die werden gerangschikt op de eerste twee posities in zowel de Z-score als de Matthews-correlatiecoëfficiënt ( MCC) vergeleken met de experimentele gegevens (Figuur 6).

    Mutatie en evolutie in het menselijk genoom vinden voornamelijk plaats via single nucleotide polymorphisms (SNP's), d.w.z. vervangingen van een enkele nucleotide in de DNA-sequentie. Hoewel veel SNP's geen effect hebben op de menselijke gezondheid, kunnen sommige SNP's resulteren in een abnormale vouw en functie van eiwitten en ernstige menselijke ziekten. Studies hebben aangetoond dat meer dan 6.000 menselijke ziekten het gevolg zijn van SNP-mutaties, en bijna alle menselijke kankers worden veroorzaakt door genmutaties, sommige door aangeboren erfelijkheid en sommige optredend tijdens celdeling (Figuur 7).


Figuur 7. Veel menselijke ziekten worden veroorzaakt door single nucleotide polymorphisms (SNP's).

We hebben onlangs de impact van SNP-mutaties op de eiwitvouwstabiliteit bestudeerd en ontdekten dat de SNP-geïnduceerde vrije-energieveranderingen (dwz ddG, figuur 8A), berekend op basis van de voorspelling van de eiwitstructuur, nauw gecorreleerd zijn met de experimentele meting, wat aantoont dat de haalbaarheid van het gebruik van structuurvoorspellingsinformatie met lage resolutie om het effect van genmutaties te onderzoeken (Figuur 8B). In een andere studie onderzochten we de impact van SNP-mutaties op de stabiliteit van eiwit-eiwitinteracties (PPI). Er werd gevonden dat de structurele profielen van de interface, verzameld uit homologe PPI-interfaces, kunnen worden gebruikt om de veranderingen van eiwit-eiwitbindingsaffiniteit door SNP-mutaties nauwkeurig te kalibreren (Figuur 8C).
Figuur 8. Modellering van de impact van SNP-mutaties op eiwitvouwing en eiwit-eiwitinteracties. (A) Definitie van
stabiliteitsverandering na mutatie in een tweestatenmodel. (B) Impact van voorspelling van eiwitstructuur op stabiliteitsverandering
berekeningen. (C) Bindende vrije-energieveranderingen berekend door interfaceprofiel versus experimentele gegevens over mutagenese.

    Elk eiwit interageert (althans tijdelijk) met ongeveer 9 andere eiwitten, wat gecompliceerde interactienetwerken binnen een cel vormt (Figuur 9). Aangezien de meeste eiwitten hun biologische functie uitoefenen door de interactie met andere eiwitten, kunnen veel ziekten worden behandeld door nieuwe geneesmiddelen te ontwerpen om de eiwit-eiwitinteracties te remmen of te activeren, waarbij kennis van de eiwit-eiwitcomplexstructuren essentieel is.

Figuur 9. Rhodopseudomonas palustris eiwit-eiwit interactie netwerk.

Om de 3D-structuur van eiwit-eiwitcomplexen op basis van sequentie te voorspellen, hebben we een nieuw dimerisch threading-algoritme, COTH, ontwikkeld om de sjabloonstructuur van eiwitcomplexen te herkennen uit opgeloste complexe structurele databases. COTH lijnt sequenties met meerdere ketens tegelijkertijd uit via de PDB-bibliotheek met behulp van scorefuncties, waaronder meerdere sequentieprofielen en structurele informatie, met behulp van interfacevoorspellingen van BSpred. Het COTH-algoritme vertoonde een aanzienlijk voordeel in vergelijking met andere op homologie gebaseerde sjabloonidentificatiemethoden (Figuur 10).

Figuur 10. TM-score van sjablonen geïdentificeerd door COTH versus die van andere op homologie gebaseerde methoden.

    G-eiwit-gekoppelde receptoren, of GPCR's, zijn integrale membraaneiwitten ingebed in het celoppervlak die signalen naar cellen verzenden als reactie op stimuli en fysiologische functies mediëren door interactie met heterotrimere G-eiwitten (Figuur 11). Veel ziekten hebben betrekking op de storing van deze receptoren, waardoor ze belangrijke doelwitten voor geneesmiddelen zijn. Meer dan 50% van alle moderne medicijnen zijn gericht op GPCR's, die 25% van de 100 best verkopende medicijnen wereldwijd vertegenwoordigen.


Afbeelding 11. GPCR's omvatten de grootste familie van membraaneiwitten en fungeren als celreceptoren voor cellulaire signaaltransductie.

We werken aan de ontwikkeling van de nieuwe GPCR-modelleringstool, GPCR-ITASSER, die I-TASSER uitbreidt door de eiwit-membraan-interacties en de beperkingen van mutagenese in het kennisgebaseerde krachtenveld te integreren. De ligand-GPCR-interacties worden vervolgens gemodelleerd door BSP-SLIM, een blind moleculair docking-instrument dat is ontworpen voor eiwit-ligand-docking met lage resolutie. De methode werd getest (als "UMich-Zhang") in het recente gemeenschapsbrede GPCR Dock-experiment in 2010. Afbeelding 12 toont het resultaat van ons laboratorium op alle drie de ligand-GPCR-complexen, waar de eerste receptormodellen 2,4 en 1,6 Angstrom zijn aan de kristalstructuur in het transmembraangebied voor respectievelijk de CXCR4-chemokine- en dopamine-D3-receptoren. De drie liganden, antagonisten IT1t, CVX15 en eticlopride, bevinden zich allemaal in dezelfde pocket als die in de kristalstructuur (Figuur 12).
Afbeelding 12. Het eerste ligand-receptor-dockingmodel gegenereerd door GPCR-ITASSER en BSP-SLIM in GPCR-Dock 2010.
Links: CXCR4 chemokine receptor met IT1t midden: CXCR receptor met CVX15 rechts: dopamine D3 met eticlopride.

Tabel 2 toont een samenvatting van de top 10 groepen (van de 35) in GPCRDock 2010, samen met de cumulatieve Z-score op alle drie de doelen voor zowel receptor- als ligandmodellen. Het belangrijkste succes van onze modellen is op het verre homologiedoel CXCR4/CVX15, zoals Kufareva et al. (de beoordelaars) merkten op: "Het modelleren van het CXCR4/CVX15-peptidecomplex vormde de grootste uitdaging van GPCR Dock 2010. Het topmodel van dit complex (door UMich-Zhang) heeft de Z-score van 2,45 en overtreft daarmee andere modellen in nauwkeurigheid. "

tafel 2. De beste 10 groepen in GPCRDock 2010 op basis van de totale Z-score van receptor- en ligandmodellen.
(Gegevens zijn overgenomen van Kufareva et al. Structure. 2011, 19: 1108)

    In termen van de lock-and-key-metafoor is het ontwerpen van geneesmiddelen in wezen een procedure om een ​​geschikt samengesteld molecuul (de sleutel) te vinden dat goed kan passen bij de actieve plaats van het doeleiwit (het slot). Daarom is een belangrijke stap van op structuur gebaseerd rationeel medicijnontwerp het gebruik van de experimentele of voorspelde 3D-structuur van het doeleiwit om samengestelde databases te screenen met als doel geschikte medicijnen te identificeren die het eiwit kunnen remmen of activeren (Figuur 13).

Afbeelding 13. Een succesvol voorbeeld van op structuur gebaseerd medicijnontwerp door Bugg et al. in 1990 bij het ontwerpen van een molecuul
dat het enzym purine nucleoside fosforylase (PNP) remt. PNP neemt normaal gesproken individuele nucleosiden op (a)
en splitst de purine van de suiker, waardoor een vrije purinebase en een gefosforyleerde suiker ontstaat (b).
Een nauwsluitende verbinding blokkeert de bindingsholte en remt daarom de activiteit van het PNP-enzym (c).

We hebben onlangs een samengestelde benadering ontwikkeld voor identificatie van drugsachtige verbindingen, die op structuur gebaseerde virtuele screening combineert met kwantitatieve structuur-activiteitsrelatie (QSAR). Bij gebruik van de benadering van de epidermale groeifactorreceptor (EGFR), een belangrijk doelwiteiwit dat is geassocieerd met hersen-, long-, blaas- en colontumoren, ontdekten we dat twee verbindingen (2 en 21) significante EGFR-remmende activiteiten hebben (Figuur 14). De experimentele test om het vermogen van de verbindingen om de receptoreiwitten te remmen te testen, is aan de gang.

Afbeelding 14. Bindingsstructuur van twee verbindingen gescreend uit de ZINC-bibliotheek die remmende
activiteit op de epidermale groeifactorreceptor (EGFR), een belangrijk tumordoelwiteiwit.


G4. Voorspelling van membraaneiwitstructuur - biologie

############### Stabiele versie: 2.2.1 Zie Wiki voor meer info

Muriel Keribin & Cyril Duchon-Doris voor Protein Prediction II WinterSemester 2015-2016

TMSEG voorspelt transmembraaneiwitten (TMP) en transmembraanhelices (TMH) met behulp van positiespecifieke scoringsmatrices (PSSM) gegenereerd door PSI-BLAST en de fysisch-chemische eigenschappen van de aminozuren.

Update: Vanwege het beperkte Git LFS-quotum hosten we die bestanden nu ook op de Rostlab FTP-server op ftp://rostlab.org/tmseg/

Sommige bestanden zijn erg groot (modelbestanden voor ML-algoritmen) en zijn vastgelegd met git-lfs*. Het is verplicht om de git-lfs te installeren bij het klonen/trekken van de repo. Download en installeer git-lfs Voer vervolgens git lfs install één keer uit op elke machine. Dan hoef je je er geen zorgen over te maken (alleen als je bestanden wilt toevoegen/hernoemen die je wilt bijhouden met git-lfs).

*Git Large File Storage (LFS) vervangt grote bestanden zoals audiosamples, video's, datasets en afbeeldingen door tekstaanwijzers in Git, terwijl de bestandsinhoud wordt opgeslagen op een externe server zoals GitHub.com of GitHub Enterprise.

Optioneel: je kunt ervoor kiezen om deze stap over te slaan en de voorverpakte tmseg.jar in de eerste /src/ map te gebruiken

Met een ANT-script (build.xml) kun je de nieuwste versie van het programma compileren met ant

Eenmaal getrokken met git-lfs, vind je tmseg.jar in de eerste /src/ map. Deze jar kan eenvoudig worden uitgevoerd met java met enkele voorbeelden in de /example map:

Het project kan worden geladen vanuit eclipse (een .project en .classpath zijn door ons toegevoegd)

Vanwege de JAVA-portabiliteit werkt het programma onder elk besturingssysteem dat een JVM kan draaien. Java 1.7 en 1.8 werken naar verluidt prima.

Michael Bernhofer (1) Edda Kloppmann (1,2) Jonas Reeb (1) Burkhard Rost (1,2,3,4)

  1. Afdeling Informatica & Centre for Bioinformatics & Computational Biology - i12, Technische Universität München (TUM), Boltzmannstr. 3, 85748 Garching/München, Duitsland
  2. New York Consortium over membraaneiwitstructuur, New York Structural Biology Center, 89 Convent Avenue, New York, NY 10027
  3. Instituut voor geavanceerde studie (TUM-IAS), Lichtenbergstr. 2a, 85748 Garching/München, Duitsland
  4. Instituut voor Voedings- en Plantenwetenschappen WZW – Weihenstephan, Alte Akademie 8, Freising, Duitsland

Eerste versie van het programma: het werk begon in 2014, de eerste vastlegging op 09/02/2014, de laatste op 01/03/2014 Een tweede versie (TMSEG 2) werd in november 2015 door Michael uitgebracht op https://github.com /BernhoferM/TMSEG2. De repo werd vervolgens geforkt naar Rostlab / namespace en het werk zou vanaf daar moeten worden voortgezet

Michael Bernhofer heeft de methode geïmplementeerd in dit java-programma TMSEG

M Bernhofer, E Kloppmann, J Reeb, B Rost. TMSEG: Nieuwe voorspelling van transmembraanhelices.

Het programma zelf is gecodeerd in java en geëxporteerd in een .jar-bestand. Bronbestanden beschikbaar onder src/

De voorspelling is verdeeld in drie stappen die worden uitgevoerd door drie verschillende classifiers.

  • Random Forest (RF) beslisbomen
  • voorspelt de waarschijnlijkheid dat elk residu zich in een van de drie toestanden bevindt: transmembraan, oplosbaar en signaalpeptide. De RF gebruikt een schuifvenster van 19 residuen voor de PSSM-scores en 9 residuen voor de fysisch-chemische eigenschappen (lading, hydrofobiciteit, polariteit). De eiwitsequentie wordt vervolgens verdeeld in transmembraan- en oplosbare segmenten (en signaalpeptide, indien van toepassing) op basis van de waarschijnlijkheden.
  • voorspelt de binnen/buiten topologie van de N-terminus. De voorspelling is gebaseerd op de aminozuursamenstelling en positieve lading van de residuen aan de twee zijden van het membraan (gescheiden door de TMH's).
  • Neural Network (NN) verfijnt de voorspelling door de positie van de TMH's aan te passen of mogelijk zeer lange TMH's te splitsen (>36 residuen). Deze NN is specifiek getraind op de lengte, aminozuursamenstelling en fysisch-chemische eigenschappen van TMH's.

TMSEG werd vergeleken met drie gevestigde methoden: PolyPhobius [1], MEMSAT3 [2], MEMSAT-SVM [3] en PHDhtm [4]. De prestaties waren op zijn minst vergelijkbaar met en vaak beter dan de andere drie methoden. De evaluatie werd uitgevoerd op een dataset met 41 transmembraaneiwitten en 285 oplosbare eiwitten. De PSSM-profielen werden gegenereerd door PSI-BLAST uit te voeren tegen de UniProt [5] Reference Cluster met 90% sequentie-identiteit (UniRef90).

TMSEG identificeerde correct 98±2% van de transmembraaneiwitten (40 van de 41 TMP's) en had een vals-positief percentage van slechts 3±1% (8 van de 285 oplosbare eiwitten). Transmembraanhelices werden voorspeld met een precisie van 87 ± 4% en recall van 85 ± 4%, en 66 ± 7% van alle transmembraaneiwitten werd voorspeld met al hun helices op de juiste posities (d.w.z. geen valse positieven/negatieven).

Een voorspelde helix werd als correct beschouwd als de eindpunten niet meer dan vijf residuen afweken van de waargenomen helix en als de overlap tussen de voorspelde en waargenomen helix ten minste de helft was van de lengte van de langere helix.

TMSEG gebruikt alleen de PSI-BLAST PSSM-scores en functies die van die scores zijn afgeleid. Daarom is de kwaliteit van de voorspelling sterk afhankelijk van de kwaliteit van de PSSM. Om het effect van de databasegrootte op de voorspellingsnauwkeurigheid te schatten, werden PSSM's van een PSI-BLAST-run tegen de UniRef50 Cluster en Swiss-Prot gebruikt.

Deze PSSM's hadden vooral invloed op het terugroepen van transmembraaneiwitten en helices. De eiwit recall daalde tot 95% (UniRef50) en 90% (Swiss-Prot), en de helix recall tot 79% (UniRef50) en 77% (Swiss-Prot). The precision of the transmembrane helices dropped to 83% (UniRef50) and 82% (Swiss-Prot), and the percentage of transmembrane proteins with all helices at their correct positions was only 59% (UniRef50) and 49% (Swiss-Prot). However, the false positive rate (i.e. soluble proteins predicted as transmembrane proteins) was mostly unaffected and remained at 3% (UniRef50) and 2% (Swiss-Prot).

Inputs/Output arguments and flags

IN -i : FASTA file (only amino acids sequences)

IN -p : PSSM Matrix file generated by PSI-BLAST

OUT -o : Human readable file

OUT -r : Raw prediction scores

FLAG -m : Multi-job (process whole folder of PSSM/FASTA)

FLAG -x : Process previous prediction - Adjust (requires FASTA)

FLAG -t : Only perform topology prediction

[1] L. Käll, A. Krogh, and E. L. Sonnhammer. An HMM posterior decoder for sequence feature prediction that includes homology information. Bioinformatics, 21 Suppl 1:i251–257, Jun 2005. [DOI:10.1093/bioinformatics/bti1014] [PubMed:15961464]

[2] D. T. Jones. Improving the accuracy of transmembrane protein topology prediction using evolutionary information Bioinformatics, 23(5):538–544, Mar 2007. [DOI:10.1093/bioinformatics/btl677] [PubMed:17237066]

[3] T Nugent, D. T. Jones. Transmembrane protein topology prediction using support vector machines. BMC Bioinformatics 200910:159. [DOI:10.1186/1471-2105-10-159] [PubMed:19470175]

[4] B. Rost, P. Fariselli, and R. Casadio. Topology prediction for helical transmembrane proteins at 86% accuracy. Protein Sci., 5(8):1704–1718, Aug 1996. [DOI:10.1002/pro.5560050824] [PubMed:8844859] [PubMed Central:PMC2143485]

[5] UniProt C. UniProt: a hub for protein information. Nucleïnezuren Res. 2015, 43:D204-212. [DOI:10.1093/nar/gku989] [PubMed:25348405] [PubMed Central:PMC4384041]


Debora Marks

Associate Professor of Systems Biology
Marks Lab website

Contact Information
Email: [email protected]

Faculty Assistant: Kevin Chimo
[email protected]
617-432-5041

One million human genomes, will it make a difference? The large and growing volume of genome information, from all forms of life, presents unprecedented opportunities for computational biologists. The challenge for our scientific generation is to turn an avalanche of sequence information into meaningful discovery of biological principles, predictive methods, or strategies for molecular manipulation for therapeutic and biofuel discovery. The Marks lab is a new interdisciplinary lab dedicated to developing rigorous computational approaches to critical challenges in biomedical research, particularly on the interpretation of genetic variation and its impact on basic science and clinical medicine. To address this we develop algorithmic approaches to biological data aimed at teasing out causality from correlative observations, an approach that has been surprisingly successful to date on notoriously hard problems. In particular, we developed methods adapted from statistical physics and graphical modeling to disentangle true contacts from observed evolutionary correlations of residues in protein sequences. Remarkably, these evolutionary couplings, identified from sequence alone, supplied enough information to fold a protein sequence into 3D. The software and methods we developed is available to the biological community on a public server that is quick and easy for non-experts to use. In this evolutionary approach to accurately we have predicted the 3D structure of hundreds of proteins and large pharmaceutically relevant membrane proteins. Many of these were previously of unknown structure and had no homology to known sequences two of the large membrane proteins have now been experimentally validated. We have now applied this approach genome wide to determine the 3D structure of all protein interactions that have sufficient sequences and can demonstrate the evolutionary signature of alternative conformations.

The vision for the Marks lab is to build computational methods that address three critical challenges (i) protein conformational plasticity in health and disease, (ii) genome-wide evaluation of mutations on disease likelihood, antibiotic resistance and personal drug response, and (iii) synthetic protein design.

About Dr. Marks: I am a computational biologist interested in how to read the genome and interpret its variation. Recently, we have used evolutionary couplings determined from genomic sequencing to accurately protein 3D structure from sequences alone, including the experimentally challenging transmembrane proteins. Continuing from this my lab aims to predict alternative conformations and plasticity of proteins, and the consequences of protein genetic variation on pharmacological intervention. In a complementary approach, we are examining on the effect of drugs on patients and cell lines by bringing together large bodies of data from multiple perturbations and thousands of cancer patient tissues.


G4. Prediction of Membrane Protein Structure - Biology

Transmembrane Prediction Server

This page has been developed for use locally (at the moment) for the prediction of transmembrane helices in proteins. It is made available publically, but is currently unsupported. If you have a major problem contact benjamin.hall (at) bioch.ox.ac.uk (replace (at) with @) but the response is not guaranteed. This service was developed by John Cuthbertson and the following reference should be cited if used in published work.

Transmembrane helix prediction: a comparative evaluation and analysis.

Protein Eng Des Sel. 2005 Jun18(6):295-308

This work was funded by the MRC:

None of the original programs were produced or developed by me:

Enter your query protein sequence into the form below. The sequence should be in one letter code with no identifiers . A good site for converting between different sequence formats is READSEQ

For a brief description of the method read the abstract.

Please cite: M. Cserzo, E. Wallin, I. Simon, G. von Heijne and A. Elofsson: Prediction of transmembrane alpha-helices in procariotic membrane proteins: the Dense Alignment Surface method Prot. Ing. vol. 10, nee. 6, 673-676, 1997

The method is described in "G.E Tusn dy and I. Simon (1998) Principles Governing Amino Acid Composition of Integral Membrane Proteins: Applications to Topology Prediction." J. Mol. Biol. 283, 489-506. New features of HMMTOP 2.0 are described in "G.E Tusn dy and I. Simon(2001). The HMMTOP transmembrane topology prediction server" Bioinformatics 17, 849-850

White & Wimley (1999) Annu. Rev. Biophys. Biomolec. structuur. 28:319-365

PHDhtm predicts the location and topology of transmembrane helices from multiple sequence alignments Transmembrane helices in integral membrane proteins are predicted by a system of neural networks. The shortcoming of the network system is that often too long helices are predicted. These are cut by an empirical filter. The final prediction (Rost et al., Protein Science, 1995, 4, 521-533) has an expected per-residue accuracy of about 95%. The number of false positives, i.e., transmembrane helices predicted in globular proteins, is about 2% (Rost et al. 1996). The neural network prediction of transmembrane helices (PHDhtm) is refined by a dynamic programming-like algorithm. This method resulted in correct predictions of all transmembrane helices for 89% of the 131 proteins used in a cross-validation test more than 98% of the transmembrane helices were correctly predicted. The output of this method is used to predict topology, i.e., the orientation of the N-term with respect to the membrane. The expected accuracy of the topology prediction is > 86%. Prediction accuracy is higher than average for eukaryotic proteins and lower than average for prokaryotes. PHDtopology was more accurate than all other methods tested on identical data sets in 1996 (Rost, Casadio & Fariselli, 1996a and 1996b). B Rost: PHD: predicting one-dimensional protein structure by profile based neural networks. Methods in Enzymology, 266, 525-539, 1996. B Rost, P Fariselli, and R Casadio: Topology prediction for helical transmembrane proteins at 86% accuracy. Protein Science, 7, 1704-1718, 1996 Comments to be sent to [email protected]

Please cite the following references when you publish the results of this program. Klein, P., Kanehisa, M., and De Lisi, C., Biochim. Biofysica. Acta, 815, 468-476, 1985. (for the modification using two threshold parameters:) Nakai, K., and Kanehisa, M., Genomics 14, 897-911, 1992. Any comments to [email protected] . Originally coded by Minoru Kanehisa

Membrane Protein Secondary Structure Prediction Server

The purpose of this server is to predict the transmembrane (TM) secondary structures of membrane proteins, using the method of preference functions. The method was invented by Davor Juretic, professor at the University of Split, Croatia. This server was written by Damir Zucic,at the University of Osijek , Croatia. Ana Jeroncic was involved both in development of the prediction program and in testing of this server. Click here to read more about Prof. Davor Juretic group. For comments contact prof. dr. Davor Juretic or [email protected]

This program predicts transmembrane segments in proteins, utilising the algorithm described in: "Persson, B. & Argos, P. (1994) Prediction of transmembrane segments in proteins utilsing multiple sequence alignments J. Mol. Biol. 237, 182-192."and "Persson, B. & Argos, P. (1996) Topology prediction of membrane proteins Prot. Sci. 5, 363-371" Users of this program are kindly asked to cite the above references in publications (or other types of presentation). Send your comments to [email protected]

Liu, L.-P. and Deber, C.M.: Guidelines for Membrane Protein Engineerin g Derived from de novo Designed Model Peptides. Biopolymers (Peptide Science) 47 , 41-62 (1998). (Abstract)

Liu, L.-P. and Deber, C.M.: Uncoupling Protein Hydrophobicity and Helicity in Nonpolar Environments. J. Biol. Chem 273 , 23645-23648 (1998). (Abstract)

Liu, L.-P. and Deber, C.M.: Combining Hydrophobicity and Helicity: A Novel Approach to Membrane Protein Structure Prediction. Bioorg & Med. Chem. 7 , 1-7 (1999). (Abstract) Feel free to send comments to [email protected] .

Anders Krogh and Bjorn Larsson, Gunnar von Heijne, and Erik L.L. Sonnhammer: Predicting Transmembrane Protein Topology with a Hidden Markov Model: Application to Complete Genomes. J. Mol. Biol. 305:567-580, 2001. and Erik L.L. Sonnhammer, Gunnar von Heijne, and Anders Krogh: A hidden Markov model for predicting transmembrane helices in protein sequences. In J. Glasgow et al., eds.: Proc. Sixth Int. Conf. on Intelligent Systems for Molecular Biology, pages 175-182. AAAI Press, 1998. Comments to be sent to Anders Krogh, [email protected]

The TMpred program makes a prediction of membrane-spanning regions and their orientation. The algorithm is based on the statistical analysis of TMbase, a database of naturally occuring transmembrane proteins. The prediction is made using a combination of several weight-matrices for scoring. K. Hofmann & W. Stoffel (1993) TMbase - A database of membrane spanning proteins segments Biol. Chem. Hoppe-Seyler 347 ,166


Materialen en methodes

Data Compilation

We collected from the SwissProt UniProt database (release 2013_03) 10,780 transporter, carrier, and channel proteins that were well characterized at the protein level and had clear substrate annotations [15], [16]. We removed sequences that were fragmented. We also removed sequences annotated with more than two substrate specificities and biological function annotations that were based solely on sequence similarity. We manually curated the biological function annotations from the remaining sequences and compiled a total of 1,110 membrane transport protein sequences in which only one transporting substrate has been reported in the literature. We removed 210 sequences that showed greater than 70% similarity using CD-HIT software [17] (see Figure S1 for details about the data compilation and curation processes). The 900 remaining transporter sequences were then divided into seven major classes of transporters based on their substrate specificity: 85 amino acid/oligopeptide transporters, 72 anion transporters, 296 cation transporters, 70 electron transporters, 85 protein/mRNA transporters, 72 sugar transporters, and 220 other transporters. We also compiled 660 non-transporters as an extra class of control proteins in our model development process by randomly sampling all the proteins in UniProt release 2013_03 excluding the 10,780 transporters.

We further divided the 1,560 compiled proteins into two datasets: 1) the main dataset, which consisted of 70 amino acid transporters, 60 anion transporters, 260 cation transporters, 60 electron transporters, 70 protein/mRNA transporters, 60 sugar transporters, 200 other transporters, and 600 non-transport proteins for a total of 1,380 proteins and 2) an independent dataset, which consisted of 15 amino acid transporters, 12 anion transporters, 36 cation transporters, 10 electron transporters, 15 protein/mRNA transporters, 12 sugar transporters, 20 other transporters, and 60 non-transport proteins for a total of 180 proteins (see Tabel S1 for a detailed dataset partition all the sequences are available on our TrSSP web server at http://bioinfo.noble.org/TrSSP/). We applied a five-fold cross-validation schema on the 1,380 proteins in the main dataset to develop our SVM models. The performance of these SVM models was further tested and validated on the independent dataset of 180 proteins. To evaluate the prediction accuracy of the models for each class of proteins, proteins within the same class were considered a positive predictor and proteins from the remaining classes were considered a negative predictor.

Extraction of multi-features from protein sequences for SVM model construction

Monopeptide composition.

Amino acid composition is the best and most popular method to represent the features of a protein [18]. The monopeptide composition gives a fixed length pattern of 20 features. The amino acid composition of a protein is defined as the fraction of each amino acid within that protein. The percentage of each amino acid was calculated using the following formula: (1) where l represents one of the 20 standard amino acids.

Dipeptide composition.

The dipeptide composition was used to encapsulate global information about each protein sequence. The dipeptide composition gives a fixed length pattern of 400 (20×20) features. Two consecutive amino acids are used to calculate the dipeptide composition information. This representation encompasses information about the amino acid composition as well as the local order of amino acids. The percentage of each dipeptide was calculated using the following formula: (2) where l can be any dipeptide of 400 possible dipeptides.

Physico-chemical composition.

The physico-chemical composition is the composition of the physico-chemical class residues in each protein sequence. We calculated the percentage composition of charged (D, E, K, H, R), aliphatic (I, L, V), aromatic (F, H, W, Y), polar (D, E, R, K, Q, N), neutral (D, E, R, K, Q, N), hydrophobic (C, V, L, I, M, F, W), positively charged (H, K, R), negatively charged (D, E), tiny (A, C, D, G, S, T), small (E, H, I, L, K, M, N, P, Q, V), and large (F, R, W, Y) residues in each protein sequence [19]. We used the composition percentages of these 11 physico-chemical properties as an input feature to the SVM for model development [20].

Biochemical composition calculation.

The biochemical composition of the amino acid residues was also used as an input feature to the SVM for model development. We used a set of 49 selected physical, chemical, energetic, and conformational properties to define the biochemical composition of each protein sequence [13]. These values are subsets of the AAIndex database [21], which has been successfully used to study protein folding and stability [22]–[24] and transporter classification [25]. We downloaded the 0–1 normalized values of these 49 properties from http://www.cbrc.jp/

gromiha/fold_rate/property.html the details of each property are available at this website. We calculated the average of each biochemical property for each protein sequence using the following equation: (3)

Where is the value for the lth biochemical property in a given protein sequence, is the arithmetic sum of the lth biochemical property, and N is the length of the protein sequence. We therefore converted the biochemical properties of each protein sequence into a vector with a fixed size of 49.

Position-specific scoring matrix (PSSM) profile

PSI-BLAST (Position-Specific Iterative Basic Local Alignment Search Tool) is a popular tool for the detection of distantly related proteins. PSI-BLAST calls BLAST (Basic Local Alignment Search Tool) to construct a profile or position-specific scoring matrix (PSSM) from the multiple alignments of the highest scoring hits in an initial BLAST search (default threshold e-value = 1e-3). The newly generated profile is then used iteratively to perform subsequent BLAST searches, and the result of each iteration is in turn used to refine the PSSM profile [26]. The PSSM therefore contains the probability of the occurrence of each type of amino acid residue at each position as well as insertions/deletions. Highly conserved positions receive high scores and weakly conserved positions receive near zero scores. We ran PSI-BLAST against the UniRef90 protein database (i.e., the non-redundant UniRef database with 90% sequence identity) [27] with the BLOSUM62 matrix [28]. We also used the SwissProt database [15] to generate the PSSM profile during our TrSSP web server development, which significantly reduced the computational runtime. The PSSM profile of a protein sequence extracted from PSI-BLAST was used to generate a 400-dimensional input vector to the SVM by summing all the rows in the PSSM that correspond to the same amino acid in the primary sequence. Every element in this input vector was then divided by the length of the sequence and scaled to the 0–1 range using the following standard linear function: (4) where Waarde represents the individual final sum of the PSSM score for each amino acid [29].

Cross-validation

Cross-validation is a practical and reliable way to test the predictive power of a newly developed model. The jack-knife or leave-one-out cross-validation (LOOCV) [30] and five-fold cross-validation are two commonly used techniques to evaluate a model. We used a five-fold cross-validation in the present SVM model development. In five-fold cross-validation, the dataset is partitioned into five equally sized random partitions [29], [31]. The methods of development and evaluation are conducted five times using four partitions as the training dataset and the remaining partition as the testing dataset. The performance of each model is computed as the average of the five runs.

Support vector machines

The support vector machine (SVM) is a universal machine learning approximator based on the structural risk minimization (SRM) principle of statistical learning theory [32]. This technique is particularly attractive to biological sequence analysis due to its ability to handle noise and larger feature spaces [25]. We implemented SVM models using the SVM-Light software [33], which is freely available from http://svmlight.joachims.org/. SVM-Light enables the user to define the number of parameters and choose an inbuilt kernel, such as a linear, polynomial, sigmoid, or radial basis function (RBF) kernel. In this study, we tested linear, polynomial and RBF kernels for model development and found RBF performed better than other kernels. We also optimized both cost and gamma parameters (range of -j: 1- 4, -g: 1-e-5 - 10) of RBF kernel.

Comparison to similarity search based methods

Sequence similarity remains the most popular method for the functional characterization of proteins. Therefore, we compared the performance of our SVM models for the prediction of substrate-specific transporter classes on both our main dataset and independent dataset to the following similarity search based methods: BLAST, PSI-BLAST, and hidden Markov models (HMM). In these similarity search based method development and evaluations, we used all unique transporter protein sequences without applying homology sequence filtering by using the CD-HIT tool.

BLAST.

BLAST (Basic Local Alignment Search Tool) is one of the most popular bioinformatics tool for functional annotation of protein and nucleotide sequences [26], [34]. A BLAST search allows a user to search a query sequence against a library or database of sequences and find similar sequence in the library at a given cut-off threshold. The biological function of that hit sequence may be used to infer the function of the query sequence.

PSI-BLAST.

PSI-BLAST is a tool that produces a PSSM constructed from a multiple alignment of the top-scoring BLAST hits to a given query sequence [26]. The position-specific matrix for round n+1 is built from a constrained multiple alignment between the query sequence and the sequences found with a sufficiently low e-value in round N. This scoring matrix produces a profile designed to identify the key positions of conserved amino acids within a motif. Subtle relationships between proteins that are distant structural or functional homologs can often be detected when this profile is used to search a database these relationships are often not detected by a BLAST search. Therefore, we used PSI-BLAST in addition to BLAST to detect remote homologies. We conducted an iterative search in which the sequences found in one round were used to build score models for the next round of searching. Three iterations of PSI-BLAST were conducted at different cutoff e-values. This module could predict any of the seven transporter and one non-transporter classes depending on the similarity of the query protein to the proteins in the dataset. If the top hit had an e-value lower than the cut-off threshold, then the annotation of the top hit was used as the predicted annotation of the query.

Hidden Markov models.

HMMs are statistical models of the primary structure consensus of a sequence family. HMMs were initially developed for speech recognition [35]. In biological sequence analysis, HMMs are used to build a profile that captures important information about the degree of conservation at various positions in multiple alignments and the varying degree to which gaps and insertion are permitted. HMM-based methods, which work on a formal probabilistic basis, typically outperform methods based on pairwise comparison in both alignment accuracy and database search sensitivity and specificity. Further details about HMMs can be found in Krogh et al. [36]. We adopted HMM-based searching using a freely downloadable implementation of HMM, HMMER version 3.1b1 [37], which is freely available at http://hmmer.janelia.org.

To implement the HMM-based method, the entire dataset was divided into 5 subsets similar to the five-fold cross-validation schema [38]. Four subsets of sequences were multiply aligned using ClustalW2 [39], and alignment profiles were generated using ‘hmmbuild’ in HMMER 3.1.b1. This profile database was converted into compressed binary data files using ‘hmmpress’, and tested with the fifth subset of sequences using the ‘hmmscan’ module in HMMER 3.1b1.

Assessment of prediction performances

Sensitivity, specificity, accuracy, coverage, and the Matthews correlation coefficient (MCC) were calculated for each test dataset in our five-fold cross validation to test the performance of each model. Parameters computed from each subset were averaged across all five subsets to obtain a final value.

Sensitivity was computed as , which evaluates the percentage of transporters that were correctly predicted as transporters.

Specificity was computed as , which evaluates the percentage of non-transporters that were correctly predicted as non-transport proteins.

Accuracy was computed as , which evaluates the overall percentage of transporters and non-transporters that were correctly predicted.

Coverage was computed as , which provides a measure of the number of transporters that have been correctly predicted from the total dataset. This coverage is also commonly known as sensitivity or percentage of correct predictions/hits.

The Matthews correlation coefficient (MCC), which was computed as , is a statistical parameter that assesses the quality of the binary classification for each model. The MCC accounts for both true and false positive predictions and is regarded as a balanced measure even when the two classes are different sizes. An MCC equal to 1 is regarded as a perfect prediction an MCC close to 0 is regarded as a random prediction. In these formulas, TP (true positive) represents the number of correctly predicted transporters, TN (true negative) represents the number of correctly predicted non-transporters, FP (false positive) represents the number of non-transporters predicted as transporters, and FN (false negative) represents the number of transport proteins predicted as non-transporters.

All the parameters described above are threshold-dependent parameters therefore, the performance of a model depends on a threshold. An analysis of the area under the curve (AUC) of the receiver operating characteristic (ROC) curve overcomes the threshold dependence of the above metrics. The ROC curve plots the true positive proportion (TP/TP+FN, i.e., sensitivity) against the false positive proportion (FP/FP+TN, i.e., 1 - specificity) for each model. The area under this ROC curve provides a single measure on which to evaluate the performance of each model. This well-known threshold-independent ROC analysis enables the evaluation of the performance of a binary classifier system as the discrimination threshold of that system is varied. An AUC of 1.0 indicates a perfect prediction and an AUC of 0.5 indicates that the prediction is no better than a random guess.


Inhoud

In 1912 Max Von Laue directed X-Ray's at crystallized copper sulfate generating a diffraction pattern. [3] These experiments led to the development of X-Ray Crystallography, and its usage in exploring biological structures. Pepsin crystals were the first proteins to be crystallized for use in X-Ray diffraction, by Theodore Svedberg. [4] The first tertiary protein structure, that of Myoglobin, was published in 1958 by John Kendrew. [5] During this time, modeling of protein structures was done using balsa wood or wire models. [6] With the invention of modeling software such as CCP4 in the late 1970's, [7] modeling is now done with computer assistance. Recent developments in the field have included the generation of X-Ray free electron lasers, allowing analysis of previously hidden structures [8] and the use of structural biology in assisting synthetic biology [9]

Biomolecules are too small to see in detail even with the most advanced light microscopes. The methods that structural biologists use to determine their structures generally involve measurements on vast numbers of identical molecules at the same time. These methods include:

Most often researchers use them to study the "native states" of macromolecules. But variations on these methods are also used to watch nascent or denatured molecules assume or reassume their native states. See protein folding.

A third approach that structural biologists take to understanding structure is bioinformatics to look for patterns among the diverse sequences that give rise to particular shapes. Researchers often can deduce aspects of the structure of integral membrane proteins based on the membrane topology predicted by hydrophobicity analysis. See protein structure prediction.


Methoden:

CNT3 model building

To build the hCNT3 model the standard automodel routine of MODELLER-9v11 [26] and the vcCNT template structure (PDB id: 3TIJ) were used. A small molecule ligand uridine, a sodium ion and two water molecules which were present in the binding site of the crystal structure of vcCNT (see Fig. 2d) were also added. Thus, the proper orientation of side chains inside the hCNT3 binding site was preserved during the model building procedure. To build the model of the hCNT3 monomer only the fragment of the full 691-residue long sequence of hCNT3 (Uniprot id: Q9HAS3) was used. Namely, the N and C-terminus which were predicted to be outside the membrane (see Uniprot) were cut out leaving the 522-residue hCNT3 sequence (see Fig. 2e) corresponding to the residue range 91 – 612 from the Q9HAS3 entry. The lowest energy model, according to the DOPE energy function, of the hCNT3 monomer out of 100 generated was selected and used in the subsequent loop refinement. The refinement of the hCNT3 monomer loops was performed in Rosetta3 using the cyclic coordinate descent algorithm (CCD) [29]. To preserve efficiency of sampling of conformational space loop refinement simulations were divided in three separate categories. The first one was dedicated to the loop refinement of the 185 - 194 sequence region, the second one to the 128 - 136, 234 - 237, 258 - 266 and 317 - 341 sequence regions and the third one to the 486 - 493 sequence region. In each category 1000 loop models were generated. All 1000 models generated in each loop category were subjected to the clustering analysis with the Rosetta cluster application. From each category 20 cluster representatives, each of which had the lowest total Rosetta score within its cluster, were selected. All the cluster representatives were combined with each other to generate 8000 (20 × 20 × 20) possible loops combinations. Each loop combination was used to build one model of the hCNT3 homotrimer using the vcCNT template structure (PDB id: 3TIJ) and the MODELLER procedure described above. Here, the 3-fold symmetry of the hCNT3 homotrimer was kept. The DOPE potential was used to select the best model of hCNT3 out of all 8000 generated. That 1566-residue long hCNT3 model (all three subunits: 3 × 522 residues) was cut to the 1350-residue long model by removing N-termini of the subunits B and C. That 1350-residue long model of hCNT3 was subjected to de novo folding of N-terminus of the subunit A with Rosetta Broker [25]. For the Broker simulation all standard settings for Rosetta3 were used (see Additional file 1: Table S1–S2). Namely, implicit membrane energy terms described in details in [30] and the fragment library (3- and 9-residue long fragments) obtained with Robetta (http://robetta.bakerlab.org/fragmentsubmit.jsp) were used. The consensus membrane topology predictor TOPCONS [31] and the hCNT3 Uniprot entry (id: Q9HAS3) were used to detect positions of three N-terminal transmembrane helices (TMHs) (see Fig. 2e). Additionally, the sequence profile-based lipophilicity prediction was performed and used in the Broker simulation. During the Broker simulation only the N-terminal 108-residue long fragment in the first subunit A with the predicted three TMHs was kept flexible. The rest of the homotrimer was kept as a rigid body. Nevertheless, various approaches were tested (data not shown) before the final modeling protocol was decided. Namely, longer N-terminal fragments, 198- and 247-residue long, including the 90- and 139-residue long membrane regions of hCNT3 were folded de novo without the rest of the hCNT3 homotrimer. Also, the short, 108-residue long N-termini only in the presence of the subunit A structure was folded. Yet, it turned out that the best option for the Broker simulation was folding of the short, 108-residue long N-termini of the subunit A with the presence of other subunits B and C forming the whole 1350-residue long hCNT3 homotrimer. 10,000 models were generated and clustered using the Rosetta3 cluster application. Top ten low-energy models from the most populated cluster of the hCNT3 models according to the Rosetta total score were selected and visually inspected. One selected model was used as a template to build the final hCNT3 homotrimer model with the described above MODELLER procedure. The N-terminal region with three TMHs predicted de novo was repeated in all three subunits to ensure the 3-fold symmetry of the homotrimer. A total number of 20 hCNT3 homotrimer models were generated and the lowest energy model according to DOPE was subjected to the further analysis and the MD simulation.

een The crystal structure of the vcCNT homotrimer (PDB id: 3TIJ) shown in the extracellular, membrane and intracellular view, respectively. B A homology model of the hCNT3 homotrimer superposed on the crystal structure of vcCNT (grey) shown in the extracellular, membrane and intracellular view, respectively. C A homology model of the hCNT3 homotrimer superposed on the low-energy structure obtained from the 1956 frame out of all 5000 frames of the 100 ns MD simulation, shown in the extracellular, membrane and intracellular view, respectively. NS The binding site of the uridine molecule (shown in green) and the sodium ion (shown as a violet sphere) located inside the crystal structure of vcCNT. The polar contacts between uridine and the transporter were depicted with yellow dashed lines. The indicated Gln154 in vcCNT corresponds to Gln251 in the model of hCNT3. e The sequence alignment of the template sequence (vcCNT) and the target sequence (hCNT3). Transmembrane helices (TMHs) are shown in red, extracellular and short helices (EH) in green, amphipathic helices (IH) are shown in blue and finally helices outside the lipid bilayer (HP) are shown in grey

Molecular dynamics simulation

The MD simulation was performed using the GPU-accelerated NAMD [32] software with the CHARMM27 [33] all-atom force field and periodic boundary conditions. Electrostatic interactions were computed using the particle-mesh Ewald method (PME) with a real space cutoff of 1.0 nm. The Lennard-Jones interactions were also cut off at 1.0 nm. The hCNT3 homotrimer model was inserted in a pre-equilibrated palmitoyloleoylphosphatidylcholine (POPC) membrane with VMD [34, 35]. The final lipid membrane was composed of 349 lipids. The system was solvated using the TIP3P water model (41,236 water molecules) and neutralized by adding 35 chloride counterions. Aspartic acid, arginine, glutamic acid, and lysine residues were used in their physiological protonation states. Neither uridine nor sodium ion molecules which were present in the vcCNT template structure were added to the system. The final system contained a total number of 195,438 atoms. The equilibration phase started with the 1 ns long melting of lipid tails while the rest of the system remained fixed. Then, after the steepest descent system minimization only protein coordinates were harmonically restrained and the 2 ns equilibration of the whole system was performed. Finally, the harmonic constraints were released and the further equilibration of the whole system lasted for 2 ns. The size of the final periodic box after the equilibration phase was 14.8 nm × 14.5 nm × 105 nm. The 100 ns production run was executed using a 2 fs time step with a snapshot of the system conformation and its energy saved every 20 ps and 10 ps, respectively. The pressure control was provided by using a modified Nosé-Hoover method in which Langevin dynamics is used to control fluctuations in the barostat. The thermostat was provided by Langevin dynamics with damping coefficient of 1/ps. The simulation was conducted at the conditions of 300 K and 1 atm. RMSD plots (see Figs. 3, 4, 5 and 6) describing the hCNT3 behavior during the MD simulation were prepared with VMD.

The heavy atom RMSD plot computed for all 5000 frames recorded during the 100 ns MD simulation. RMSD was computed for the entire hCNT3 homotrimer and its three subunits with respect to the first frame of the MD simulation

CRFR1 model building

To build the CRFR1 model a standalone version of GPCRM described previously [5] was used. The human glucagon receptor (GCGR) structure (PDB id: 4L6R) [36] from the secretin-like branch of the GPCR family was selected as a template. To generate the CRFR1 model a PDB sequence was used (PDB id: 4K5Y, Uniprot entry: P34998, isoform 2 – CRF-R2). The isoform 2 differs from the canonical CRF-R1 sequence only in such way that a part of the sequence is missing. GPCRM generated 3000 models. Only one out of the ten best models proposed by GPCRM was selected for the next stage based on the RMSD criterion referring to the crystal CRFR1 structure (PDB id: 4K5Y). The membrane topology prediction for the Rosetta Broker input was extracted directly from the CRFR1 model. The Broker simulations were divided into 3 stages. In the first stage, only the N-terminal fragment of the transmembrane helix 1 (TMH1) was reconstructed (2000 models) and the lowest RMSD model was selected. In the next step, TMH2, TMH3, TMH4, TMH5, TMH7 were rebuilt (30,000 models) and again the lowest RMSD model with respect to the crystal structure of CRFR1 was selected. In the final step of the Broker simulation TMH6 was reconstructed to fit the native structure [28] of CRFR1 (20,000 models). As it was tested before [5] the best way to impose disulfide bonds in a GPCR model is to use MODELLER. For that reason, the last modeling stage was devoted to the MODELLER reconstruction of disulfide bonds which were slightly deformed during the Broker simulation (100 models). The lowest MODELLER objective function model was selected for the antagonist docking in Autodock VINA [37].

As it was mentioned above, the main selection criterion in all the CRFR1 modeling stages was RMSD with respect to the CRFR1 crystal structure (PDB id: 4K5Y). The reason for that was the main purpose of the current work. Namely, the current work was not focused on the assessment of the Rosetta Broker force field accuracy. The accuracy of knowledge-based force fields in the membrane protein structure prediction is an important topic [38] but outside the scope of this study. Here, only the best possible results which could be obtained with the current force field and the current sampling algorithm implemented in Broker were examined. That is why only the RMSD criterion was used and not the energy criterion for the CRFR1 models selection.

Small molecule docking

The binding mode of the CRFR1 antagonist CP-376395 is well described in [28] and the current study was not focused on the antagonist docking itself. Instead, this work was focused on the assessment of the quality of the CRFR1 homology model in the binding site area and detection of possible atom clashes. For that reason, the CP-376395 molecule was placed exactly in the same position inside the CRFR1 homology model as in the crystal CRFR1 structure. What is more, only the local refinement of the binding site was performed with Autodock VINA [37] before computing the value of the empirical docking scoring function which estimated the free energy of the ligand binding. The free energy of the antagonist binding which reflected steric clashes between atoms [37] was provided for three cases. The first case was the crystal structure of the CRFR1 complex with the CP-376395 antagonist (PDB id: 4K5Y). The second case was the template-based CRFR1 model built by GPCRM with CP-376395 transferred from the crystal CRFR1 structure and placed exactly in the same position and orientation. The third case was the CRFR1 model built by GPCRM but refined with the Broker algorithm with CP-376395 transferred from the crystal CRFR1 structure (PDB id: 4K5Y). In the all three cases the standard Autodock VINA settings were used together with the local_only option and the 20Åx20Åx20Å searching space size.

Single nucleotide polymorphisms

Single nucleotide polymorphisms (SNPs) for hCNT3 were downloaded from the UCSF Pharmacogenetics of Membrane Transporters (PMT) database (http://pharmacogenetics.ucsf.edu) (HGNC id: 16,484, HGNC symbol: SLC28A3) [39]. SNPs for the CRFR1 receptor were obtained from the National Institute of Health Short Genetic Variations database (dbSNP) [40] (id: 1394) and refer to the isoform 1 (CRF-R1). Nevertheless, sequence numbering for SNPs was adjusted to fit the isoform 2 sequence (CRF-R2) which was used to build the CRFR1 model and was included in the PDB entry for that receptor (PDB id: 4K5Y).


Transmembrane helix prediction methods

Claros, M. G., & Von Heijne, G. (1994). TopPred II: an improved software for membrane protein structure predictions. Computer Applications in the Biosciences CABIOS DOI

Rost, B., Casadio, R., Fariselli, P., & Sander, C. (1995). Transmembrane helices predicted at 95% accuracy. Eiwitwetenschap DOI

Tusnády, G. E., & Simon, I. (2001). The HMMTOP transmembrane topology prediction server. Bio-informatica DOI

Krogh, A., Larsson, B., von Heijne, G., & Sonnhammer, E. L. (2001). Predicting transmembrane protein topology with a hidden Markov model: application to complete genomes. Tijdschrift voor Moleculaire Biologie DOI

Hirokawa, T., Boon-Chieng, S., & Mitaku, S. (1998). SOSUI: classification and secondary structure prediction system for membrane proteins. Bio-informatica DOI

Käll, L., Krogh, A., & Sonnhammer, E. L. L. (2004). A combined transmembrane topology and signal peptide prediction method. Tijdschrift voor Moleculaire Biologie DOI

Käll, L., Krogh, A., & Sonnhammer, E. L. L. (2005). An HMM posterior decoder for sequence feature prediction that includes homology information. Bio-informatica DOI

Jones, D. T. (2007). Improving the accuracy of transmembrane protein topology prediction using evolutionary information. Bio-informatica DOI

Reynolds, S. M., Käll, L., Riffle, M. E., Bilmes, J. a, & Noble, W. S. (2008). Transmembrane topology and signal peptide prediction using dynamic bayesian networks. PLoS computationele biologie DOI

Bernsel, A., Viklund, H., Falk, J., Lindahl, E., Von Heijne, G., & Elofsson, A. (2008). Prediction of membrane-protein topology from first principles. Proceedings van de National Academy of Sciences DOI

Viklund, H., Bernsel, A., Skwark, M., & Elofsson, A. (2008). SPOCTOPUS: a combined predictor of signal peptides and membrane protein topology. Bio-informatica DOI

Nugent, T., & Jones, D. T. (2009). Transmembrane protein topology prediction using support vector machines. BMC Bio-informatica DOI


Bekijk de video: DNA structuur (Januari- 2022).