Informatie

Hoe eiwit-eiwitinteracties voorspellen op basis van een paar gensymbolen?


Ik heb een lijst met paren van gensymbolen die (vermoedelijk) interageren en ik zou elk paar een score willen toekennen (en andere details vastleggen) op basis van de voorspelde eiwit-eiwitinteractie (PPI). De bestaande PPI-webservers die ik heb bekeken (ClusPro en HADDOCK) vereisen dat ik PDB-ID's als invoer gebruik. Helaas bestaan ​​er niet altijd PDB-ID's voor de gensymbolen die ik wil vergelijken. Ik geloof dat ik ofwel:

  1. een manier om zelf PDB-bestanden te genereren (misschien met een vouwprogramma?) en deze vervolgens te verbinden/uploaden naar een PPI-webserver.

of

  1. een manier om de meest vergelijkbare reeks te vinden die wel een PDB-ID heeft en deze te uploaden naar een PPI-webserver.

Begrijp ik mijn probleem goed? Zijn er middelen die kunnen helpen bij 1 of 2?


Dit kan al dan niet mogelijk zijn, afhankelijk van welke eiwitten u overweegt. Het genereren van een PDB-bestand betekent het voorspellen van de structuur van het eiwit. Er zijn geen methoden om de eiwitvouwing nauwkeurig te voorspellen op basis van gewone sequentiegegevens, dus u hebt nodig sommige experimentele gegevens over de structuur van uw eiwitten.

Als de structuur van uw eiwitten niet is bepaald, is de beste optie een soort homologiemodel, dat wil zeggen een voorspelling van uw eiwitstructuur op basis van een bekende structuur van een homoloog eiwit. Deze kunnen min of meer nauwkeurig zijn, afhankelijk van hoe dicht het homologe eiwit is. Als specifieke domeinen interactie hebben, kan het voldoende zijn om alleen een model van het domein te maken.

Er zijn online tools beschikbaar voor homologiemodellering, bijvoorbeeld swiss-model van de expasy-site. Dit is echter geen geautomatiseerd proces --- het maken van een nauwkeurig model vereist enige vaardigheden. Lees de publicaties waarin deze tools worden beschreven en zorg ervoor dat u het proces en de foutenbronnen begrijpt, en neem bij twijfel contact op met een deskundige. Veel geluk!


Grenzen in de genetica

De affiliaties van de redacteur en de recensenten zijn de meest recente op hun Loop-onderzoeksprofielen en weerspiegelen mogelijk niet hun situatie op het moment van beoordeling.



DELEN OP

Chemische hulpmiddelen voor het afbeelden, manipuleren en volgen van biologische systemen: diverse methoden voor prokaryotische en eukaryotische systemen

Katherine Charov, Michael D. Burkart, in Methoden in Enzymologie, 2020

Abstract

Eiwit-eiwitinteracties (PPI's) zijn universeel en hun studie en begrip is van cruciaal belang voor de ontdekking van geneesmiddelen en bio-engineering. Historisch gezien zijn röntgenkristallografie, isothermische titratiecalorimetrie en andere biofysische methoden gebruikt om PPI's te bestuderen, maar deze kunnen duur zijn en een lage doorvoer hebben, waardoor de voortgang naar een snelle evaluatie van deze interacties wordt belemmerd. Recente interesse in het richten op PPI's en in het ontwerpen van biosynthetische routes waarin PPI's een cruciale rol spelen, heeft geleid tot innovatie in hun evaluatie, maar een universeel scherm is nog steeds nodig. Een van de best gekarakteriseerde systemen die op PPI's vertrouwen, is: Escherichia coli type II vetzuurbiosynthese waarbij het centrale acyldragereiwit (EcACP) substraten naar een reeks partnerenzymen pendelt. Hier presenteren we een methode waarmee EcACP wordt gelabeld met een solvatochrome kleurstof, 4-DMN, en vervolgens mag interageren met zijn verschillende partnerenzymen. Bij interactie is er een grote toename in fluorescentie-intensiteit die gemakkelijk kan worden gevolgd via fluorometer of plaatlezer. Deze methode is nuttig bij de studie van bekende PPI, hypothetische PPI en bij de evaluatie van remmers van zowel de actieve plaats van het partnerenzym als van de PPI zelf.


Eiwitinteractiekaarten voor complete genomen op basis van genfusiegebeurtenissen

Er wordt op grote schaal gewerkt aan het meten, detecteren en analyseren van eiwit-eiwit-interacties met behulp van experimentele methoden 1,2 . Deze omvatten biochemie zoals co-immunoprecipitatie of crosslinking, moleculaire biologie zoals het twee-hybride systeem of faagdisplay, en genetica zoals niet-gekoppelde niet-complementerende mutantdetectie3. Met behulp van het twee-hybride systeem 4 is een internationale inspanning gaande om het volledige gistgenoom te analyseren 5 . Het is duidelijk dat al deze benaderingen omslachtig, arbeidsintensief en onnauwkeurig zijn 6 . Vanuit een computationeel perspectief is de vraag hoe we kunnen voorspellen dat twee eiwitten alleen op basis van structuur of sequentie op elkaar inwerken. Hier presenteren we een methode die genfusie-gebeurtenissen in volledige genomen identificeert, uitsluitend op basis van sequentievergelijking. Omdat er selectieve druk moet zijn om bepaalde genen in de loop van de evolutie te laten fuseren, kunnen we functionele associaties van eiwitten voorspellen. We laten zien dat 215 genen of eiwitten in de volledige genomen van Escherichia coli, Haemophilus influenzae en Methanococcus jannaschii zijn betrokken bij 64 unieke fusie-evenementen. De benadering is algemeen en kan zelfs worden toegepast op genen met een onbekende functie.


Resultaten

Algemeen model

Onze methode werkt in het algemeen op sets van meerdere uitlijningen van homologe eiwitten (of eiwitdomeinen) waarvan bekend is dat leden van een meervoudige uitlijning kunnen interageren met leden van een andere meervoudige uitlijning. Om het model uit te leggen, beschrijven we het eerst voor het eenvoudigst mogelijke geval. In deze situatie, geïllustreerd in figuur 1, zijn er twee (grote) families van eiwitten of eiwitdomeinen, typisch met meerdere paraloge leden per genoom, waarvan bekend is dat in elk genoom elk lid van de eerste familie interageert met één lid van het tweede gezin. De verzameling van alle mogelijke ‘oplossingen’ voor dit probleem komt overeen met alle mogelijke manieren waarop we voor elk genoom elk lid van de eerste familie kunnen toewijzen aan één lid van de tweede familie. In figuur 1 worden de uitlijningen van de twee families naast elkaar getoond, met sequenties gegroepeerd per genoom van boven naar beneden. Een opdracht van interactiepartners een komt overeen met een verticale ordening van de sequenties binnen elk genoom, zodat wordt aangenomen dat de sequenties op dezelfde horizontale 'rij' op elkaar inwerken. Op deze manier een opdracht een impliceert een gemeenschappelijke meervoudige uitlijning van alle sequenties van beide families.

We berekenen nu de kans P(NSeen) van het observeren van de gehele gezamenlijke meervoudige uitlijning NS van de reeksen van beide families in opdracht een. We nemen aan dat voor elke uitlijnpositie l, de kans om aminozuur α op die positie waar te nemen hangt af van het aminozuur β dat op een andere positie voorkomt J=π(l) (de ‘ouder’ van l). Een afhankelijkheidsboom t (zie figuur 1) specificeert de bovenliggende positie π(l) voor elke positie l in de gezamenlijke meervoud uitlijning. De voorwaardelijke kansen P ij (α∣β) zijn onbekende parameters die uit het probleem zijn geïntegreerd. Zoals getoond in Materialen en methoden, kunnen we een expliciete uitdrukking afleiden voor de waarschijnlijkheid P(NSlNSJ) van de gehele uitlijningskolom l, gegeven uitlijningskolom J in termen van de tellingen Nαβ ij het aantal keren dat het paar aminozuren (αβ) wordt waargenomen bij de uitlijnkolommen (ij). De kans P(NSeen, t) van de gegevens, gegeven afhankelijkheidsboom t, is dan het product van voorwaardelijke kansen P(NSlNS(l)) (zie figuur 1) over alle posities. De onbekende afhankelijkheidsboom t is een zogenaamde 'overlastparameter' en de waarschijnlijkheidstheorie specificeert (Jaynes, 2003) dat te verkrijgen P(NSeen), moeten we optellen P(NSeen, t) over alle mogelijke afhankelijkheidsbomen. Als u een uniforme prior over bomen gebruikt, komt dit neer op middeling P(NSeen, t) over alle afhankelijkheidsbomen (Meilá en Jaakkola, 2006). In gevallen waarin deze sommatie rekenkundig onhandelbaar is, kunnen we ook benaderen P(NSeen) door de afhankelijkheidsboom te vinden t * dat maximaliseert P(NSeen, t * ) (zie Materialen en methoden).

We nemen een steekproef van de posterieure verdeling P(eenNS) over alle mogelijke opdrachten een gebruik Markov-keten Monte-Carlo-bemonstering en houd de fractie bij F(m, m′) van gesamplede opdrachten waarin eiwitten m en m′ zijn interactiepartners. In de limiet van lange bemonstering, de frequenties F(m′, m) geef de achterste kansen P(m, m′∣NS), Dat m en minteractie. Zoals uitgelegd in Materialen en methoden, kan deze benadering op verschillende manieren worden uitgebreid, waaronder het toestaan ​​van meer dan twee paraloge families en het toestaan ​​van ongelijke aantallen leden in de verschillende families. Deze extensies worden gebruikt voor onze voorspellingen van interacties met twee componenten hieronder.

Toepassing op TCS's

Bacteriële TCS's zijn verantwoordelijk voor het grootste deel van de signaaltransductie die ten grondslag ligt aan complex bacterieel gedrag (Grebe en Stock, 1999 Stock et al, 2000 Ausmees en Jacobs-Wagner, 2003). Hoewel er veel bekend is over de TCS-signalering voor specifieke subsystemen in enkele modelorganismen, zijn de interactiepartners voor de overgrote meerderheid van de TCS-genen niet experimenteel bepaald. Uitgebreide voorspellingen van TCS-signaleringsinteracties zouden dus belangrijke inzichten opleveren in hoe verschillende bacteriën reageren op hun omgeving, welke regulonen onder controle staan ​​van welke externe signalen, en welke specifieke subsystemen verbonden zijn door signaalroutes, met potentieel belangrijke toepassingen. Omdat TCS-signalering bijvoorbeeld essentieel is voor interactie tussen gastheer en ziekteverwekker, kunnen inzichten in deze interacties belangrijke toepassingen hebben met betrekking tot de menselijke gezondheid. Bovendien is er momenteel heel weinig bekend over de wereldwijde structuur van TCS-signaleringsnetwerken over bacteriën. Met ongeveer 400 volledig gesequenced genomen beschikbaar, zou een uitgebreide voorspelling van TCS-signaleringsnetwerken over alle bacteriën dus ook een significante dataset opleveren voor het bestuderen van de wereldwijde structuur van signaleringsnetwerken in bacteriën.

In zijn eenvoudigste vorm bestaat een TCS uit twee eiwitten, een histidinekinase en een responsregulator et al, 2000 ). Het histidinekinase is in veel gevallen een membraangebonden eiwit dat een extracellulair sensordomein bevat, dat reageert op signalen uit de omgeving, en een cytoplasmatisch kinasedomein. Het kinasedomein autofosforyleert bij activering van de sensor, interageert zeer specifiek met de responsregulator en brengt het fosfaat over naar het ontvangerdomein van de regulator. Fosforylering leidt typisch tot de activering van de regulator, die vaak fungeert als een transcriptiefactor.

Om verschillende redenen zijn TCS's bijzonder aantrekkelijk voor computationele modellering. Ten eerste vertonen zowel histidinekinase- als ontvangerdomeinen significante sequentieovereenkomst en kunnen ze gemakkelijk worden gedetecteerd in volledig gesequenced genomen met behulp van verborgen Markov-modellen (Bateman et al, 2004 ). Ten tweede, omdat TCS's zeer overvloedig zijn in het prokaryotische koninkrijk, met tientallen interagerende paren in sommige genomen en duizenden voorbeelden in alle genomen, bieden ze voldoende gegevens om subtiele afhankelijkheden te detecteren tussen de residuen van interagerende kinase/ontvangerdomeinen. Ten slotte vormt een significante fractie van alle TCS's zogenaamde verwante paren waarin een enkel kinase/regulatorpaar binnen één operon in het genoom ligt. Algemeen wordt aangenomen dat dergelijke verwante paren interagerende kinase/regulatorparen zijn, wat experimenteel wordt ondersteund voor een aanzienlijk aantal paren, en er zijn, voor zover wij weten, geen voorbeelden die deze veronderstelling tegenspreken. Daarom bieden de verwante paren een zeer grote dataset van bekende interagerende paren die kunnen worden gebruikt om de nauwkeurigheid van de computationele voorspellingen te testen. Bovendien kunnen ze worden gebruikt als een 'trainingsset' voor het voorspellen van interacties tussen alle andere kinasen en regulatoren, dat wil zeggen tussen 'wees'-kinasen en regulatoren die niet voorkomen binnen een operon met hun interactiepartner.

We verzamelden een uitgebreide verzameling TCS-eiwitten van 399 bacteriën waarvan de sequentie is bepaald en hebben alle kinase- en ontvangerdomeinen vermenigvuldigd. Terwijl alle ontvangerdomeinen in een enkele uitlijning kunnen worden uitgelijnd, vertonen kinasen verschillende domeinarchitecturen en produceerden we zeven afzonderlijke meervoudige uitlijningen voor de zeven meest voorkomende kinasedomein-architecturen (zie Materialen en methoden). We verdeelden ook de kinasen en regulatoren in verwante paren en wezen.

Interagerende residuen bepalen

De HisKA-klasse is verreweg de grootste klasse van kinasen, met 3388 verwante HisKA/regulatorparen, overeenkomend met 72% van alle verwante paren, en we onderzochten eerst het bewijs voor afhankelijkheden tussen de aminozuurposities van het kinase en de ontvangerdomeinen van deze klasse. Voor elk paar posities (ij), waar l ligt in de kinase en J in de ontvanger hebben we de 'afhankelijkheid' gekwantificeerd door de waarschijnlijkheidsratio Rij tussen een model dat aanneemt dat de aminozuren op deze posities afkomstig zijn van een gezamenlijke kansverdeling en een model dat aanneemt dat ze afkomstig zijn van onafhankelijke verdelingen (zie Materialen en methoden). Deze maatregel Rij voor afhankelijkheid tussen posities l en J hangt nauw samen met de onderlinge informatie over de waargenomen verdeling van aminozuren in posities l en J, wat op zijn beurt verband houdt met de statistische koppeling tussen posities geïntroduceerd in (Lockless en Ranganathan, 1999). Zoals te zien is in het paneel linksboven in figuur 2, heeft bijna 15% van alle paren posities een positieve log(Rij), wat overeenkomt met meer dan 1000 paren. Omdat onze dataset echter veel voorbeelden van orthologe verwante paren bevat, verwachten we 'valse' correlaties te zien die slechts het resultaat zijn van de evolutionaire relaties tussen orthologe paren. Om te onderzoeken of de hoge waargenomen log(Rij) waarden alleen door fylogenie kunnen worden verklaard, hebben we de volgende randomisatie uitgevoerd. We verzamelden sets van orthologe verwante paren in orthologe groepen en identificeerden paren van orthologe groepen die in dezelfde genomen voorkomen. Vervolgens wisselden we kinase/regulatortoewijzingen uit tussen zulke paren van orthologe groepen. Elke kinase is nu dus toegewezen aan een verkeerd ontvangerdomein, maar de fylogenetische relaties van al deze 'valse paren' zijn precies hetzelfde als de fylogenetische relaties van de echte verwante paren. Als alle correlaties te wijten waren aan fylogenie, zou de verdeling van de waargenomen Rij waarden voor de valse paren moeten hetzelfde zijn als die van de echte paren. Zoals het paneel linksboven in figuur 2 laat zien, is de waargenomen Rij waarden voor echte paren zijn veel groter dan kan worden verklaard door fylogenie. Slechts ongeveer 7% van de valse paren vertoont bijvoorbeeld een positieve log(Rij) en er zijn geen valse paren met log(Rij) groter dan 235.

Als de paren posities met grote Rij waarden weerspiegelen fysisch-chemische beperkingen, we mogen verwachten dat ze in nauw fysiek contact staan ​​tijdens de interactie van kinase en ontvanger. Hoewel er momenteel geen structuur van een HisKA-kinase/regulatorpaar beschikbaar is, is de structuur van de sporulatie-histidinefosfotransferase Spo0B met de responsregulator Spo0F (Zapf et al, 2000 ) is vastgesteld. Spo0B verschilt aanzienlijk in sequentie van HisKA-kinasen, maar kan niettemin redelijk worden uitgelijnd met het HisKA Pfam-profiel. We gebruikten de Spo0B/Spo0F-structuur samen met de Spo0B/HisKA-uitlijning om de fysieke afstanden tussen alle paren posities in HisKA-kinase/ontvangerparen te schatten. Het rechterbovenpaneel van figuur 2 laat zien dat de paren posities met de hoogste Rij zijn fysiek aanzienlijk dichterbij dan andere paren (rank-sum-test P-waarde 3 × 10 −11 ). Bovendien toont figuur 3 de paren aminozuren met de hoogste Rij waarden op het Spo0B/Spo0F-complex (zwarte lijnen). Het is opvallend dat veel van de posities waarvan wordt voorspeld dat ze van elkaar afhankelijk zijn, inderdaad in nauw fysiek contact staan ​​in de a-helices van het kinase- en ontvangerdomein (rechtsboven in de figuur). Er wordt voorspeld dat andere interacties zullen optreden tussen residuen in een a-helix van het kinasedomein en residuen in lussen van het ontvangerdomein. Een paar van de voorspelde interacties zijn meer raadselachtig: het gaat om residuen die niet dicht bij elkaar liggen, maar de Rij waarden zijn te hoog om te worden verklaard door fylogenetische afhankelijkheden. Sommige hiervan kunnen te wijten zijn aan structurele verschillen tussen het Spo0B/Spo0F-complex en het HisKA/ontvangercomplex, als gevolg van uitlijningsfouten of indirecte afhankelijkheden. Samenvattend, de controle voor fylogenetische signalen, de afstanden tussen paren met hoge Rij, en hun locatie op een gerelateerde structuur ondersteunen allemaal dat onze Rij scores leggen betekenisvolle functionele afhankelijkheden vast tussen individuele paren posities in kinase en ontvanger.

Verwante interacties voorspellen

Vervolgens hebben we onderzocht hoe nauwkeurig het model bekende verwante paren van HisKA-kinasen en hun regulatoren kan reconstrueren. We verzamelden de meerdere uitlijningen van alle HisKA-kinasedomeinen en ontvangerdomeinen van verwante paren en bemonsterden de ruimte van alle mogelijke toewijzingen, dat wil zeggen alle manieren waarop elk kinase van elk genoom kan worden toegewezen aan één regulator van hetzelfde genoom. We hebben alle voorspelde paren gesorteerd op hun posterieure waarschijnlijkheid en gemeten, als functie van een afkapwaarde in posterieure waarschijnlijkheid, de fractie van alle echte verwante paren die tot de voorspellingen behoren (gevoeligheid) en de fractie van alle voorspellingen die overeenkomen met echte verwante paren paren (positief voorspellende waarde). Deze resultaten worden weergegeven in het paneel linksonder in figuur 2, beide bij benadering: P(NSeen) met behulp van de boom met de hoogste waarschijnlijkheid, dat wil zeggen, P(NSeen)=maxt P(NSeen, t) (blauwe curven), en bij het middelen over alle afhankelijkheidsbomen P(NSeen)=∑t P(NSeen, t) (rode bochten). In de eerste benadering wordt de afhankelijkheidsboomstructuur berekend uit de correct gepaarde verwante paren vóór de bemonstering, terwijl in de tweede benadering helemaal geen trainingsset wordt gebruikt. In beide benaderingen worden de verwante paren met hoge nauwkeurigheid gereconstrueerd, maar het middelen over afhankelijkheidsbomen presteert duidelijk het beste. Dit is niet verwonderlijk aangezien, zoals hierboven vermeld, het middelen over afhankelijkheidsbomen de juiste manier is om de hinderparameter te behandelen t. Het gebruik van alleen de beste boom kan leiden tot overfitting.

Bij 60% gevoeligheid komt meer dan 95% (rode curven) van de voorspellingen overeen met echte paren. Bij een gevoeligheid van 75% is de fractie voorspellingen die echte paren zijn nog steeds hoger dan 80% (rode curven). Deze hoge nauwkeurigheid is zeer opvallend, vooral gezien het feit dat het algoritme geen enkel voorbeeld van een echt interactief paar krijgt, maar alle verwante paren in alle genomen parallel afleidt door te zoeken naar opdrachten die de hoeveelheid afhankelijkheid die wordt waargenomen tussen de kinase en ontvanger sequenties. We voorspelden ook interactiepartners voor alle verwante kinasen en regulatoren van de H3-klasse, de op één na meest voorkomende klasse (Figuur 2, paneel rechtsonder). In tegenstelling tot de HisKA-klasse is er voor de H3-klasse een aanzienlijk aantal genomen met slechts een klein aantal H3-verwante paren waarvoor zelfs willekeurige voorspellingen een redelijk deel van de juiste voorspellingen zouden opleveren (groene curven). Het is echter nog steeds duidelijk dat ons model de verwante paren met hoge nauwkeurigheid reconstrueert, dat wil zeggen, bij een gevoeligheid van 80%, komt meer dan 95% van de voorspellingen (rode curven) overeen met echte paren. In de aanvullende informatie laten we analoge curven zien voor de andere (kleinere) klassen van kinasen die allemaal een hoge nauwkeurigheid van voorspellingen vertonen, wat illustreert dat het model een hoge nauwkeurigheid kan bereiken op relatief kleine datasets. Aan de andere kant, aangezien er voor deze kleinere kinaseklassen vaak maar een paar verwante paren per genoom zijn, is het voorspellingsprobleem natuurlijk aanzienlijk eenvoudiger. Samenvattend suggereren de resultaten op verwante paren dat, althans voor verwante kinasen en regulatoren, ons algoritme interactiepartners kan afleiden ab initio met hoge nauwkeurigheid.

Het voorspellen van weesinteracties

We zijn natuurlijk het meest geïnteresseerd in het reconstrueren van die delen van bacteriële tweecomponenten-signaleringsnetwerken die momenteel niet bekend zijn, dat wil zeggen, om interactiepartners te voorspellen voor de duizenden weeskinasen en regulatoren. De voorspelling van weesinteracties is om twee redenen moeilijker. Ten eerste, hoewel voor verwante paren de veronderstelling dat elk kinase en elke regulator voornamelijk interageert met één partner waarschijnlijk niet onredelijk is, is dit voor weeskinasen en regulatoren minder waarschijnlijk. Veel genomen bevatten ongelijke aantallen kinasen en regulatoren, wat suggereert dat ten minste sommige met meerdere partners moeten interageren. Ten tweede bevat een bepaalde bacterie doorgaans weeskinasen uit meerdere klassen, en we moeten dus ook afleiden tot welke kinaseklasse elk van de weesregulatoren behoort.

Om weesinteracties te voorspellen, hebben we ons model op verschillende manieren uitgebreid. Eerst behandelen we de meerdere klassen van kinasen parallel. Ten tweede, om rekening te houden met ongelijke aantallen weeskinasen en weesregulatoren, kunnen sommige kinasen en/of regulatoren voor een bepaalde opdracht zonder interactiepartner blijven en deze worden afzonderlijk gescoord (zie Materialen en methoden). Ten slotte voegen we alle verwante paren toe aan de uitlijningen van elke klasse, waarbij interactiepartners correct zijn toegewezen, en houden deze verwante paren vast. Op deze manier fungeren de ‘bevroren’ verwante paren als een trainingsset voor de weesopdrachten. Het algoritme gebruikt opnieuw Markov-keten Monte-Carlo om monsters te nemen van alle manieren om weesontvangers aan klassen toe te wijzen, en alle manieren om weesinteractiepartners in elke klasse toe te wijzen. Vanwege numerieke problemen bij de uitbreiding van ons model naar meerdere klassen (zie Materialen en methoden), zijn we niet in staat om de som over alle afhankelijkheidsbomen met voldoende nauwkeurigheid te berekenen. Daarom gebruiken we de verwante paren om de beste afhankelijkheidsboom te bepalen en bij benadering P(NSeen) met maxt P(NSeen, t).

Om de prestaties van dit uitgebreide model te benchmarken, hebben we het eerst gebruikt om interactiepartners te voorspellen voor alle verwante kinasen en ontvangers, die parallel op alle zeven klassen draaien. Aangezien elke verwante regulator nu dynamisch mag schakelen tussen alle zeven klassen van kinasen, is de zoekruimte van het uitgebreide model veel groter in vergelijking met het geval waarin elke klasse afzonderlijk wordt behandeld, en we verwachten dat dit de prestaties negatief zal beïnvloeden. Zoals blijkt uit de aanvullende informatie, blijven onze voorspellingen desalniettemin vrij nauwkeurig. Merk ook op dat voor kleine klassen, zoals de HWE-klasse, er vaak slechts één kinase per genoom is en correcte voorspelling komt neer op het identificeren van de regulator die tot de HWE-klasse behoort, wat het uitgebreide model met hoge nauwkeurigheid bereikt.

Met behulp van ons uitgebreide model voorspelden we vervolgens wees-interactiepartners voor het hele genoom in alle 399 bacteriën. Momenteel zijn er zeer weinig weesinteracties experimenteel gemeten. Verreweg de meest uitgebreide kennis is beschikbaar voor de interactiepartners van HisKA weeskinasen in Caulobacter crescentus ( Wu et al, 1999 Ohta en Newton, 2003 Skerker et al, 2005 Biondi et al, 2006 ). Tabel I vergelijkt onze voorspellingen voor weesinteractie in Caulobacter met die in de literatuur.

Opvallend is dat voor 10 van de 11 kinasen met bekende interactiepartners de hoogste computationele voorspelling overeenkomt met een bekende interactie. Van de 22 voorspellingen in de tabel, die alle 16 bekende interacties voor deze kinasen omvat, staan ​​er slechts vijf haaks op de huidige experimentele gegevens. Aangezien er 29 verschillende weesregulatoren zijn in Caulobacter, dat wil zeggen, er zijn 29 interactiekandidaten voor elke kinase, dit vormt zeer significant bewijs dat onze methode nauwkeurig wees-interactiepartners voorspelt (P-waarde van 7,5 × 10 −18 zie Aanvullende informatie). In de Aanvullende informatie vergelijken we ook onze weesvoorspellingen met de weinige experimenteel bepaalde weesinteracties in Helicobacter pylori, Bacillus subtilis, en Ehrlichia chaffeensis.

Voorspelling van interacties tussen PKS's

PKS's zijn een familie van bacteriële eiwitten met buitengewone biosynthetische mogelijkheden. Afhankelijk van zeer specifieke eiwit-eiwit-interacties vormen ze multi-eiwitketens waarin de volgorde van de PKS-eiwitten de volgorde van de monomeren van het gesynthetiseerde polyketideproduct bepaalt. PKS's zijn van bijzonder belang omdat ze, door genetische manipulatie van nieuwe PKS-ketens, mogelijk kunnen worden gebruikt om combinatorische biochemie in het laboratorium te bereiken (Weissman en Leadlay, 2005).

Aangenomen wordt dat de specificiteit van PKS-interactie wordt bepaald door een klein aantal residuen in de kop (N-terminus) en staart (C-terminus). Hier richten we ons op een dataset van 149 op elkaar inwerkende kop-staartparen die zeer recent zijn gepubliceerd ( Thattai et al, 2007 ). Analyse van deze dataset heeft aangetoond ( Thattai et al, 2007) dat zowel kop- als staartsequenties fylogenetisch kunnen worden geclusterd in drie groepen (H1 tot H3 en T1 tot T3), en dat interagerende paren alleen voorkomen tussen eiwitten van overeenkomstige groepen. Groepslidmaatschap kan dus worden gebruikt om te voorspellen welke kop- en staartparen waarschijnlijk op elkaar inwerken.

We passen onze methode zonder enige wijziging (d.w.z. zoals beschreven in de sectie Algemeen model) toe op de bovengenoemde dataset. Dat wil zeggen, we beschouwen koppen en staarten als de eiwitfamilies 1 en 2 (zie figuur 1) en bemonsteren alle mogelijke manieren om elke kop toe te wijzen aan precies één staart binnen hetzelfde genoom. Dit houdt in dat koppen van PKS's binnen één route interactie mogen hebben met staarten van PKS's van een andere route zolang ze tot hetzelfde genoom behoren, wat een moeilijker en waarschijnlijk biologisch relevanter probleem is dan het probleem dat in ( Thattai et al, 2007 ). De resultaten worden getoond in het linkerpaneel van figuur 4. De rode curve toont de prestaties van ons model waarin de waarschijnlijkheid van de gegevens wordt gemiddeld over alle mogelijke afhankelijkheidsbomen, de blauwe curve toont de prestaties van een classificatiemodel dat alleen rekening houdt met Houd rekening met de fylogenetische groepsinformatie van de sequenties (zie Aanvullende informatie), en de groene curve toont de prestaties van willekeurige voorspellingen. Merk op dat hoewel ons model geen rekening houdt met eerdere informatie over de fylogenetische groepering van koppen en staarten, het duidelijk beter presteert dan het classificatiemodel dat wordt gebruikt in ( Thattai et al, 2007 ).

Thattai et al (2007) hebben aangetoond dat er binnen de grootste groep van interactie-kop-staartparen (de H1-T1-groep met 90 paren) een aantal aminozuurresiduparen zijn die dicht in de NMR-structuur van een interactief-kop-staartparen liggen. paar en die significant bewijs van co-evolutie vertonen. Echter, pogingen van Thattai et al (2007) om deze paren posities te gebruiken om interacties binnen de H1-T1-subklasse te voorspellen, leverde resultaten op die slechts iets beter waren dan willekeurig. Daarentegen, zoals weergegeven in het rechterpaneel van figuur 4, vertoont ons model een uitstekende voorspellingsnauwkeurigheid op de H1-T1-subklasse. Dit toont aan dat ons model in ieder geval voor sommige eiwitfamilies nauwkeurige voorspellingen verkrijgt op datasets met minder dan 100 sequenties.

De structuur van tweecomponenten-signaleringsnetwerken in bacteriën

Onze genoombrede voorspellingen van TCS-signaleringsinteracties stellen ons voor het eerst in staat om de structuur van TCS-signaleringsnetwerken over bacteriën te onderzoeken en te vergelijken. In onze verwante voorspellingen hierboven gingen we er echter van uit dat elke verwante interactie met slechts één andere verwante aanging, en de weesvoorspellingen gingen er ook van uit dat weeskinderen alleen met elkaar interageren. Zoals uitgelegd in de Materialen en methoden, hebben we, om ervoor te zorgen dat de netwerkvoorspellingen zo uitgebreid en onbevooroordeeld mogelijk zijn, een statisch scoreschema gebruikt dat verwanten en wezen gelijk behandelt (waardoor interacties tussen wezen en verwanten mogelijk zijn) en een willekeurig aantal interacties mogelijk maakt partners per eiwit.

Voordat we de voorspelde interacties onderzochten, hebben we eerst onderzocht hoe het aantal TCS-genen van verschillende typen varieert tussen genomen. Zoals werd aangetoond door van Nimwegen (2003) varieert het totale aantal TCS-genen aanzienlijk tussen bacteriën en schalen ongeveer als het kwadraat van het aantal genen in het genoom, dat wil zeggen, wanneer het totale aantal genen verdubbelt, het totale aantal TCS-genen verviervoudigen ongeveer. Figuur 5 toont het totale aantal verwanten en wezen over genomen (linkerpaneel) en het aantal weeskinasen en weesontvangers (rechterpaneel). Er is een opmerkelijk grote variatie in het relatieve aantal wezen en verwanten, dat wil zeggen er zijn voorbeelden van genomen met tientallen verwante paren zonder enige wees, en omgekeerd genomen met tientallen wezen en geen verwanten. Daarnaast blijkt er weinig correlatie te bestaan ​​tussen het aantal verwanten en het aantal wezen. We vinden ook geen waarneembare correlatie tussen het aantal weeskinasen en het aantal verwante regulatoren, of het aantal weesregulatoren en verwante kinasen (gegevens niet getoond). Daarentegen, zoals eerder opgemerkt (Alm et al, 2006), is er een duidelijke correlatie tussen het aantal weeskinasen en het aantal weesregulatoren in een genoom (rechterpaneel van figuur 5). Deze statistieken geven een eerste suggestie dat weeskinasen en weesregulatoren voornamelijk met elkaar interageren in plaats van met verwanten.

Om dit verder te onderzoeken, hebben we geanalyseerd hoe het totale aantal voorspelde interacties afhangt van het aantal TCS-genen van verschillende soorten. We onderscheiden vier soorten interacties: verwante-verwante interacties tussen verwante kinasen en verwante ontvangers, wees-weesinteracties tussen weeskinasen en weesontvangers, verwante-weesinteracties tussen verwante kinasen en weesontvangers, en wees-verwante interacties tussen weeskinasen en verwante ontvangers. Voor een genoom met C verwante paren, K weeskinasen, en R weesontvangers, er zijn respectievelijk: t=C 2 verwant-verwant, t=KR wees-wees, t=CR verwant-wees, en t=KC wees-verwante interacties mogelijk. Voor elk genoom hebben we de breuken bepaald Fcc, Fooo, Fco, en Foc van alle mogelijke interacties in elke klasse die naar verwachting zullen plaatsvinden. Voor elke categorie hebben we de genomen gesorteerd op het totale aantal interacties t van die categorie, en door lopende gemiddelden van de breuken te berekenen (zie Materialen en methoden) hebben we de afhankelijkheid van de breuken bepaald Fcc, Fooo, Fco, en Foc op het totale aantal mogelijke interacties t (Figuur 6). Als elke mogelijke interactie een constante kans had om te worden voorspeld, dan zou de waargenomen fractie van interacties onafhankelijk zijn van het totale aantal mogelijke interacties t. Daarentegen is in figuur 6 te zien dat alle fracties afnemen als functie van het totale aantal mogelijke interacties t. Voor een redelijke benadering vallen alle vier breuken als een machtswet van het totale aantal mogelijke interacties t, met exponenten −0,4 voor verwante-verwante en wees-wees-interacties, en −0,55 voor verwante-wees- en wees-verwante interacties.

Om de gevolgen van deze schaalvergroting voor de TCS-netwerkstructuur als een functie van de genoomgrootte te onderzoeken, moeten we ons eerst concentreren op verwante-verwante interacties. Voor een genoom met N verwante paren, er zijn t=N 2 mogelijke interacties, waarvan een fractie t −0.4 bestaat. Het totale aantal verwante-verwante randen schaalt dus als t 0.6 =N 1.2 . Dat wil zeggen, naarmate het aantal verwante paren toeneemt, groeit het totale aantal interacties tussen verwanten net iets sneller dan lineair. Dit houdt in dat, hoewel de totale hoeveelheid overspraak tussen verwanten klein is, de hoeveelheid overspraak toeneemt met het aantal verwante paren. Met name het gemiddelde aantal interactiepartners per verwant gen groeit naarmate N 0,2 . Om een ​​idee te geven van de orde van grootte: voor een genoom met vier verwante paren voorspelt de power-law fit een totaal van 3,5 interacties, dat wil zeggen in wezen één interactie per gen. Voor een genoom met 40 verwante paren worden in totaal 56 verwante-verwante interacties voorspeld, wat neerkomt op 16 overspraak bovenop de 40 verwante interacties. Voor wees-weesinteracties lijken de cijfers erg op elkaar.

The power-law fits show that the fractions of cognate–orphan and orphan–cognate interactions decrease even faster with t. Consider for simplicity genomes with N cognate pairs, N orphan kinases, and N receivers. The total number of cognate–orphan and orphan–cognate interactions grows as N 0.9 in such genomes. Since this is slower than linear, it in particular implies that the average number of cognate–orphan and orphan–cognate interactions per gene decreases as N −0.1 . Apart from decreasing more rapidly with N, it is also shown in Figure 6 that cognate–orphan and orphan–cognate interactions are much less frequent than cognate–cognate and orphan–orphan interactions.

In summary, all our observations support the idea that orphans and cognates form two relatively separate TCS-signaling networks, that is, cognate–orphan and orphan–cognate interactions are relatively rare, and whereas the number of orphan–orphan and cognate–cognate cross-talks per gene increases with increasing network size, the number of cognate–orphan and orphan–cognate interactions per gene decreases with network size. As we saw above (Figure 5), this idea is also supported by the correlation in the number of orphan kinases and orphan receivers, and the absence of correlations between the numbers of cognates and numbers of orphans.

To provide additional evidence that orphans and cognates form relatively separate TCS-signaling networks, we mapped orthology relations of cognates and orphans across the 399 sequenced genomes (see Materials and methods Supplementary information). We find that, whenever both genes of a cognate pair have orthologs in another genome, the two orthologs are also a cognate pair in this genome 99.1% of the time. In 0.6% of the cases, the orthologs of the cognate pair are both orphans, and in the remaining 0.3% of the cases one ortholog is a cognate and the other an orphan. In cases where only the kinase of the cognate pair has an ortholog, the orthologous kinase is a cognate 79% of the time. Similarly, if only the receiver of the cognate pair has an ortholog, then this orthologous receiver is a cognate 78% of the time. Finally, orthologs of orphan kinases are orphans 86% of the time, and orthologs of orphan receivers are orphans 80% of the time. Thus, although both cognate and orphan TCS genes undoubtedly share a common phylogenetic ancestry, our results intriguingly suggest that on shorter evolutionary time scales orphans and cognates evolve relatively separately from each other, and support our finding that the orphans and cognates form two relatively separate interaction networks.

To shed some light on the difference between orphans and cognates, we determined the connectivity, that is, the number of predicted interaction partners, for each TCS protein, and calculated the distribution of connectivities separately for all orphans and all cognates. Figure 7 shows the reverse cumulative distribution of kinases (left panel) and regulators (right panel). The figure shows striking differences between the connectivity distributions of cognates (red) and orphans (blue). First, for both kinases and regulators, the reverse cumulative distribution initially falls rapidly and roughly exponentially. In this regime, which includes roughly 90% of all genes, the connectivity distributions of cognates and orphans are very similar, although there are slightly more cognates with at least one predicted interaction partner than orphans. However, for the remaining 10% of genes the connectivity distributions of cognates and orphans are very different. In particular, there is a much larger number of orphans with high connectivity. For all four curves, but especially clearly for the orphans, there are two regimes in the distribution: one corresponding to relatively low-connectivity genes, which includes about 90% of all genes, and a second regime of high-connectivity genes, which covers the remaining 10%. It thus appears that, to a rough approximation, there are two types of TCS genes. Most kinases and regulators interact with only a few (less than five) partners, but about 10% interact with a large number of partners. The kinases in this class thus distribute a signal to a large number of downstream regulators, and the regulators in this class integrate a large number of input signals. Most of these ‘hub’ kinases and regulators are orphans.


Invoering

With the overwhelming amount and exponential increase of biomedical literature, it is almost impossible for biologists to keep abreast of all the updated information in their research fields. Therefore, knowledge-based methods such as text mining techniques to discover hidden and updated knowledge from the unstructured free text are in great need [1]–[3]. One of the most important applications is mining correlations or associations such as protein-protein interactions (PPIs) from the literature [4], [5]. Plenty of PPI text mining approaches have been categorized into two groups, one is statistical calculation of the co-occurrence of genes or proteins, and the other is the computational linguistic method [2], [4].

Statistical methods are based on the hypothesis that if two genes or proteins appeared in the same sentences, paragraphs or articles frequently, there may exist certain kind of biologically meaningful relation between them [2]. Thus, the relations between genes or proteins could be uncovered by calculating their co-occurrence frequencies. In general, the higher the frequencies are, the more likely the interactions are. On the other hand, computational linguistic methods employ natural language processing (NLP) techniques to analyze the semantic meanings of relations (e.g. interaction) between genes or proteins. It first identifies gene or protein names in the sentences. Then it parses the sentences by employing the part-of-speech (POS) tagging. Based on the generated POS tags, a set of predefined protein-protein interaction patterns or rules are applied to extract the protein-protein interaction descriptions [4].

However, the two approaches both have limitations. A drawback of the statistical methods is its inability to tell the exact relations of the genes in co-occurrence. The computational linguistic methods that use one sentence as a processing unit might miss the contextual information [4]. Thus, a hybrid approach by combining the two methods that is termed as a frame-based approach has been developed to have better performance [2].

Biologists may have more interests in the predicted novel PPIs from these text-mining tools. It will be more straightforward to identify potential novel PPIs when the known PPIs are filtered in these algorithms. However, few algorithms have implemented this feature [3]. In this study, we developed a novel algorithm by a frame-based approach for a web-based tool, PPI Finder, which can not only find the related genes of the gene of interest based on their co-occurrence frequencies but also extract the semantic descriptions of interactions from the co-occurring literature by computational linguistic methods. In addition, we map the known interactions from the widely-used PPI databases to filter the known interactions. We also show the shared GO terms from the Gene Ontology database, in order to infer potential PPIs based on their functions in the same process or localization. This dedicated web server is helpful to the users to find both known and potential novel PPIs from literature.


Referenties

Mellitus D. Diagnosis and classification of diabetes mellitus. Diabetes care. 2005 28(S37):S5–S10.

Davies JL, Kawaguchi Y, Bennett ST, et al. A genome-wide search for human type 1 diabetes susceptibility genes. Natuur. 1994 371(6493):130–6.

Butler AE, Bonner-Weir S, et al. Janson, J. Diabetes. 2003 52(1):102–10.

Buchanan TA, Xiang AH. Gestational diabetes mellitus. J Clin Invest. 2005 115(3):485–91.

Marx J. Unraveling the causes of diabetes. Wetenschap. 2002 296(5568):686.

Notkins AL. The causes of diabetes. Sci Am. 1979 241(5):62.

Loeken MR. Advances in understanding the molecular causes of diabetes-induced birth defects. J Soc Gynecologic Invest. 2006 13(1):2–10.

Nguyen C, Varney MD, Harrison LC, et al. Definition of high-risk type 1 diabetes HLA-DR and HLA-DQ types using only three single nucleotide polymorphisms. Diabetes. 2013 62(6):2135–40.

Hu X, Deutsch AJ, Lenz TL, et al. Additive and interaction effects at three amino acid positions in HLA-DQ and HLA-DR molecules drive type 1 diabetes risk. Nat Genet. 2015 47(8):898–905.

Chen LM. Association of the HLA-DQA1 and HLA-DQB1 Alleles in Type 2 Diabetes Mellitus and Diabetic Nephropathy in the Han Ethnicity of China. Exp Diabetes Res. 2013 2013:1–5.

Glazier AM, Nadeau JH, Aitman TJ. Finding Genes That Underlie Complex Traits. Wetenschap. 2002 298(5602):2345–9.

Lage K, Karlberg E, et al. A human phenome-interactome network of protein complexes implicated in genetic disorders. Nat Bio. 2007 25(3):309–16.

Aerts S, Lambrechts D, et al. Gene prioritization through genomic data fusion. Nat Biotech. 2006 24(5):537–44.

Adie E, Adams R, et al. SUSPECTS:enabling fast and effective prioritization of positional candidates. Bioinformatics. 2006 22(6):773–4.

Turner F, Clutterbuck D, Semple C. POCUS: mining genomic sequence annotation to predict disease genes. Genoom Biologie. 2003 4(11):R75.

Masotti D, Nardini C, et al. TOM: enhancement and extension of a tool suite for in silico approaches to multigenic hereditary disorders. Bioinformatics. 2008 24(3):428–9.

Chen J, Bardes EE, et al. ToppGene Suite for gene list enrichment analysis and candidate gene prioritization. Nucleïnezuren Res. 2009 37(suppl 2):W305—11.

Adie EA, Adams RR, et al. Speeding disease gene discovery by sequence based candidate prioritization. BMC Bioinformatics. 2005 6(55):1–13.

Stelzl U, Wanker EE. The value of high quality protein-protein interaction networks for systems biology. Curr Opin Chem Biol. 2006 10:551–8.

Gandhi TKB, Zhong J, et al. Analyse van het humane eiwit interactoom en vergelijking met gist-, worm- en vlieginteractiedatasets. Nat Genet. 2006 38:285–93.

Oti M, Snel B, Huynen MA, et al. Predicting disease genes using proteinCprotein interactions. J Med Genet. 2006 43(8):691–8.

Chen JY, Shen C, Sivachenko AY. Mining Alzheimer disease relevant proteins from integrated protein interactome data. Pac Symp Biocomput. 2006 11:367–78.

Erten S, Bebek G, et al. Disease gene prioritization based on topological similarity in protein-protein interaction networks. Res Comput Mol Biol. 2011 2011:54–68.

Sprinzak E, Sattath S, Margalit H. How Reliable are Experimental Protein-Protein Interaction DataJ Mol Biol. 2003 327(5):919–23.

Chen J, Yuan B. Detecting Functional Modules in the Yeast Protein-Protein Interaction Network. Bioinformatics. 2006 22(18):2283–90.

Bader GD, Hogue CWV. Analyzing yeast protein-protein interaction data obtained from different sources. Nat Biotechnologie. 2002 20(10):991–7.

Batada N, Hurst LD, Tyers M.Evolutionary and physiological importance of hub proteins. PLoS Comp Bio. 2006 2:e88.

Collins SR, Kemmeren P, Zhao XC, et al. Toward a comprehensive atlas of the physical interactome of Saccharomyces cerevisiae. Mol Cell Proteomics. 2007 6(3):439–50.

Wu C, Zhu J, Zhang X. Integrating gene expression and protein-protein interaction network to prioritize cancer-associated genes. BMC Bioinformatics. 2012 13(1):182.

Li W, Chen L, He W, et al. Prioritizing Disease Candidate Proteins in Cardiomyopathy-Specific Protein-Protein Interaction Networks Based on “Guilt by Association” Analysis. PloS een. 2013 8(8):e71191.

Kumar A, Agarwal S, et al. Subcellular localization of the yeast proteome. Genes and development. 2002 16(6):707–19.

de Lichtenberg U, Jensen LJ, et al. Dynamic complex formation during the yeast cell cycle. science. 2005 307(5710):724–7.

Altshuler D, Daly M, Kruglyak L. Guilt by association. Nat Genet. 2000 26(2):135–8.

Kohler S, Bauer S, Horn D, et al. Walking the interactome for prioritization of candidate disease genes. Am J Hum Genet. 2008 82(4):949–58.

Huh WK, Falvo JV, et al. Global analysis of protein localization in budding yeast. Natuur. 2003 425(6959):686–91.

Peng X, Wang J, et al. An efficient method to identify essential proteins for different species by integrating protein subcellular localization information. Bioinformatics Biomed. 2015 2015:277–80.

Peng X, Wang J, et al. Rechecking the Centrality-Lethality Rule in the Scope of Protein Subcellular Localization Interaction Networks. PloS een. 2015 10(6):1–22.

Tang X, Wang J, et al. Predicting essential proteins based on weighted degree centrality. IEEE/ACM Trans Comput Biol Bioinformatics. 2014 11(2):407–18.

Binder JX, Pletscher-Frankild S, et al. COMPARTMENTS: unification and visualization of protein subcellular localization evidence. Database. 2014 2014. bau012.

Stark C, Breitkreutz BJ, et al. Biogrid: a general repository for interaction datasets. Nucleïnezuren Res. 2006 34(1):D535—9.

Rende D, Baysal N, Kirdar B. Complex disease interventions from a network model for type 2 diabetes. PloS One. 2013 8(6):e65854.

Manabe Y, Tochigi M, et al. Insulin-like growth factor 1 mRNA expression in the uterus of streptozotocin-treated diabetic mice. J Reprod Dev. 2013 59(4):398–404.

Liu X, Xu J. Reduced Histone H3 Acetylation in CD4. Disease Markers. 2015 2015:1–8.

Linner C, Svartberg J, Giwercman A, et al. Estrogen receptor alpha single nucleotide polymorphism as predictor of diabetes type 2 risk in hypogonadal men. Aging Male. 2013 16(2):52–7.

Wei FJ, Cai CY, et al. Quantitative candidate gene association studies of metabolic traits in Han Chinese type 2 diabetes patients. Genet Mol Res GMR. 2015 14(4):15471.

Devaney JM, Gordish-Dressman H, et al. AKT1 polymorphisms are associated with risk for metabolic syndrome. Hum Genet. 2011 129(2):129–39.

Hami J, Kerachian MA, et al. Effects of streptozotocin-induced type 1 maternal diabetes on PI3K/AKT signaling pathway in the hippocampus of rat neonates. J Receptors Signal Transduction. 2015 2015:1–7.

Zheng H, Fu J, et al. CNC-bZIP protein Nrf1-dependent regulation of glucose-stimulated insulin secretion. Antioxidants Redox Signal. 2015 22(10):819–31.

Hirotsu Y, Higashi C, et al. Transcription factor NF-E2-related factor 1 impairs glucose metabolism in mice. Genes Cells. 2014 19(8):650–65.

Ferre S, de Baaij JHF, et al. Mutations in PCBD1 cause hypomagnesemia and renal magnesium wasting. J Am Soc Nephrol. 2013 2013. ASN 2013040337.

Simaite D, Kofent J, et al.Recessive mutations in PCBD1 cause a new type of early-onset diabetes. Diabetes. 2014 63(10):3557–64.

Han J, Zhang M, et al. The Identification of Novel Protein-Protein Interactions in Liver that Affect Glucagon Receptor Activity. PloS een. 2015 10(6):e0129226.

Sakiyama H, Wynn RM, et al. Regulation of Nuclear Import/Export of Carbohydrate Response Element-binding Protein (ChREBP) INTERACTION OF AN alpha-HELIX OF ChREBP WITH THE 14–3-3 PROTEINS AND REGULATION BY PHOSPHORYLATION. J Biol Chem. 2008 283(36):24899–908.

Somanath PR. 14-3-3 beta-Rac1-p21 activated kinase signaling regulates Akt1-mediated cytoskeletal organization, lamellipodia formation and fibronectin matrix assembly. J Cell Physiol. 2009 218(2):394–404.

Chen J, Chen JK, et al. EGFR signaling promotes TGF-dependent renal fibrosis. J Am Soc Nephrol. 2012 23(2):215–24.

Chen J, Chen JK, Harris RC. EGF receptor deletion in podocytes attenuates diabetic nephropathy. J Am Soc Nephrol. 2015 26(5):1115–25.

Hwang KW, Won TJ, et al. Erratum to “Characterization of the regulatory roles of the SUMO”. Diabetes/metabolism Res Rev. 2012 28(2):196–202.

Hwang KW, Won TJ, et al. Characterization of the regulatory roles of the SUMO. Diabetes/metabolism Res Rev. 2011 27(8):854–61.

Owerbach D, Pina L, Gabbay KH. A 212-kb region on chromosome 6q25 containing the TAB2 gene is associated with susceptibility to type 1 diabetes. Diabetes. 2004 53(7):1890–3.


Concept recognition for relation extraction: the protein interaction pairs subtask

Finally, the most detailed level of information that may interest a bench biologist is the extracted interaction data itself. This information could be presented to the biologist as the results of a literature search. Alternatively, the methods used to extract the data could be used to support database expansion and management. For the IPS subtask [42] we used OpenDMAP, which is a concept recognition system that has been developed by our group. As is typical for concept recognizers using manually constructed grammars, our system is geared toward optimizing precision. The procedure begins with preprocessing the HTML, and then moves to species recognition, entity tagging and part of speech tagging, followed by extraction of protein-protein interactions. Our approach for detecting interacting protein pairs relies heavily on the systems generated for the GM and GN tasks.

Preprocessing

HTML parsing

The HTML parser developed to process the raw HTML documents was an extension of a similar parser developed for the TREC Genomics 2006 task [36]. The title, abstract, paragraphs, sentences, section headings, and subsection headings were extracted for each document. Document sections were inferred based on the section heading text. Sentence boundaries were detected using the LingPipe sentence chunker [6]. Sentences were mapped back to the original HTML using a dynamic programming approach.

Protein mention tagging

We used a variant of the system developed for the GM task to tag genes/proteins in which the outputs of ABNER [7] (both models) and LingPipe [6] (BioCreative04 model) were combined using the combining filter (see the section on GM, above). As we pointed out in the GM task introduction, the distinction between gene and protein mentions in text is often vague, and therefore for the purposes of the analyses conducted in this paper we consider them to be equivalent.

Linguistic tagging

Part of speech (POS) tagging was done using the GENIA POS Tagger [43].

Species classification

Species classification was done using a modified dictionary search. The species dictionary was constructed from the intersection of words from the National Center for Biotechnology Information (NCBI) names.dmp file (a list of all known scientific names and synonyms for organisms) and the set of NCBI taxonomy identifiers present in the IPS training set. These words were then combined into a single regular expression pattern for each species. In the flanking region of ± 50 characters around each detected species, we searched for bigrams that would further indicate a particular species in order to filter out false positive identifications. This set of 'indicator bigrams' was created by calculating the frequency of bigrams in the flanking region of the IPS training data. Each indicator bigram was assigned a log-odds score using the formula:

Log-odds scores were summed to determine the score of a single species match. The total score for a given species classification for a single article was calculated by combining the number of times a species match was made and the sum of the log-odds for indicator bigrams per match. Once scored, the species for a given document was returned in rank order. We experimented with the optimal number of species results to return and found the best results when the maximum number of species returned from the ranked list was two.

Protein mention normalization

Gene/protein lexicon construction

Dictionaries were constructed for each species that was observed in the IPS training data by extracting information from the uniprot_light_table_updated.txt file supplied by the BioCreative organizers.

Protein mention normalization

Each gene/protein mention was normalized using the procedure described above for the GN task, using the dictionary for the identified species. We experimented with the optimal number of normalized identifiers to return and found the best results when we limited the output to one normalized entry per gene mention in text.

OpenDMAP and conceptual patterns

We extracted protein-protein interaction pairs by applying OpenDMAP [3], an open source, ontology-based concept recognition system available at [44]. It works by associating manually written patterns to concepts in free text. The patterns combine information about concepts, keywords, parts of speech, phrase types, and other syntactic features into single patterns.

OpenDMAP patterns are written in a regular grammar syntax that consists of nonterminal elements on the left-hand side and terminal and nonterminal elements on the right. Nonterminal elements are linked to a Protégé ontology [45], which describes the protein-protein interaction frame with an interaction class that has two slots: interactor1 and interactor2. An example of an OpenDMAP pattern for the IPS task looks like the following expression:

= [interactor1] interacts with [interactor2]

Where elements presented in represent classes in the ontology, elements in [brackets] correspond to slots of the class on the left-hand side of the pattern, and bare strings are terminals. The slots are constrained in the ontology to have specific features for the IPS task, the slot elements [interactor1] and [interactor2] are constrained to be proteins.

When a sentence is input to the system, OpenDMAP recognizes that the marked proteins tagged by our GM system match the constraints on the frame slots [interactor1] and [interactor2]. When OpenDMAP matches the rest of the pattern elements, an instance of a protein-protein interaction frame is created. The interactor1 and interactor2 slots are filled with the protein instances from text that matched the pattern. The output is a protein-protein interaction frame from the ontology, filled in with instances of the interactors found in the text. See Figure 1 for a step-by-step representation of this process.

IPS: steps of the protein-protein interaction extraction system. IPS, interaction pair subtask.

We used a variety of discovery procedures to build the patterns, including interview sessions with 'native speakers' (scientists with expertise in biology), and examination of corpora for pattern elements. The interviews were used to determine the set of predicates that described protein-protein interaction. Biologists were given a set of sentences in varying constructions (active, passive, and so on) and asked to determine whether plugging in the verbs from a list would result in a sentence denoting physical protein-protein interaction.

The corpus investigation uncovered frequently occurring N-grams and frequently occurring strings between protein mentions [46]. We used the BioCreative 2006 IPS, ISS, and IAS training data the PICorpus (available at [47]) [48, 49] material generated by Jörg Hakenberg [50] and Anna Veuthey and the Prodisen corpus (available at [51]).

The final grammar consisted of 67 rules. The patterns used in the IPS task are available at [44]. The grammar handles verbal and nominalization constructions, and various forms of conjunction, but not negation. We experimented with using unbounded wildcards, the results of which were higher recall but very low precision. We also experimented with the insertion of various parts of speech and phrase types between the protein slot pattern elements, with the result that the final pattern set includes adjective, adverb, and determiner POS elements, as well as various prepositional phrase types.


Download en print dit artikel voor uw persoonlijke wetenschappelijke, onderzoeks- en educatieve doeleinden.

Koop een los nummer van Wetenschap voor slechts $ 15 USD.

Wetenschap

Vol 302, Issue 5644
17 October 2003

Artikel Gereedschap

Log in om een ​​waarschuwing voor dit artikel toe te voegen.

By Ronald Jansen , Haiyuan Yu , Dov Greenbaum , Yuval Kluger , Nevan J. Krogan , Sambath Chung , Andrew Emili , Michael Snyder , Jack F. Greenblatt , Mark Gerstein

Wetenschap 17 Oct 2003 : 449-453


Leveraging polygenic enrichments of gene features to predict genes underlying complex traits and diseases

Genome-wide association studies (GWAS) are a valuable tool for understanding the biology of complex traits, but the associations found rarely point directly to causal genes. Here, we introduce a new method to identify the causal genes by integrating GWAS summary statistics with gene expression, biological pathway, and predicted protein-protein interaction data. We further propose an approach that effectively leverages both polygenic and locus-specific genetic signals by combining results across multiple gene prioritization methods, increasing confidence in prioritized genes. Using a large set of gold standard genes to evaluate our approach, we prioritize 8,402 unique gene-trait pairs with greater than 75% estimated precision across 113 complex traits and diseases, including known genes such as SORT1 for LDL cholesterol, SMIM1 for red blood cell count, and DRD2 for schizophrenia, as well as novel genes such as TTC39B for cholelithiasis. Our results demonstrate that a polygenic approach is a powerful tool for gene prioritization and, in combination with locus-specific signal, improves upon existing methods.

Verklaring van concurrerende belangen

J.C.U reports compensation from consulting services with Goldfinch Bio and AVROBIO. R.S.F. is an employee of Vertex Pharmaceuticals. C.P.F. is an employee of Bristol Myers Squibb. J.O.M. reports compensation for consulting services with Cellarity. A.R. is a co-founder and equity holder of Celsius Therapeutics, an equity holder in Immunitas, and was an SAB member of ThermoFisher Scientific, Syros Pharmaceuticals, Neogene Therapeutics and Asimov until July 31, 2020. From August 1, 2020, A.R. is an employee of Genentech. J.N.H. served on the Scientific Advisory Board of and consults for Camp4 Therapeutics. E.S.L. serves on the Board of Directors for Codiak BioSciences and Neon Therapeutics, and serves on the Scientific Advisory Board of F-Prime Capital Partners and Third Rock Ventures he is also affiliated with several non-profit organizations including serving on the Board of Directors of the Innocence Project, Count Me In, and Biden Cancer Initiative, and the Board of Trustees for the Parker Institute for Cancer Immunotherapy. He has served and continues to serve on various federal advisory committees.

Financieringsverklaring

This research was conducted using the UK Biobank Resource under project 31063. H.K.F. was funded by NIH grant DP5 OD024582 and by Eric and Wendy Schmidt. J.M.E. was supported by a Pathway to Independence Award (K99HG00917 and R00HG009917), the Harvard Society of Fellows, and the Base Research Initiative at Stanford University. J.M. and J.N.H. were supported by NIH grant R01DK075787. R.S.F. was supported by NHGRI NIH F31HG009850. J.O.M was supported by the Richard and Susan Smith Family Foundation, the HHMI Damon Runyon Cancer Research Foundation Fellowship (DRG-2274-16), the AGA Research Foundation's AGA-Takeda Pharmaceuticals Research Scholar Award in IBD AGA2020-13-01, the HDDC Pilot and Feasibility P30 DK034854, and the Food Allergy Science Initiative.

Auteursverklaringen

Ik bevestig dat alle relevante ethische richtlijnen zijn gevolgd en dat alle noodzakelijke goedkeuringen van de IRB en/of de ethische commissie zijn verkregen.

Hieronder vindt u de gegevens van de IRB/toezichthouder die voor het beschreven onderzoek goedkeuring of ontheffing heeft verleend:

Alle noodzakelijke toestemming van de patiënt/deelnemer is verkregen en de juiste institutionele formulieren zijn gearchiveerd.

Ik begrijp dat alle klinische onderzoeken en alle andere prospectieve interventionele onderzoeken moeten worden geregistreerd bij een door ICMJE goedgekeurd register, zoals ClinicalTrials.gov. Ik bevestig dat een dergelijk onderzoek dat in het manuscript wordt vermeld, is geregistreerd en dat de registratie-ID van het onderzoek is verstrekt (opmerking: als een prospectief onderzoek achteraf is geregistreerd, geef dan een verklaring op in het veld onderzoeks-ID waarin wordt uitgelegd waarom het onderzoek niet van tevoren is geregistreerd) .

Ik heb alle toepasselijke richtlijnen voor onderzoeksrapportage gevolgd en de relevante checklist(s) voor onderzoeksrapportage van het EQUATOR Network en ander relevant materiaal als aanvullende bestanden geüpload, indien van toepassing.


Bekijk de video: Bio - Genotype noteren, dominant en recessief - Erfelijkheid #1 (December 2021).