Informatie

Structurele informatie in PDB-bestanden comprimeren


Er lijkt veel redundantie te zijn in PDB-bestanden. Deze bestanden kunnen natuurlijk worden gecomprimeerd met algemene compressieprogramma's zoals gzip, maar ik kan het niet helpen dat deze tools een aanzienlijke hoeveelheid redundantie in PDB-bestanden over het hoofd zien. Zijn er compressoren die specifiek gericht zijn op PDB-bestanden? Zo niet, wat zijn enkele aspecten van PDB-bestanden die rijp zijn voor compressie?

Als we naar een typisch PDB-bestand kijken, vallen enkele redundanties meteen op. Andere ontslagen zijn minder voor de hand liggend. Beschouw dit fragment van twee residuen van 1MOB (myoglobine):

ATOM 332 N LYS A 42 16.481 27.122 -10.033 1.00 11.15 N ATOM 333 CA LYS A 42 15.926 28.134 -9.159 1.00 8.64 C ATOM 334 C LYS A 42 16.970 29.081 -8.512 1.00 16.74 C ATOM 335 O LYS A 42 16.687 30.075 -7.799 11.84 O ATOM 336 CB LYS A 42 15.093 27.489 -8.043 1.00 18.03 C ATOM 337 CG LYS A 42 13.731 26.888 -8.502 1.00 19.65 C ATOM 338 CD LYS A 42 12.679 27.912 -8.953 1.00 17.94 C ATOM 339 CE LYS A 42 11.438 27.406 A 42 9.703 1.00 24.82 C ATOM 340 NZ LYS A 42 10.474 28.567 -9.803 1.00 19.81 N ATOM 341 N PHE A 43 18.218 28.599 -8.544 1.00 12.28 N ATOM 342 CA PHE A 43 19.311 29.318 -7.919 1.00 11.81 C ATOM 34 20.23 C PHE A 43 20.23 C PHE A 43 30.024 -8.949 1.00 10.95 C ATOM 344 ​​O PHE A 43 21.201 29.462 -9.450 1.00 10.08 O ATOM 345 CB PHE A 43 20.138 28.301 -7.137 1.00 9.30 C ATOM 346 CG PHE A 43 19.494 27.689 -5.877 1.00 9.53 C ATHEOM A 347 CD1 PHEOM 43 19.572 28.376 -4.679 1.00 12.01 C ATOM 348 CD2 PHE A 43 18.837 26.465 -5.923 1.00 10.54 C ATOM 349 CE1 PHE A 43 18.993 27.861 -3.536 1.00 9.59 C ATOM 350 CE2 PHE A 43 18.261 25.959 -4.775 1.00 8.62 C ATOM 351 CZ PHE A 43 18.341 26.666 -3.597 1.00 7.89 C

Deze twee resten bezetten 1.638 bytes als platte tekst; wanneer gecomprimeerd met gzip, nemen ze 467 bytes in beslag. Ter referentie: het formaat van ATOM-records in PDB-bestanden is gedefinieerd op wwpdb.org/documentation/format33/sect9.html#ATOM.

Bijna alle gegevens in het bovenstaande fragment lijken overbodig. Het eerste veld (ATOM), tweede veld (atoomindex, bijv. 332 in de eerste rij), zesde veld (residuindex, bijv. 42), tiende veld (bezetting, bijv. 1,00) en laatste veld (elementnaam, bijv. N) lijken duidelijk vreemd. Het vierde veld (residunaam) kan worden ingekort van drie tekens tot 1 teken, of gewoon een geheel getal. Ik ben geen expert op het gebied van datacompressie, maar ik kan me voorstellen dat gzip het grootste deel van deze redundantie oppikt.

Iets minder duidelijk lijken de atoomnamen voor elk residu ook onnodig. Voor zover ik heb begrepen, zal de atomaire samenstelling van de backbones van alle residuen altijd hetzelfde zijn en in PDB-bestanden worden weergegeven als "N", "CA", "C", "O". Hetzelfde geldt voor de atomaire samenstelling van de respectievelijke zijketens van de residuen: een lysinezijketen zal altijd "CB", "CG", "CD", "CE", "NZ" zijn en een fenylalaninezijketen zal altijd "CB" zijn, " CG", "CD1", "CD2", "CE1", "CE2", "CZ".

Een subtielere redundantie, maar een die de samendrukbaarheid aanzienlijk zou kunnen vergroten, lijkt in de atomaire coördinaten zelf te zitten. Zou het bijvoorbeeld in de ruggengraat mogelijk zijn om de X-, Y- en Z-coördinaten van elk residuatoom (12 gegevenspunten: 4 atomen * 3 coördinaten) af te leiden, alleen gegeven hun phi, psi en omega tweevlakshoek (3 gegevenspunten)? Zou het toepassen van tweevlakshoeken op atomen in zijketens op dezelfde manier de noodzaak kunnen wegnemen om de 3D-coördinaten daar expliciet op te sommen?

Kan "temperatuurfactor" (het voorlaatste veld in het fragment) verliesloos worden verwijderd of op een niet voor de hand liggende manier worden gecomprimeerd? Wat zijn enkele andere mogelijke optimalisaties die kunnen worden gebruikt om PDB-bestanden efficiënter te comprimeren? Zijn er duidelijke ernstige gevolgen voor de prestaties van deze verschillende compressietechnieken voor de snelheid van een hypothetische decompressor om terug te converteren naar het officiële PDB-formaat? Zijn deze vragen beantwoord in de literatuur of een bestaand PDB-specifiek compressieprogramma?

Bij voorbaat dank voor eventuele antwoorden of feedback.

Bewerking:

Aangezien er geen PDB-specifieke bestandscompressoren beschikbaar lijken te zijn, denk ik dat mijn specifieke doel is om er een te ontwikkelen. Een mogelijke toepassing die ik hiervoor zie, is het aanzienlijk verkorten van de nieuwe rendertijden in bepaalde gebruikssituaties van browsergebaseerde moleculaire visualisatieprogramma's, b.v. Jmol, ChemDoodle Web Components of GLmol. Een andere toepassing zou kunnen zijn om de tijd en de grootte van de gegevens die nodig zijn om archieven van PDB-bestanden te downloaden, zoals hier beschreven, te verminderen.

Dit zou natuurlijk een manier vereisen om de verpakte PDB-bestanden efficiënt te decomprimeren, maar deze wisselwerking tussen decompressietijd en downloadtijd lijkt nuttig te kunnen zijn in ten minste enkele nichetoepassingen.

Bewerken 2:

In een opmerking vraagt ​​nico "Hoe zou het comprimeren van het bestand de rendertijd verkorten?". Het verkleinen van de gzipped PDB-bestandsgrootte (bijvoorbeeld met de helft of meer) en dus het verminderen van de tijd die nodig is om het bestand te downloaden, zou de tijd verkorten tussen het moment waarop het PDB-bestand werd opgevraagd van een externe server en het moment waarop de structuur werd weergegeven door een moleculair visualisatieprogramma dat op een klant machine. Excuses als dat gebruik van "verse time-to-render" in die context onduidelijk was.

Een verliesvrije compressie kan ook inhouden dat het PDB-bestand wordt gecodeerd naar een object (bijv. JSON) dat sneller kan worden geparseerd voor het visualisatieprogramma, en dat de rendertijden op die manier worden verkort. Als je verder rondkijkt, als de applicatie alleen de 3D-structuur weergeeft en niet ook gegevens over specifieke atomen en residuen bewaart, dan lijkt het gebruik van een binaire mesh-compressie (bijv. webgl-loader) waarschijnlijk de time-to-render nog meer te verkorten.


U doet een aantal aannames die waarschijnlijk niet voor alle PDB-bestanden gelden. Bijvoorbeeld:

  • Residu-indices zijn niet noodzakelijk sequentieel en hoeven ook niet te beginnen bij 1
  • Niet alle mogelijke residuen hebben 1-letter code-equivalenten, er zijn duizenden mogelijke exotische residuen, niet alleen de standaard aminozuren
  • PDB-bestanden worden niet alleen gebruikt voor eiwitten, maar ook voor nucleïnezuren en kleine moleculen (meestal als liganden)
  • Bezetting kan verschillen van 1.0 als er meerdere conformaties zijn vertegenwoordigd in het PDB-bestand
  • Het elementtype is duidelijk voor ongewijzigde aminozuren en nucleotiden, maar niet noodzakelijk voor meer exotische residuen (hoewel het meestal gemakkelijk te identificeren is)
  • De afstanden tussen atomen zijn niet noodzakelijk de ideale afstanden, dus je hebt hoeken en afstanden nodig om de coördinaten weer te geven.

De temperatuurfactor is een experimenteel bepaalde waarde, daar is geen duidelijke compressie voor. U kunt het veilig weggooien als u die gegevens niet nodig heeft, en b.v. het heeft sowieso geen betekenis in NMR-structuren.

Het voordeel van het PDB-formaat is dat vrijwel elk programma het (theoretisch) aankan, hoewel de implementaties variëren en subtiele incompatibiliteiten veel hoofdpijn kunnen veroorzaken. De grootte van PDB-bestanden is bijna nooit een probleem, dus er is geen significante motivatie om het formaat in dat opzicht te verbeteren.


Het PDB-bestandsformaat werd gespecificeerd in het begin van de computer om op ponskaarten te passen. Het heeft dus enkele tekortkomingen die ertoe hebben geleid dat generaties wetenschappers het kolomformaat met vaste breedte hebben vervloekt. Inmiddels is het vervangen door een XML-achtig formaat: PDBML. Natuurlijk is XML minder ruimtebesparend dan een kolomlay-out, dus je kunt zien dat schijfruimte niet de grootste zorg was, maar het kunnen ontleden van de bestanden. Desalniettemin stelt de PDBML-pagina dat ze drie soorten downloadbestanden aanbieden: "volledig gemarkeerde bestanden, bestanden zonder atom-records, bestanden met een meer ruimtebesparende codering van atom-records" -- dus u kunt controleren wat ze doen in de laatste geval.

Wat betreft uw suggesties: in theorie zou u alleen tweevlakshoeken kunnen gebruiken. De numerieke fouten zouden zich echter ophopen terwijl u doorgaat met het reconstrueren van de 3D-coördinaten, en verschillende software-architecturen zullen u verschillende precisie geven. Dus: expliciet is beter dan impliciet in wetenschappelijke bestandsformaten.


Ik haal een oude vraag weer tot leven, maar ik heb deze vraag gehoord van een paar jonge bio-informatici en had nog een paar punten om te overwegen over het comprimeren van PDB-bestanden.

De eerste is dat veel PDB-bestanden (inclusief alle PDB's die op de PDB-site worden gehost) zo'n 300-400 regels metagegevens bovenaan het bestand hebben. Dit is goed voor ongeveer 10-20% van de totale bestandsgrootte. Ook hebben veel PDB's ANISOU-records, maar die zijn ongeveer even overbodig.

Ten tweede, zelfs als je te maken hebt met onbewerkte coördinaatgegevens, denk ik dat je onderschat hoe goed GZIP het al doet. Laten we zeggen dat de helft van die kolomgegevens op de een of andere manier volledig overbodig is en dat we ze allemaal kunnen comprimeren. Vervolgens coderen we de 5 getallen (x, y, z, q, b) in binair met 2 bytes voor elk getal (wat niet eens genoeg ruimte is voor praktisch gebruik, maar we zijn hier optimistisch). We hebben dus 80 kolommen gecomprimeerd tot 10 kolommen, wat 12,5% van de oorspronkelijke grootte is. Door gzip uit te voeren op een paar eenvoudige pdbs (nadat alleen de ATOM-records eruit zijn gehaald), wordt 23,0% van de oorspronkelijke grootte bereikt. Als we echt om de bestandsgrootte zouden geven, zouden we bzip2 kunnen gebruiken die 16,4% bereikt.

Onze magische compressietool is slechts twee keer zo goed als gzip, wat leuk is, maar gzip is al vier keer beter dan ongecomprimeerde pdbs. Als het ons genoeg zou kunnen schelen, zouden we gewoon bzip2 gebruiken, dat slechts 30% groter is dan deze hypothetische minimumgrootte. En als we eenmaal alle atoomspecificaties binnen hebben, weet ik zeker dat ze vrijwel identiek zouden zijn. Het komt erop neer dat bzip2 al heel dicht bij de maximale theoretische compressielimiet zit voor veel soorten bestanden, vooral tekstbestanden. Voor gegevens over genoomsequencing, die orden van grootte groter en meer overbodig zijn, hebben mensen slechts kleine wijzigingen aangebracht in het onderliggende algoritme.

Ik heb de hele PDB-database gedownload en geanalyseerd (een beetje verouderd, maar het zijn 75K-structuren en 14GB, gzip-gecomprimeerd), en kan het waarderen dat ik het verder wil verkleinen, geloof me. Op dat niveau maakt compressie een verschil in analysetijd door alleen gegevens van de harde schijf (of een NFS-server) te lezen. Gelukkig lezen veel (zo niet de meeste) pdb-tools native gzip'd pdbs (helaas niet het geval voor bzip'd-bestanden). Perl, Python en elke andere belangrijke bioinformatica-taal hebben eenvoudige API's voor het automatisch decomprimeren van gzip-bestanden wanneer ze worden geopend. Tegen de alomtegenwoordigheid van gzip in, is het niet echt de moeite waard om na te denken over een kleine verbetering in compressie. Nogmaals, als het ons iets kon schelen, zouden we ervoor zorgen dat alles in plaats daarvan bzip2 zou gebruiken.

De toekomst lijkt meer op PDBML, wat ik een beetje veracht. Maar het is veel completer en gemakkelijker te ontleden (aangezien XML-parsers voor elke belangrijke taal bestaan), zelfs als de bestanden zelf een orde van grootte groter zijn. Ik vind ze niet leuk (en meestal XML in het algemeen) omdat ze in praktische zin niet door mensen leesbaar zijn. Maar tegelijkertijd suggereer ik niet dat we gewoon naar een PDB-formaat met 120 kolommen gaan om de beperkingen van het PDB-formaat aan te pakken.

Het gebruik van alleen tweevlakshoeken zou ook nooit werken, en niet vanwege numerieke precisie. Er is een kleine maar significante variatie in bindingslengtes en -hoeken die ervoor zouden zorgen dat de coördinaten aan het einde van de keten met angstroms afwijken. Het zou niet helpen met ANISOU, REMARK en andere records. En het zou eerlijk gezegd een enorme pijn zijn om nieuwe parsers voor te schrijven.


Ik weet dat de vraag oud is, maar voor de goede orde: de RCSB PDB werkt momenteel aan een project om de structurele gegevens van de PDB te comprimeren met een nieuw bestandsformaat, genaamd MMTF (MacroMolecular Transmission Format).

Het formaat gebruikt MessagePack voor serialisatie en doet aangepaste compressie, waardoor ~ 5x voordeel wordt behaald ten opzichte van mmCIF gzipped-bestanden. Momenteel past het hele PDB-archief in 7 GB. Het belangrijkste is dat de parseertijd drastisch wordt verminderd dankzij het binaire formaat.

U kunt er alles over lezen op de website: http://mmtf.rcsb.org


PDBsum: Structurele samenvattingen van PDB-items

PDBsum is een webserver die structurele informatie geeft over de gegevens in de Protein Data Bank (PDB). De analyses zijn voornamelijk op afbeeldingen gebaseerd en omvatten secundaire eiwitstructuur, eiwit-ligand- en eiwit-DNA-interacties, PROCHECK-analyses van structurele kwaliteit en vele andere. De 3D-structuren kunnen interactief worden bekeken in RasMol, PyMOL en een JavaScript-viewer genaamd 3Dmol.js. Gebruikers kunnen hun eigen PDB-bestanden uploaden en voor elk daarvan een reeks met wachtwoord beveiligde PDBsum-analyses verkrijgen. De server is voor iedereen vrij toegankelijk op: http://www.ebi.ac.uk/pdbsum.

trefwoorden: 3D eiwitstructuur PDB PDBsum enzymen moleculaire interacties eiwitdatabase eiwitstructuuranalyse schematische diagrammen.

Figuren

Enkele PDBsum-analyses voor PDB...

Enkele PDBsum-analyses voor PDB-invoer 5trd - een riboflavinekinase van Thermoplasma acidophilum .…

De interactieplots van PDBsum voor PDB...

De interactieplots van PDBsum voor PDB-invoer 5trd. (A) Plot van waterstofbruggen (blauw...

Meer PDBsum-analyses voor PDB…

Meer PDBsum-analyses voor PDB-invoer 5trd. (A) Schematisch "bedradingsschema" van de ...


Structurele informatie comprimeren in PDB-bestanden - Biologie

Momentopname van experimentele gegevens

  • Methode: RÖNTGENDIFFRACTIE
  • Resolutie: 2,95 €
  • R-waarde vrij: 0.300 
  • R-waarde werk: 0.229 
  • R-waarde waargenomen: 0.231 

wwPDB-validatie   3D-rapport Volledig rapport

Structureel inzicht in de sequentie-afhankelijkheid van nucleosoompositionering

(2010) Structuur 18: 528-536

  • PubMed: 20399189  Zoeken op PubMed
  • DOI: 10.1016/j.str.2010.01.015
  • Primaire bronvermelding van gerelateerde structuren:  
    3LEL
  • PubMed Samenvatting: 

Nucleosoompositionering toont sequentieafhankelijkheid en draagt ​​op een plaatsspecifieke manier bij aan genomische regulatie. We hebben de structuren van nucleosoomkerndeeltjes opgelost die zijn samengesteld uit sterk positionerende TTTAA-elementen die het nucleosoomcentrum flankeren. De positioneringssterkte van het superflexibele TA-dinucleotide is consistent met de waargenomen centrale locatie in binnenwaartse kleine groeven, waar het maximaal kan bijdragen aan energetisch uitdagende buiging, knikken en compressie van kleine groeven.

Nucleosoompositionering toont sequentieafhankelijkheid en draagt ​​op een plaatsspecifieke manier bij aan genomische regulatie. We hebben de structuren van nucleosoomkerndeeltjes opgelost die zijn samengesteld uit sterk positionerende TTTAA-elementen die het nucleosoomcentrum flankeren. De positioneringssterkte van het superflexibele TA-dinucleotide is consistent met de waargenomen centrale locatie in binnenwaartse kleine groeven, waar het maximaal kan bijdragen aan energetisch uitdagende buiging, knikken en compressie van kleine groeven. De uitgesproken voorkeur voor TTTAA en positioneringskracht van de plaats 1,5 dubbele helixwindingen van het nucleosoomcentrum heeft betrekking op een uniek histoneiwitmotief op deze locatie, dat een aanhoudende, extreem smalle kleine groef afdwingt via een hydrofobe "suikerklem". Onze analyse werpt licht op basis van nucleosoompositionering en geeft aan dat het histonoctameer is geëvolueerd om sequentiediscriminatie bij DNA-binding niet volledig te minimaliseren.

Organisatorische affiliatie

Afdeling structurele en computationele biologie, School of Biological Sciences, Nanyang Technological University, 60 Nanyang Drive, Singapore 637551.


2 BESCHRIJVING:

Het gegevensmodel dat in figuur 1 wordt gepresenteerd, wordt geïmplementeerd door een hiërarchische gegevensstructuur waarin elke biologische structuur wordt weergegeven als een systeemobject. Een Systeem wordt verkregen van een bouwer en kan meerdere Modelobjecten bevatten. Net als in andere frameworks, is het volgen van de PDB-gegevensstructuur en het herstelde PDB-formaat (Henrick et al., 2008), bevat elk model Chain-, Residue- en Atom-objecten die kunnen worden geëxtraheerd uit hun ouders (respectievelijk Model, Chain en Residu). Residuen kunnen zowel van het eiwit- als van het nucleïnezuurtype zijn (de naam Residu heeft de voorkeur boven een specifieke nucleotidedefinitie). Residu- en Atom-objecten kunnen zowel regelmatig als grofkorrelig zijn, zoals in op kralen gebaseerde modellen (Tozzini, 2005). De interface met CGAL wordt gemaakt door kernels aan te bieden waarin atoom of pseudo-atoom direct als punttype kan worden gebruikt. Merk op dat CGAL niet verplicht is om ESBTL te gebruiken.


REORGANISATIE VAN RCSB PDB DIENSTEN

RCSB PDB-activiteiten zijn onlangs gereorganiseerd in vier geïntegreerde, onderling afhankelijke cyberinfrastructuurdiensten, waaronder 1. Afzetting/biocuratie 2. Archiefbeheer/toegang 3. Gegevensverkenning en 4. Outreach/Onderwijs (Figuur 1). Deze nieuwe services zijn ontworpen met als doel de gebruikerservaring te verbeteren en ervoor te zorgen dat de KERMIS principes ( 13).

PDB-gegevenslevenscyclus en RCSB PDB-services. RCSB PDB host vier geïntegreerde, onderling afhankelijke cyberinfrastructuurservices, ondersteund door een klantenservicehelpdesk en IT-ondersteuning.


Glucocorticoïde receptor en dexamethason

Een ontstekingsremmend medicijn heeft ons een nieuwe manier gegeven om de COVID-19-pandemie te bestrijden.

De hersenen orkestreren alles wat we doen en sturen signalen door het zenuwstelsel om verschillende delen van ons lichaam te besturen. De hersenen zijn ook de thuisbasis van onze gedachten en ons bewustzijn, aangezien neuronen de input van onze zintuigen verwerken en opslaan wat ze vinden als herinneringen. Er zijn veel medicijnen beschikbaar om de functie van de hersenen en het zenuwstelsel af te stemmen als er problemen zijn. Helaas zijn de effecten van sommige medicijnen moeilijk te beheersen en kunnen ze leiden tot misbruik en verslaving. Verken PDB-101-bronnen om meer te weten te komen over eiwitten die verband houden met ons zenuwstelsel en geestelijke gezondheid.

2021 Video-uitdaging voor middelbare scholieren

Dank aan alle deelnemers aan de challenge, deskundige juryleden, leraren, ouders en kiezers die deze wedstrijd mogelijk hebben gemaakt.

Peninsula Liberty Academy-team
San Carlos, Californië

West Windsor-Plainsboro High School South Team
West Windsor, New Jersey


Elke zaterdag om 3:00 UTC biedt de wwPDB-website voor elke nieuwe invoer: sequentie(s) (aminozuur of nucleotide) voor elk afzonderlijk polymeer (new_release_structure_sequence.tsv) en, waar van toepassing, de InChI-tekenreeks(en) voor elk verschillende ligand (new_release_structure_nonpolymer.tsv) en de kristallisatie-pH-waarde(n) (new_release_crystallization_pH.tsv).

Elke woensdag vanaf 00:00 UTC worden alle nieuwe en gewijzigde gegevensinvoer bijgewerkt op elk van de wwPDB FTP-sites. Het PDB FTP-archief is vrij groot, vereist meer dan 1 TB aan opslagruimte en blijft groeien met elke wekelijkse update.

Lijst met afgeleide gegevens

Verschillende samenvattingen van actuele gegevens in het PDB-archief zijn beschikbaar via de directory /pub/pdb/derived_data van de FTP-site. Links naar en beschrijvingen van deze bestanden zijn hieronder beschikbaar.

auteur.idx Lijst met alle PDB-ID-codes en invoerauteurs.
cmpd_res.idx Lijst met alle PDB ID-codes, resolutie en samengestelde namen.
samengestelde.idx Lijst met alle PDB-ID-codes en samengestelde namen.
crystal.idx Lijst met alle PDB-ID-codes en kristaleenheidcelparameters uit het CRYST1-record.
vermeldingen.idx Lijst met alle PDB-ID-codes, ingangsdatum koptekst, samenstelling, bron, auteurslijst, resolutie en experimenttype (indien geen röntgenfoto).
on_hold.list Lijst met alle vermeldingen die in de wacht staan
pdb_entry_type.txt Lijst van alle PDB-vermeldingen, identificatie van elk als een eiwit-, nucleïnezuur- of eiwit-nucleïnezuurcomplex en of de structuur werd bepaald door diffractie of NMR.
pdb_seqres.txt.gz Lijst van alle PDB-sequenties in FASTA-formaat.
pending_waiting.list Lijst met alle inzendingen die bij publicatie worden vrijgegeven.
resolu.idx Lijst met alle PDB-ID-codes en gegevensresolutiewaarden. Resolutiewaarde is -1,00 voor vermeldingen bepaald door NMR.
bron.idx Lijst met alle VOB-ID-codes en bronnamen zoals gevonden in de samengestelde records.

Om de toegang zo efficiënt mogelijk te maken, zijn er een aantal downloadlocaties en opties voorzien.

VOB RCSB:

Download coördinaatbestanden in PDB Exchange Format (mmCIF):

Download coördinaatbestanden in PDBML-formaat (xml):

Download coördinaatbestanden in PDB-formaat:

Download EMDB-kaart metadata header-bestanden (xml):

Download mappen/bestanden voor EMDB-invoer EMD-5001:

Download de validatierapportbestanden:

zal verbinding maken met een anonieme ftp-server die de herstelde wwPDB-repository bevat.

Download coördinaatbestanden in PDB Exchange Format (mmCIF):

Download coördinaatbestanden in PDBML-formaat:

Download coördinaatbestanden in PDB-formaat:

Download EMDB-gegevensbestanden:

Download de validatierapportbestanden:

Meer hulp nodig met de Amerikaanse site: Neem contact op met [email protected] als je problemen hebt om verbinding te maken met ftp.rcsb.org.

Download coördinaatbestanden in PDB Exchange Format (mmCIF):

Download coördinaatbestanden in PDBML-formaat (xml):

Download coördinaatbestanden in PDB-formaat:

Download EMDB-kaart metadata header-bestanden (xml):

Download mappen/bestanden voor EMDB-invoer EMD-1003:

Download de validatierapportbestanden:

zal verbinding maken met een anonieme ftp-server die de herstelde wwPDB-repository bevat.

Download coördinaatbestanden in PDB Exchange Format (mmCIF):

Download coördinaatbestanden in PDBML-formaat:

Download coördinaatbestanden in PDB-formaat:

Download de volledige PDB ftp tree:

Download EMDB-gegevensbestanden:

Download de validatierapportbestanden:

Meer hulp nodig met de PDBe-site: Neem contact op met PDBe (http://www.ebi.ac.uk/pdbe/about/contact of e-mail [email protected]) als je problemen hebt om verbinding te maken met ftp.ebi.ac.uk.

Download coördinaatbestanden in PDB Exchange Format (mmCIF):

Download coördinaatbestanden in PDBML-formaat (xml):

Download coördinaatbestanden in PDB-formaat:

Download EMDB-kaart metadata header-bestanden (xml):

Download mappen/bestanden voor EMDB-invoer EMD-5001:

Download de validatierapportbestanden:

zal verbinding maken met een anonieme ftp-server op PDBj die de herstelde wwPDB-repository bevat.

Download coördinaatbestanden in PDB Exchange Format (mmCIF):

Download coördinaatbestanden in PDBML-formaat (alle):

Download coördinaatbestanden in PDBML-indeling (informatie over de locatie zonder atoom):

Download coördinaatbestanden in PDBML-indeling (alleen informatie over de atoomsite):


Het toevoegen van tools aan de huidige pijplijn is net zo eenvoudig als het selecteren van de gewenste tool uit de verschillende blokkiezers en klikken op de +-knop. Figuur 4: de gereedschapskiezer

  • pre-tool zijn blokken die alleen aan het begin van de pijplijn kunnen worden toegevoegd, vóór elk ander regulier of merge-toolblok. Er is slechts één van elk type pre-tools-blok tegelijk toegestaan.
  • post-tool zijn blokken die alleen aan de pijplijn kunnen worden toegevoegd als er al een pre-tool is toegewezen. De positie is altijd rechts van een ander voorgereedschap. Slechts 1 blok hiervan is toegestaan.
  • hoofdblokken kunnen op uw gemak worden toegevoegd, in elke (semantisch correcte) volgorde van uw keuze.

Figuur 5: een voorbeeld van een pijplijn

Blokken kunnen worden verwijderd (als u klikt op de x) en gesorteerd als u ze sleept en neerzet.

Als u op de knop Sample Pipeline klikt, wordt een voorbeeld-pipeline met verschillende blokken en een voorbeeldinvoer geladen.

Als u de optie Tidy aanvinkt, wordt aan het einde van de huidige pijplijn de tool toegevoegd pdb_tidy op alle gegenereerde uitvoer, waardoor de uitvoer wordt aangepast om (zoveel mogelijk) te voldoen aan de specificaties van het PDB-formaat. Figuur 6: De optie Tidy is ingeschakeld.


Hoe HETATMS en kettingen uit het PDB-bestand te verwijderen?

Dit is een eenvoudige zelfstudie over het verwijderen van de hetero-atomen (HETATMS) en ketens uit PDB-bestanden. Het is een belangrijke stap voor simulatie van computationele en moleculaire dynamica.

Er zijn twee eenvoudige manieren om HETATMS en ketens uit PDB-bestanden te verwijderen.

1. Een teksteditor gebruiken

HETATOMS verwijderen

  • Open je PDB-bestand in een editor zoals notepad++ (in Windows) of gedit/notepadqq (in Linux).
  • Ga naar het einde van het bestand. Daar zie je veel regels met ‘HETATM’ in de eerste kolom van rechts (Figuur 1).
  • Verwijder deze lijnen. DON'8217T verwijder de laatste twee regels (‘MASTER'8217 & ‘END'8217).

Figuur 1 HETATM-rijen in een PDB-bestand.

Kettingen verwijderen

Kijk nu naar de vijfde kolom in figuur 1. Zoals je kunt zien, zijn er vier ketens in dat eiwit: A, B, C en D. Laten we aannemen dat we alleen keten A nodig hebben, dan moeten we de rest verwijderen van de drie ketens.

  • Nadat u HETATM-rijen hebt verwijderd, begint u met het verwijderen van andere kettingen uit de rij met '8216TER'8217 in de eerste kolom van rechts (Afbeelding 2).

Figuur 2 Chain D in het PDB-bestand.

  • Blijf verwijderen totdat u de regel bereikt met ‘TER’ in de eerste kolom en ‘A’ in de vijfde kolom (Figuur 3). Nu moet u aan het einde van het bestand de laatste twee rijen (MASTER & END) overhouden.
  • Sla dit bestand nu op.

figuur 3 Resterende ketting A en de laatste twee rijen (MASTER & END) aan het einde van het bestand.

2. Pymol . gebruiken

De eerste optie lijkt vervelend in vergelijking met het gebruik van Pymol.

  • Open het PDB-bestand in Pymol.
  • Ga naar het paneel linksonder. Daar zie je enkele opties, waaronder ‘S’ en ‘F’.
  • Klik op ‘S’. Het toont de ketens/aminozuurresiduen die in die structuur aanwezig zijn.
  • Net boven deze opties ziet u: “Kiezen: Resten” daar geschreven (Figuur 4).

Figuur 4 Paneel linksonder in Pymol met de optie '8216S'8217.

Figuur 5 Paneel linksonder in Pymol met de optie '8216Chains'8217.

  • Stel dat je alleen keten A nodig hebt. Ga naar de weergegeven aminozuurresten. Scroll naar het einde.
  • Selecteer de ketens die u wilt verwijderen door met uw muis met de linkermuisknop te klikken.
  • Ga naar het paneel rechtsboven. Daar zul je drie rijen inclusief ‘(sele)’. Klik op ‘A’ (betekent actie). Het zal een klein venster tonen, selecteer ‘Atomen verwijderen’. Het zal de geselecteerde ketens verwijderen.
  • Ga nu naar Bestand –> Molecule exporteren –> PDB-opties . Vink ‘Schrijf CONECT-records voor alle obligaties'8217 aan en verwijder het vinkje bij ‘Write segment identifier (segi) column'8217. Dit laatste is optioneel. Klik op ‘Opslaan'8217.

Nu hebt u met succes alle HETATMS en irrelevante ketens uit uw PDB-bestand verwijderd.


Inhoud

Eiwitstructuur Bewerken

De structuur van een eiwit is direct gerelateerd aan zijn functie. Door de aanwezigheid van bepaalde chemische groepen op specifieke locaties kunnen eiwitten als enzymen werken en verschillende chemische reacties katalyseren. [2] Over het algemeen worden eiwitstructuren ingedeeld in vier niveaus: primair (sequenties), secundair (lokale conformatie van de polypeptideketen), tertiair (driedimensionale structuur van de eiwitvouw) en quaternair (associatie van meerdere polypeptidestructuren) . Structurele bio-informatica richt zich voornamelijk op interacties tussen structuren, rekening houdend met hun ruimtecoördinaten. Zo wordt de primaire structuur beter geanalyseerd in traditionele takken van bio-informatica. De sequentie impliceert echter beperkingen die de vorming van geconserveerde lokale conformaties van de polypeptideketen mogelijk maken, zoals alfa-helix, beta-sheets en lussen (secundaire structuur [3]). Ook stabiliseren zwakke interacties (zoals waterstofbruggen) de eiwitvouw. Interacties kunnen intrachain zijn, d.w.z. wanneer ze optreden tussen delen van hetzelfde eiwitmonomeer (tertiaire structuur), of interchain, d.w.z. wanneer ze optreden tussen verschillende structuren (quaternaire structuur).

Structuurvisualisatie Bewerken

Visualisatie van eiwitstructuren is een belangrijk onderwerp voor structurele bio-informatica. [4] Het stelt gebruikers in staat om statische of dynamische representaties van de moleculen te observeren, en maakt het ook mogelijk interacties te detecteren die kunnen worden gebruikt om conclusies te trekken over moleculaire mechanismen. De meest voorkomende vormen van visualisatie zijn:

  • Tekenfilm: dit type eiwitvisualisatie benadrukt de secundaire structuurverschillen. In het algemeen wordt α-helix weergegeven als een soort schroef, β-strengen als pijlen en lussen als lijnen.
  • lijnen: elk aminozuurresidu wordt weergegeven door dunne lijnen, wat een lage kostprijs voor grafische weergave mogelijk maakt.
  • Oppervlakte: in deze visualisatie wordt de uitwendige vorm van het molecuul getoond.
  • Stokjes: elke covalente binding tussen aminozuuratomen wordt weergegeven als een stokje. Dit type visualisatie wordt het meest gebruikt om interacties tussen aminozuren te visualiseren.

DNA-structuur Bewerken

De klassieke structuur van DNA-duplexen werd aanvankelijk beschreven door Watson en Crick (en bijdragen van Rosalind Franklin). Het DNA-molecuul is samengesteld uit drie stoffen: een fosfaatgroep, een pentose en een stikstofbase (adenine, thymine, cytosine of guanine). De dubbele helixstructuur van DNA wordt gestabiliseerd door waterstofbruggen gevormd tussen basenparen: adenine met thymine (A-T) en cytosine met guanine (C-G). Veel structurele bio-informatica-onderzoeken hebben zich gericht op het begrijpen van interacties tussen DNA en kleine moleculen, wat het doelwit is geweest van verschillende onderzoeken naar het ontwerpen van geneesmiddelen.

Interacties Bewerken

Interacties zijn contacten die tot stand worden gebracht tussen delen van moleculen op verschillende niveaus. Ze zijn verantwoordelijk voor het stabiliseren van eiwitstructuren en voeren een gevarieerd scala aan activiteiten uit. In de biochemie worden interacties gekenmerkt door de nabijheid van atoomgroepen of moleculegebieden die een effect op elkaar hebben, zoals elektrostatische krachten, waterstofbinding en hydrofoob effect. Eiwitten kunnen verschillende soorten interacties uitvoeren, zoals eiwit-eiwitinteracties (PPI), eiwit-peptide-interacties [5] , eiwit-ligand interacties (PLI) [6] en eiwit-DNA-interactie.

Contacten berekenen Bewerken

Het berekenen van contacten is een belangrijke taak in de structurele bio-informatica, omdat het belangrijk is voor de juiste voorspelling van eiwitstructuur en vouwing, thermodynamische stabiliteit, eiwit-eiwit- en eiwit-ligand-interacties, docking- en moleculaire dynamica-analyses, enzovoort. [8]

Traditioneel hebben computationele methoden de drempelafstand tussen atomen (ook wel cutoff genoemd) gebruikt om mogelijke interacties te detecteren. [9] Deze detectie wordt uitgevoerd op basis van Euclidische afstand en hoeken tussen atomen van bepaalde typen. De meeste methoden die op eenvoudige Euclidische afstand zijn gebaseerd, kunnen echter geen verstopte contacten detecteren. Daarom hebben cutoff-vrije methoden, zoals Delaunay-triangulatie, de afgelopen jaren aan bekendheid gewonnen. Bovendien is de combinatie van een reeks criteria, bijvoorbeeld fysisch-chemische eigenschappen, afstand, geometrie en hoeken, gebruikt om de contactbepaling te verbeteren. [8]

Afstandscriteria voor contactdefinitie [8]
Type Max. afstandscriteria
Waterstofbinding 3,9
Hydrofobe interactie 5
Ionische interactie 6
Aromatische stapeling 6

De Protein Data Bank (PDB) is een database met 3D-structuurgegevens voor grote biologische moleculen, zoals eiwitten, DNA en RNA. PDB wordt beheerd door een internationale organisatie genaamd de Worldwide Protein Data Bank (wwPDB), die is samengesteld uit verschillende lokale organisaties, zoals. PDBe, PDBj, RCSB en BMRB. Zij zijn verantwoordelijk voor het kosteloos beschikbaar houden van kopieën van VOB-gegevens op internet. Het aantal structuurgegevens dat beschikbaar is bij PDB is elk jaar toegenomen, meestal verkregen door röntgenkristallografie, NMR-spectroscopie of cryo-elektronenmicroscopie.

Gegevensformaat Bewerken

Het PDB-formaat (.pdb) is het oude tekstuele bestandsformaat dat wordt gebruikt om informatie op te slaan van driedimensionale structuren van macromoleculen die worden gebruikt door de Protein Data Bank. Vanwege beperkingen in het concept van de formaatstructuur, staat het PDB-formaat geen grote structuren toe die meer dan 62 ketens of 99999 atoomrecords bevatten. [10]

Het PDBx/mmCIF (macromoleculaire kristallografische informatiebestand) is een standaard tekstbestandsformaat voor het weergeven van kristallografische informatie. [11] Sinds 2014 is het PDB-formaat als de standaard PDB-archiefdistributie vervangen door het PDBx/mmCIF-bestandsformaat (.cif). Terwijl de PDB-indeling een reeks records bevat die worden geïdentificeerd door een trefwoord van maximaal zes tekens, gebruikt de PDBx/mmCIF-indeling een structuur op basis van sleutel en waarde, waarbij de sleutel een naam is die een bepaald kenmerk identificeert en de waarde de variabele informatie is. [12]

Andere structurele databases Bewerken

Naast de Protein Data Bank (PDB) zijn er verschillende databases van eiwitstructuren en andere macromoleculen. Voorbeelden zijn:

  • MMDB: Experimenteel bepaalde driedimensionale structuren van biomoleculen afgeleid van Protein Data Bank (PDB). [13]
  • Nucleïnezuur Data Base (NDB): Experimentally determined information about nucleic acids (DNA, RNA). [14]
  • Structural Classification of Proteins (SCOP): Comprehensive description of the structural and evolutionary relationships between structurally known proteins. [15]
  • TOPOFIT-DB: Protein structural alignments based on the TOPOFIT method. [16]
  • Electron Density Server (EDS): Electron-density maps and statistics about the fit of crystal structures and their maps. [17]
  • CASP: Prediction Center Community-wide, worldwide experiment for protein structure prediction CASP. [18]
  • PISCES server for creating non-redundant lists of proteins: Generates PDB list by sequence identity and structural quality criteria. [19]
  • The Structural Biology Knowledgebase: Tools to aid in protein research design. [20]
  • ProtCID: The Protein Common Interface Database Database of similar protein-protein interfaces in crystal structures of homologous proteins. [21]

Structural alignment Edit

Structural alignment is a method for comparison between 3D structures based on their shape and conformation. [22] It could be used to infer the evolutionary relationship among a set of proteins even with low sequence similarity. Structural alignment implies in superimpose a 3D structure under a second one, rotating and translating atoms in corresponding positions (in general, using the Cα atoms or even the backbone heavy atoms C, N, O, en Cα). Usually, the alignment quality is evaluated based on the root-mean-square deviation (RMSD) of atomic positions, d.w.z., the average distance between atoms after superimposition:

waar δl is the distance between atom l and either a reference atom corresponding in the other structure or the mean coordinate of the N equivalent atoms. In general, the RMSD outcome is measured in Ångström (Å) unit, which is equivalent to 10 −10 m. The nearer to zero the RMSD value, the more similar are the structures.

Graph-based structural signatures Edit

Structural signatures, also called fingerprints, are macromolecule pattern representations that can be used to infer similarities and differences. Comparisons among a large set of proteins using RMSD still is a challenge due to the high computational cost of structural alignments. Structural signatures based on graph distance patterns among atom pairs have been used to determine protein identifying vectors and to detect non-trivial information. [23] Furthermore, algebra linear and machine learning can be used for clustering protein signatures, detecting protein-ligand interactions, predicting ΔΔG, and proposing mutations based on Euclidean distance. [24]

The atomic structures of molecules can be obtained by several methods, such as X-ray crystallography (XRC), NMR spectroscopy, and 3D electron microscopy however, these processes can present high costs and sometimes some structures can be hardly established, such as membrane proteins. Hence, it is necessary to computational approaches for determining 3D structures of macromolecules. The structure prediction methods are classified into comparative modeling and de novo modeling.

Comparative modeling Edit

Comparative modeling, also known as homology modeling, corresponds to the methodology to construct three-dimensional structures from an amino acid sequence of a target protein and a template with known structure. The literature has described that evolutionarily related proteins tend to present a conserved three-dimensional structure. [25] In addition, sequences of distantly related proteins with identity lower than 20% can present different folds. [26]

Nieuw modeling Edit

In structural bioinformatics, de novo modeling, also known as ab initio modeling, refers to approaches for obtaining three-dimensional structures from sequences without the necessity of a homologous known 3D structure. Despite the new algorithms and methods proposed in the last years, de novo protein structure prediction is still considered one of the remain outstanding issues in modern science. [27]

Structure validation Edit

After structure modeling, an additional step of structure validation is necessary since many of both comparative and 'de novo' modeling algorithms and tools use heuristics to try assembly the 3D structure, which can generate many errors. Some validation strategies consist of calculating energy scores and comparing them with experimentally determined structures. For example, the DOPE score is an energy score used by the MODELLER tool for determining the best model. [28]

Another validation strategy is calculating φ and ψ backbone dihedral angles of all residues and construct a Ramachandran plot. The side-chain of amino acids and the nature of interactions in the backbone restrict these two angles, and thus, the visualization of allowed conformations could be performed based on the Ramachandran plot. A high quantity of amino acids allocated in no permissive positions of the chart is an indication of a low-quality modeling.

Prediction tools Edit

Molecular docking (also referred only as docking) is a method used to predict the orientation coordinates of a molecule (ligand) when linked to another one (receptor or target). Molecular docking aims to predict possible poses (binding modes) of the ligand when it interacts with specific regions, generally restricted by a box, in the receptor. Docking tools can use force fields to estimate a score for ranking best poses that favored better interactions.

In general, docking protocols are used to predict the interactions between small molecules and proteins. However, docking also can be used to detect associations and binding modes among proteins, peptides, DNA or RNA molecules, carbohydrates, and other macromolecules.

Virtual screening Edit

Virtual screening (VS) is a computational approach used to fast screening of large compound libraries for drug discovery. Usually, virtual screening uses docking algorithms to rank small molecules with the highest affinity to a target receptor.

In recent times, several tools have been used to evaluate the use of virtual screening in the process of discovering new drugs. However, problems such as missing information, inaccurate understanding of drug-like molecules properties, weak scoring functions, or insufficient docking strategies hinder the docking process. Hence, the literature has described that it is still not considered a mature technology. [29] [30]

Molecular dynamics (MD) is a computational method for simulating interactions between molecules and their atoms during a given period of time. [32] This method allows the observation of the behavior of molecules and their interactions, considering the system as a whole. To calculate the behavior of the systems and, thus, determine the trajectories, an MD can use Newton's equation of motion, in addition to using molecular mechanics methods to estimate the forces that occur between particles (force fields). [33]

Informatics approaches used in structural bioinformatics are:

  • Selection of Target - Potential targets are identified by comparing them with databases of known structures and sequence. The importance of a target can be decided on the basis of published literature. Target can also be selected on the basis of its protein domain. Protein domain are building blocks that can be rearranged to form new proteins. They can be studied in isolation initially.
  • Tracking X-ray crystallography trials - X-Ray crystallography can be used to reveal three-dimensional structure of a protein. But, in order to use X-ray for studying protein crystals, pure proteins crystals must be formed, which can take a lot of trials. This leads to a need for tracking the conditions and results of trials. Furthermore, supervised machine learning algorithms can be used on the stored data to identify conditions that might increase the yield of pure crystals.
  • Analysis of X-Ray crystallographic data - The diffraction pattern obtained as a result of bombarding X-rays on electrons is Fourier transform of electron density distribution. There is a need for algorithms that can deconvolve Fourier transform with partial information ( due to missing phase information, as the detectors can only measure amplitude of diffracted X-rays, and not the phase shifts ). Extrapolation technique such as Multiwavelength anomalous dispersion can be used to generate electron density map, which uses the location of selenium atoms as a reference to determine rest of the structure. Standard Ball-and-stick model is generated from the electron density map.
  • Analysis of NMR spectroscopy data - Nuclear magnetic resonance spectroscopy experiments produce two (or higher) dimensional data, with each peak corresponding to a chemical group within the sample. Optimization methods are used to convert spectra into three dimensional structures.
  • Correlating Structural information with functional information - Structural studies can be used as probe for structural-functional relationship.

Tools Edit

List of structural bioinformatics tools
Software Beschrijving
I-TASSER Predicting three-dimensional structure model of protein molecules from amino acid sequences.
MOE Molecular Operating Environment (MOE) is an extensive platform including structural modeling for proteins, protein families and antibodies [34]
SBL The Structural Bioinformatics Library: end-user applications and advanced algorithms
BALLView Molecular modeling and visualization [35]
STING Visualization and analysis
PyMOL Viewer and modeling [36]
VMD Viewer, molecular dynamics [37]
KiNG An open-source Java kinemage viewer
STRIDE Determination of secondary structure from coordinates [38]
MolProbity Structure-validation web server
PROCHECK A structure-validation web service
CheShift A protein structure-validation on-line application
3D-mol.js A molecular viewer for web applications developed using Javascript
PROPKA Rapid prediction of protein pKa values based on empirical structure/function relationships
CARA Computer Aided Resonance Assignment
Docking Server A molecular docking web server
StarBiochem A java protein viewer, features direct search of protein databank
SPADE The structural proteomics application development environment
PocketSuite A web portal for various web-servers for binding site-level analysis. PocketSuite is divided into:: PocketDepth (Binding site prediction)

PocketMatch (Binding site comparison), PocketAlign (Binding site alignment), and PocketAnnotate (Binding site annotation).


Bekijk de video: How to obtain a PDB structure file from the Protein Data Bank? (Januari- 2022).