Informatie

Uitlijnen van meerdere sequenties in heterogene groep


Ik heb een lijst van ~200 DNA-sequenties, die waarschijnlijk 50 verschillende genomische regio's vertegenwoordigen, maar ze zijn allemaal door elkaar. Als ik bijvseq1, seq2... seq10,seq1zou kunnen aansluiten bijseq3envolgende 8, maar volledig los staan ​​van de anderen.

Er zijn ook enkele verschillen in de bemonsterde lengtes, dus het bovenstaande voorbeeld kan het volgende vertegenwoordigen:

Volg 1-------------------------------------------------

Seq3---------------------- seq8-----------------

Zoals datseq3envolgende 8niet op elkaar afstemmen, maar beide opseq1

Dus wat ik zou willen doen, is door een lijst gaan en op de een of andere manier een lijst genereren van groepen sequenties die op elkaar zijn uitgelijnd, evenals de uitlijningen. bv:

Groep 1

Volg 1-------------------------------------------------

Seq3---------------------- seq8-----------------

Groep 2

volgende2------------------------------------

. volgende6-----------------------------

. volgende7--------------------------xxxxxx

Groep 3… enzovoort

ClustalW of MUSSLE proberen om alles op één lijn te brengen werkt niet (of kost onredelijk veel tijd), denk ik omdat er zoveel reeksen zijn die helemaal niet op één lijn liggen. Ik heb geprobeerd een aangepaste BLAST-database te maken en vervolgens elke reeks ertegen te BLAST, maar dan krijg ik meerdere hits voor dezelfde uitlijning (met het voorbeeld van groep 2 hierboven,seq2:seq6,seq2:seq7,seq6:seq2,seq6:seq7,seq7:seq2enseq7:seq6ze worden allemaal geretourneerd als 6 unieke hits, terwijl ze bij elkaar zouden moeten worden gegroepeerd.

Mijn huidige codeerkennis is vrij eenvoudig, maar ik ben bereid om documenten te lezen en dingen uit te zoeken, ik wil gewoon niet het wiel opnieuw uitvinden.

Bewerken2: Echt, de groepering is het belangrijkste onderdeel - zodra ik de groepen heb, kan ik de groepering afzonderlijk doen met weinig moeite. Ik zou graag groepen willen hebben waarin elke reeks in een enkele groep staat.


Je kunt dit proberen:

  • BLAST elke reeks naar elke andere reeks (paarsgewijs).
  • Elke uitlijning (met een bepaalde grens) geeft een verbinding aan.
  • Breng alle verbindingen in kaart.
  • Als een reeks direct of indirect met een andere is verbonden, valt deze in een groep. Zet alle reeksen dieseq1komt overeen met, in Groep 1, ga dan naar de uitlijningen van deze sequenties; zet alle reeksen waarmee deze zijn uitgelijnd opnieuw in Groep 1; dus blijf de groep zo vullen.

Methodologie:

  • Installeer standalone blast (als je niet veel sequenties hebt, kun je BLAST ook online uitvoeren)
  • Maak een explosie-database van uw sequenties met behulp vanmakeblastdb
  • Lijn deze sequenties uit met de database. Als u online BLAST gebruikt, gebruikt u BL2seq (twee reeksen op één lijn). Het is veel beter en handiger om standalone te gebruiken. U kunt ook aangeven of u plus-plus of plus-min of beide uitlijningen wilt. In sommige gevallen wil je misschien maar een van de twee.
  • In de standalone BLAST kunt u het uitvoerformaat specificeren (welke velden u wilt opnemen enz. - het formaat dat u kiest hangt af van uw vereisten).

Een uitvoerformaat in tabelvorm ziet er ongeveer zo uit:

# BLASTN 2.2.27+ # Query: TCONS_00036712 gene=XLOC_017996 # Database:... /nt_db/nt # Velden: query-ID, onderwerp-ID, % identiteit, uitlijningslengte, niet-overeenkomende, hiaat wordt geopend, q. begin, k. loopt af. begin, z. end, evalueren, bitscore # 1014 treffers gevonden TCONS_00036712 gi|191174875|emb|CU655970.6| 95.54 202 9 0 423 624 16680 16479 8e-85 324 TCONS_00036712 gi|51491599|gb|AC144709.2| 95.02 201 10 0 424 624 28443 28243 1e-82 316

Negeer het commentaar (#) lijnen; het eerste veld is query-ID, het tweede is het onderwerp-ID en er is een uitlijning tussen de twee; de andere velden geven informatie over de uitlijning (u kunt deze velden kiezen).

Voor het ontleden gebruik ik een snelle en gemakkelijke scripttaal, awk genaamd, die is opgenomen in alle op UNIX gebaseerde systemen. Het is ook beschikbaar voor Windows in het GNUWin32-pakket.

Wat u moet doen, is de eerste twee velden controleren en de groep bijwerken.

# MakeGroups.awk BEGIN{FS="	"} # Veldscheidingsteken declareren als Tab !($1 in grp){ # Controleer of de seq een bovenliggende groep is. Zo niet... k=1 for(i in grp){ if($1 in grp[i]){ # Controleer of de seq deel uitmaakt van een andere groep parentgrp[$1]=i if(!($2 in grp[i] )) # Controleer of het tweede veld dwz onderwerp al aanwezig is in de bovenliggende groep grp[i][$2] # indien niet wijs het tweede veld toe aan de bovenliggende groep k=0 break # stop met verder controleren } } if(k==1) # Er is geen bovenliggende groep met dit label en de seq maakt geen deel uit van een andere groep grp[$1][$1] # Maak een groep met de query-id als label en voeg deze query toe aan deze groep. } $1 in grp{ if(!($2 in grp[$1])) grp[$1][$2] # Als het tweede veld geen deel uitmaakt van de groep met het eerste veld als label, wijs het dan daaraan toe } END{ for (i in grp){ x++ print "Group-"x"
----------" for(j in grp[i]) print j } print "
" }

Voer dit script als volgt uit in de terminal:
gawk -f MakeGroups.awk blastalignmentfile.txt

Opmerking: Dit script bevat multidimensionale arrays. Het werkt niet met alle versies van awk. Gebruik maken vangawk-versie >4.0.

Zoals swarnbes in hun antwoord vermeldt, zijn er snellere algoritmen die dit soort dingen doen en worden gebruikt voor het samenstellen van sequenties. Wat velen van hen doen, is een grafiek maken (netwerken die deBruijn-grafieken worden genoemd), waarbij elke verbinding een uitlijning is, en een Euleriaans pad berekenen. Zie deze recensie van Pavel Pevzner voor details. Overlappende sequenties vormen contigs en je kunt gemakkelijk terugvinden welke sequentie uit welke contig kwam (die je een Group kunt noemen). Elke contig/Groep is een onsamenhangende deBruijn-subgrafiek.


Heb je BLAST echt nodig? Dat wil zeggen, zijn de reeksen verschillend genoeg van elkaar dat je een algoritme nodig hebt dat zoekt naar grote verschillen tussen hen?

Misschien zou je iets als Phrap kunnen gebruiken, dat contigs voor je zou moeten samenstellen, als de sequenties die bij elkaar horen bijna identiek zijn.


Wat is een heterogene massa?

Volgens Genes & Development is een heterogene massa in de biologie een tumor met zowel normale cellen als neoplastische cellen, die cellen zijn met abnormaal groeiweefsel. Heterogene massa's worden solide tumoren genoemd en kunnen kankerachtig zijn.

Dr. Barry T. Kahn van HealthTap legt uit dat heterogene massa's kwaadaardig of goedaardig kunnen zijn. Afhankelijk van de grootte moeten heterogene massa's worden verwijderd en onderzocht op maligniteit. Sommige heterogene massa's op de eierstokken lossen vanzelf op.

Wikipedia legt verder uit dat de heterogeniteit van kankermassa's het moeilijk maakt om kanker te behandelen omdat de cellen verschillende vormen, genexpressies, beweeglijkheid en metabolisme hebben. Sommige cellen in tumoren zijn bijvoorbeeld kankerstamcellen, die op hun beurt weer meer tumoren kunnen vormen. Bovendien zijn er verschillen in kankerstamcellen. Deze verschillen in kankercellen ontstaan ​​onder meer door mutaties, instabiliteit van genen, aangetast DNA en invloeden van buitenaf of omgeving. Al deze verschillende en variërende cellen maken de tumor zelf heterogeen en moeilijk te behandelen. Het toedienen van medicijnen, een behandelingsoptie voor kanker, doodt niet alle verschillende soorten kankercellen in een tumor.

Kankers met heterogene massa's omvatten borstkanker, prostaatkanker, darmkanker, hersenkanker, myeloom en leukemie, stelt Wikipedia.


Meervoudig uitlijningsprogramma voor aminozuur- of nucleotidesequenties

De nieuwste versie is 7.48[0-3], 2021/mei. Nieuw! (2020/mei/14) -->

Een fout bij het ontleden van de invoerbestandsnaam is verholpen. Gebruik 7.470 of hoger. (2020/juni)

Invoer formaat

Fasta-formaat. voorbeeld1 (LSU-rRNA), voorbeeld2 (eiwit)

Het type invoersequenties (aminozuur of nucleotide) wordt automatisch herkend.

Gebruik

Een alias voor een nauwkeurige optie (L-INS-i) voor een uitlijning van maximaal &sim200 sequenties &tijden &sim2.000 sites:

Een snelle optie (FFT-NS-2) voor een grotere sequentie-uitlijning:

Gerelateerde bronnen

  • MAFFT-server bij EBI
  • MAFFT-server bij de MPI Bioinformatics Toolkit
  • ClustalW / MAFFT / PRRN bij GenomeNet
  • ClustalW / TCoffee / MAFFT in MyHits, SIB
  • MAFFT-service in T-REX-webserver
  • MAFFT-service in WABI, DDBJ
  • CIPRES Science Gateway: TeraGrid-bronnen voor fyogenetische boominferentie
  • Jalview: een uitlijningseditor geschreven in Java
  • Pfam: database met eiwitfamilies van uitlijningen en HMM's
  • Band: Editor voor uitlijning van meerdere sequenties geschreven in JAVA
  • BioRuby: Ruby-tools voor bio-informatica
  • aLeaves verzamelt aminozuursequenties van verschillende dierlijke genomen

Referenties

  • Rozewicki, Li, Amada, Standley, Katoh 2019 (Onderzoek naar nucleïnezuren47:W5-W10) Nieuw!
    MAFFT-DASH: geïntegreerde eiwitsequentie en structurele uitlijning
    (beschrijft webinterface voor sequentie- en structurele uitlijningen)
  • Nakamura, Yamada, Tomii, Katoh 2018 (Bio-informatica34:2490–2492)
    Parallellisatie van MAFFT voor grootschalige uitlijning van meerdere sequenties.
    (beschrijft MPI-parallellisatie van nauwkeurige progressieve opties)
  • Katoh, Rozewicki, Yamada 2019 (Briefings in bio-informatica20:1160-1166)
    MAFFT online service: uitlijning van meerdere sequenties, interactieve sequentiekeuze en visualisatie.
    (legt online service uit)
  • Yamada, Tomii, Katoh 2016 (Bio-informatica32:3246-3251) aanvullende informatie
    Toepassing van het MAFFT-sequentie-uitlijningsprogramma op grote gegevens en opnieuw onderzoek naar het nut van geketende geleidingsbomen.
    (legt enkele opties uit voor het uitlijnen van een groot aantal korte reeksen)
  • Katoh, Standley 2016 (Bio-informatica32:1933-1942)
    Een eenvoudige methode om over-uitlijning in het MAFFT-programma voor uitlijning van meerdere sequenties te beheersen.
    (beschrijft enkele opties om over-uitlijning te voorkomen)
  • Katoh, Standley 2013 (Moleculaire biologie en evolutie30:772-780)
    MAFFT-softwareversie 7 voor uitlijning van meerdere sequenties: verbeteringen in prestaties en bruikbaarheid.
    ( schetst versie 7)
  • Kuraku, Zmasek, Nishimura, Katoh 2013 (Onderzoek naar nucleïnezuren41:W22-W28)
    aLeaves faciliteert on-demand verkenning van metazoa-genstambomen op MAFFT-sequentie-uitlijningsserver met verbeterde interactiviteit.
    (beschrijft een interactieve sequentieverzameling/selectieservice door aLeaves, MAFFT en Archaeopteryx)
  • Katoh, vrijdag 2012 (Bio-informatica28:3144-3146)
    Niet-uitgelijnde sequenties toevoegen aan een bestaande uitlijning met behulp van MAFFT en LAST.
    (beschrijft de --toevoegen en --addfragmenten opties)
  • Katoh, To 2010 (Bio-informatica26:1899-1900)
    Parallellisatie van het MAFFT-programma voor uitlijning van meerdere sequenties.
    (beschrijft de multithread-versie)
  • Katoh, Asimenos, Toh 2009 (Methoden in moleculaire biologie537:39-64)
    Meerdere uitlijning van DNA-sequenties met MAFFT. In Bio-informatica voor DNA-sequentieanalyse bewerkt door D. Posada
    (beschrijft DNA-uitlijningsmethoden en verschillende tips, waaronder uitlijning van groep tot groep en ruwe clustering van een groot aantal sequenties)
  • Katoh, Toh 2008 (BMC Bio-informatica9:212)
    Verbeterde nauwkeurigheid van meerdere ncRNA-uitlijning door structurele informatie op te nemen in een op MAFFT gebaseerd raamwerk.
    (beschrijft RNA-structurele uitlijningsmethoden)
  • Katoh, Toh 2008 (Briefings in bio-informatica9:286-298)
    Recente ontwikkelingen in het MAFFT-programma voor uitlijning van meerdere sequenties.
    (beschrijft versie 6 Fast Breaking Paper in Thomson Reuters' ScienceWatch)
  • Katoh, To 2007 (Bio-informatica23:372-374) Errata
    PartTree: een algoritme om een ​​geschatte boom te bouwen uit een groot aantal niet-uitgelijnde reeksen.
    (beschrijft het PartTree-algoritme)
  • Katoh, Kuma, Toh, Miyata 2005 (Nucleïnezuren Res.33:511-518)
    MAFFT-versie 5: verbetering van de nauwkeurigheid van uitlijning van meerdere sequenties.
    (beschrijft [voorouderlijke versies van] de G-INS-i, L-INS-i en E-INS-i strategieën)
  • Katoh, Misawa, Kuma, Miyata 2002 (Nucleïnezuren Res.30:3059-3066)
    MAFFT: een nieuwe methode voor snelle uitlijning van meerdere sequenties op basis van snelle Fourier-transformatie.
    (beschrijft de strategieën FFT-NS-1, FFT-NS-2 en FFT-NS-i)

Contact

[email protected]

Tijdelijk niet beschikbaar sinds 2018/Feb/7. Als je een e-mail hebt gestuurd naar bovenstaand adres maar geen reactie hebt ontvangen, stuur dan de e-mail opnieuw naar:

[email protected]


Projectinstellingen

GeneDoc heeft een uitgebreide reeks instellingen voor projectconfiguratie. Hoewel sommige van deze instellingen via menu's worden beheerd, zijn alle instellingen te vinden in het configuratiedialoogvenster. Dit dialoogvenster is toegankelijk via het menu Project of de werkbalk Project.

Configuratiedialoogvenster

Het configuratiedialoogvenster bevat tien tabbladen. Elk tabblad bevat verschillende GeneDoc-instellingen die aan elkaar gerelateerd zijn en worden beschreven door de titel van het tabblad. Tabfuncties kunnen in drie groepen worden ingedeeld, Project Setup, Print Control en Shading Control. Het eerste tabblad, Project, regelt de lettergrootte, consensusregels, blokkering van uitlijning en andere instellingen die van toepassing zijn op elk scherm. Het tabblad Afdrukken regelt printermarges, paginakopteksten, voetteksten, cijfers en dergelijke. Een Shade-tab bootst veel van de items in het Shade-menu na, met een paar andere instellingen voor de geconserveerde en gekwantificeerde schaduwstijl. Er is een scoretabblad waarmee u kunt selecteren welke DayHoff- of PAM-scoretabellen en vervangingsgroepen u wilt gebruiken. De rest van de tabbladen zijn voor de controle van individuele schaduwmodi. Er is een tabblad voor Eigenschappen, Fysiochemische eigenschappen, Patroon zoeken, Logkansen, Identiteiten en Structuur. Alle aspecten van deze weergavemodi worden beheerd via deze configuratietabbladen. Hier kunt u kleuren wijzigen en patronen of eigenschappen toevoegen, bewerken en verwijderen, gegevensbestanden laden voor weergavemodi, wat dan ook. De configuratiedialoog heeft niets te maken met het handmatig rangschikken van reeksen, hoewel de score-instellingen hier kunnen worden beheerd.

Dialoogvenster Reeks bewerken

Het menu Project bevat ook het dialoogvenster Sequenties bewerken. In dit dialoogvenster kunnen sequenties worden toegevoegd of geïmporteerd, verwijderd. U kunt hier sequenties aanvullen, omkeren en dupliceren. Opmerkingen over de sequenties kunnen worden ingevoerd. Gewichten kunnen worden gewijzigd, die worden gebruikt door de Log Odds-displays.

Projecttitelfaciliteit

Het menu Project heeft ook de titelfunctie. De titelfunctie biedt u een gemakkelijke manier om opmerkingen bovenaan het MSF-bestand in te voeren. Deze opmerkingen worden niet opgeslagen in de gebruikelijke GeneDoc-gecodeerde koptekst, maar erboven in ascii-tekst, zodat iedereen of elk programma er toegang toe heeft.

Gebruikersinstellingen opslaan en laden

Gebruikersinstellingen opslaan en laden is een manier om de huidige instellingen op te slaan als de standaardinstellingen van GeneDoc. Deze zijn van toepassing wanneer u een AZG-bestand opent dat nog niet eerder door GeneDoc is opgeslagen. Als u deze instellingen wilt toepassen op een bestand met GeneDoc-instellingen, laad dan het bestand en gebruik vervolgens de Gebruikersinstellingen laden, deze instellingen zullen de huidige instellingen van GeneDoc vervangen.


3. ANALYSE EN DISCUSSIE

De gegevens die in deze studie werden gebruikt, waren 14 DNA-sequenties van patiënten die waren geïnfecteerd met het SARS-virus met de genbank-toegangscode AY278489, AY394997, AY395004, AY394978, AY394983, AY304495, AY278554, AY278741, AY274119, AY283794, AY291451, AY34499986 en AY. Zes van hen zijn geanalyseerd in papier [12 Amiroch S, Pradana MS, Irawan MI, Mukhlash I. Meerdere uitlijningsanalyse op fylogenetische boom van de verspreiding van SARS-epidemie met behulp van afstandsmethode. J Phys Conf Ser 2017 890(1) ], maar in dit artikel werden 14 DNA-sequenties geanalyseerd samen met optimalisatie met genetische algoritmen. Na analyse van meerdere uitlijning van het 14 DNA van menselijke ziekten met het SARS-virus, worden de resultaten die zijn verkregen door de analyse van de netwerksysteemtopologie, netwerksysteemgebiedmutatie en netwerksysteemmodusmutaties in detail als volgt beschreven:

3.1. Analyse van netwerksysteemtopologie

Systeemnetwerktopologie wordt geproduceerd door het resultaat Meervoudige uitlijning, namelijk: G(W)=<M,V,W> waar? W is een functiestraf van uitkomst Meervoudige uitlijning waarbij paarsgewijze uitlijning het Needleman Wunsch-algoritme gebruikt dat is gesimuleerd in Matlab, zoals weergegeven in de gebruikersmenu-interface Afb. ( 3 ).

Uit de uitlijning zoals weergegeven in Fig. ( 3 ), kan een strafmatrix als volgt worden afgeleid:

waarbij A, B, C, D, E, F, G, H, I, J, K, L en N de reeksen in bepaalde steden en datums respectievelijk als volgt vertegenwoordigen Guangzhou, 16 december 2002 Zhongshan, 26 december 2002 Zhongshan, 4 januari 2003 Guangzhou, 24 januari 2003 Guangzhou Hospital Guangzhou 2 februari 2003 Metropole, 21 februari 2003 Hanoi, 26 februari 2003 Toronto, 27 februari 2003 Singapore, 1 maart 2003 Taiwan, 8 maart 2003 Hongkong , 19 maart 2003 Hongkong, 15 mei 2003, en Palm civetkat. Palm Civet is een fret die naar verluidt de gastheer was van de SARS-epidemie [4 Isa Irawan M, Amiroch S. Constructie van een fylogenetische boom met behulp van algoritmen voor het samenvoegen van buren om de gastheer en de verspreiding van de SARS-epidemie te identificeren. J Theor Appl Inf Technol 2015 71(3) ]. SARS-virussen werden geïsoleerd uit Himalaya-palmcivetkatten die werden gevonden op een markt voor levende dieren in Guangdong, China. Bewijs van virusinfectie werd ook gevonden bij mensen die op dezelfde markt werkten. Palmcivet-sequentie wordt opgewekt uit die patiënten [13 Guan Y, Zheng BJ, He YQ, et al. Isolatie en karakterisering van virussen gerelateerd aan het SARS-coronavirus van dieren in Zuid-ChinaScience (80-) 302(5643): 276-8.2003
[http://dx.doi.org/10.1126/science.1087139] ]. Analyse van netwerksysteemtopologie wint een stabiel gebied [12 Amiroch S, Pradana MS, Irawan MI, Mukhlash I. Meerdere uitlijningsanalyse op fylogenetische boom van de verspreiding van SARS-epidemie met behulp van afstandsmethode. J Phys Conf Ser 2017 890 (1) ] vertelt een vergelijkbare nucleotide-locus in meervoudige uitlijning en een onstabiel gebied dat ongelijke nucleotide-locus vastlegt. Het onstabiele gebied tussen sequenties hier staat dan bekend als mutatie. Stabiele en onstabiele regio's in de meervoudige uitlijning van de SARS-epidemie zijn te zien in tabel 2 .

In tafel 2 , zijn er 19 posities die instabiele regio's lijken, met een percentage van 0,5%. Het is duidelijk dat alle bestudeerde SARS-DNA-sequenties een zeer hoge gelijkenis vertonen. Het aantal gemuteerde nucleotiden in elke sequentie wordt in detail weergegeven in de tabel 3 .

3.2. Analyse van het mutatienetwerksysteem

De volgende analyse is het mutatienetwerksysteem op meerdere uitlijningen van de SARS-epidemie. In dit gedeelte wordt uiteengezet hoe u een grafiek en boom kunt maken die zijn geproduceerd door de SARS-epidemie. De grafiek in Fig. (4) toont de fylogenetische boom die de verspreiding van de SARS-epidemie in bepaalde regio's vertelt. Afstandsmatrix die vervolgens wordt omgezet in evolutionaire afstandsmatrix wordt gebruikt als invoer voor fylogenetische boomconstructie. Afstandsmatrix verkregen uit ongelijkheden nucleotide tussen paren sequenties in meerdere uitlijningen. Zet verder ongelijkheid om in evolutionaire afstand door te corrigeren voor meerdere gebeurtenissen per locatie met jukes cantor-model [14 Lemey P, Salemi M, Vandamme A-M. Het fylogenetische handboek Een praktische benadering van fylogenetische analyse en hypothesetesten Ten tweede. New York: Cambridge University Press142-81.2009
[http://dx.doi.org/10.1017/CBO9780511819049] ]. Hier zijn de resultaten van de simulatie van de Matlab-fylogenetische boom met behulp van het buur-joining-algoritme met Jukes Cantor-afstandscorrectie.

In afb. ( 4 ), lijkt het erop dat de sequentie die het dichtst bij Palm Civet als gastheer ligt [4 Isa Irawan M, Amiroch S. Constructie van een fylogenetische boom met behulp van algoritmen voor het samenvoegen van buren om de gastheer en de verspreiding van de SARS-epidemie te identificeren. J Theor Appl Inf Technol 2015 71 (3) ] is Zhongshan 26/12/02. Als er echter niet veel aandacht is voor genetische afstand tot Guangzhou 16/12/02, dan zou redelijkerwijs kunnen worden afgeleid dat de omvang van de SARS-epidemie van Guangzhou 16/12/02 zich vervolgens verspreidde naar Zhongshan 26/12/02, dan bijna gelijktijdig naar Guangzhou 18/02/03 en Guangzhou ziekenhuis. Van daaruit verspreidde het virus zich gelijktijdig naar Metropole, Zhongshan, Hongkong, Singapore, Taiwan, Hongkong, Hanoi, Guangzhou 24/01/03 en Toronto.

3.3. Analyse van netwerksysteem van mutatiemodus

Voordat de analyse van het netwerksysteem van de mutatiemodus wordt uitgelegd, kan vanuit de strafmatrix een niet-directionele grafiek worden gevisualiseerd die de relatie tussen sequentiemutaties toont. De notatie op het knooppunt geeft de naam van de gecodeerde reeks aan als de letters een, B. N met de codes die de namen van bepaalde regio's vertegenwoordigen, zoals eerder vermeld.

Het aantal mutaties kan worden weergegeven in Fig. ( 5 />). Hoe dikker de lijnen, hoe meer de mutatie optrad. Zoals vermeld, verschenen 19 mutaties in onstabiele regio's op 14 verschillende DNA-sequenties van deze SARS-epidemie. Zoals weergegeven in Afb. ( 5 />), sommige mutaties komen alleen voor in de boogorthogonale volgorde to-1, bijvoorbeeld in ΔABE,ABF,ABD,AFD,BFD Modus mutatie HAE (een mutatie in de sequentie Guangzhou, 16 december 2002 tot Toronto, 27 maart 2003), mode-mutaties HAB (mutaties in de sequentie Guangzhou, 16 december 2002 tot sequentie Guangzhou Hospital), evenals de wijze van mutatie HZIJN (een mutatie in de sequentie Guangzhou Hospital naar sequentie Toronto, 27 maart 2003).

inABE effect: en structuurmodulus HAE, HAB, HZIJN onderling orthogonaal.

3.4. Optimaliseren door genetisch algoritme

Genetische algoritmebenadering voor meervoudige uitlijning in het geval van de SARS-epidemie wordt hieronder gedefinieerd:

3.4.1. Bevolking

De initiële populatie is een strafmatrix van meervoudige uitlijning, het resultaat van Needleman Wunsch-uitlijning met het gebruik van progressieve uitlijning. Omdat alle gebruikte gegevens dezelfde sequentielengte van 3768 bp hebben, heeft het resultaat van meervoudige uitlijning helemaal geen hiaat.

3.4.2. Objectieve functie

De objectieve functie die in dit geval wordt gebruikt, is de score van het gewicht van de matrix MA Wunsch Needleman-resultaten. Objectieve functie:

3.4.3. Fitnesswaarde

Fitnesswaarde is de waarde van de objectieve functie:

Vanwege de verspreiding van de SARS-epidemie vertoonde de kortste afstand de nauwste verwantschap, in de zin het nauwst met de gastheer, waarna de fitnesswaarde wordt genomen van de meest minimale waarde.

3.4.4. Selectie

Selectieprocedures gebruikten een benadering van Roulette Wiel. Er werd één chromosoom geselecteerd om een ​​nieuwe populatie te produceren, en een getal r werd willekeurig gegenereerd uit het bereik [0,1], en de rouletteschijf werd 14 keer gespeeld.

3.4.5. Uitkruisen (crossover)

Bij dit kruisingsproces wordt de reeks opgesplitst in verschillende delen. Scheiding wordt aangenomen voor elk veelvoud van 500, dus voor een lange reeks van 3768bp zijn er 8 deeloplossende reeksen. Ondertussen wordt het verknopingsproces willekeurig uitgevoerd, maar de benchmark-kruiswaarschijnlijkheid (PC) is ingesteld op 0,25. Het betekent dat met de waarden naar verwachting gemiddeld 25% van de chromosomen in de populatie een kruising zal ervaren.

3.4.6. Mutatie

Mutatie waarschijnlijkheid (Pm) waarde is ingesteld op 0,01. Dit betekent dat naar verwachting gemiddeld 1% van het totale aantal bits in de populatie zal muteren.

In dit geval van 3768×14 = 52752 vermenigvuldigd met 0,01 betekent dit dat er 528 mutaties zijn in één generatie.

3.4.6.1. Initiële populatie

De initiële populatie is het Multiple Alignment with Needleman Wunsch-algoritme zoals eerder getoond.

De programmaresultaten worden weergegeven in het opdrachtvenster in matlab. De 14 sequenties in de initiële populatie hebben een zeer hoge gelijkenis, zoals te zien is in Fig. ( 6 ).

3.4.6.2. Het resultaat van fitnesswaarde

Voordat de fitnesswaarde wordt berekend, wordt het gewicht van MA berekend uit de strafmatrix. Uit de gewichtsmatrix wordt de score van elke reeks berekend. opgehaald:

Eval(v_1) = 124 Eval(v_6) = 64 Eval(v_11) = 46

Eval(v_2) = 102 Eval(v_7) = 46 Eval(v_12) = 46

Eval(v_3) = 46 Eval(v_8) = 58 Eval(v_13) = 70

Eval(v_4) = 58 Eval(v_9) = 58 Eval(v_14) = 112

Eval(v_5) = 52 Eval(v_10) = 46

Van de bovenstaande waarden is het sterkste chromosoom het chromosoom met de waarde die het dichtst bij ligt v_14 (palmcivetkat, gastheer van deze SARS-epidemie), dwz chromosoom v_1. En het zwakste chromosoom is het chromosoom met de kleinste waarden, d.w.z., welke zijn v_7, v_10, v_11, en v_12.

3.4.6.3. Het resultaat van de selectie

Voor de 1e generatie van het resultaatproces wordt een selectieroulettewielschijf verkregen zoals in tabel 4 .

Vervolgens wordt de schijf 14 keer willekeurig geroteerd in het bereik [0,1], en wordt aangenomen dat een willekeurige waarde de waarde is van R op elk moment van rotatie als

Ten slotte wordt, nadat de selectie is voltooid, een nieuwe populatie (potentiële ouderchromosomen) gegenereerd, bestaande uit chromosomen van sequenties 1, 2, 3, 7, 8, 9, 13 en sequentie 14.

3.4.6.4. Het resultaat van crossover

In dit crossover-proces wordt een reeks verbroken bij elk veelvoud van 500. De kans op kruising is ingesteld op 0,25 en op basis van de willekeurige generatie in het bereik [0,1], worden reeks 2 en reeks 8 geselecteerd om te worden gekruist. Dus de reeks wordt verbroken op de posities 500, 1000, 1500, enzovoort.

3.4.6.5. Het resultaat van mutatie

Het mutatieproces zal een of meer genen vervangen met een kans die gelijk is aan de mutatiekans. Een mutatie verwijst naar de verandering van een nucleotide naar een ander nucleotide. Na het cross-overproces op sequenties 2 en sequentie 8, had de laatste populatie in de 1e generatie mutaties in de sequenties 5, 8, 12 en 14 zoals in tabel 5 . Het aantal mutaties in de respectieve sequenties wordt als volgt gedetailleerd:

Het proces herhaalt zich dus steeds weer totdat een grafiek van fitnesswaarden dicht bij een constante komt.

3.4.6.6. Percelen van fitnesswaarderesultaten

De resultaten van iteraties worden uitgevoerd tot de 10e generatie omdat voor een groter aantal generaties het systeem nog niet ondersteunend is. De laatste waarden verkregen in de 10e iteratie worden weergegeven zoals in Tabel 6 .

Dus de plot van fitnesswaarden voor de 10e generaties op basis van de verkregen resultaten kan worden getoond in de figuur. (7).

Afb. ( 7 ) blijkt dat het resultaat nog verre van convergent is, dus het moet opnieuw worden herhaald totdat het resultaat bijna constant is.


Resultaten en discussie

We evalueren CMSA met behulp van 16s rRNA-sequenties op een heterogeen CPU/GPU-werkstation. In deze sectie introduceren we eerst de experimentele omgevingen en evalueren we vervolgens de efficiëntie en schaalbaarheid van CMSA samen met ons op bitmaps gebaseerde algoritme. Ten slotte vergelijken we CMSA met enkele van de modernste MSA-tools.

Experimentele opstelling

Experimenteel platform

De experimenten worden uitgevoerd op een heterogeen CPU/GPU-platform met 32 ​​GB RAM, een Intel Xeon E5-2620 2,4 GHz-processor en een NVIDIA Tesla K40 grafische kaart. Centos 6.5 is geïnstalleerd en CUDA Toolkit 6.5 wordt gebruikt om het programma te compileren. De CPU bestaat uit 12 kernen. De gedetailleerde specificaties van Tesla K40 worden weergegeven in Tabel 3.

Gegevenssets

De BALiBASE is klein en is alleen geschikt voor eiwituitlijning. Omdat er geen benchmark-datasets zijn die grootschalige DNA/RNA-sequenties bevatten, gebruiken we menselijke mitochondriale genomen (mt-genomen) en 16s rRNA. 16s rRNA-sequenties worden vaak gebruikt om fylogenetische relaties af te leiden en om soorten te onderscheiden in microbiële omgevingsgenoomanalyses (Hao et al., 2011). Alle sequenties zijn verkregen uit de GenBank-database van NCBI (//www.ncbi.nlm.nih.gov/pubmed). De mt-genomen is een zeer vergelijkbare dataset. Om DNA/RNA-sequenties met een lage gelijkenis aan te pakken, hebben we ons programma ook getest op 16s rRNA. We hebben deze 16s rRNA-sequenties ingedeeld in drie datasets op basis van hun gemiddelde lengte, respectievelijk genoemd als D1, D2 en D3, zoals weergegeven in tabel 4.

Statistieken

De sum-of-pairs (SP)-score wordt vaak gekozen om de nauwkeurigheid van de uitlijning te meten. De SP-score is de som van elke paarsgewijze uitlijningsscore van de MSA. Maar voor grootschalige datasets kan deze erg groot zijn en de limiet van de computer overschrijden. We gebruiken dus de gemiddelde SP-waarde, die eenvoudigweg de SP-waarde wordt gedeeld door het aantal reeksen, n. De gemiddelde SP kan ook de uitlijnprestaties beschrijven. In de experimentele tests, een programma, " Bali_scoren”, gedownload van de Balibase-benchmark (http://www.lbgi.fr/balibase/) werd gebruikt om de uitlijningsresultaten te vergelijken.

Basislijnen

Om de efficiëntie en nauwkeurigheid van CMSA te laten zien, vergelijken we CMSA met state-of-the-art MSA-tools, waaronder Kalign, MAFFT en HAlign. De meeste state-of-the-art MSA-software kan geen grootschalige datasets aan. In volgorde van de gegevensverwerkingsgrootte zijn deze tools T-Coffee (klein), CLUSTAL (gemiddeld), MAFFT (gemiddeld-groot) en Kalign (groot), zoals wordt gesuggereerd door EMBL-EBI. Daarom is de MAFFT, Kalign v2 aangenomen. Bovendien is HAlign de ultramoderne software die gebruikmaakt van de centrale sterstrategie. Daarom gebruiken we HAlign, MAFFT en Kalign v2 als benchmarks en worden standaardparameters van Kalign v2, MAFFT en HAlign gebruikt. Voor een eerlijkere vergelijking worden alle experimenten op één knooppunt uitgevoerd.

Op bitmap gebaseerd algoritme voor het selecteren van de middenreeks

Zoals we in het gedeelte "Center star-strategie" hebben besproken, zijn zowel HAlign als CMSA gebaseerd op center star-strategie. HAlign gebruikt een op bandenboom gebaseerd algoritme om de middenreeks te vinden, terwijl CMSA een op bitmap gebaseerd algoritme gebruikt. Om ons nieuwe voorgestelde algoritme te evalueren, vergelijken we eerst de looptijd van de eerste fase van HAlign en CMSA. Vervolgens voeren we de volgende stappen uit met behulp van de middelste reeks die door HAlign is geselecteerd en vergelijken we de resultaten met die van ons. Naast onze eigen datasets, testen we ook HAlign en CMSA op de dataset van menselijke mitochondriale genomen (gemarkeerd als MT), die wordt gebruikt in de experimenten van HAlign. De dataset van het menselijke mitochondriale genoom is een zeer vergelijkbare dataset. Het heeft in totaal 672 menselijke mitochondriale genomen zoals weergegeven in tabel 4.

Tabel 5 toont de looptijd en SP-score van HAlign en CMSA(CPU) op basis van verschillende selectiealgoritmen voor de middensequentie. Eerlijkheidshalve is de HAlign op slechts één knooppunt getest. De middelste sequentie die in de tabel wordt getoond, is de op nul gebaseerde index van sequenties. Zoals we kunnen zien, is CMSA in alle experimenten veel sneller dan HAlign, omdat ons op bitmaps gebaseerde algoritme een lagere tijdscomplexiteit heeft (O(mn)). Ook heeft HAlign onvoldoende geheugen bij het berekenen van dataset D3 met 5000 reeksen. Bij het verwerken van de dataset D2 met 1000 sequenties en de dataset D3 met 1000 sequenties, vinden HAlign en CMSA dezelfde middensequentie. Behalve deze twee tests, bereiken HAlign en CMSA een ander resultaat. En bij het inspecteren van de gemiddelde SP-score presteert CMSA beter dan HAlign. Bovendien komt de betere gemiddelde SP-score voor bij de datasets met een hoge overeenkomst. We kunnen dus concluderen dat ons nieuwe algoritme dat wordt gebruikt om de middenreeks te vinden, efficiënt en nauwkeurig is met hoge en lage gelijkenis.

Efficiëntie en schaalbaarheid

Als een indicatie van hoe CMSA schaalt met de grootte van de dataset, toont figuur 3a de looptijd van CMSA op alle drie datasets beschreven in Tabel 4. Het is duidelijk dat hoe langer de gemiddelde lengte is, hoe meer tijd het zou kosten. Bovendien gaat in alle drie de datasets de looptijd lineair omhoog naarmate het aantal reeksen toeneemt, wat een grote schaalbaarheid van CMSA aantoont. Figuur 3b toont de versnelling van dezelfde experimenten. De beste versnelling wordt in eerste instantie niet bereikt, omdat met een laag aantal sequenties de runtime van de pre-compute en initialisatie een aanzienlijk deel uitmaakt. Met de toename van het aantal reeksen, zou de echte berekening het grootste deel van de looptijd domineren, wat op zijn beurt een betere snelheid meldt.

Experimenten op datasets met een verschillend aantal sequenties. D1, D2, D3 vertegenwoordigen drie soorten datasets beschreven in tabel 4. een Looptijd en B Versnellen

We hebben de CMSA (CPU/GPU) getest met verschillende aantallen sequenties (gemiddelde lengte: 252). Tabel 6 toont de werklastverhouding (R) beschreven in de sectie “Werklastverdeling”. Uit de tabel zijn de waarden van de werklastverhouding vergelijkbaar en de gemiddelde werklastverhouding van GPU en CPU is 1,420. We kunnen bevestigen dat CMSA de goede methode heeft voor het verdelen van de werklast voor CPU en GPU.

Vergelijking met State-of-the-art tools

Om de efficiëntie en nauwkeurigheid van CMSA te laten zien, vergelijken we CMSA met state-of-the-art MSA-tools. In deze set worden CMSA(CPU) en CMSA(CPU/GPU) beide getest.

Tabel 7 toont de tijd die is verbruikt voor drie datasets met een verschillend aantal berekende reeksen. In onze experimenten kan Kalign geen datasets aan die uit meer dan 100.000 sequenties bestaan. MAFFT werkt probleemloos, maar kost te veel tijd, b.v. 18 uur voor D1 met 100.000 sequenties en meer dan 24 uur voor D2 en D3 met 100.000 sequenties. We registreren dus niet de exacte looptijd van CMSA voor D2 en D3 met meer dan 100.000 sequenties. Ter vergelijking: zowel HAlign als CMSA kunnen alle datasets in een acceptabele tijd aan. Moreover, in all experiments, CMSA is the fastest one and also the one having the best scalability as the number of sequences increases. When computing D3, CMSA is 13× faster than HAlign when the dataset size is 10,000 and 24× faster when the size increases to 500,000.

Table 8 shows the comparison result of average SP scores for 16 s rRNA datasets. From Table 8, we can observe that MAFFT produced better alignment results than other state-of-the-art MSA softwares when addressing the large-scale datasets. The average SP of CMSA was lower than that of MAFFT and higher than that of HAlign. Therefore, we confirm the robustness of CMSA, whether with large-scale or small datasets.


Aligning multiple sequences in heterogeneous group - Biology

Your basket is currently empty. i <p>When browsing through different UniProt proteins, you can use the 'basket' to save them, so that you can back to find or analyse them later.<p><a href='/help/basket' target='_top'>More. </a></p>

Select item(s) and click on "Add to basket" to create your own collection here
(400 entries max)

Sequence alignments

Last modified April 10, 2018

Selecteer de Align tab of the toolbar to align two or more protein sequences with the Clustal Omega program (cf also this ClustalO FAQ):

  1. Enter either protein sequences in FASTA format or UniProt identifiers into the form field.
  2. Click the Run Align knop.

The following kinds of UniProt identifiers are supported:

P00750 UniProtKB entry
P00750-2 UniProtKB entry isoform sequence
A4_HUMAN UniProtKB entry name
UPI0000000001 UniParc entry
UniRef100_P00750 UniRef entry

To limit the range within a sequence, append the range in square brackets to the identifier. For example, P00750[1-10] represents the first ten amino acids of P00750.

Instead of entering identifiers into the form, you can collect sequences by clicking into the checkboxes next to them. Once two or more sequences have been marked, the Run Align button becomes available:

Similarly, you can align the sequences that you have collected into your basket.

After you have submitted your data, a status page is shown. This page is reloaded in regular intervals until the alignment is complete. The final result page shows a colored version of the alignment and allows to download in Clustal format.

  • An * (asterisk) indicates positions which have a single, fully conserved residue.
  • A : (colon) indicates conservation between groups of strongly similar properties - scoring > 0.5 in the Gonnet PAM 250 matrix.
  • A . (period) indicates conservation between groups of weakly similar properties - scoring =< 0.5 in the Gonnet PAM 250 matrix.

Jobs have unique identifiers, which (depending on the job type) can be used in queries (e.g. to get the intersection of two sequence similarity searches). Job identifiers and the related data are kept for 7 days, and are then deleted.

To add sequences to your alignment, a text box just after the alignment results allows you to do so, in FASTA format:

To rerun the alignment with fewer sequences, check the box for "Result info" under "Display", and scroll down to the bottom of the page. Use the checkboxes to select the sequences you want to realign:

If you want to use another sequence alignment service, click on the Downloaden instead of the Align button to download the sequences, or copy the sequences from the form in the result page.

'Annotation' and 'Amino acid properties' highlighting options are available on the left column. This allows to highlight key regions in the sequence alignment.


Referenties

Breitkreutz, B.-J. et al. The BioGRID interaction database: 2008 update. Onderzoek naar nucleïnezuren 36, D637–D640 (2008).

Bamford, S. et al. The COSMIC (Catalogue of Somatic Mutations in Cancer) database and website. British journal of cancer 91, 355 (2004).

de Magalhães, J. P. Aging research in the post-genome era: New technologies for an old problem. Redox Metabolism and Longevity Relationships in Animals and Plants. Taylor and Francis, New York and Abingdon 99–115 (2009).

Hulovatyy, Y., Solava, R. W. & Milenković, T. Revealing missing parts of the interactome via link prediction. PloS ONE 9, e90073 (2014).

Sharan, R. & Ideker, T. Modeling cellular machinery through biological network comparison. Natuur Biotechnologie 24 (2006).

Faisal, F. E., Meng, L., Crawford, J. & Milenković, T. The post-genomic era of biological network alignment. EURASIP Journal on Bioinformatics and Systems Biology 2015, 3 (2015).

Emmert-Streib, F., Dehmer, M. & Shi, Y. Fifty years of graph matching, network alignment and network comparison. Information Sciences 346, 180–197 (2016).

Elmsallati, A., Clark, C. & Kalita, J. Global alignment of protein-protein interaction networks: A survey. IEEE/ACM Transactions on Computational Biology and Bioinformatics 13, 689–705 (2016).

Guzzi, P. H. & Milenković, T. Survey of local and global biological network alignment: the need to reconcile the two sides of the same coin. Briefings in bio-informatica 19, 472–481 (2017).

Berg, J. & Lässig, M. Local graph alignment and motif search in biological networks. Proceedings van de National Academy of Sciences van de Verenigde Staten van Amerika 101, 14689–14694 (2004).

Berg, J. & Lässig, M. Cross-species analysis of biological networks by bayesian alignment. Proceedings van de National Academy of Sciences 103, 10967–10972 (2006).

Flannick, J., Novak, A., Srinivasan, B. S., McAdams, H. H. & Batzoglou, S. Graemlin: general and robust alignment of multiple large interaction networks. Genoomonderzoek 16, 1169–1181 (2006).

Kelley, B. P. et al. PathBLAST: a tool for alignment of protein interaction networks. Onderzoek naar nucleïnezuren 32, W83–W88 (2004).

Koyutürk, M. et al. Pairwise alignment of protein interaction networks. Journal of Computational Biology 13, 182–199 (2006).

Liang, Z., Xu, M., Teng, M. & Niu, L. NetAlign: a web-based tool for comparison of protein interaction networks. Bio-informatica 22, 2175–2177 (2006).

Sharan, R. et al. Conserved patterns of protein interaction in multiple species. Proceedings van de National Academy of Sciences van de Verenigde Staten van Amerika 102, 1974–1979 (2005).

Ciriello, G., Mina, M., Guzzi, P. H., Cannataro, M. & Guerra, C. AlignNemo: a local network alignment method to integrate homology and topology. PloS ONE 7, e38107 (2012).

Mina, M. & Guzzi, P. H. Improving the robustness of local network alignment: design and extensive assessment of a markov clustering-based approach. IEEE/ACM Transactions on Computational Biology and Bioinformatics (TCBB) 11, 561–572 (2014).

Faisal, F. E., Zhao, H. & Milenković, T. Global network alignment in the context of aging. IEEE/ACM Transactions on Computational Biology and Bioinformatics 12, 40–52 (2015).

Flannick, J., Novak, A., Do, C., Srinivasan, B. & Batzoglou, S. Automatic parameter learning for multiple network alignment. In Research in Computational Moleculaire biologie, 214–231 (Springer, 2008).

Klau, G. W. A new graph-based method for pairwise global network alignment. BMC bioinformatics 10, S59 (2009).

Kuchaiev, O. & Pržulj, N. Integrative network alignment reveals large regions of global network similarity in yeast and human. Bio-informatica 27, 1390–1396 (2011).

Kuchaiev, O., Milenković, T., Memišević, V., Hayes, W. & Pržulj, N. Topological network alignment uncovers biological function and phylogeny. Journal of the Royal Society Interface rsif20100063 (2010).

Liao, C.-S., Lu, K., Baym, M., Singh, R. & Berger, B. IsoRankN: spectral methods for global alignment of multiple protein networks. Bio-informatica 25, i253–i258 (2009).

Milenković, T., Ng, W. L., Hayes, W. & Pržulj, N. Optimal network alignment with graphlet degree vectors. Cancer informatics 9, 121 (2010).

Narayanan, A., Shi, E. & Rubinstein, B. I. Link prediction by de-anonymization: How we won the Kaggle social network challenge. In Neural Networks (IJCNN), The 2011 International Joint Conference on, 1825–1834 (IEEE, 2011).

Neyshabur, B., Khadem, A., Hashemifar, S. & Arab, S. S. NETAL: a new graph-based method for global alignment of protein–protein interaction networks. Bio-informatica 29, 1654–1662 (2013).

Patro, R. & Kingsford, C. Global network alignment using multiscale spectral signatures. Bio-informatica 28, 3105–3114 (2012).

Singh, R., Xu, J. & Berger, B. Pairwise global alignment of protein interaction networks by matching neighborhood topology. In Research in Computational Molecular Biology, 16–31 (Springer, 2007).

Singh, R., Xu, J. & Berger, B. Global alignment of multiple protein interaction networks with application to functional orthology detection. Proceedings van de National Academy of Sciences 105, 12763–12768 (2008).

Zaslavskiy, M., Bach, F. & Vert, J.-P. Global alignment of protein–protein interaction networks by graph matching methods. Bio-informatica 25, i259–1267 (2009).

Meng, L., Striegel, A. & Milenković, T. Local versus global biological network alignment. Bio-informatica 32, 3155–3164 (2016).

Meng, L., Crawford, J., Striegel, A. & Milenkovic, T. IGLOO: Integrating global and local biological network alignment. arXiv preprint arXiv:1604.06111 (2016).

Vijayan, V. & Milenković, T. Multiple network alignment via multiMAGNA++. IEEE/ACM Transactions on Computational Biology and Bioinformatics PP, https://doi.org/10.1109/TCBB.2017.2740381 (2017).

Vijayan, V., Krebs, E., Meng, L. & Milenkovic, T. Pairwise versus multiple network alignment. arXiv preprint arXiv:1709.04564 (2017).

Sun, Y., Crawford, J., Tang, J. & Milenković, T. Simultaneous optimization of both node and edge conservation in network alignment via WAVE. Lecture Notes in Computer Science Algorithms in Bioinformatics, 16–39 (2015).

Milenković, T. & Pržlj, N. Uncovering biological network function via graphlet degree signatures. Cancer Informatics 6, https://doi.org/10.4137/cin.s680 (2008).

Vijayan, V., Saraph, V. & Milenković, T. MAGNA++: Maximizing accuracy in global network alignment via both node and edge conservation. Bio-informatica 31, 2409–2411 (2015).

Mamano, N. & Hayes, W. B. SANA: simulated annealing far outperforms many other search algorithms for biological network alignment. Bio-informatica 33, 2156–2164 (2017).

Gligorijević, V. & Pržulj, N. Methods for biological data integration: perspectives and challenges. Journal of the Royal Society Interface 12, 20150571 (2015).

Wu, X., Liu, Q. & Jiang, R. Align human interactome with phenome to identify causative genes and networks underlying disease families. Bio-informatica 25, 98–104 (2009).

Gligorijević, V., Malod-Dognin, N. & Pržlj, N. Fuse: multiple network alignment via data fusion. Bio-informatica 32, 1195–1203 (2016).

Nassar, H. & Gleich, D. F. Multimodal network alignment. Proceedings of the 2017 SIAM International Conference on Data Mining, 615–623 (2017).

Yaveroğlu, Ö. N., Milenković, T. & Pržulj, N. Proper evaluation of alignment-free network comparison methods. Bio-informatica 31, 2697–2704 (2015).

Solava, R. W., Michaels, R. P. & Milenković, T. Graphlet-based edge clustering reveals pathogen-interacting proteins. Bio-informatica 28, i480–i486 (2012).

Faisal, F. E. & Milenković, T. Dynamic networks reveal key players in aging. Bio-informatica 30, 1721–1729 (2014).

Wang, X.-D. et al. Identification of human disease genes from interactome network using graphlet interaction. PloS een 9, e86142 (2014).

Singh, O., Sawariya, K. & Aparoy, P. Graphlet signature-based scoring method to estimate protein–ligand binding affinity. Royal Society Open Science 1, 140306 (2014).

Vacic, V., Iakoucheva, L. M., Lonardi, S. & Radivojac, P. Graphlet kernels for prediction of functional residues in protein structures. Journal of Computational Biology 17, 55–72 (2010).

Malod-Dognin, N. & Pržulj, N. GR-Align: fast and flexible alignment of protein 3D structures using graphlet degree similarity. Bio-informatica 30, 1259–1265 (2014).

Hermjakob, U. Improved word alignment with statistics and linguistic heuristics. Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing 1, 229–237 (2009).

Penrose, M. Random geometric graphs. 5 (Oxford University Press, 2003).

Barabási, A.-L. & Albert, R. Opkomst van schalen in willekeurige netwerken. Wetenschap 286, 509–512 (1999).

Milenković, T., Lai, J. & Pržulj, N. GraphCrunch: a tool for large network analyses. BMC Bio-informatica 9, 70 (2008).

Berchtold, N. C. et al. Gene expression changes in the course of normal brain aging are sexually dimorphic. Proceedings van de National Academy of Sciences 105, 15605–15610 (2008).

Simpson, J. E. et al. Microarray analysis of the astrocyte transcriptome in the aging brain: relationship to Alzheimer’s pathology and APOE genotype. Neurobiology of Aging 32, 1795–1807 (2011).

Ashburner, M. et al. Gene Ontology: tool for the unification of biology. Nature genetics 25, 25 (2000).

Mazandu, G. K. & Mulder, N. J. DaGO-Fun: tool for Gene Ontology-based functional analysis using term information content measures. BMC bioinformatics 14, 284 (2013).

Hočevar, T. & Demšar, J. A combinatorial approach to graphlet counting. Bio-informatica 30, 559–565 (2014).

Marcus, D. & Shavitt, Y. RAGE–a rapid graphlet enumerator for large networks. Computer Networks 56, 810–819 (2012).

Rahman, M., Bhuiyan, M. A. & Al Hasan, M. Graft: An efficient graphlet counting method for large graph analysis. IEEE Transactions on Knowledge and Data Engineering 26, 2466–2478 (2014).

Ahmed, N. K., Neville, J., Rossi, R. A. & Duffield, N. Efficient graphlet counting for large networks. In Data Mining (ICDM), 2015 IEEE International Conference on, 1–10 (IEEE, 2015).

Grover, A. & Leskovec, J. node2vec: Scalable feature learning for networks. In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 855–864 (ACM, 2016).

Dong, Y., Chawla, N. V. & Swami, A. metapath2vec: Scalable representation learning for heterogeneous networks. In Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 135–144 (ACM, 2017).

Vijayan, V., Critchlow, D. & Milenković, T. Alignment of dynamic networks. Bio-informatica 33, i180–i189 (2017).

Vijayan, V. & Milenković, T. Aligning dynamic networks with DynaWAVE. Bio-informatica 34, 1795–1798 (2017).

Cannistraci, C. V., Alanis-Lobato, G. & Ravasi, T. Minimum curvilinearity to enhance topological prediction of protein interactions by network embedding. Bio-informatica 29, 199–209 (2013).

Saraph, V. & Milenković, T. MAGNA: maximizing accuracy in global network alignment. Bio-informatica 30, 2931–2940 (2014).


Prediction of Mutational Effects

The mutational fitness landscape provides deep insight into biology. Coupling next-generation sequencing with a mutagenesis screen allows parallel readout of tens of thousands of variants of a single protein (62). The detail and coverage of these experiments provides a view into the mutational fitness landscape of individual proteins, giving quantitative relationships between sequence and protein function. We adapt the Transformer protein language model to predict the quantitative effect of mutations.

First, we investigate intraprotein variant effect prediction, where a limited sampling of mutations is used to predict the effect of unobserved mutations. This setting has utility in protein engineering applications (63). We evaluate the representations on two deep mutational scanning datasets used by recent state-of-the-art methods for variant effect prediction, Envision (64) and DeepSequence (26). Collectively, the data includes over 700,000 variant effect measurements from over 100 large-scale experimental mutagenesis datasets.

Fine-tuning the Transformer yields a mutational effect predictor that is comparable to the results of Envision. Envision (64) relies on protein structural and evolutionary features to generalize. We assess whether the Transformer can achieve similar generalization results without direct access to structural features. The same methodology for partitioning data for training and evaluation is used as in Gray et al. (64) to allow a comparison of the results. We use the 34-layer Transformer trained on UR50/S. Fig. 7 shows the fine-tuned Transformer exceeds the performance of Envision on 10 of the 12 proteins. For each protein, a fraction p = 0.8 of the data are used for training, and the remaining data are used for testing. We report mean and SDs for fivefold cross validation in SI-bijlage, Table S5. Results varying the fraction of data that is used for training are reported in SI-bijlage, Fig. S5.

Representation learning enables state-of-the-art supervised prediction of the quantitative effect of mutations. (Links) Envision dataset (65). (Rechts) DeepSequence dataset (26). Transformer representations (34-layer, UR50/S) are compared to the LSTM bidirectional language model (large model, UR50/S). The result of fivefold cross validation is reported for each protein. For each partition, supervised fine-tuning is performed on 80% of the mutational data for the protein, and results are evaluated on the remaining 20%. Transformer representations outperform baseline LSTM representations on both datasets. State-of-the-art methods are also shown for each dataset. Gray et al. (65) is a supervised method using structural, evolutionary, and biochemical features, trained with the same protocol as used for the Transformer. Riesselman et al. (26) is an unsupervised method trained on the MSA of each protein. Mean and SD across the five partitions for Transformer model and LSTM baseline.

We also evaluate using the same fivefold cross validation methodology on the deep mutational scanning experiments assembled for DeepSequence (26). The fine-tuned Transformer model outperforms the fine-tuned LSTM baselines. While not directly comparable, we also include the performance of the original DeepSequence method, which is unsupervised and represents state of the art for this dataset.

Generalization to a New Fitness Landscape.

We analyze the Transformer’s ability to generalize to the fitness landscape of a new protein. Following the protocol introduced in Envision, we use a leave-one-out analysis: to evaluate performance on a given protein, we train on data from the remaining n − 1 proteins and test on the held-out protein. SI-bijlage, Fig. S6 shows that the Transformer’s predictions from raw sequences perform better than Envision on five of the nine tasks.


LocARNA - Alignment & Folding

LocARNA is a tool for multiple alignment of RNA molecules. LocARNA requires only RNA sequences as input and will simultaneously fold and align the input sequences. Specifications of additional constraints or fixed input structures are possible. LocARNA outputs a multiple alignment together with a consensus structure. For the folding it makes use of a very realistic energy model for RNAs as it is by RNAfold of the Vienna RNA package (or Zuker's mfold). For the alignment it features RIBOSUM-like similarity scoring and realistic gap cost. The LocARNA software is available for download as part of the LocARNA package (GPL 3).

For articles describing the tool and webserver refer to the reference section below. Please cite us when using our tools.
For more information check the help page.

  • snoRNAs with constraints (input|result)
  • tRNA alignment with fixed structure (input|result)
  • tRNA alignment (input|result)
  • RNA Boundaries with LocARNA-P (input|result)


Bekijk de video: Homogene en heterogene mengsels. (December 2021).