Informatie

MiRNA-namen converteren


Ik moet al mijn microRNA-namen converteren, b.v. hsa-miR-30e-5p naar b.v. entrez-gen-ID's, ensemble-ID's of een andere ID. Weet iemand een goede ID-conversietool voor microRNA's?

(Ik heb het kunnen converteren naar miRBase ID, bijvoorbeeld MIMAT0000692, maar David herkent ze blijkbaar niet)


Het lijkt erop dat er geen id's zijn voor een volwassen reeks. U kunt beter zoeken naar een oudervolgorde-ID. Je zou het kunnen controleren, maar het lijkt er ook op dat HGNC-id's -miR-30E- onderdeel zijn. U kunt dus de Ensemble-zoekopdracht proberen (u moet namen invoeren in de sectie 'Filter'-'GENE') of Gennamen gebruiken. Zoals je ziet, heeft het een API en je zou het programmatisch kunnen gebruiken met HGNC-ID's.


RNA-bewerking van menselijke microRNA's

MicroRNA's (miRNA's) zijn korte RNA's van ongeveer 22 nucleotiden die genexpressie reguleren. De primaire transcripten van miRNA's bevatten dubbelstrengs RNA en zijn daarom potentiële substraten voor adenosine naar inosine (A-naar-I) RNA-bewerking.

Resultaten

We hebben een onderzoek uitgevoerd naar RNA-bewerking van miRNA's uit tien menselijke weefsels door sequentievergelijking van PCR-producten die zijn afgeleid van gematcht genomisch DNA en totaal cDNA van hetzelfde individu. Zes van de 99 (6%) miRNA-transcripten waaruit gegevens werden verkregen, waren onderworpen aan A-to-I-bewerking in ten minste één weefsel. Vier van de zeven bewerkte adenosines bevonden zich in het volgroeide miRNA en er werd voorspeld dat ze de doelwitplaatsen in niet-vertaalde 3'-regio's zouden veranderen. Voor nog eens zes miRNA's identificeerden we A-naar-I-bewerking van transcripten die zijn afgeleid van de tegenovergestelde streng van het genoom van het geannoteerde miRNA. Deze miRNA's zijn mogelijk geannoteerd op de verkeerde genomische streng.

Conclusie

Onze resultaten geven aan dat RNA-editing de diversiteit van miRNA's en hun doelen verhoogt en daarom de miRNA-functie kan moduleren.


MiRNA Naam Converter

We hebben deze webinterface ontwikkeld om de vertalenMiRNANaam functie, opgenomen in het miRNAmeConverter Bioconductor R-pakket, voor iedereen toegankelijk. Bovendien zijn sequenties beschikbaar voor vertaalde miRNA's.

Het doel van deze miRNA-naamvertaler is om het probleem aan te pakken dat miRNA's inconsistente namen hebben tussen de miRBase-versies. De vertaling wordt vooral handig bij het omgaan met andere miRNA-tools dan miRBase. Voor het ophalen van doelen uit miRTarBase is bijvoorbeeld de miRNA-naam uit versie 20 vereist, terwijl de website miRecords alleen versie 17 accepteert.
Daarnaast kun je niet alleen volwassen miRNA-namen plakken, maar ook hele alinea's met miRNA-namen, zoals inleidingen uit papers.

Als u resultaten van de miRNAmeConverter gebruikt, citeer dan de volgende publicatie:

Haunsberger SJ, Connolly NMC en Prehn JHM* (2016). "miRNAmeConverter: een R/Bioconductor-pakket voor het vertalen van volwassen miRNA-namen naar verschillende miRBase-versies." Bio-informatica. doi: 10.1093/bioinformatica/btw660

… klik hier gebruik de miRNAmeConverter web applicatie.


Toegangsopties

Krijg volledige toegang tot tijdschriften voor 1 jaar

Alle prijzen zijn NET prijzen.
De btw wordt later bij het afrekenen toegevoegd.
De belastingberekening wordt definitief tijdens het afrekenen.

Krijg beperkte of volledige toegang tot artikelen op ReadCube.

Alle prijzen zijn NET prijzen.


Aangepaste miScript miRNA PCR-arrays

Aangepaste miScript miRNA PCR-arrays zijn panelen van miScript Primer-assays die uw miRNA's van belang detecteren. Custom miScript miRNA PCR-arrays, een volledig geïntegreerd onderdeel van het miScript PCR-systeem, zijn verkrijgbaar in platen met 96 putjes, platen met 384 putjes en rotorschijven met 100 putjes, in verschillende plaatlay-outs, voor gebruik met de meeste realtime PCR-cyclers (zie afbeelding Plaatlay-outs). Om uw aangepaste miRNA-panel van interesse te profileren, bereidt u eenvoudig cDNA voor met behulp van de miScript II RT Kit met miScript HiSpec Buffer, en gebruikt u dit cDNA als een sjabloon in realtime PCR met uw Custom miScript miRNA PCR-array en de miScript SYBR Green PCR-kit.
Zie Productdetails voor informatie over het bestellen van uw Custom miScript miRNA PCR-array.

Belangrijke notitie: Deze productlijn wordt op 1 mei 2021 stopgezet en wordt vervangen door het miRCURY LNA miRNA PCR-systeem. We raden ten zeerste aan om miRCURY LNA miRNA aangepaste PCR-panelen te gebruiken voor betere miRNA-kwantificering en profilering.

Ga voor meer informatie over deze transitie naar onze speciale kennishub of neem contact met ons op.

Beginsel

Het miScript PCR-systeem maakt gevoelige, specifieke miRNA-kwantificering en profilering mogelijk met behulp van SYBR Green realtime PCR. Het miScript PCR-systeem omvat alle stappen die betrokken zijn bij de conversie van RNA naar cDNA en de daaropvolgende realtime PCR-detectie van miRNA's.

Volwassen miRNA-profilering met het miScript PCR-systeem maakt gebruik van de volgende componenten:

miScript II RT-kit — deze kit maakt eenvoudige cDNA-synthese in één stap mogelijk. Een enkele cDNA-synthesereactie kan worden gebruikt voor de detectie van honderden tot duizenden miRNA's. Het dubbele buffersysteem voldoet aan de onderscheidende behoeften van miRNA-kwantificering met behulp van realtime PCR. miScript PreAMP PCR-kit en primermixen — de kit- en primermengsels maken onbevooroordeelde preamplificatie van beperkte RNA-hoeveelheden mogelijk, waardoor miRNA-profilering met miScript miRNA PCR-arrays of -assays mogelijk wordt. miScript SYBR Groene PCR-kit — deze kit bevat QuantiTect SYBR Green PCR Master Mix en de miScript Universal Primer, een reverse primer die detectie van miRNA's mogelijk maakt in combinatie met een miScript Primer Assay of miScript miRNA PCR Array. miScript miRNA PCR-arrays en -assays — geavanceerde miScript miRNA PCR-arrays zijn panelen voor eenmalig gebruik van 12-384 miScript Primer-assays. miScript miRNA PCR-arrays zijn beschikbaar voor biologisch relevante route- of ziektegerichte panelen, miRNome-panelen of aangepaste panelen. miScript miRNA PCR Array Data-analysetool — gratis, gebruiksvriendelijke software voor gegevensanalyse maakt gebruik van ingevoerde onbewerkte Ct waarden om de PCR-array-besturingselementen automatisch te interpreteren, relatieve kwantificering uit te voeren met behulp van de ∆∆Ct methode, en presenteer de resultaten in verschillende visuele formaten.

Procedure

miRNA-expressieprofilering met miScript miRNA PCR-arrays is eenvoudig en robuust. Bereid eerst cDNA voor dat is gebufferd met miScript HiSpec Buffer met behulp van de miScript II RT Kit. Voeg ten tweede een premix van cDNA, miScript Universal Primer, QuantiTect SYBR Green PCR Master Mix en RNase-vrij water toe aan een miScript miRNA PCR-array. Ten derde, voer de reactie uit in een realtime PCR-cycler. Analyseer ten slotte de gegevens met behulp van de miScript miRNA PCR Array Data Analysis Tool (zie figuur miScript miRNA PCR Array-workflow).


Auteurs informatie

Huidig ​​adres: Ludwig Institute for Cancer Research, La Jolla, CA, USA

Deze auteurs droegen gelijkelijk bij: Jinghui Song, Yuan Zhuang, Chenxu Zhu.

Voorkeuren

State Key Laboratory of Protein and Plant Gene Research, School of Life Sciences, Peking University, Beijing, China

Jinghui Song, Yuan Zhuang, Chenxu Zhu, Haowei Meng, Bo Lu, Jinying Peng & Chengqi Yi

Peking-Tsinghua Centrum voor Levenswetenschappen, Universiteit van Peking, Peking, China

Centrum voor reproductieve geneeskunde, Peking University Third Hospital, Beijing, China

Afdeling Chemische Biologie en Centrum voor synthetische en functionele biomoleculen, College of Chemistry and Molecular Engineering, Peking University, Beijing, China


(GELEDEN). Een grote familie van eiwitten die betrokken zijn bij door kleine RNA geleide genuitschakeling. Argonaute-eiwitten zijn sterk geconserveerd en worden aangetroffen in Eukarya, Archaea en Bacteria.

(PAZ). Een domein genoemd naar de PIWI-, Argonaute- en Zwille-eiwitten dat kenmerkend is voor Argonaute-eiwitten en ook wordt aangetroffen in sommige Dicer-enzymen. Het domein verankert het 3'-uiteinde van het gebonden kleine RNA.

P-element-geïnduceerde slappe testikels

(PIWI). Een domein dat kenmerkend is voor Argonaute-eiwitten. PIWI-domeinen zijn structureel vergelijkbaar met RNase H en sommige bezitten katalytische activiteit.

Elektronenmicroscopie dichtheidskaarten

Bij elektronenmicroscopie leidt een hogere elektronendichtheid tot sterkere absorptie en verstrooiing door interactie van de bundel met elektronen van het monster. Elektronendichtheidskaarten zijn een 3D-reconstructie van het signaal, dat de basis vormt voor het bouwen van structuurmodellen.

Een overvloedig 3'– 5'-exoribonucleasecomplex dat zowel in alle Eukarya als in sommige Archaea wordt aangetroffen.

Crosslinking en immunoprecipitatie

Een methode die wordt gebruikt om RNA-sites te identificeren die door eiwitten zijn gebonden.

Een eiwit dat een ander eiwit of RNA-molecuul (vracht) van het cytoplasma naar de kern transporteert.

De afgifte van de 2'5'-fosfodiesterkoppeling van de intron-lariat tijdens pre-mRNA-splitsing.

Een lariat-structuur die wordt gevormd in het intron tijdens splitsing door covalente koppeling van het 5'-uiteinde van het intron en een 2'-hydroxylgroep van een intron intern adenosine.


Resultaten

PAR-CLIP-gegevenssets

We hebben onze analyse gericht op menselijke PAR-CLIP-datasets beschreven in Hafner et al. [7], die de doelen van vier verschillende mRNA-interagerende factoren profileren. Drie van de datasets werden gegenereerd op basis van immunoprecipitatiegegevens van de sequentiespecifieke RBP's Quaking (QKI), Pumilio2 (PUM2) en Insuline-achtige groeifactor 2-bindend eiwit 1 (IGF2BP1). Hoewel QKI een goed bestudeerde splitsingsfactor in de kern is [10], zijn Pumilio RBP's betrokken bij mRNA-stabiliteit en translatie in het cytoplasma [11]. De functies van Pumilio worden op grote schaal bestudeerd in een verscheidenheid aan soorten, en de wereldwijde RNA-targeting-eigenschappen zijn onderzocht in een grote fylogenie [12-17]. IGF2BP1 behoort tot een familie van eiwitten die translatie kunnen reguleren door hun directe binding aan target-mRNA's [18].

De vierde dataset bestaat uit gepoolde bibliotheken die leden van de Argonaute (AGO) -familie van RBP's testen, centrale componenten van het RNA-geïnduceerde silencing-complex (RISC), dat microRNA's (miRNA's) naar hun doeltranscripten stuurt, waardoor de genexpressie negatief wordt beïnvloed [19] ]. Anders dan de andere RBP's, hebben Argonaute-leden geen specifieke mRNA-herkenningsplaats, maar worden hun doelen gespecificeerd door de interactie van het miRNA in RISC met gedeeltelijk complementaire sequenties in de doelwit-mRNA's [19]. Het zaadgebied van het miRNA wordt beschouwd als de belangrijke sequentiedeterminant in doel-mRNA-interacties [20]. AGO-verknoping is momenteel een populaire methode om miRNA-doelen direct te identificeren, maar de bibliotheken bevatten een mengsel van alle doelen van die miRNA's die in een bepaalde cellulaire context tot expressie worden gebracht.

Door datasets voor eiwitten met bekende sequentievoorkeuren te evalueren, konden we de interactieplaatsen die door PARalyzer werden geïdentificeerd, vergelijken met basislijnmethoden, in termen van de aanwezigheid van vermeende bindingsmotieven die genormaliseerd waren naar de totale grootte van de geïdentificeerde interactieplaatsen. Een eerste analyse van PAR-CLIP-gegevens onthulde dat interactieplaatsen van verschillende eiwitten bepaalde patronen van T = > C-conversies vertonen, wat waarschijnlijk de toegankelijkheid van nucleotiden in het RNA dat door het eiwit is gebonden, weerspiegelt. Daarom hoeven conversies niet alle thymines van een sequentiemotief in gelijke mate te omvatten, en mogen ze zelfs niet direct bovenop geconserveerde motieven op de interactieplaatsen vallen. Met name werd waargenomen dat miRNA-zaadmatches grotendeels verstoken waren van T = > C-conversies, en conversies waren voornamelijk direct stroomopwaarts van de seed-match gelokaliseerd.

Methodiekoverzicht

T = > C-conversiegebeurtenissen die plaatsvinden op de plaats van RNA-eiwitverknoping kunnen worden gebruikt om de werkelijke RBP-interacties met hoge resolutie te identificeren, en vervolgens welke sequentiemotieven worden gevonden op of dichtbij deze interactieplaatsen. We hebben een toolkit ontwikkeld die gebruikmaakt van een niet-parametrische classificator voor het schatten van de dichtheid van de kern, PARalyzer (PAR-CLIP-gegevensanalysator), om de RNA-eiwit-interactiesites te identificeren uit een combinatie van T = > C-conversies en leesdichtheid. In een tweede stap kunnen PARalyzer-interactiesites worden geleverd aan: de novo motiefzoekers om sequentievoorkeuren op te helderen, hebben we ons recent gepubliceerde cERMIT-algoritme voor deze taak aangepast, en voor de analyse van AGO-bibliotheken als een belangrijk speciaal geval.

PARAlyzer

Lezingen worden eerst uitgelijnd met het genoom en die overlappen met ten minste een enkele nucleotide worden samen gegroepeerd. Om beschikbare leesgegevens op een effectieve manier te benutten, gebruiken we relatief soepele uitlijningsparameters. We laten uitlezingen zo kort zijn als 13 nucleotiden na het strippen van de adapter, en een uitlezing kan tot 2 mismatches bevatten die beperkt zijn tot T = > C-conversies (ter vergelijking, de analyse door Hafner et al. [7] gebruikte een leeslengte van ten minste 20 nucleotiden en liet één T = > C-mismatch toe). Binnen elke leesgroep genereert PARalyzer twee afgevlakte schattingen van de kerneldichtheid, één voor T = > C-overgangen en één voor niet-overgangsgebeurtenissen. Nucleotiden binnen de leesgroepen die een minimale leesdiepte behouden en waarbij de waarschijnlijkheid van T = > C-conversie groter is dan niet-conversie, worden beschouwd als interactiesites.

Initiële interactiesites worden uitgebreid met ofwel de volledige onderliggende reads die een conversiegebeurtenis bevatten, ofwel met een generieke venstergrootte (een voorbeeld voor de PUM2-dataset is te zien in figuur 1). De keuze tussen deze methoden is afhankelijk van de verknopingseigenschappen van het geanalyseerde RBP. Door het gebied bijvoorbeeld met vijf nucleotiden aan elke kant uit te breiden, worden PUM2-bindingsplaatsen efficiënt gevangen, waar verknoping direct op het motief plaatsvindt. Daarentegen, bij het testen van de Argonaute-eiwitfamilie waarin de miRNA-mRNA-interactieplaats wordt beschermd tegen zowel spijsvertering als T = > C-conversiegebeurtenissen, zal uitbreiding van de regio op basis van de onderliggende waarden de locatie van conversie omvatten, evenals de gebonden site , dat wil zeggen, de miRNA-zaadovereenkomsten (Figuur 2).

Voorbeeld van PARalyzer-interactiesite-identificatie. Het gehele genomische gebied komt overeen met een enkele leesgroep uit de Pumilio2-bibliotheek. Het oranje gebied vertegenwoordigt de nucleotiden waar de schatting van de signaalkerneldichtheid boven de achtergrond ligt. De lichtroze locaties zijn de volledige interactieplaatsen verlengd met maximaal 5 nucleotiden. Een lichtgouden doos benadrukt de sequenties die overeenkomen met het bekende Pumilio2-bindmotief.

Nucleotidesamenstelling en waarschijnlijkheid van RNA-verknoping gecentreerd op AGO1-4-, QKI-, PUM2- en IGF2BP1-interactiesites. De analyse van de interactieplaats is afkomstig van alle datasets: Quaking (QKI), Pumilio2 (PUM2), Insuline-achtige groeifactor 2-bindend eiwit 1 (IGF2BP1) en Argonaute 1 tot 4 (AGO1 tot -4). Heatmap: nucleotide samenstelling, ten opzichte van een uniforme achtergrond, van elke individuele bindingsplaats gevonden in de respectievelijke genregio's. Barplot: waarschijnlijkheid van een T = > C conversie gegeven dat er een 'T' is op de gegeven positie. In tegenstelling tot de heatmap wordt de barplot niet genormaliseerd door het aantal leestoewijzingen aan een individuele bindingsplaats. De rode stippellijn geeft de waarschijnlijkheid van achtergrondconversie aan voor alle 'T's binnen de respectievelijke genetische regio's voor elke respectieve dataset. (een) Niet-redundante seed-matches in 3'-UTR's voor de top 20 tot expressie gebrachte miRNA's in de Argonaute-dataset. 8 mer-m1 is een seed-match tussen het mRNA en nucleotiden 1 tot 8 van de miRNA-seedsequentie, 8 mer-A1 komt overeen met nucleotiden 2 tot 8 van de seed-sequentie gepaard met een A op positie 1. 7 mer-1 m en 7 mer-A1 zijn op soortgelijke wijze gedefinieerd voor nucleotiden 1 tot 7 7 mer-m8 is een match die gebruik maakt van nucleotiden 2 tot 8 van de kiemsequentie. 6 mer2-7 is een match die gebruik maakt van nucleotiden 2 tot 7 van de zaadsequentie, en 6 mer3-8 gebruikt nucleotiden 3 tot 8 van de sequentie. (B) Motief komt overeen voor de twee Quaking-motieven in 3' UTR's, 5' UTR's, coderende regio's en introns. (C) Motief komt overeen met de Pumilio 2-dataset in 3' UTR's, 5' UTR's, coderende regio's en introns. (NS) Motief komt overeen met de IGF2BP1-dataset in 3' UTR's, 5' UTR's, coderende regio's en introns.

Motief vinden

Wanneer sequentievoorkeuren bekend zijn, kunnen PARalyzer-interactieplaatsen worden onderzocht op overeenkomsten met het bindingsmotief van de geteste factor. De meeste RBP's hebben echter geen bekende bindingsmotieven. Bovendien wordt slechts een subset van miRNA's tot expressie gebracht in een bepaald celtype en beschikbaar om in de RISC te worden opgenomen. Met het oog op het vinden van motieven vallen de huidige PAR-CLIP-datasets in twee verschillende scenario's: (1) 'analyse van enkelvoudige bindingsmotief' in het geval van sequentiespecifieke RBP's (bijvoorbeeld QKI, PUM2, IFG2BP1) en (2) ' analyse van meerdere motieven' in het speciale geval van miRNA-gemedieerde AGO-RNA-crosslinking.

Voor de analyse van het enkelvoudige bindingsmotief passen we de geconserveerde Evidence Rated Motif Identification Tool (cERMIT) [8] toe, die is ontworpen voor de novo motiefontdekking op basis van bindingsgegevens met hoge doorvoer (bijvoorbeeld ChIP-seq) en het is aangetoond dat het zeer competitieve prestaties vertoont in de context van het ontdekken van transcriptiefactorbindingsplaatsen [8]. Er zijn twee essentiële componenten van het algoritme voor het ontdekken van motieven, geïmplementeerd door cERMIT: een verrijkingsfunctie om bewijs van binding te scoren voor een bepaald sequentiemotief weergegeven als een k-mer over het alfabet van IUPAC-symbolen 'A, C, G, U, W, K, R, Y, S, M, N' en een zoekstrategie die de motiefruimte voor hoogscorende motieven verkent. cERMIT verschilt van de meeste andere hulpmiddelen voor het identificeren van motieven door gebruik te maken van het volledige kwantitatieve bewijs voor een genoombrede reeks regulerende regio's. In plaats van een motief te identificeren dat oververtegenwoordigd is in een vooraf gespecificeerd aantal topkandidaatsequenties, rangschikt cERMIT alle vermeende doelwitgebieden op basis van hun bindend bewijs en identificeert het sequentiemotieven van flexibele lengte die sterk verrijkt zijn aan doelwitten met hoog bindend bewijs.

cERMIT is gebaseerd op de veronderstelling dat er bewijs beschikbaar was voor een inputset van potentiële regulerende doelregio's, onafhankelijk van een specifieke geanalyseerde factor (bijvoorbeeld alle stroomopwaartse regio's voor kleine genomen zoals Saccharomyces cerevisiaeof gebieden met open chromatine in hogere eukaryoten). Hier zijn de te evalueren regio's de PARalyzer-interactiesites waaraan bewijs van RBP-verknoping is toegewezen. Het bindende bewijs voor door PARalyzer gegenereerde interactiesites wordt weerspiegeld in het aantal waargenomen (log2-getransformeerde) T = > C-conversies. In de hier geanalyseerde gegevens correleerde het aantal waargenomen T = > C-conversies goed met het totale aantal reads (aanvullend bestand 1), wat suggereerde dat de motiefvindstrategie ook kan worden toegepast op CLIP-seq-datasets [5] door gebruik te maken van het (log2 getransformeerde) aantal reads als bindend bewijs voor elke interactieplaats.

In de context van meervoudige motiefanalyse van AGO-gegevenssets profiteren we van het gevestigde mechanisme van op miRNA gebaseerde genregulatie [20, 21], dat grotendeels gebaseerd is op de 5'-complementariteit van miRNA's om mRNA-transcripten te targeten. In plaats van het uitvoeren van een de novo motief zoeken, beperkt de microRNA Enrichment Analysis Tool (mEAT) het zoeken dus tot een vooraf gespecificeerde seed-lijst van bekende miRNA's, bijvoorbeeld zoals gedefinieerd in miRBase [22]. In het bijzonder vertegenwoordigen we elk miRNA door een korte lijst van canonieke eindzaadtypes: 8 mer-A1, 8 mer-m1, 7 mer-A1, 7 mer-m1, 7 mer-m8, 6 mer2-7 en 6 mer3 -8. Door de oorspronkelijke score van het motief te herformuleren binnen een klassiek lineair regressiekader, kunnen we bovendien flexibele en gemakkelijk uitbreidbare boekhouding mogelijk maken van vooroordelen die geen verband houden met miRNA-gemedieerde AGO-mRNA-interactie, zoals sequentiesamenstelling of interactieplaatsgrootte.

Afbakening van individuele bindingsplaatsen voor sequentiespecifieke RNA-bindende eiwitten

Na het toepassen van PARalyzer op de vier PAR-CLIP-gegevenssets die hierboven zijn beschreven, hebben we vastgesteld dat de meeste interactiesites in de genomische regio's vielen die voor elk van de verschillende factoren werden verwacht (Figuur 3). De meeste Argonaute-interactieplaatsen werden gevonden in 3'-UTR's, het gebied waarvan bekend is dat het functionele doelen van het miRNA-geassocieerde RISC bevat [19]. Evenzo werd het grootste aantal interactieplaatsen gevonden in 3'-UTR's voor zowel Pumilio2 als IGF2BP1. Pumilio2 is een bekende regulator van mRNA-translatie en -stabiliteit, die wordt vergemakkelijkt door zijn binding aan 3'-UTR's van het doelwitgen (besproken in [17]). Van IFG2BP1, hoewel minder bestudeerd dan Pumilio2, is ook aangetoond dat het de translatie en stabiliteit reguleert door ofwel de 3'-UTR of 5'-UTR van zijn doelgenen te binden [18, 23]. Daarentegen werden de meeste interactieplaatsen gevonden voor Quaking, een bekende splitsingsregulator, gevonden in intronische regio's [10].

Genomische locatie van door PARalyzer gegenereerde interactieplaatsen voor vier RNA-bindende eiwitten. Locaties van interactiesites die ten minste twee T = > C-conversies bevatten, werden vergeleken met transcriptsequenties zoals geannoteerd in ENSEMBL (release 57) [42]. De verschillende herhalingsregioklassen werden geïdentificeerd door RepeatMasker [44]. De volgende herhalingstypes werden verzameld voor deze analyse: lage complexiteit herhalingsfamilie (lage complexiteit), lange interspersed nucleaire elementen (LINE), korte interspersed nucleaire elementen (SINE), DNA transposons (DNA), RNA repeat families (RNA), satelliet repeat familie (satelliet), rollende cirkel (RC), onbekende herhalingsfamilie (onbekend), lange terminale herhalingen (LTR) en andere herhalingen (overig).

Een eerder beschreven basislijnbenadering voor de identificatie van interactiesites gebruikte groepen van overlappende reads die ten minste één enkele T = > C-conversiegebeurtenis [7] bevatten, waarbij interactiesites met meer vertrouwen werden gedefinieerd als die met hogere aantallen T = > C-conversies evenementen. De uitlezingen moesten ten minste 20 nucleotiden lang zijn en maximaal één mismatch bevatten die overeenkomt met een T = > C-conversie. Onze soepelere mappingparameters leidden over het algemeen tot een groter aantal initiële leesgroepen voor elk van de RBP's, maar het aantal interactiesites bleef ongeveer hetzelfde voor elke dataset met een vereiste leesdiepte van 5. Voor de PUM2-dataset pasten we PARalyzer toe. met de parameteroptie die de interactieplaatsen met vijf nucleotiden aan elke kant van het positieve signaal verlengde. Een vergelijking van de PUM2-resultaten toonde een toename van 33% in de signaal-ruisverhouding voor de PARalyzer-methode (tabel 1). Als we de basislijnparameteroptie hadden gebruikt om de interactiesites uit te breiden op basis van de onderliggende waarden, zouden we nog steeds een toename van 20% in de signaal-ruisverhouding hebben gezien. PARalyzer identificeerde ongeveer hetzelfde aantal motiefinstanties, maar interactieplaatsen bevatten 29% minder nucleotiden.

De huidige vooroordelen van het PAR-CLIP-protocol (met name de identiteit van de enkele fotoactiveerbare nucleoside, evenals de endonuclease die wordt gebruikt voor de spijsvertering), en de specifieke biochemie van eiwit-RNA-interacties leggen enige beperkingen op aan de PARalyzer-methode. In beschikbare datasets is een goed voorbeeld het QKI-motief, waarbij de voorkeursverknoping plaatsvindt op het tweede nucleotide vanaf het 5'-uiteinde van het motief wanneer dat nucleotide een 'U' is, verknoping vindt plaats met een zeer hoge frequentie wanneer het een ' C ', we kunnen deze gebeurtenis echter niet waarnemen (Figuur 2b). Het gebruik van een ander door licht activeerbaar nucleoside zou waarschijnlijk resulteren in het vangen van deze specifieke variatie van het bindingsmotief. Een ander goed voorbeeld is het geïdentificeerde IGF2BP1-motief 'CWUU', waarvoor er geen dominante conversiegebeurtenis is binnen of op een korte, consistente afstand tot het bindingsmotief (Figuur 2d). In deze specifieke gevallen zijn de uridines die gevonden worden binnen het voorkeursbindingsmotief beschermd tegen verknoping, of vertonen ze geen bijzondere kans op verknoping over de achtergrond. Wanneer dergelijke situaties zich voordoen, kunnen interactiesites niet verder worden beperkt dan de optie 'uitbreiden bij lezen'. De beste keuze is om verknopingsgebieden te identificeren en vervolgens de interactiesite uit te breiden op basis van de onderliggende waarden die ten minste één conversie lieten zien. In het geval van Quaking resulteert onze kaartstrategie in combinatie met PARalyzer in de identificatie van 16% meer sites tegen een kostprijs van 5% signaal-ruis. Daarentegen identificeren we slechts ongeveer de helft van het aantal IGF2BP1-motiefinstanties dat wordt gevonden in de Hafner et al. [7] onderzoek, maar bij een signaal boven de verwachte achtergrond (tabel 1).

Hoewel we onze signaal-naar-ruisanalyse beperkten tot interactiesites die zich op eiwitcoderende genen bevonden, bleef het niet onopgemerkt dat er in elk van de datasets veel sites waren die binnen intergene regio's vielen (Figuur 3). Analyse van intergene interactiesites die aan dezelfde stringente grenswaarden als hierboven voldoen, onthulde dat het aantal motiefovereenkomsten per nucleotide slechts iets lager is dan voor die sites die binnen bekende transcripten vallen voor zowel PUM2 als IGF2BP1, terwijl het niet zo hoog is voor QKI of AGO (Extra bestand 2). Dit suggereert dat de PAR-CLIP-bibliotheken betrouwbare RBP-mRNA-interacties bevatten in momenteel niet-genoteerde, mogelijk niet-coderende transcripten.

Hoewel we een soepelere mappingstrategie gebruikten dan de eerste studie, brachten we nog steeds slechts ongeveer 28% van de reads in elk van de bibliotheken in kaart met het genoom. Door de kaartparameters verder te versoepelen en tot drie mismatches toe te staan ​​die niet noodzakelijk beperkt zijn tot T = > C-conversies, ontdekken we dat een groot aantal van de extra gegenereerde interactiesites zich in herhalingsgebieden van het genoom bevinden. Dit omvat korte en lange nucleaire elementen, evenals andere niet-coderende RNA-gebaseerde families, wat wijst op een niet-specifieke pull-down van zeer overvloedige niet-coderende RNA's. Een kleiner deel van deze interactiesites bevat sequentiemotieven die de voorkeur hebben, en het vereisen van meerdere T = > C-conversielocaties resulteert in de eliminatie van veel van deze regio's uit de daaropvolgende analyse (aanvullend bestand 3).

Over het algemeen resulteerde de PARalyzer-methode in aanzienlijke verbeteringen. Ten eerste is de grootte van de interactiesite meestal veel kleiner en identificeert daarom sites met een hogere resolutie (Figuur 4a). Ten tweede kan deze benadering meerdere sites binnen dezelfde groep van overlappende reads identificeren. Ten slotte breiden onze interactiesites zich nooit uit tot regio's die geen leesdiepte hebben, zoals het geval kan zijn bij het selecteren van vensters met een vaste grootte rond sites met waargenomen conversiegebeurtenissen. De eenvoudige benadering van het groeperen van uitlezingen leidt tot een sterke invloed van protocol (grootteselectie) en/of sequencingtechnologie (betrouwbare leeslengte), die beide idealiter de identificatie van sites niet zouden moeten beïnvloeden. De soepele short-read mapping in combinatie met PARalyzer biedt dus een uitgebreidere kaart met een hogere resolutie van eiwit-RNA-interactiesites. De methode is eenvoudig aan te passen wanneer aanvullende kennis beschikbaar is voor het specifieke conversiepatroon van een RBP. In ieder geval is het vereisen van ten minste twee T = > C-conversies in een leesgroep een sterke indicator van de aanwezigheid van binding voor een RBP, zelfs wanneer conversie direct op het consensusmotief ontbreekt, mogelijk indicatief voor algemene niet-site-specifieke interacties voor stabilisatie van de RNA-eiwit interactie. Deze observatie demonstreert het voordeel van PAR-CLIP ten opzichte van andere crosslinking-protocollen: zelfs als conversies niet direct bij het motief zijn, helpen ze om signaal over ruis te leveren.

Eigenschappen van het genereren van Argonaute-interactiesites en hun vergelijking met crosslink-gecentreerde regio's. (een) Verdeling van interactiesitegroottes voor de Argonaute-gegevensset voor sites die binnen 3'-UTR's vallen en twee of meer T = > C-conversielocaties bevatten. De verticale rode lijn vertegenwoordigt de 41-nucleotidegrootte van de Hafner et al. [7] crosslink-gecentreerde regio's (CCR's). (B) Verdeling van locaties van interactiesites over een genormaliseerde 3'-UTR voor alle clusters met twee of meer T = > C-conversielocaties. (C) De signaal-naar-ruis voor de top 20 tot expressie gebrachte miRNA's in de Argonaute-dataset voor zowel door PARalyzer gegenereerde interactiesites als de Hafner et al. [7] CCR's in 3'-UTR's. (NS) Gemiddelde log2-signaal-ruisverhouding van venstergrootte 21 over alle 361 gerapporteerde miRNA's uitgedrukt in Hafner et al. in de volgorde van hun uitdrukkingsrang.

Onderzoek van miRNA-interactiesites

Anders dan sequentiespecifieke RBP's, is de baseline-benadering voor de identificatie van argonaute-interactiesites in het PAR-CLIP-onderzoek uitgevoerd door Hafner et al. [7] was om crosslink-centered regionen (CCR's) te gebruiken. CCR's zijn vensters van 41 nucleotiden die opnieuw zijn gecentreerd op de initiële leesgroeplocatie met het hoogste percentage T = > C-conversiegebeurtenissen. Een recent vervolgonderzoek suggereerde dat CCR's voor alle RBP's zouden kunnen worden gebruikt [24]. De 3'-UTR is het specifieke gebied op een transcript waar miRNA-interacties de grootste impact hebben op genregulatie [21, 25]. Met behulp van PARalyzer was de signaal-ruisverhouding van miRNA-bindingsplaatsen over 3'-UTR's van genen waarvan bekend is dat ze tot expressie worden gebracht in HEK293-cellen verhoogd in de tot expressie gebrachte miRNA's (tabel 1 figuur 4c). Deze verhouding viel onder het achtergrondniveau voor miRNA's met zeer lage of geen expressie in deze monsters (Figuur 4d). Een vergelijkbare signaal-ruisverhouding voor seed-matches met de sterk tot expressie gebrachte miRNA's werd waargenomen voor interactiesites binnen coderende regio's (aanvullend bestand 4). De door Hafner . gerapporteerde CCR's daarentegen et al. [7] leidde tot een lagere signaal-ruisverhouding voor sterk tot expressie gebrachte miRNA's en bleef dicht bij het achtergrondniveau voor laag tot expressie gebrachte miRNA's, wat aangeeft dat de aanwezigheid van zaadmotieven voor deze miRNA's eenvoudigweg te wijten was aan willekeurige overeenkomsten in grotere CCR's. Dit toont aan dat onze methode inderdaad een kaart met een hogere resolutie van miRNA-bindingsplaatsen heeft gecreëerd. Verder is gemeld dat geconserveerde en vermoedelijk functionele miRNA-zaden zich nabij het begin van de 3'-UTR en in de buurt van poly-adenylatieplaatsen [26-28] bevinden, en dit patroon werd bevestigd voor van PAR-CLIP afgeleide bindingsplaatsen (Figuur 4b ).

Om crosslinking- en conversieniveaus in meer detail te onderzoeken, identificeerden we miRNA-zaadmatches voor elk van de top 20 tot expressie gebrachte miRNA's binnen reads die beperkt zijn tot 3 'UTR's of coderende regio's. Het stratificeren van de interactiesites op basis van canoniek seed-match-type resulteerde in de identificatie van verschillende patronen van T = > C-conversies (Figuur 2a). Voor 8-meer- en 7-meer-matches viel de hoogste waarschijnlijkheid van conversie één nucleotide stroomopwaarts van de seed-match. De waarschijnlijkheid van een conversiegebeurtenis binnen de seed-match was meestal op of onder de achtergrondconversieratio. Dit bevestigde eerdere waarnemingen dat de miRNA-mRNA-basenparing verknoping tussen het eiwit en elke 4SU op het mRNA in het zaadgebied voorkomt, en dat conversies grotendeels net buiten het zaadgebied vallen waar Argonaute-eiwitten zich in de buurt van het enkelstrengs doelwit bevinden. mRNA-molecuul. In tegenstelling tot 8- en 7-mer-matches, was de kans groter dat conversiegebeurtenissen plaatsvonden binnen 6-mer seed-matches dan in de omgeving. Deze trends werden ook waargenomen in seed-matches die werden geïdentificeerd in reads die zijn toegewezen aan coderende regio's (aanvullend bestand 4). Hoewel de kans groter is dat 6-meer-matches bij toeval voorkomen, en sommige mogelijk niet-functioneel zijn, zelfs als ze zich op PAR-CLIP-interactiesites bevinden, kunnen deze verschillen structurele overgangen weerspiegelen die worden geïnduceerd door uitgebreidere zaadparen [29], waardoor de eiwitconformatie en efficiëntie van RNA-crosslinking.

Verschillende onderzoeken hebben aangetoond dat de nucleotidesamenstelling die een miRNA-bindingsplaats omringt een rol speelt bij de effectiviteit van die plaats om het doelgen te reguleren [26, 30], en in overeenstemming hebben we waargenomen dat de nucleotiden die onmiddellijk grenzen aan elk type zaad overeenkomen in 3 'UTR's waren AU-rijk (Figuur 2a). Hoewel het algehele AU-gehalte hoog was in 3'-UTR's, was het lager in sites die aanwezig zijn in coderende regio's (aanvullend bestand 5), en normalisatie voor AU-gehalte van de verschillende genomische regio's verminderde het effect. Interessant is dat bindingsplaatsen voor de andere RBP's (QKI, PUM2 en IGF2BP1) ook voorkwamen in AU-rijke regio's, met een ondervertegenwoordiging van guanines rond de interactieplaatsen. The latter may be due to the fact that the RNase T1 enzyme, used in the preparation of the analyzed PAR-CLIP libraries, preferentially cleaves next to Gs. Cleavage of Gs immediately surrounding the binding sites could result in short RNA fragments, too short in fact to be included in the library because of a read size selection step that specifically collects reads approximately 30 nucleotides in size. Given that the RBPs studied here protect a region of 6 to 12 nucleotides, fragments with Gs immediately next to the site are likely to be too short to pass the size selection step. Alternatively, it is also possible that the high AU richness of these binding regions is necessary for RBP accessibility.

Evidenced-ranked de novomotif identification

Hafner et al. [7] successfully applied standard motif discovery approaches (PhyloGibbs [31], MEME [32]) on the subset of the top 100 most highly confident read-groups to predict RNA binding preferences. Choosing an arbitrary cutoff is well justified in cases where the target-binding motif is of low degeneracy and/or long and hence contains high discriminative signal relative to the background sequence. When this is not the case, a larger set of example sequences with the motif occurrence, with possibly variable binding affinity, can facilitate the search process.

For the single binding motif analysis we therefore used a recently developed method, cERMIT [8], which was specifically designed for de novo motif discovery based on high-throughput binding data (for example, ChIP-seq) and shown to exhibit highly competitive performance in the context of transcription factor binding site and miRNA seed discovery [8]. Motif identification on the QKI and PUM2 datasets was successful in recovering their respective reported consensus binding motifs [7, 10, 33] (Additional files 6 and 7). The motif for IG2BP1, which had not previously been identified, was highly similar to the one reported by Hafner et al. [7] (Additional file 8). For this analysis, we used all PARalyzer interaction sites mapping to a genic region not flagged as a repeat.

For the multiple motif analysis on the combined AGO PAR-CLIP datasets, we took all human miRNAs available in miRBase v16 as input for mEAT, which adapts cERMIT to a restricted motif analysis over miRNA seed matches. Despite starting from all known human miRNAs, our analysis automatically ranked the top expressed miRNAs in the cell line on the top of the list of predicted enriched miRNA seed clusters (Table 2). Therefore, this enrichment analysis can be used to identify those miRNAs with the strongest impact on mRNA targeting, even in the absence of miRNA expression information. While the initial PAR-CLIP study reported that seed matches could explain about 50% of CCRs, this was based on 6-mer matches to the top 100 expressed individual miRNAs. As our analysis above showed, only the matches of the top approximately 60 or so miRNAs provide a signal above background. De de novo motif analysis here confirms this: the top 5 expressed miRNAs alone can explain approximately 18% of all targets, but collectively, all 25 significantly enriched seed match families covered only approximately 30% of the interaction sites.


Future perspectives

Gene expression, a quantitative and complex trait, has been extensively studied during the past few years, especially using the human cell line models and the HapMap genotypic data (53). Genetic variants like SNPs and CNVs have been found to contribute substantially to gene expression variation (57-63). Defining the roles of miRNAs in gene expression regulation, however, still have many important hurdles to cross. Before we could comprehensively understand the role of miRNAs in inflammatory lung disease, some basic research studies on their role in gene regulation (e.g., building a systematic and more reliable catalogue of miRNA gene targets) will prove to be critical and benefit the research community. For example, due to cost and efficiency, current miRNA target identification still relies largely on computational algorithms (e.g., miRanda used by the miRBase (71, 74), TargetScan (114, 115), PicTar (116)) that aim to take advantage of the biochemical/thermodynamic properties of the sequences of miRNAs and their gene targets. Although successful to some extent, the prediction results of these computational methods are generally uncorrelated and their predictions are often not supported by each other or by experimental evidence (117) such as those in TarBase (118) (a manually curated database of experimentally supported miRNA targets). Understandably, an approach that aims to integrate these different computational algorithms and/or genome-wide miRNA/mRNA expression data such as ExprTarget (http://www.scandb.org/apps/microrna/) (105), therefore, could have the potential to generate a more reliable and comprehensive catalogue of the gene targets regulated by miRNAs, thus benefiting the studies on their role in other biological processes and physiological pathways. For instance, it is expected that pathway analysis on a more reliable and comprehensive list of gene targets of differentially expressed miRNAs between patient samples and normal controls could help construct a more precise model for the mechanisms of ALI susceptibility.

Since significant gene expression variation have been observed between human populations (60-63), studying the role of miRNAs in regulating population differences in gene expression would provide novel insights in health disparities such as the higher mortality rate in ALI (as well as sepsis) in African Americans and Hispanics in the United States (13). Although socioeconomic status could significantly affect health disparities, notably, genes related to immune response to bacterial infection (e.g., genes in inflammatory pathways such as CCR7, chemokine receptor 7 and CXCR3, chemokine receptor 3) were found to be enriched among the differentially expressed genes between the cell lines derived from individuals of African and European ancestry (60, 119). Previous studies attempted to illustrate the contribution of SNPs and CNVs to population-level gene expression variation (60-63), similarly, it would be interesting to investigate the contribution of miRNAs to differential gene expression between populations as well, thus helping explain the observed racial difference in diseases including ALI. In addition, expression variation in some genes has also been observed between males and females using the cell line models (120, 121). Although genetics does not appear to affect gender-specific gene expression as males and females have the same autosomal genetic background, the contribution of miRNAs to gender-specific gene expression has not yet been studied. Therefore, it would be important to illustrate the role of miRNAs in defining gender-specific gene expression for the purpose of understanding the gender differences in inflammatory lung disease (e.g., gender differences in ARDS mortality rate (13)).

Because of the early stage of research, the current studies on the relationships between miRNAs and ALI/ARDS and VILI have been largely relied on animal models. No doubt, results derived from animal models can guide further investigations on patient samples and future translational research, the interpretation of these results, however, needs to be cautious as not all results from animal models are relevant to humans. Therefore, expanding the current studies to human cell lines, tissues and ultimately human subjects would provide direct evidence to the role of miRNAs in the development of inflammatory lung disease.

Since miRNA expression is believed to be a dynamic process in cells, future experimental techniques that may monitor the longitudinal changes of miRNAs in vitro of in vivo and their interactions with changing cellular environment could provide unprecedented picture of the critical role of miRNAs in gene regulation and disease development. Finally, to construct a most comprehensive model for complex diseases such as ALI presents the challenges for integrating all kinds of data on the phenotypes or traits (e.g., gene expression, SNPs, CNVs, DNA methylation). MiRNAs will be critical components in our complete understanding of the mechanism and genetic networks of inflammatory lung disease. Though with some promising evidence so far, before they can be applied in the daily management of ALI, the potential of miRNAs to be novel therapeutic targets as well as biomarkers for ALI should also be continuously investigated.


Materialen en methodes

Human miRNA–disease association dataset

In the experiment, we validate our model using the HMDD (Human microRNA Disease Database) dataset provided by Li et al. [29]. The HMDD dataset provides experiment-supported evidence for human miRNA and disease association, which collects miRNA and disease association data from the evidence of circulating miRNAs, epigenetics, genetics and miRNA-target interactions, and contains detailed and comprehensive annotations. Currently, the latest version of the HMDD dataset is V3.0, which collects 32281 miRNA-disease association entries, including 1102 miRNAs and 850 diseases from 17412 papers. This dataset can be downloaded from the http://www.cuilab.cn/hmdd. When pre-processing the dataset, we removed some of the miRNAs because their information was judged to be unreliable by the public database miRBase. After screening, we chose 32226 miRNA-disease association pairs containing 1057 miRNAs and 850 diseases as positive samples in the experiment. Since HMDD does not provide unrelated miRNA-disease association entries, we randomly selected 32226 miRNA-disease pairs as negative samples from all possible miRNA-disease pairs that have removed the positive samples. In fact, the negative sample set thus constructed may contain positive samples that have not been confirmed by the experiment. However, from a statistical point of view, the proportion of negative samples we selected from all possible samples is only 32226÷(850×1057)≈0.0358, and the number of samples with actually interactions as negative sample sets is very small. Ultimately, the dataset used in our experiment contained 64456 samples, of which positive and negative samples accounted for half. On this basis, we constructed the adjacency matrix ADVERTENTIE of miRNA and disease, which consists of 850 rows and 1057 columns, corresponding to 850 diseases and 1057 miRNAs, respectively. When disease NS(l) and miRNA m(J) are verified to be related by the HMDD V3.0 database, the element ADVERTENTIE(NS(l),m(J)) of the adjacency matrix ADVERTENTIE is assigned to 1, otherwise it is assigned to 0. Known human miRNA-disease associations and their names obtatined from HMDD V3.0 database can be seen in S1–S3 Tables.

Disease semantic similarity

The disease semantic similarity information we use comes from the MeSH database, which can be downloaded from the National Library of Medicine database at https://www.nlm.nih.gov/. The MeSH database gives a rigorous disease classification system of diseases, which provides great help for the study of disease semantic similarity [30]. In the system, the relationship among diseases is described as the Directed Acyclic Graph (DAG), where node represents disease and edge represents their relationship [31]. If the disease NS(l) is related to the disease NS(J), use the edge to connect them, indicating that the child node NS(l) comes from the parent node NS(J). Thus, disease NS(l) can be described as DAGNS(l) = (NS(l),NNS(l),ENS(l)), waar NNS(l) is the ancestor node set of NS(l) including NS(l), and ENS(l) is the edge set containing the corresponding edges. We define the contribution of disease s in DAGNS(l) to the semantic value of disease NS(l) as follows: (1) Where ε is the semantic contribution factor linking disease s and its child disease s′. In the DAG of disease NS(l), the contribution value of disease NS(l) to its own semantic value is defined as 1. Therefore, we can get the semantic value DV(NS(l)) of disease NS(l), and its formula is as follows: (2)

Here, we assume that diseases sharing more parts of their DAGs will have higher semantic similarity. By considering the relative position of disease NS(l) and disease NS(J) in the MeSH disease DAG, the semantic similarity value SV1(NS(l),NS(J)) between them can be calculated, and the formula is as follows.

In de SV1 model, we mainly consider the relationship between the layers of disease in DAG graph, that is, the contribution of different diseases in the same layer to the semantic value is the same. However, we observed that the number of different diseases appearing in the DAGs is different, and the contribution of disease less appearing in the DAGs should be higher than that of disease more appearing in the DAGs. Therefore, in order to distinguish this situation, we introduce the second calculation model [32] of contribution value of disease s, the formula is as follows: (4) where num(DAGs(s)) indicates the number of DAGs containing disease s, and num(diseases) indicates the number of all diseases. Thus, the second model of semantic similarity value SV2(NS(l),NS(J)) of disease NS(l) and disease NS(J) is obtained, and the formula is as follows: (5) where the value of DV(NS(l)) and DV(NS(J)) are the same as model 1, which can be calculated using formula 2. The diseases used in disease similarity model 1 and model 2 are from the MeSH database, which accounts for only a part of the diseases we use. Therefore, the remaining disease similarity scores are calculated using Gaussian interaction profile kernel similarity.

MiRNA functional similarity

Under the hypothesis that functionally similar miRNAs are more likely to be associated with phenotypically similar diseases, Wang et al. proposed a functional similarity model to calculate the functional similarity between different miRNAs [31], and placing its functional similarity score matrix at http://www.cuilab.cn/files/images/cuilab/misim.zip. In this article, we download it as the miRNA function similarity information. But similar to the case of the disease similarity model, the miRNAs provided in this matrix contains barely a portion of the miRNAs we use. Therefore, we combine it with Gaussian interaction profile kernel similarity to form a complete miRNA similarity matrix. The constructed miRNA functional similarity score matrix can be seen in S4 Table.

Gaussian interaction profile kernel similarity

Since the HMDD V3.0 dataset provides a greater number of diseases and miRNAs than the disease and the miRNA similarity models described above, we describe the remaining disease and miRNA similarity information using Gaussian interaction profile kernel similarity [33]. The calculation of Gaussian interaction profile kernel similarity for diseases is based on the hypothesis that similar diseases tend to be functionally similar miRNA, and vice versa. By observing whether disease NS(l) is associated with each of the 1057 miRNAs we have compiled from the HMDD V3.0 dataset, we defined binary vector V(NS(l)) to represent the interaction profiles of disease NS(l). Here, the binary vector V(NS(l)) is the row vector of the adjacency matrix ADVERTENTIE in which the disease NS(l) is located. Gaussian interaction profile kernel similarity for diseases GD(NS(l),NS(J)) between disease NS(l) and disease NS(J) can be calculated as follows: (6) where θNS is the width parameter of the function, which can be calculated by normalizing the original parameters. The formula is as follows: (7) where m is the number of rows of the adjacency matrix ADVERTENTIE.

Similarly, Gaussian interaction profile kernel similarity for miRNA GR(R(l),R(J)) between miRNA R(l) and miRNA R(J) can be calculated as follows: (8) (9) where the binary vector V(R(l)) is the column vector of the adjacency matrix ADVERTENTIE in which the miRNA R(l) is located, N is the number of columns of the adjacency matrix ADVERTENTIE.

Numerical representation of miRNA sequences

The sequence of miRNA contains abundant information. In order to describe the characteristics of miRNA more comprehensively, we transform them into numerical vectors and fuse them with the above similarity vectors to form the final descriptors. The usual approach to convert miRNA sequences into numerical vectors is to use k-mers [34], which refers to the length of a subsequence of k. Given a miRNA sequence of length ik, the number of possible k-mers is ikk+1. For example, 6-mers sequence of miRNA can be represented as AAAAAA,AAAAAC,…,UUUUUU. However, this approach does not take into account the difference between the two k-mers because it treats the distance between any two k-mers as equal. But the difference between AAAAAA en UUUUUU is significantly larger than between AAAAAA en AAAAAC. Therefore, we introduce natural language processing technology to solve this problem [35–38]. It can not only transform the original high-dimensional data into low-dimensional continuous real-valued vector, but also learn its effective representation from miRNA sequences in an unsupervised manner.

In this study, we use skip-gram in natural language processing's Word2vec algorithm to learn the distributed representation of miRNA for k-mers, which is a shallow two-layer neural network and represents an item by considering its context information from the nearby items. Given a sequence of words met wie1,met wie2,…,met wieN, skip-gram uses the co-occurrence information of words in the context window to learn the word representation, and look for the parameter set θ to maximize the product of the following conditional probabilities. (10) where t is the text set met wie is a word C is a word in the context C(met wie) is the set of words contained in the context in which the word met wie appears in the text set t P is a conditional probability, which is defined as follows: (11) where vC and vmet wie are the column vectors of C en met wie, respectively C is the set of words in all contexts, which is equivalent to vocabulary v and parameter θ is the specific value of each dimension in vC en vmet wie. In experiments, we use 6-mers to transform miRNA sequences, which ultimately get 4 6 = 4096 6-mers. Taking the AAGUCGUACGAU sequence as an example, 6-mers can convert it to . After obtaining the 6-mers of all miRNAs in the HMDD V3.0 dataset, we trained the skip-gram word2vec algorithm using all the miRNAs downloaded from the public database miRBase as training sets. In the implementation of the algorithm, we use the following parameters: the minimum number of occurrences of the training words "min_count" is set to 5, the maximum distance of the word vector context "window" is set to 5, the dimension size of the word vector "size" is set to 64, the maximum number of iterations in the stochastic gradient descent method "iter" is set to 10, and the other parameters are set to default values.

Multi-source feature fusion

In this study, we ultimately used descriptors that fused multiple sources of data including disease similarity, miRNA similarity and miRNA sequence to predict the miRNA-disease association. The advantage is that it can reflect the characteristics of diseases and miRNAs from different perspectives, help to deeply dig out the potential relationship among miRNAs and diseases, and improve the performance of model prediction.

For the similarity of diseases, we construct disease semantic similarity model SV1, disease semantic similarity model SV2 and disease Gaussian interaction profile kernel similarity GD. The disease similarity matrix DSim(NS(l),NS(J)) between disease NS(l) en NS(J) can be obtained by integrating the above disease similarities. The formula is as follows: (12)

For the similarity of miRNA, we combined miRNA functional similarity RF and miRNA Gaussian interaction profile kernel similarity GR to form miRNA similarity matrix RSim. The miRNA similarity matrix RSim(R(l),R(J)) formula for miRNA R(l) and miRNA R(J) is as follows: (13)

For the final feature vector FV, we need to integrate the sequence information of miRNA RSeq. The feature vector FV(NS(l),R(J)) formed by diseases NS(l) and miRNA R(J) can be described in the following formula: (14) where DSim(NS(l)) represents the l row vector of disease NS(l) in the disease similarity matrix DSim RSim(R(J)) represents the J column vector of miRNA R(J) in the miRNA similarity matrix RSim RSeq(R(J)) represents the J row vector of miRNA R(J) in the miRNA sequence matrix RSeq.

Logistic model trees classifier

In this study, we use the Logical Model Tree (LMT) as a classifier to predict the associations among miRNAs and diseases. The basic idea of LMT originates from the combination of two complementary classification schemes: linear logistic regression and tree induction [39, 40]. It uses the LogitBoost algorithm to establish the logistic regression function on the node of the tree, and uses the CART algorithm to prune. Specifically, LMT first constructs a basic "weak classifier" based on the existing sample dataset, and calls the "weak classifier" repeatedly. By giving more weight to the wrong samples in each round, it will pay more attention to the samples that are hard to judge. Then, after several rounds of cycles, the "weak classifiers" of each round are combined into the "strong classifier" by weighting method, thereby obtaining a higher precision prediction model. Finally, the tree grown in the training set is pruned using the CART algorithm to obtain the final classification model.


Conclusies

MiSolRNA database allows the simple extraction of metadata favoring the proposal of new hypotheses about possible roles of miRNAs in the regulation of tomato fruit metabolism. It allows i) the mapping of miRNAs and their predicted target sites both on expressed (SGN-UNIGENES) and newly annotated sequences (BAC sequences released), ii) the co-location of any predicted miRNA-target interaction with metabolic QTL found in tomato fruits, iii) the retrieval of expression data of target genes in tomato fruit across development and iv) the design of further experiments aimed at addressing unresolved questions in complex trait biology. In summary, miSolRNA together with the previously released Tomato small RNAs database (http://ted.bti.cornell.edu/cgi-bin/TFGD/sRNA/home.cgi[43]), provides an insight into putative miRNA target sites within specific regions of the tomato genome and ultimately of individual genes. It also displays how these putative target genes are expressed in fruits and the co-location of these target sites with QTL for fruit metabolism. These relations provide a stepping stone for new hypotheses based on robust genetic, structural genomic, mRNA expression and metabolite profiling data.

MiSolRNA will be updated as the tomato genome sequencing project proceeds and novel sRNAs discovered. Updates will be announced in an associated RSS feed. MiSolRNA is intended as a resource to integrate information on tomato (and other Solanaceae plant species) metabolism and its regulation by miRNAs. Different experimental approaches already in progress in our laboratories at the Instituto de Biotecnología and at the Max-Planck-Institute of Molecular Plant Physiology will be made available through this database. Given that the in-depth analysis and understanding of metabolic regulation at the systems level will require a multidisciplinary effort, we open the database as an informative public resource for researchers focusing on experimental biology and bioinformatics. Wet experiments are under progress and they will ultimately confirm relationships suggested here such as those presented in Figure 3.


Bekijk de video: Detik-detik Mirna Minum Es Kopi Vietnam (Januari- 2022).