Informatie

Relatieve microRNA-vergelijking uit TCGA-gegevens?


Ik heb een conceptuele vraag waarvan ik hoopte dat iemand die zou kunnen beantwoorden.

Kan ik zeggen dat microRNA A x-voudig groter wordt uitgedrukt dan microRNA B rechtstreeks uit de TCGA miRseq-gegevens? Kan ik dit doen nadat ik de gegevens heb genormaliseerd? Maakt het uit of ik RSEM- of RPKM-waarden gebruik. Het lijkt mij dat het in ieder geval legitiem zou moeten zijn, aangezien microRNA's ongeveer even lang zijn, maar misschien zie ik iets over het hoofd.

Ik volg bijvoorbeeld een paper gepubliceerd in Nature Communications getiteld "Identification of a pan-cancer oncogenic microRNA superfamily verankerd door een centraal kernzaadmotief". De auteurs downloaden de gegevens en vouwen isoform-lezingen samen tot een enkele leestelling met behulp van de reads. Ze zeggen dat ze de uitlezingen per miljoen in kaart gebrachte microRNA's hebben gebruikt, wat het aantal gelezen microRNA's vaststelt als een fractie van de totale microRNA-populatie. De auteurs voeren vervolgens normalisatie van het bovenste kwartiel uit, wat volgens hen belangrijk is omdat een subset van microRNA's (met name miR-143) zo aanzienlijk bijdraagt ​​​​aan het totale aantal gelezen. In de tekst lijken de auteurs de resulterende waarden te gebruiken om een ​​directe vergelijking tussen microRNA's te maken.

Ik wil absoluut de samengevouwen isovormen, en ik denk dat het logisch is om de normalisatie uit te voeren. Ik zou echter willen zeggen dat een bepaald microRNA x-voudig hoger tot expressie wordt gebracht dan een ander. Kan ik dit doen vanuit de samengevouwen en genormaliseerde gegevens?

Mocht dit al beantwoord zijn, mijn excuses. Ik kon het niet vinden. Bedankt.


Ik zou heel voorzichtig zijn bij het maken van een dergelijke claim op basis van sequentiegegevens. Er zijn bekende vooroordelen in sequencing vanwege zaken als GC-samenstelling en hexameersamenstelling. Hierdoor is het mogelijk om relatieve niveaus van sommige soorten tussen behandelingen te vergelijken, maar lastig om dit te doen binnen een bepaald monster of monsters. Een manier om dit te omzeilen is om qPCR uit te voeren met behulp van absolute kwantificering op een paar monsters en dat vervolgens te vergelijken met sequencing-resultaten. Toegegeven, je zult niet dezelfde samples hebben als TCGA of exact identieke bibliotheekvoorbereiding, maar het zal een redelijk startpunt zijn. U kunt dat vervolgens gebruiken om te kalibreren hoe betrouwbaar de relatieve niveaus binnen de TCGA-gegevensset kunnen zijn.


Kleine RNA-sequencing is goed voor een voorlopige screening omdat, zoals bij de meeste experimenten met hoge doorvoer, de steekproefomvang kleiner is en daarom zijn vergelijkingen tussen monsters mogelijk niet nauwkeurig.

Voor de berekening van miRNA-expressie gebruik ik het quantifier-script van mirdeep2 met een kleine wijziging. Het script lijnt in feite de uitlezingen uit met bekende pre-miRNA's en vindt of ze zijn uitgelijnd met het geannoteerde volwassen miRNA-gebied (een venster van gedeeltelijke toewijzing in niet-volwassen gebied is toegestaan ​​en kan ook op nul worden ingesteld). Het gebruikt vlinderdas voor uitlijning. Wat ik over het algemeen doe is, in plaats van vlinderdas in de-vmodus (zoals ingesteld in mirdeep), ik voer het uit in de-Nuitlijningsmodus door een kleine wijziging in het script aan te brengen. De-Nmodus kunt u een definiëren zaad regio, en het aantal mismatches in zaad- en niet-zaadregio's. Ik heb de zaadlengte ingesteld op:10met0zaadmismatches en rond2niet-zaadmismatches.

Om reads per million (RPM) te berekenen, normaliseer ik het met het aantal unieke toewijzingen aan het genoom, met dezelfde uitlijningsparameters (behalve--norc). Volgens deze studie is een RPM van 100 biologisch relevant.

Kan ik zeggen dat microRNA A x-voudig groter wordt uitgedrukt dan microRNA B?

Ja, als de gelezen tellingen duidelijk verschillen. EM en andere waarschijnlijkheidsmodellen berekenen een betrouwbaarheidsinterval voor gelezen tellingen of RP(K)M en als twee RNA's geen overlappende intervallen hebben, kunnen ze worden uitgedrukt in verschillende niveaus. Ik heb echter geen waarschijnlijkheidsmodellen voor miRNA's gebruikt, maar ik denk dat het goed is omdat:

  1. De zoekruimte is sterk verminderd.
  2. Zoeken is streng.
  3. Isovormen zijn samengevouwen.

Dit elimineert effectief de mogelijkheid van dubieuze reads. U kunt een RPM-verschil van 100 instellen om twee miRNA's als differentieel uitgedrukt te noemen, aangezien 100 de ondergrens van biologische significantie is (zoals eerder vermeld). De meeste relevante miRNA's hebben vergelijkbare GC-inhoud; dus er is misschien niet zo'n grote sequencing-bias (bovendien is de read zelf vrij klein).


Bekijk de video: Survival Analysis on Cancer data. RStudio Tutorial (Januari- 2022).