Informatie

Hoe twee RNA-transcripten te vergelijken?


In dit artikel wordt het cuffcompare RNA-pakket vermeld:

Vanwege de stochastische aard van sequencing, kan assemblage van hetzelfde transcript in twee verschillende monsters resulteren in transfrags van enigszins verschillende lengtes. Een transfragment van manchetknopen werd als een volledige match beschouwd als er een transcript was met een identieke keten van introns in de gecombineerde annotatie.

Wat betekent dit in termen van het vergelijken van twee transcripties om te zien of ze hetzelfde zijn? Betekent dit dat twee transcripten als gelijk worden beschouwd als ze dezelfde introns hebben, zelfs als er enkele exons ontbreken in een van de transcripten? Wat bedoelen ze met transfrag? Is er een voorbeeld?


Als er enkele exons ontbreken in een van de monsters, dan zullen de introns per definitie anders zijn. Dit zorgt ervoor dat de grenzen van de buitenste exons een beetje variëren. Dit is vooral handig voor exon 1, die vaak een lagere dekking heeft.


Tellingen versus FPKM's in RNA-seq

Meestal is de reden waarom mensen RNA-seq uitvoeren, het kwantificeren van genexpressieniveaus. In theorie is RNA-seq gegevens op verhoudingsniveau, en u zou in staat moeten zijn om gen A in monster 1 versus monster 2 en gen A vs. gen B in monster 1 te vergelijken.

Er zijn twee manieren om de expressie van een gen, of transcript, of wat dan ook, in RNA-seq-gegevens te meten:

  1. telt zijn gewoon het aantal uitlezingen dat een bepaald kenmerk, zoals een gen, overlapt.
  2. FPKM's of Fragmenten per K ilobase van exon per miljoen aflezingen zijn veel gecompliceerder. Fragment betekent fragment van DNA, dus de twee reads die een gepaarde-end read vormen, tellen als één. Per kilobase van exon betekent dat de tellingen van fragmenten vervolgens worden genormaliseerd door te delen door de totale lengte van alle exons in het gen (of transcript). Dit beetje magie maakt het mogelijk om gen A met gen B te vergelijken, zelfs als ze van verschillende lengte zijn. Per miljoen gelezen betekent dat deze waarde vervolgens wordt genormaliseerd ten opzichte van de bibliotheekgrootte. Dit beetje magie maakt het mogelijk om Gene A in Sample 1 te vergelijken met Sample 2, zelfs als de RNA-seq-bibliotheek van Sample 1 60 miljoen paar reads heeft en de bibliotheek van Sample 2 slechts 30 miljoen reads heeft.

(In feite, zoals dit bericht zal laten zien, zijn er meer verschillen tussen de twee methoden dan alleen deze - ik kom hier in de conclusie op terug.)

Naar mijn mening lijkt normaliseren op exonische lengte en bibliotheekgrootte een goed idee, dus ik gebruik FPKM's en had nooit begrepen waarom iemand tellingen zou gebruiken. Maar als je je analyse echt wilt verdedigen, moet je elke vraag kunnen beantwoorden met 'Ja, dat heb ik geprobeerd en dit is wat ik heb gevonden', en dus wilde ik mijn analyse herhalen met tellingen. Ondertussen vertelde een collega die zich bezighoudt met tellingen me dat FPKM's te veel normalisatie toepassen, waardoor een deel van het verschil tussen het ene monster en het andere wordt verdoezeld. Waarom zou dat het geval zijn? Ik besloot dat zolang ik mijn analyses met tellingen zou herhalen, ik net zo goed een vergelijking met FPKM's naast elkaar kon doen om echt te begrijpen hoe het gedrag verschilt.

Om de twee te vergelijken, wendde ik me tot mijn go-to RNA-seq-dataset: Human BodyMap 2.0. Voor deze oefening zal ik alleen naar bekende transcripties kijken.

hoe FPKM's te berekenen

hoe tellingen te berekenen

Je kunt tellingen berekenen met bedtools multicov, maar je hebt een transcriptie-annotatiebestand in BED-formaat nodig om bedtools te vertellen waar ze moeten zoeken. Om de tellingen direct vergelijkbaar te maken met de FPKM's die ik eerder heb berekend, wilde ik hetzelfde transcriptannotatiebestand gebruiken en het converteren van GTF naar BED-formaat.

Meteen wordt het ingewikkeld. Ik merkte op dat het originele transcriptie-annotatiebestand één rij heeft per elke combinatie van één transcript met een exon of coderende sequentie of start- of stopcodon. Denk aan PRNP, dat maar twee exons heeft (exon 1 is de 5'8242 UTR en exon 2 is de coderende sequentie en 3'8242UTR) en eigenlijk maar één transcript - ik ken geen grote splitsingsvariaties. Het heeft 18 rijen in dit bestand.

Dat komt omdat 4 verschillende versies van PRNP op de een of andere manier als afzonderlijke transcripten in de database van Ensembl zijn terechtgekomen.

Hoe dan ook, als het zo slecht is voor PRNP, kun je je voorstellen hoeveel rijen er zijn voor genen die legitiem veel splitsingsvarianten hebben:

Dit stelt ons voor een probleem. Als we nu gezocht telt voor elk mogelijk exon, kunnen we gewoon de gtf2bed-tool in bedops gebruiken die dat originele GTF-bestand regel voor regel naar een BED-bestand zal converteren:

5 mins). Maar waarschijnlijker zijn onze analyse-eenheden transcripties of gensymbolen. Als we tellingen zouden doen op exon en dan groeperen op transcript of gensymbool en de som van de exon-tellingen zouden nemen, zouden we elk exon in PRNP verviervoudigen en elk exon in TTN veel vaker tellen dan dat! Wat we nodig hebben, is het GTF-bestand converteren naar één rij per bijvoorbeeld gensymbool, als het gensymbool onze analyse-eenheid is.

Het blijkt dat de ea-utils van Erik Aronesty een Perl-script bevat om precies dat te doen. Het heet gtf2bed, net als de bedops-tool hierboven, dus voor de duidelijkheid heb ik het hernoemd tot gtf2bed_2.pl . Om het te downloaden en uit te voeren:

1 minuut. (Waarschuwing: als je dit bericht als een pijplijn gebruikt, houd er dan rekening mee dat het gebruik van het resulterende BED-bestand zonder wijziging zeer onzinnige resultaten kan opleveren voor genen die op meerdere loci worden vermeld. Zie de bespreking van SNORD60 verderop in dit bericht).

Als u het resulterende bedbestand opent, ziet u dat de eerste drie kolommen eenvoudigweg het chromosoom zijn, de (vroegste) transcriptie-startplaats en (laatste) transcriptie-eindplaats voor het gen '8211 of met andere woorden, de vereniging van alle getranscribeerde plaatsen in dat gen over alle mogelijke transcripten.

Nu neemt gtf2bed_2.pl een zeer correct BED12-formaat in acht en daarom: doet bewaar de exon-structuurinformatie in de vorm van de kolommen blockSizes en blockStarts. Maar multicov leest niets anders dan de eerste drie kolommen. Dus als je telt op dit bestand dat we zojuist hebben gemaakt, tel je zowel introns als exons. Voor zover ik kan zien door rond te vragen, is dit hoe iedereen zijn RNA-seq-tellingen doet.

Vergelijk dit met FPKM's, waar manchetknopen alleen exonic-reads tellen en de totale exon-lengte van een gen normaliseren (of transcript'8217s), als je dat doet telt (althans volgens deze pijplijn / tenzij je andere, mooiere dingen doet) u neemt intronic-lezingen op. Tellingen zullen dus, in tegenstelling tot FPKM's, worden beïnvloed door de hoeveelheid pre-mRNA-besmetting (en dus intronische dekking) die u in uw bibliotheken heeft.

Dat gezegd hebbende, heb ik vervolgens multicov uitgevoerd, zoals:

Dat kostte ongeveer 50 uur CPU-tijd.

Trouwens, het genereren van de lijst met BAM-bestanden voor deze opdracht is vervelend deze keer dat ik het deed met echo -n :

Het resulterende bestand zal het originele 12-koloms bedbestand hebben dat is gemaakt door gtf2bed_2.pl plus, in dit geval, 16 extra kolommen voor elk van de 16 BAM's die ik heb aangeroepen voor het gebruik van multicov.

een paar covariaten

Omdat FPKM's in theorie gewoon tellingen zijn die zijn genormaliseerd door bibliotheekgrootte en transcriptgrootte, dacht ik dat ik die twee waarden ook bij de hand moest hebben voor deze analyse. Ik heb de bibliotheekgrootte berekend als het aantal leesbewerkingen in elke BAM met samtools view -c :

Wat verrassend lang duurt (

30 min/BAM), vandaar de noodzaak om elk als een taak in te dienen.

De andere covariabele die ik wilde was de lengte van elk gen. Maar die lengte, vraag je? Met behulp van het BED-bestand dat ik zojuist heb gemaakt, is het gemakkelijk om de lengte van de vroegste transcriptie-startsite tot de laatst mogelijke transcriptie-eindsite te krijgen:

Als je de exonische lengte wilt, is dat iets lastiger. Het is duidelijk dat Cufflinks deze informatie in een of andere vorm kent omdat het wordt gebruikt voor normalisatie, dus ik keek terug naar het isoforms.fpkm_tracking-bestand van Cufflinks en zag dat het inderdaad een lengtewaarde heeft voor elk transcript. Dat kun je er zo uithalen:

Maar genes.fpkm_tracking heeft dit niet voor genen, vermoedelijk omdat het lastig is om één lengte als “the” lengte te kiezen voor een gen met meerdere transcripten. Met wat liefhebber scripting en samenvoeging van bedtools, zou je de lengte van de unie van alle mogelijke exons in een gen kunnen krijgen, een soort van analoog aan het gene.lengths.txt-bestand dat we zojuist hebben gemaakt, wat de lengte is van de unie van alle mogelijke transcripties. Maar dat heb ik niet per se nodig voor vandaag.

Omwille van het argument heb ik ook de gemiddelde lengte berekend voor elk gensymbool, hoe ruw dat ook is. Eerst pakte ik gensymbolen en lengte in bash:

en dan gewoon wat SQL verpakt in R:

Met de tellingen, FPKM's en covariaten in de hand probeerde ik te begrijpen hoe en waarom deze maatregelen van elkaar verschilden.

Eerst de saaie setup-dingen:

Meest fundamentele vraag: zijn tellingen en FPKM's gecorreleerd? Ik zou het zeker hopen! We kunnen dit op een paar manieren vragen. Laten we eerst deze vraag stellen aan alle weefselcombinaties van het gensymbool.

Dit is raar. In de lineaire ruimte (Pearson's 8217s-correlatie) zijn de tellingen en FPKM's significant maar nauwelijks gecorreleerd, met rho = .006. In rangruimte (de correlatie van Spearman's8217) zijn ze vrij sterk gecorreleerd, rho = 0,81. Wat kunnen deze gegevens mogelijk maken? kijk Leuk vinden?

Dit is zo extreem: in deze visie lijken er in principe twee soorten genen te zijn: die met enkele tellingen maar

0 FPKM's, en die met enkele FPKM's maar

0 telt. Verbazingwekkend dat we überhaupt enige correlatie zagen.

Dit is zelfs waar als we de gemiddelde waarde voor elk gen nemen over de meerdere weefsels die hier worden beschouwd:

De twee meest extreme uitschieters waren IGHJ6 en SNORD60, dus die heb ik afzonderlijk opgezocht.

IGHJ6 is slechts 61 bp lang, bij chr14:106.329.408-106.329.468, dus het is geen wonder dat het lage aantallen maar hoge FPKM's kan hebben. SNORD60 daarentegen is ook een kort gen, een snoRNA van slechts 83 bp bij chr16:2.205,024-2.205,106. Dus wat is de deal van SNORD60's 8242?

Eerst keek ik naar de ruwe data:

13-21 miljoen leest, maar nul FPKM's in veel weefsels. Het duurde niet lang om de oorzaak van het probleem te vinden: in het BED-bestand dat ik gebruikte om tellingen te maken, is SNORD60 204 Mb lang:

Wat blijkt te zijn omdat het in het originele GTF-bestand wordt vermeld met drie exons in totaal verschillende genomische loci.

Dus toen ik gtf2bed_2.pl uitvoerde om deze GTF naar een BED-bestand te converteren, koos het gewoon de laagste startbasis en hoogste eindbasis als de eindpunten van een transcript.

Het bleek verrassend moeilijk om een ​​manier te vinden om dergelijke gevallen eruit te filteren. Het histogram van genlengtes in mijn BED-bestand is net zo extreem als de grafieken eerder:

Op zoek naar een afkappunt om de genen uit te filteren waarvan de lengte duidelijk een fout is, googelde ik '8220langste menselijke gen'8221 en vond DMD, dat bijna 2,3 MB meet. Het histogram van genen ≤ 2.3Mb ziet er iets beter uit dan het eerste histogram:

Dit ligt dichter bij de exponentiële verdeling die ik zou verwachten, hoewel ik vermoed dat er ook nog enkele foutief lange genen in deze verdeling zitten.

Als deze subset, van genen < 2,3 MB, rationeler is en op zijn minst enkele van de meest buitensporige fouten heeft geëlimineerd, had ik gehoopt dat het mogelijk zou zijn om veel van de variabiliteit in tellingen versus FPKM's binnen deze subset te verklaren:

Maar nee, lineair model van FPKM's

counts geeft een R^2 van slechts .008. Het opnemen van genlengte in het model hielp niet:

En het expliciet delen van tellingen door genlengte hielp maar een klein beetje, waardoor we een R ^ 2 van .016 bereikten:

Deze dataset bevat 52.686 Ensembl-gensymbolen, dus ik vroeg me af of de gegevens zich misschien beter zouden gedragen als we alleen de 23.705 hg19 RefSeq-genen in ogenschouw zouden nemen. Dit hielp maar een klein beetje, waardoor we een R ^ 2 van .026 bereikten:

En toen ik terugging naar alle gen-weefselcombinaties met deze beperktere dataset, kreeg ik uiteindelijk een rho van .26 voor een Pearson's8217s-correlatie en een .83 voor Spearman's8217s.

Dit is nog steeds niet zo'n strakke correlatie als ik had gehoopt, aangezien deze twee metingen in grote lijnen hetzelfde moeten meten: -genexpressie - in exact dezelfde dataset. Ter vergelijking: als ik mijn standaard QC-pijplijn voor genexpressie op RNA-seq-gegevens voor verschillende monsters laat lopen, maar dezelfde pijplijn gebruik, vind ik vaak een Pearson's8217s-correlatie tussen monsters van 0,85 of beter. Terwijl ik hier, voor dezelfde gegevens die met twee verschillende pijplijnen worden aangeroepen, een Pearson's8217s krijg van slechts 0,26. Dit is misschien weer een ongelukkige herinnering aan hoe onreproduceerbaar genexpressiebevindingen kunnen zijn. De gebruikte technologieën (inclusief de verschillende bio-informatica-pijplijnen) introduceren meer variabiliteit dan aanwezig is in de onderliggende monsters zelf.

Ik dacht dat een mogelijke verklaring het verschil zou kunnen zijn tussen exonische lengte en totale genlengte. Hier worden tellingen beoordeeld over de totale genlengte en ik heb ze vervolgens gedeeld door de totale genlengte, terwijl FPKM's worden beoordeeld over exons en genormaliseerd door exonische lengte. Binnen deze relatief goed opgevoede set genen ≤ 2,3 Mb en in RefSeq is de correlatie tussen totale lengte en exonische lengte nog steeds slechts 0,19 in lineaire ruimte en 0,49 in rangorde:

Wat suggereert dat op zijn minst een deel van het probleem hier is dat tellingen, waaronder exons en introns, iets heel anders meten dan FPKM's, die alleen exons bevatten.

Het lijkt er dus op dat deze twee statistieken gewoon iets anders meten en verschillende antwoorden krijgen (zoals blijkt uit de lage correlatie tussen beide). Dat suggereert dat hoogstens één van de twee methoden – telt en FPKM's – geschikt is om gen A met gen B te vergelijken. Tenminste, op verhoudingsniveau tenminste. Aangezien de correlatie van Spearman's8217 sterker is, zouden beide in orde kunnen zijn voor analyses op ordinaal niveau.

Dat is gewoon het vergelijken van gen A met gen B. Maar vaak is het antwoord dat we zoeken in onze analyses om genen te vinden waarvan het expressieniveau correleert met een variabele van belang, bijvoorbeeld een genotype, medicamenteuze behandeling of tijdstip. Dergelijke resultaten zijn alleen reproduceerbaar tussen tellingen en FPKM's in de mate dat tellingen en FPKM's voor elk afzonderlijk gen over monsters zijn gecorreleerd. In dit geval zijn onze '8220samples'8221 de 16 verschillende weefsels in Human BodyMap 2.0. Om te beoordelen hoe reproduceerbaar het niveau van elk gen is in verschillende weefsels, heb ik eerst een 'vulkaanplot' gemaakt van de correlaties van Pearson:

De resultaten zijn veel beter dan ik had verwacht:

Pearson's correlatie % genen
positief (p < .05) 83%
geen (p > .05) 6%
negatief (p < .05) 0.01%
n.v.t.* 11%

*De NA-waarden zijn het resultaat van rijen waarin ofwel alle weefsels 0 tellingen hadden ofwel alle 0 FPKM's hadden, waardoor de correlatietest mislukte.

Verrassend genoeg waren de resultaten, toen ik dit opnieuw uitvoerde met Spearman's8217s, vrijwel identiek (alle getallen in de bovenstaande tabel waren binnen een fractie van een procent).

Dus voor de meeste genen is het verschil tussen de expressieniveaus van dat gen in verschillende monsters tenminste nominaal reproduceerbaar tussen de twee meetwaarden die hier worden beschouwd: tellingen en FPKM's. Ik aarzel echter om te veel belang toe te kennen aan deze bevinding, omdat wat ik hier gebruik als mijn voorbeelddataset, uitdrukking is over verschillende weefsels, in tegenstelling tot verschillende individuen. Verschillen in genexpressie tussen weefsels zijn behoorlijk groot en vrij fundamenteel voor de biologie, en ik zou verwachten dat de verschillen tussen individuen veel subtieler zijn. Of dezelfde interindividuele verschillen in tellingen verschijnen als in FPKM's, kan ik in dit voorbeeld niet zeggen.

conclusies

De naam “FPKM” – fragmenten per kilobase van exon per miljoen reads – impliceert dat FPKM een maat is voor genexpressie genormaliseerd door exonische lengte en bibliotheekgrootte, in tegenstelling tot onbewerkte tellingen. In de loop van dit voorbeeld heb ik me echter gerealiseerd dat er verschillende andere verschillen zijn tussen tellingen en FPKM's:

  • Wanneer een lezing meerdere exon-definities of meerdere transcript-definities overlapt, neemt Cufflinks een beslissing over aan welke transcript(en) de lezing moet worden toegewezen wanneer het FPKM's berekent. De berekening van tellingen, althans in de eenvoudige pijplijn die ik hier heb gepresenteerd, is lang niet zo geavanceerd.
  • Als gevolg daarvan worden tellingen normaal gesproken alleen beoordeeld op gensymbool. Als ze door transcript werden beoordeeld, zouden veel reads dubbel worden geteld (of zelfs tientallen keren), omdat veel genen een veelvoud aan transcripten hebben. Ter vergelijking: er zijn relatief weinig genomische loci waar twee verschillende genen elkaar overlappen.
  • FPKM's tellen alleen exonische uitlijningen, tellingen (tenminste deze pijplijn) omvatten introns. De totale lengte van een gen (inclusief introns) is slechts bescheiden gecorreleerd met zijn exonische lengte (rho = 0,19), dus dit maakt een groot verschil.
  • Telling-genererende pijplijnen zijn over het algemeen niet in staat om transcripten te ontdekken. In plaats daarvan moet je ze een lijst met genomische loci geven met bekende genen (met FPKM's is dit optioneel). Het is belangrijk om voorzichtig te zijn dat het samenvoegen van transcripten in één rij per gen geen onzinnige resultaten oplevert zoals we hierboven zagen voor SNORD60.

Al deze verschillen lijken bij te dragen aan de verklaring waarom de FPKM's en tellingen die ik hier heb genoemd – op exact dezelfde dataset – zo weinig correlatie met elkaar hebben (R^2 < .01 zelfs na het verwijderen van uitschieters van genlengte ). Desondanks zijn de FPKM's en tellingen voor elk gen kan iets meer reproduceerbaar zijn, hoewel deze analyse rekening hield met verschillende weefsels (die enorme verschillen in genexpressie hebben) en niet verschillende individuen (die subtiele verschillen in genexpressie hebben).

Aangezien tellingen en FPKM's behoorlijk verschillende dingen lijken te meten, staat het ter discussie wat de meer geldige meting is. Ik zal mezelf daar neerzetten en een beetje pleiten voor FPKM's. mRNA-seq-bibliotheken zijn verrijkt voor mRNA's, meestal door polyA-selectie, waardoor hopelijk de meeste intronische dekking wordt geëlimineerd. Aangezien je een laboratoriummethode gebruikt om alleen mRNA's te krijgen, moet je pijplijn daarmee overeenkomen en alleen exons tellen. Het is duidelijk dat FPKM's ook een meer geavanceerde methode vertegenwoordigen, waarbij reads worden toegewezen aan bepaalde transcripten en normalisatie voor exonische lengte en bibliotheekgrootte, allemaal goede dingen. Ik heb niemand dit horen ontkennen. Het argument dat ik voor tellingen heb gehoord, is dat ze een andere meting zijn die meer variabiliteit en meer kracht voor bepaalde dingen kan hebben. Maar niets dat ik hier heb gezien, heeft me ervan overtuigd dat deze extra variabiliteit iets zinnigs weerspiegelt dat je zou willen analyseren.

Dat gezegd hebbende, mijn oorspronkelijke motivatie voor dit bericht: 'Je wilt de analyse altijd in beide richtingen doen, zodat je eventuele vragen kunt beantwoorden', staat nog steeds.

Over Eric Vallabh Minikel

Eric Vallabh Minikel is op een levenslange zoektocht om prionziekte te voorkomen. Hij is een wetenschapper aan het Broad Institute of MIT en Harvard.


Interacties tussen RNA-polymerase en het kernherkenningselement zijn een bepalende factor voor de selectie van de startplaats van de transcriptie

Tijdens transcriptie-initiatie wikkelt RNA-polymerase (RNAP)-holo-enzym ∼13 bp promotor-DNA af, vormt een RNAP-promotor open complex (RPo) dat een enkelstrengs transcriptiebubbel bevat, en selecteert een matrijs-streng nucleotide om te dienen als de startplaats van de transcriptie (TSS). In RPo maakt het RNAP-kernenzym sequentiespecifieke eiwit-DNA-interacties met het stroomafwaartse deel van de niet-sjabloonstreng van de transcriptiebel ("kernherkenningselement", CRE). Hier hebben we onderzocht of sequentiespecifieke RNAP-CRE-interacties de TSS-selectie beïnvloeden. Om dit te doen, hebben we twee op sequencing gebaseerde benaderingen van de volgende generatie gebruikt om het TSS-profiel van WT RNAP te vergelijken met dat van een RNAP-derivaat dat defect is in sequentiespecifieke RNAP-CRE-interacties. Ten eerste hebben we met behulp van massaal systematische transcriptie-uitlezing, MASTER, effecten van RNAP-CRE-interacties op TSS-selectie in vitro en in vivo beoordeeld voor een bibliotheek van 4 (7) (∼ 16.000) consensuspromotors die verschillende TSS-regiosequenties bevatten, en we observeerden dat het TSS-profiel van het RNAP-derivaat defectief in RNAP-CRE-interacties verschilde van dat van WT RNAP, op een manier die correleerde met de aanwezigheid van consensus CRE-sequenties in het TSS-gebied. Ten tweede, met behulp van 5' merodiploïde native-elongating-transcript sequencing, 5' mNET-seq, hebben we de effecten van RNAP-CRE-interacties bij natuurlijke promoters in Escherichia coli beoordeeld, en we hebben 39 promoters geïdentificeerd waarbij RNAP-CRE-interacties de TSS-selectie bepalen. Onze bevindingen stellen vast dat RNAP-CRE-interacties een functionele determinant zijn van TSS-selectie. We stellen voor dat RNAP-CRE-interacties de positie van het stroomafwaartse uiteinde van de transcriptiebel in RPo moduleren, en daardoor de TSS-selectie moduleren, wat gepaard gaat met transcriptiebeluitbreiding of transcriptiebelcontractie (scrunching of antiscrunching).

trefwoorden: RNA-polymerase promotor transcriptie bubble transcriptie initiatie transcriptie startplaats selectie.

Belangenconflict verklaring

De auteurs verklaren geen belangenverstrengeling.

Figuren

Analyse van effecten van sequentiespecifieke...

Analyse van effecten van sequentiespecifieke RNAP-CRE-interacties door MASTER (11). ( EEN )…

Model voor TSS-selectie en…

Model voor TSS-selectie en hypothese voor effecten van RNAP-CRE-interacties op TSS ...

Effecten van het verstoren van RNAP-G CRE…

Effecten van het verstoren van RNAP-G CRE interacties in vitro: analyse door MASTER. ( EEN…

Effecten van het verstoren van RNAP-G CRE…

Effecten van het verstoren van RNAP-G CRE interacties in vitro: analyse door primerverlenging. (…

Effecten van het verstoren van RNAP-G CRE…

Effecten van het verstoren van RNAP-G CRE interacties in vivo: 5′ mNET-seq-analyse van 4 ...

Effecten van het verstoren van RNAP-G CRE…

Effecten van het verstoren van RNAP-G CRE interacties in vivo: 5′ mNET-seq analyse van E.…


2.5 – Transcriptie en vertaling

Een gratis kopie van het DNA wordt in de kern gemaakt om de te vormen mRNA. Dit proces wordt gekatalyseerd door het enzym RNA-polymerase. Om het mRNA te kopiëren, wordt de dubbele DNA-helix afgewikkeld door DNA-helicase, waarbij de waterstofbruggen verbreken tussen de te kopiëren basenparen. Het DNA opent op de transcriptieplaats, of positie van het gen dat gekopieerd moet worden.

De coderende streng, of de zinsstreng, is de sjabloon voor het mRNA. Het mRNA is echter eigenlijk gebouwd tegen de anti-sense streng. Het heeft hetzelfde patroon als de tegenovergestelde streng vanwege de complementaire basenparing.

De vrije nucleotiden paren met de DNA-nucleotiden. Het enige verschil is dat uracil vervangt thymine, bindt aan adenine. Het RNA-polymerase vormt de fosfodiesterbindingen om de ruggengraat van het mRNA-molecuul te maken. Het mRNA maakt dan los en verlaat de kern via de kernporiën in het membraan. Het komt het cytoplasma binnen om te lezen bij de ribosomen. De DNA dubbele helix hervormt.

2.5.3 – Beschrijf de genetische code in termen van codons samengesteld uit drietallen van basen

Elke reeks van drie basen codeert voor één aminozuur, een tripletcode genoemd. Deze groepen van drie heten codons.

Voor elk aminozuur heeft het twee of drie tripletten die ervoor coderen. Andere drielingen fungeren als de ‘begin' of 'stopcodons, die bepalen waar de polypeptidesequentie moet beginnen en eindigen.

Er zijn ook meerdere tripletten die coderen voor deze 'interpunctie'-codons.

2.5.4 – Leg het proces van translatie uit, leidend tot de vorming van polypeptiden

De aminozuren worden geactiveerd door te combineren met tRNA (transfer-RNA) in het cytoplasma. tRNA-moleculen hebben de vorm van een klaverblad. Elk molecuul bindt aan een specifiek aminozuur codon, het andere uiteinde bindt aan het aminozuur. Het andere uiteinde heeft een anticodon, die
is het complementaire codon voor het mRNA. Het tRNA bindt aan het aminozuur, gekatalyseerd door een enzym. Dit proces maakt gebruik van ATP.

Zodra het mRNA-molecuul is getranscribeerd, wordt het naar het ribosoom in het cytoplasma of endoplasmatisch reticulum gestuurd voor vertaling. Het eiwit wordt gevormd uit de polypeptiden, die aan de ribosomen zijn opgebouwd. De ribosomen bewegen langs het mRNA en ‘lezen’ de code, beginnend bij de start codon.

Vanaf hier vinden de tRNA-moleculen, met hun aminozuren, hun complementaire codon op het mRNA. De aminozuren zijn gebonden in de ribosomen om de te vormen polypeptideketens. Het tRNA scheidt zich vervolgens van het aminozuur en het mRNA en wordt teruggestuurd naar het cytoplasma om meer aminozuren te vinden. Dit proces gaat door totdat een stopcodon is bereikt, waarna de polypeptideketen wordt vrijgegeven.

Om voldoende vrije aminozuren voor vertaling te leveren, heterotrofen consumeren ze in het eiwit van hun dieet.

Het eerste codon op het mRNA-molecuul is AUG, het startcodon, dat bindt aan het anti-codon [UAC] op het tRNA-molecuul. Dit tRNA-molecuul draagt ​​de aminozuren Methionine. Codon naar anti-codon binding is anti-parallel.

De gevormde polypeptiden vouwen in hun vorm voor het eiwit als gevolg van verschillende intermoleculaire krachten.

Het proces gaat door totdat het volledige polypeptide is gevormd.

2.5.5 – Bespreek de relatie tussen één gen en één polypeptide

De theorie is dat één gen één polypeptide vormt. Dit is in de meeste gevallen het geval, maar er zijn enkele uitzonderingen:


Transcriptie en translatie zijn twee verschillende stappen van genexpressie. We kunnen het verschil tussen transcriptie en translatie identificeren op basis van verschillende factoren, zoals een sjabloon, grondstof, locatie, product, betrokken enzymen, enz. Transcriptie is in de eerste plaats het proces van het produceren van een mRNA-molecuul uit een DNA-sjabloon van een gen. Aan de andere kant is translatie het proces van het produceren van een aminozuursequentie van een eiwit uit een mRNA-molecuul. Daarom is dit het belangrijkste verschil tussen transcriptie en vertaling.

Bovendien, op basis van de grondstof, is het verschil tussen transcriptie en translatie dat transcriptie vier soorten ribonucleotiden als grondstof vereist, terwijl translatie 20 verschillende aminozuren als grondstof vereist. Evenzo vindt transcriptie plaats in de kern, terwijl translatie plaatsvindt in de ribosomen. Daarom is dit het verschil tussen transcriptie en translatie in relatie tot de locatie van optreden. Meer verschillen tussen transcriptie en vertaling worden weergegeven in de onderstaande infographic.


Het meest voorkomende transcript berekenen uit RNA-Seq-gegevens

vcf2maf gebruikt VEP om varianten te annoteren, en ik geloof dat het het standaard Ensembl-transcript selecteert om voor annotatie te gebruiken. Soms is het transcript dat VEP selecteert niet het transcript waarin ik geïnteresseerd ben, meestal omdat het geselecteerde transcript niet het meest tot expressie gebrachte transcript is in mijn weefsel van interesse (huid). Met vcf2maf kunt u een transcriptieoverschrijvingslijst opgeven, zodat VEP de variant annoteert met behulp van de gespecificeerde transcripties.

Ik heb verschillende huidmonsters gesequenced met bulk RNA-Seq. Ik wil de gemiddelde abundantie voor elk transcript over alle monsters schatten en deze abundanties vervolgens gebruiken om transcripten te rangschikken van meest tot minst overvloedig. Dan zal ik het meest voorkomende transcript gebruiken als het standaard VEP-transcript. Ik ben van plan om zalm of kallisto te gebruiken om de overvloed aan transcripten te kwantificeren. Moet ik TPM of genormaliseerde tellingen gebruiken om de gemiddelde uitdrukking te berekenen?

Mijn eerste gedachte is om genormaliseerde tellingen te gebruiken (gegenereerd door DESeq2 uit onbewerkte tellingen). Zijn er problemen met deze aanpak? GTEx geeft een overvloed aan transcripten weer met een gemiddelde TPM, maar ik dacht dat TPM niet geschikt was om voor meerdere monsters te gebruiken, omdat er geen rekening wordt gehouden met de verschillen tussen de monsters.

Update: ik vergat te vermelden dat ik ook heb geprobeerd TPM-rangen te gebruiken zoals @ATpoint beschrijft. Ik heb niet volledig vergeleken hoe dit zich verhoudt tot transcripten die zijn geïdentificeerd door genormaliseerde tellingen, maar de eerste genen die ik heb gecontroleerd vertoonden een goede overeenstemming tussen de methoden


De verbeterde database met chimere transcripties en RNA-seq-gegevens, ChiTaRS-5.0

De EST's en mRNA's van GenBank zijn gebruikt om chimere RNA's van twee of meer verschillende genen te identificeren. Door honderdduizenden chimere EST's te analyseren door middel van RNA-sequencing, ontdekten we dat het expressieniveau van chimere EST's over het algemeen laag is en dat ze zeer weefselspecifiek zijn in normale cellen.

Hier presenteren we de verbeterde versie van de ChiTaRS-database (ChiTaRS-5.0) met meer dan (66.243 + 41.584 + 3.052 + 19 + 67 + 20 + 292 + 305) = 111,582 chimere transcripties in mensen, muizen, fruitvliegjes, ratten, zebravissen, koeien, varkens, en gist. In de huidige versie hebben we het experimentele gegevensbewijs uitgebreid en een nieuw type van de sense-antisense chimere transcripten van hetzelfde gen opgenomen, experimenteel bevestigd door RT-PCR, qPCR, RNA-sequencing en massa-spec peptiden. Daarnaast verzamelden we 23,167 menselijke kankerbreekpunten met de expressieniveaus van chimere RNA's bevestigd door de gepaarde RNA-sequencing-experimenten in verschillende weefsels bij mensen, muizen en fruitvliegen.

Deze website is geoptimaliseerd voor gebruik met de desktop-webbrowsers Google Chrome, Mozilla Firefox of Opera. Als u een probleem vindt en u gebruikt geen Google Chrome of Mozilla Firefox of Opera, probeer dan Google Chrome of Mozilla Firefox of Opera te gebruiken om te zien of het probleem browserspecifiek lijkt te zijn.


Achtergrond

Druif (Vitis vinifera) is wereldwijd het meest geteelde fruitgewas. Het druivenareaal is ongeveer 7,8 miljoen hectare met een productie van ongeveer 67,5 miljoen ton. De bessen worden voornamelijk onderverdeeld in tafeldruiven (vers) en wijndruiven (wijn), evenals voor verschillende producten met toegevoegde waarde [1]. China is het grootste druivenproducerende land, goed voor 14% van de wereldwijde druivenproductie [2].

Er zijn verschillende ontwikkelings- en metabolische processen die plaatsvinden in de knoppen en twijgen van druivenplanten tijdens de winterperiode. Deze processen omvatten enzymsynthese, ademhaling, celdeling, fotosynthese, productie van groeistimulatoren en neerwaartse regulatie van groeiremmers. Kiemrust is een controlemechanisme dat houtachtige vaste planten in staat stelt om seizoensgebonden omgevingsveranderingen aan te passen en zo de vegetatieve groei en fruitproductie van het volgende seizoen beïnvloedt. Momenteel heeft de opwarming van de aarde een substantiële invloed op de accumulatie van afkoeling in de winter en het vrijkomen van fruitbomen in rusttoestand [3]. Om een ​​duurzame fruitproductie te garanderen, is het noodzakelijk om de onderliggende genetische factoren te onderzoeken die verantwoordelijk zijn voor het beheersen van de kiemrust [4]. Langdurige kiemrust is een belangrijke belemmering voor de grootschalige fruitproductie, inclusief druiven, in warme of milde wintergebieden in gematigde en subtropische klimaten [5, 6]. Er zijn verschillende onderzoeken uitgevoerd om de associatie tussen natuurlijke en chemisch geïnduceerde ED te bepalen, genexpressie te analyseren tijdens lange en korte fotoperioden en het transcriptprofiel van knopontwikkeling en signalering van kiemrustonderbreking in druiven te identificeren [7-10]. Kiemrust wordt over het algemeen ingedeeld in drie hoofdtypen: paradormancy (PD), endodormancy (ED) en ecodormancy (ECD) [11]. PD is de plantengroeisuspensie die wordt geïnitieerd door factoren buiten het meristeem. Het is in wezen het effect van het ene orgaan op het andere en omvat de dominantie van apicale knoppen. ED wordt gereguleerd door interne groeiremmers, zelfs onder gunstige omstandigheden zonder blootstelling aan koude temperatuur gedurende een bepaalde tijd (koelbehoefte), kunnen endodormant-knoppen (EDB's) de groei niet initiëren. Exposure to low temperature (2–9 °C) shifts the ED state of the plant to ECD. ECDBs can break and grow when exposed to suitable growth conditions [12]. When EDB’s chilling requirement are fulfilled, the ED is released. EDBs steadily transition to the ECD state, especially under adverse environmental conditions. Summer buds (SB), which are green in color and small in size and grow on one side of winter buds that have no scales, can be observed after dormancy release during the new growth period and remain active for a short time during the transition from dormancy release to early summer dormancy. Like other perennial deciduous fruit plants, grape undergoes a characteristic dormant period during its growth cycle. In southeast China, grape buds fulfill their chilling requirement in the end of February and blossom in following spring. Inadequate cold accumulation hours during this period lead to irregular flowering, which consequently decreases fruit production.

The investigations have been made on dormancy at physiological as well as molecular levels in different deciduous fruits. MADS-box (DAM) genes associated with dormancy-have been isolated to investigate their expression pattern in some fruit plants during dormancy [12, 13]. Bijvoorbeeld, DAM1 door DAM6 have been identified in peach and Japanese apricot [14, 15], while MADS13-1, MADS13-2, MADS13-3, PpMADS1 en PpMADS2 were found in Japanese pear and Chinese white pear (Suli) [16, 17]. The expression profile of these genes during the induction and release of endodormancy indicated that DAMs serve as dose-dependent inhibitors of bud break [15]. Additionally, several other genes are involved in the complex molecular network regulating dormancy in deciduous plants. Therefore, segregating single gene is not sufficient for illuminating underlying molecular processed associated with bud dormancy [13].

Recently, the next-generation sequencing (NGS) technology has uplifted the transcriptomic by allowing the RNA-sequencing using cDNA libraries on a large scale. RNA-seq is a highly efficient and modern tool that involves deep sequencing technologies to generate millions of short cDNA reads which is considerably more efficient than microarray analysis [18]. In previous studies, RNA-seq was successfully applied to investigate dormancy based on direct sequencing of cDNAs in several woody plants using 454-pyrosequencing technology [19]. Moreover, in another study the transcriptomic analysis revealed the dormancy-related regulatory pathways involving photoperiod, hormones and circadian clocks [20–22]. Although previous studies have investigated the physiological as well as the molecular mechanism of bud dormancy using the transcriptomic approach in deciduous fruits as well as other crops [13, 16, 23], no attempt has yet been made to study grape bud dormancy at the transcriptomic level.

This study was undertaken to investigate underlying molecular processes regulating bud dormancy in grape and to develop robust foundation for molecular research. RNA-seq technology was used to categorize and characterize the expression profile of differentially expressed genes (DEGs) during three different grape bud dormancy stages. This novel transcriptome and transcript expression profiling data generated through RNA-seq will offer an improved understanding of underlying molecular process of bud dormancy and will pave the way to identifying key genes involved in dormancy for the ultimate improvement of table grape industry.


Transcription vs Translation

The difference between transcription and translation is that transcription involves the creation of mRNA from DNA whereas translation does the protein synthesis by using the mRNA strands. In molecular biology, the decoding of DNA into mRNA is done by transcription and the development of proteins by RNA is done by translation is defined as the important and central dogma.

The first step in the gene expression is called Transcriptie where enzyme RNA polymerase copies the genes from the particular segment of the DNA into mRNA (messenger RNA).

DNA bases get bound to the appropriate nucleosides after DNS helix unwinds and then connect to the matching RNA segment of the DNA strand to make a complementary RNA i.e. mRNA.

De vertaling is the second step and happens after transcription where mRNA is converted further into the required proteins. In this, mRNA gets attached to ribosomes and further decoded to specific amino acids that form polypeptide by connecting each other, and then makes the protein.


Compare and contrast the structure and functions of DNA and RNA.

DNA and RNA are both essential components of cells, and thus life. The structure of DNA is similar to that of RNA in that these are both made of nucleotides, which in turn are made of the same basic units: a phosphate group, a pentose sugar, a nitrogenous base. The pentose sugars differ between DNA and RNA - DNA has deoxyribose (missing OH group on 2' carbon) while RNA has ribose (has OH group on 2' carbon). Both DNA and RNA nucleotides have one of four possible nitrogenous bases, two of which are pyrimidines and two which are purines. Both DNA and RNA can have cytosine, adenine and guanine as nitrogenous bases - however RNA has uracil as its final base while DNA has thymine. Structurally, single strands of DNA and RNA are similar as nucleotides are linked together by covalent, phosphodiester bonds created between the 5' phosphate group of one nucleotide and the 3' hydroxyl (OH) group of another. However, DNA is typically found in a double-helix format which is antiparallel while RNA is typically found as single-stranded.
RNA and DNA also differ in their functionality. DNA is the means by which all genetic information is stored within the cells, and propagation by semi-conservative replication can allow for the genesis of new cells (meiosis, mitosis) or organisms (fusion of haploid gametes). Thus, DNA is only found in the nucleus and mitochondria where it is super-condensed into chromatin and then organized into chromosomes. By contrast, RNA is created by the process of transcription and enables the process of translation - the expression of genetic information in the form of proteins. This happens in two ways: strands of mRNA code for differing sequences of amino-acids - which form proteins - via the codon code, and some RNA can form translation machinery (ribosomes, tRNA) via secondary double-stranded structures. In the latter case, RNA complementary base-pairing differs to DNA pairing as uracil - instead of thymine - now pairs with adenine.


Bekijk de video: DNA Replication - DNA, RNA and Protein Formation 27 (December 2021).