Informatie

Is mijn RNA-seq experimenteel ontwerp correct om het te gebruiken voor SNP-oproepen?


Ik ben een newbie hier en zou uw advies over een bepaald experimenteel ontwerp zeer op prijs stellen.

We hebben gegevens van het RNAseq-experiment dat oorspronkelijk was ontworpen om differentiële expressie te beoordelen. De details van het experiment zijn als volgt:

2 modaliteiten van het fenotype

Elk fenotype wordt vertegenwoordigd door 4 monsters. 1 monster = 60 individuen samengevoegd in het stadium van RNA-isolatie.

Molecuul - gepolyadenyleerd mRNA

Sequentiechemie - Illumina gepaarde uiteinde, leeslengte - 2*100 bp

Mijn vraag is of het correct is om deze RNAseq-gegevens te gebruiken om SNP's op te roepen? Ik heb eerder gezocht en ontdekte dat de meeste mensen die SNP vanuit RNAseq bellen, 40-1000 monsters (= individuen) gebruiken. Maar ze ontwierpen aanvankelijk het RNAseq-experiment voor verdere GWAS. Ik zie dat deze analyse niet kan worden toegepast op mijn gegevens (tenminste omdat in mijn geval individuele vliegen werden samengevoegd zonder streepjescode - 60 vliegen per monster). Kan ik echter nog steeds SNP's oproepen en de lijst uploaden naar de database als een lijst met potentiële doelen voor GWAS met bijvoorbeeld een schatting van de functionele impact op de eiwitstructuur? Zullen het "echte" SNP's zijn, of maakt ons experimentele ontwerp zelfs deze stap ongeldig?

Ik vond dit artikel https://www.ncbi.nlm.nih.gov/pubmed/27458203 waar mensen 2 fenotypes gebruikten die elk werden vertegenwoordigd door 2 monsters, wat bijna op ons experiment lijkt, maar toch twijfels hebben.


Het gebruik van RNAseq voor SNP-analyse is om verschillende redenen niet het beste hulpmiddel dat beschikbaar is. Ten eerste vind je SNP alleen in genen die tot expressie komen (je hebt meer dan 120 reads per SNP nodig in je experiment). Ten tweede vind je SNP alleen in coderende gebieden van de genen. Voor uw specifieke experiment, waar u een pool van 60 personen per monster heeft, is het een ander nadeel omdat u 120 allelen in uw monster zult hebben (zonder de allelcombinaties van de personen te kennen).

Natuurlijk kun je nog steeds proberen SNP's te vinden die aanwezig zijn in je fenotypes, maar echte GWAS-analyse is naar mijn mening niet mogelijk.


ScSNV: nauwkeurige dscRNA-seq SNV co-expressie-analyse met behulp van dubbele tag-collapsing

Het identificeren van enkele nucleotide-varianten is een gangbare praktijk geworden voor op druppels gebaseerde eencellige RNA-seq-experimenten, maar momenteel bestaat er geen pijplijn om de nauwkeurigheid van het oproepen van varianten te maximaliseren. Bovendien zijn moleculaire duplicaten die in deze experimenten zijn gegenereerd, niet gebruikt om co-expressie van varianten optimaal te detecteren. Hierin introduceren we scSNV die van de grond af is ontworpen om moleculaire duplicaten te "instorten" en varianten en hun co-expressie nauwkeurig te identificeren. We demonstreren dat scSNV snel is, met een verminderde vals-positieve variant call rate, en de co-detectie van genetische varianten en A>G RNA-bewerkingen in tweeëntwintig monsters mogelijk maakt.


Ontwerp is een fundamentele stap van een bepaald RNA-Seq-experiment. Enkele belangrijke vragen zoals sequencing diepte/dekking of hoeveel biologische of technische replica's zorgvuldig moeten worden overwogen. Ontwerp beoordeling. [5]

  • JUIST : PROspectieve Power Evaluation voor RNAseq.
  • RNAtor Android-applicatie om optimale parameters te berekenen voor populaire tools en kits die beschikbaar zijn voor DNA-sequencingprojecten.
  • Scotty : een webtool voor het ontwerpen van RNA-Seq-experimenten om differentiële genexpressie te meten.
  • ssizeRNA Berekening van de steekproefomvang voor RNA-Seq experimenteel ontwerp.

Kwaliteitsbeoordeling van onbewerkte gegevens [6] is de eerste stap van de bioinformatica-pijplijn van RNA-Seq. Vaak is het nodig om gegevens te filteren, sequenties of basen van lage kwaliteit te verwijderen (trimmen), adapters, contaminaties, oververtegenwoordigde sequenties of fouten te corrigeren om een ​​coherent eindresultaat te verzekeren.

Kwaliteitscontrole Bewerken

  • NaQC - Automatisch filteren, trimmen, verwijderen van fouten en kwaliteitscontrole voor fastq-gegevens.
  • dupRadar[7] Een R-pakket dat functies biedt voor het plotten en analyseren van de duplicatiesnelheden, afhankelijk van de expressieniveaus.
  • Snelle QC is een kwaliteitscontroletool voor sequentiegegevens met hoge doorvoer (Babraham Institute) en is ontwikkeld in Java. Import van data is mogelijk vanuit FastQ bestanden, BAM of SAM formaat. Deze tool biedt een overzicht om te informeren over probleemgebieden, samenvattende grafieken en tabellen voor een snelle beoordeling van gegevens. De resultaten worden gepresenteerd in permanente HTML-rapporten. FastQC kan worden uitgevoerd als een stand-alone applicatie of het kan worden geïntegreerd in een grotere pijplijnoplossing.
  • fastqp Eenvoudige FASTQ-kwaliteitsbeoordeling met Python.
  • Kraken: [8] Een set tools voor kwaliteitscontrole en analyse van high-throughput sequentiegegevens.
  • HTSeq . [9] Het Python-script htseq-qa neemt een bestand met sequencing-lezingen (ruwe of uitgelijnde reads) en produceert een PDF-bestand met nuttige plots om de technische kwaliteit van een run te beoordelen.
  • mRIN[10] - Beoordelen van mRNA-integriteit rechtstreeks uit RNA-Seq-gegevens.
  • MultiQC[11] - Verzamel en visualiseer de resultaten van verschillende tools (FastQC, HTSeq, RSeQC, Tophat, STAR, anderen..) over alle monsters in één rapport.
  • NGSQC: cross-platform kwaliteit analyse pijplijn voor diepe sequencing data.
  • NGS QC-toolkit Een toolkit voor de kwaliteitscontrole (QC) van next generation sequencing (NGS) data. De toolkit omvat gebruiksvriendelijke stand-alone tools voor kwaliteitscontrole van de sequentiegegevens die zijn gegenereerd met behulp van Illumina en Roche 454-platforms met gedetailleerde resultaten in de vorm van tabellen en grafieken, en het filteren van hoogwaardige sequentiegegevens. Het bevat ook enkele andere tools die nuttig zijn bij de kwaliteitscontrole en analyse van NGS-gegevens.
  • PRINSEQ is een tool die samenvattende statistieken van sequentie- en kwaliteitsgegevens genereert en die wordt gebruikt om sequentiegegevens van de volgende generatie te filteren, opnieuw te formatteren en bij te snijden. Het is speciaal ontworpen voor 454/Roche-gegevens, maar kan ook worden gebruikt voor andere soorten reeksen.
  • QC-keten is een pakket kwaliteitscontroletools voor next-generation sequencing (NGS)-gegevens, bestaande uit zowel onbewerkte reads-kwaliteitsevaluatie als de novo contaminatiescreening, die alle mogelijke contaminatiesequenties zou kunnen identificeren.
  • QC3 een kwaliteitscontroletool die is ontworpen voor DNA-sequencinggegevens voor onbewerkte gegevens, uitlijning en variantoproep.
  • qrqc Scant snel leest en verzamelt statistieken over basis- en kwaliteitsfrequenties, leeslengte en frequente reeksen. Produceert grafische uitvoer van statistieken voor gebruik in kwaliteitscontrolepijplijnen en een optioneel HTML-kwaliteitsrapport. Met S4 SequenceSummary-objecten kunnen specifieke tests en functionaliteit worden geschreven rond de verzamelde gegevens.
  • RNA-SeQC[12] is een tool met toepassing in experimentontwerp, procesoptimalisatie en kwaliteitscontrole vóór computationele analyse. Biedt in wezen drie soorten kwaliteitscontrole: leestellingen (zoals dubbele uitlezingen, in kaart gebrachte uitlezingen en in kaart gebrachte unieke uitlezingen, rRNA-uitlezingen, transcript-geannoteerde uitlezingen, strengspecificiteit), dekking (zoals gemiddelde dekking, gemiddelde variatiecoëfficiënt, 5'/ 3'-dekking, hiaten in dekking, GC-bias) en expressiecorrelatie (de tool biedt op RPKM gebaseerde schatting van expressieniveaus). RNA-SeQC is geïmplementeerd in Java en is niet vereist voor installatie, maar kan worden uitgevoerd met de genpatroon webinterface. De invoer kan een of meer BAM-bestanden zijn. HTML-rapporten worden gegenereerd als uitvoer.
  • RSeQC[13] analyseert diverse aspecten van RNA-Seq-experimenten: sequentiekwaliteit, sequentiediepte, strengspecificiteit, GC-bias, leesverdeling over de genoomstructuur en dekkingsuniformiteit. De invoer kan SAM-, BAM-, FASTA-, BED-bestanden of Chromosome-bestanden zijn (tweekoloms, platte tekstbestand). Visualisatie kan worden uitgevoerd door genoombrowsers zoals UCSC, IGB en IGV. R-scripts kunnen echter ook worden gebruikt voor visualisatie.
  • SAMStat[14] identificeert problemen en rapporteert verschillende statistieken in verschillende fasen van het proces. Deze tool evalueert onafhankelijk in kaart gebrachte, slecht en nauwkeurig in kaart gebrachte sequenties om mogelijke oorzaken van slechte mapping af te leiden.
  • SolexaQA berekent sequentiekwaliteitsstatistieken en creëert visuele representaties van datakwaliteit voor sequentiedata van de tweede generatie. Oorspronkelijk ontwikkeld voor het Illumina-systeem (van oudsher bekend als "Solexa"), ondersteunt SolexaQA nu ook Ion Torrent- en 454-gegevens.
  • Trim in overvloed is een wrapper-script om het trimmen van kwaliteit en adapters te automatiseren, evenals kwaliteitscontrole, met enige toegevoegde functionaliteit om vooringenomen methyleringsposities voor RRBS-sequentiebestanden te verwijderen (voor directionele, niet-directionele (of gepaarde) sequencing).

De kwaliteit verbeteren Bewerken

Verbetering van de RNA-Seq-kwaliteit, het corrigeren van de bias is een complex onderwerp. [15] [16] Elk RNA-Seq-protocol introduceert een specifiek type vooringenomenheid, elke stap van het proces (zoals de gebruikte sequentietechnologie) is vatbaar voor het genereren van een soort ruis of type fout. Bovendien kunnen zelfs de onderzochte soorten en de biologische context van de monsters de resultaten beïnvloeden en een soort vooroordeel introduceren. Er zijn al veel bronnen van vooringenomenheid gemeld - GC-inhoud en PCR-verrijking, [17] [18] rRNA-depletie, [19] fouten geproduceerd tijdens sequencing, [20] priming van reverse transcriptie veroorzaakt door willekeurige hexameren. [21]

Er zijn verschillende tools ontwikkeld om te proberen elk van de gedetecteerde fouten op te lossen.

Trimmen en adapters verwijderen Bewerken

  • BBDuk multithreaded tool om adapters te trimmen en verontreinigingen te filteren of te maskeren op basis van kmer-matching, waardoor een hamming- of edit-afstand mogelijk wordt, evenals gedegenereerde bases. Voert ook optimale kwaliteit-trimming en filtering, formaatconversie, contaminantconcentratierapportage, gc-filtering, lengtefiltering, entropiefiltering, kuisheidsfiltering uit en genereert teksthistogrammen voor de meeste bewerkingen. Interconverteert tussen fastq, fasta, sam, sjaal, interleaved en 2-file paired, gzipped, bzipped, ASCII-33 en ASCII-64. Houdt paren bij elkaar. Open-source, geschreven in pure Java, ondersteunt alle platforms zonder hercompilatie en zonder andere afhankelijkheden.
  • clean_reads reinigt NGS (Sanger, 454, Illumina en vast) leest. Het kan regio's, adapters, vectoren en reguliere expressies van slechte kwaliteit bijsnijden. Het filtert ook de uitlezingen die niet voldoen aan een minimumkwaliteitscriterium op basis van de sequentielengte en de gemiddelde kwaliteit.
  • condetri[22] is een methode voor inhoudsafhankelijke leesafsnijding voor Illumina-gegevens met behulp van kwaliteitsscores van elke basis afzonderlijk. Het is onafhankelijk van sequencing-dekking en gebruikersinteractie. De belangrijkste focus van de implementatie ligt op bruikbaarheid en om read-trimming op te nemen in de volgende generatie sequencing-gegevensverwerkings- en analysepijplijnen. Het kan single-end en gepaarde-end sequencing-gegevens van willekeurige lengte verwerken.
  • aangepast aan[23] verwijdert adaptersequenties uit sequentiegegevens van de volgende generatie (Illumina, SOLiD en 454). Het wordt vooral gebruikt wanneer de leeslengte van de sequencing-machine langer is dan het molecuul waarvan de sequentie is bepaald, zoals het microRNA-geval.
  • deconseq Detecteer en verwijder verontreinigingen uit sequentiegegevens.
  • Erne-Filter[24] is een pakket voor het uitlijnen van korte tekenreeksen waarvan het doel is om een ​​allesomvattende set hulpmiddelen te bieden voor het afhandelen van korte (NGS-achtige) leesbewerkingen. ERNE omvat ERNE-FILTER (lees trimmen en verontreinigingsfiltering), ERNE-MAP (kernuitlijningstool/algoritme), ERNE-BS5 (met bisulfiet behandelde uitlijner) en ERNE-PMAP/ERNE-PBS5 (gedistribueerde versies van de uitlijners).
  • FastqMcf Fastq-mcf probeert: Detectie en verwijdering van sequencing-adapters en primers Beperkte scheeftrekking detecteren aan de uiteinden van reads en clip Detecteren van slechte kwaliteit aan de uiteinden van reads en clip Detecteren van N's en verwijderen van uiteinden Verwijder reads met CASAVA 'Y'-vlag (zuiverheid filtering) Gooi reeksen weg die te kort zijn na al het bovenstaande Houd meerdere mate-reads synchroon terwijl u al het bovenstaande doet.
  • FASTX Toolkit is een set opdrachtregeltools om leesbewerkingen in FASTA- of FASTQ-bestanden te manipuleren. Deze commando's maken het mogelijk om de bestanden voor te verwerken voordat ze worden toegewezen met tools zoals Bowtie. Enkele van de toegestane taken zijn: conversie van FASTQ naar FASTA-formaat, informatie over kwaliteitsstatistieken, verwijderen van sequencing-adapters, filteren en knippen van sequenties op basis van kwaliteit of conversie van DNA/RNA.
  • Flexbar voert het verwijderen van adapterreeksen, trim- en filterfuncties uit.
  • FreClu verbetert de algehele nauwkeurigheid van de uitlijning door sequencing-foutcorrectie uit te voeren door korte uitlezingen bij te snijden, op basis van een clustermethode.
  • htSeqTools is een Bioconductor-pakket dat in staat is om kwaliteitscontrole, gegevensverwerking en visualisatie uit te voeren. htSeqTools maakt het mogelijk om monstercorrelaties te visualiseren, om overamplificatieartefacten te verwijderen, om de verrijkingsefficiëntie te beoordelen, om strengbias te corrigeren en om hits te visualiseren.
  • NxTrim Adapter trimmen en virtuele bibliotheek creatie routine voor Illumina Nextera Mate Pair bibliotheken.
  • PRINSEQ[25] genereert statistieken van uw reeksgegevens voor reekslengte, GC-inhoud, kwaliteitsscores, n-plicates, complexiteit, tagreeksen, poly-A/T-staarten, odds-ratio's. Filter de gegevens, formatteer en trim sequenties.
  • Sabel Een hulpmiddel voor het demultiplexen en bijsnijden van streepjescodes voor FastQ-bestanden.
  • Zeis Een verontreinigingstrimmer met een 3'-uiteinde.
  • SEECER is een algoritme voor sequencing-foutcorrectie voor RNA-seq-gegevenssets. Het neemt de onbewerkte leessequenties die worden geproduceerd door een sequencingplatform van de volgende generatie, zoals machines van Illumina of Roche. SEECER verwijdert mismatch- en indel-fouten uit de onbewerkte uitlezingen en verbetert de downstream-analyse van de gegevens aanzienlijk. Vooral als de RNA-Seq-gegevens worden gebruikt om een ​​de novo transcriptoomassemblage te produceren, kan het uitvoeren van SEECER een enorme impact hebben op de kwaliteit van de assemblage.
  • Sikkel Een adaptieve trimtool met vensters voor FASTQ-bestanden met behulp van kwaliteit.
  • SnoWhite[26] is een pijplijn die is ontworpen om sequentielezingen (gDNA of cDNA) flexibel en agressief te reinigen voorafgaand aan de montage. Het neemt fastq- of fasta-geformatteerde sequentiebestanden op en retourneert deze.
  • Kort lezen is een pakket dat wordt geleverd in de R (programmeertaal) / BioConductor-omgevingen en maakt invoer, manipulatie, kwaliteitsbeoordeling en uitvoer van sequentiegegevens van de volgende generatie mogelijk. Deze tool maakt manipulatie van gegevens mogelijk, zoals filteroplossingen om uitlezingen te verwijderen op basis van vooraf gedefinieerde criteria. ShortRead kan worden aangevuld met verschillende Bioconductor-pakketten voor verdere analyse- en visualisatieoplossingen (BioStrings, BSgenome, Iranges, enzovoort).
  • SortMeRNA is een programmatool voor het filteren, in kaart brengen en OTU-picking van NGS-lezingen in metatranscriptomische en metagenomische gegevens. Het kernalgoritme is gebaseerd op geschatte zaden en maakt analyses van nucleotidesequenties mogelijk. De belangrijkste toepassing van SortMeRNA is het filteren van ribosomaal RNA uit metatranscriptomische gegevens.
  • TagCleaner De TagCleaner-tool kan worden gebruikt om tagsequenties (bijv. WTA-tags) automatisch te detecteren en efficiënt te verwijderen uit genomische en metagenomische datasets. Het is eenvoudig te configureren en biedt een gebruiksvriendelijke interface.
  • Trimmomatic[27] voert trimming uit voor Illumina-platforms en werkt met FASTQ-lezingen (enkelvoudig of paarsgewijs). Enkele van de uitgevoerde taken zijn: adapters knippen, bases knippen in optionele posities op basis van kwaliteitsdrempels, reads op een specifieke lengte knippen, kwaliteitsscores converteren naar Phred-33/64.
  • fastp Een tool die is ontworpen om alles-in-één voorverwerking van FastQ-bestanden te bieden. Deze tool is ontwikkeld in C++ met ondersteuning voor multithreading.
  • FASTX-Toolkit De FASTX-Toolkit is een verzameling opdrachtregelprogramma's voor de voorbewerking van FASTA/FASTQ-bestanden voor korte leesbewerkingen.

Detectie van chimere leest Bewerken

Recente sequencing-technologieën vereisen normaal gesproken dat DNA-monsters worden geamplificeerd via polymerasekettingreactie (PCR). Amplificatie genereert vaak chimere elementen (speciaal van ribosomale oorsprong) - sequenties gevormd uit twee of meer originele sequenties die met elkaar zijn verbonden.

  • Uchime is een algoritme voor het detecteren van chimere sequenties.
  • ChimeraSlayeris een chimeer sequentiedetectieprogramma, compatibel met Sanger-sequenties van bijna volledige lengte en kortere 454-FLX-sequenties (

Foutcorrectie Bewerken

High-throughput sequencing fouten karakterisering en hun uiteindelijke correctie. [28]

  • Acacia Foutcorrectie voor pyrosequenced amplicon-uitlezingen.
  • AllPathsLG foutcorrectie.
  • AmpliconRuis[29] AmpliconNoise is een verzameling programma's voor het verwijderen van ruis uit 454 gesequenced PCR-amplicons. Het omvat twee stappen: het verwijderen van ruis uit de sequencing zelf en het verwijderen van PCR-puntfouten. Dit project omvat ook het Perseus-algoritme voor het verwijderen van chimeren.
  • BayesHamer. Bayesiaanse clustering voor foutcorrectie. Dit algoritme is gebaseerd op Hamming-grafieken en Bayesiaanse subclustering. Hoewel BAYES HAMMER is ontworpen voor single-cell sequencing, verbetert het ook bestaande foutcorrectietools voor bulksequencing-gegevens.
  • Zegenen[30] Een oplossing voor foutcorrectie op basis van bloeifilters voor het lezen van sequentiëring met hoge doorvoer.
  • Blauw[31] Blauw is een kort leesbare tool voor foutcorrectie op basis van k-mer-consensus en context.
  • vriendje Een sequencing-foutcorrector ontworpen voor korte uitlezingen van Illumina. Het maakt gebruik van een niet-hebzuchtig algoritme met een snelheid die vergelijkbaar is met implementaties op basis van hebzuchtige methoden.
  • Denoiser Denoiser is ontworpen om problemen met ruis in pyrosequencing-gegevens aan te pakken. Denoiser is een heuristische variant van PyroNoise. Ontwikkelaars van denoiser melden een goede overeenkomst met PyroNoise op verschillende testdatasets.
  • Echo Een referentievrij algoritme voor kort lezen van fouten.
  • Aansteker. Een sequencing-foutcorrectie zonder te tellen.
  • LSC LSC gebruikt korte Illumina-lezingen om fouten in lange reads te corrigeren.
  • Karect Karect: nauwkeurige correctie van substitutie-, invoeg- en verwijderingsfouten voor sequentiegegevens van de volgende generatie.
  • Knooppunt NoDe: een foutcorrectie-algoritme voor pyrosequencing amplicon-uitlezingen.
  • PyroTagger PyroTagger: een snelle, nauwkeurige pijplijn voor analyse van rRNA-amplicon-pyrosequentiegegevens.
  • aardbeving is een hulpmiddel om substitutie-sequencing-fouten in experimenten met diepe dekking voor Illumina-sequencing-uitlezingen te corrigeren.
  • QuorUM: een foutcorrectie voor Illumina-lezingen.
  • Rcorrector. Foutcorrectie voor Illumina RNA-seq-lezingen.
  • Reptiel is software ontwikkeld in C++ voor het corrigeren van sequencing-fouten in korte reads van next-gen sequencing-platforms.
  • Ziener Sequentiefoutcorrectie voor Rna-lezingen.
  • SGA.
  • SOAP denovo.
  • UNOISE.

Bias correctie Bewerken

  • Alpine[32] Modellering en correctie van fragmentsequentiebias voor RNA-seq.
  • cqn[33] is een normalisatietool voor RNA-Seq-gegevens, waarbij de conditionele kwantielnormalisatiemethode wordt geïmplementeerd.
  • EDASeq[34] is een Bioconductor-pakket om GC-Content Normalization voor RNA-Seq-gegevens uit te voeren.
  • GeneSchaar Een alomvattende benadering voor het detecteren en corrigeren van valse transcriptoominferentie als gevolg van RNAseq leest een verkeerde uitlijning.
  • Gelijke[35] is een verzameling Bayesiaanse benaderingen om verborgen determinanten en hun effecten af ​​te leiden uit genexpressieprofielen met behulp van factoranalysemethoden.Toepassingen van PEER hebben: a) batcheffecten en experimentele confounders gedetecteerd, b) het aantal expressie-QTL-bevindingen verdrievoudigd, c) gevolgtrekking mogelijk gemaakt van intermediaire cellulaire eigenschappen, zoals transcriptiefactor of activeringsroutes.
  • RUV[36] is een R-pakket dat de verwijder ongewenste variatie (RUV) methoden van Risso et al. implementeert. (2014) voor de normalisatie van RNA-Seq-leestellingen tussen monsters.
  • svaSurrogaatvariabele analyse.
  • svaseq het verwijderen van batch-effecten en andere ongewenste ruis uit sequencing-gegevens.
  • SysCall[37] is een classificatietool voor identificatie en correctie van systematische fouten in sequentiegegevens met hoge doorvoer.

Overige taken/voorbewerking van gegevens Bewerken

Verdere taken uitgevoerd vóór uitlijning, namelijk gepaarde leesfusies.

  • AuPairWise Een methode om RNA-Seq-repliceerbaarheid te schatten door middel van co-expressie.
  • BamHash is een op checksum gebaseerde methode om ervoor te zorgen dat de leesparen in FASTQ-bestanden exact overeenkomen met de leesparen die zijn opgeslagen in BAM-bestanden, ongeacht de volgorde van de uitlezingen. BamHash kan worden gebruikt om de integriteit van de opgeslagen bestanden te verifiëren en eventuele discrepanties te ontdekken. Zo kan BamHash worden gebruikt om te bepalen of het veilig is om de FASTQ-bestanden die onbewerkte sequencing-uitlezingen opslaan na uitlijning te verwijderen, zonder gegevensverlies.
  • BBMerge Voegt gepaarde uitlezingen samen op basis van overlap om langere uitlezingen en een histogram op invoegformaat te maken. Snel, multithreaded en levert extreem weinig valse positieven op. Open-source, geschreven in pure Java, ondersteunt alle platforms zonder hercompilatie en zonder andere afhankelijkheden. Gedistribueerd met BBmap.
  • Biostukken zijn een verzameling bioinformatica-tools die op een zeer gemakkelijke en flexibele manier kunnen worden samengevoegd om zowel eenvoudige als complexe taken uit te voeren. De Biopieces werken op een datastroom op een zodanige manier dat de datastroom door verschillende Biopieces kan worden geleid, die elk een specifieke taak uitvoeren: records wijzigen of toevoegen aan de datastroom, plots maken of gegevens uploaden naar databases en webservices.
  • OMGAAN MET[38] COPE: een nauwkeurige k-mer-gebaseerde pair-end read-verbindingstool om genoomassemblage te vergemakkelijken.
  • DeconRNASeq is een R-pakket voor deconvolutie van heterogene weefsels op basis van mRNA-Seq-gegevens.
  • FastQ-scherm screent sequenties in FASTQ-formaat naar een set databases om te bevestigen dat de sequenties bevatten wat wordt verwacht (zoals soortinhoud, adapters, vectoren, enz.).
  • FLASH is een leesvoorbewerkingstool. FLASH combineert reads met gepaarde uiteinden die elkaar overlappen en converteert ze naar single long reads.
  • IDCheck
  • ORNA en ORNA Q/K Een hulpmiddel voor het verminderen van redundantie in RNA-seq-gegevens, waardoor de computerresources van een assembler worden verminderd
  • PANDASeq.is een programma om Illumina-uitlezingen uit te lijnen, optioneel met PCR-primers die in de sequentie zijn ingebed, en een overlappende sequentie te reconstrueren.
  • PEER[39] PEAR: Illumina Paired-End read mergeR.
  • qRNASeq-script De qRNAseq-tool kan worden gebruikt om PCR-duplicaten nauwkeurig uit RNA-Seq-gegevens te verwijderen als Molecular Indexes™ of andere stochastische labels zijn gebruikt tijdens de voorbereiding van de bibliotheek.
  • SHERA[40] een Shortread Error-Reducing Aligner.
  • XORRO Rapid Paired-End Read Overlapper.

Na kwaliteitscontrole omvat de eerste stap van RNA-Seq-analyse uitlijning van de gesequenced reads naar een referentiegenoom (indien beschikbaar) of naar een transcriptoomdatabase. Zie ook Lijst met software voor sequentie-uitlijning.

Korte (ongesplitste) aligners Bewerken

Korte aligners zijn in staat om continue uitlezingen (die geen gaten bevatten die het gevolg zijn van splitsing) uit te lijnen met een referentiegenoom. In principe zijn er twee typen: 1) gebaseerd op de Burrows-Wheeler-transformatiemethode zoals Bowtie en BWA, en 2) gebaseerd op Seed-extend-methoden, Needleman-Wunsch of Smith-Waterman-algoritmen. De eerste groep (Bowtie en BWA) is vele malen sneller, maar sommige tools van de tweede groep zijn gevoeliger en genereren meer correct uitgelijnde uitlezingen.

  • BFAST lijnt korte uitlezingen uit op referentiesequenties en presenteert een bijzondere gevoeligheid voor fouten, SNP's, invoegingen en deleties. BFAST werkt met het Smith-Waterman-algoritme. Zie ook volgende/BFAST.
  • Vlinderdas is een korte aligner die gebruik maakt van een algoritme gebaseerd op de Burrows-Wheeler transformatie en de FM-index. Bowtie tolereert een klein aantal mismatches.
  • Vlinderdas2 Bowtie 2 is een geheugenefficiënt hulpmiddel voor het afstemmen van sequencing-uitlezingen op lange referentiesequenties. Het wordt met name aanbevolen voor het uitlijnen van reads van ongeveer 50 tot 100s of 1.000s karakters, en bijzonder goed voor het uitlijnen op relatief lange (bijv. zoogdieren) genomen. Bowtie 2 indexeert het genoom met een FM-index om de geheugenvoetafdruk klein te houden: voor het menselijk genoom is de geheugenvoetafdruk meestal ongeveer 3,2 GB. Bowtie 2 ondersteunt uitlijningsmodi met gapped, local en paired-end.
  • Burrows-Wheeler Aligner (BWA) BWA is een softwarepakket voor het in kaart brengen van laag-divergente sequenties tegen een groot referentiegenoom, zoals het menselijk genoom. Het bestaat uit drie algoritmen: BWA-backtrack, BWA-SW en BWA-MEM. Het eerste algoritme is ontworpen voor Illumina-sequentielezingen tot 100 bp, terwijl de overige twee voor langere sequenties varieerden van 70 bp tot 1 Mbp. BWA-MEM en BWA-SW delen vergelijkbare functies, zoals ondersteuning voor lang lezen en gesplitste uitlijning, maar BWA-MEM, de nieuwste versie, wordt over het algemeen aanbevolen voor vragen van hoge kwaliteit omdat het sneller en nauwkeuriger is. BWA-MEM heeft ook betere prestaties dan BWA-backtrack voor 70-100bp Illumina-lezingen.
  • Kort Oligonucleotide Analyse Pakket (SOAP)
  • GNUMAP voert uitlijning uit met behulp van een probabilistisch Needleman-Wunsch-algoritme. Deze tool kan uitlijning in repetitieve gebieden van een genoom afhandelen zonder informatie te verliezen. De output van het programma is ontwikkeld om een ​​gemakkelijke visualisatie mogelijk te maken met behulp van beschikbare software.
  • Maq stemt eerst reads af op referentiesequenties en voert daarna een consensusfase uit. Op de eerste trap wordt alleen uitgelijnd zonder dop en tolereert het tot 3 mismatches.
  • Mosaïk Mosaik kan uitlezingen met korte hiaten uitlijnen met behulp van het Smith-Waterman-algoritme, ideaal om SNP's, invoegingen en verwijderingen te overwinnen.
  • NovoAlign (commercieel) is een korte aligner voor het Illumina-platform op basis van het Needleman-Wunsch-algoritme. Het kan omgaan met bisulfietgegevens. Uitvoer in SAM-formaat.
  • Permanent is een softwarepakket dat is ontworpen om zeer efficiënte genoomschaaluitlijningen uit te voeren voor honderden miljoenen korte uitlezingen geproduceerd door de ABI SOLiD- en Illumina-sequencingplatforms. PerM is in staat om volledige gevoeligheid te bieden voor uitlijningen binnen 4 mismatches voor 50bp SOLID reads en 9 mismatches voor 100bp Illumina reads.
  • RazerS
  • ZEGEL gebruikt een MapReduc-model om gedistribueerde computing te produceren op clusters van computers. Seal gebruikt BWA om uitlijning uit te voeren en Picard MarkDuplicates voor detectie en verwijdering van dubbele leesbewerkingen.
  • segemehl
  • SeqMap
  • Garnaal maakt gebruik van twee technieken om korte leest uit te lijnen. Ten eerste identificeert de q-gram-filtertechniek op basis van meerdere zaden kandidaat-regio's. Ten tweede worden deze regio's in detail onderzocht met behulp van het Smith-Waterman-algoritme.
  • SMALT
  • Stampy combineert de gevoeligheid van hashtabellen en de snelheid van BWA. Stampy is voorbereid op uitlijning van uitlezingen die sequentievariatie bevatten, zoals invoegingen en deleties. Het kan reads tot 4500 bases aan en presenteert de output in SAM-formaat.
  • Onderlees[41] is een leesuitlijner. Het gebruikt het seed-and-vote mapping-paradigma om de mappinglocatie van de gelezen te bepalen met behulp van het grootste toewijsbare gebied. Het bepaalt automatisch of het gelezene globaal of lokaal moet worden toegewezen. Voor RNA-seq-gegevens moet Subread worden gebruikt voor expressieanalyse. Subread kan ook worden gebruikt om DNA-seq-lezingen in kaart te brengen.
  • ZOOM (commercieel) is een korte aligner van het Illumina/Solexa 1G-platform. ZOOM gebruikt extended spaced seed-methodologie om hash-tabellen voor de reads te bouwen en tolereert mismatches en invoegingen en verwijderingen.
  • WHAM WHAM is een high-throughput sequentie-uitlijningstool ontwikkeld aan de Universiteit van Wisconsin-Madison. Het lijnt korte DNA-sequenties (reads) uit op het hele menselijke genoom met een snelheid van meer dan 1500 miljoen 60bit/s reads per uur, wat één tot twee orden van grootte sneller is dan de toonaangevende state-of-the-art technieken.

Gesplitste aligners Bewerken

Veel reads omvatten exon-exon juncties en kunnen niet direct worden uitgelijnd door korte aligners, dus specifieke aligners waren nodig - Spliced ​​aligners. Sommige gesplitste aligners gebruiken korte aligners om eerst niet-gesplitste/continue uitlezingen uit te lijnen (exon-eerste benadering), en daarna een andere strategie te volgen om de rest met gesplitste gebieden uit te lijnen - normaal worden de uitlezingen opgesplitst in kleinere segmenten en onafhankelijk in kaart gebracht. Zie ook. [42] [43]

Aligners gebaseerd op bekende splice junctions (annotatie-geleide aligners)

In dit geval is de detectie van splitsingsknooppunten gebaseerd op gegevens die beschikbaar zijn in databases over bekende knooppunten. Dit type gereedschap kan geen nieuwe splitsingspunten identificeren. Sommige van deze gegevens zijn afkomstig van andere expressiemethoden, zoals express sequence tags (EST).

  • wissen is een hulpmiddel voor afstemming en kwantificering van gegevens voor transcriptomen van zoogdieren.
  • IsoformEx
  • KaartAL
  • OSA
  • RNA-MATE is een computationele pijplijn voor het uitlijnen van gegevens van het Applied Biosystems SOLID-systeem. Biedt de mogelijkheid tot kwaliteitscontrole en bijsnijden van uitlezingen. De genoomuitlijningen worden uitgevoerd met behulp van kaartlezen en de splitsingsjuncties worden geïdentificeerd op basis van een bibliotheek van bekende exon-junctiesequenties. Met deze tool kunnen uitlijningen en tagtellingen worden gevisualiseerd.
  • RUM voert uitlijning uit op basis van een pijplijn, in staat om uitlezingen te manipuleren met splice junctions, met behulp van Bowtie en Blat. Het stroomschema begint de uitlijning uit te voeren tegen een genoom en een transcriptoomdatabase uitgevoerd door Bowtie. De volgende stap is het uitlijnen van niet-toegewezen sequenties op het referentiegenoom met behulp van BLAT. In de laatste stap worden alle uitlijningen samengevoegd om de definitieve uitlijning te krijgen. De invoerbestanden kunnen in FASTA- of FASTQ-indeling zijn. De output wordt gepresenteerd in RUM- en SAM-formaat.
  • RNASEQR.
  • SAMMate
  • SpliceSeq
  • X-Mate

De novo splice aligners Bewerken

De novo Splice aligners maken de detectie van nieuwe Splice junctions mogelijk zonder voorafgaande geannoteerde informatie (sommige van deze tools bieden annotatie als aanvullende optie).

  • ABMapper
  • BBmap Gebruikt korte kmers om reads direct uit te lijnen met het genoom (overspannen introns om nieuwe isovormen te vinden) of transcriptoom. Zeer tolerant ten opzichte van substitutiefouten en indels, en zeer snel. Ondersteunt de uitvoer van alle SAM-tags die nodig zijn voor manchetknopen. Geen limiet voor de grootte van het genoom of het aantal splitsingen per uitlezing. Ondersteunt Illumina, 454, Sanger, Ion Torrent, PacBio en Oxford Nanopore reads, gepaarde of single-ended. Gebruikt geen splice-site-finding heuristieken die zijn geoptimaliseerd voor een enkele taxonomische tak, maar vindt eerder optimaal scorende multi-affiene-transform globale uitlijningen, en is dus ideaal voor het bestuderen van nieuwe organismen zonder annotatie en onbekende splice-motieven. Open-source, geschreven in pure Java, ondersteunt alle platforms zonder hercompilatie en zonder andere afhankelijkheden.
  • Contextkaart werd ontwikkeld om een ​​aantal beperkingen van andere kaartbenaderingen, zoals het oplossen van dubbelzinnigheden, te overwinnen. Het centrale idee van deze tool is om reads in de context van genexpressie te beschouwen, waardoor de nauwkeurigheid van de uitlijning wordt verbeterd. ContextMap kan worden gebruikt als een op zichzelf staand programma en wordt ondersteund door mappers die een SAM-bestand in de uitvoer produceren (bijvoorbeeld: TopHat of MapSplice). In de stand-alone modus worden de leesbewerkingen uitgelijnd op een genoom, op een transcriptoomdatabase of op beide.
  • CRAC stellen een nieuwe manier voor om uitlezingen te analyseren die genomische locaties en lokale dekking integreert, en kandidaat-mutaties, indels, splitsingen of fusieverbindingen in elke afzonderlijke uitlezing detecteren. Belangrijk is dat CRAC zijn voorspellende prestaties verbetert wanneer het wordt geleverd met b.v. 200 nt leest en zou moeten voldoen aan toekomstige behoeften van leesanalyses.
  • GSNAP
  • GMAP Een programma voor genomische mapping en uitlijning voor mRNA- en EST-sequenties.
  • HISAT HISAT is een gesplitst uitlijningsprogramma voor het in kaart brengen van RNA-seq-uitlezingen. Naast één globale FM-index die een heel genoom vertegenwoordigt, gebruikt HISAT een grote reeks kleine FM-indexen die samen het hele genoom bestrijken (elke index vertegenwoordigt een genomische regio van

48.000 indexen zijn nodig om het menselijk genoom te dekken). Deze kleine indexen (lokale indexen genoemd) in combinatie met verschillende uitlijnstrategieën maken een effectieve uitlijning van RNA-seq-lezingen mogelijk, in het bijzonder lezen die meerdere exons overspannen. De geheugenvoetafdruk van HISAT is relatief laag (

De novo splice aligners die ook annotatie optioneel gebruiken Bewerken
  • KaartVolgende
  • OLego
  • STER is een tool die gebruikmaakt van "sequentiële maximaal toewijsbare seed-zoekopdracht in niet-gecomprimeerde suffix-arrays gevolgd door seed-clustering en stitching-procedure", detecteert canonieke, niet-canonieke splitsingen en chimere fusiesequenties. Het is al aangepast om long reads uit te lijnen (sequencing-technologieën van de derde generatie) en kan snelheden bereiken van 45 miljoen gepaarde reads per uur per processor. [46]
  • Subjunc[41] is een gespecialiseerde versie van Subread. Het gebruikt alle in kaart te brengen regio's in een RNA-seq-lezing om exons en exon-exon-juncties te ontdekken. Het gebruikt de donor-/receptorsignalen om de exacte splitsingslocaties te vinden. Subjunc levert volledige uitlijningen op voor elke RNA-seq-uitlezing, inclusief exon-overspannende uitlezingen, naast de ontdekte exon-exon-overgangen. Subjunc moet worden gebruikt voor detectie van knooppunten en detectie van genomische variatie in RNA-seq-gegevens.
  • Hoge hoed[47] is bereid om de novo kruispunten te vinden. TopHat lijnt reads in twee stappen uit. Ten eerste worden niet-gesplitste uitlezingen uitgelijnd met Bowtie. Daarna worden de uitgelijnde uitlezingen geassembleerd met Maq resulterende eilanden van sequenties. Ten tweede worden de splitsingsknooppunten bepaald op basis van de aanvankelijk niet-toegewezen waarden en de mogelijke canonieke donor- en acceptorsites binnen de eilandsequenties.
Andere gesplitste aligners Bewerken

Evaluatie van uitlijningstools Bewerken

  • AlignerBoost is een gegeneraliseerde softwaretoolkit voor het verbeteren van de nauwkeurigheid van Next-Gen sequencing-mapping met behulp van een Bayesiaans kader voor mappingkwaliteit.
  • CADBURE Bioinformatica-tool voor het evalueren van de prestaties van aligners op uw RNA-Seq-dataset.
  • QualiMap : Evaluatie van de volgende generatie sequencing-uitlijningsgegevens.
  • RNAseqEVAL Een verzameling tools voor het evalueren van RNA seq mapping.
  • teaser: Geïndividualiseerde benchmarking en optimalisatie van read mapping-resultaten voor NGS-gegevens.

Algemene hulpmiddelen Bewerken

Deze tools voeren normalisatie uit en berekenen de overvloed van elk gen dat in een monster wordt uitgedrukt. [48] ​​RPKM, FPKM en TPM's [49] zijn enkele van de eenheden die worden gebruikt om expressie te kwantificeren. Sommige software is ook ontworpen om de variabiliteit van genetische expressie tussen monsters (differentiële expressie) te bestuderen. Kwantitatieve en differentiële studies worden grotendeels bepaald door de kwaliteit van de uitlijning van de uitlezingen en de nauwkeurigheid van de reconstructie van isovormen. Er zijn verschillende onderzoeken beschikbaar waarin differentiële expressiemethoden worden vergeleken. [50] [51] [52]

  • ABSSeq een nieuwe RNA-Seq-analysemethode op basis van het modelleren van absolute expressieverschillen.
  • ALdex2 is een tool voor vergelijkende analyse van high-throughput sequencing-gegevens. ALDEx2 maakt gebruik van samenstellingsgegevensanalyse en kan worden toegepast op RNAseq, 16S rRNA-gensequencing, metagenomische sequencing en selectieve groei-experimenten.
  • Alexa-Seq is een pijplijn die het mogelijk maakt om genexpressie-analyse, transcript-specifieke expressie-analyse, exon-junctie-expressie en kwantitatieve alternatieve analyse uit te voeren. Maakt brede visualisatie van alternatieve uitdrukkingen, statistieken en grafieken mogelijk.
  • ARH-seq – identificatie van differentiële splicing in RNA-seq-gegevens.
  • ASC[53]
  • Baljurk
  • BaySeq is een Bioconductor-pakket om differentiële expressie te identificeren met behulp van sequentiegegevens van de volgende generatie, via empirische Bayesiaanse methoden. Er is een optie om het "sneeuw"-pakket te gebruiken voor parallellisatie van computergegevensverwerking, aanbevolen bij het omgaan met grote datasets.
  • GMNB[54] is een Bayesiaanse methode voor tijdelijke gendifferentiële expressieanalyse over verschillende fenotypes of behandelingsomstandigheden die van nature de heterogeniteit van sequencing-diepte in verschillende monsters aankan, waardoor ad-hocnormalisatie overbodig is.
  • BBSeq
  • BitSeq (Bayesian Inference of Transcripts from Sequencing Data) is een toepassing voor het afleiden van expressieniveaus van individuele transcripten uit sequencing-gegevens (RNA-Seq) en het schatten van differentiële expressie (DE) tussen omstandigheden.
  • CEDER Nauwkeurige detectie van differentieel tot expressie gebrachte genen door de betekenis van exons te combineren met behulp van RNA-Seq.
  • CPTRA Het CPTRA-pakket is bedoeld voor het analyseren van transcriptoomsequentiegegevens van verschillende sequentieplatforms. Het combineert de voordelen van 454, Illumina GAII of andere platforms en kan sequentietaguitlijning en annotatie, expressiekwantificatietaken uitvoeren.
  • casper is een Bioconductor-pakket om expressie op isovormniveau te kwantificeren. Het combineert het gebruik van informatieve gegevenssamenvattingen, flexibele schatting van experimentele vooroordelen en statistische precisie-overwegingen die (naar verluidt) aanzienlijke verminderingen van schattingsfouten opleveren.
  • Manchetknopen/Manchetknopen geschikt is om globaal te meten de novo transcriptie isovorm expressie. Het voert assemblage van transcripten uit, schatting van abundanties en bepaalt differentiële expressie (Cuffdiff) en regulatie in RNA-Seq-monsters. [55]
  • DESeq is een Bioconductor-pakket om differentiële genexpressie-analyse uit te voeren op basis van negatieve binomiale distributie.
  • DEGSeq
  • Derfinder Annotatie-agnostische differentiële expressie-analyse van RNA-seq-gegevens met een resolutie van basenparen via de DER Finder-benadering.
  • DEvis is een krachtige, geïntegreerde oplossing voor de analyse van differentiële expressiegegevens. Met DESeq2 als raamwerk biedt DEvis een breed scala aan hulpmiddelen voor gegevensmanipulatie, visualisatie en projectbeheer.
  • DEXSeq is een Bioconductor-pakket dat differentieel differentieel exongebruik vindt op basis van RNA-Seq-exontellingen tussen monsters. DEXSeq maakt gebruik van negatieve binomiale verdeling, biedt opties voor visualisatie en verkenning van de resultaten.
  • DEXUS is een Bioconductor-pakket dat differentieel tot expressie gebrachte genen identificeert in RNA-Seq-gegevens onder alle mogelijke onderzoeksontwerpen, zoals onderzoeken zonder replica's, zonder steekproefgroepen en met onbekende omstandigheden. [56] In tegenstelling tot andere methoden heeft DEXUS geen replica's nodig om differentieel tot expressie gebrachte transcripten te detecteren, aangezien de replica's (of condities) worden geschat door de EM-methode voor elk transcript.
  • DGEclust is een Python-pakket voor het clusteren van expressiegegevens van RNA-seq-, CAGE- en andere NGS-assays met behulp van een hiërarchisch Dirichlet-procesmengselmodel. De geschatte clusterconfiguraties kunnen worden nabewerkt om differentieel tot expressie gebrachte genen te identificeren en voor het genereren van gen- en monstergewijze dendrogrammen en heatmaps. [57]
  • DiffSplice is een methode voor detectie en visualisatie van differentiële expressie, niet afhankelijk van genannotaties. Deze methode wordt ondersteund bij de identificatie van alternatieve splicing-modules (ASM's) die uiteenlopen in de verschillende isovormen.Een niet-parametrische test wordt toegepast op elke ASM om significante differentiële transcriptie te identificeren met een gemeten valse ontdekkingssnelheid.
  • EBseq is een Bioconductor-pakket voor het identificeren van genen en isovormen die differentieel tot expressie worden gebracht (DE) in twee of meer biologische omstandigheden in een RNA-seq-experiment. Het kan ook worden gebruikt om DE-contigs te identificeren na het uitvoeren van de novo transcriptoomassemblage. Tijdens het uitvoeren van DE-analyse op isovormen of contigs, hebben verschillende isoform/contig-groepen verschillende schattingsonzekerheden. EBSeq modelleert de variërende onzekerheden met behulp van een empirisch Bayes-model met verschillende prioriteiten.
  • EdgeR is een R-pakket voor analyse van differentiële expressie van gegevens van DNA-sequencingmethoden, zoals RNA-Seq-, SAGE- of ChIP-Seq-gegevens. edgeR maakt gebruik van statistische methoden die worden ondersteund op negatieve binomiale verdeling als een model voor telvariabiliteit.
  • EdgeRun een R-pakket voor gevoelige, functioneel relevante differentiële expressiedetectie met behulp van een onvoorwaardelijke exacte test.
  • EQP De exon-kwantificeringspijplijn (EQP): een alomvattende benadering voor de kwantificering van gen-, exon- en junctie-expressie uit RNA-seq-gegevens.
  • ESAT De End Sequence Analysis Toolkit (ESAT) is speciaal ontworpen om te worden toegepast voor het kwantificeren van annotaties van gespecialiseerde RNA-Seq-genbibliotheken die zich richten op de 5'- of 3'-uiteinden van transcripten.
  • uitdrukken De prestaties omvatten RNA-Seq-kwantificering op transcriptniveau, allelspecifieke en haplotype-analyse en kunnen transcriptabundanties schatten van de meerdere isovormen die in een gen aanwezig zijn. Hoewel het direct kan worden gekoppeld aan aligners (zoals Bowtie), kan eXpress ook worden gebruikt met de novo assemblers en is er dus geen referentiegenoom nodig om uitlijning uit te voeren. Het draait op Linux, Mac en Windows.
  • ERANGE voert uitlijning, normalisatie en kwantificering van tot expressie gebrachte genen uit.
  • featureCounts een efficiënte leeskwantificator voor algemeen gebruik.
  • FDM
  • FineSplice Verbeterde detectie en schatting van splitsingsjuncties op basis van RNA-Seq-gegevens.
  • GFOLD[58] Gegeneraliseerde vouwverandering voor het rangschikken van differentieel tot expressie gebrachte genen uit RNA-seq-gegevens.
  • globalSeq[59] Globale test voor tellingen: testen op associatie tussen RNA-Seq en hoogdimensionale gegevens.
  • GPSeq Dit is een softwaretool om RNA-seq-gegevens te analyseren om gen- en exon-expressie te schatten, differentieel tot expressie gebrachte genen en differentieel gesplitste exons te identificeren.
  • IsoDOT - Differentiële RNA-isovorm-expressie.
  • Limma Limma maakt differentiële expressieanalyses mogelijk voor RNA-sequencing en microarray-onderzoeken.
  • LPEseq differentiële expressie nauwkeurig testen met een beperkt aantal replica's.
  • Kallisto "Kallisto is een programma voor het kwantificeren van abundanties van transcripten van RNA-Seq-gegevens, of meer in het algemeen van doelsequenties met behulp van high-throughput sequencing-uitlezingen. Het is gebaseerd op het nieuwe idee van pseudo-uitlijning voor het snel bepalen van de compatibiliteit van uitlezingen met doelen, zonder de behoefte aan afstemming. Op benchmarks met standaard RNA-Seq-gegevens kan kallisto 30 miljoen menselijke reads kwantificeren in minder dan 3 minuten op een Mac-desktopcomputer met alleen de leessequenties en een transcriptoomindex die zelf minder dan 10 minuten nodig heeft om te bouwen."
  • MATTEN Multivariate analyse van transcriptiesplitsing (MATS).
  • MAP-test biedt een algemeen testkader voor differentiële expressieanalyse van RNA-Seq-tijdsverloopexperimenten. De methode van het pakket is gebaseerd op een latent negatief-binomiaal Gauss-mengselmodel. De voorgestelde test is optimaal in het maximale gemiddelde vermogen. De test maakt niet alleen identificatie van traditionele DE-genen mogelijk, maar ook het testen van een verscheidenheid aan samengestelde hypothesen van biologisch belang. [60]
  • MetaDiff Differentiële isovorm-expressieanalyse met behulp van meta-regressie met willekeurige effecten.
  • metaseqR is een Bioconductor-pakket dat differentieel tot expressie gebrachte genen detecteert uit RNA-Seq-gegevens door zes statistische algoritmen te combineren met behulp van geschatte gewichten op basis van hun prestaties met gesimuleerde gegevens die zijn geschat op basis van echte gegevens, openbaar of op gebruikersbasis. Op deze manier optimaliseert metaseqR de afweging tussen precisie en gevoeligheid. [61] Bovendien maakt metaseqR een gedetailleerd en interactief rapport met een verscheidenheid aan diagnostische en verkenningsplots en automatisch gegenereerde tekst.
  • MMSEQ is een pijplijn voor het schatten van isovormexpressie en allelische onbalans in diploïde organismen op basis van RNA-Seq. De pijplijn maakt gebruik van tools zoals Bowtie, TopHat, ArrayExpressHTS en SAMtools. Ook edgeR of DESeq om differentiële expressie uit te voeren.
  • MultiDE
  • Myrna is een pijplijntool die in een cloudomgeving draait (Elastische kaartVerminderen) of in een unieke computer voor het schatten van differentiële genexpressie in RNA-Seq-datasets. Bowtie wordt gebruikt voor korte leesuitlijning en R-algoritmen voor intervalberekeningen, normalisatie en statistische verwerking.
  • NEUMA is een hulpmiddel om RNA-abundanties te schatten met behulp van lengtenormalisatie, gebaseerd op uniek uitgelijnde uitlezingen en mRNA-isovormmodellen. NEUMA gebruikt bekende transcriptoomgegevens die beschikbaar zijn in databases zoals RefSeq.
  • NOISeq NOISeq is een niet-parametrische benadering voor de identificatie van differentieel tot expressie gebrachte genen uit telgegevens of eerder genormaliseerde telgegevens. NOISeq modelleert empirisch de ruisverdeling van telveranderingen door contrasterende verschillen in vouwverandering (M) en absolute expressieverschillen (D) voor alle kenmerken in monsters binnen dezelfde conditie.
  • NPEBseq is een niet-parametrische empirische Bayesiaanse methode voor differentiële expressieanalyse.
  • NSMAP maakt gevolgtrekking van isovormen en schatting van expressieniveaus mogelijk, zonder geannoteerde informatie. De exons worden uitgelijnd en splice junctions worden geïdentificeerd met behulp van TopHat. Alle mogelijke isovormen worden berekend door een combinatie van de gedetecteerde exons.
  • NURD een implementatie van een nieuwe methode om isovormexpressie te schatten uit niet-uniforme RNA-seq-gegevens.
  • PANDORA Een R-pakket voor de analyse en rapportage van resultaten van RNA-Seq-gegevens door meerdere statistische algoritmen te combineren.
  • PennSeq PennSeq: nauwkeurige isovorm-specifieke kwantificering van genexpressie in RNA-Seq door niet-uniforme leesdistributie te modelleren.
  • kwark Quark maakt semi-referentiegebaseerde compressie van RNA-seq-gegevens mogelijk.
  • QuasR Kwantificeer en annoteer korte lezingen in R.
  • RapKaart Een snelle, gevoelige en nauwkeurige tool voor het in kaart brengen van RNA-seq-lezingen naar transcriptomen.
  • RNAeXpress Kan worden uitgevoerd met Java GUI of opdrachtregel op Mac, Windows en Linux. Het kan worden geconfigureerd om leestellingen, functiedetectie of GTF-vergelijking uit te voeren op toegewezen rnaseq-gegevens.
  • Recount Rcount: eenvoudig en flexibel RNA-Seq-lezen tellen.
  • rDiff is een hulpmiddel dat differentiële RNA-verwerking kan detecteren (bijv. alternatieve splicing, polyadenylatie of ribosoombezetting).
  • RNASeqPower Berekenen van monsters Grootteschattingen voor RNA Seq-onderzoeken. R pakket versie.
  • RNA-Skim RNA-Skim: een snelle methode voor RNA-Seq-kwantificering op transcriptniveau.
  • rSeq rSeq is een set tools voor RNA-Seq-gegevensanalyse. Het bestaat uit programma's die zich bezighouden met vele aspecten van RNA-Seq-gegevensanalyse, zoals beoordeling van de leeskwaliteit, het genereren van referentiesequenties, het in kaart brengen van sequenties, schatting van gen- en isovormexpressies (RPKM's), enz.
  • RSEM
  • rQuant is een webservice (Galaxy (computational biologie) installatie) die de hoeveelheid transcripten per genlocus bepaalt op basis van kwadratische programmering. rQuant is in staat om vooroordelen te evalueren die zijn geïntroduceerd door experimentele omstandigheden. Er wordt een combinatie van tools gebruikt: PALMapper (leest uitlijning), mTiM en mGene (inferentie van nieuwe transcripten).
  • Zalm is een softwaretool voor het berekenen van de overvloed aan transcripten uit RNA-seq-gegevens met behulp van een uitlijningsvrije (direct gebaseerd op de onbewerkte uitlezingen) of een op uitlijning gebaseerde (gebaseerd op vooraf berekende uitlijningen) benadering. Het maakt gebruik van een online stochastische optimalisatiebenadering om de waarschijnlijkheid van de transcript-abundanties onder de waargenomen gegevens te maximaliseren. De software zelf kan gebruik maken van vele threads om snel nauwkeurige kwantificeringsschattingen te maken. Het maakt deel uit van de Zeilvis suite van software, en is de opvolger van de Sailfish-tool.
  • SAJR is een door Java geschreven leesteller en R-pakket voor differentiële splitsingsanalyse. Het gebruikt junction reads om exon-uitsluiting te schatten en reads die in exon zijn toegewezen om de opname ervan te schatten. SAJR modelleert het door GLM met quasibinomiale distributie en gebruikt log-waarschijnlijkheidstest om significantie te beoordelen.
  • Scotty Voert vermogensanalyse uit om het aantal replicaties en de diepte van de sequentie te schatten die nodig zijn om differentiële expressie aan te roepen.
  • Zegel uitlijningsvrij algoritme om sequentie-expressie te kwantificeren door kmers te matchen tussen onbewerkte uitlezingen en een referentietranscriptoom. Verwerkt gepaarde leesbewerkingen en alternatieve isovormen en gebruikt weinig geheugen. Accepteert alle gangbare leesformaten en voert leestellingen, dekking en FPKM-waarden uit per referentiereeks. Open-source, geschreven in pure Java, ondersteunt alle platforms zonder hercompilatie en zonder andere afhankelijkheden. Gedistribueerd met BBmap. (Seal - Sequence Expression AnaLyzer - staat los van de door SEAL gedistribueerde short-read aligner.)
  • semisup[62] Semi-gesuperviseerd mengselmodel: detectie van SNP's met interactieve effecten op een kwantitatieve eigenschap
  • speurder is een programma voor analyse van RNA-Seq-experimenten waarvoor transcript-abundanties zijn gekwantificeerd met kallisto.
  • SplicingCompass differentiële splitsingsdetectie met behulp van RNA-Seq-gegevens.
  • sSeq Het doel van dit R-pakket is om de genen te ontdekken die differentieel tot expressie worden gebracht tussen twee omstandigheden in RNA-seq-experimenten.
  • StringTie is een assembler van RNA-Seq-uitlijningen in potentiële transcripten. Het maakt gebruik van een nieuw netwerkstroomalgoritme en een optionele de novo-assemblagestap om transcripten van volledige lengte te assembleren en te kwantificeren die meerdere splitsingsvarianten voor elke genlocus vertegenwoordigen. Het is ontworpen als een opvolger van Cufflinks (de ontwikkelaars omvatten enkele van de Cufflinks-ontwikkelaars) en heeft veel van dezelfde functies.
  • TIGAR Transcript isoform overvloed schattingsmethode met gapped uitlijning van RNA-Seq-gegevens door variatie Bayesiaanse gevolgtrekking.
  • TijdSeq Differentieel tot expressie gebrachte genen detecteren in tijdsverloop RNA-Seq-gegevens.
  • TPMCalculator[63] eenstapssoftware om de overvloed aan genomische kenmerken van mRNA te kwantificeren.
  • WemIQ is een softwaretool om isovormexpressie en exon-splitsingsverhoudingen van RNA-seq-gegevens nauwkeurig en robuust te kwantificeren.

Evaluatie van kwantificering en differentiële expressie

  • CompcodeR RNAseq-gegevenssimulatie, differentiële expressie-analyse en prestatievergelijking van differentiële expressiemethoden.
  • BESTE-O Differentiële expressieanalyse op basis van RNA-seq-gegevens - online.
  • JUIST uitgebreide vermogensevaluatie voor differentiële expressie met behulp van RNA-seq.
  • RNAopdeBANK computationele en empirische bronnen voor het benchmarken van RNAseq-kwantificering en differentiële expressiemethoden.
  • rnaseqcomp Verschillende kwantitatieve en gevisualiseerde benchmarks voor RNA-seq-kwantificeringspijplijnen. Kwantificeringen van twee voorwaarden voor genen, transcripten, knooppunten of exons door elke pijplijn met noodzakelijke meta-informatie moeten worden georganiseerd in numerieke matrices om door te gaan met de evaluatie.

Multitooloplossingen Bewerken

  • DEB is een web-interface/pijplijn die het mogelijk maakt om resultaten van significant tot expressie gebrachte genen van verschillende tools te vergelijken. Momenteel zijn er drie algoritmen beschikbaar: edgeR, DESeq en bayseq.
  • SARTtools Een DESeq2- en EdgeR-gebaseerde R-pijplijn voor uitgebreide differentiële analyse van RNA-Seq-gegevens.

Transponeerbare Element-uitdrukking Bewerken

  • TeXP is een transposable Element-kwantificatiepijplijn die doordringende transcriptie deconvolueert van autonome transcriptie van LINE-1-elementen. [64]

Commerciële oplossingen Bewerken

  • ActiveSite door Cofactor Genomics
  • Avadis NGS (momenteel Strand NGS)
  • BaseSpace van Illumina
  • Biokledingkast een geïntegreerd platform voor analyse van epigenomics en transcriptomics data.
  • BBrowser een platform voor het analyseren van openbare en interne eencellige transcriptomicsgegevens
  • CLC Genomics-werkbank
  • DNASTAR
  • ERGO
  • Genedata
  • GeneSpring GX
  • Geneonderzoeker door Nebion (basisversie is gratis voor academische onderzoekers).
  • geospiza
  • Gouden Helix
  • Maverix Biomics
  • VolgendeGENe
  • OmicsOffice
  • Partek Flow Uitgebreide eencellige analyse binnen een intuïtieve interface.
  • Qlucore. Eenvoudig te gebruiken voor analyse en visualisatie. Importeren met één knop van BAM-bestanden.

Open (gratis) source-oplossingen Bewerken

  • ArrayExpressHTS is een BioConductor-pakket dat voorbewerking, kwaliteitsbeoordeling en schatting van expressie van RNA-Seq-gegevenssets mogelijk maakt. Het kan op afstand worden uitgevoerd in de cloud van het European Bioinformatics Institute of lokaal. Het pakket maakt gebruik van verschillende tools: ShortRead (kwaliteitscontrole), Bowtie, TopHat of BWA (afstemming op een referentiegenoom), SAMtools-formaat, manchetknopen of MMSEQ (expressieschatting).
  • BioJupies is een webgebaseerd platform dat een complete RNA-seq-analyseoplossing biedt, van gratis uitlijnservice tot een compleet gegevensanalyserapport dat wordt geleverd als een interactief Jupyter-notebook.
  • BioWachtrij is een webgebaseerde wachtrij-engine die bij voorkeur is ontworpen om de efficiëntie en robuustheid van taakuitvoering in bio-informatica-onderzoek te verbeteren door een schatting te maken van de systeembronnen die voor een bepaalde taak nodig zijn. Tegelijkertijd wil BioQueue ook de toegankelijkheid en reproduceerbaarheid van data-analyse in biomedisch onderzoek bevorderen. Geïmplementeerd door Python 2.7, kan BioQueue werken in zowel POSIX-compatibele systemen (Linux, Solaris, OS X, enz.) als Windows. Zie ook. [65]
  • BioGarderobe is een geïntegreerd pakket dat voor analyse van ChIP-Seq- en RNA-Seq-datasets met behulp van een webgebaseerde gebruiksvriendelijke GUI. Voor RNA-Seq voert Biowardrobe mapping, kwaliteitscontrole, RPKM-schatting en differentiële expressieanalyse uit tussen monsters (groepen van monsters). Resultaten van differentiële expressieanalyse kunnen worden geïntegreerd met ChIP-Seq-gegevens om gemiddelde tagdichtheidsprofielen en warmtekaarten te bouwen. Het pakket maakt gebruik van verschillende tools open source tools waaronder STAR en DESeq. Zie ook. [66]
  • Chipster is een gebruiksvriendelijke analysesoftware voor data met een hoge doorvoer. Het bevat meer dan 350 analysetools voor next generation sequencing (NGS), microarray, proteomics en sequentiegegevens. Gebruikers kunnen automatische analyseworkflows opslaan en delen en gegevens interactief visualiseren met behulp van een ingebouwde genoombrowser en vele andere visualisaties.
  • DEWE (Differential Expression Workflow Executor) is een open source desktop-applicatie die een gebruiksvriendelijke GUI biedt voor het eenvoudig uitvoeren van differentiële expressie-analyses in RNA-Seq-gegevens. Momenteel biedt DEWE twee workflows voor differentiële expressieanalyse: HISAT2, StringTie en Ballgown en Bowtie2, StringTie en R-bibliotheken (Ballgown en edgeR). Het draait in Linux, Windows en Mac OS X.
  • easyRNASeq Berekent de dekking van high-throughput short-reads tegen een referentiegenoom en vat het samen per functie van belang (bijv. exon, gen, transcript). De gegevens kunnen worden genormaliseerd als 'RPKM' of door het 'DESeq'- of 'edgeR'-pakket.
  • ExpressiePlot
  • FASTGenomics is een online platform om single-cell RNA-sequencinggegevens en analyses te delen met behulp van reproduceerbare workflows. Gegevens over genexpressie kunnen worden gedeeld en voldoen aan de Europese normen voor gegevensbescherming (AVG). Met FASTGenomics kan de gebruiker zijn eigen gegevens uploaden en aangepaste en reproduceerbare workflows genereren voor de verkenning en analyse van genexpressiegegevens (Scholz et al. 2018).
  • FX FX is een gebruiksvriendelijke RNA-Seq genexpressie-analysetool, ondersteund door het concept van cloud-computing. Met FX kunt u eenvoudig uw RNA-Seq onbewerkte FASTQ-gegevens naar de cloud uploaden en de computerinfra de zware analyse laten doen.
  • heelal: Galaxy is een algemeen werkbankplatform voor computationele biologie.
  • GEN-teller is een Perl-pijplijn voor RNA-Seq differentiële genexpressieanalyses. Gene-counter voert uitlijningen uit met CASHX, Bowtie, BWA of andere SAM-uitvoeruitlijners. Differentiële genexpressie wordt uitgevoerd met drie optionele pakketten (NBPSeq, edgeR en DESeq) met behulp van negatieve binominale distributiemethoden. Resultaten worden opgeslagen in een MySQL-database om aanvullende analyses mogelijk te maken.
  • genpatroon biedt geïntegreerde oplossingen voor RNA-Seq-analyse (Broad Institute).
  • GeneProf Vrij toegankelijke, gebruiksvriendelijke analysepijplijnen voor RNA-seq- en ChIP-seq-experimenten.
  • GREIN is een interactief webplatform voor het opnieuw verwerken en opnieuw analyseren van GEO RNA-seq-gegevens. GREIN wordt aangedreven door de back-end computationele pijplijn voor uniforme verwerking van RNA-seq-gegevens en het grote aantal (>5.800) reeds verwerkte datasets. De gebruiksvriendelijke interfaces aan de voorkant bieden een schat aan gebruikersanalyse-opties, waaronder het sub-setten en downloaden van verwerkte gegevens, interactieve visualisatie, statistische poweranalyses, constructie van differentiële genexpressiesignaturen en hun uitgebreide functionele karakterisering, connectiviteitsanalyse met LINCS L1000-gegevens, enzovoort.
  • GT-FAR is een RNA seq-pijplijn die RNA-seq QC, uitlijning, referentievrije kwantificering en splicevariant-oproep uitvoert. Het filtert, trimt en lijnt reads sequentieel uit met genmodellen en voorspelt en valideert nieuwe splice junctions, waarna het de expressie kwantificeert voor elk gen, exon en bekende/nieuwe splice junction, en Variant Calling.
  • MultiExperiment Viewer (MeV) is geschikt voor het uitvoeren van analyse, datamining en visualisatie van grootschalige genomische data. De MeV-modules bevatten een verscheidenheid aan algoritmen om taken uit te voeren zoals clustering en classificatie, Student's t-test, Gene Set Enrichment Analysis of Significance Analysis. MeV draait op Java.
  • NGSUtils is een suite van softwaretools voor het werken met sequencing-datasets van de volgende generatie.
  • Spoor-RNA Schaalbare analyse van RNA-seq-splitsing en dekking.
  • TIK RNA-Seq Analysis Pipeline, een nieuwe cloudgebaseerde NGS-webtoepassing.
  • RSEQtools "RSEQtools bestaat uit een reeks modules die algemene taken uitvoeren, zoals het berekenen van genexpressiewaarden, het genereren van signaaltracks van in kaart gebrachte reads en het segmenteren van dat signaal in actief getranscribeerde regio's. Naast de anonimisering die door dit formaat wordt geboden, vergemakkelijkt het ook de ontkoppeling van de uitlijning van uitlezingen van downstream-analyses."
  • RobiNA biedt een grafische gebruikersinterface om met R/BioConductor-pakketten om te gaan. RobiNA levert een pakket dat automatisch alle benodigde externe tools (R/Bioconductor frameworks en Bowtie) installeert. Deze tool biedt een verscheidenheid aan kwaliteitscontrolemethoden en de mogelijkheid om veel tabellen en grafieken te produceren die gedetailleerde resultaten opleveren voor differentiële expressie. Bovendien kunnen de resultaten worden gevisualiseerd en gemanipuleerd met KaartMan en PageMan. RobiNA draait op Java versie 6.
  • RseqFlow is een RNA-Seq-analysepijplijn die een uitdrukkelijke implementatie van analysestappen voor RNA-sequencing-datasets biedt. Het kan pre- en post-mapping kwaliteitscontrole (QC) uitvoeren voor sequentiegegevens, expressieniveaus berekenen voor uniek in kaart gebrachte uitlezingen, differentieel tot expressie gebrachte genen identificeren en bestandsformaten converteren voor gemakkelijke visualisatie.
  • SLIM behandelt in kaart gebrachte RNA-Seq-gegevens en voert in wezen gegevensmanipulatie uit (selectie/uitsluiting van uitlezingen, clustering en differentiële expressie-analyse) en visualisatie (lees informatie, distributie, vergelijking met epigenomische ChIP-Seq-gegevens). Het kan op elke laptop worden uitgevoerd door een persoon zonder computerachtergrond. Een gebruiksvriendelijke grafische gebruikersinterface maakt de bediening van de tools eenvoudig.
  • Taverna is een open source en domeinonafhankelijk Workflow Management System - een suite van tools die worden gebruikt om wetenschappelijke workflows te ontwerpen en uit te voeren en om te helpen bij silico-experimenten.
  • TCW is een Transcriptome Computational Workbench.
  • TRAPLINE een gestandaardiseerde en geautomatiseerde pijplijn voor analyse, evaluatie en annotatie van RNA-sequencinggegevens.
  • WenenNGS Een toolbox voor het bouwen van efficiënte pijplijnen voor sequentieanalyse van de volgende generatie.
  • wapRNA Dit is een gratis webgebaseerde applicatie voor de verwerking van high-throughput RNA-Seq-gegevens (wapRNA) van next generation sequencing (NGS)-platforms, zoals Genome Analyzer van Illumina Inc. (Solexa) en SOLiD van Applied Biosystems (SOLiD) . wapRNA biedt een geïntegreerd hulpmiddel voor RNA-sequenties, verwijst naar het gebruik van High-throughput sequencing-technologieën om cDNA's te sequencen om informatie te krijgen over de RNA-inhoud van een monster.

Algemene hulpmiddelen Bewerken

  • Alternatief splicing-analysetoolpakket (ASATP) Alternatief splitsingsanalysetoolpakket (ASATP) omvat een reeks toolkits om alternatieve splitsingsgebeurtenissen te analyseren, die kunnen worden gebruikt om alternatieve splitsingsgebeurtenissen te detecteren en te visualiseren, ORF-wijzigingen te controleren, voorschriften voor alternatieve splitsing te beoordelen en statistische analyse uit te voeren.
  • Asprofiel is een reeks programma's voor het extraheren, kwantificeren en vergelijken van alternatieve splicing (AS)-gebeurtenissen uit RNA-seq-gegevens.
  • AStalavista De AStalavista-webserver extraheert en toont alternatieve splitsingsgebeurtenissen (AS) uit een bepaalde genomische annotatie van exon-intron-gencoördinaten. Door alle gegeven transcripten te vergelijken, detecteert AStalavista de variaties in hun splitsingsstructuur en identificeert het alle AS-gebeurtenissen (zoals exon skipping, alternatieve donor, enz.) door aan elk van hen een AS-code toe te wijzen.
  • KLASSE2 nauwkeurige en efficiënte splitsingsvariantannotatie van RNA-seq-lezingen.
  • Manchetknopen/Manchetknopen
  • DEXseq Inferentie van differentieel exongebruik in RNA-Seq.
  • Diceseq Statistische modellering van isovorm-splitsingsdynamiek uit RNA-seq-tijdreeksgegevens.
  • EBWijzigpunt Een empirisch Bayes-veranderingspuntmodel voor het identificeren van 3'- en 5'-alternatieve splicing door RNA-Seq.
  • Eoulsan Een veelzijdig raamwerk gewijd aan high-throughput sequencing data-analyse. Maakt geautomatiseerde analyse mogelijk (mapping, telling en differentiële analyse met DESeq2).
  • GESS voor de novo detectie van exon-skipping event-sites van onbewerkte RNA-seq-lezingen.
  • Bladsnijder een reeks nieuwe methoden die identificatie en kwantificering van nieuwe en bestaande alternatieve splitsingsgebeurtenissen mogelijk maken door zich te concentreren op intron-excisies.
  • CITROENEN[67] Een hulpmiddel voor de identificatie van splitsingsknooppunten in transcriptomen van organismen zonder referentiegenomen.
  • MAJIQ. Modellering van kwantificering van alternatieve junctie-inclusie.
  • MATTEN Multivariate analyse van transcriptiesplitsing (MATS).
  • MISO kwantificeert het expressieniveau van splice-varianten uit RNA-Seq-gegevens en is in staat om differentieel gereguleerde exons/isovormen in verschillende monsters te herkennen. MISO gebruikt een probabilistische methode (Bayesiaanse gevolgtrekking) om de waarschijnlijkheid van de leesoorsprong te berekenen.
  • Spoor-RNA Schaalbare analyse van RNA-seq-splitsing en dekking.
  • RPAsuite[68] RPASuite (RNA Processing Analysis Suite) is een computationele pijplijn om differentieel en coherent verwerkte transcripten te identificeren met behulp van RNA-seq-gegevens die zijn verkregen uit meerdere weefsel- of cellijnen.
  • RSVP RSVP is een softwarepakket voor het voorspellen van alternatieve isovormen van eiwitcoderende genen, gebaseerd op zowel genomisch DNA-bewijs als uitgelijnde RNA-seq-lezingen. De methode is gebaseerd op het gebruik van ORF-grafieken, die algemener zijn dan de splitsingsgrafieken die worden gebruikt bij traditionele transcriptiemontage.
  • SAJR berekent het aantal uitlezingen dat de opname of uitsluiting van een segment (een deel van het gen tussen twee dichtstbijzijnde splitsingsplaatsen) bevestigt en modelleert deze tellingen vervolgens door GLM met quasibinomiale verdeling om rekening te houden met biologische variabiliteit.
  • SGSeq Een R-pakket voor de novo voorspelling van splitsingsgebeurtenissen.
  • SplAdder Identificatie, kwantificering en testen van alternatieve splitsingsgebeurtenissen uit RNA-Seq-gegevens.
  • SpliceGrapher Voorspelling van nieuwe alternatieve splitsingsgebeurtenissen uit RNA-Seq-gegevens. Bevat ook grafische hulpmiddelen voor het visualiseren van lasgrafieken. [69][70]
  • Splice Jumper een op classificatie gebaseerde benadering voor het aanroepen van splitsingsknooppunten uit RNA-seq-gegevens.
  • SplicePie is een pijplijn voor het analyseren van niet-sequentiële en meerstaps splitsing. SplicePie bevat drie belangrijke analysestappen: het analyseren van de volgorde van splitsing per monster, zoeken naar recursieve splitsingsgebeurtenissen per monster en het samenvatten van voorspelde recursieve splitsingsgebeurtenissen voor alle geanalyseerde monsters (het wordt aanbevolen om meer monsters te gebruiken voor een hogere betrouwbaarheid). De eerste twee stappen worden afzonderlijk op elk monster uitgevoerd en de laatste stap kijkt naar de overlap in alle monsters. De analyse kan echter ook op één monster worden uitgevoerd.
  • SplicePlot is een hulpmiddel voor het visualiseren van alternatieve splicing en de effecten van splicing van kwantitatieve trait loci (sQTL's) uit RNA-seq-gegevens. Het biedt een eenvoudige opdrachtregelinterface voor het tekenen van sashimi-plots, hive-plots en structuurplots van alternatieve splitsingsgebeurtenissen uit .bam-, .gtf- en .vcf-bestanden.
  • SpliceR Een R-pakket voor classificatie van alternatieve splicing en voorspelling van coderingspotentieel uit RNA-seq-gegevens.
  • SpliceSEQ SpliceViewer is een Java-toepassing waarmee onderzoekers alternatieve mRNA-splitsingspatronen kunnen onderzoeken in gegevens van high-throughput mRNA-sequencing-onderzoeken. Sequentielezingen worden toegewezen aan splitsingsgrafieken die ondubbelzinnig het inclusieniveau van elk exon en splitsingsknooppunt kwantificeren. De grafieken worden vervolgens doorkruist om de eiwit-isovormen te voorspellen die waarschijnlijk het gevolg zijn van de waargenomen exon- en splice-junctie-aflezingen. UniProt-annotaties worden toegewezen aan elke eiwit-isovorm om mogelijke functionele effecten van alternatieve splicing te identificeren.
  • SpliceTrap[71] is een statistisch hulpmiddel voor de kwantificering van exon-inclusieverhoudingen uit RNA-seq-gegevens.
  • Splicing Express – een softwaresuite voor alternatieve splitsingsanalyse met behulp van sequentiegegevens van de volgende generatie.
  • SUPPA Deze tool genereert verschillende Alternative Splicing (AS)-gebeurtenissen en berekent de PSI-waarde ("Percentage Spliced ​​In") voor elke gebeurtenis waarbij gebruik wordt gemaakt van de kwantificering van transcript-abundanties van meerdere monsters.
  • SwitchSeq identificeert extreme veranderingen in splitsing (schakelgebeurtenissen).
  • valhek identificatie van echte splice junctions.
  • TrueSight Een zelftrainingsalgoritme voor Splice Junction-detectie met behulp van RNA-seq.
  • Vast-tools Een toolset voor het profileren van alternatieve splitsingsgebeurtenissen in RNA-Seq-gegevens.

Intron retentie analyse

  • IRcall / IRclassificatie IRcall is een rekentool voor IR-gebeurtenisdetectie uit RNA-Seq-gegevens. IRclassifier is een op machine learning gebaseerde benadering voor IR-gebeurtenisdetectie op basis van RNA-Seq-gegevens.

Differentieel gebruik van isovorm/transcript Bewerken

  • IsovormSwitchAnalyserenR IsoformSwitchAnalyzeR is een R-pakket dat statistische identificatie van isoform-switches met voorspelde functionele gevolgen mogelijk maakt, waarbij de van belang zijnde gevolgen kunnen worden gekozen uit een lange lijst, maar inclusief winst/verlies van eiwitdomeinen, signaalpeptideveranderingen in NMD-gevoeligheid. [72] IsoformSwitchAnalyzeR is gemaakt voor post-analyse van gegevens van elke volledige isovorm/transcript kwantificatietool, maar ondersteunt direct manchetknopen/manchetdiff, RSEM Kallisto en Salmon.
  • DRIMSeq Een R-pakket dat gebruikmaakt van gegeneraliseerde lineaire modellering (GLM) om isoform-switches te identificeren op basis van geschatte isoform-tellingsgegevens. [73]
  • BayesDRIMSeq Een R-pakket met een Bayesiaanse implementatie van DRIMSeq. [74]
  • Manchetknopen/Manchetknopen Volledige lengte isovorm/transcript kwantificering en differentiële analysetool die onder andere testen op veranderingen in het gebruik van isovorm die behoren tot hetzelfde primaire transcript (delen van een TSS) via een eenzijdige t-test gebaseerd op de asymptotische van de Jensen-Shannon-metriek. [55]
  • rSeqNP Een R-pakket dat een niet-parametrische benadering implementeert om te testen op differentiële expressie en splitsing van RNA-Seq-gegevens. [75]
  • isolator Volledige lengte isovorm/transcript kwantificering en differentiële analysetool die alle monsters in een experiment tegelijk analyseert met behulp van een eenvoudig Bayesiaans hiërarchisch model. Kan differentieel gebruik van isovormen identificeren door te testen op de waarschijnlijkheid van monotone splitsing. [76]

Genoomarrangementen als gevolg van ziekten zoals kanker kunnen afwijkende genetische modificaties zoals fusies of translocaties veroorzaken. Identificatie van deze modificaties speelt een belangrijke rol in carcinogenesestudies. [77]

  • Arriba[78] is een fusiedetectie-algoritme gebaseerd op de STAR [46] RNA-Seq-aligner. Het is de winnaar van de DREAM Challenge over fusiedetectie. [79] Arriba kan ook virale integratieplaatsen, interne tandemduplicaties, volledige exon-duplicaties, circulaire RNA's, versterkerkapinggebeurtenissen met immunoglobuline/T-celreceptorloci en breekpunten in introns of intergene regio's detecteren.
  • Bellerophontes
  • BreakDancer
  • BreakFusion
  • ChimeraScan
  • EBARDenovo
  • EricScript
  • DIEPSTE is een statistisch fusiedetectiealgoritme. [80] DEEPEST kan ook circulaire RNA's detecteren.
  • DeFuse DeFuse is een softwarepakket voor het ontdekken van genfusies met behulp van RNA-Seq-gegevens.
  • FusionAnalyser FusionAnalyser maakt gebruik van gepaarde leestoewijzingen aan verschillende genen (Bridge-lezingen).
  • FusionCatcher FusionCatcher zoekt naar nieuwe/bekende somatische fusiegenen, translocaties en chimera's in RNA-seq-gegevens (gestrande/niet-gestrande gepaarde-uitlezingen van Illumina NGS-platforms) van zieke monsters.
  • FusionHunter identificeert fusietranscripten zonder afhankelijk te zijn van reeds bekende annotaties. Het gebruikt Bowtie als een eerste aligner en gepaarde uitlezingen.
  • FusionKaart FusionMap is een fusie-aligner die reads over fusiejuncties rechtstreeks uitlijnt met het genoom zonder voorafgaande kennis van potentiële fusieregio's. Het detecteert en karakteriseert fusiejuncties met een resolutie van basenparen. FusionMap kan worden toegepast om fusiejuncties te detecteren in zowel enkel- als gepaarde datasets van gDNA-Seq- of RNA-Seq-onderzoeken.
  • FusionSeq
  • JAFFA is gebaseerd op het idee om een ​​transcriptoom te vergelijken met een referentietranscriptoom in plaats van een genoomgerichte benadering zoals andere fusievinders.
  • KaartSplice[81]
  • nzekering
  • Aankomst NGS RNA-Seq genexpressiebrowser.
  • PRADA
  • SOAPFuse detecteert fusietranscripten van menselijke gepaarde RNA-Seq-gegevens. Het presteert beter dan andere vijf vergelijkbare tools in zowel berekenings- als fusiedetectieprestaties met behulp van zowel echte als gesimuleerde gegevens. [82]
  • SOAPfusion
  • TopHat-Fusion is gebaseerd op de TopHat-versie en is ontwikkeld om reads als gevolg van fusiegenen te verwerken. Het vereist geen eerdere gegevens over bekende genen en gebruikt Bowtie om continue uitlezingen uit te lijnen.
  • ViralFusionSeq is een high-throughput sequencing (HTS) tool voor het ontdekken van virale integratiegebeurtenissen en het reconstrueren van fusietranscripten met een resolutie van één base.
  • ViReMa (Viral Recombination Mapper) detecteert en rapporteert recombinatie- of fusiegebeurtenissen in en tussen virus- en gastheergenomen met behulp van diepe sequencing-datasets. [83]
  • CNVseq detecteert variaties in het aantal kopieën die worden ondersteund op een statistisch model dat is afgeleid van array-vergelijkende genomische hybridisatie. Sequenties-uitlijning wordt uitgevoerd door BLAT, berekeningen worden uitgevoerd door R-modules en is volledig geautomatiseerd met Perl.

Eencellige sequentiëring. De traditionele RNA-Seq-methodologie is algemeen bekend als "bulk-RNA-Seq", in dit geval wordt RNA geëxtraheerd uit een groep cellen of weefsels, niet uit de individuele cel zoals bij methoden met één cel. Sommige tools die beschikbaar zijn voor bulk-RNA-Seq worden ook toegepast op eencellige analyse, maar om de specificiteit van deze techniek het hoofd te bieden, werden nieuwe algoritmen ontwikkeld.

  • CEL-Seq[84] eencellige RNA-Seq door gemultiplexte lineaire amplificatie.
  • Drop-Seq[85] Zeer parallelle genoombrede expressieprofilering van individuele cellen met behulp van nanoliterdruppels. Single cell transcriptoom sequencing in situ, d.w.z. zonder de cellen te dissociëren.
  • telescoop: een statistische pijplijn voor het identificeren van oscillerende genen in niet-gesynchroniseerde eencellige RNA-seq-experimenten.
  • SCUBA[86] Afstammingsrelaties extraheren en dynamische veranderingen modelleren die verband houden met celdifferentiatie met meerdere afstammingen.
  • scLVM[87] scLVM is een modelleringskader voor eencellige RNA-seq-gegevens die kunnen worden gebruikt om de waargenomen heterogeniteit in verschillende bronnen te ontleden, waardoor de correctie van verstorende bronnen van variatie mogelijk wordt.
  • scM&T-Seq Parallelle eencellige sequencing.
  • Sfinx[88] SPHINX is een hybride binning-aanpak die een hoge binning-efficiëntie bereikt door gebruik te maken van zowel 'compositionele' als 'overeenkomstige' kenmerken van de queryreeks tijdens het binningproces. SPHINX kan sequenties in metagenomische datasets net zo snel analyseren als op compositie gebaseerde benaderingen, maar heeft niettemin de nauwkeurigheid en specificiteit van op gelijkenis gebaseerde algoritmen.
  • TraceR[89] Gepaarde T-celreceptorreconstructie van eencellige RNA-Seq-uitlezingen.
  • VDJPuzzel[90] T-celreceptorreconstructie van eencellige RNA-Seq leest en koppelt het clonotype aan het functionele fenotype en transcriptoom van individuele cellen.

Geïntegreerde pakketten Bewerken

  • Monocle Differentiële expressie en tijdreeksanalyse voor eencellige RNA-Seq- en qPCR-experimenten.
  • SCANPY[91] Schaalbare op Python gebaseerde implementatie voor preprocessing, visualisatie, clustering, trajectinferentie en testen van differentiële expressie.
  • SCell geïntegreerde analyse van eencellige RNA-seq-gegevens.
  • Seurat[92] R-pakket ontworpen voor QC, analyse en verkenning van eencellige RNA-seq-gegevens.
  • met vriendelijke groeten een R/Bioconductor-pakket voor statistische beoordeling van celtoestandhiërarchieën van eencellige RNA-seq.
  • OPRECHTEN[93] Een pijplijn voor analyse van eencellige RNA-Seq-profilering.

Kwaliteitscontrole en genfiltering Bewerken

  • Celloline Een pijplijn voor het in kaart brengen en kwaliteitsbeoordeling van eencellige RNA-seq-gegevens.
  • OEFinder Een gebruikersinterface om besteleffecten in eencellige RNA-seq-gegevens te identificeren en te visualiseren.
  • SinQC Een methode en hulpmiddel om eencellige RNA-seq-gegevenskwaliteit te controleren.

Normalisatie Bewerken

  • BASIS Veranderingen in genexpressie op eencellig niveau begrijpen.
  • GRM Normalisatie en ruisonderdrukking voor eencellige RNA-seq-experimenten.

Dimensiereductie bewerken

Differentiële expressie bewerken

  • BPSC Een R-pakket BPSC voor modelaanpassing en differentiële expressieanalyses van eencellige RNA-seq.
  • MAST een flexibel statistisch raamwerk voor het beoordelen van transcriptionele veranderingen en het karakteriseren van heterogeniteit in eencellige RNA-sequencinggegevens.
  • SCDE Karakterisering van transcriptionele heterogeniteit door middel van analyse van de overdispersie van de route en genenset.

Visualisatie Bewerken

Deze simulatoren genereren in silico leest en zijn handige hulpmiddelen om de efficiëntie van algoritmen die zijn ontwikkeld om RNA-Seq-gegevens te verwerken, te vergelijken en te testen. Bovendien maken sommige van hen het mogelijk om RNA-Seq-protocollen te analyseren en te modelleren.

  • BIEREN Simulator is geformatteerd naar muis- of menselijke gegevens, en gepaarde leesbewerkingen worden gesequenced op het Illumina-platform. Beers genereert reads op basis van een pool van genmodellen die afkomstig zijn van verschillende gepubliceerde annotaties. Sommige genen worden willekeurig gekozen en daarna worden opzettelijk fouten geïntroduceerd (zoals indels, basisveranderingen en staarten van lage kwaliteit), gevolgd door de constructie van nieuwe splice-juncties.
  • compcodeR RNAseq-gegevenssimulatie, differentiële expressie-analyse en prestatievergelijking van differentiële expressiemethoden.
  • CuReSim een op maat gemaakte leessimulator.
  • Fluxsimulator implementeert een computerpijplijnsimulatie om een ​​RNA-Seq-experiment na te bootsen. Bij de simulatie wordt rekening gehouden met alle componentstappen die RNA-Seq beïnvloeden (reverse transcriptie, fragmentatie, adapterligatie, PCR-amplificatie, gelsegregatie en sequencing). Deze stappen presenteren experimentele attributen die kunnen worden gemeten, en de geschatte experimentele vooroordelen worden vastgelegd. Flux Simulator maakt het mogelijk om elk van deze stappen als modules samen te voegen om verschillende soorten protocollen te analyseren.
  • PBSIM PacBio leest simulator - naar nauwkeurige genoomassemblage.
  • Polyester Dit biogeleiderpakket kan worden gebruikt om RNA-seq-lezingen van differentiële expressie-experimenten met replicaten te simuleren. De uitlezingen kunnen vervolgens worden uitgelijnd en gebruikt om vergelijkingen van methoden voor differentiële expressie uit te voeren.
  • Willekeurige Leest Genereert synthetische reads van een genoom met een Illumina- of PacBio-foutmodel. De uitlezingen kunnen gepaard of ongepaard zijn, met willekeurige lengte en invoeggrootte, uitvoer in fasta of fastq, RandomReads heeft een brede selectie van opties voor mutatiesnelheden, met individuele instellingen voor vervanging, verwijdering, invoeging en N-snelheden en lengteverdelingen, annotatie leest met hun originele, niet-gemuteerde genomische start- en stoplocatie. RandomReads varieert de expressieniveaus niet en is dus niet ontworpen om RNA-seq-experimenten te simuleren, maar om de gevoeligheid en specificiteit van RNA-seq-aligners met de-novo-introns te testen. Bevat een tool voor het beoordelen en genereren van ROC-curven uit resulterende sam-bestanden. Open-source, geschreven in pure Java, ondersteunt alle platforms zonder hercompilatie en zonder andere afhankelijkheden. Gedistribueerd met BBmap.
  • rlsim is een softwarepakket voor het simuleren van RNA-seq-bibliotheekvoorbereiding met parameterschatting.
  • rnaseqbenchmark Een benchmark voor RNA-seq-kwantificeringspijplijnen.
  • rnaseqcomp Benchmarks voor RNA-seq-kwantificeringspijplijnen.
  • RSEM-leessimulator RSEM biedt gebruikers het 'rsem-simulate-reads'-programma om RNA-Seq-gegevens te simuleren op basis van parameters die zijn geleerd van echte datasets.
  • RNASeqReadSimulator bevat een reeks eenvoudige Python-scripts, gestuurd door de opdrachtregel. Het genereert willekeurige expressieniveaus van transcripten (single of paired-end), simuleert op gelijke wijze reads met een specifiek positioneel biaspatroon en genereert willekeurige fouten van sequencing-platforms.
  • RNA Seq-simulator RSS neemt SAM-uitlijningsbestanden van RNA-Seq-gegevens en simuleert over verspreide, meervoudige replica, differentiële, niet-gestrande RNA-Seq-gegevenssets.
  • SimSeq Een niet-parametrische benadering van simulatie van RNA-sequentiegegevenssets.
  • WGsim Wgsim is een kleine tool voor het simuleren van sequentielezingen van een referentiegenoom. Het is in staat diploïde genomen te simuleren met SNP's en insertie/deletie (INDEL) polymorfismen, en reads te simuleren met uniforme substitutie sequencing fouten. Het genereert geen INDEL-sequentiefouten, maar dit kan gedeeltelijk worden gecompenseerd door INDEL-polymorfismen te simuleren.

Het transcriptoom is de totale populatie van RNA's die tot expressie worden gebracht in één cel of groep cellen, inclusief niet-coderende en eiwitcoderende RNA's. Er zijn twee soorten benaderingen om transcriptomen samen te stellen.Genoomgeleide methoden gebruiken een referentiegenoom (indien mogelijk een voltooid en hoogwaardig genoom) als sjabloon om uit te lijnen en leesbewerkingen in transcripties samen te stellen. Genoomonafhankelijke methoden vereisen geen referentiegenoom en worden normaal gesproken gebruikt wanneer een genoom niet beschikbaar is. In dit geval worden reads direct in transcripten geassembleerd.


Resultaten

SNV aanroepen van scRNA-seq-gegevens

We hebben een pijplijn geïmplementeerd om SNV's rechtstreeks uit FASTQ-bestanden met scRNA-seq-gegevens te identificeren, volgens de SNV-richtlijn van GATK (aanvullende figuur 1). We hebben deze pijplijn toegepast op vijf scRNA-seq-kankerdatasets (Kim 20, Ting 21, Miyamoto 22, Patel 23 en Chung 24 zie Methoden), en hebben de efficiëntie van SNV-functies getest bij het ophalen van afzonderlijke celgroepen van belang. Deze datasets variëren in weefseltypes, oorsprong (muis of mens), leeslengtes en kaartvaardigheid (tabel 1). Ze hebben allemaal vooraf gedefinieerde celtypen (subklassen), die nuttige referenties bieden voor het beoordelen van de prestaties van een verscheidenheid aan clusteringmethoden die in deze studie worden gebruikt.

We hebben de GATK SNV-aanroeppijplijn geëvalueerd met behulp van verschillende benaderingen. Eerst hebben we de echte positieve snelheden geschat van de SNV-aanroeppijplijn op verschillende diepten van scRNA-seq-lezingen. Hiervoor hebben we een simulatie-experiment uitgevoerd door kunstmatig 50.000 willekeurige SNV's in de exonische regio's van hg19 te introduceren en het herstel van deze SNV's te meten met behulp van onze pijplijn op Kim-dataset. De echte positieve tarieven nemen monotoon toe met de leesdiepte. Voor slechts 4 leesdieptes bereikt de pijplijn gemiddeld meer dan 50% echt-positief en neemt toe tot 68% echt-positief wanneer de leesdiepte meer dan 6 is (Fig. 1a). Deze nauwkeurigheid is in overeenstemming met wat werd gerapporteerd uit bulkcel-RNA-seq 25 . Het percentage valse positieven is consistent <0.1, en de mediaan bereikt minder dan 0.05 wanneer de leesdiepte >6 is (Fig. 1b). We vergeleken de SNV-oproepresultaten van GATK met die van een andere SNV-beller FreeBayes 26 en verkregen vergelijkbare resultaten (aanvullende figuur 2A, B). Bovendien hebben we een simulatie-experiment uitgevoerd op een nieuwe niet-kanker 10X Genomic-dataset en vergelijkbare echte positieve snelheden verkregen (aanvullende figuur 2C, D). Bovendien laat GATK betere prestaties zien dan FreeBayes in de 10X-dataset. We hebben er daarom voor gekozen om GATK te gebruiken om SNV's te bellen voor de rest van het rapport, gezien de populariteit en prestaties.

De prestatiemetingen van GATK SNV-oproepen en SSrGE-pijplijnen. een, B Prestatiemeting van GATK SNV-aanroeppijplijn. Boxplots van echte positieve snelheid (een) en vals-positief percentage (B) met betrekking tot de leesdiepte op de opgeroepen SNV-positie. De snelheden worden berekend op basis van de GATK SNV-aanroeppijplijn, met behulp van hg19-referentiegenoom om gemodificeerde scRNA-seq-uitlezingen uit te lijnen van een subset van 20 cellen uit de Kim-gegevensset, die 50.000 willekeurige kunstmatige mutaties in het exonische gebied van de uitlezingen hebben geïntroduceerd. Foutbalken vertegenwoordigen standaarddeviatie. C, NS Vergelijkingen van belang de verschillende soorten functies in SSrGE-modellen, met betrekking tot de rangorde, in de Miyamoto-dataset (C) en Kim-gegevensset (NS). De scores van de SNV's en CNV's komen overeen met de som van de coëfficiënten afgeleid door de SSrGE-modellen. De genscore is de som van de SNV's-scores voor een bepaald gen. Blauw: CNV-functie Rood: eeSNV-functie Groen: genfunctie

SSrGE gebruiken om eeSNV's te detecteren in scRNA-seq-gegevens

Om de relatie tussen SNV en GE te koppelen, hebben we een methode ontwikkeld met de naam Sparse SNV-inferentie om genexpressie (SSrGE) weer te geven, zoals beschreven in Methoden. Naast SNV hebben we optioneel ook rekening gehouden met het effect van CNV's op genexpressie, aangezien kopie-aantalvariatie (CNV) ook kan bijdragen aan genexpressievariatie. Net als bij de op genen gebaseerde associatiemethode PrediXscan 17 , gebruikt SSrGE SNV's en optioneel CNV's als voorspellers om te passen in een lineair model voor genexpressie, onder LASSO-regularisatie en kenmerkselectie 27 . We kiezen LASSO in plaats van elasticNet voor bestraffing, zodat de lijst met resulterende eeSNV's kort is (aanvullende figuur 3). Deze eeSNV's dienen als verfijnde beschrijvende kenmerken voor daaropvolgende identificatie van subpopulaties. Om de bijdragen van SNV's die relevant zijn voor eiwitcoderende genen direct vast te stellen, gebruikten we de SNV's die zich tussen transcriptie-start- en eindlocaties van genen als input bevinden. We hebben verder de relatieve bijdragen van eeSNV's en CNV's aan genexpressie beoordeeld en ontdekten dat de coëfficiënten van de CNV's significant lager zijn dan die van eeSNV's (Fig. 1c, d). De rangorde van de topgenen met en zonder CNV's in de SSrGE-modellen zijn over het algemeen niet statistisch verschillend, aangezien de Kendall-Tau-correlatiescores 28 dicht bij 1 liggen met P-waarden = 0 (Kendall-Tau-test).

Bovendien kunnen SNV-genotypen en genexpressie op allelisch niveau ook de relaties tussen eeSNV's en genexpressie compliceren. Daarom hebben we het SSrGE-model verder gekalibreerd door SNV-genotype en allelspecifieke genexpressie te beschouwen. We gebruikten QUASAR 29 om de SNV-genotypen (aanvullende tabel 1) en de allelspecifieke genexpressie te schatten met behulp van het SNV-genotype. We herbouwden individuele SSrGE-modellen met alleen de SNV's van een bepaald genotype en allelspecifieke genexpressie, en voegden vervolgens de eeSNV-gewichten van gerelateerde SSrGE-modellen samen om een ​​definitieve ranglijst van eeSNV's te verkrijgen. De nieuwe ranglijsten verschillen niet statistisch van de vorige aanpak (aanvullende tabel 1). De Kendall-Tau-scores, die de overeenkomsten tussen het opnieuw gekalibreerde model en het originele model evalueren, hebben: P-waarden = 0 (Kendall-Tau-test) in alle datasets.

Ten slotte, om kwantitatief te evalueren of de eeSNV's verkregen van SSrGE echt significant zijn, hebben we een simulatiepijplijn ontworpen (methoden). De pijplijn maakt willekeurige binaire matrices van SNV's voor N gesimuleerde cellen, die zijn verbonden met de matrices van genexpressie. De SNV's die aanwezig zijn in de gesimuleerde cel hebben kansen om genexpressie van de genen positief of negatief te wijzigen. We gebruikten verschillende ruisniveaus om de GE- en de SNV-matrices te verstoren. We vergeleken de rangen van topgenen geïdentificeerd door SSrGE met de verwachte impact van elk gen dat door de simulatie wordt geleverd. De afgeleide genen met de hoogste rangorde die SSrGE gebruiken, hebben monotone en positieve correlaties met die van de simulatie (aanvullende figuur 4A). Deze correlaties zijn allemaal significant (P-waarde « 0,05, Kendall-Tau-test), onafhankelijk van de alfa en het gebruikte ruisniveau, wat de waarde van het SSrGE-model bevestigt. Bovendien hebben we, om de patronen van uitval in de gegevens te simuleren, ook twee andere parameters geïntroduceerd, één voor willekeurige uitval of bevooroordeelde uitval naar beide laag tot expressie gebrachte genen, en andere voor uitvalpercentage ten opzichte van cel, gen of uitlezingen (methoden). We hebben vastgesteld dat SSrGE goed presteert op alle uitvalmodellen (aanvullende figuur 4B). De SSrGE-methode is dus gevalideerd om eeSNV's te genereren die echt belangrijk zijn.

EeSNV's zijn beter dan genentellingen bij het vinden van subpopulaties

We hebben de prestaties van SNV's en genexpressie (GE) gemeten om subpopulaties op de vijf datasets te identificeren, met behulp van vijf clusteringbenaderingen (figuur 2). Deze clusteringbenaderingen omvatten twee dimensiereductiemethoden, namelijk hoofdcomponentenanalyse (PCA) 30 en factoranalyse (FA) 31 , gevolgd door K-means of de hiërarchische agglomeratieve methode (agglo) met WARD-koppeling 32 . We gebruikten ook een recent SIMLR-algoritme dat expliciet is ontworpen voor scRNA-seq-gegevensclustering en -visualisatie 33 . Om de nauwkeurigheid van de verkregen subpopulaties in elke dataset te evalueren, hebben we de metriek van aangepaste wederzijdse informatie (AMI) over 30 bootstrap-runs gebruikt, van de optimale een parameters (aanvullende gegevens 1). Deze optimale parameters werden geschat door verschillende een waarden voor elke dataset en elke clusteringbenadering (aanvullende figuur 5). Zoals getoond in Fig. 2, zijn eeSNV's betere eigenschappen om subpopulaties van kankercellen op te halen in vergelijking met GE, onafhankelijk van de gebruikte clusteringsmethoden. Onder de clusteringalgoritmen is SIMLR meestal een betere keuze met behulp van eeSNV-functies.

Vergelijking van clusternauwkeurigheid met behulp van eeSNV- en genexpressie (GE) -functies. eene Staafdiagrammen die de clusteringprestaties vergelijken met eeSNV versus genexpressie (GE) als kenmerken, over vijf verschillende clusterstrategieën en vijf datasets, elk met zijn eigen vooraf gedefinieerde klassen als waarheidsmaat: een Kim-gegevensset, B Ting-gegevensset, C Chung-gegevensset, NS Miyamoto-gegevensset, en e Patel-gegevensset. Y-as is de aangepaste wederzijdse informatie (AMI) die is verkregen over 30 bootstrap-runs (gemiddelde ± sd). Foutbalken vertegenwoordigen standaarddeviatie. *P < 0,05, **P < 0,01 en ***P < 0,001 (gekoppeld) t-toets). F Heatmap van de rangschikkingen tussen verschillende methoden en datasets zoals weergegeven in eene

Bovendien hebben we de Adjusted Rand-index (ARI) 34 en V-measure 35 berekend, twee andere statistieken voor modulariteitsmetingen (methoden) en vergelijkbare trends verkregen (aanvullende figuur 6). Net als bij AMI is ARI een genormaliseerde maatstaf tegen willekeurig toeval en evalueert het het aantal juiste verkregen paren. Anderzijds combineert V-measure de homogeniteitsscore, die de homogeniteit van referentieklassen in de verkregen clusters meet, en de volledigheidsscore, die de homogeniteit van verkregen clusters binnen de referentieklassen meet. Vanwege het hoge aantal kleine homogene clusters dat is verkregen voor de Miyamoto-dataset, hebben we hogere V-metingscores waargenomen in vergelijking met AMI- en ARI-resultaten (aanvullende figuur 6).

Visualisatie van subpopulaties met bipartiete grafieken

Bipartiete grafieken zijn een efficiënte manier om de binaire relaties tussen twee verschillende klassen van objecten te beschrijven. Vervolgens hebben we de aanwezigheid van de eeSNV's in eencellige genomen weergegeven met bipartiete grafieken met behulp van het ForceAtlas2-algoritme 36 . We hebben een rand (link) getekend tussen een celknooppunt en een bepaald eeSNV-knooppunt wanneer een eeSNV wordt gedetecteerd. De resultaten laten zien dat een bipartiete grafiek een robuust en meer onderscheidend alternatief is (Fig. 3), in vergelijking met PCA-plots (met behulp van GE en eeSNV's) en met SIMLR (met behulp van GE). Voor de Kim-gegevensset scheidt een tweedelige grafiek de drie klassen perfect. Gen-gebaseerde visualisatiebenaderingen met behulp van PCA of SIMLR hebben echter verkeerd geclassificeerde gegevenspunten. Voor Ting-gegevens geeft de bipartiete grafiek van de eeSNV-cel een duidelijke visualisatie van alle zes verschillende subgroepen van afzonderlijke cellen. Andere drie benaderingen hebben meer overdreven scheidingen tussen dezelfde muis circulerende tumorcellen (CTC) subgroep MP (oranje kleur), maar meng een aantal andere subpopulaties (bijv. GM, MP en TuGMP-groepen). De Miyamoto-dataset is de moeilijkst te visualiseren dataset van de vier datasets, vanwege het hoge aantal (24) referentieklassen en heterogeniteit tussen CTC's. Bipartiete grafieken zijn niet alleen in staat om de hele populaties te condenseren, maar ook om subpopulaties (bijvoorbeeld de oranje gekleurde pc-subpopulatie) veel beter te scheiden dan de andere drie methoden.

Vergelijking van clustering visualisatie met behulp van eeSNV en genexpressie (GE) functies. een Bipartiete grafieken met eeSNV's en cellen als twee groepen knooppunten. Een rand tussen een cel en een eeSNV vertegenwoordigt de aanwezigheid van de eeSNV binnen die cel. B Principe componentanalyse (PCA) resultaten met GE als kenmerken van de cellen. C PCA-resultaten met behulp van eeSNV's als kenmerken van de cellen. NS SIMILR-resultaten met GE als invoer

Kenmerken van eeSNV's

In SSrGE, regularisatieparameter een is de enige afstemvariabele die de schaarste van de lineaire modellen regelt en het aantal eeSNV's beïnvloedt. Vervolgens onderzochten we de relatie tussen eeSNV's en een (Afb. 4). Voor elke dataset, het verhogen van de waarde van een vermindert het aantal geselecteerde eeSNV's in het algemeen (Fig. 4a), evenals het gemiddelde aantal eeSNV's dat is geassocieerd met elk tot expressie gebracht gen (Fig. 4b). het optimale een hangt af van het clusteringalgoritme en de gebruikte dataset (aanvullende gegevens 1 en aanvullende figuur 5). Het verhogen van de waarde van een breidt het aandeel eeSNV's met annotaties in de menselijke dbSNP138-database uit, wat wijst op een hoger echt positief aantal SNV's in vergelijking met dat voorafgaand aan SSrGE-filtering (Fig. 4c). Bovendien, toenemende een verhoogt het gemiddelde aantal cellen dat dezelfde eeSNV's deelt (figuur 4d), wat overeenkomt met het afnemende aantal eeSNV's (figuur 4b). Let op de lichte daling van het gemiddelde aantal cellen dat dezelfde eeSNV's deelt in Kim-gegevens wanneer: een > 0.6, dit komt door overpenalisering (bijv. een = 0,8 levert slechts 34 eeSNV's op).

Kenmerken van de eeSNV's. x-as: de regularisatieparameter een waarden die worden gebruikt door LASSO-penalisering in de SSrGE-modellen. En de Y-assen zijn: een Log10-transformatie van het aantal eeSNV's. B Het gemiddelde aantal eeSNV's per gen. C Het aandeel SNV's met dbSNP138-annotaties (menselijke datasets). NS Het gemiddelde aantal cellen dat eeSNV's deelt

Kankerrelevantie van eeSNV's

Na de simulatieresultaten hebben we de verschillende eeSNV's en de genen voor de vijf datasets gerangschikt uit SSrGE-modellen (aanvullende gegevens 2). We ontdekten dat eeSNV's van meerdere genen in humaan leukocytenantigeen (HLA) complex, zoals HLA-A, HLA-B, HLA-C, en HLA-DRA, staan ​​bovenaan in alle vier de menselijke datasets (tabel 2 en aanvullende gegevens 2). HLA is een familie die codeert voor de belangrijkste histocompatibiliteitscomplex (MHC) eiwitten in de mens. Bèta-2-microglobuline (B2M), staat daarentegen op de 7e en 45e plaats in respectievelijk Ting- en Patel-datasets (tabel 2). in tegenstelling tot HLA die alleen in de mens aanwezig is, B2M codeert voor een serumeiwit dat betrokken is bij het histocompatibiliteitscomplex MHC dat ook aanwezig is in muizen. Andere eerder geïdentificeerde genen voor tumoraansturing worden ook bovenaan gerangschikt door SSrGE, wat de impact van mutaties op cis-genexpressie aantoont (tabel 2 en aanvullende gegevens 2). Opmerkelijk, KRAS, eerder gekoppeld aan tumorheterogeniteit (Kim et al. 37), staat op de 13e plaats van alle eeSNV-bevattende genen (aanvullende gegevens 2). AR en KLK3, twee genen waarvan werd gemeld dat ze genomische heterogeniteit in tumorontwikkeling vertonen in de oorspronkelijke studie 22 , staan ​​respectievelijk op de 6e en 19e plaats. EGFR, het therapeutische doelwit in Patel-studie met een belangrijke oncogene variant EGFRvIII (Patel et al. 23 ), staat op de 88e plaats van de 4225 genen. Daarom zijn genen die het best gerangschikt zijn door hun eeSNV's empirisch gevalideerd.

Vervolgens voerden we meer systematisch onderzoek uit om KEGG-routes te identificeren die in elke dataset waren verrijkt, waarbij we deze genen gebruikten als input voor DAVID-annotatietool 38 (Fig. 5a). De bipartiete grafiek van de route-gen illustreert de relaties tussen deze genen en verrijkte routes (figuur 5b). Zoals verwacht, onderscheidt de antigeenverwerkings- en presentatieroute zich als de meest verrijkte route, met de som −log10 (P-waarde) van 15,80 (Fig. 5b). Fagosoom is de op één na meest verrijkte route in alle vier de datasets, grotendeels vanwege de leden in HLA gezinnen (Fig. 5b). Bovendien zijn routes gerelateerd aan celverbindingen en adhesie (focale adhesie en celadhesiemoleculen CAM's), eiwitverwerking (eiwitverwerking in endoplasmatisch reticulum en proteasoom) en PI3K-AKT-signaleringsroute ook sterk verrijkt met eeSNV's (Fig. 5a).

Gen- en KEGG-routes verrijkt met eeSNV's in de vijf scRNA-seq-datasets. een Bipartiete grafiek met significante KEGG-routes en genen verrijkt met eeSNV's als knooppunten. Er bestaat een grens tussen een significante route en een gen als dit gen deel uitmaakt van de route. Genen van elke dataset worden weergegeven met een duidelijke kleur. De grootte van de knooppunten weerspiegelt het gen en de routescores. De genscores worden berekend door SSrGE en de routescores zijn de som van de genscores die voor elke route zijn gekoppeld. B KEGG-routes verrijkt in de top 100 genen op basis van eeSNV-bijdragen in de vijf datasets. Paden worden gesorteerd op de som van de −log10 (P-waarde) van elke dataset, in aflopende volgorde

Heterogeniteitsmarkeringen met behulp van eeSNV's

We tonen het potentieel van eeSNV als heterogeniteitsmarkers via pseudo-tijdreconstructie en heatmap, met behulp van Kim-dataset (Fig. 6a, b). We hebben een Minimum Spanning Tree gebouwd, vergelijkbaar met het Monocle-algoritme 39 , om de pseudo-tijdordening van de afzonderlijke cellen te reconstrueren. De grafieken leggen prachtig de continuïteit tussen cellen vast, van de primaire tot uitgezaaide tumoren (figuur 6a). Bovendien belicht het de vertakkingen binnen elk van de subgroepen, wat de heterogeniteit binnen de groep aantoont. Integendeel, pseudo-tijdreconstructie met behulp van GE vertoonde veel minder complexiteit en meer singulariteit (aanvullende figuur 7). Ter bevestiging toont hiërarchische clustering van eeSNV heatmp ook een bijna perfecte scheiding van de drie subgroepen (figuur 6b). Vervolgens hebben we onze methode gebruikt om eeSNV's te identificeren die specifiek zijn voor elke eencellige subgroep en de genen gerangschikt volgens deze eeSNV's. We vergeleken de kenmerken van de metastasecellen met primaire tumorcellen. Twee hoogst gerangschikte genen geïdentificeerd door de methode, CD44 (1e) en LPP (2e), waarvan bekend is dat ze de verspreiding van kankercellen en metastasegroei bevorderen na genomische verandering 40,41,42,43 (aanvullende gegevens 2). Andere topgenen die verband houden met metastase worden ook geïdentificeerd, waaronder: LAMPC2 (7e), HSP90B1 (14e), LEERDE KENNEN (44e), en FN1 (52e). Zoals verwacht, zijn Pathways in Cancer de best gerangschikte route verrijkt met mutaties (Fig. 6b). Bovendien behoren focale adhesie- en endocytose-routes tot de andere significant gemuteerde routes, die nieuwe inzichten verschaffen over het mechanistische verschil tussen primaire en gemetastaseerde RCC-tumoren (figuur 6c).

Heterogeniteit onthuld door Kim-dataset. een Pseudo-time orderreconstructie van de verschillende subgroepen: enkele cellen van PDX primaire tumor (groen), patiëntmetastase (blauw) en PDX-metastase (rood). De eeSNV's worden verkregen met een = 0,6. De boom wordt afgeleid met behulp van het MST-algoritme op de op correlatie gebaseerde afstandsmatrix van Pearson. B Heatmap van de cellen (rij) en eeSNVs (kolom). C Bipartiete grafiek met behulp van KEGG-routes (oranje kleur) en genen verrijkt met significante eeSNV's (groene kleur) als twee set knooppunten. De significante eeSNV's worden afgeleid uit de uitgezaaide cellen, vergeleken met de primaire tumorcellen. De grootte van de knooppunten weerspiegelt de genscores (gegeven door SSrGE) en de routescores (som van de genscores). Lichter groen geeft genen met een lagere rang aan

Een andere toepassing is om het potentieel van eeSNV's te onderzoeken om verschillende celtypen binnen hetzelfde individu te scheiden. Hiertoe hebben we dezelfde analyse uitgebreid op de twee patiënten BC03 en BC07 uit de Chung-dataset, die primaire en gemetastaseerde tumorcellen hebben, evenals infiltrerende immuuncellen. Nogmaals, bipartiete grafieken en op minimale omspannende bomen gebaseerde visualisatie illustreren duidelijke scheidingen van tumor (primaire en gemetastaseerde) cellen van immuuncellen (aanvullende figuur 8). Bovendien vertonen de genen met de hoogste rangorde ten opzichte van de metastase-subgroepen (BC03M en BC07M) enkele overeenkomsten met die in de Kim-dataset (aanvullende gegevens 3). Opvallend, CD44 staat ook bovenaan (23e) van de significante genen van BC07M. evenzo, HSP90B1 staat bovenaan als de 63e en 51e belangrijkste genen, respectievelijk in BC03M en BC07M.

Integratie van DNA- en RNA-seq-gegevens in dezelfde afzonderlijke cellen

Gekoppelde DNA-seq- en RNA-seq-metingen van dezelfde enkele cel vormen de nieuwe horizon van eencellige genomica. Om het potentieel van SSrGE bij het integreren van DNA- en RNA-gegevens te demonstreren, hebben we openbare gegevens over enkele cellen gedownload, die DNA-methylatie en RNA-seq-records hebben van dezelfde enkelvoudige hepatocellulair carcinoom (HCC) (Hou-gegevensset) 44 . Vervolgens hebben we SNV's afgeleid uit de uitgelijnde bisulfiet-sequencing (RRBS) -lezingen (zie methoden) en gebruikten ze om de scRNA-seq-gegevens van dezelfde monsters te voorspellen. Gezien het feit dat SNV's heterozygoot zijn tussen tumor- en normale cellen, en dat een klein deel van de genen die eeSNV's herbergen onderhevig zijn aan CNV, hebben we zowel de percentages van SNV's als CNV's opgenomen als aanvullende voorspellende variabelen in het SSrGE-model naast SNV-kenmerken. Interessant is dat de geïdentificeerde eeSNV's normale hepatocellulaire cellen duidelijk kunnen scheiden van kankercellen en de twee kankersubtypen die in het oorspronkelijke onderzoek zijn geïdentificeerd, kunnen benadrukken (Fig. 7). Pseudo-tijdordening toont een vroege divergentie tussen de twee eerder aangenomen subtypen (figuur 7b). Deze waarneming wordt bevestigd door hiërarchische clustering van op eeSNV gebaseerde heatmap (figuur 7c). Een vereenvoudigde versie van het SSrGE-model, waarbij alleen SNV-kenmerken werden beschouwd als voorspellers voor genexpressie, deelde 92% eeSNV's zoals die in Fig. 7a, en bereikte bijna identieke scheidingen tussen normale hepatocellulaire cellen en kankercellen. Dit bevestigt de eerdere observatie dat eeSNV's veel belangrijkere voorspellende kenmerken zijn in vergelijking met CNV's (Fig. 1c, d).

Heterogeniteit onthuld door eeSNV's uit multi-omics eencellige HCC (Hou) dataset. Normale cellen zijn groen gekleurd en HCC-tumorcellen zijn helder (subpopulatie I) of donker (subpopulatie II) rood gekleurd. een Bipartiete grafiekweergave met behulp van de enkele cellen en eeSNV's van RRBS leest als twee sets knooppunten. B Pseudo-time-orderreconstructie van de HCC-cellen, met behulp van eeSNV's uit RRBS. C Heatmap van de cellen (rij) en eeSNV's (kolom)

We postuleerden dat een aanzienlijk deel van de bisulfiet-aflezingen was uitgelijnd met methylatie-eilanden geassocieerd met genpromotorregio's. We hebben dus eeSNV's geannoteerd binnen 1500 bp stroomopwaarts van het transcriptie-startcodon en genen verkregen met deze eeSNV's, die significant voorkomen in bepaalde groepen. Bij het vergelijken van HCC versus normale controlecellen, vertonen twee genen PRMT2, SULF2 statistisch significante mutaties in HCC-cellen (P-waarden < 0,05, Fisher's exact test). Downregulatie van PRMT2 werd eerder in verband gebracht met borstkanker 45 , van SULF2 was bekend dat het upreguleerde in HCC en de groei van HCC bevordert 46 .


KENMERKEN

SNP bellen

QualitySNPng neemt als invoer een sequentie-uitlijningsbestand in SAM (3) of ACE (13) formaat met single-end of paired-end reads zoals geproduceerd door read mappers zoals Bowtie (14) en BWA (15) of de novo assemblers zoals CABOG (16) en PCAP (17). De QualitySNPng-software gebruikt drie filterstappen om onbetrouwbare variaties te elimineren die vergelijkbaar zijn met de originele QualitySNP (6). Het eerste filter labelt alle nucleotideverschillen die optreden bij een minimaal aantal uitlezingen als potentiële SNP's. Dit minimum aantal kan door de gebruiker worden aangepast als een absoluut aantal of een fractie van het totaal aantal uitlezingen. Het tweede filter houdt rekening met de kwaliteit van de sequentie die het variant-nucleotide bevat en laat alleen de SNP's met een hoge betrouwbaarheid over. De basiskwaliteit, gekenmerkt door de Phred-score (18), wordt hiervoor gebruikt wanneer deze aanwezig is in de uitlijning van de invoersequentie. Als er geen Phred-score aanwezig is, wordt aangenomen dat alle nucleotiden in de invoerwaarden van hoge kwaliteit zijn. Bovendien kan de score worden aangepast op basis van specifieke sequentiepatronen. Variaties die in homopolymere traktaten worden gevonden, kunnen bijvoorbeeld worden ingesteld op lage kwaliteit. Deze optie is met name handig wanneer Roche/454-sequenties worden verwerkt, omdat bekend is dat deze gevoelig zijn voor homopolymeer-geassocieerde fouten (19). Ook kan een aantal nucleotiden aan de 5'- of 3'-uiteinden als lage kwaliteit worden bestempeld, bijvoorbeeld om valse SNP's te voorkomen die worden veroorzaakt door onvolledige adapter-trimming. Het derde filter omvat het voorspellen van haplotypes op basis van de SNP's met hoge betrouwbaarheid. Alleen als variatie wordt ondersteund door een of meer haplotypes, wordt het als een betrouwbare SNP beschouwd. In vergelijking met de originele QualitySNP-software zijn de tweede en derde filters omgekeerd om ervoor te zorgen dat de gedetecteerde haplotypes alleen zijn gebaseerd op SNP's met een hoge betrouwbaarheid. De looptijd hangt grotendeels af van de grootte en aard van de invoersequentiegegevens, variërend van minder dan een minuut voor een set van ∼25.000 contigs (∼100 reads/contig) tot 10 min voor één grote enkele contig van 7000 bp met 800 000 leest. Grotere en meer variabele sequentie-uitlijningen kunnen langer duren, ook afhankelijk van de striktheid van de instellingen: het verlagen van de drempel voor potentiële SNP's zal resulteren in meer werk voor de tweede en derde filters die rekenkundig het duurst zijn. Voor grote invoerbestanden die naar verwachting enkele uren in beslag zullen nemen, kan men de opdrachtregel 'servermodus'-optie van de tool gebruiken om de SNP-aanroep op een rekenserver uit te voeren en vervolgens de resultaten te analyseren met behulp van de GUI.

Resultaten bekijken

De resultaten van de SNP-oproep kunnen direct worden bekeken met behulp van de GUI, en ze worden ook opgeslagen in gestructureerde tekstbestanden voor latere referentie of verdere verwerking. De verschillende contigs van de uitlijning van de invoersequentie worden vermeld in een tabel met het aantal SNP's, de uitlezingen en de haplotypes. Het aantal haplotypes in de tabel wordt gecorrigeerd voor gefragmenteerde haplotypes door het maximale aantal haplotypes te nemen dat per SNP-positie wordt gevonden. Fragmentatie van haplotypes kan optreden en wordt veroorzaakt door SNP's die te ver uit elkaar liggen om aan één allel te worden gekoppeld door een single-sequence read of een read pair, zie figuur 1 voor een voorbeeld. De contig-lijst kan worden gefilterd op basis van het aantal reads, SNP's en haplotypes en (gedeeltelijke) contig-naam.

Screenshot van QualitySNPng-uitvoer. Resultaat van de SNP-detectie met behulp van: Arabidopsis thaliana RNA-seq-gegevensset van twee toetredingen die zijn toegewezen aan Arabidopsis afschriften (20). Aan de linkerkant wordt de lijst met transcripties weergegeven, hier beperkt met behulp van de filteropties tot alleen die met tussen 8 en 25 SNP's en tussen 1000 en 2000 reads. De details voor het geselecteerde transcript worden rechts getoond: het bovenste venster toont de voorspelde haplotypes, het middelste venster toont de allelen per aanwinst (Col-0 en Can-0) en het onderste venster toont de reads uitgelijnd met het transcript gesorteerd per haplotype (lezingen zonder SNP worden niet getoond).

Screenshot van QualitySNPng-uitvoer. Resultaat van de SNP-detectie met behulp van Arabidopsis thaliana RNA-seq-gegevensset van twee toetredingen die zijn toegewezen aan Arabidopsis afschriften (20). Aan de linkerkant wordt de lijst met transcripties weergegeven, hier beperkt met behulp van de filteropties tot alleen die met tussen 8 en 25 SNP's en tussen 1000 en 2000 reads. De details voor het geselecteerde transcript worden rechts getoond: het bovenste venster toont de voorspelde haplotypes, het middelste venster toont de allelen per aanwinst (Col-0 en Can-0) en het onderste venster toont de reads uitgelijnd met het transcript gesorteerd per haplotype (lezingen zonder SNP worden niet getoond).

Een geselecteerde contig toont een venster met de uitgelijnde waarden en de aangegeven SNP's, een tabel met de haplotypes en hun allelen per SNP-positie en een tabel met de allelen voor de verschillende monsters in de invoergegevens (Figuur 1). Om deze laatste tabel te laten verschijnen, moet het uitlijningsbestand van de invoervolgorde worden geannoteerd met een 'leesgroep' (zie SAM-formaatdefinitie) per gelezen, of als alternatief, groepslabels hebben opgenomen in de gelezen namen. Het overzicht per monster kan bijvoorbeeld worden gebruikt om allelen tussen verschillende toetredingen, stammen of ecotypes te vergelijken en voor genotypering door sequencing.

Handmatige inspectie van de leesuitlijning samen met het haplotype-overzicht geeft inzicht in de kwaliteit van de uitlijning, lokale leesdekking en posities van de SNP's. Op basis van deze visuele inspectie kan men besluiten de strengheid van de filterinstellingen te wijzigen en de SNP-aanroep opnieuw uit te voeren. De uitlezingen kunnen worden gesorteerd op startpositie of per haplotype en kunnen op verschillende zoomniveaus worden bekeken.

Voor het maken van een SNP-array kunnen marker-SNP's worden geselecteerd en geëxporteerd met een flankerende sequentie van een gespecificeerde lengte als een gestructureerd tekstbestand dat kan worden geïmporteerd in een standaard spreadsheetprogramma of een testontwerpprogramma.

Om problemen bij SNP-scores te voorkomen, raden we aan markers te selecteren uit contigs die niet meer dan het maximaal verwachte aantal haplotypes hebben, d.w.z. twee voor diploïde soorten, omdat contigs met meer haplotypes paraloge sequenties kunnen bevatten. Om de kans op het verkrijgen van markers die goed presteren op arrays verder te vergroten, zou men het BLAST-programma (21) kunnen gebruiken om markersequenties te elimineren die een hoge gelijkenis vertonen met andere genen, zoals eerder werd aangetoond (7).


RNA-SEQ SPECIFIEKE EFFECTEN EN BLOKKERING

Net als bij microarray-onderzoeken kunnen RNA-seq-experimenten worden beïnvloed door de variabiliteit die voortkomt uit hinderlijke factoren, in de RNA-seq-literatuur vaak technische effecten genoemd. Naast verwerkingsdatum, technicus en reagensbatch, die algemeen bekend zijn bij onderzoekers, zijn er enkele erkende technische effecten die specifiek zijn voor de RNA-seq-procedures. Een van deze technische effecten komt van het genereren van bibliotheken van cDNA-fragmenten, waarbij verschillende ligaties van adapters en PCR-amplificaties betrokken zijn. Naast het bibliotheekvoorbereidingseffect zijn er ook andere technologiespecifieke effecten. De veelgebruikte Illumina-sequencing-technologie kan bijvoorbeeld acht monsters tegelijk sequencen in de acht banen in één stroomcel, waarvan één baan vaak wordt gebruikt voor het controlemonster. Er is dus variatie van de ene stroomcel naar de andere, wat resulteert in een stroomceleffect. Bovendien is er variatie tussen de individuele rijstroken binnen een stroomcel als gevolg van systematische variatie in sequencing-cycli en/of base-calling. Van deze bronnen van variatie is het bibliotheekvoorbereidingseffect het grootst [40]. De stroomcel- en baaneffecten zijn relatief klein [20, 41].

Vanuit het oogpunt van experimenteel ontwerp zijn er enkele stappen die kunnen worden genomen om deze effecten goed aan te pakken, naast de technologische verbetering. Voor het bibliotheekvoorbereidingseffect biedt het introduceren van replica's vóór deze stap (vaak biologische replica's) een manier om dit effect te schatten en op de juiste manier te verwerken in de statistische gevolgtrekking. Het blokkerende ontwerp kan worden gebruikt om de stroomcel- en baaneffecten te elimineren. Blokkeren is ook een experimenteel ontwerpprincipe. Het dicteert vergelijkingen binnen een blok, een bekende oninteressante factor die variatie veroorzaakt, zoals het stroomceleffect. Afhankelijk van het aantal te vergelijken behandelingen/groepen kan ofwel het randomized complete block design (RCBD) ofwel het balanced incomplete block design (BIBD) worden gebruikt om dit doel te bereiken. Sequencing-banen kunnen ook dienen als blokken wanneer barcodering tijdens bibliotheekvoorbereiding (voor het protocol voor Illumina-platform, zie http://www.illumina.com/Documents/products/datasheets/datasheet_sequencing_multiplex.pdf) wordt gebruikt voor multiplexen [ 17] . Er is echter aangetoond dat multiplexen de gevoeligheid en reproduceerbaarheid bij miRNA-detectie vermindert [42]. Daarom moet voorzichtigheid worden betracht wanneer multiplexing wordt overwogen met het oog op het verminderen van stroomcel- en baaneffecten.


Discussie

We rapporteren bewijs van uitgebreide RNA-bewerking in een menselijke cellijn, wat de noodzaak onderstreept van robuuste methoden om deze gebeurtenissen te detecteren. We hebben een pijplijn ontwikkeld voor het identificeren van RNA-bewerkingsgebeurtenissen door RNA-DNA-verschillen in hetzelfde individu te screenen via opeenvolgende kwaliteitscontrolefilters. De pijplijn presteerde goed op gesimuleerde gegevens in termen van zowel gevoeligheid als specificiteit (figuur 1c en aanvullende tabellen 4,5).

Valse positieven zijn een cruciaal probleem bij de analyse van SNV's uit RNA-Seq-gegevens, zoals blijkt uit de simulatieresultaten (Fig. 1c) en onze ervaring met een eerdere versie van onze methode die geen strikte kwaliteitscontrolefilters bevatte (gegevens niet getoond ). Dit probleem, dat ook duidelijk is bij genomische SNP-detectie 24,35 en de recente herevaluatie van het grootschalige RNA-Seq-onderzoek 36 , kan te wijten zijn aan verschillende factoren. Sommige van de valse positieven zijn zeker het gevolg van onnauwkeurigheid in de uitlijning van het lezen, waarvan paraloge, zeer vergelijkbare sequenties en splitsingsknooppunten belangrijke bronnen zijn. Bovendien kan de betrouwbaarheid van het in kaart brengen verder worden aangetast in de aanwezigheid van RNA-transcriptsequentievariatie. Vanuit technisch oogpunt zouden gepaarde leesbewerkingen met een grotere lengte (75, 90 of 100 bp in onze studie) vermoedelijk de betrouwbaarheid van de uitlijning van het lezen moeten vergroten 37 . Om de inconsistentie in leestoewijzing aan te pakken, hebben we twee onafhankelijke filters in onze aanroepmethode geïmplementeerd (de MES- en BLAT-stappen) die fout-positieve resultaten verwijderen die werden geïdentificeerd in een naïeve analyse van gesimuleerde uitlezingen. Ten slotte kunnen vooroordelen bij het aanroepen van bewerkingssites ook voortkomen uit onvoldoende dekking en nauwkeurigheid van de genoomsequentie, wat problematisch wordt bij het vaststellen van mogelijke bewerkingen op posities die overeenkomen met genomische polymorfismen. De 36-voudige gemiddelde dekking van onze genoom-resequencing-gegevens, gecombineerd met het YH-genoomvariantenfilter dat zygositeit en kopie-aantalvariatie van het genoom op de bewerkingssites aanpakt, vermindert de kans op dergelijke fouten.

Onze methode en resultaten bevestigen dat kwaliteitscontrolefilters nodig zijn om RNA-bewerkingssites nauwkeurig te identificeren. Deze studie geeft ook de noodzaak aan om RNA-bewerkingen te archiveren voor de ontwikkeling van meer grondige statistische modellen die voorkennis van sequentievariatie en de gebruikte sequentietechnologieën bevatten. Met name recente computationele benaderingen voor het detecteren van A → I (G) -baseveranderingen in menselijke mRNA-databases bevatten ook moleculaire kenmerken die ten grondslag liggen aan RNA-editing, zoals RNA-vouwkenmerken of weefsel-geprefereerde distributie van bewerkingsgebeurtenissen 38,39 . Deze filtercriteria kunnen dus worden opgenomen als aanvullende modules in onze workflow om complexere of functioneel relevante datasets te analyseren in toekomstige deep-sequencing-onderzoeken.

Terwijl dit manuscript werd voorbereid, werden twee grootschalige schermen voor RNA-DNA-verschillen gerapporteerd die deep-sequencing-benaderingen gebruikten die vergelijkbaar waren met de onze 20,21. Er waren verschillende verschillen tussen deze onderzoeken, waaronder het ontwerp van de pijplijnen voor het aanroepen van sites, de omvang van het gesamplede transcriptoom, het aantal geïdentificeerde sites en de verdeling van bewerkingstypen. Deze onderzoeken rapporteerden met name dat ∼ 23% (ref. 20) en 62% (ref. 21) van de bewerkingssites A→G-wijzigingen waren, terwijl de overgrote meerderheid (>90%) van onze kandidaat-sites A→G-wijzigingen waren. Bovendien vormt ons werk een aanvulling op eerdere en recente bevindingen met diepgaande informatie over het bewerken van een bredere bemonstering van het transcriptoom, met name de intergene transcripten.

Te midden van de recente diepgaande onderzoeken naar RNA-bewerking, is er een aanzienlijke controverse geweest rond de technische nadelen van deze technologie, evenals gerelateerde analyse-algoritmen en experimenteel ontwerp. We stellen voor dat onze algemene methodologie deze zorgen grondig aanpakt en fouten minimaliseert bij het afleiden van bewerkingssites uit RNA-Seq-gegevens. De behoefte aan strikte criteria bij het identificeren van RNA-DNA-verschillen wordt versterkt door een recent rapport dat aantoont dat, na rekening te hebben gehouden met paraloge en genomische variantsequenties, een aanzienlijk deel van de kandidaat-sites die in een eerdere studie werden geïdentificeerd 20 in feite valse resultaten kunnen vertegenwoordigen 36 . We hebben daarom ook een onafhankelijke beoordeling van deze gegevens 20 uitgevoerd met behulp van onze workflow (aanvullende tabel 13). Deze analyse onthulde dat kandidaat-editing- of RNA-DNA-verschilsites waarschijnlijk werden overschat door hun aanpak. Naast de mogelijke bijdrage van paraloge sequenties en genomische varianten als foutbron, vonden we ook dat datakwaliteit en diepte een rol speelden bij het mogelijk foutief aanroepen van varianten. Bijna 60% van de eerder geïdentificeerde 20 sites kan worden verwijderd door ons "leesparameter" -filter op basis van hun locatie binnen 8 bp vanaf het einde van 50 bp-lezingen. Bovendien, vanwege de lage diepte van individuele genoomsequenties die in dat rapport werden bemonsterd, voldeden sommige van de vermeende bewerkingssites niet aan de vereisten gedefinieerd door ons "genoomvarianten" -filter en kunnen ze in feite polymorfe sequenties vertegenwoordigen die door het genoom worden gecodeerd. Met name echter zijn kenmerken van de bewerkingssites die door onze pijplijn worden aangeroepen vanuit de gegevens 20 vergelijkbaar met kenmerken van sites die worden aangeroepen vanuit onze RNA-Seq-gegevens (aanvullende tabel 13). Dit suggereert dat de discrepanties tussen de twee onderzoeken voornamelijk kunnen worden toegeschreven aan de verschillende onderzoeksontwerpen in plaats van aan de onderliggende moleculaire biologie.

Samenvattend ondersteunen onze resultaten de nauwkeurigheid van onze multifilter modulaire pijplijn om een ​​editoom te annoteren en om een ​​globale en kwantitatieve catalogus van nucleotidevarianten in een transcriptoom te bieden. De volgende stap is duidelijk om deze methodologie toe te passen op grootschaligere deep-sequencing-onderzoeken met extra fysiologisch relevante monsters, om editomes uitgebreider en nauwkeuriger te profileren en te vergelijken.


MATERIALEN EN METHODES

Ophalen van empirische gegevens

We gebruikten drie soorten empirische gegevens (Figuur 1, aanvullende tabel S1). Eerst gebruikten we eerder gepubliceerde RNA-seq-gegevens van vier verschillende onderzoeken, waaronder transcriptoomsequencing van een 17-lid, drie generaties familie (26), transcriptoomsequencing van een trio (3), transcriptoomsequencing van een paar eerstegraads familieleden en twee niet-verwante individuen (27) evenals gerichte transcriptsequencing (Ion AmpliSeq, Life Technologies) van 7 niet-verwante individuen en een paar broers en zussen (28). Ten tweede hebben we genetische variatiegegevens opgehaald van zes paren eerste- en tweedegraads familieleden uit de CDX-populatie van het 1000 Genomes Project (29). Op basis van deze gegevens hebben we vervolgens RNA-seq-lezingen gesimuleerd (de methode van simulatie van RNA-seq-lezingen wordt hieronder beschreven). Ten derde hebben we genetische variatiegegevens opgehaald van niet-verwante individuen uit het 1000 Genomes Project (29) waaruit we families hebben gesimuleerd (de methode van simulatie van genotypen van familieleden wordt hieronder beschreven) en RNA-seq-lezingen.

Overzicht van gegevensworkflow voor verwantschapsdetectie en stamboomreconstructie met behulp van RNA-seq-gegevens. GQ: genotypekwaliteit, DP: diepte, IBD: identiteit door afkomst, MAF: kleine allelfrequentie.


Dual RNA-seq

Er is een breed scala aan interacties tussen soorten, zoals parasitisme, symbiose, competitie, enz. De conventionele transcriptoomsequencing kan alleen de informatie van een enkele soort bestuderen, wat niet alleen een deel van de gegevens verspilt, maar ook het monster zelf beïnvloedt tijdens de scheiding van twee soorten.

Van Dual RNA-seq is aangetoond dat het alle klassen van coderende en niet-coderende transcripten van zowel gastheer als pathogeen tegelijkertijd bewaakt. CD Genomics biedt een hoge resolutie, betaalbare en ongecompliceerde dubbele RNA-seq-service om direct inzicht te krijgen in de interactie tussen gastheer en ziekteverwekker.

Door slechts één transcriptoombibliotheek te construeren, maakt dubbele RNA-seq van totaal gemengd RNA na dubbele rRNA-depletie of poly(A)-capture het sequensen en analyseren van twee (of meer) soorten tegelijk mogelijk zonder de noodzaak om de soort te scheiden, waardoor de dynamische veranderingen in genexpressie daartussen. Ondertussen, door middel van het interactiemodeldiagram, om de regulerende relatie van genen en het interactiemechanisme tussen twee soorten te verkrijgen om het regulerende netwerk in het interactieproces, het mechanisme van pathogene infectie en de gastheerresistentie tegen ziekte te onderzoeken en om de evolutionaire relatie van pathogeen tussen verschillende soorten, en de positieve selectie van verwante genen op basis van homologe genen verder te onderzoeken.

CD Genomics kan omgaan met verschillende invasiemodellen -- pathogenen waarbij bacteriën, schimmels, protozoa, enz. betrokken zijn, kunnen een zoogdier of plant zijn. We streven ernaar om uitgebreide dubbele RNA-seq-services te bieden, van experimenteel ontwerp tot biocomputationele analyse om uw onderzoeksbehoeften te ondersteunen.

Belangrijkste voordelen en functies:

  • Beschikbaar voor verschillende invasiemodellen
  • Flexibiliteit van het monstertype: totaal gemengd RNA, geïnfecteerde gastheercellen, enz.
  • UMI-technologie maakt kleine hoeveelheden invoersjabloon mogelijk

Dubbele RNA-seq-workflow


Generieke pijplijn van dubbele RNA-seq-gegevensanalyse (figuur van V. Arluison et al., 2018)

  1. Alexander J. Westermann, et al., Dual RNA-seq onthult niet-coderende RNA-functies in interacties tussen gastheer en ziekteverwekker. Natuur. 2016, vol. 000.
  2. Alexander J. Westermann, et al., Oplossen van gastheer-pathogeen-interacties door dubbele RNA-seq. PLoS Patho. 2017, 13(2).
  3. Véronique Arluison en Claudio Valverde (eds.), Bacterieel regulerend RNA: methoden en protocollen. Methoden in moleculaire biologie. 2018, vol. 1737.
  4. Pisu et al., Dual RNA-seq van met Mtb geïnfecteerde macrofagen in vivo onthult ontologisch verschillende gastheer-pathogeen interacties. Mobiele rapporten. 2020, vol. 30.

Methoden:

RNA- en bibliotheekvoorbereiding

Totaal RNA werd geïsoleerd met behulp van Trizol uit een vers verzameld nierweefsel van een volwassen vrouwelijke muis van 129S1 x Cast/Ei F1 achtergrond (F1 fokken werd uitgevoerd in de DFCI muizenfaciliteit, met ouderdieren verkregen van de Jackson Laboratories. Al het dierlijke werk werd uitgevoerd onder DFCI-protocol 09-065, goedgekeurd door het DFCI Institutional Animal Care and Use Committee. Dieren werden gehuisvest in overeenstemming met de Gids voor de verzorging en het gebruik van proefdieren). RNA-integriteit werd beoordeeld met behulp van Bioanalyzer en het werd gekwantificeerd met behulp van het Qubit-apparaat. Porties van deze totale RNA-prep werden gebruikt om drie sets replicaatbibliotheken te bereiden, allemaal beginnend met polyA RNA-isolatie: zes bibliotheken met NEBNext-kit, elk beginnend met 100 ng zes bibliotheken met SMARTseq v4-kit beginnend met 10 ng RNA en hetzelfde, met 0,1 n RNA. Alle bibliotheken werden bereid in de DFCI-sequencingfaciliteit volgens de instructies van de fabrikant. Alle sequencing werd gedaan op een HiSeq 2500-machine in de DFCI-sequencingfaciliteit.

Voor het voorbeeld van gegevensanalyse dat is besproken in Use Case 2, werden Abelson lymfoblastoïde klonale cellijnen Abl.1 en Abl.2 van 129S1 × Cast/Ei F1-achtergrond 14 gekweekt in RPMI-medium (Gibco), dat 15% FBS (Sigma), 1X L bevatte. -Glutamine (Gibco), 1X penicilline/streptomycine (Gibco) en 0,1% β-mercapto-ethanol (Sigma). Totaal RNA werd uit cellen geëxtraheerd met behulp van een op magnetische kralen gebaseerd protocol met behulp van Sera-Mag SpeedBeads (GE Healthcare). Geïsoleerd totaal RNA werd met DNase behandeld met RQ1 DNase (Promega). RNA-sequencingbibliotheken werden bereid met behulp van SMARTseq v.4-kit (Takara) beginnend met 10 ng totaal RNA voor elke replica. Sequentiebepaling werd uitgevoerd op het HiSeq4000-platform bij Novogene, Inc.

Aanvullende gegevensbronnen

De Geuvadis-dataset bevat RNA-seq-gegevens over LCL's die zijn vastgesteld op basis van 462 personen uit vijf populaties 16 . FASTQ-bestanden voor reads met gepaarde uiteinden (2 × 75 bp) voor vijf personen (HG00117, HG00355, NA06986, NA19095, NA20527), elk met 7 replica's, werden gedownload van het 1000 Genomes-project [ftp.1000genomes.ebi.ac.uk/ vol1/ftp/phase3/data/]. Allelische telgegevens (verwerkt met behulp van standaard GTEx-pijplijn) voor een willekeurig geselecteerde individuele GTEX-11NUK uit de Midpoint-fase van het GTEx-project werden gedownload van dbGaP [https://www.ncbi.nlm.nih.gov/projects/gap/cgi -bin/study.cgi?study_id=phs000424.v7.p2]. We gebruikten ook RNA-seq-gegevens van neuronale voorlopercellen van muizen (GSE54016) [https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE54016].

AI-schattingspijplijn

AI-schattingstools die hier worden beschreven, worden in twee delen geïmplementeerd. Stappen voor gegevensverwerking van leesuitlijning tot alleltellingen waren gebaseerd op de ASEReadCounter-tool in de GATK-pijplijn 24 . Het werd opnieuw geïmplementeerd met behulp van gedeeltelijk Python-scripts ontwikkeld door S. Castel (github.com/secastel/allelecounter), en aangeduid als ASEReadCounter* (github.com/gimelbrantlab/asereadcounter_star). Berekening van QCC, schatting van betrouwbaarheidsintervallen en differentiële AI-analyse zijn geïmplementeerd in de Qllelic-toolset (github.com/gimelbrantlab/Qllelic).

Referentie voorbereiding

Twee aangepaste oudergenomen ("pseudogenomes" 44,45 zie ASEReadCounter* op github.com/gimelbrantlab/asereadcounter_star) werden gebruikt voor het in kaart brengen als referentie. Voor 129S1 × Cast/Ei F1 kruismuismonsters worden allelen bepaald met genomen van de moeder- en vaderstam en stamspecifieke varianten voor menselijke gegevens (Geuvadis-project 16 ) gefaseerde SNP-variantaanroepen werden gebruikt. Respectievelijke allele varianten van Single Nucleotide Polymorphism-database 142 (dbSNP142 46 ) of 1000 Genomes Project fase 3 structurele variant-aanroepset werden in het referentiegenoom ingevoegd (GRCm38.86 of hs37d5, 1000 genomen, fase 2), om een ​​paar "ouderlijke" referentiegenomen te verkrijgen voor verdere analyse (zie voor een uitgewerkt voorbeeld aanvullende opmerking S6). Voor elk organisme hebben we ook een vcf-bestand gemaakt met één allel dat als referentie wordt beschouwd (maternale 129S1 of eerste gefaseerde allel) en de andere als een alternatief allel. Alleen heterozygote sites werden gebruikt in de stroomafwaartse analyse.

Berekening van alleltellingen

Uitlijning: RNA-seq-uitlezingen werden uitgelijnd met STAR-aligner (v.2.5.4a) 47 op elk van twee pseudogenomen, met standaarddrempel voor kwaliteit van uitlijning. Alleen uniek uitgelijnde uitlezingen werden verder in overweging genomen (-outFilterMultimapNmax 1-parameter werd toegepast).

Alleltoewijzing: uitlezingen die in slechts één van de uitlijningen aanwezig waren, en uitlezingen die een betere uitlijningskwaliteit hadden voor een van de uitlijningen, werden toegewezen aan de corresponderende leesgroep van het allel en respectievelijk gemarkeerd. De resterende uitlezingen (niet overlappende heterozygote SNP-posities) werden niet stroomafwaarts gebruikt. Deze procedure is gebaseerd op Python-scripts van S.Castel.

Lees deduplicatie: wanneer toegepast, werd Picard (v.2.8.0 broadinstitute.github.io/picard) MarkDuplicates gebruikt.

Bibliotheek-subsampling: om ervoor te zorgen dat alle uitgelijnde tellingen tot vergelijkbare distributies behoren, werden BAM-bestanden die overeenkomen met hetzelfde experiment gesubsampled tot dezelfde grootte met behulp van een aangepast bash-script met willekeur gegenereerd met behulp van de shuf-opdracht.

Alleltelling voor SNP's: Gegeven een vcf-bestand met heterozygote posities (besproken onder Referentievoorbereiding), werd de dekking over elke SNP berekend met behulp van samtools mpileup (v.1.3.1) en ontleed om de tabel met allelische tellingen te verkrijgen. Deze procedure is gebaseerd op Python-scripts van S.Castel.

Alleltelling voor genen: Alle exons die tot hetzelfde gen behoren, werden samengevoegd tot een enkel genmodel op basis van het GTF-bestand (RefSeq GTF-bestanden, GRCm38.68 en GRCh37.63, werden gedownload van Ensemble ftp://ftp.ensembl.org/ pub/release-68/gtf/ 48), met uitzondering van overlappende gebieden die tot meerdere genen behoren. Gefaseerde alleltellingen voor alle SNP's binnen het hele genmodel werden opgeteld:

Tenzij anders aangegeven, werden alleen genen met ≥10 totale tellingen gebruikt voor verdere analyse.

Schattingen van allelische onbalans: schattingen voor AI voor een gen g werden verkregen als een deel van het aantal maternale genen (mG) tot het totale aantal allelgenen:

Extra tools voor AI-berekening

We gebruikten drie tools in onze vergelijkende analyses: Qllelic (v0.3.2), MBASED (v1.20.0) en GeneiASE (v1.0.1). Voor uniformiteit is input voor vergelijkingen voor alle tools op dezelfde manier voorbewerkt. In het geval van echte gegevens werden dezelfde genen gefilterd, zodat de gegevens voldoen aan alle gereedschapsvereisten voor SNP-nummers en SNP-dekkingen (zie aanvullende figuur S4). De standaardparameters van alle tools werden gebruikt in analyses (zie aanvullende figuren S4, S7b):

Analyse met één steekproef: voor Qllelic: standaardparameters van de functie PerformBinTestAIAnalysisForConditionNPoint(). Voor MBASED: runMBASED-functie met isPhased = TRUE, numSim = 10000 en de rest ingesteld op standaardwaarden. Voor GeneiASE: standaardparameters van geneiase -t static

Analyse met twee steekproeven: Voor Qllelic: standaardparameters van de functie PerformBinTestAIAnalysisForTwoConditions(). Voor MBASED: runMBASED-functie met isPhased = TRUE, numSim = 10000 en de rest ingesteld op standaardwaarden. Voor GeneiASE: standaardparameters van geneiase -t icd

Berekening van kwaliteitscorrectieconstante voor 2 replica's

Omdat gendekking een essentiële parameter is van het proportionele bèta-binomiale model van allelische onbalans, zijn we begonnen met de standaardprocedure van het splitsen van genen in bins door dekking om ons model te discretiseren.

Bingrenzen werden gedefinieerd als afgeronde krachten van de basis B = 1.05: (ar=^<1> ceil ,lceil ^<2> ceil ,lceil ^<3> ceil ,ldots >) . Merk op dat QCC-berekeningen niet sterk afhankelijk zijn van de exacte bakgrootte, zie aanvullende figuur S7. elk gen G werd toegewezen aan een bak volgens het gemiddelde van zijn tellingen C1G en C2G van twee technische replica's:

dan elke bak Bl, met een reeks genen Gl, werd afzonderlijk verwerkt.

AI-verdeling inpassen als bèta-binomiaal mengsel

Passen bij de parameters van een mengsel van twee proportionele bèta-binomiale distributies, die de waargenomen AI vertegenwoordigen van het gepoolde replicaat in elke dekkingsbak Bl:


Bekijk de video: How To Create A Volcano Plot In GraphPad Prism (Januari- 2022).