Informatie

Bij welke stap moet ik een detectiefilter toepassen bij het voorbewerken van microarray-gegevens? (Vóór/Na normalisatie, verwijdering van batcheffecten)


Wat is de beste werkwijze bij het voorbewerken van microarray-gegevens met behulp van een detectiefilter (op scanner p-waarde)?

Stel ik heb een microarray dataset die ik moet normaliseren met Loess en corrigeren met ComBat. Wanneer moet ik een detectiefilter toepassen ten opzichte van de andere stappen in het proces?

In mijn experimenteel ontwerp heb ik twee pijplijnen om te testen:

  • Normaliseren per monster tussen 0 - 1
  • ComBat
  • Löss-normalisatie tussen monsters

en

  • Löss-normalisatie tussen monsters
  • ComBat

Is er een best practice voor de timing van het toepassen van een detectiefilter?


Mijn opmerking hierboven staat nog steeds; op voorwaarde dat uw detectiefilter niet afhankelijk is van het normaliseren van uw gegevens, kan uw detectiefilter overal bestaan.

Aangezien het echter lijkt alsof u weet dat u een PCA wilt uitvoeren en alle normalisaties kent die u al zou willen proberen, is het het eenvoudigst om eerst al uw normalisatie uit te voeren, zodat ze dan hoog scorende vectoren moet uitfilteren die lijken te worden veroorzaakt door variatie tussen steekproeven.


Normalisatie en kwantificering van differentiële expressie in microarrays voor genexpressie

Christine Steinhoff is een postdoctoraal wetenschapper bij de afdeling Computational Molecular Biology van het Max Planck Instituut voor Moleculaire Genetica in Berlijn. Haar onderzoeksinteresse richt zich op epigenetische genregulatiemechanismen, met name gebaseerd op experimentele benaderingen van genexpressie.

Martin Vingron is directeur van het Max Planck Instituut voor Moleculaire Genetica in Berlijn en hoofd van de afdeling Computational Molecular Biology. Zijn huidige onderzoeksinteresse ligt in het gebruik van genexpressiegegevens en evolutionaire gegevens voor de opheldering van genregulerende mechanismen.

Christine Steinhoff, Martin Vingron, Normalisatie en kwantificering van differentiële expressie in genexpressie-microarrays, Briefings in bio-informatica, Volume 7, Issue 2, juni 2006, pagina's 166–177, https://doi.org/10.1093/bib/bbl002


Abstract

Genomische data-integratie is een belangrijk doel dat moet worden bereikt voor grootschalige genomische data-analyse. Dit proces is zeer uitdagend vanwege de diverse informatiebronnen die voortkomen uit genomics-experimenten. In dit werk bespreken we methoden die zijn ontworpen om genomische gegevens te combineren die zijn vastgelegd uit microarray-genexpressie-experimenten (MAGE). Erkend is dat de belangrijkste bron van variatie tussen verschillende MAGE-datasets te wijten is aan de zogenaamde 'batch-effecten'. De methoden die hier worden besproken, voeren gegevensintegratie uit door de ongewenste variatie die gepaard gaat met batcheffecten te verwijderen (of preciezer te proberen te verwijderen). Ze worden gepresenteerd in een uniform kader samen met een breed scala aan evaluatietools, die verplicht zijn bij het beoordelen van de efficiëntie en de kwaliteit van het gegevensintegratieproces. We bieden een systematische beschrijving van de MAGE-gegevensintegratiemethodologie samen met enkele basisaanbevelingen om de gebruikers te helpen bij het kiezen van de juiste tools om MAGE-gegevens te integreren voor grootschalige analyse en ook hoe ze vanuit verschillende perspectieven kunnen worden geëvalueerd om hun efficiëntie te kwantificeren. Alle genomische gegevens die in deze studie voor illustratiedoeleinden werden gebruikt, werden opgehaald uit InSilicoDB http://insilico.ulb.ac.be.


Het menselijke transcriptoom

Matthias E. Futschik PhD, . Christine Sers PhD, in moleculaire pathologie (tweede editie), 2018

Bioinformatica I—Basisverwerking van Microarray- en RNA-seq-gegevens

Het vinden van betekenisvolle structuren en informatie in een oceaan van numerieke waarden verkregen in transcriptoomexperimenten is een formidabele taak en vereist verschillende benaderingen van gegevensverwerking en -analyse. Hoewel het type data-analyse natuurlijk afhangt van de gestelde onderzoeksvragen en het gekozen technische platform, zijn de gebruikelijke eerste stappen het voorbewerken en normaliseren van gegevens om hoeveelheden en vergelijkbare maten voor genexpressie af te leiden (Fig. 7.4). Vervolgens worden deze metingen samengevoegd in een zogenaamde genexpressiematrix, die in feite een tabel is met rijen die overeenkomen met specifieke transcripten en kolommen die overeenkomen met monsters. De geconstrueerde matrix bevat twee soorten verschillende expressieprofielen in een compacte vorm. De reeks expressiewaarden van de verschillende genen die in een monster worden gemeten, vormt het expressieprofiel van het monster. Evenzo vormt de expressie van een gen over de verschillende monsters het expressieprofiel van dit gen. Zo leveren de kolommen van de genexpressiematrix de profielen van de monsters, terwijl de rijen de profielen van de genen leveren. Deze matrix kan vervolgens worden onderzocht voor de detectie van genen met significante vouwveranderingen in expressie, clustering en classificatie van expressieprofielen van monsters of genen, en functionele profilering [18]. Bij al deze taken speelt visualisatie van data een belangrijke rol voor kwaliteitscontrole en kennisontdekking. Opgemerkt moet worden dat de vroege analysestappen het latere onderzoek kunnen beïnvloeden. Zo kan de keuze van voorbewerkings- en normalisatieprocedures grote invloed hebben op de resultaten van clustering en classificatie.

Figuur 7.4 . Bioinformatica-workflow voor transcriptomische analyse met behulp van microarrays of RNA-seq-technologie.

Terwijl gegevens van beide technologieën verschillende voorbewerkingen vereisen, kunnen analyses op een hoger niveau worden uitgevoerd met vergelijkbare of zelfs dezelfde benaderingen.

Microarray-gegevensvoorverwerking

De eerste voorbewerkingsstap voor microarraygegevens is gewoonlijk de logaritmische transformatie van signaalverhoudingen. Op deze manier worden vouwveranderingen van dezelfde orde van grootte symmetrisch rond nul voor opregulatie (verhoogde signaalovervloed) en neerwaartse regulatie (verlaagde signaalovervloed). Als u bijvoorbeeld log2-transformatie gebruikt, wordt een positieve of negatieve vouwverandering van twee weergegeven als respectievelijk 1 of -1. De spotintensiteiten zijn meestal gelijkmatiger verdeeld over de schaal, wat een gemakkelijkere detectie van intensiteitsbias of verzadigingseffecten mogelijk maakt (Fig. 7.5). Bovendien neigt de variantie van intensiteiten homogener te zijn met betrekking tot een log-intensiteitsschaal in vergelijking met een lineaire. Voor statistische tests is vaak een homogene variantie vereist.

Figuur 7.5 . Plotrepresentaties voor signaalintensiteiten van een tweekleurige array die colorectale kankercellijnen vergelijkt die zijn afgeleid van primair carcinoom (gelabeld door Cy3) en van een metastase (gelabeld door Cy5).

De spotintensiteiten in beide fluorescentiekanalen worden weergegeven met behulp van lineaire (A) en log2-schaal (B). Het gebruik van log2-schaal onthult niet-lineair gedrag, d.w.z. een kleurvoorkeur voor Cy3 voor vlekken met een lage intensiteit. De MA-plot geeft deze kleurstofafwijking nog duidelijker weer en ook een verzadigingseffect in het Cy5-kanaal voor grote intensiteiten. (C) Om de kleurstofbias te corrigeren, een lokale regressie (rode lijn) van M kan worden uitgevoerd (D). De verkregen residuen van de lokale regressie, d.w.z. genormaliseerde gelogde vouwveranderingen, zijn goed gebalanceerd rond nul in MA-plot.

Microarrays - Normalisatie

Ruwe microarray-gegevens worden vaak aangetast door systematische fouten, zoals verschillen in detectie-efficiëntie, kleurstoflabels en fluorescentieopbrengsten. Dergelijke signalen worden gecorrigeerd door: normalisatie procedures [19] . Afhankelijk van het experimentele ontwerp en de toegepaste microarray-techniek, worden twee hoofdnormalisatieschema's gebruikt: (1) tussen-array normalisatie om signaalintensiteiten tussen verschillende microarrays te vergelijken en (2) binnen-array normalisatie voor aanpassing van signalen van een enkele microarray. Terwijl normalisatie tussen arrays vaak wordt gebruikt voor Affymetrix-chiptechnologie, wordt normalisatie binnen arrays voornamelijk toegepast op tweekleurenarrays voor het balanceren van beide kanalen. Het simpele globaal normalisatie, een procedure binnen de dia, gaat ervan uit dat de meeste geteste genen niet differentieel tot expressie worden gebracht en dat de totale hoeveelheid transcripten bijgevolg constant blijft. Daarom kunnen de verhoudingen lineair worden geschaald naar dezelfde constante mediaanwaarde in beide kanalen. Als alternatief kan een set huishoudgenen worden geselecteerd, waarvan wordt gedacht dat ze in beide monsters gelijk tot expressie worden gebracht. De mediaan van deze genen kan vervolgens worden genomen om de intensiteit in beide kanalen aan te passen door een lineaire transformatie, zodat de intensiteitsmedianen van de huishoudgenen hetzelfde zijn. De populaire zogenaamde kwantiel normalisatie moet met zorg worden behandeld, omdat wordt aangenomen dat de algehele verdeling van expressiewaarden precies hetzelfde is over verschillende monsters, wat vaak niet het geval is, vooral bij de analyse van kankermonsters [20]. Als een kleurstofbias wordt vermoed in tweekleurenarrays, kan het gebruik van een intensiteitsafhankelijk normalisatieprocedure kan gerechtvaardigd zijn [21] . Een wijdverbreide methode is het uitvoeren van een lokale regressie van de gelogde signaalverhoudingen m met betrekking tot de gelogde intensiteiten EEN en om de geregresseerde ratio's af te trekken van de ruwe ratio's. De afgeleide residuen van de regressie verschaffen de genormaliseerde vouwveranderingen (Fig. 7.5C). Aanvullende normalisatieprocedures zijn vereist als gemeten spotintensiteitsverhoudingen een ruimtelijke bias over de array vertonen.

Microarrays—Datavisualisatie

Plotrepresentaties zijn eenvoudige maar zeer nuttige hulpmiddelen om artefacten of andere trends in microarraygegevens te detecteren. De meest basale grafieken geven de twee kanaalintensiteiten ten opzichte van elkaar weer op een lineaire of log-schaal (Fig. 7.5A en B). Meer recentelijk zijn MA-plots een populair hulpmiddel geworden voor het weergeven van de gelogde intensiteitsverhouding (M) versus de gemiddelde gelogde intensiteiten (A). Hoewel MA-plots in feite slechts een rotatie van 45° zijn met een daaropvolgende schaal, onthullen ze intensiteitsafhankelijke patronen duidelijker dan de originele plot (Fig. 7.5C) [18].

RNA-seq-gegevens

Voor nieuwe gebruikers van RNA-seq-technologieën kan de hoeveelheid te analyseren gegevens ontmoedigend zijn. In tegenstelling tot microarray-gegevensanalyse, die zelfs op draagbare computers kan worden uitgevoerd, vereist NGS-gegevensanalyse doorgaans het gebruik van meerdere CPU's, voldoende computergeheugen en schijfruimte tot terabytes, zelfs voor een enkel experiment. Alternatieven voor in-house computationele infrastructuren zijn openbaar toegankelijke webplatforms zoals Galaxy ( https://usegalaxy.org/ ), of het gebruik van commerciële cloud computing. De cloudbenadering vereist echter dat de gegevens over het internet worden verplaatst, wat vaak een berucht knelpunt vormt gezien de grote bestandsgroottes. Voor onderzoekers die een paar onderzoeken uitvoeren, kan het raadzaam zijn om te beginnen met webtools en vervolgens over te stappen op stand-alone tools als de benodigde hardwarebronnen lokaal beschikbaar zijn. Een uitstekend platform, speciaal voor vervolganalyses, wordt geboden door R/Bioconductor ( http://www.bioconductor.org/ ), dat tal van add-on-pakketten biedt voor specifieke taken zoals detectie van differentiële expressie, functionele verrijkingsanalyse, clustering en classificatie, maar vereist ook basiskennis van scripting.

RNA-seq—Base Calling en Sequencing Quality

Base-calling (het omzetten van gemeten intensiteitsgegevens in sequenties en het beoordelen van de sequencing-kwaliteit) wordt meestal uitgevoerd door algoritmen die worden geleverd door de leverancier van het sequencing-platform. De geïdentificeerde sequenties en de bijbehorende kwaliteitsscores worden vervolgens opgeslagen in bestanden van Fastq formaat. De kwaliteit van basisoproepen wordt weergegeven door een zogenaamde Phred scoren. Sequenties of delen van sequenties met lage Phred-scores duiden op mogelijke sequentiefouten en moeten worden verwijderd. Lezingen moeten ook worden beoordeeld op de aanwezigheid van adaptersequenties, die de daaropvolgende analyse verstoren.

RNA-seq - Mapping en transcriptoomreconstructie lezen

Om de door RNA-seq geproduceerde uitlezingen te analyseren en interpreteren, moet hun positie binnen een referentiesequentie worden bepaald, een proces dat bekend staat als uitlijning of mapping. Dit is een uitdagend proces, niet alleen vanwege het grote aantal uitlezingen dat moet worden uitgelijnd, maar ook vanwege sequentiefouten of mutaties in de sequentie, waarmee moet worden omgegaan tijdens het uitlijningsproces. Voor het in kaart brengen van korte uitlezingen zijn tal van programma's ontwikkeld met behulp van verschillende rekenstrategieën. Verschillende van hen gebruiken de zogenaamde Burrows-Wheeler-transformatie die oorspronkelijk werd ontwikkeld voor bestandscompressie [22]. Het maakt de indexering van de grote genomen mogelijk en het gebruik ervan voor snellere leestoewijzing met minder computergeheugen. Als alternatief worden delen van de reads die seed worden genoemd, eerst toegewezen aan de referentie, waarna de uitlijning wordt uitgebreid tot de volledige read [23]. Uitvoer van de aligners zijn bestanden in Sequence Alignment/Map (SAM) of Binary Alignment/Map Bam (BAM) formaat, die de chromosomale locatie presenteren samen met de toegewezen sequenties als tekst of binaire codering, respectievelijk [24].

Idealiter zou men het transcriptoom als referentie willen gebruiken (de uitlezingen rechtstreeks op het transcriptoom uitlijnen). In de praktijk zijn reads echter afgestemd op het genoom, aangezien volledige transcriptomen (nog) niet beschikbaar zijn. Deze procedure voegt een extra laag complexiteit toe voor de sequentiebepaling van eukaryotisch RNA, aangezien veel genen splitsing ondergaan. De verwijdering van introns leidt tot transcriptsequenties die niet overeenkomen met een continue rek op het genoom, maar zijn samengesteld uit sequenties van verre exons. Om de exonstructuur van genen te reconstrueren, proberen uitlijningsprogramma's reads, die niet in hun volledige lengte konden worden uitgelijnd met het genoom, in kaart te brengen op bekende of voorspelde splice-juncties (locaties waar twee exons samenkomen) [25] , of ze te splitsen en in kaart te brengen de verschillende gelezen delen naar verschillende exons [26] . Kortom, uitlezingen die de 5'-eindsequentie van het ene exon en de 3'-eindsequentie van een ander overlappen, geven aan dat de twee exons aan elkaar waren gesplitst. Op basis van het aantal uitlezingen dat is uitgelijnd met de exons en splitsingsknooppunten, kunnen we proberen de verschillende splitsingsisovormen te kwantificeren, hoewel deze taak moeilijk is gebleven en voldoende sequentiediepte vereist.

Om vergelijking van genexpressie binnen een monster of over verschillende monsters mogelijk te maken, moet een samenvattende en normalisatiestap worden uitgevoerd. Samenvatting biedt de kracht van genexpressie, gezien alle reads die zijn toegewezen aan het chromosomale gebied. Voor deze kwantificering worden de in kaart gebrachte reads geteld en gedeeld door de genlengte, omdat we verwachten dat langere genen zullen leiden tot meer fragmenten en die tot meer reads, zelfs als de overvloed aan transcripten hetzelfde blijft. Om vergelijking van RNA-seq-runs met een verschillend aantal totale uitlezingen mogelijk te maken, wordt een verdere normalisatiestap uitgevoerd. In de eenvoudigste versie van normalisatie wordt dit bereikt door een extra deling door het totale aantal toegewezen reads dat RPKM-waarden produceert (reads per kilo-base of exon-model per miljoen reads) [25] , als het aantal reads dat is toegewezen aan een gen moet evenredig zijn met het totale aantal geproduceerde reads. Als alternatief kunnen andere normalisatieprocedures worden gekozen, die bijvoorbeeld proberen de expressie van huishoudgenen constant te houden [27] of de algehele vouwverandering tussen monsters te minimaliseren [28].

RNA-seq—Datavisualisatie en inspectie van Read Mapping

Voor visuele weergave van de toewijzing van uitlezingen aan de referentiesequentie zijn verschillende softwaretools zoals de Integrative Genomics Viewer [29] ontwikkeld. Als invoer gebruiken ze SAM- of BAM-bestanden en beschikbare genannotatie. Ze helpen om de dekking van specifieke genen te inspecteren of om genetische veranderingen te ontdekken. RNA-seq-gegevens kunnen bijvoorbeeld als bijproduct de nauwkeurige identificatie van single nucleotide polymorphisms (SNP's) bieden in regio's met een hoge leesdekking [30].


Conclusie

EMG-signaal draagt ​​waardevolle informatie over het zenuwstelsel. Het doel van dit artikel was dus om korte informatie over EMG te geven en de verschillende methoden te onthullen om het signaal te analyseren. Technieken voor EMG-signaaldetectie, ontleding, proces en classificatie werden besproken, samen met hun voor- en nadelen. Het ontdekken van een probleem of nadeel in de ene methode leidt tot andere verbeterde methoden. Deze studie brengt duidelijk de verschillende soorten EMG-signaalanalysetechnieken aan het licht, zodat de juiste methoden kunnen worden toegepast tijdens elke klinische diagnose, biomedisch onderzoek, hardware-implementaties en eindgebruikerstoepassingen.


4. Discussie

DASC is een effectieve methode om verborgen batcheffecten in grote consortiumdatasets te identificeren. Onze methode maakt gebruik van data-adaptieve krimp om de juiste schatting van 'batchvrije' gegevens te krijgen. De output van DASC is stabieler en robuuster door het gebruik van consensusmatrix en data-adaptieve krimpmethode.

Uit de casestudy van de SEQC-dataset presteert DASC beter dan alle andere algoritmen die in deze studie zijn vergeleken op basis van zuiverheids- en entropiemeting. Uit de tweede case study identificeerde DASC een sterk batch-effect dat werd gemist door de oorspronkelijke studie, wat de effectiviteit van onze methode en het belang van batchcorrectie verifieert. In een scRNA-Seq-onderzoek presteerde DASC beter dan bestaande methoden bij het detecteren van dagelijkse sequentievariaties.

Bovendien toonden we aan dat de resultaten van DASC onafhankelijk zijn van de aannames voor gegevensdistributie in vergelijking met PCA en sva. Al met al is DASC een algemeen en flexibel algoritme voor het detecteren van onbekende batcheffecten. Het kan ook worden gegeneraliseerd naar andere omics-datasets.


Abstract

Het gebruik van onbewerkte GC/MS-gegevens als het X-blok voor chemometrische modellering heeft het potentieel om betere classificatiemodellen te bieden voor complexe monsters in vergelijking met het gebruik van de totale ionenstroom (TIC), geëxtraheerde ionchromatogrammen/profielen (EIC/EIP) of geïntegreerde piek tafels. De overvloed aan onbewerkte GC/MS-gegevens vereist echter een vorm van gegevensreductie/functieselectie om de variabelen die voornamelijk ruis bevatten uit de gegevensset te verwijderen. Er bestaan ​​echter verschillende algoritmen voor kenmerkselectie, vanwege het extreme aantal variabelen (106 – 108 variabelen per chromatogram), kan de kenmerkselectietijd verlengd en rekenkundig duur zijn. Hierin presenteren we een nieuw voorfilter voor geautomatiseerde gegevensreductie van GC/MS-gegevens voorafgaand aan functieselectie. Dit hulpmiddel, uniek ionenfilter (UIF) genoemd, is een module die kan worden toegevoegd na chromatografische uitlijning en voorafgaand aan elk volgend kenmerkselectie-algoritme. De UIF vermindert objectief het aantal irrelevante of overbodige variabelen in onbewerkte GC/MS-gegevens, terwijl potentieel relevante analytische informatie behouden blijft. In de m/z dimensie worden gegevens gereduceerd van een volledig spectrum tot een handvol unieke ionen voor elke chromatografische piek. In de tijdsdimensie worden gegevens teruggebracht tot slechts een handvol scans rond elke piekapex. UIF werd toegepast op een dataset van GC/MS-gegevens voor een verscheidenheid aan benzinemonsters die moesten worden geclassificeerd met behulp van partiële kleinste-kwadratendiscriminantanalyse (PLS-DA) volgens het octaangetal. Het werd ook toegepast op een reeks chromatogrammen van de analyse van brandresten van de zaak om te worden geclassificeerd op basis van het al dan niet detecteren van handtekeningen van benzine. Door de totale populatie van kandidaatvariabelen die werden onderworpen aan daaropvolgende variabeleselectie te verminderen, verminderde de UIF de totale functieselectietijd waarvoor een perfecte classificatie van alle validatiegegevens werd bereikt van 373 tot 9 minuten (98% reductie in rekentijd). Bovendien resulteerde de significante vermindering van opgenomen variabelen in een gelijktijdige vermindering van ruis, waardoor de algehele modelkwaliteit verbeterde. Minimaal twee uhm/z en scanvenster van drie over de piekapex zou voldoende informatie over elke piek kunnen bieden voor de succesvolle PLS-DA-modellering van de gegevens, aangezien 100% modelvoorspellingsnauwkeurigheid werd bereikt. Er wordt ook aangetoond dat de toepassing van UIF de onderliggende chemische informatie in de gegevens niet verandert.


Dankbetuigingen

Speciale dank aan Leander Dony, die de case study heeft opgespoord, bijgewerkt en getest om met de nieuwste methoden te werken. Verder willen we de vele mensen bedanken die het case study notitieboekje en het manuscript hebben nagelezen en verbeterd met hun opmerkingen en expertise. Hiervoor erkennen we de inbreng van Maren Buttner, David Fischer, Alex Wolf, Lukas Simon, Luis Ospina-Forero, Sophie Tritschler, Niklas Koehler, Goekcen Eraslan, Benjamin Schubert, Meromit Singer, Dana Pe'er en Rahul Satija. Speciale dank hiervoor ook aan de anonieme reviewers van het manuscript en de redacteur, Thomas Lemberger, voor hun grondige, constructieve en uitgebreide commentaar. Het case study-notebook is getest en verbeterd door de early adopters Marius Lange, Hananeh Aliee, Subarna Palit en Lisa Thiergart. Volker Bergen en Alex Wolf droegen ook bij aan de workflow door summiere aanpassingen te doen. De keuze van de dataset om alle aspecten van de analyseworkflow optimaal weer te geven, werd vergemakkelijkt door de vriendelijke input van Adam Haber en Aviv Regev. Dit werk werd ondersteund door de BMBF Grant# 01IS18036A en Grant# 01IS18053A, door de German Research Foundation (DFG) binnen het Collaborative Research Center 1243, Subproject A17, door de Helmholtz Association (Incubator Grant sparse2big, Grant # ZT-I-0007) en door het Chan Zuckerberg Initiative DAF (geadviseerd fonds van Silicon Valley Community Foundation, 182835).


1. Inleiding

Bij microarray-experimenten kunnen willekeurig ontbrekende waarden optreden als gevolg van krassen op de chip, spotting-fouten, stof of hybridisatiefouten. Andere niet-willekeurige ontbrekende waarden kunnen biologisch van aard zijn, bijvoorbeeld sondes met lage intensiteitswaarden of intensiteitswaarden die een leesbare drempel kunnen overschrijden. Deze ontbrekende waarden zullen onvolledige genexpressiematrices creëren waarbij de rijen verwijzen naar genen en de kolommen verwijzen naar monsters. Deze onvolledige expressiematrices zullen het voor onderzoekers moeilijk maken om downstream-analyses uit te voeren, zoals differentiële expressie-inferentie, clustering of dimensiereductiemethoden (bijvoorbeeld hoofdcomponentenanalyse) of multidimensionale schaling. Daarom is het van cruciaal belang om de aard van de ontbrekende waarden te begrijpen en een nauwkeurige methode te kiezen om de ontbrekende waarden toe te rekenen.

Er zijn verschillende methoden naar voren gebracht om ontbrekende gegevens in microarray-experimenten toe te rekenen. In een van de eerste artikelen met betrekking tot microarrays, Troyanskaya et al. [1] onderzoek verschillende methoden om ontbrekende gegevens toe te rekenen en stel uiteindelijk voor: k-dichtstbijzijnde buren benaderen. Onderzoekers onderzochten ook het toepassen van eerder ontwikkelde schema's voor microarrays zoals de niet-lineaire iteratieve partiële kleinste kwadraten (NIPALS) zoals besproken door Wold [2]. Een Bayesiaanse benadering voor ontbrekende gegevens in microarrays voor genexpressie wordt geleverd door Oba et al. [3]. Andere benaderingen zoals die van Béx000f8 et al. [4] suggereert het gebruik van kleinste-kwadratenmethodes om de ontbrekende waarden in microarraygegevens te schatten, terwijl Kim et al. [5] stelt voor om een ​​lokale kleinste-kwadratenimputatie te gebruiken. Een Gauss-mengselmethode voor het toerekenen van ontbrekende gegevens wordt voorgesteld door Ouyang et al. [6].

Hoewel veel van deze benaderingen in het algemeen kunnen worden toegepast op verschillende soorten genexpressie-arrays, zullen we ons concentreren op het toepassen van deze methoden op Affymetrix-genexpressie-arrays, een van de meest populaire arrays in wetenschappelijk onderzoek. Uiteraard is het bij het voorstellen van een nieuw imputatieschema voor expressie-arrays noodzakelijk om de nieuwe methode te vergelijken met bestaande methoden. Verschillende uitstekende artikelen hebben procedures voor ontbrekende gegevens vergeleken op dataplatforms met een hoge doorvoer, zoals in tweedimensionale gelelektroforese zoals in de werken van Miecznikowski et al. [7] of genexpressie-arrays [8�]. Alvorens ontbrekende data-imputatieschema's in Affymetrix-genexpressie-arrays te bestuderen, is het redelijk om eerst bestaande ontbrekende waarden te verwijderen. Op deze manier zorgen we ervoor dat eventuele volgende ontbrekende waarden echte waarden hebben. Een detectie-oproepalgoritme wordt gebruikt om ontbrekende expressiewaarden te filteren en te verwijderen op basis van afwezige/aanwezige oproepen [11]. Vervolgens wordt een voorbewerkingsschema toegepast. Er zijn talloze taken die moeten worden uitgevoerd bij het voorbewerken van Affymetrix-arrays, waaronder achtergrondaanpassing, normalisatie en samenvatting. Een goed overzicht van de beschikbare methoden voor voorbewerking wordt gegeven door Gentleman et al. [12]. Voor onze analyse maakt de detectie-aanroep gebruik van MAS 5.0 [13] om expressiewaarden te verkrijgen, dus gebruiken we ook de MAS 5.0-suite met functies als onze voorverwerkingsmethode.

Voor onze analyse richten we ons op de microarray kwaliteitscontrole (MAQC) datasets (Accession no. <"type":"entrez-geo","attrs":<"text":"GSE5350","term_id":"5350" >> GSE5350), waarbij de datasets specifiek zijn ontworpen om de sterke en zwakke punten van verschillende microarray-analysemethoden aan te pakken. De MAQC-datasets zijn ontworpen door de Amerikaanse Food and Drug Administration om kwaliteitscontroletools (QC) te bieden aan de microarraygemeenschap om procedurefouten te voorkomen. Het project was gericht op het ontwikkelen van richtlijnen voor microarray-gegevensanalyse door het publiek te voorzien van grote referentiedatasets samen met gemakkelijk toegankelijke referentie-ribonucleïnezuur (RNA) -monsters. Een ander doel van dit project was om QC-statistieken en drempels vast te stellen voor het objectief beoordelen van de prestaties die haalbaar zijn door verschillende microarray-platforms. Deze datasets zijn ontworpen om de voor- en nadelen van verschillende data-analysemethoden te evalueren.

De eerste resultaten van het MAQC-project werden gepubliceerd in het werk van Shi [14] en later in het werk van Chen et al. [15] en het werk van Shi et al. [16]. In het bijzonder omvat het MAQC-experimentele ontwerp voor Affymetrix-genexpressie HG-U133 Plus 2.0 GeneChip 6 verschillende testlocaties, 4 pools per locatie en 5 replica's per locatie, voor een totaal van 120 arrays (zie sectie 2). Deze uitgebreide dataset biedt een ideale setting voor het evalueren van imputatiemethoden op Affymetrix-expressiearrays. Hoewel deze dataset is gedolven om de inter-intra-platformreproduceerbaarheid van metingen te bepalen, heeft voor zover ons bekend geen enkele imputatiemethode op deze dataset bestudeerd.

De MAQC-dataset hybridiseert twee RNA-monstertypes: Universal Human Reference RNA (UHRR) van Stratagene en een Human Brain Reference RNA (HBRR) van Ambion. Deze 2 referentiemonsters en verschillende mengsels van deze monsters vormen de 4 verschillende pools die zijn opgenomen in de MAQC-dataset. Door verschillende mengsels van UHRR en HBRR te gebruiken, is deze dataset ontworpen om technische variaties in deze technologie te bestuderen. Met technische variaties verwijzen we naar de variabiliteit tussen preparaten en labeling van het monster, variabiliteit tussen hybridisatie van hetzelfde monster met verschillende arrays, variabiliteit van de testlocatie en variabiliteit tussen het signaal op replicaatkenmerken van dezelfde array. Ondertussen verwijst biologische variabiliteit naar variabiliteit tussen individuen in de populatie en is deze onafhankelijk van het microarrayproces zelf. Doordat de MAQC-dataset is ontworpen om technische variatie te bestuderen, kunnen we de nauwkeurigheid van de imputatieprocedures onderzoeken zonder het storende kenmerk van biologische variabiliteit. Afgezien van MAQC-datasets, zijn vergelijkbare technische datasets gebruikt om verschillende analysemethoden te evalueren die specifiek zijn voor Affymetrix-microarrays, bijvoorbeeld methoden voor het identificeren van differentieel tot expressie gebrachte genen [17�].

Samenvattend, onze analyse onderzoekt geavanceerde imputatieschema's op een technische dataset van Affymetrix met minimale biologische variatie. In paragraaf 2 worden de MAQC-dataset en de voorgestelde imputatieschema's besproken. Ondertussen beschrijft sectie 3 de resultaten van het toepassen van de imputatiemethoden voor het aanpakken van ontbrekende gegevens in de MAQC-datasets. Ten slotte sluiten we ons artikel af met een discussie en conclusie in de paragrafen 4 en 5.


Referenties

    1. Simoni Y, Chng MHY, Li S, et al.: Massacytometrie: een krachtig hulpmiddel voor het ontleden van het immuunlandschap. Curr Opin Immunol. 2018 51: 187-196. PubMed Samenvatting | Publisher Full Text 2. Spitzer MH, Nolan GP: massacytometrie: enkele cellen, veel functies. Cel. 2016 165(4): 780-791. PubMed Samenvatting | Volledige tekst uitgever | Gratis volledige tekst 3. Behbehani GK: Toepassingen van massacytometrie in de klinische geneeskunde: de belofte en gevaren van klinische CyTOF. Clin Lab Med. 2017 37(4): 945-964. PubMed Samenvatting | Uitgever Full Text 4. Schulz AR, Baumgart S, Schulze J, et al.: Stabiliserende antilichaamcocktails voor massacytometrie. Cytometrie A. 2019 95(8): 910-916. PubMed Samenvatting | Uitgever Full Text 5. Hartmann FJ, Babdor J, Gherardini PF, et al.: Uitgebreide immuunmonitoring van klinische onderzoeken om menselijke immunotherapie te bevorderen. Cel vertegenwoordiger 2019 28(3): 819-831.e4. PubMed Samenvatting | Volledige tekst uitgever | Gratis volledige tekst 6. Palit S, Heuser C, de Almeida GP, et al.: De uitdagingen van hoogdimensionale eencellige gegevensanalyse in de immunologie aangaan. Front Immunol. 2019 10: 1515. PubMed Samenvatting | Volledige tekst uitgever | Gratis volledige tekst 7. Olsen LR, Leipold MD, Pedersen CB, et al.: De anatomie van eencellige massacytometriegegevens. Cytometrie A. 2019 95(2): 156-172. PubMed Samenvatting | Uitgever Full Text 8. Finck R, Simonds EF, Jager A, et al.: Normalisatie van massacytometriegegevens met kraalstandaarden. Cytometrie A. 2013 83(5): 483-494. PubMed Samenvatting | Volledige tekst uitgever | Gratis volledige tekst 9. Chevrier S, Crowell HL, Zanotelli VRT, et al.: Compensatie van signaaluitval in suspensie- en beeldvormingsmassacytometrie. Cel systeem. 2018 6(5): 612-620.e5. PubMed Samenvatting | Volledige tekst uitgever | Gratis volledige tekst 10. Zunder ER, Finck R, Behbehani GK, et al.: Op palladium gebaseerde massatag-celbarcodering met een doublet-filterschema en eencellig deconvolutie-algoritme. Nat Protoc. 2015 10(2): 316-333. PubMed Samenvatting | Volledige tekst uitgever | Gratis volledige tekst 11. Schuyler RP, Jackson C, Garcia-Perez JE, et al.: Het minimaliseren van batcheffecten in massacytometriegegevens. Front Immunol. 2019 10: 2367. PubMed Samenvatting | Volledige tekst uitgever | Gratis volledige tekst 12. Van Gassen S, Gaudilliere B, Angst MS, et al.: CytoNorm: een normalisatie-algoritme voor cytometriegegevens. Cytometrie A. 2020 97(3): 268-278. PubMed Samenvatting | Volledige tekst uitgever | Gratis volledige tekst 13. Kotecha N, Krutzik PO, Irish JM: webgebaseerde analyse en publicatie van flowcytometrie-experimenten. Curr Protoc Cytom. 2010 Hoofdstuk 10: Eenheid10.17. PubMed Samenvatting | Volledige tekst uitgever | Gratis volledige tekst 14. Nowicka M, Krieg C, Crowell HL, et al.: CyTOF-workflow: differentiële ontdekking in high-throughput hoogdimensionale cytometriegegevenssets [versie 3 peer review: 2 goedgekeurd]. F1000Res. 2019 6: 748. PubMed Samenvatting | Volledige tekst uitgever | Gratis volledige tekst 15. Irmisch A, Bonilla X, Chevrier S, et al.: The Tumor Profiler Study: Geïntegreerde, multi-omic, functionele tumorprofilering voor klinische beslissingsondersteuning. medRxiv. 2020. Volledige tekst uitgever 16. Chevrier S, Zurbuchen Y, Cervia C, et al.: Een duidelijke aangeboren immuunsignatuur markeert progressie van milde tot ernstige COVID-19. bioRxiv. 2020. Uitgever Full Text 17. Chevrier S, Levine JH, Zanotelli VRT, et al.: Een Immune Atlas van Clear Cell Niercelcarcinoom. Cel. 2017 169(4): 736–749.e18. PubMed Samenvatting | Volledige tekst uitgever | Gratis volledige tekst 18. Crowell H, Chevrier S, Jacobs A, et al.: Een op r gebaseerde reproduceerbare en gebruiksvriendelijke voorverwerkingspijplijn voor cytof-gegevens. 2020. Referentiebron 19. Lun A, Risso D, Korthauer K: SingleCellExperiment: S4-klassen voor eencellige gegevens. R pakket versie. 2018 1. Uitgever Volledige tekst 20. Finak G, Frelinger J, Jiang W, et al.: OpenCyto: een open source-infrastructuur voor schaalbare, robuuste, reproduceerbare en geautomatiseerde end-to-end flowcytometriegegevensanalyse. PLoS Comput Biol. 2014 10(8): e1003806. PubMed Abstract | Publisher Full Text | Free Full Text 21. Finak G, Jiang M: FlowWorkspace: Infrastructure for representing and interacting with gated and ungated cytometry data sets. R package version. 2018 3. Publisher Full Text 22. Wickham H: ggplot2: Elegant Graphics for Data Analysis. Springer, 2016. Reference Source 23. Van P, Jiang W, Gottardo R, et al.: ggCyto: next generation open-source visualization software for cytometry. Bio-informatica. 2018 34(22): 3951–3953. PubMed Abstract | Publisher Full Text | Free Full Text 24. Hahne F, LeMeur N, Brinkman RR, et al.: flowCore: a Bioconductor package for high throughput flow cytometry. BMC Bioinformatica. 2009 10(1): 106. PubMed Abstract | Publisher Full Text | Free Full Text 25. Wickham H, Francois R, Henry L, et al.: dplyr: A grammar of data manipulation. R package. 2015. 26. Bodenmiller B, Zunder ER, Finck R, et al.: Multiplexed mass cytometry profiling of cellular states perturbed by small-molecule regulators. Nat Biotechnologie. 2012 30(9): 858–867. PubMed Abstract | Publisher Full Text | Free Full Text 27. McCarthy DJ, Campbell KR, Lun ATL, et al.: Scater: pre-processing, quality control, normalization and visualization of single-cell RNA-seq data in R. Bio-informatica. 2017 33(8): 1179–1186. PubMed Abstract | Publisher Full Text | Free Full Text 28. Weber LM, Nowicka M, Soneson C, et al.: diffcyt: Differential discovery in high-dimensional cytometry via high-resolution clustering. Commun Biol. 2019 2: 183. PubMed Abstract | Publisher Full Text | Free Full Text 29. Fletez-Brant K, Špidlen J, Brinkman RR, et al.: flowClean: Automated identification and removal of fluorescence anomalies in flow cytometry data. Cytometry. 2016 89(5): 461–471. PubMed Abstract | Publisher Full Text | Free Full Text 30. Trussart M, Teh CE, Tan T, et al.: CytofRUV: Removing unwanted variation to integrate multiple CyTOF datasets. bioRxiv. 2020. Publisher Full Text 31. Van Gassen S, Callebaut B, Van Helden MJ, et al.: FlowSOM: Using self-organizing maps for visualization and interpretation of cytometry data. Cytometry A. 2015 87(7): 636–645. PubMed Abstract | Publisher Full Text 32. Finney DJ: Probit analysis. J Pharm Sci. 1971 60(9): 1432. 33. Ritz C, Baty F, Streibig JC, et al.: Dose-Response Analysis Using R. PLoS Een. 2015 10(12): e0146021. PubMed Abstract | Publisher Full Text | Free Full Text 34. Lawson CL, Hanson RJ: Solving least squares problems prentice-hall. Prentice Hall, Englewood Cliffs, NJ. 1974. Reference Source 35. Lawson CL, Hanson RJ: Solving Least Squares Problems. SIAM, Philadelphia, PA. 1995. Reference Source 36. R Core Team: R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria, 2019. Reference Source 37. Huber W, Carey VJ, Gentleman R, et al.: Orchestrating high-throughput genomic analysis with Bioconductor. Nat methoden. 2015 12(2): 115–121. PubMed Abstract | Publisher Full Text | Free Full Text

Looking for the Open Peer Review Reports?

They can now be found at the top of the panel on the right, linked from the box entitled Open Peer Review. Choose the reviewer report you wish to read and click the 'read' link. You can also read all the peer review reports by downloading the PDF.


Bekijk de video: DNA Microarray Methodology (Januari- 2022).