Informatie

Vraag over berekening overlevingsanalyse


Volgens deze zelfstudie wordt voor de tabel om de overlevingsschattingen te vinden de vierkantswortel van de 6e kolom vermenigvuldigd met de 4e kolom, wat de overlevingskans is. De waarde die moet komen voor de 7e kolom voor de 2e rij is 0,052((vierkantswortel van 0,003)*0,950=0,052) maar in de tutorial wordt deze 0,049 gegeven. Maak ik een fout met de berekening?
Veel van de waarden in de tabel komen niet overeen met de gegeven berekeningen.


"0,003" wordt naar boven afgerond; de exacte waarde is 1/380, dat is 0,00263157894... (en nog wat meer decimalen).

Als u de tabelinvoer op nog een paar decimalen berekent, krijgt u 0,04873397172 (enzovoort), wat naar boven afrondt op 0,049.


Wat is het minimale aantal gebeurtenissen dat nodig is voor Kaplan-Meier-schatting in overlevingsanalyse?

Ik heb een cohort van 1185 borstkankerpatiënten - 40 patiënten zijn < 40 jaar oud, en 8 patiënten ontwikkelden een lokaal recidief (waarvan 2 <40). Ik wil zien of er een verband is tussen leeftijd < 40 jaar en het risico op lokaal recidief. Zijn deze aantallen te klein om een ​​dergelijke analyse te doen? Wanneer ik KM-analyse in SPSS probeer uit te voeren, krijg ik geen gegevens voor de gemiddelde overlevingstijd (zie alleen gegevens voor de gemiddelde overlevingstijd, CI 95%), maar Log Rank, Breslow en Tarone-Ware leveren allemaal p<0.05 op. Ik weet echter niet zeker of deze resultaten significant zijn vanwege het kleine aantal gebeurtenissen?


Vraag over berekening overlevingsanalyse - Biologie


De onderstaande webpagina's vormen een krachtig, gemakkelijk toegankelijk, multi-platform statistisch softwarepakket. Er zijn ook links naar online statistiekenboeken, tutorials, downloadbare software en gerelateerde bronnen.

Deze pagina's bevinden zich op servers over de hele wereld en zijn het resultaat van veel slimheid en hard werk van enkele zeer getalenteerde individuen. Dus als u een pagina nuttig vindt, zou het leuk zijn om de auteurs een korte e-mail te sturen waarin u uw waardering uitdrukt voor hun harde werk en vrijgevigheid bij het vrij toegankelijk maken van deze software voor de wereld.

Andere statistische bronnen.

Eerst -- Kies de juiste test! [terug naar inhoudsopgave]

Er is een verbijsterend aantal statistische analyses beschikbaar, en het kiezen van de juiste voor een bepaalde set gegevens kan een ontmoedigende taak zijn. Hier zijn enkele webpagina's die kunnen helpen:

    , van de ontwikkelaars van het MicrOsiris-pakket. Dit is een interactieve set webpagina's om u te helpen bij het selecteren van de juiste analyse voor uw gegevens. Het stelt u een eenvoudige reeks vragen over uw gegevens (hoeveel variabelen, enz.), en doet vervolgens aanbevelingen over de best uit te voeren test. , Hoofdstuk 37 van het boek van Dr. Harvey Motulsky Intuïtieve biostatistieken. , door Bill Trochim (Cornell). Nog een interactieve reeks webpagina's om u te helpen bij het selecteren van de juiste soort analyse om op uw gegevens uit te voeren. (Geleverd door Dominik Heeb)
    • Helpt bij het vinden van de juiste analyse, gebaseerd op echte data
    • Voert de analyse uit op de echte gegevens
    • Engels en Duits
    • Vrij

"Online Software Pakket" websites [terug naar inhoudsopgave]

Zoals je kunt zien als je naar de StatPages.org-website kijkt, zijn er veel "op zichzelf staande" webpagina's die elk zijn ontworpen om slechts een enkele test of berekening uit te voeren. Bovendien hebben enkele getalenteerde individuen en groepen een coherente website gemaakt die een hele reeks berekeningen uitvoert, met een logische organisatie en een consistente gebruikersinterface. Elk van deze websites is op zich een redelijk compleet online statistisch softwarepakket. Hier zijn enkele van deze "uitgebreide" websites voor statistische analyse:

    -- een browsergebaseerde versie van de statistische software van Stratigraphics. Biedt plotten, kansverdelingen, samenvattende statistieken, analyse van één, twee en meerdere steekproeven, tijdreeksanalyse, regressieanalyse, curve-fitting, attribuutschattingen, ANOVA's, statistische procescontrole, afvlakking, power/steekproefberekeningen , en andere statistische analyses. Biedt ook toegang tot meer dan 50 applets waarin u gegevens kunt invoeren, statistieken kunt berekenen, tabellen en grafieken kunt maken en de resultaten kunt afdrukken. De gratis "Guest"-versie ondersteunt maximaal 100 rijen en 10 kolommen met gegevens. Voor grotere datasets kan een exemplaar voor één gebruiker of een bedrijfsimplementatielicentie worden aangeschaft. Klik hier om de gastversie te gebruiken. -- OpenEpi is een gratis, webgebaseerde, open source, besturingssysteemonafhankelijke reeks programma's voor gebruik in de volksgezondheid en de geneeskunde, die een aantal epidemiologische en statistische hulpmiddelen biedt. Versie 2 (25-04-2007) heeft een nieuwe interface die resultaten presenteert zonder gebruik te maken van pop-upvensters, en heeft betere installatiemethoden zodat het zonder internetverbinding kan worden uitgevoerd. Met versie 2.2 (2007/11/09) kunnen gebruikers de software in het Engels, Frans, Spaans of Italiaans gebruiken.
  • SOCR -- Statistieken Online Computational Resource. Een zeer uitgebreide verzameling online rekenmachines en andere interactieve bronnen, waaronder: Distributies (interactieve grafieken en rekenmachines), Experimenten (virtuele computergegenereerde analogen van populaire spellen en processen), Analyses (verzameling van algemene web-toegankelijke tools voor statistische gegevensanalyse) , Games (interfaces en simulaties voor real-life processen), Modeler (tools voor distributie, polynomiale en spectrale modelaanpassing en simulatie), Graphs, Plots and Charts (uitgebreide webgebaseerde tools voor verkennende data-analyse), Aanvullende tools (overige statistische hulpmiddelen en bronnen), SOCR Wiki (collaboratieve Wiki-bron), educatief materiaal en praktische activiteiten (variëteiten van SOCR-educatief materiaal), SOCR statistisch advies en statistische computerbibliotheken. -- een zeer goede website (bedankt Alijah Ahmed!), met online rekenmachines voor veel van de gebruikelijke statistische waarschijnlijkheidsfuncties en significantietests, en pagina's die de concepten en formules achter de tests uitleggen. Berekeningspagina's bieden flexibele invoeropties (typ de getallen in of lees ze uit een tekstbestand) en goed georganiseerde uitvoer van resultaten, met interpretaties en grafische weergaven.
  • MedCalc -- Twee verschillende websites:
      -- een verzameling van zeven gratis berekenende webpagina's: tests voor één gemiddelde of één proportie, vergelijkingen van gemiddelden of proporties, relatief risico, odds-ratio en diagnostische testevaluatie. -- een betalend browsergebaseerd statistisch systeem (gratis proefperiode van 5 dagen beschikbaar) dat een breed scala aan statistische analyses biedt (klik hier voor een lijst).
  • Rekenmachines, plotters, functie-integrators en interactieve programmeeromgevingen. [terug naar inhoudsopgave]

    • Expressiebeoordelaars -- typ een willekeurige numerieke uitdrukking in die de computer zal evalueren en de resultaten zal weergeven.
      • Had2Know -- Rekenmachines voor wiskunde, statistiek, financiën, huis- en tuinrenovatie, wetenschap, technologie, gezondheid en nog veel meer.
      • GIGAcalculator.com -- verschillende leuke statistische tools, elk vergezeld van een gedetailleerde beschrijving van de onderliggende wiskunde en aannames, naast relevante formules.
      • Stats Solver -- Een gevarieerde verzameling nuttige statistische online calculators. Informatief. Stap voor stap.
      • UnitConverter -- Gelikt en gemakkelijk, maar bevat cookies en advertenties.
      • Wetenschappelijke rekenmachine -- beoordelaar voor numerieke uitdrukkingen. -- Nette en gemakkelijke rekenmachine. Zal dienen als een basisalternatief voor betaalde tools zoals Minitab. -- Bereken een aantal statistische eigenschappen van een dataset (gemiddelde, mediaan, harmonisch gemiddelde, geometrisch gemiddelde, minimum, maximum, bereik, variantie, standaarddeviatie) -- vertelt je waar een getal vandaan komt. Als je bijvoorbeeld 1.55838744 typt, zal dit programma je vertellen dat het echt de vierkantswortel is van 17/7.
      • Percentagecalculator -- Nieuw met meer functies en verbeterde nauwkeurigheid en hulp.
      • Een eenvoudige rekenmachine met 5 functies en geheugen (Adobe Flash Player vereist). -- vier statistische rekenmachines: vijfcijferige samenvatting, ANOVA en Tukey HSD, Chi-kwadraat en binomiale kans. Ze zijn extreem gebruiksvriendelijk, inclusief intuïtieve voorbeelden. Meer volgt. -- 5 statistische online rekenmachines (correlatietest, overlevingsanalyse, Cox Propertional Hazard, een- en tweerichtings-ANOVA en ANOVA uit samenvattende gegevens, logistieke regressie). -- De foutmargecalculator kan worden gebruikt om de MOE van een enquête te berekenen in overeenstemming met de steekproefverhouding en -grootte en het gewenste betrouwbaarheidsniveau.
      • CoCalc -- een geavanceerde RPN wetenschappelijke rekenmachine van CoHort Software. Heeft log-, trig-, boolean-, binair/hex- en basisstatistiekfuncties. Geïmplementeerd als een Java-applet, zodat het vanaf het web kan worden uitgevoerd of op uw computer kan worden opgeslagen zodat het "offline" kan worden uitgevoerd wanneer er geen verbinding met het web is. Ook beschikbaar in een grotere lettertypeversie.
      • Links naar andere online rekenmachines en rekenmachinegerelateerde bronnen, van Essentiële links (el.com).
        -- Hiermee kunt u in- en uitzoomen om elk deel van de grafiek te bekijken. (Java nodig.) -- Produceert een kleine 3D-plot van bijna elke functie of relatie die wordt aangetroffen in wiskunde op de middelbare school en op de universiteit. Plot functies van de vorm y = f(x), zoals y = x2 of y = 3x + 1, of relaties van de vorm f(x,y) = g(x,y), zoals x2 + y2 = 4 (maar Flash Player nodig) Voer een lineaire functie in van twee variabelen die moeten worden geminimaliseerd, en een willekeurig aantal lineaire ongelijkheidsuitdrukkingen, en de pagina lost het onmiddellijk op en geeft een grafiek weer met het haalbare gebied en de beperkingen. -- Vergelijkbaar met de Linear Programming Grapher, maar werkt met functies van meer dan twee variabelen en geeft geen grafieken van de resultaten.
      • Onbepaalde integralen -- met behulp van de Wiskunde motor
        -- een interactieve webgebaseerde interface naar de statistische programmeertaal "R" (vergelijkbaar met S of S-plus) -- -- een matrixalgebra-interpreter en numerieke optimalisatie voor het verkennen van matrixalgebra. Veel ingebouwde fit-functies voor structurele vergelijkingsmodellering en andere statistische modellering. Heeft passende functies zoals die in LISREL, LISCOMP, EQS en CALIS, samen met faciliteiten voor maximale waarschijnlijkheidsschatting van parameters van ontbrekende gegevensstructuren, onder normale theorie. Gebruikers kunnen eenvoudig complexe 'niet-standaard' modellen specificeren, hun eigen fit-functies definiëren en optimalisatie uitvoeren met inachtneming van lineaire en niet-lineaire gelijkheid of grensbeperkingen. -- een lijst met gratis online/downloadbare rekenmachines.

      Kansverdelingsfuncties: tabellen, grafieken, generatoren van willekeurige getallen. [terug naar inhoudsopgave]

      • Waarschijnlijkheidsintegralen -- deze pagina's nemen de plaats in van een handboek met statistische functies. Ze zijn gerangschikt met de meest uitgebreide, multifunctionele pagina's eerst.
        • Deze pagina's bevatten berekeningen voor een zeer breed assortiment aan kansverdelingsfuncties, inclusief Normaal, Bivariaat Normaal, Student t, Chi-kwadraat, Fisher F, Bivariaat Normaal, Niet-centraal Student t, Niet-centraal Chi-kwadraat, Niet-centraal Fisher F, Poisson, Log-normaal, Exponentieel, Beta, Gamma, Logistiek , Binomiaal, Negatief Binomiaal, Multinomiaal, Cauchy, Gumbel, Laplace, Pareto, Weibull, Uniform (continu en discreet), Driehoekig, Geometrisch en Hypergeometrisch:
          • Xuru's pagina voor het berekenen van PDF's, CDF's en hun complementaire en inverse, samen met verwachte waarden, gemiddelde, variantie, scheefheid en kurtosis, voor binomiaal, geometrisch, negatief binomiaal, Poisson, hypergeometrisch, normaal, chi-kwadraat, Student t en Fisher F distributies.
          • Distributie-/dichtheidscalculators, plotters en generatoren voor willekeurige getallen
          • Zeer geavanceerde interactieve pagina voor meer dan 65 continue en discrete statistische distributiefuncties -- Selecteer een functie in een menu en het toont u een grafiek van die functie samen met zijn eigenschappen. U kunt op de grafiek klikken om limieten te selecteren, en deze toont u de linker-, midden- en rechterintegralen.
          • Normale, t, Chi-kwadraat en binomiale (dichtheid en cumulatieve) kansen Gebruik b.v. dnorm, qnorm, rnorm.)
          • Centrale en staartgebieden voor normale, student-, F-, chi-kwadraat-, binomiale en Poisson-verdelingen
          • Statistische kansverdelingsfuncties: normaal, student t, chi-kwadraat, Fisher F - binomiaal, chi-kwadraat, exponentieel, Fisher's F, KS: twee steekproeven, Poisson, normaal, student-t en uniforme verdelingen. van z, t, F, r of Chi Square of doe het omgekeerde. : voer p-waarde in (en, indien nodig, steekproefomvang en/of d.f.) programma berekent z, t, F, Chi Square en correlatiecoëfficiënt
          • Normale verspreidingsgebieden, met mooie grafische interpretaties
          • Nog een zeer goede rekenmachine voor normale verdeling, met mooie graphics
          • Een zeer aantrekkelijke pagina voor Normale verdeling (en inverse), met gedetailleerde uitleg (integraal van min oneindig tot z)
          • Chi-kwadraatkansen, en omgekeerd, met een gedetailleerde uitleg (t-waarde van p-waarde)
          • Nog een Fisher F-verdeling p-waardecalculator. , gegeven het alfaniveau, de teller en noemer d.f. (door de vierkantswortelbenadering van Laubscher), gegeven de F-waarde, teller en noemer d.f., en de niet-centraliteitsparameter. distributie kansen
          • Waarschijnlijkheden voor gamma-, volledige bèta- en onvolledige bèta-distributies
            -- genereert een willekeurig aantal willekeurige gehele getallen, uniform verdeeld tussen twee limieten van willekeurige gehele getallen uit een bepaald bereik, of willekeurige waarden uit een normale verdeling met een bepaald gemiddelde en SD. -- genereert een willekeurig aantal willekeurige getallen, elk een breuk tussen 0 en 1 met 8 cijfers achter de komma -- kan willekeurig een groep kiezen voor elk onderwerp, of willekeurig onderwerpen binnen groepen schudden.
        • Onderzoek Randomizer -- genereert een of meer sets willekeurige getallen uit een bepaald bereik, met of zonder herhalingen, gesorteerd of ongesorteerd.
        • Block Randomizer - wijst proefpersonen willekeurig toe aan verschillende groepen, met meerdere blokkeringen om ervoor te zorgen dat onevenwichtigheden onder controle worden gehouden als het onderzoek voortijdig wordt beëindigd - drie variaties:
          1. genereert M-groepen van elk N-nummers door de getallen van 1 tot M*N willekeurig over de M-groepen te verdelen
          2. genereert M blokken van elk N nummers door willekeurig de nummers van 1 tot N in elk blok te schudden
          3. genereert een subset van N getallen door willekeurige selectie uit een lijst van de getallen van 1 tot M
          • Permutaties en hun beperkingen
          • Subsets of Combinaties
          • Permutaties of combinaties van een multiset
          • Partities instellen
          • Numerieke partities en verwanten
          • Binaire, geroote, vrije en andere bomen
          • Kettingen, Lyndon woorden, DeBruijn Sequences
          • Onherleidbare en primitieve veeltermen over GF(2)
          • Idealen of lineaire uitbreidingen van een Poset
          • Bomen en andere subgrafieken van een grafiek overspannen
          • Niet-gelabelde grafieken
          • Pentomino-puzzels, Polyomino's, n-Queens
          • en andere puzzels en Diversen

          Beschrijvende statistieken, histogrammen, grafieken. [terug naar inhoudsopgave]

            -- een prachtig geïmplementeerde pagina voor het berekenen en weergeven van een groot aantal beschrijvende statistieken van een reeks getallen die u invoert (Java-code)
      • Xuru's pagina voor beschrijvende statistieken met één variabele: gemiddelde, mediaan, sd, variantie, gemiddelde abs-afwijking, geometrisch gemiddelde & sd, scheefheid, kurtosis, kwartielen, standaardfouten, Anderson-Darling-normaliteitstest en enkele betrouwbaarheidsintervallen van het gemiddelde en sd. U kunt gegevens rechtstreeks kopiëren en plakken vanuit een spreadsheet of een gegevensbestand in tabelvorm, of getallen handmatig invoeren. -- Voer maximaal 80 getallen in. Deze pagina berekent het gemiddelde, de variantie, SD, CV, scheefheid en kurtosis. . Kan onbewerkte gegevens invoeren of plakken, of gemiddelde, SD of SEM en N invoeren om CI te krijgen. -- Voer tot 80 waarden in pagina berekent: N, gemiddelde, variantie, SD, CV, scheefheid, kurtosis, SEM, mediaan, min, max, bereik, 1e en 3e kwartiel, interkwartielbereik, kwartielafwijking, coëfficiënt van kwartiel var en absolute afwijking. -- Gegeven een reeks waargenomen en voorspelde waarden, berekent deze pagina de SD van fouten, gemiddelde absolute & relatieve fout, en Durbin-Watson-statistieken. -- van maximaal 80 waarden.
      • Rweb - uitgebreide tabel- en grafische beschrijvende samenvatting: gemiddelde, kwartielen, histogrammen, scatterplot-matrices (met smoothers), QQ-plots (normaal en paarsgewijs), tijdreeksen, boxplots. (Als je bij de Rweb pagina, scroll naar beneden naar de Analysemenu en selecteer Samenvatting.) biedt beschrijvende statistieken, histogrammen, boxplots en scatterplots
      • Een verscheidenheid aan beschrijvende statistieken en een stengel- en bladweergave
      • Detecteer uitschieters -- deze rekenmachine voert de Grubbs-test uit, ook wel de ESD-methode (extreme studentized afwijking) genoemd, om te bepalen of een van de waarden in de lijst die u invoert een significante uitbijter is van de rest. Bevat ook een excellent discussie over wat te doen met uitschieters. -- bereken het gemiddelde en de SD van een combinatie van groepen uit de N, het gemiddelde en de SD van elke groep. (gemiddelde, kwadratensom, variantie, standaarddeviatie, minimum, 25e percentiel, mediaan, 75e percentiel en maximum voor maximaal 500 getallen -- van maximaal 42 sets van [waarde, frequentie]. -- Voer maximaal 12 waarden en de bijbehorende waarschijnlijkheden, en deze pagina berekent de verwachte waarde, variantie, standaarddeviatie en variatiecoëfficiënt -- Voer maximaal 28 gepaarde gegevenssets in en deze pagina berekent gemiddelden, varianties en covariantie -- Voer in tot 80 getallen, en deze pagina zal een histogram weergeven. , laat je dynamisch de intervalbreedte wijzigen en het effect onmiddellijk zien -- Gegeven een reeks getallen, isoleert deze pagina iteratief potentiële uitschieters voor verwijdering. -- is een gratis hulpmiddel voor iedereen die basisstatistieken nodig heeft.
      • Betrouwbaarheidsintervallen, tests met één populatie, meetfouten. [terug naar inhoudsopgave]

        • Betrouwbaarheidsintervallen.
          • Exacte CI's voor binomiaal (geobserveerde proportie) en Poisson (geobserveerde telling). (Ook beschikbaar als Excel-spreadsheet en als Excel-invoegtoepassing.)
          • Exacte en "gemodificeerde Wald" C.I.'s voor waargenomen proportie of telling, met een goede uitleg
          • Bayesiaanse "geloofwaardige" intervallen rond een waargenomen proportie. Enigszins vergelijkbaar met de "klassieke" betrouwbaarheidsintervallen, maar zijn meestal iets smaller.
          • 95% of 99% C.I. voor verhoudingen voor een gespecificeerde steekproefomvang en populatieomvang, ervan uitgaande dat de gegevens zijn bemonsterd uit een normale verdeling - berekent exacte binominale betrouwbaarheidsintervallen en tests van hypothesen voor populatieaandeel, uit oneindige of eindige populaties.
          • Tolerantie-intervallen voor de normale verdeling. (niet verwarren tolerantie intervallen met vertrouwen intervallen!) A tolerantie-interval voor een gemeten grootheid is het interval waarin er een gespecificeerde kans is dat een gespecificeerde fractie van de waarden van de bevolking leugen. Deze pagina berekent 1-zijdige en 2-zijdige tolerantie-intervallen voor elke gespecificeerde populatiefractie, en voor elk gespecificeerd betrouwbaarheidsniveau, uit het gemiddelde en de standaarddeviatie van een eindige steekproef, in de veronderstelling dat de populatie normaal verdeeld is. Deze berekeningen zijn ook beschikbaar in een downloadbare Excel-spreadsheet: tolintvl.xls .
            -- test een waargenomen proportie tegen een voorgestelde populatieproportie -- voer onbewerkte gegevens in of plak ze, of voer gemiddelde, SD of SEM in en N
        • One-sample Student t-test voor gemiddelde vs. een gespecificeerde waarde -- voor maximaal 80 waarnemingen en een gepostuleerd populatiegemiddelde.
        • Een andere Student t-test van een enkel gemiddelde (vs gespecificeerde waarde) van N, mean, SD -- Voer een reeks getallen in (meestal een combinatie van positieve en negatieve getallen), en het programma zal een niet-parametrische test toepassen (oorspronkelijk gemaakt door RA Fisher) of de getallen consistent zijn met een populatiefrequentieverdeling die symmetrisch is rond nul (maar niet noodzakelijk normaal hoeft te zijn). Het is een frequentistische test om Darwins experiment uit te werken met gematchte paren, en soortgelijke experimenten.
        • Test of het gemiddelde groter is dan een bepaalde waarde. Deze ongebruikelijke test is Bayesiaans en frequentist tegelijk. De nulhypothese beweert enige waarde voor het gemiddelde van een populatie van positieve getallen, de alternatieve hypothese zegt dat het gemiddelde hoger is dan dat. Deze test geeft een Bayesiaanse waarschijnlijkheidsratio die ook een bovengrens is voor de p-waarde van de frequentistische test. , gebaseerd op de Poisson-verdeling, bevat ook betrouwbaarheidsintervallen en analyse van frequentieratio's (zoals gestandaardiseerde sterftecijfer, morbiditeitsratio en vergelijkend sterftecijfer)
        • Vergelijkbaar met hierboven, maar gebruikt om de verdeling van ongevallen en gebeurtenissen op individueel niveau te bestuderen, met behulp van Liddell's methode (bevat ook een aantal algemene benaderingen, ter vergelijking), gebaseerd op de binomiale verdeling - of het aantal "succes" verschilt van wat werd verwacht op basis van het aantal proeven en de kans op succes.
        • Vergelijkbaar met hierboven, maar behandelt de waarschijnlijkheid van een bepaalde steekproefomvang, gegeven een waargenomen 'x'-getal positief (of wit, of auto-ongelukken) versus een verwacht 'U'-aandeel positief - test of maximaal 14 waargenomen gebeurtenissen tellen (elk over dezelfde hoeveelheid tijd) consistent zijn met een enkele verwachte gebeurtenissnelheid. -- Voer maximaal 80 getallen in en deze pagina berekent een test om te zien of de getallen een willekeurige reeks vormen -- van maximaal 80 waarnemingen tegen een gepostuleerde populatievariantie.
        • Analyseer waargenomen verhoudingen in monsters van eindige populaties, gebaseerd op de hypergeometrische verdeling -- Voer tot 80 getallen in, en deze pagina zal testen op normaliteit op basis van de Jarque-Bera-statistiek -- voer formulier 25 tot 84 waarden in pagina geeft informatie om te testen of histogram is unimodaal. -- voer nummers in op de pagina of lees ze uit een tekstbestand. Voert normaliteitstest uit, toont ook een histogram van de gegevens. Voor een beschrijving van de test, samen met de formules en programmering, klik hier. -- voer maximaal 42 sets van [waarde, frequentie] pagina's in om scheefheid, kurtosis en Liliefors-test te berekenen voor consistentie met een normale verdeling. -- voer maximaal 42 sets [waarde, frequentie] pagina's in om de Kolmogorov-Smirnov-test te berekenen voor consistentie met een uniforme verdeling. -- voer maximaal 14 sets [waarde, frequentie] pagina's in om een ​​Chi-kwadraattest te berekenen voor consistentie met een Poisson-verdeling. -- test of een reeks waargenomen waarden consistent is met een exponentiële verdeling.
          • -- neemt waargenomen waarden en verwachte waarden die kunnen worden gespecificeerd als verwachte gebeurtenissen, of percentages of fracties van het totaal. Gegevens kunnen worden ingetypt of gekopieerd en geplakt. -- Chi-kwadraattest voor maximaal 14 sets van [geobserveerde, verwachte] frequenties.
          • Bereken hoe de standaardfout van een of twee variabelen zich voortplant via een functie van die variabelen
          • Bereken betrouwbaarheidsintervallen van een som, verschil, quotiënt of product van twee gemiddelden, ervan uitgaande dat beide groepen een Gauss-verdeling volgen.

          Voorbeeldvergelijkingen: t-tests, ANOVA's, niet-parametrische vergelijkingen. [terug naar inhoudsopgave]

          • Student t-test (voor het vergelijken van twee steekproeven).
            • een zeer algemene Student t-test webpagina -- gepaarde of ongepaarde, gelijke of ongelijke variantie, van individuele waarnemingen (die met een toets kunnen worden ingevoerd of gekopieerd/plakt) of samenvattende gegevens (N, Mean, SD of SEM). Bevat uitleg en advies over het uitvoeren van dit type test.
            • een zeer gepolijste rekenmachine voor Student t-test met twee groepen, met grafische weergave van gemiddelden en betrouwbaarheidsintervallen, en een interpretatie van de resultaten. Kan individuele waarden of samenvattende statistieken (N, gemiddelde, SD) voor elke groep nemen. , gekoppeld of ongepaard
            • t-test, gepaard of ongepaard -- voer gegevens in op de pagina of lees ze uit een tekstbestand. Deze pagina produceert ook histogrammen van de gegevens (elke groep en gepaarde verschillen). Voor een uitgebreide beschrijving van de test, met formules en voorbeelden, klik hier. -- op maximaal 42 waardeparen, samen met een gepostuleerd populatiegemiddelde verschil. -- Ongepaarde Student t-test voor maximaal 80 waarnemingen in elk monster. Accepteert ook een gepostuleerd verschil tussen de twee populatiegemiddelden, dat kan verschillen van 0.
            • Zeer algemeen t-testprogramma voor het vergelijken van gemeten hoeveelheden, waargenomen tellingen en verhoudingen tussen twee ongepaarde monsters produceert ook risicoverhouding, oddsratio, aantal dat nodig is om te behandelen en populatieanalyse.
            • Eenrichtings- en factoriële ANOVA voor niet-gecorreleerde steekproeven (verlenging van ongepaard Student t-test voor meer dan 2 groepen). -- One-way ANOVA voor drie groepen, elk met maximaal 40 proefpersonen.
            • Eenrichtings-ANOVA van samenvattende gegevens (N, gemiddelde en SD of SEM) -- Doet nu ook Tukey HSD post-hoc-test!
            • Eenrichtings-ANOVA van samenvattende gegevens (N, gemiddelde en SD of SEM) -- Zoals hierboven, maar toegestaan
              • gegevens kopiëren/plakken
              • evalueer meer dan 10 groepen
              • inclusief Tukey-Kramers post-hoc test
                -- Voer drie sets van overeenkomende metingen in (elk maximaal 40 punten) pagina berekent een ANOVA met herhaalde metingen.
              • een zeer gepolijste rekenmachine voor het vergelijken van twee gebeurtenispercentages (aantal gebeurtenissen in een bepaalde tijd). Toont betrouwbaarheidsintervallen rond elke gebeurtenissnelheid en interpreteert de significantie van het verschil tussen de tarieven van de twee groepen.
                -- Elk paar waarnemingen wordt vergeleken en kwalitatief beoordeeld als "voorkeur voor A" of "voorkeur voor B" -- Elk paar getallen wordt afgetrokken om een ​​verschil te verkrijgen
          • Contingentietabellen, kruistabellen, Chi-kwadraattests. [terug naar inhoudsopgave]

            • Chi-kwadraat testen.
                -- Handmatige invoer (door tabs of komma's gescheiden) of Excel-gegevens rechtstreeks kopiëren/plakken. Berekent verwachte celwaarden, Chi-kwadraat en P-waarde voor elke 2D-contingentietabel. (Chi-kwadraat, Fisher Exact-test, gevoeligheid, odds-ratio, relatief risico, verschil in verhoudingen, aantal dat moet worden behandeld, enz.) met betrouwbaarheidsintervallen. -- vergelijkbaar met het bovenstaande, maar met een duidelijkere schermindeling. , door Fisher Exact, en door Chi Square (met en zonder Yates' correctie), met een goede uitleg (Chi Square, Fisher Exact, verschil in verhoudingen, risicoverhouding, oddsratio, theta, log-odds ratio, Poisson-test) - - berekent uit een 2x2 kruistabel van diagnostische testresultaten (positief of negatief) versus werkelijke ziektetoestand (aanwezig of afwezig), gevoeligheid, specificiteit, positieve en negatieve waarschijnlijkheidsverhoudingen en voorspellende waarden, en ziekteprevalentie, samen met hun 95% betrouwbaarheidsintervallen. zoals geleefd/gestorven, aanwezig/afwezig, ja/nee. Dit kan testen op een trend in de waarschijnlijkheid van een gebeurtenis wanneer u tellingen van de twee categorieën over een reeks tijdsintervallen heeft. -- voor maximaal een 6-bij-6 kruistabel. , met Pearson Chi-kwadraat, Likelyhood Ratio Chi-Square, Yates Chi-kwadraat, Mantel Haenszel Chi-kwadraat, Odds Ratio, Log Odds Ratio, Yules-Q, Yules-Y, Phi-kwadraat, Pearson correlatie en McNemar Test - - om te testen of het aandeel proefpersonen met een bepaald kenmerk hetzelfde is in twee gematchte groepen of in één groep voor en na een interventie. (Kan ook testen tegen een nulhypothese die een verschil aangeeft dat niet nul is.)
            • Zie ook de Evidence-Based-Medicine (EBM)-calculator in het gedeelte "Biostatistical Calculators" van het gedeelte "Andere statistische tests en analyses" van deze pagina.
              • (2x2) , met goede Help-discussie (2x5) (2x2)
                -- beoordeelt hoe goed twee of meer waarnemers, of methoden, classificeren object/subjecten in groepen. -- beoordeelt hoe goed twee waarnemers, of twee methoden, onderwerpen in groepen indelen. Voor een tafel van 12 bij 12.
              • Online Kappa Calculator -- berekent vrije-marginale en vaste-marginale variaties van birater en multirater Kappa's (kansgecorrigeerde maten van interbeoordelaarsovereenkomst). voor het vergelijken van de manier waarop twee beoordelaars elk van een aantal items scoorden, met behulp van gegevensinvoer per geval
              • Nog een Cohen's Kappa, met behulp van reeds getabelleerde gegevens
              • Kappa voor nominale gegevens als overeenstemming tussen meerdere beoordelaars -- Elk van meerdere beoordelaars plaatst elk van verschillende entiteiten in een van meerdere categorieën
              • Intraclasscorrelatie voor overeenstemming tussen meerdere beoordelaars, met behulp van een datamatrix die aangeeft hoe elke beoordelaar elk geval heeft gescoord
                -- neemt waargenomen waarden en verwachte waarden die kunnen worden gespecificeerd als verwachte gebeurtenissen, of percentages of fracties van het totaal. Gegevens kunnen worden ingetypt of gekopieerd en geplakt.

              Regressie, correlatie, kleinste kwadraten Curve-fitting, niet-parametrische correlatie. [terug naar inhoudsopgave]

              • Rechte lijnen en correlatiecoëfficiënten.
                  . (leuke interface)
              • Lineaire regressie naar gegevens kopiëren/plakken vanuit een spreadsheet of tabelbestand. -- voer X en Y in op de webpagina, of lees ze in vanuit een tekstbestand. Produceert regressiecoëfficiënten, determinatiecoëfficiënten en andere grootheden, samen met een grafiek van de waargenomen gegevenspunten en de gepaste lijn. Voor een beschrijving van de concepten van lineaire regressie, klik hier.
              • Verschillende variaties op 2-parameter lineaire regressie (logaritmische regressie, exponentiële regressie en machtsregressie) -- voor maximaal 84 punten, met uitgebreide output en residuele analyse. biedt beschrijvende statistieken, histogrammen, boxplots en scatterplots -- voor maximaal 84 punten. -- berekent gemiddelden, varianties en covariantie voor maximaal 42 [x,y] metingen. (een geïntegreerde (Java) applet) kan een eenvoudige regressieanalyse uitvoeren
                • Spearman's rangcorrelatie (niet-parametrisch).
                • Spearman's correlatie van gegevens in kruistabel met gesequeneerde rij- en kolomcategorieën
                • Schrijf, kopieer/plak (Excel of andere spreadsheet) of laad gegevens uit een csv-bestand.
                • De eerste rij kan kolomnamen bevatten. Geef op welke kolommen u wilt testen op correlatie.
                • Optioneel specificeer: betrouwbaarheidsniveau, continuïteitscorrectie, exacte p-waarde en alternatieve hypothese.
                • Zeer algemene niet-lineaire curve-fitter met de kleinste kwadraten -- bijna elke functie die u kunt schrijven -- tot 8 niet-lineaire parameters, tot 10 onafhankelijke variabelen.
                • Voert niet-lineaire kleinste-kwadratenregressie uit zoals hierboven, maar verwerkt meer dan 8 parameters en bevat een plotoptie. -- een gebruiksvriendelijke pagina voor het aanpassen van curven. Biedt 13 vooraf gedefinieerde functies (geen initiële gissingen vereist), samen met de mogelijkheid om een ​​algemene niet-lineaire functie die u verstrekt te passen (samen met initiële gissingen). Geeft de resultaten grafisch weer, samen met de formule van de aangepaste curve. Er worden verschillende soorten ongelijke weging van gegevenspunten verschaft. Hiermee kunt u voorspelde waarden (geïnterpoleerd en geëxtrapoleerd) genereren uit de aangepaste curve. Hiermee kunt u resultaten opslaan in Excel- en PDF-indelingen.
                • ZunZun niet-lineaire kleinste-kwadratencurve-fitter -- met een enorme lijst van vooraf gedefinieerde 2D- en 3D-functies en uitgebreide grafische en statistische output. -- met grafische uitvoer! Kies een van de 15 vooraf gedefinieerde niet-lineaire functies van één variabele en maximaal drie parameters.
                • 3D-regressie en interactieve grafiek (door MiaBella LLC) -- een krachtige webpagina die past bij een lineaire functie van twee voorspellende variabelen (Z = a + b*X + c*Y), en die een zeer elegant 3D-spreidingsdiagram weergeeft van de punten en het gemonteerde vlak. U kunt de grafiek in drie dimensies roteren met de muis en u kunt de X-, Y- en Z-waarden van elk punt (bijvoorbeeld een uitbijter) zien door op het punt te klikken.
                • Polynomiale regressie -- fit polynomen van graad 2 tot en met 10.
                • Meervoudige lineaire regressie - fit functies van meer dan één voorspellende variabele.
                • Meervoudige polynomiale regressie -- past functies van een of meer voorspellers, elk uitgedrukt als polynomen, aan tot de volgorde die u opgeeft.
                • Niet-lineaire regressie -- Past automatisch meer dan 100 van de meest voorkomende niet-lineaire functies (gaussianen, sigmoïden, rationale getallen, sinusoïden, enz.) en rangschikt ze vervolgens op basis van goedheid.
                • Vergelijk de pasvorm van twee modellen met uw gegevens. Welk model past beter? Voer goodness-of-fit (SSQ of gewogen SSQ) en # gegevenspunten en # parameters voor elk model in. De rekenmachine vergelijkt de modellen met behulp van Akaike's methode, en vervolgens de F-test. (ook wel "Pade-functies" genoemd) om gegevens. Een rationale functie is een breuk waarvan de teller en noemer beide polynomen in X zijn. Ze passen in een breder scala aan functies dan polynomen alleen -- ze kunnen gegevens passen waarbij de Y-waarde "afvlakt" tot een horizontale lijn voor zeer grote of kleine X, en past in functies die "singulariteiten" hebben (Y schiet naar oneindig bij een waarde van x). Deze curve-fitter maakt deel uit van een uitgebreide reeks online rekenmachines om problemen in de bouwtechniek (buigen en knikken van balken en platen, enz.) op de website Software for Structures op te lossen.
                • Univariate en meervoudige regressie, met heel uitgebreide grafische output (histogrammen, scatterplots, scatterplot-matrices) en residuele analyse (QQ, histogram, residuen versus afhankelijke of voorspellers). Zeer intuïtieve point-and-click-interface, dynamisch aangepast aan uw gegevens. (Als je bij de Rweb pagina, scroll naar beneden naar de Analysemenu en selecteer regressie.) -- tot 16 datapunten en tot 4 onafhankelijke variabelen berekent het gepaste model, en een groot aantal resterende analysestatistieken. -- Past een kleinste-kwadratenparabool tot maximaal 84 gegevenspunten en biedt uitgebreide analyse van residuen.
                • Meervoudige regressie, als u al de correlatiecoëfficiëntmatrix hebt tussen alle onafhankelijke en afhankelijke variabelen.
                • Pas een van de vijf families van krommen aan (lineair, polynoom, exponentieel, aflopend exponentieel, Gaussiaans) en teken een grafiek, als de afhankelijke variabele beperkt is tot twee waarden (zoals of een gebeurtenis wel of niet heeft plaatsgevonden) -- breidt John C uit Pezzullos-pagina (hierboven) om vermogensmodellen te verwerken en u de voorspelde kans te laten berekenen voor specifieke covariabele patronen.
                • Cox Proportionele Risico's Survival Regression Analysis
                • Een snellere versie van Cox Proportional Hazards Analysis
                • CoxReg, geavanceerde Cox Proportional Hazards Regression Analysis -- wanneer u gegevens hebt over het aantal keren dat iets voorkomt en niet voorkomt gedurende een reeks tijdsintervallen. Test of de waarschijnlijkheid van het optreden een trend in de tijd laat zien.
                • Test Bias Assessment Program, berekent statistieken om u te helpen beslissen of testscores een criterium in verschillende subgroepen anders voorspellen
                  -- hulpmiddelen voor de identificatie, schatting en voorspelling op basis van autoregressieve volgorde verkregen uit een tijdreeks.
                • Detectie van trends en autocrrelatie in tijdreeksen -- Gegeven een reeks getallen, test deze pagina op trend door Sign Test en voor autocorrelatie door Durbin-Watson-test. -- genereert een grafiek van een tijdreeks met maximaal 144 punten. -- Berekent een reeks seizoensindexwaarden op basis van een reeks waarden die een tijdreeks vormen. Een gerelateerde pagina voert een test voor seizoensgebondenheid uit op de indexwaarden. -- Gegeven een reeks getallen die een tijdreeks vormen, schat deze pagina het volgende getal, met behulp van Moving Avg & Exponential Smoothing, Weighted Moving Avg en Double & Triple Exponential Smoothing. -- in een tijdreeks. -- Gegeven een reeks getallen die een tijdreeks vormen, berekent deze pagina de gemiddelde & variantie van de eerste & tweede helft, en berekent één-lag-apart & two-lag-apart autocorrelaties. Een verwante pagina: Tijdreeksstatistieken berekent deze statistieken, en ook de algemene gemiddelde & variantie, en de eerste & tweede gedeeltelijke autocorrelaties.

                Analyse van overlevingsgegevens. [terug naar inhoudsopgave]

                  -- Typ of kopieer/plak gegevens, of lees ze in vanuit een bestand. Bereidt tabellen, grafieken (met 95% betrouwbaarheidsintervallen) en statistische vergelijkingsuitvoer voor. Biedt plaats aan twee of meer groepen en kan een gestratificeerde log-rank-test uitvoeren. Gebruikt de statistische engine van R op de ShinyApps-server om uitvoer van zeer hoge kwaliteit te leveren. Geschreven door Søren Merser. -- voor een of meer groepen. Tekent K-M-curves met optionele betrouwbaarheidsbanden (gewoon, log of log-log type, op het 50, 80, 90 of 95% conf. niveau). Dit maakt deel uit van de EurekaStatistics-website van Peter Rosenmai (een blog over statistieken en R). -- berekent overlevingscurven (met betrouwbaarheidsbanden) en voert een LogRank-testtest uit om overlevingscurven tussen twee groepen te vergelijken.
                • Life Table (Kaplan-Meier) -- Voer het aantal overleden en gecensureerde in elke periode in, en de pagina berekent de cumulatieve overlevingskans en 95% betrouwbaarheidsintervallen. Tekent ook de overlevingscurve en exporteert de gegevens, zodat u een betere grafiek kunt maken met een ander programma.
                • Cox Proportionele Risico's Survival Regression Analysis - specificeer de observatietijd en status van elk onderwerp (laatst gezien levend of dood), en een willekeurig aantal onafhankelijke variabelen (voorspellers, confounders en andere covariaten). Deze webpagina voert een proportionele-hazard-regressieanalyse uit en retourneert de regressiecoëfficiënten, hun standaardfouten, hazard (risico) ratio en hun betrouwbaarheidsintervallen, en de baseline survival curve, samen met goodness-of-fit informatie. Je kunt ook een snellere versie van Ronald Brand (Universiteit Leiden) gebruiken, of een verbeterde versie van Kevin Sullivan (Emory University) met illustratieve voorbeelden en verklarend materiaal. -- voert Cox Proportionele Risico Regressie uit. U kunt gegevens uit Excel kopiëren/plakken of een CSV-bestand uploaden. Produceert een regressietabelrapport, overlevingsgrafiek, overlevingstabel, log-rank-test en een voorspelde overlevingsgrafiek voor gespecificeerde covariabele patronen. Gebruikt de statistische engine van R op de ShinyApps-server om uitvoer van zeer hoge kwaliteit te leveren. Geschreven door Søren Merser. -- Voer het aantal gebeurtenissen en de gemiddelde tijd tot het evenement in voor elk van de twee groepen. De rekenmachine geeft het betrouwbaarheidsinterval rond elke gemiddelde tijd weer en vergelijkt de twee gemiddelde tijden. (Er wordt uitgegaan van een exponentieel gevormde overlevingscurve.)

                Bayesiaanse methoden. [terug naar inhoudsopgave]

                  -- maakt het mogelijk de geloofwaardigheid van een klinische proefbevinding te beoordelen in het licht van de huidige kennis. Deze pagina neemt de odds-ratio en het betrouwbaarheidsinterval van een klinische proef en gebruikt een nieuw ontwikkelde Bayesiaanse methode om een ​​grootheid te berekenen die de kritische odds ratio (KOR). Als odds ratio's minstens zo indrukwekkend als de COR aangeeft op grond van bestaande kennis kan worden gerechtvaardigd, kunnen de resultaten van de klinische proef worden beschouwd geloofwaardig.
                • Etiologische voorspellende waarde (EPV) -- een nieuwe statistische methode die is ontwikkeld om de waarschijnlijkheid te bepalen dat symptomen worden veroorzaakt door een bacteriologische bevinding, rekening houdend met dragers. Om EPV te berekenen, moet men het aantal positieve en negatieve tests bij patiënten en gezonde controles kennen, evenals de gevoeligheid van de test. Hierdoor kan de positieve en negatieve EPV worden berekend met een betrouwbaarheidsinterval van 95%.
                • Exact Bayes-test voor onafhankelijkheid in r by c contingentietabellen -- Kan ook vergelijkingen aan tussen waargenomen-versus-verwachte en waargenomen-versus-uniforme situaties.
                • Analyse van "1-vrijheidsgraad"-gegevens -- voert interactieve frequentistische en Bayesiaanse voorwaardelijke tests uit voor tellingsgegevens met één vrijheidsgraad. Dat wil zeggen, het doet hypergeometrische, binomiale, Poisson-, Bessel- en gerelateerde distributies (voor dubbele dichotomieën, tekentests, een speciaal soort structureel nulontwerp, enz.). -- neemt eerdere kansen en voorwaardelijke kansen, en berekent herziene kansen. (ideaal voor het oplossen van bepaalde soorten hersenkrakerpuzzels) om rekening te houden met de context van het experiment, zoals uitgedrukt door de eerdere kans dat je hypothese waar is. -- berekent onderlinge relaties tussen true pos, true neg, false pos, false neg, prevalentie, gevoeligheid, specificiteit, voorspellende waarden en waarschijnlijkheidsverhoudingen (vereist JavaScript).
                • Sequentieel experimenteel ontwerp voor het testen van de waarschijnlijkheidsverhoudingen
                • 2-bij-2-tabelanalyse (Chi-kwadraat, gevoeligheid, oddsratio, relatief risico, enz. Met betrouwbaarheidsintervallen - voor het ontwerpen van een sequentieel experiment waarin na elke waarneming een beslissing wordt genomen om de nulhypothese te accepteren, de alternatieve hypothese, of meer waarnemingen verwerven.

                Andere statistische tests en analyses. [terug naar inhoudsopgave]

                  -- Deze calculator kan diagnostische testkenmerken (gevoeligheid, specificiteit, waarschijnlijkheidsverhoudingen) bepalen en/of de post-testkans op ziekte bepalen, gegeven de pre-testwaarschijnlijkheid en testkenmerken. Gezien de steekproefomvang worden ook betrouwbaarheidsintervallen berekend. -- een online tool voor betrouwbaarheidsanalyse waarmee gebruikers de betrouwbaarheid van de scores op hun enquête kunnen controleren. De gratis optie biedt een betrouwbaarheidsscore, statistische sterkte van de enquête, algemene itemanalyse en een statistische samenvatting van de enquête. Betaalplannen bieden ook een automatische optimalisatie, optimalisatievergelijking, handmatige optimalisatie en controle over enquête-analyse. -- Voert klassieke berekeningen uit voor wachtrijen met één of meerdere servers (wachtrijlengte, wachttijd, enz.).
                  -- Voert de "leave-one-out" kruisvalidatie-inferentie uit voor: centrale tendens, kleinste-kwadratenlijnen, eendimensionale multinomiale tabellen, tweedimensionale contingentietabellen met structurele nullen, k-steekproefproblemen en blok-en- behandel ontwerpen. De webpagina is goed gedocumenteerd, met een tiental voorbeelden uitgewerkt en uitgelegd. --een online forum, waarop statistisch bewijs kan worden gepresenteerd dat altijd reproduceerbaar, testbaar en uitbreidbaar is met een 'klik op een knop'. De naam Geschiktste model omvat zowel het doel als de middelen van de wetenschap, namelijk het vinden van het meest geschikte model door te passen, te testen en te modelleren. Gebruikers kunnen statistisch bewijs online bespreken of zoeken naar resultaten op basis van zoekcriteria zoals datareeksen, methoden of criteria die de 'kwaliteit' van resultaten meten. Openbaar beschikbare datasets uit verschillende bronnen kunnen worden gecombineerd tot nieuw statistisch bewijs en statistische technieken zullen continu worden toegevoegd, op verzoek van de gebruiker of anderszins.
                • Bonferroni-aanpassing van kritische p-waarden bij het uitvoeren van meerdere vergelijkingen (heeft een uitstekende bespreking van dit onderwerp) (Bonferroni-aanpassing)
                • Number Needed to Treat, gebaseerd op een 2-bij-2-tabel -- deze rekenmachine voert de Grubbs-test uit, ook wel de ESD-methode genoemd (extreme studentized afwijking), om te bepalen of een van de waarden in de lijst die u invoert een significante uitbijter is van de rest.
                • Bereken en plot een ROC-curve (voor gegroepeerde voorspellingsgegevens) genereert boomstructuren van gegevensclustering en nog veel meer
                • Voorspellende waarde van gevoeligheid, specificiteit en prevalentie (bij het analyseren van een klinische test), met een mooie uitleg: een browserinterface naar een programma dat het volgende doet:
                  • Hoofdcoördinatenanalyse (PCO)
                  • co-traagheidsanalyse
                  • discriminantanalyse en analyses binnen of tussen klassen
                  • analyses op afstandsmatrices of naburige grafieken.

                  Gespecialiseerde en disciplinespecifieke tests en analyses. [terug naar inhoudsopgave]

                  • Martindale's Reference Desk - Calculators On-Line - Statistieken (de grootvader van alle compendia voor het berekenen van webpagina's)
                  • Biostatistische rekenmachines:
                      -- Van de interessant genoemde website van Warren Goff. Analyseert een of meer viervoudige (2x2) tabellen berekent Chi Square, CER, EER en RR, en parameters gerelateerd aan behandeling (RRR, ARR, NNT, NNH, met 95% betrouwbaarheidsintervallen), diagnose (gevoeligheid, specificiteit, PPV, NPV , Prevalentie, LR+, LR-, OR, Pre-Odds, Post-Prob) en Harm (RR, OR NNH). Kan ook twee verschillende tabellen vergelijken. -- uit een 2x2 kruistabel van diagnostische testresultaten (positief of negatief) versus werkelijke ziektetoestand (aanwezig of afwezig), berekent gevoeligheid, specificiteit, positieve en negatieve waarschijnlijkheidsverhoudingen en voorspellende waarden, en ziekteprevalentie, samen met hun 95 % betrouwbaarheidsintervallen. -- Gegeven informatie over de waarschijnlijkheid van een resultaat onder controle en experimentele behandelingen, produceert deze rekenmachine metingen van risicotoename/-afname en het aantal dat nodig is om te behandelen of schade toe te brengen, inclusief betrouwbaarheidsintervallen. Als sommige patiënten verloren zijn gegaan voor follow-up, geeft de rekenmachine schattingen voor verschillende scenario's.
                  • Bereken ECiets van EC50 (uitgaande van een standaard "Hill-type" dosis-responsrelatie). Zeer nuttig in dosis-responsonderzoeken.
                  • Grondige analyse van 2-bij-2-tabel die relevant is voor voorspellingen en diagnostische tests - gevoeligheid, specificiteit, prevalentie, diagnostische nauwkeurigheid, PPV, post-test waarschijnlijkheden, waarschijnlijkheidsratio-tests
                  • Berekening van de kans na de test op basis van de waarschijnlijkheidsratio en de kans vóór de test
                  • Conversie van gevoeligheid en specificiteit naar waarschijnlijkheidsratio's
                  • Calculator om de kans op een succesvolle uitkomst van lumbale schijfchirurgie te voorspellen (op basis van een logistiek model)
                  • LODS - Logistieke orgaandisfunctie Systeemcalculator
                  • Scoresystemen voor ICU- en chirurgische patiënten -- Online berekening van scores die worden gebruikt in algemene of gespecialiseerde Intensive Care of Anesthesie, waaronder:
                    • Volwassenen, Algemene scores: SAPS II, APACHE II, SOFA, MODS, ODIN, MPM (bij opname, 24 uur, 48 uur, MPM over tijd), MPM II (bij opname, 24-48-72 uur), LODS en TRIOS
                    • Volwassen, gespecialiseerde en chirurgische Intensive Care - Preoperatieve evaluatie: EUROSCORE, ONTARIO, Parsonnet, System 97, QMMI, MPM, POSSUM en Portsmouth POSSUM
                    • Volwassene, Traumascores: ISS/RTS/TRIS, en 24 uur - ICU-traumascore
                    • Volwassene, therapeutische interventie, IC-scores voor verpleegkunde: TISS
                    • Pediatrische, algemene scores: PRISM, DORA, PELOD en PIM
                    • Pediatrisch, gespecialiseerd (neonataal, chirurgisch): CRIB, SNAP, SNAP-PE, SNAP II / SNAPPE II
                    • Pediatrische, traumascores: pediatrische traumascore
                      -- berekent de latere kansen om uw onzekerheden te "scherpen" door de betrouwbaarheidsmatrix van een deskundig oordeel op te nemen in uw eerdere waarschijnlijkheidsvector. Geschikt voor maximaal negen natuurstaten. -- Voer tot 6x6 uitbetalingsmatrix in van beslissingsalternatieven (keuzes) per natuurtoestand, samen met een optimisme-coëfficiënt, de pagina berekent actie en uitbetaling voor pessimisme, optimisme, middenweg, minimaliseer spijt, en onvoldoende reden. -- Neemt twee geldwaarden en hun bekende nut, en berekent het nut van een ander bedrag, onder twee verschillende strategieën: zeker & onzeker. -- Voer een uitbetalingsmatrix van maximaal 6x6 in van beslissingsalternatieven (keuzes) per natuurtoestand, samen met subjectieve schattingen van de kans op optreden voor elke natuurtoestand die de pagina berekent en de uitbetaling (verwacht en voor de meest waarschijnlijke gebeurtenis), min verwachte spijt, terugkeer van perfecte informatie, waarde van perfecte informatie en efficiëntie. -- voor maximaal 36 kansen en bijbehorende uitkomsten, berekent de verwachte waarde, variantie, SD en CV. -- om subjectiviteit en evidence-based schattingen te combineren. Neemt maximaal 14 paren van gemiddelden en varianties berekent gecombineerde schattingen van gemiddelde, variantie en CV. -- (relatieve precisie als meetinstrument voor onnauwkeurigheidsbeoordeling tussen schattingen), test de bewering dat ten minste één schatting meer dan r keer van de parameter verwijderd is (dwz een relatieve precisie), waarbij r een subjectief positief getal minder is Dan een. Neemt tot 10 steekproefschattingen en een subjectieve relatieve precisie (r<1) geeft de pagina aan of ten minste één meting onaanvaardbaar is. -- Neemt de winst/verliesmaatstaf van verschillende juiste of onjuiste conclusies met betrekking tot de hypothese, samen met waarschijnlijkheden van Type I- en II-fouten (alpha & beta), totale steekproefkosten en subjectieve schatting van de kans dat de nulhypothese waar is, retourneert de verwachte netto winst.
                  • Kracht, steekproefomvang en experimentele ontwerpberekeningen. [terug naar inhoudsopgave]

                    Bekijk de PowerAndSampleSize.com-website, die (laatste telling) 19 interactieve rekenmachines bevat voor het vermogen of de vereiste steekproefomvang voor veel verschillende soorten statistische tests: 1 gemiddelde testen, 2 of meer middelen vergelijken, 1 proportie testen, 2 of meer proporties, het testen van odds-ratio's en twee 1-sample-tests (normaal en binomiaal gebaseerd). Deze site biedt ook rekenmachines voor non-inferioriteits- en equivalentiestudies. De webpagina's geven grafieken weer die dynamisch laten zien hoe het vermogen varieert met verschillende ontwerpparameters terwijl u andere parameters wijzigt.

                    Kijk ook eens naar de zeer algemene en elegante power/sample-size rekenmachine van Russel Lenth (U of Iowa). Het behandelt tests van gemiddelden (een of twee steekproeven), verhoudingstests (een of twee steekproeven), lineaire regressie, generieke chi-kwadraat- en Poisson-tests, en een verbazingwekkende verscheidenheid aan ANOVA's -- 1-, 2- en 3- manier gerandomiseerde complete blok Latijn en Grieks-Latijnse vierkanten 1-traps, 2-traps en faculteit geneste ontwerpen cross-over split-plot strip-plot en meer! Deze rekenmachine is geïmplementeerd in Java en kan worden uitgevoerd als een webpagina, of kan worden gedownload naar uw computer om offline te werken als een zelfstandige toepassing.

                    Hier is een verzameling online powercalculator-webpagina's voor specifieke soorten tests:


                    Invoering

                    Eierstokkanker (OC) is een van de meest dodelijke kwaadaardige tumoren bij vrouwen, met 295.414 nieuwe gevallen en 184.799 sterfgevallen in 2018 (1). Hoewel er aanzienlijke vooruitgang is geboekt in diagnostische en therapeutische technieken, blijft de 5-jaarsoverleving van gevorderde OC-patiënten slecht (2). Vroege identificatie van patiënten met een hoog sterfterisico en meer precieze, geïndividualiseerde behandelingen zullen de prognose van OC-patiënten helpen verbeteren. Met betrekking tot precisiegeneeskunde zou het van belang zijn om voorspellende modellen te ontwikkelen om vroegtijdig geïndividualiseerde voorspelling van het sterfterisico te bieden en de effectiviteit van specifieke therapeutische schema's te voorspellen.

                    Aanzienlijke vooruitgang in de bio-informatica helpt wetenschappers de intrinsieke regulerende mechanismen van tumorigenese en progressie te onderzoeken (3𠄶). De immuunmicro-omgeving speelt een belangrijke rol bij het ontstaan ​​en de ontwikkeling van tumoren (7, 8). Verschillende onderzoeken hebben de klinische waarde van immunotherapie voor eierstokkanker gerapporteerd (5, 6). Verschillende onderzoeken hebben prognostische modellen opgesteld om de prognose van OC-patiënten te voorspellen (7, 8). Met betrekking tot precisiegeneeskunde kon de voorspelling van het sterfterisico voor subgroepen met een hoog en een laag risico echter niet voldoen aan de behoeften van geïndividualiseerde behandeling. Geïndividualiseerde behandeling heeft nauwkeurige prognostische modellen nodig om individuele voorspelling van het sterfterisico te kunnen geven voor een specifiek middel, maar niet voor een speciale subgroep.

                    Ons team heeft twee voorspellende hulpmiddelen voor precisiegeneeskunde ontwikkeld die het geïndividualiseerde sterfterisico voor hepatocellulair carcinoom voorspellen (9, 10). Deze twee voorspellende hulpmiddelen voor precisiegeneeskunde bieden een handige en gemakkelijk te begrijpen online voorspelling van het sterfterisico. Wat nog belangrijker is, deze voorspellende instrumenten voor precisiegeneeskunde bieden individuele en specifieke voorspelling van het sterfterisico, wat belangrijk is voor geïndividualiseerde behandelingsbeslissingen. Onlangs is kunstmatige intelligentie op basis van big data en geavanceerde algoritmen gebruikt om de nauwkeurigheid van voorspellende modellen voor de diagnose en prognose van verschillende tumoren te verbeteren (11�). Daarom was de huidige studie gericht op het bouwen van voorspellende hulpmiddelen voor kunstmatige intelligentie om het geïndividualiseerde sterfterisico voor OC-patiënten te voorspellen op basis van immuungenen.


                    Een pijplijn voor gegevensintegratie maken

                    Het doel van onze data-integratietaken was om voorspellers uit verschillende databronnen te koppelen om een ​​enkele gepoolde dataset voor kankeroverlevingsanalyse te genereren. Daarom hebben we een data-integratiepijplijn gemaakt met behulp van de Ontop OWL Java Application Programming Interface (API) [58] om gebruikersverzoeken te vertalen in SPARQL-query's en om de queryresultaten in een analytisch formaat te ordenen. De OWL API [59] is een referentie-implementatie voor interactie met OWL-ontologieën. De Ontop OWL API breidde de OWLReasoner-interface in de OWL API uit om het beantwoorden van SPARQL-query's tegen relationele databases te ondersteunen. Zoals vereist door onze data-analysemodellen, werden de uiteindelijke resultaten georganiseerd in een gegevenstabel (dwz een matrix), waarbij elke rij het kankerdiagnoserecord van een patiënt vertegenwoordigde (aangezien één patiënt meerdere kankerdiagnoses kan hebben in de FCDS-gegevens), en elke rij kolom vertegenwoordigde een risicofactor voor kanker.


                    Conclusie

                    Over het algemeen is onze CellAge-database de eerste uitgebreide database met cellulaire veroudering, die een belangrijke bron zal zijn voor onderzoekers om de rol van veroudering bij veroudering en ziekte te begrijpen. Bovendien vonden we dat CS-genen geconserveerd zijn bij gewervelde dieren, maar niet bij ongewervelde dieren, en dat genen die verband houden met het CS meestal niet weefselspecifiek zijn. We hebben waargenomen dat genen die CS induceren, neigden naar opregulatie met de leeftijd in de meeste menselijke weefsels, en deze genen zijn oververtegenwoordigd in zowel anti-longevity als tumor-onderdrukkende gendatasets, terwijl genen die senescentie remmen niet tot overexpressie kwamen met de leeftijd en oververtegenwoordigd waren in pro-longevity en tumor-suppressing gen datasets. oncogene datasets. CS-genen waren ook oververtegenwoordigd in genen die verband houden met verouderingsgerelateerde ziekten, voornamelijk in neoplasmata.

                    Met behulp van netwerkbiologie hebben we de CellAge-genen betrokken bij verschillende processen, met name celdeling en processen van het immuunsysteem. We hebben netwerktopologie gebruikt om potentiële regulatoren van CS en knelpunten te identificeren die van invloed kunnen zijn op verschillende stroomafwaartse processen als ze worden gedereguleerd. We hebben inderdaad 11 genen geïdentificeerd waarvan al is aangetoond dat ze bijdragen aan CS, die zullen worden toegevoegd aan toekomstige versies van CellAge. Ten slotte hebben we 26 genen experimenteel geverifieerd die CS-morfologie of biomarkers induceren wanneer ze worden uitgeschakeld in menselijke borstfibroblasten. Hiervan zijn 13 genen (C9orf40, CDC25A, CDCA4, CKAP2, GTF3C4, HAUS4, IMMT, MCM7, MTHFD2, MYBL2, NEK2, NIPA2, en TCEB3) waren sterke hits bij het induceren van een senescent fenotype.

                    Cellulaire veroudering is een van de kenmerken van veroudering [87] en de accumulatie van verouderingscellen in menselijke weefsels met de leeftijd is geïmpliceerd als een aanjager van verouderingsgerelateerde ziekten. Inderdaad, farmacologische benaderingen die gericht zijn op senescente cellen, zoals senolytica, zijn een belangrijk en actueel onderzoeksgebied dat zou kunnen resulteren in klinische toepassingen bij de mens [5, 88]. Het is absoluut noodzakelijk dat we cellulaire veroudering volledig begrijpen en deconstrueren om verouderingsgerelateerde ziekten aan te pakken. We hopen dat CellAge onderzoekers zal helpen de rol te begrijpen die CS speelt bij veroudering en verouderingsgerelateerde ziekten en zal bijdragen aan de ontwikkeling van medicijnen en strategieën om de schadelijke effecten van senescente cellen te verminderen.


                    0. Gegevens

                    Stel dat we gegevens hebben verzameld van september 2020 tot juni 2021 voor een klinische studie om de overlevingstijd van kankerpatiënten te begrijpen. Hier is een tijdlijn voor de mensen die hebben deelgenomen aan deze hypothetische studie:

                    We hebben de dataset voor ons denkbeeldige onderzoek klein gehouden, zodat het gemakkelijker is om het proces nauwlettend te volgen. Zwarte ononderbroken cirkels geven de laatste gegevensinvoer voor een record aan. Een kruis in de cirkel betekent dat het record de gebeurtenis heeft gehad (d.w.z. overlijden), terwijl een vraagteken betekent dat het record de gebeurtenis niet heeft gehad. Om specifieker te zijn, zijn er drie mogelijke scenario's.

                    1. Evenement gehad: Gebeurtenis gehad tijdens het onderzoek (bijv. record een en C)
                    2. Geen evenement: Had geen evenement aan het einde van de studie (bijvoorbeeld record b en d).
                    3. Geen evenement: Stopte met het onderzoek vóór het eindpunt en had geen gebeurtenis tijdens deelname aan het onderzoek (bijv. record F en H).

                    Het tweede en derde type records worden gecensureerde, meer specifiek rechtsgecensureerde records genoemd, omdat we onvolledige informatie hebben over de gebeurtenis.

                    In de bovenstaande grafiek zien we a kalender tijd in de horizontale as. Nu moeten we a . converteren kalender tijd naar een overlevingstijd, een tijds duur gemeten ten opzichte van de inschrijvingsdatum van de studie. Overlevingstijd wordt gewoonlijk aangeduid als looptijd in de Python-bibliotheken die we later zullen leren kennen, zullen we deze termen vanaf nu door elkaar gebruiken.

                    Laten we met behulp van het volgende script de bibliotheken importeren die we nodig hebben en een klein DataFrame maken met: looptijd en evenement voor de 9 records:


                    NQuery belangrijkste kenmerken

                    • Berekening van de steekproefomvang voor wettelijke goedkeuring (FDA / EMA)
                      - Bereken consequent de juiste steekproefomvang voor FDA / EMA-indiening
                    • Verminder risico's en kosten in klinische onderzoeken
                      – Klassieke, Bayesiaanse en adaptieve technieken om uw proefopzet te optimaliseren
                    • Krachtige optie voor steekproefomvang
                      - Bereken snel de steekproefomvang en voer een vermogensanalyse uit
                    • Team samenwerking
                      – Bereken eenvoudig en communiceer de bevindingen naar uw team en niet-statistici
                    • Intuïtieve steekproefomvang en berekening van detectievermogen
                      - Bereken de steekproefomvang en voer een vermogensanalyse uit met een schone en gebruiksvriendelijke interface

                    Presentatiesjablonen voor het samenvatten van kanker en werkelijke prognosemaatregelen

                    We hebben een presentatiesjabloon ontwikkeld om metingen van de prognose van kanker en de werkelijke prognose samen te vatten. Het sjabloon is ontworpen om efficiënter en duidelijker te presenteren: overlevingstrends, het effect van prognostische en demografische kenmerken op de prognose van kanker, en feitelijke prognosematen voor kankerpatiënten en clinici. We presenteren de sjablonen voor acht belangrijke kankersites: prostaat-, vrouwelijke borst-, long- en bronchus, colon en rectum, urineblaas, pancreas, corpus uteri-kankers en leukemie. Om de prognose van kanker weer te geven, gebruikten we: relatieve overleving na vijf jaar of oorzaak-specifieke overleving na vijf jaar, afhankelijk van wat het meest geschikt is. Waar mogelijk nemen we 95% betrouwbaarheidsintervallen op.


                    Inhoud

                    Analyse, verwijst naar het verdelen van een geheel in zijn afzonderlijke componenten voor individueel onderzoek. [10] Gegevensanalyse, is een proces om ruwe gegevens te verkrijgen en deze vervolgens om te zetten in informatie die nuttig is voor de besluitvorming door gebruikers. [1] Gegevens, wordt verzameld en geanalyseerd om vragen te beantwoorden, hypothesen te testen of theorieën te weerleggen. [11]

                    Statisticus John Tukey definieerde data-analyse in 1961 als:

                    "Procedures voor het analyseren van gegevens, technieken voor het interpreteren van de resultaten van dergelijke procedures, manieren om het verzamelen van gegevens te plannen om de analyse ervan gemakkelijker, nauwkeuriger of nauwkeuriger te maken, en alle machines en resultaten van (wiskundige) statistieken die van toepassing zijn op het analyseren van gegevens ." [12]

                    Er zijn verschillende fasen te onderscheiden, die hieronder worden beschreven. De fasen zijn iteratief, in die zin dat feedback uit latere fasen kan leiden tot extra werk in eerdere fasen. [13] Het CRISP-raamwerk, dat wordt gebruikt in datamining, kent vergelijkbare stappen.

                    Gegevensvereisten Bewerken

                    De gegevens zijn nodig als input voor de analyse, die wordt gespecificeerd op basis van de vereisten van degenen die de analyse leiden of klanten (die het eindproduct van de analyse zullen gebruiken). [14] [15] Het algemene type entiteit waarop de gegevens zullen worden verzameld, wordt een experimentele eenheid genoemd (bijvoorbeeld een persoon of een populatie van mensen). Specifieke variabelen met betrekking tot een populatie (bijv. leeftijd en inkomen) kunnen worden gespecificeerd en verkregen. Gegevens kunnen numeriek of categorisch zijn (d.w.z. een tekstlabel voor getallen). [13]

                    Gegevensverzameling Bewerken

                    Gegevens worden verzameld uit verschillende bronnen. [16] [17] De vereisten kunnen door analisten worden gecommuniceerd aan beheerders van de gegevens, zoals informatietechnologiepersoneel binnen een organisatie. [18] De gegevens kunnen ook worden verzameld van sensoren in de omgeving, waaronder verkeerscamera's, satellieten, opnameapparatuur, enz. Ze kunnen ook worden verkregen door middel van interviews, downloads van online bronnen of het lezen van documentatie. [13]

                    Gegevensverwerking Bewerken

                    Gegevens, wanneer ze in eerste instantie zijn verkregen, moeten worden verwerkt of georganiseerd voor analyse. [19] [20] Hierbij kan het bijvoorbeeld gaan om het plaatsen van gegevens in rijen en kolommen in een tabelformaat (bekend als gestructureerde gegevens) voor verdere analyse, vaak door het gebruik van spreadsheets of statistische software. [13]

                    Gegevens opschonen Bewerken

                    Eenmaal verwerkt en georganiseerd, kunnen de gegevens onvolledig zijn, duplicaten bevatten of fouten bevatten. [21] [22] De behoefte aan: gegevens opschonen, zal ontstaan ​​door problemen in de manier waarop de datum wordt ingevoerd en opgeslagen. [21] Het opschonen van gegevens is het proces van het voorkomen en corrigeren van deze fouten. Veelvoorkomende taken zijn onder meer het matchen van records, het identificeren van onnauwkeurigheden van gegevens, de algehele kwaliteit van bestaande gegevens, deduplicatie en kolomsegmentatie. [23] Dergelijke gegevensproblemen kunnen ook worden geïdentificeerd door middel van een verscheidenheid aan analytische technieken. Bij financiële informatie kunnen de totalen voor bepaalde variabelen bijvoorbeeld worden vergeleken met afzonderlijk gepubliceerde cijfers, die betrouwbaar worden geacht. [24] [25] Ongebruikelijke bedragen, boven of onder vooraf bepaalde drempels, kunnen ook worden herzien. Er zijn verschillende soorten gegevensopschoning, die afhankelijk zijn van het type gegevens in de set. Dit kunnen telefoonnummers, e-mailadressen, werkgevers of andere waarden zijn. [26] [27] Kwantitatieve gegevensmethoden voor uitbijterdetectie kunnen worden gebruikt om gegevens te verwijderen waarvan de kans groter is dat ze onjuist worden ingevoerd. [28] Spellingcontroles voor tekstuele gegevens kunnen worden gebruikt om het aantal verkeerd getypte woorden te verminderen, maar het is moeilijker om te bepalen of de woorden zelf correct zijn. [29]

                    Verkennende data-analyse Bewerken

                    Nadat de datasets zijn opgeschoond, kan deze vervolgens worden geanalyseerd. Analisten kunnen verschillende technieken toepassen, ook wel verkennende gegevensanalyse genoemd, om de berichten in de verkregen gegevens te begrijpen. [30] Het proces van gegevensverkenning kan resulteren in aanvullende gegevensopschoning of aanvullende gegevensverzoeken, dus de initialisatie van de iteratieve fasen genoemd in de hoofdparagraaf van deze sectie. [31] Beschrijvende statistieken, zoals het gemiddelde of de mediaan, kunnen worden gegenereerd om de gegevens beter te begrijpen. [32] [33] Datavisualisatie is ook een gebruikte techniek, waarbij de analist de gegevens in een grafisch formaat kan onderzoeken om aanvullende inzichten te verkrijgen met betrekking tot de berichten binnen de gegevens. [13]

                    Modellering en algoritmen

                    Wiskundige formules of modellen (bekend als algoritmen), kan worden toegepast op de gegevens om relaties tussen de variabelen te identificeren, bijvoorbeeld met behulp van correlatie of oorzakelijk verband. [34] [35] In algemene termen kunnen modellen worden ontwikkeld om een ​​specifieke variabele te evalueren op basis van andere variabele(n) in de dataset, met enkele restfout afhankelijk van de nauwkeurigheid van het geïmplementeerde model (bijv., Gegevens = Model + Fout). [36] [11]

                    Inferentiële statistiek omvat het gebruik van technieken die de relaties tussen bepaalde variabelen meten. [37] Regressieanalyse kan bijvoorbeeld worden gebruikt om te modelleren of een verandering in advertenties (onafhankelijke variabele X), geeft een verklaring voor de variatie in verkopen (afhankelijke variabele Y). [38] In wiskundige termen, Y (verkoop) is een functie van x (reclame). [39] Het kan worden omschreven als (Y = bijl + B + fout), waarbij het model zo is ontworpen dat (een) en (B) minimaliseer de fout wanneer het model voorspelt Y voor een gegeven bereik van waarden van x. [40] Analisten kunnen ook proberen modellen te bouwen die de gegevens beschrijven, met als doel de analyse te vereenvoudigen en resultaten te communiceren. [11]

                    Gegevensproduct Bewerken

                    EEN dataproduct, is een computertoepassing die gegevensinvoer en genereert uitgangen, waardoor ze teruggevoerd worden naar de omgeving. [41] Het kan gebaseerd zijn op een model of algoritme. Bijvoorbeeld een applicatie die gegevens over de aankoopgeschiedenis van klanten analyseert en de resultaten gebruikt om andere aankopen aan te bevelen die de klant mogelijk leuk vindt. [42] [13]

                    Communicatie Bewerken

                    Zodra de gegevens zijn geanalyseerd, kunnen deze in vele formaten worden gerapporteerd aan de gebruikers van de analyse om hun vereisten te ondersteunen. [44] De gebruikers kunnen feedback hebben, wat resulteert in aanvullende analyse. Als zodanig is een groot deel van de analytische cyclus iteratief. [13]

                    Bij het bepalen hoe de resultaten moeten worden gecommuniceerd, kan de analist overwegen verschillende technieken voor gegevensvisualisatie te implementeren om de boodschap duidelijk en efficiënt aan het publiek over te brengen. [45] Gegevensvisualisatie maakt gebruik van informatiedisplays (afbeeldingen zoals tabellen en grafieken) om de belangrijkste boodschappen in de gegevens te helpen communiceren. [46] Tabellen zijn een waardevol hulpmiddel omdat ze de gebruiker in staat stellen specifieke getallen op te vragen en erop te focussen, terwijl grafieken (bijv. staafdiagrammen of lijndiagrammen) kunnen helpen bij het verklaren van de kwantitatieve berichten in de gegevens. [47]

                    Stephen Few beschreef acht soorten kwantitatieve berichten die gebruikers kunnen proberen te begrijpen of te communiceren op basis van een reeks gegevens en de bijbehorende grafieken die worden gebruikt om de boodschap over te brengen. [48] ​​Klanten die eisen specificeren en analisten die de gegevensanalyse uitvoeren, kunnen deze berichten in de loop van het proces overwegen. [49]

                    1. Tijdreeksen: een enkele variabele wordt vastgelegd over een bepaalde periode, zoals het werkloosheidspercentage over een periode van 10 jaar. Een lijndiagram kan worden gebruikt om de trend aan te tonen. [50]
                    2. Rangschikking: categorische onderverdelingen worden gerangschikt in oplopende of aflopende volgorde, zoals een rangschikking van verkoopprestaties (de meeteenheid) door verkopers (de categorie, met elke verkoper een categorische onderverdeling) gedurende een enkele periode. [51] Een staafdiagram kan worden gebruikt om de vergelijking tussen de verkopers weer te geven. [52]
                    3. Gedeeltelijk tot geheel: categorische onderverdelingen worden gemeten als een verhouding tot het geheel (d.w.z. een percentage van 100%). Een cirkeldiagram of staafdiagram kan de vergelijking van verhoudingen weergeven, zoals het marktaandeel dat wordt vertegenwoordigd door concurrenten in een markt. [53]
                    4. Afwijking: categorische onderverdelingen worden vergeleken met een referentie, zoals een vergelijking van werkelijke versus gebudgetteerde uitgaven voor verschillende afdelingen van een bedrijf voor een bepaalde periode. Een staafdiagram kan de vergelijking van het werkelijke versus het referentiebedrag weergeven. [54]
                    5. Frequentieverdeling: toont het aantal waarnemingen van een bepaalde variabele voor een bepaald interval, zoals het aantal jaren waarin het beursrendement tussen intervallen ligt, zoals 0–10%, 11–20%, enz. Een histogram, een type staafdiagram, kan voor deze analyse worden gebruikt. [55]
                    6. Correlatie: vergelijking tussen waarnemingen weergegeven door twee variabelen (X,Y) om te bepalen of ze de neiging hebben om in dezelfde of tegengestelde richting te bewegen. Bijvoorbeeld werkloosheid (X) en inflatie (Y) uitzetten voor een steekproef van maanden. Voor dit bericht wordt meestal een spreidingsplot gebruikt. [56]
                    7. Nominale vergelijking: het vergelijken van categorische onderverdelingen in willekeurige volgorde, zoals het verkoopvolume per productcode. Voor deze vergelijking kan een staafdiagram worden gebruikt. [57]
                    8. Geografisch of geospatiaal: vergelijking van een variabele op een kaart of lay-out, zoals het werkloosheidspercentage per staat of het aantal personen op de verschillende verdiepingen van een gebouw. Een cartogram is een typische afbeelding die wordt gebruikt. [58][59]

                    Auteur Jonathan Koomey heeft een reeks best practices aanbevolen voor het begrijpen van kwantitatieve gegevens. [60] Deze omvatten:

                    • Controleer onbewerkte gegevens op afwijkingen voordat u een analyse uitvoert
                    • Voer belangrijke berekeningen opnieuw uit, zoals het verifiëren van kolommen met gegevens die formulegestuurd zijn
                    • Bevestig dat de hoofdtotalen de som zijn van de subtotalen
                    • Controleer relaties tussen getallen die op een voorspelbare manier gerelateerd moeten zijn, zoals verhoudingen in de tijd
                    • Normaliseer getallen om vergelijkingen gemakkelijker te maken, zoals het analyseren van bedragen per persoon of ten opzichte van het BBP of als indexwaarde ten opzichte van een basisjaar
                    • Deel problemen op in onderdelen door factoren te analyseren die tot de resultaten hebben geleid, zoals DuPont-analyse van het rendement op eigen vermogen. [25]

                    Voor de variabelen die worden onderzocht, verkrijgen analisten doorgaans beschrijvende statistieken voor hen, zoals het gemiddelde (gemiddelde), mediaan en standaarddeviatie. [61] Ze kunnen ook de verdeling van de belangrijkste variabelen analyseren om te zien hoe de individuele waarden rond het gemiddelde clusteren. [62]

                    De consultants van McKinsey and Company noemden een techniek om een ​​kwantitatief probleem op te splitsen in zijn samenstellende delen, het MECE-principe. [63] Elke laag kan worden opgesplitst in zijn componenten, elk van de subcomponenten moet elkaar wederzijds uitsluiten en samen optellen tot de laag erboven. [64] De relatie wordt "wederzijds exclusief en collectief uitputtend" of MECE genoemd. Winst kan bijvoorbeeld per definitie worden uitgesplitst in totale omzet en totale kosten. [65] Op zijn beurt kunnen de totale inkomsten worden geanalyseerd op basis van de componenten, zoals de inkomsten van de divisies A, B en C (die elkaar wederzijds uitsluiten) en zouden moeten worden toegevoegd aan de totale inkomsten (collectief uitputtend). [66]

                    Analisten kunnen robuuste statistische metingen gebruiken om bepaalde analytische problemen op te lossen. [67] Het testen van hypothesen wordt gebruikt wanneer een bepaalde hypothese over de ware stand van zaken wordt gemaakt door de analist en gegevens worden verzameld om te bepalen of die stand van zaken waar of onwaar is. [68] [69] De hypothese zou bijvoorbeeld kunnen zijn dat "Werkloosheid geen effect heeft op de inflatie", wat betrekking heeft op een economisch concept dat de Phillipscurve wordt genoemd. [70] Bij het testen van hypothesen wordt gekeken naar de waarschijnlijkheid van type I- en type II-fouten, die betrekking hebben op de vraag of de gegevens het accepteren of verwerpen van de hypothese ondersteunen. [71] [72]

                    Regressieanalyse kan worden gebruikt wanneer de analist probeert te bepalen in hoeverre de onafhankelijke variabele X de afhankelijke variabele Y beïnvloedt (bijv. "In welke mate beïnvloeden veranderingen in het werkloosheidscijfer (X) het inflatiecijfer (Y)?"). [73] Dit is een poging om een ​​vergelijkingslijn of kromme te modelleren of in de gegevens te passen, zodat Y een functie van X is. [74] [75]

                    Noodzakelijke conditieanalyse (NCA) kan worden gebruikt wanneer de analist probeert te bepalen in hoeverre onafhankelijke variabele X variabele Y toelaat (bijvoorbeeld: "In hoeverre is een bepaald werkloosheidscijfer (X) nodig voor een bepaald inflatiecijfer (Y) ?"). [73] Terwijl (meervoudige) regressieanalyse additieve logica gebruikt waarbij elke X-variabele de uitkomst kan produceren en de X's elkaar kunnen compenseren (ze zijn voldoende maar niet noodzakelijk), [76] noodzakelijke conditieanalyse (NCA) maakt gebruik van noodzaaklogica , waarbij een of meer X-variabelen de uitkomst laten bestaan, maar deze mogelijk niet produceren (ze zijn noodzakelijk maar niet voldoende). Elke noodzakelijke voorwaarde moet aanwezig zijn en compensatie is niet mogelijk. [77]

                    Gebruikers kunnen specifieke gegevenspunten hebben binnen een gegevensset, in tegenstelling tot de hierboven beschreven algemene berichten. Dergelijke gebruikersanalyseactiviteiten op laag niveau worden weergegeven in de volgende tabel. De taxonomie kan ook worden georganiseerd door drie polen van activiteiten: het ophalen van waarden, het vinden van gegevenspunten en het ordenen van gegevenspunten. [78] [79] [80] [81]

                    - Hoe lang duurt de film Gone with the Wind?

                    - Welke komedies hebben prijzen gewonnen?

                    - Welke fondsen deden het slechter dan de SP-500?

                    - Wat is het bruto inkomen van alle winkels samen?

                    - Hoeveel autofabrikanten zijn er?

                    - Welke regisseur/film heeft de meeste prijzen gewonnen?

                    - Welke film van Marvel Studios heeft de meest recente releasedatum?

                    - Rangschik de granen op calorieën.

                    - Wat is het bereik van auto pk's?

                    - Welke actrices zitten in de dataset?

                    - Wat is de leeftijdsverdeling van shoppers?

                    - Zijn er uitschieters in eiwit?

                    - Is er een cluster van typische filmlengtes?

                    - Is er een verband tussen land van herkomst en MPG?

                    - Hebben verschillende geslachten een voorkeursbetaalmethode?

                    - Is er een trend van toenemende filmlengte door de jaren heen?

                    Er kunnen belemmeringen zijn voor een effectieve analyse bij de analisten die de gegevensanalyse uitvoeren of bij het publiek. Het onderscheiden van feiten en meningen, cognitieve vooroordelen en ontelbaarheid zijn allemaal uitdagingen voor een gedegen gegevensanalyse. [82]

                    Verwarrende feit en mening

                    Effectieve analyse vereist het verkrijgen van relevante feiten om vragen te beantwoorden, een conclusie of formele mening te ondersteunen of hypothesen te testen. [83] [84] Feiten zijn per definitie onweerlegbaar, wat betekent dat iedereen die bij de analyse betrokken is, het ermee eens moet kunnen zijn. [85] In augustus 2010 schatte het Congressional Budget Office (CBO) bijvoorbeeld dat verlenging van de belastingverlagingen van Bush van 2001 en 2003 voor de periode 2011-2020 ongeveer $ 3,3 biljoen aan de staatsschuld zou toevoegen. [86] Iedereen zou het erover eens moeten zijn dat dit inderdaad is wat CBO meldde, ze kunnen het rapport allemaal bekijken. Dit maakt het een feit. Of personen het eens of oneens zijn met het CBO is hun eigen mening. [87]

                    Een ander voorbeeld is dat de accountant van een beursgenoteerd bedrijf tot een formeel oordeel moet komen over de vraag of financiële overzichten van beursgenoteerde ondernemingen "eerlijk zijn weergegeven, in alle materiële opzichten". [88] Dit vereist een uitgebreide analyse van feitelijke gegevens en bewijs om hun mening te ondersteunen. Bij het maken van de sprong van feiten naar meningen, is er altijd de mogelijkheid dat de mening onjuist is. [89]

                    Cognitieve vooroordelen

                    Er zijn verschillende cognitieve vooroordelen die de analyse nadelig kunnen beïnvloeden. Bevestigingsbias is bijvoorbeeld de neiging om informatie te zoeken of te interpreteren op een manier die iemands vooroordelen bevestigt. [90] Bovendien kunnen individuen informatie in diskrediet brengen die hun mening niet ondersteunt. [91]

                    Analisten kunnen specifiek worden getraind om zich bewust te zijn van deze vooroordelen en om ze te overwinnen. [92] In zijn boek Psychologie van intelligentieanalyse, schreef de gepensioneerde CIA-analist Richards Heuer dat analisten hun aannames en gevolgtrekkingen duidelijk moeten afbakenen en de mate en de bron van de onzekerheid die bij de conclusies betrokken is, moeten specificeren. [93] Hij benadrukte procedures om alternatieve standpunten naar boven te halen en te bespreken. [94]

                    Ongecijferdheid Bewerken

                    Effectieve analisten zijn over het algemeen bedreven in een verscheidenheid aan numerieke technieken. Het is echter mogelijk dat het publiek niet zo'n geletterdheid heeft met cijfers of rekenvaardigheid waarvan wordt gezegd dat ze ontelbaar zijn. [95] Personen die de gegevens doorgeven, kunnen ook proberen te misleiden of verkeerd te informeren, opzettelijk met behulp van slechte numerieke technieken. [96]

                    Of een getal bijvoorbeeld stijgt of daalt, is misschien niet de belangrijkste factor. Belangrijker kan het getal zijn ten opzichte van een ander getal, zoals de omvang van de overheidsinkomsten of -uitgaven in verhouding tot de omvang van de economie (bbp) of het bedrag van de kosten in verhouding tot de omzet in de jaarrekening van ondernemingen. [97] Deze numerieke techniek wordt normalisatie [25] of common-sizing genoemd. Er zijn veel van dergelijke technieken die door analisten worden gebruikt, of het nu gaat om het aanpassen voor inflatie (dwz het vergelijken van reële versus nominale gegevens) of het overwegen van bevolkingsgroei, demografie, enz. [98] Analisten passen een verscheidenheid aan technieken toe om de verschillende kwantitatieve berichten die in de gedeelte hierboven. [99]

                    Analisten kunnen ook gegevens analyseren onder verschillende veronderstellingen of scenario's. Wanneer analisten bijvoorbeeld analyses van financiële overzichten uitvoeren, zullen ze de financiële overzichten vaak herschikken onder verschillende veronderstellingen om een ​​schatting te maken van de toekomstige kasstroom, die ze vervolgens verdisconteren tot de contante waarde op basis van een bepaalde rentevoet, om de waardering van de bedrijf of zijn voorraad. [100] [101] Evenzo analyseert het CBO de effecten van verschillende beleidsopties op de inkomsten, uitgaven en tekorten van de overheid, en creëert zo alternatieve toekomstscenario's voor belangrijke maatregelen. [102]

                    Slimme gebouwen Bewerken

                    Om het energieverbruik in gebouwen te voorspellen, kan een data-analysebenadering worden gebruikt. [103] De verschillende stappen van het data-analyseproces worden uitgevoerd om slimme gebouwen te realiseren, waarbij het gebouwbeheer en de controleactiviteiten, waaronder verwarming, ventilatie, airconditioning, verlichting en beveiliging, automatisch worden gerealiseerd door de behoeften van de gebruikers van het gebouw na te bootsen en het optimaliseren van middelen zoals energie en tijd. [104]

                    Analytics en business intelligence Bewerken

                    Analytics is het "uitgebreide gebruik van gegevens, statistische en kwantitatieve analyse, verklarende en voorspellende modellen en op feiten gebaseerd management om beslissingen en acties te stimuleren." Het is een subset van business intelligence, een reeks technologieën en processen die gegevens gebruiken om de bedrijfsprestaties te begrijpen en te analyseren om de besluitvorming te stimuleren. [105]

                    Onderwijs Bewerken

                    In het onderwijs hebben de meeste docenten toegang tot een datasysteem voor het analyseren van leerlinggegevens.[106] Deze datasystemen presenteren gegevens aan docenten in een vrij verkrijgbare gegevensindeling (embedde labels, aanvullende documentatie en een helpsysteem en nemen belangrijke beslissingen over pakket/weergave en inhoud) om de nauwkeurigheid van de gegevensanalyses van docenten te verbeteren. [107]

                    Deze sectie bevat nogal technische uitleg die beoefenaars kunnen helpen, maar die buiten het normale bereik van een Wikipedia-artikel vallen. [108]

                    Initiële data-analyse Bewerken

                    Het belangrijkste onderscheid tussen de initiële data-analysefase en de hoofdanalysefase, is dat men zich tijdens de initiële data-analyse onthoudt van elke analyse die gericht is op het beantwoorden van de oorspronkelijke onderzoeksvraag. [109] De initiële data-analysefase wordt geleid door de volgende vier vragen: [110]

                    Kwaliteit van gegevens Bewerken

                    De kwaliteit van de gegevens moet zo vroeg mogelijk worden gecontroleerd. De gegevenskwaliteit kan op verschillende manieren worden beoordeeld, met behulp van verschillende soorten analyse: frequentietellingen, beschrijvende statistieken (gemiddelde, standaarddeviatie, mediaan), normaliteit (scheefheid, kurtosis, frequentiehistogrammen), normale imputatie is nodig. [111]

                    • Analyse van extreme waarnemingen: afgelegen waarnemingen in de data worden geanalyseerd om te kijken of ze de verdeling lijken te verstoren. [112]
                    • Vergelijking en correctie van verschillen in coderingsschema's: variabelen worden vergeleken met coderingsschema's van variabelen buiten de dataset, en mogelijk gecorrigeerd als coderingsschema's niet vergelijkbaar zijn. [113]
                    • Test op common-method variantie.

                    De keuze van analyses om de datakwaliteit te beoordelen tijdens de initiële data-analysefase hangt af van de analyses die in de hoofdanalysefase zullen worden uitgevoerd. [114]

                    Kwaliteit van metingen Bewerken

                    De kwaliteit van de meetinstrumenten dient alleen tijdens de initiële data-analysefase te worden gecontroleerd wanneer dit niet de focus of onderzoeksvraag van het onderzoek is. [115] [116] Men zou moeten controleren of de structuur van meetinstrumenten overeenkomt met de structuur die in de literatuur wordt vermeld.

                    Er zijn twee manieren om de meetkwaliteit te beoordelen:

                    • Bevestigende factoranalyse
                    • Analyse van homogeniteit (interne consistentie), die een indicatie geeft van de betrouwbaarheid van een meetinstrument. [117] Tijdens deze analyse inspecteert men de varianties van de items en de schalen, de Cronbach's α van de schalen en de verandering in de Cronbach's alpha wanneer een item van een schaal zou worden verwijderd [118]

                    Initiële transformaties Bewerken

                    Na beoordeling van de kwaliteit van de data en van de metingen kan men besluiten om ontbrekende data toe te rekenen, of om initiële transformaties van een of meerdere variabelen uit te voeren, al kan dit ook tijdens de hoofdanalysefase. [119]
                    Mogelijke transformaties van variabelen zijn: [120]

                    • Vierkantsworteltransformatie (als de verdeling matig afwijkt van normaal)
                    • Log-transformatie (als de verdeling substantieel afwijkt van normaal)
                    • Inverse transformatie (als de verdeling sterk afwijkt van normaal)
                    • Maak categorisch (ordinaal / dichotoom) (als de verdeling sterk afwijkt van normaal, en geen transformaties helpen)

                    Voldeed de uitvoering van het onderzoek aan de bedoelingen van het onderzoeksdesign? Bewerking

                    Men zou het succes van de randomisatieprocedure moeten controleren, bijvoorbeeld door te controleren of achtergrond- en inhoudelijke variabelen gelijk verdeeld zijn binnen en tussen groepen. [121]
                    Als de studie geen randomisatieprocedure nodig had of gebruikte, moet men het succes van de niet-willekeurige steekproeven controleren, bijvoorbeeld door te controleren of alle subgroepen van de populatie van interesse in de steekproef vertegenwoordigd zijn. [122]
                    Andere mogelijke gegevensvervormingen die moeten worden gecontroleerd, zijn:

                      (dit moet worden geïdentificeerd tijdens de initiële data-analysefase)
                • Item non-respons (of dit willekeurig is of niet moet worden beoordeeld tijdens de initiële data-analysefase)
                • Kwaliteit van de behandeling (met behulp van manipulatiechecks). [123]
                • Kenmerken van gegevensvoorbeeld Bewerken

                  In elk rapport of artikel moet de structuur van het monster nauwkeurig worden beschreven. [124] [125] Het is vooral belangrijk om de structuur van de steekproef (en specifiek de grootte van de subgroepen) exact te bepalen wanneer subgroepanalyses worden uitgevoerd tijdens de hoofdanalysefase. [126]
                  De kenmerken van de gegevenssteekproef kunnen worden beoordeeld door te kijken naar:

                  • Basisstatistieken van belangrijke variabelen
                  • Scatter plots
                  • Correlaties en associaties
                  • Kruistabellen [127]

                  Laatste fase van de eerste data-analyse Bewerken

                  Tijdens de laatste fase worden de bevindingen van de initiële gegevensanalyse gedocumenteerd en worden noodzakelijke, voorkeurs- en mogelijke corrigerende maatregelen genomen. [128]
                  Ook kan en moet het oorspronkelijke plan voor de belangrijkste data-analyses nader worden gespecificeerd of herschreven. [129] [130]
                  Om dit te doen, kunnen en moeten verschillende beslissingen over de belangrijkste gegevensanalyses worden genomen:

                  • In het geval van niet-normalen: moet men variabelen transformeren variabelen categorisch maken (ordinaal/dichotoom) de analysemethode aanpassen?
                  • Bij ontbrekende gegevens: moet men de ontbrekende gegevens verwaarlozen of toerekenen welke imputatietechniek moet worden gebruikt?
                  • In het geval van uitbijters: moet men robuuste analysetechnieken gebruiken?
                  • Indien items niet passen in de schaal: moet men het meetinstrument aanpassen door items weg te laten, of liever zorgen voor vergelijkbaarheid met andere (gebruiken van) meetinstrument(en)?
                  • In het geval van (te) kleine subgroepen: moet men de hypothese over verschillen tussen groepen laten vallen, of kleine steekproeftechnieken gebruiken, zoals exacte tests of bootstrapping?
                  • Indien de randomisatieprocedure gebrekkig blijkt te zijn: kan en moet men propensityscores berekenen en deze als covariaten opnemen in de hoofdanalyses? [131]

                  Analyse Bewerken

                  Tijdens de initiële data-analysefase kunnen verschillende analyses worden gebruikt: [132]

                  • Univariate statistieken (enkele variabele)
                  • Bivariate associaties (correlaties)
                  • Grafische technieken (scatter plots)

                  Het is belangrijk om bij de analyses rekening te houden met de meetniveaus van de variabelen, aangezien er voor elk niveau speciale statistische technieken beschikbaar zijn: [133]

                  • Nominale en ordinale variabelen
                    • Frequentietellingen (getallen en percentages)
                    • verenigingen
                      • rondgangen (kruistabellen)
                      • hiërarchische loglineaire analyse (beperkt tot maximaal 8 variabelen)
                      • loglineaire analyse (om relevante/belangrijke variabelen en mogelijke confounders te identificeren)
                      • Verdeling
                        • Statistieken (M, SD, variantie, scheefheid, kurtosis)
                        • Stam-en-bladdisplays
                        • Boxplots

                        Niet-lineaire analyse Bewerken

                        Niet-lineaire analyse is vaak nodig wanneer de gegevens worden vastgelegd vanuit een niet-lineair systeem. Niet-lineaire systemen kunnen complexe dynamische effecten vertonen, waaronder bifurcaties, chaos, harmonischen en subharmonischen die niet kunnen worden geanalyseerd met behulp van eenvoudige lineaire methoden. Niet-lineaire data-analyse is nauw verwant aan niet-lineaire systeemidentificatie. [134]

                        Belangrijkste data-analyse Bewerken

                        In de hoofdanalysefase worden analyses uitgevoerd die gericht zijn op het beantwoorden van de onderzoeksvraag, evenals alle andere relevante analyses die nodig zijn om de eerste versie van het onderzoeksrapport te schrijven. [135]

                        Verkennende en bevestigende benaderingen

                        In de hoofdanalysefase kan ofwel een verkennende ofwel een bevestigende benadering worden gevolgd. Meestal wordt de aanpak bepaald voordat gegevens worden verzameld. [136] In een verkennende analyse wordt er geen duidelijke hypothese gesteld voordat de gegevens worden geanalyseerd en wordt in de gegevens gezocht naar modellen die de gegevens goed beschrijven. [137] In een bevestigende analyse worden duidelijke hypothesen over de data getest. [138]

                        Verkennende data-analyse moet zorgvuldig worden geïnterpreteerd. Bij het testen van meerdere modellen tegelijk is de kans groot dat ten minste één ervan significant is, maar dit kan te wijten zijn aan een type 1-fout. [139] Bij het testen van meerdere modellen met bijvoorbeeld een Bonferroni-correctie is het belangrijk om altijd het significantieniveau aan te passen. [140] Ook moet men een verkennende analyse niet opvolgen met een bevestigende analyse in dezelfde dataset. [141] Een verkennende analyse wordt gebruikt om ideeën voor een theorie te vinden, maar niet om die theorie ook te testen. [141] Wanneer een model verkennend wordt gevonden in een dataset, kan het opvolgen van die analyse met een bevestigende analyse in dezelfde dataset eenvoudigweg betekenen dat de resultaten van de bevestigende analyse te wijten zijn aan dezelfde type 1-fout die resulteerde in het verkennende model in de eerste plaats. [141] De bevestigende analyse zal daarom niet informatiever zijn dan de oorspronkelijke verkennende analyse. [142]

                        Stabiliteit van resultaten Bewerken

                        Het is belangrijk om enige indicatie te krijgen over hoe generaliseerbaar de resultaten zijn. [143] Hoewel dit vaak moeilijk te controleren is, kan men kijken naar de stabiliteit van de resultaten. Zijn de resultaten betrouwbaar en reproduceerbaar? Er zijn twee belangrijke manieren om dat te doen. [144]

                        • Kruisvalidatie. Door de gegevens in meerdere delen te splitsen, kunnen we controleren of een analyse (zoals een aangepast model) op basis van een deel van de gegevens ook generaliseert naar een ander deel van de gegevens. [145] Kruisvalidatie is echter over het algemeen ongepast als er correlaties zijn binnen de gegevens, b.v. met paneelgegevens. [146] Daarom moeten soms andere validatiemethoden worden gebruikt. Zie validatie van statistische modellen voor meer informatie over dit onderwerp. [147]
                        • Gevoeligheids analyse. Een procedure om het gedrag van een systeem of model te bestuderen wanneer globale parameters (systematisch) worden gevarieerd. Een manier om dat te doen is via bootstrapping. [148]

                        Opmerkelijke gratis software voor data-analyse zijn onder meer:

                          – Een door de Ontwikkelingsgroep van de Verenigde Naties goedgekeurd databasesysteem voor het monitoren en analyseren van menselijke ontwikkeling. [149] – Datamining-framework in Java met op datamining georiënteerde visualisatiefuncties. – De Konstanz Information Miner, een gebruiksvriendelijk en uitgebreid raamwerk voor gegevensanalyse. – Een visuele programmeertool met interactieve datavisualisatie en methoden voor statistische data-analyse, datamining en machine learning. – Python-bibliotheek voor data-analyse. – FORTRAN/C data-analyseraamwerk ontwikkeld bij CERN. – Een programmeertaal en softwareomgeving voor statistische berekeningen en grafische afbeeldingen. [150] – C++ data-analysekader ontwikkeld bij CERN. – Python-bibliotheek voor data-analyse. - Een programmeertaal die zeer geschikt is voor numerieke analyse en computationele wetenschap.

                        Verschillende bedrijven of organisaties houden data-analysewedstrijden om onderzoekers aan te moedigen hun data te gebruiken of om een ​​bepaalde vraag op te lossen met behulp van data-analyse. [151] [152] Enkele voorbeelden van bekende internationale data-analysewedstrijden zijn als volgt. [153]


                        Bekijk de video: The KM plot and Log-rank test - Survival Analysis in R for Public Health (December 2021).