Informatie

4.3: Chi-kwadraattest van Goodness-of-Fit - Biologie


leerdoelen

  • Bestudeer het gebruik van de chi-kwadraattest van de goodness-of-fit wanneer je één nominale variabele hebt
  • Om te zien of het aantal waarnemingen in elke categorie past bij een theoretische verwachting, en de steekproefomvang groot is

Wanneer te gebruiken?

Gebruik de chikwadraattest van goodness-of-fit wanneer u één nominale variabele met twee of meer waarden heeft (zoals rode, roze en witte bloemen). Je vergelijkt de waargenomen tellingen van waarnemingen in elke categorie met de verwachte tellingen, die je berekent met een soort theoretische verwachting (zoals een (1:1) sex-ratio of een (1:2:1) ratio in een genetische kruising).

Als het verwachte aantal waarnemingen in een categorie te klein is, kan de chikwadraattoets onnauwkeurige resultaten opleveren en moet u in plaats daarvan een exacte test gebruiken. Zie de webpagina over kleine steekproefomvang voor een bespreking van wat "klein" betekent.

De chikwadraattoets van goodness-of-fit is een alternatief voor de G–test van goedheid; elk van deze tests heeft enkele voor- en nadelen, en de resultaten van de twee tests lijken meestal erg op elkaar. U moet het gedeelte over "Chi-kwadraat vs. G–test" onderaan deze pagina, kies chikwadraat of G-test, en blijf dan de rest van je leven bij die keuze. Veel van de informatie en voorbeelden op deze pagina zijn hetzelfde als op de G–testpagina, dus als je eenmaal hebt besloten welke test voor jou het beste is, hoef je er maar één te lezen.

Nulhypothese

De statistische nulhypothese is dat het aantal waarnemingen in elke categorie gelijk is aan het aantal voorspeld door een biologische theorie, en de alternatieve hypothese is dat de waargenomen aantallen verschillen van de verwachte. De nulhypothese is meestal een extrinsieke hypothese, waarbij u de verwachte verhoudingen kende voordat u het experiment uitvoerde. Voorbeelden zijn een (1:1) geslachtsverhouding of een (1:2:1) verhouding in een genetische kruising. Een ander voorbeeld is kijken naar een kustgebied waarvan 59% van het gebied bedekt is met zand, (28\%) modder en (13\%) rotsen; als je zou onderzoeken waar meeuwen graag staan, zou je nulhypothese zijn dat (59\%) van de meeuwen op zand, (28\%) op modder en (13\%) op rotsen stonden .

In sommige situaties heb je een intrinsieke hypothese. Dit is een nulhypothese waarbij u de verwachte verhoudingen berekent nadat u het experiment hebt uitgevoerd, met behulp van een deel van de informatie uit de gegevens. Het bekendste voorbeeld van een intrinsieke hypothese is de Hardy-Weinberg-verhouding van populatiegenetica: als de frequentie van het ene allel in een populatie (p) is en het andere allel (q), is de nulhypothese dat verwachte frequenties van de drie genotypen zijn (p^2), (2pq), en (q^2). Dit is een intrinsieke hypothese, omdat je (p) en (q) schat op basis van de gegevens nadat je de gegevens hebt verzameld, kun je (p) en (q) niet voorspellen vóór het experiment.

Hoe de test werkt

In tegenstelling tot de exacte test van goodness-of-fit, berekent de chi-kwadraattest niet rechtstreeks de waarschijnlijkheid van het verkrijgen van de waargenomen resultaten of iets extremers. In plaats daarvan heeft de chikwadraattoets, zoals bijna alle statistische tests, een tussenstap; het gebruikt de gegevens om een ​​teststatistiek te berekenen die meet hoe ver de waargenomen gegevens verwijderd zijn van de nulverwachting. Vervolgens gebruik je een wiskundige relatie, in dit geval de chi-kwadraatverdeling, om de kans te schatten dat je die waarde van de teststatistiek krijgt.

U berekent de teststatistiek door een waargenomen getal ((O) te nemen), het verwachte getal af te trekken ((E)) en vervolgens dit verschil te kwadrateren. Hoe groter de afwijking van de nulhypothese, hoe groter het verschil tussen waargenomen en verwacht. Het kwadrateren van de verschillen maakt ze allemaal positief. Vervolgens deel je elk verschil door het verwachte aantal en tel je deze gestandaardiseerde verschillen bij elkaar op. De teststatistiek is ongeveer gelijk aan de log-waarschijnlijkheidsverhouding die wordt gebruikt in de G-toets. Het wordt gewoonlijk een "chi-kwadraat"-statistiek genoemd, hoewel dit enigszins verwarrend is omdat het slechts een van de vele teststatistieken is die de theoretische chi-kwadraatverdeling volgt. De vergelijking is:

[ ext{chi}^{2}=sum frac{(O-E)^2}{E}]

Zoals met de meeste teststatistieken, hoe groter het verschil tussen waargenomen en verwacht, hoe groter de teststatistiek wordt. Om een ​​voorbeeld te geven, laten we zeggen dat uw nulhypothese een (3:1) verhouding is van gladde vleugels tot gerimpelde vleugels bij nakomelingen van een stel Drosophila kruisen. Je ziet (770) vliegen met gladde vleugels en (230) vliegen met gerimpelde vleugels; de verwachte waarden zijn (750) gladvleugelige en (250) gerimpelde vliegen. Als u deze getallen in de vergelijking invoert, is de chikwadraatwaarde (2.13). Als je (760) gladgevleugelde vliegen en (240) gerimpelde vliegen had waargenomen, wat dichter bij de nulhypothese ligt, dan zou je chikwadraatwaarde kleiner zijn geweest, op (0,53); als je (800) gladvleugelige en (200) gerimpelde vliegen had waargenomen, wat verder van de nulhypothese ligt, zou je chikwadraatwaarde (13.33) zijn geweest.

De verdeling van de teststatistiek onder de nulhypothese is ongeveer hetzelfde als de theoretische chikwadraatverdeling. Dit betekent dat als je eenmaal de chikwadraatwaarde en het aantal vrijheidsgraden kent, je de kans kunt berekenen om die waarde van chikwadraat te krijgen met behulp van de chikwadraatverdeling. Het aantal vrijheidsgraden is het aantal categorieën min één, dus voor ons voorbeeld is er één vrijheidsgraad. Door de CHIDIST-functie in een spreadsheet te gebruiken, voert u =CHIDIST(2.13, 1) en bereken dat de kans op het krijgen van een chikwadraatwaarde van (2.13) met één vrijheidsgraad (P=0.144) is.

De vorm van de chikwadraatverdeling hangt af van het aantal vrijheidsgraden. Voor een extrinsieke nulhypothese (de veel voorkomende situatie, waarbij u de verhoudingen kent die door de nulhypothese worden voorspeld voordat u de gegevens verzamelt), is het aantal vrijheidsgraden eenvoudigweg het aantal waarden van de variabele, minus één. Dus als je een nulhypothese van een (1:1) sex-ratio test, zijn er twee mogelijke waarden (mannelijk en vrouwelijk), en dus één vrijheidsgraad. Dit komt omdat als je eenmaal weet hoeveel van het totaal vrouwen zijn (een getal dat "vrij" kan variëren van (0) tot de steekproefomvang), het aantal mannen wordt bepaald. Als er drie waarden van de variabele zijn (zoals rood, roze en wit), zijn er twee vrijheidsgraden, enzovoort.

Een intrinsieke nulhypothese is er een waarbij u een of meer parameters uit de gegevens schat om de cijfers voor uw nulhypothese te krijgen. Zoals hierboven beschreven, is een voorbeeld de verhoudingen van Hardy-Weinberg. Voor een intrinsieke nulhypothese wordt het aantal vrijheidsgraden berekend door het aantal waarden van de variabele te nemen, (1) af te trekken voor elke geschatte parameter van de gegevens en vervolgens (1) meer af te trekken. Dus voor Hardy-Weinberg-verhoudingen met twee allelen en drie genotypen zijn er drie waarden van de variabele (de drie genotypen); je trekt er één af voor de geschatte parameter van de data (de allelfrequentie, (p)); en dan trek je er nog één af, wat één vrijheidsgraad oplevert. Er zijn andere statistische problemen bij het testen die passen bij de verwachtingen van Hardy-Weinberg, dus als je dit moet doen, zie Engels (2009) en de oudere referenties die hij citeert.

Post-hoc-test

Als er meer dan twee categorieën zijn en u wilt weten welke significant verschillen van hun nulverwachting, kunt u dezelfde methode gebruiken om elke categorie te testen versus de som van alle andere categorieën, met de Bonferroni-correctie, zoals ik beschrijf voor de exacte toets. Je gebruikt natuurlijk chikwadraattoetsen voor elke categorie.

Veronderstellingen

De chi-kwadraat van goodness-of-fit veronderstelt onafhankelijkheid, zoals beschreven voor de exacte test

Voorbeelden

Extrinsieke hypothese voorbeelden

Voorbeeld

Europese kruisbiljetten (Loxia curvirostra) hebben de punt van de bovenste snavel rechts of links van de onderste snavel, waardoor ze zaden uit dennenappels kunnen halen. Sommigen hebben de hypothese geopperd dat frequentieafhankelijke selectie het aantal rechts- en linkssnavelvogels in een verhouding van (1:1) zou houden. Groth (1992) observeerde (1752) rechts-gefactureerde en (1895) links-gefactureerde kruisbekken.

Fig. 2.3.1 Mannelijke rode kruisbek, Loxia curvirostra, met de twee soorten snavels.

Bereken de verwachte frequentie van rechtssnavelvogels door de totale steekproefomvang ((3647)) te vermenigvuldigen met de verwachte verhouding ((0,5)) om (1823,5) op te leveren. Doe hetzelfde voor links-gefactureerde vogels. Het aantal vrijheidsgraden wanneer een voor een extrinsieke hypothese het aantal klassen min één is. In dit geval zijn er twee klassen (rechts en links), dus er is één vrijheidsgraad.

Het resultaat is chi-kwadraat=(5.61), (1d.f.), (P=0.018), wat aangeeft dat u de nulhypothese kunt verwerpen; er zijn aanzienlijk meer links-gefactureerde kruisbekken dan rechts-gefactureerde.

Voorbeeld

Shivrain et al. (2006) kruisten clearfield-rijst, die resistent is tegen het herbicide imazethapyr, met rode rijst, die gevoelig is voor imazethapyr. Vervolgens kruisten ze de hybride nakomelingen en onderzochten de (F_2) generatie, waar ze (772) resistente planten, (1611) matig resistente planten en (737) gevoelige planten aantroffen. Als resistentie wordt gecontroleerd door een enkel gen met twee co-dominante allelen, zou je een verhouding (1:2:1) verwachten. Als we de waargenomen getallen vergelijken met de (1:2:1)-verhouding, is de chi-kwadraatwaarde (4.12). Er zijn twee vrijheidsgraden (de drie categorieën, min één), dus de (P) waarde is (0.127); er is geen significant verschil met een (1:2:1) verhouding.

Voorbeeld

Mannan en Meslow (1984) bestudeerden het foerageergedrag van vogels in een bos in Oregon. In een beheerd bos was (54\%) van het kruinvolume Douglas-spar, (28\%) was ponderosa-den, (5\%) was grootspar en (1\%) was western lariks. Ze maakten (156) waarnemingen van foerageren door boomklevers; (70) waarnemingen ((45\%) van het totaal) in Douglasspar, (79) ((51\%)) in ponderosapijnboom, (3) ((2 %)) in granaatappel en (4) ((3\%)) in westelijke lariks. De biologische nulhypothese is dat de vogels willekeurig foerageren, ongeacht in welke boomsoort ze zich bevinden; de statistische nulhypothese is dat de proporties van foerageergebeurtenissen gelijk zijn aan de proporties van het bladerdekvolume. Het verschil in verhoudingen is significant (chikwadraat=(13.59), (3d.f.), (P=0,0035)).

Fig. 2.3.2 Vrouwelijke boomklever met rode borst, Sitta canadensis.

De verwachte aantallen in dit voorbeeld zijn vrij klein, dus het is beter om het met een exacte test te analyseren. Ik laat het hier omdat het een goed voorbeeld is van een extrinsieke hypothese die voortkomt uit het meten van iets (luifelvolume, in dit geval), geen wiskundige theorie; Ik vond het moeilijk om hier goede voorbeelden van te vinden.

Voorbeelden van intrinsieke hypothesen

Voorbeeld

McDonald (1989) onderzocht variatie op de (mathit{Mpi}) locus in de amfipoden schaaldieren Platorchestia platensis verzameld vanaf een enkele locatie op Long Island, New York. Er waren twee allelen, (mathit{Mpi}^{90}) en (mathit{Mpi}^{100}) en de genotypefrequenties in monsters van meerdere data die bij elkaar waren gepoold waren (1203) (mathit{Mpi}^{90/90}), (2919) (mathit{Mpi}^{90/100}), en (1678) (mathit{Mpi}^ {100/100}). De schatting van het (mathit{Mpi}^{90}) allelaandeel uit de data is (5325/11600=0.459). Met behulp van de Hardy-Weinberg-formule en deze geschatte allelverhouding zijn de verwachte genotypeverhoudingen (0.211) (mathit{Mpi}^{90/90}), (0.497) (mathit{Mpi} ^{90/100}), en (0.293) (mathit{Mpi}^{100/100}). Er zijn drie categorieën (de drie genotypen) en één parameter geschat op basis van de gegevens (de (mathit{Mpi}^{90}) allelverhouding), dus er is één vrijheidsgraad. Het resultaat is chikwadraat=(1.08), (1d.f.), (P=0,299), wat niet significant is. U kunt de nulhypothese dat de gegevens passen in de verwachte Hardy-Weinberg-verhoudingen niet verwerpen.

De resultaten in een grafiek weergeven

Als er slechts twee waarden van de nominale variabele zijn, moet u het resultaat niet in een grafiek weergeven, want dat zou een staafdiagram zijn met slechts één staaf. Rapporteer in plaats daarvan gewoon het aandeel; Groth (1992) vond bijvoorbeeld (52.0\%) kruisbills met linkse snavel.

Bij meer dan twee waarden van de nominale variabele moet u de resultaten van een goodness-of-fit-test gewoonlijk presenteren in een tabel met waargenomen en verwachte verhoudingen. Als de verwachte waarden duidelijk zijn (zoals (50\%)) of gemakkelijk kunnen worden berekend uit de gegevens (zoals de verhoudingen van Hardy-Weinberg), kun je de verwachte getallen uit je tabel weglaten. Voor een presentatie wilt u waarschijnlijk een grafiek met zowel de waargenomen als verwachte verhoudingen, om een ​​visuele indruk te geven van hoe ver ze uit elkaar liggen. Gebruik een staafdiagram voor de waargenomen verhoudingen; het verwachte kan worden weergegeven met een horizontale stippellijn, of met balken met een ander patroon.

Als u foutbalken aan de grafiek wilt toevoegen, moet u betrouwbaarheidsintervallen gebruiken voor een verhouding. Merk op dat de betrouwbaarheidsintervallen niet symmetrisch zullen zijn, en dit zal vooral duidelijk zijn als de verhouding in de buurt van (0) of (1) ligt.

Fig. 2.3.3 Habitatgebruik in de boomklever met rode borst.. Grijze balken zijn waargenomen percentages van foerageergebeurtenissen in elke boomsoort, met 95% betrouwbaarheidsintervallen; zwarte balken zijn de verwachte percentages.

Sommige mensen gebruiken een "gestapeld staafdiagram" om verhoudingen weer te geven, vooral als er meer dan twee categorieën zijn. Het kan het echter moeilijk maken om de grootte van de waargenomen en verwachte waarden voor de middelste categorieën te vergelijken, aangezien zowel hun boven- als onderkant zich op verschillende niveaus bevinden, dus ik raad het niet aan.

Vergelijkbare tests

U gebruikt de chikwadraattoets van onafhankelijkheid voor twee nominale variabelen, niet voor één.

Er zijn verschillende tests die chikwadraatstatistieken gebruiken. De hier beschreven methode staat formeel bekend als de chi-kwadraat van Pearson. Het is verreweg de meest voorkomende chi-kwadraat-test, dus het wordt meestal gewoon de chi-kwadraat-test genoemd.

Je hebt de keuze uit drie goodness-of-fit tests: de exacte test of goodness-of-fit, de G-test van goedheid-van-fit, of de chi-kwadraat-test van goedheid-van-fit. Voor kleine waarden van de verwachte getallen, de chikwadraat en G–tests zijn onnauwkeurig, omdat de verdelingen van de teststatistieken niet goed passen bij de chikwadraatverdeling.

De gebruikelijke vuistregel is dat u de exacte test moet gebruiken wanneer de kleinste verwachte waarde kleiner is dan (5), en de chikwadraattoets en G–tests zijn nauwkeurig genoeg voor grotere verwachte waarden. Deze vuistregel stamt uit de tijd dat mensen statistische berekeningen met de hand moesten doen, en de berekeningen voor de exacte test waren erg vervelend en moesten zo mogelijk worden vermeden. Tegenwoordig maken computers het net zo gemakkelijk om de exacte test uit te voeren als de rekenkundig eenvoudigere chikwadraat of G–test, tenzij de steekproefomvang zo groot is dat zelfs computers het niet aankunnen. Ik raad u aan de exacte test te gebruiken wanneer de totale steekproefomvang kleiner is dan (1000). Met steekproeven tussen (50) en (1000) en verwachte waarden groter dan (5), maakt het over het algemeen niet veel uit welke test u gebruikt, dus u moet niemand bekritiseren voor het gebruik van de chi-kwadraat of G–test voor experimenten waarbij ik de exacte test aanbeveel. Zie de webpagina over kleine steekproefomvang voor verdere discussie.

Chi-kwadraat vs. G-toets

De chikwadraattoets geeft ongeveer dezelfde resultaten als de G-toets. In tegenstelling tot de chikwadraattoets zijn de G-waarden additief; je kunt een uitgebreid experiment uitvoeren waarin de G-waarden van verschillende delen van het experiment optellen tot een totale G-waarde voor het hele experiment. Chi-kwadraatwaarden komen hier in de buurt, maar de chi-kwadraatwaarden van subdelen van een experiment tellen niet precies op tot de chi-kwadraatwaarde voor het hele experiment. G–tests zijn een subklasse van kansverhoudingstests, een algemene categorie van tests die veel toepassingen hebben voor het testen van de geschiktheid van gegevens voor wiskundige modellen; de meer uitgebreide versies van waarschijnlijkheidsratio-tests hebben geen equivalente tests met behulp van de Pearson-chikwadraatstatistiek. De mogelijkheid om uitgebreidere statistische analyses uit te voeren is een van de redenen waarom sommige mensen de voorkeur geven aan: G–test, zelfs voor eenvoudiger ontwerpen. Aan de andere kant is de chikwadraattoets meer bekend bij meer mensen, en het is altijd een goed idee om waar mogelijk statistieken te gebruiken waarmee uw lezers vertrouwd zijn. Misschien wilt u de literatuur in uw vakgebied bekijken en de meest gebruikelijke gebruiken.

Natuurlijk moet je niet analyseer uw gegevens met zowel de G–test en de chikwadraattoets, kies dan wat je het meest interessante resultaat geeft; dat zou bedrog zijn. Elke keer dat u meer dan één statistische techniek probeert en alleen degene gebruikt die de laagste geeft P waarde, vergroot u uw kans op een vals positief.

Hoe de test te doen?

Spreadsheet

Ik heb een spreadsheet opgesteld voor de chi-kwadraattest van goodness-of-fit chigof.xls . Het wijst zich grotendeels vanzelf. Het berekent de vrijheidsgraden voor je als je een extrinsieke nulhypothese gebruikt; als je een intrinsieke hypothese gebruikt, moet je de vrijheidsgraden in de spreadsheet invoeren.

Webpagina's

Er zijn webpagina's die hier en hier de chikwadraattoets uitvoeren. Op geen van deze webpagina's kunt u de vrijheidsgraden instellen op de juiste waarde voor het testen van een intrinsieke nulhypothese.

R

Salvatore Mangiafico's R Metgezel heeft een voorbeeld R-programma voor de chi-kwadraattest van goodness-of-fit.

SAS

Hier is een SAS-programma dat PROC FREQ gebruikt voor een chikwadraattoets. Het maakt gebruik van de Mendel-erwtengegevens van hierboven. De "WEIGHT count" vertelt SAS dat de "count" variabele het aantal keren is dat elke waarde van "texture" is waargenomen. De NUL-optie vertelt het om waarnemingen op te nemen met tellingen van nul, bijvoorbeeld als u (20) gladde erwten en (0) gerimpelde erwten had; het kan geen kwaad om altijd de ZEROS-optie op te nemen. CHISQ vertelt SAS om een ​​chikwadraattoets uit te voeren, en TESTP=(75 25); vertelt het de verwachte percentages. De verwachte percentages moeten optellen tot (100). U moet de verwachte percentages in alfabetische volgorde opgeven: omdat "glad" voor "gerimpeld" komt, geeft u de verwachte frequenties voor (75\%) glad, (25\%) gerimpeld.

DATA erwten;
INPUT-textuur $ tellen;
GEGEVENS;
glad 423
gerimpeld 133
;
PROC FREQ DATA=erwten;
GEWICHT telling / NULLEN;
TABELLEN textuur / CHISQ TESTP=(75 25);
LOOP;

Hier is een SAS-programma dat PROC FREQ gebruikt voor een chi-kwadraattest op onbewerkte gegevens, waarbij je elke individuele observatie hebt vermeld in plaats van ze zelf op te tellen. Ik heb drie stippen gebruikt om aan te geven dat ik niet de volledige dataset heb getoond.

DATA erwten;
INPUT-structuur $;
GEGEVENS;
zacht
gerimpeld
zacht
zacht
gerimpeld
zacht
.
.
.
zacht
zacht
;
PROC FREQ DATA=erwten;
TABELLEN textuur / CHISQ TESTP=(75 25);
LOOP;

De uitvoer omvat het volgende:

Chikwadraattoets
voor gespecificeerde verhoudingen:
-------------------------
Chi-vierkant 0,3453
DF 1
Pr > ChiSq 0,5568

Je zou dit rapporteren als "chi-kwadraat=0.3453, 1 d.f., P=0.5568."

Vermogensanalyse

Om een ​​poweranalyse uit te voeren met het G*Power-programma, kiest u "Goodness-of-fit-tests: Contingentietabellen" in het menu Statistical Test en vervolgens "Chi-kwadraat tests" in het menu Test Family. Om de effectgrootte te berekenen, klikt u op de knop Bepalen en voert u de verhoudingen van de nulhypothese in de eerste kolom in en de verhoudingen die u hoopt te zien in de tweede kolom. Klik vervolgens op de knop Berekenen en overbrengen naar hoofdvenster. Stel je alfa en kracht in, en zorg ervoor dat je de vrijheidsgraden (Df) instelt; voor een extrinsieke nulhypothese is dat het aantal rijen min één.

Laten we als voorbeeld zeggen dat u een genetische kruising van leeuwenbekjes wilt doen met een verwachte verhouding (1:2:1) en dat u een patroon wilt kunnen detecteren met (5\%) meer heterozygoten die verwacht. Typ (0.25), (0.50), en (0.25) in de eerste kolom, typ (0.225), (0.55), en (0.225) in de tweede kolom, klik op Bereken en ga naar het hoofdvenster, voer (0,05) in voor alfa, (0,80) voor macht en (2) voor vrijheidsgraden. Als je dit correct hebt gedaan, zou je resultaat een totale steekproefomvang van (964) moeten zijn.

Referenties

  1. Foto van boomklever van kendunn.smugmug.com.
  2. Engels, W.R. 2009. Exacte tests voor Hardy-Weinberg-verhoudingen. Genetica 183: 1431-1441.
  3. Groth, J.G. 1992. Nadere informatie over de genetica van het kruisen van snavels in kruisbekken. Alk 109:383-385.
  4. Mannan, R.W., en EC Meslow. 1984. Vogelpopulaties en vegetatiekenmerken in beheerde en oerbossen, in het noordoosten van Oregon. Tijdschrift voor natuurbeheer 48: 1219-1238.
  5. McDonald, J.H. 1989. Selectiecomponentenanalyse van de Mpi locus in de vlokreeften Platorchestia platensis. Erfelijkheid 62: 243-249.
  6. Shivrain, VK, N.R. Burgos, KAK Moldenhauer, R.W. McNew en T.L. Baldwin. 2006. Karakterisering van spontane kruisingen tussen Clearfield-rijst (Oryza sativa) en rode rijst (Oryza sativa). Onkruidtechnologie 20: 576-584.

Bijdrager

  • John H. McDonald (Universiteit van Delaware)


U kunt de test gebruiken als u tellingen van waarden voor een categorische variabele hebt.

De Chi-kwadraat goodness of fit-test controleert of uw steekproefgegevens waarschijnlijk afkomstig zijn uit een specifieke theoretische verdeling. We hebben een set gegevenswaarden en een idee over hoe de gegevenswaarden worden verdeeld. De test geeft ons een manier om te beslissen of de gegevenswaarden "goed genoeg" passen bij ons idee, of dat ons idee twijfelachtig is.

Wat hebben we nodig?

Voor de goodness of fit-test hebben we één variabele nodig. We hebben ook een idee of hypothese nodig over hoe die variabele wordt verdeeld. Hier zijn een paar voorbeelden:

  • We hebben zakjes snoep met vijf smaken in elk zakje. De zakjes moeten een gelijk aantal stukjes van elke smaak bevatten. Het idee dat we willen testen, is dat de verhoudingen van de vijf smaken in elk zakje hetzelfde zijn.
  • Voor een groep kindersportteams willen we dat kinderen met veel ervaring, enige ervaring en geen ervaring gelijk verdeeld worden over de teams. Stel dat we weten dat 20 procent van de spelers in de competitie veel ervaring heeft, 65 procent enige ervaring en 15 procent nieuwe spelers zonder ervaring. Het idee dat we willen testen is dat elk team hetzelfde aantal kinderen heeft met veel, weinig of geen ervaring als de competitie als geheel.

Om de goodness of fit-test op een dataset toe te passen, hebben we het volgende nodig:

  • Gegevenswaarden die een eenvoudige willekeurige steekproef zijn uit de volledige populatie.
  • Categorische of nominale gegevens. De Chi-kwadraat goodness of fit-test is niet geschikt voor continue gegevens.
  • Een dataset die groot genoeg is om in elk van de geobserveerde datacategorieën ten minste vijf waarden te verwachten.

G&ndashtest van goodness-of-fit

Je gebruikt de G&ndashtest of goodness-of-fit (ook bekend als de likelihood ratio-test, de log-likelihood ratio-test of de G 2-test) wanneer u één nominale variabele heeft, wilt u zien of het aantal waarnemingen in elke categorie past bij een theoretische verwachting, en de steekproefomvang is groot.

Wanneer te gebruiken?

Gebruik de G&ndashtest van goodness-of-fit wanneer je één nominale variabele hebt met twee of meer waarden (zoals mannelijk en vrouwelijk, of rode, roze en witte bloemen). Je vergelijkt de waargenomen aantallen waarnemingen in elke categorie met de verwachte aantallen, die je berekent met behulp van een soort theoretische verwachting (zoals een 1:1 sex-ratio of een 1:2:1 ratio in een genetische kruising).

Als het verwachte aantal waarnemingen in een categorie te klein is, G&ndashtest kan onnauwkeurige resultaten opleveren en u moet in plaats daarvan een exacte test gebruiken. Zie de webpagina over kleine steekproefomvang voor een bespreking van wat "klein" betekent.

De G&ndashtest of goodness-of-fit is een alternatief voor de chi-kwadraattest of goodness-of-fit. Elk van deze tests heeft enkele voordelen en enkele nadelen, en de resultaten van de twee tests lijken meestal erg op elkaar. U moet het gedeelte over "Chi-kwadraat vs. G&ndashtest" onderaan deze pagina, kies chikwadraat of G&ndashtest, blijf dan voor de rest van je leven bij die keuze. Veel van de informatie en voorbeelden op deze pagina zijn hetzelfde als op de chikwadraat-testpagina, dus als je eenmaal hebt besloten welke test voor jou het beste is, hoef je er maar één te lezen.

Nulhypothese

De statistische nulhypothese is dat het aantal waarnemingen in elke categorie gelijk is aan het aantal voorspeld door een biologische theorie, en de alternatieve hypothese is dat de waargenomen aantallen verschillen van de verwachte. De nulhypothese is meestal een extrinsieke hypothese, waarbij u de verwachte verhoudingen kent voordat u het experiment uitvoert. Voorbeelden zijn een 1:1 geslachtsverhouding of een 1:2:1 verhouding in een genetische kruising. Een ander voorbeeld zou zijn om te kijken naar een kustgebied met 59% van het gebied bedekt met zand, 28% modder en 13% rotsen. Als je zou onderzoeken waar zeemeeuwen graag staan, zou je nulhypothese zijn dat 59% van de meeuwen staan ​​op zand, 28% op modder en 13% op rotsen.

In sommige situaties heb je een intrinsieke hypothese. Dit is een nulhypothese waarbij u de verwachte verhoudingen berekent nadat het experiment is voltooid, met behulp van een deel van de informatie uit de gegevens. Het bekendste voorbeeld van een intrinsieke hypothese zijn de Hardy-Weinberg proporties van populatiegenetica: als de frequentie van één allel in een populatie gelijk is aan P en het andere allel is Q, is de nulhypothese dat de verwachte frequenties van de drie genotypen zijn P 2 , 2pq, en Q 2 . Dit is een intrinsieke hypothese, omdat je schat P en Q van de gegevens nadat u de gegevens hebt verzameld, kunt u niet voorspellen P en Q voor het experiment.

Hoe de test werkt

In tegenstelling tot de exacte test van goodness-of-fit, G&ndashtest berekent niet direct de kans op het verkrijgen van de waargenomen resultaten of iets extremers. In plaats daarvan, zoals bijna alle statistische tests, G&ndashtest heeft een tussenstap, het gebruikt de gegevens om een ​​teststatistiek te berekenen die meet hoe ver de waargenomen gegevens van de nulverwachting verwijderd zijn. Vervolgens gebruik je een wiskundige relatie, in dit geval de chi-kwadraatverdeling, om de kans te schatten dat je die waarde van de teststatistiek krijgt.

De G&ndashtest gebruikt het logboek van de verhouding van twee waarschijnlijkheden als teststatistiek, daarom wordt het ook een waarschijnlijkheidsverhoudingstest of log-waarschijnlijkheidsverhoudingstest genoemd. (Waarschijnlijkheid is een ander woord voor waarschijnlijkheid.) Om een ​​voorbeeld te geven, laten we zeggen dat uw nulhypothese een 3:1 verhouding is van gladde vleugels tot gerimpelde vleugels bij nakomelingen van een stel Drosophila kruisen. Je ziet 770 vliegen met gladde vleugels en 230 vliegen met gerimpelde vleugels. Met behulp van de binomiale vergelijking kun je de kans berekenen dat je precies 770 vliegen met gladde vleugels krijgt, als de nulhypothese waar is dat 75% van de vliegen gladde vleugels zou moeten hebben (Lnul) het is 0.01011. Je kunt ook de kans berekenen om precies 770 vliegen met gladde vleugels te krijgen als de alternatieve hypothese dat 77% van de vliegen gladde vleugels zou moeten hebben (Lalt) het is 0,02997. Deze alternatieve hypothese is dat het werkelijke aantal vliegen met gladde vleugels precies gelijk is aan wat je in het experiment hebt waargenomen, dus de waarschijnlijkheid onder de alternatieve hypothese zal groter zijn dan voor de nulhypothese. Om de teststatistiek te krijgen, begin je met: Lnul/Lalt deze verhouding wordt kleiner naarmate Lnul kleiner wordt, wat zal gebeuren naarmate de waargenomen resultaten verder van de nulverwachting afwijken. Door de natuurlijke logaritme van deze waarschijnlijkheidsratio te nemen en deze te vermenigvuldigen met -2, ontstaat de log-likelihood ratio, of G-statistiek. Het wordt groter naarmate de waargenomen gegevens verder van de nulverwachting komen. Voor het vliegvoorbeeld is de teststatistiek G=2.17. Als je 760 vliegen met gladde vleugels en 240 vliegen met gerimpelde vleugels had waargenomen, wat dichter bij de nulhypothese ligt, zou je G-waarde kleiner zijn geweest, namelijk 0,54 als je 800 vliegen met gladde vleugels en 200 vliegen met gerimpelde vleugels had waargenomen. , wat verder verwijderd is van de nulhypothese, zou uw G-waarde 14,00 zijn geweest.

Je vermenigvuldigt de log-waarschijnlijkheidsratio met -2 omdat het dan ongeveer past in de chi-kwadraatverdeling. Dit betekent dat als je eenmaal de G-statistiek en het aantal vrijheidsgraden kent, je de kans kunt berekenen om die waarde van G te krijgen met behulp van de chikwadraatverdeling. Het aantal vrijheidsgraden is het aantal categorieën min één, dus voor ons voorbeeld (met twee categorieën, glad en gerimpeld) is er één vrijheidsgraad. Met de functie CHIDIST in een spreadsheet voert u =CHIDIST(2.17, 1) in en berekent u dat de kans op een G-waarde van 2.17 met één vrijheidsgraad gelijk is aan P=0.140.

Het rechtstreeks berekenen van elke waarschijnlijkheid kan rekenkundig moeilijk zijn als de steekproefomvang erg groot is. Gelukkig, als je de verhouding van twee kansen neemt, valt er een heleboel dingen uit en wordt de functie veel eenvoudiger: je berekent de G-statistiek door een waargenomen getal te nemen (O), te delen door het verwachte aantal (E), en neem vervolgens de natuurlijke logaritme van deze verhouding. Dit doe je voor het waargenomen aantal in elke categorie. Vermenigvuldig elke log met het waargenomen getal, tel deze producten bij elkaar op en vermenigvuldig met 2. De vergelijking is

De vorm van de chikwadraatverdeling hangt af van het aantal vrijheidsgraden. Voor een extrinsieke nulhypothese (de veel voorkomende situatie, waarbij u de verhoudingen kent die door de nulhypothese worden voorspeld voordat u de gegevens verzamelt), is het aantal vrijheidsgraden eenvoudigweg het aantal waarden van de variabele, minus één. Dus als je een nulhypothese van een 1:1 sex-ratio test, zijn er twee mogelijke waarden (mannelijk en vrouwelijk), en dus één vrijheidsgraad. Dit komt omdat als je eenmaal weet hoeveel van het totaal vrouwen zijn (een getal dat "vrij" kan variëren van 0 tot de steekproefomvang), het aantal mannen wordt bepaald. Als er drie waarden van de variabele zijn (zoals rood, roze en wit), zijn er twee vrijheidsgraden, enzovoort.

Een intrinsieke nulhypothese is er een waarbij u een of meer parameters uit de gegevens schat om de cijfers voor uw nulhypothese te krijgen. Zoals hierboven beschreven, is een voorbeeld de verhoudingen van Hardy-Weinberg. Voor een intrinsieke nulhypothese wordt het aantal vrijheidsgraden berekend door het aantal waarden van de variabele te nemen, 1 af te trekken voor elke parameter die wordt geschat van de gegevens en er vervolgens nog 1 af te trekken. Dus voor Hardy-Weinberg-verhoudingen met twee allelen en drie genotypen, zijn er drie waarden van de variabele (de drie genotypen) waarvan u één aftrekt voor de geschatte parameter van de gegevens (de allelfrequentie, P) en dan trek je er nog één af, wat één vrijheidsgraad oplevert. Er zijn andere statistische problemen bij het testen die aan de verwachtingen van Hardy-Weinberg voldoen, dus als je dit moet doen, zie Engels (2009) en de oudere referenties die hij citeert.

Post hoc-test

Als er meer dan twee categorieën zijn en u wilt weten welke significant verschillen van hun nulverwachting, kunt u dezelfde methode gebruiken om elke categorie te testen versus de som van alle categorieën, met de Bonferroni-correctie, zoals ik beschrijf voor de exacte toets. Je gebruikt G&ndashtests voor elke categorie natuurlijk.

Veronderstellingen

De G&ndashtest of goodness-of-fit gaat uit van onafhankelijkheid, zoals beschreven voor de exacte test.

Voorbeelden: extrinsieke hypothese

Rode kruisbessen (Loxia curvirostra) hebben de punt van de bovenste snavel rechts of links van de onderste snavel, waardoor ze zaden uit dennenappels kunnen halen. Some have hypothesized that frequency-dependent selection would keep the number of right and left-billed birds at a 1:1 ratio. Groth (1992) observed 1752 right-billed and 1895 left-billed crossbills.

Calculate the expected frequency of right-billed birds by multiplying the total sample size (3647) by the expected proportion (0.5) to yield 1823.5. Do the same for left-billed birds. The number of degrees of freedom when an extrinsic hypothesis is used is the number of classes minus one. In this case, there are two classes (right and left), so there is one degree of freedom.

The result is G=5.61, 1 d.f., P=0.018, indicating that the null hypothesis can be rejected there are significantly more left-billed crossbills than right-billed.

Shivrain et al. (2006) crossed clearfield rice, which are resistant to the herbicide imazethapyr, with red rice, which are susceptible to imazethapyr. They then crossed the hybrid offspring and examined the F2 generation, where they found 772 resistant plants, 1611 moderately resistant plants, and 737 susceptible plants. If resistance is controlled by a single gene with two co-dominant alleles, you would expect a 1:2:1 ratio. Comparing the observed numbers with the 1:2:1 ratio, the G-value is 4.15. There are two degrees of freedom (the three categories, minus one), so the P value is 0.126 there is no significant difference from a 1:2:1 ratio.

Mannan and Meslow (1984) studied bird foraging behavior in a forest in Oregon. In a managed forest, 54% of the canopy volume was Douglas fir, 40% was ponderosa pine, 5% was grand fir, and 1% was western larch. They made 156 observations of foraging by red-breasted nuthatches 70 observations (45% of the total) in Douglas fir, 79 (51%) in ponderosa pine, 3 (2%) in grand fir, and 4 (3%) in western larch. The biological null hypothesis is that the birds forage randomly, without regard to what species of tree they're in the statistical null hypothesis is that the proportions of foraging events are equal to the proportions of canopy volume. The difference in proportions between observed and expected is significant (G=13.14, 3 d.f., P=0.0043).

The expected numbers in this example are pretty small, so it would be better to analyze it with an exact test. I'm leaving it here because it's a good example of an extrinsic hypothesis that comes from measuring something (canopy volume, in this case), not a mathematical theory I've had a hard time finding good examples of this.

Example: intrinsic hypothesis

McDonald (1989) examined variation at the Mpi locus in the amphipod crustacean Platorchestia platensis collected from a single location on Long Island, New York. There were two alleles, Mpi 90 and Mpi 100 and the genotype frequencies in samples from multiple dates pooled together were 1203 Mpi 90/90 , 2919 Mpi 90/100 , and 1678 Mpi 100/100 . The estimate of the Mpi 90 allele proportion from the data is 5325/11600=0.459. Using the Hardy-Weinberg formula and this estimated allele proportion, the expected genotype proportions are 0.211 Mpi 90/90 , 0.497 Mpi 90/100 , and 0.293 Mpi 100/100 . There are three categories (the three genotypes) and one parameter estimated from the data (the Mpi 90 allele proportion), so there is one degree of freedom. The result is G=1.03, 1 d.f., P=0.309, which is not significant. You cannot reject the null hypothesis that the data fit the expected Hardy-Weinberg proportions.

Graphing the results

If there are just two values of the nominal variable, you shouldn't display the result in a graph, as that would be a bar graph with just one bar. Instead, just report the proportion for example, Groth (1992) found 52.0% left-billed crossbills.

With more than two values of the nominal variable, you should usually present the results of a goodness-of-fit test in a table of observed and expected proportions. If the expected values are obvious (such as 50%) or easily calculated from the data (such as Hardy&ndashWeinberg proportions), you can omit the expected numbers from your table. For a presentation you'll probably want a graph showing both the observed and expected proportions, to give a visual impression of how far apart they are. You should use a bar graph for the observed proportions the expected can be shown with a horizontal dashed line, or with bars of a different pattern.

Some people use a "stacked bar graph" to show proportions, especially if there are more than two categories. However, it can make it difficult to compare the sizes of the observed and expected values for the middle categories, since both their tops and bottoms are at different levels, so I don't recommend it.

Similar tests

You use the G&ndashtest of independence for two nominal variables, not one.

You have a choice of three goodness-of-fit tests: the exact test of goodness-of-fit, the G&ndashtest of goodness-of-fit, or the chi-square test of goodness-of-fit. For small values of the expected numbers, the chi-square and G&ndashtests are inaccurate, because the distribution of the test statistics do not fit the chi-square distribution very well.

The usual rule of thumb is that you should use the exact test when the smallest expected value is less than 5, and the chi-square and G&ndashtests are accurate enough for larger expected values. This rule of thumb dates from the olden days when people had to do statistical calculations by hand, and the calculations for the exact test were very tedious and to be avoided if at all possible. Nowadays, computers make it just as easy to do the exact test as the computationally simpler chi-square or G&ndashtest, unless the sample size is so large that even computers can't handle it. I recommend that you use the exact test when the total sample size is less than 1000. With sample sizes between 50 and 1000 and expected values greater than 5, it generally doesn't make a big difference which test you use, so you shouldn't criticize someone for using the chi-square or G&ndashtest for experiments where I recommend the exact test. See the web page on small sample sizes for further discussion.

Chi-square vs. G&ndashtest

The chi-square test gives approximately the same results as the G&ndashtest. Unlike the chi-square test, the G-values are additive you can conduct an elaborate experiment in which the G-values of different parts of the experiment add up to an overall G-value for the whole experiment. Chi-square values come close to this, but the chi-square values of subparts of an experiment don't add up exactly to the chi-square value for the whole experiment. G&ndashtests are a subclass of likelihood ratio tests, a general category of tests that have many uses for testing the fit of data to mathematical models the more elaborate versions of likelihood ratio tests don't have equivalent tests using the Pearson chi-square statistic. The ability to do more elaborate statistical analyses is one reason some people prefer the G&ndashtest, even for simpler designs. On the other hand, the chi-square test is more familiar to more people, and it's always a good idea to use statistics that your readers are familiar with when possible. You may want to look at the literature in your field and use whichever is more commonly used.

Of course, you should niet analyze your data with both the G&ndashtest and the chi-square test, then pick whichever gives you the most interesting result that would be cheating. Any time you try more than one statistical technique and just use the one that give the lowest P value, you're increasing your chance of a false positive.

How to do the test

Spreadsheet

I have set up a spreadsheet that does the G&ndashtest of goodness-of-fit. It is largely self-explanatory. It will calculate the degrees of freedom for you if you're using an extrinsic null hypothesis if you are using an intrinsic hypothesis, you must enter the degrees of freedom into the spreadsheet.

Webpagina's

I'm not aware of any web pages that will do a G&ndashtest of goodness-of-fit.

Surprisingly, SAS does not have an option to do a G&ndashtest of goodness-of-fit the manual says the G&ndashtest is defined only for tests of independence, but this is incorrect.

Power analysis

To do a power analysis using the G*Power program, choose "Goodness-of-fit tests: Contingency tables" from the Statistical Test menu, then choose "Chi-squared tests" from the Test Family menu. (The results will be almost identical to a true power analysis for a G&ndashtest.) To calculate effect size, click on the Determine button and enter the null hypothesis proportions in the first column and the proportions you hope to see in the second column. Then click on the Calculate and Transfer to Main Window button. Set your alpha and power, and be sure to set the degrees of freedom (Df) for an extrinsic null hypothesis, that will be the number of rows minus one.

As an example, let's say you want to do a genetic cross of snapdragons with an expected 1:2:1 ratio, and you want to be able to detect a pattern with 5% more heterozygotes that expected. Enter 0.25, 0.50, and 0.25 in the first column, enter 0.225, 0.55, and 0.225 in the second column, click on Calculate and Transfer to Main Window, enter 0.05 for alpha, 0.80 for power, and 2 for degrees of freedom. If you've done this correctly, your result should be a total sample size of 964.

Referenties

Picture of crossbills modified from www.naturespicsonline.com.

Engels, W.R. 2009. Exact tests for Hardy-Weinberg proportions. Genetics 183: 1431-1441.

Groth, J.G. 1992. Further information on the genetics of bill crossing in crossbills. Auk 109:383–385.

Mannan, R.W., and E.C. Meslow. 1984. Bird populations and vegetation characteristics in managed and old-growth forests, northeastern Oregon. Journal of Wildlife Management 48: 1219-1238.

McDonald, J.H. 1989. Selection component analysis of the Mpi locus in the amphipod Platorchestia platensis. Heredity 62: 243-249.

Shivrain, V.K., N.R. Burgos, K.A.K. Moldenhauer, R.W. McNew, and T.L. Baldwin. 2006. Characterization of spontaneous crosses between Clearfield rice (Oryza sativa) and red rice (Oryza sativa). Weed Technology 20: 576-584.

&lArr Vorig onderwerp|Volgend onderwerp &rArr Inhoudsopgave

This page was last revised July 20, 2015. Its address is http://www.biostathandbook.com/gtestgof.html. Het kan worden aangehaald als:
McDonald, J.H. 2014. Handboek voor biologische statistiek (3e ed.). Sparky House Publishing, Baltimore, Maryland. This web page contains the content of pages 53-58 in the printed version.

©2014 door John H. McDonald. U kunt waarschijnlijk doen wat u wilt met deze inhoud, zie de pagina met machtigingen voor details.


Study Notes on Chi-Square Test | Statistieken

The below mentioned article provides a study note on chi-square test.

In biological experiments and field surveys, apart from quantitative data we get the qualitative data which is genetical character such as tall and short, colour of flower, seed coat character which do not have any numerical values. But the number of flowers or seeds having a particular colour falls under any category can be counted numerically.

This type of observation requires the calculation of the expected number of individu­als under any category. Thus it becomes necessary to know whether there is any deviation in between the observed and expected frequencies. The measurement of this deviation is done with the help of a particular test which is called Chi-square (X 2 ) test.

The formula for Chi-square test is:

Application of X 2 -Test:

It is an alternative test to find significance of difference in two or more than two proportions:

(a) It can compare the values of two binomial samples when they are small.

(b) It can compare the frequencies of two multinomial samples.

(c) Chi-square measures the probability of association between two discrete at­tributes.

(d) The Chi-square test is applied as a test for goodness of fit which reveals the closeliness of observed frequency with those of the expected frequency. Thus it helps to answer whether physical or chemical factors did or did not have an effect.

(e) Occasionally it is desirable to compare one set of observations taken under particular conditions to those of a similar nature taken under different condi­tions. In this case there are no definite expected values, only the question is whether the results are dependent (contingent upon) or independent of condi­tions. Then the X 2 -test is called as test for independence or contingency test.

X 2 -Test For Goodness of Fit:

X 2 -test is applied to a wide range of studies relating to experimental biology and field studies. The aim of this test is to test the closeliness of observed frequencies with those of the expected, i.e., how well the observed frequency curve fits into theoretical curve.

If both the observed and expected frequency distribution are in complete agreement with each other then the X 2 -value will be zero. But in experimental observations there is always some degree of deviation. The critical X 2 -value will be exceeded due to sampling fluctua­tions.

For example, if a crossing experiment gives two different sizes of seeds in F2 prog­eny then these two types seeds may segregate according to 3:1 (Mendelian Monohybrid), 1:1 (Monohybrid test cross), 9:7 (Complementary factor interaction), 13:3 (Inhibitory factor) or 15:1 (Duplicate gene interaction) ratio, etc.

Again if crossing experiment results in three types of seeds then these may be due to incomplete dominance (1:2:1), supplementary factor (9:3:4) or due to dominant epistasis (12:3:1) interaction, etc.

Likely, 4 types of seeds with 4 different combinations of two different characters may either follow the 9:3:3:1 (Mendelian dihybrid) or 1:1:1:1 (Dihybrid test cross) ratio for segregation.

Test for the goodness of fit is required in these above cases for studying the closeliness of observed data of the experiments with those of expected frequencies.

Steps to be followed to test the Goodness of Fit:

1. Deviation between the observed and the expected results should be calculated.

2. Comparing the minimum deviation the null hypothesis should be selected for X 2 -test.

3. X 2 -value should be determined.

4. Comparing the calculated X 2 -value with tabulated X 2 -value the conclusion has to be made.

Following number of seeds with the associated character is observed. Test the goodness of fit and comment.

Step I: Calculation of expected value for each ratio:

Step II: Determination of expected segregation ratio:

According to table, the deviation is minimum in 3:1 ratio, so the observed sample should fit the 3:1 ratio.

Step-III Calculation of X 2 -Value:

Since, in this experiment the samples are of two classes, so degree of freedom = 2-1 = 1.

Step IV: Conclusion:

The calculated Chi-square (X 2 ) value is 0.451. The tabulated chi-square at 0.05 prob­ability level with 1 degree of freedom is 3.841.

The calculated value is much less than the table value, so the deviation is insignifi­cant, the observed deviation is due to chance factor only. It lies in the probability range 50-70%.

The observed result is in good fit with Mendelian Monohybrid ratio, i.e., 3:1.

It is concluded that the experimental result shows Mendelian monohybrid ratio 3:1.

So the assumed genotypes of parents are:

So the phenotypic ratio is 3:1.

In an experiment on garden pea, we count 4 different kinds of plants,

Test the goodness of fit for this data and comment.

Step I: Calculation of expected value of assumed ratio:

Since, in this experiment the samples are of 4 classes, so degrees of freedom = 4-1

Step IV: Conclusion:

The tabulated X 2 value at 0.05 probability level for 3 degree of freedom is 7.81 which is more than the calculated value and it lies at 90-95% probability level. So the deviation found in the experiment is insignificant.

We can conclude that the observation is in good fit with Mendelian Dihybrid ratio 9:3:3:1.

As the observation shows good fit with Mendelian dihybrid ratio, so the two genes for cotyledon colour and pod shape can independently assort.

One yellow seeded pea plant when crossed with a green seeded pea plant, produced 50 yellow seeds and 46 green seeds in F2. Write down your comment with the help of x 2 -analysis.

Sample character and sample size

According to the table, we find that the minimum deviation is in case of 1:1 ratio. So it is assumed that the observed sample should fit well with this ratio.

Since there are 2 classes, so the degree of freedom = 2-1 = 1. The calculated X 2 -value is 0.166 which is much less than the table value 3.841 for 1 degree of freedom at 0.05 probability levels.

The X 2 value 0.166 lies between 80-90% probability level. Therefore the deviation which is observed in the sample from the expected value is highly insignificant, and the observed ratio has a very good fit with the expected ratio, i.e., 1:1.

As the experimental result shows good fit with 1:1 ratio, i.e., Mendelian monohybrid test cross ratio, so the assumed genotypes of the parents and the offsprings are as follows:

Selfing of a hybrid plant produced a population with 120 pink flowers and 88 white flowers. Explain with X 2 -analysis, what does the result show?

According to this table, we find that the deviation is minimum in case of 9:7 ratio. So, it is assumed that the observation should fit well with this ratio.

Since in the observation there are two classes, so the degree of freedom =2 – 1 = 1

The calculated X 2 value is 0.175, which is much less than the table value 3.84 for 1 degree of freedom at 0.05 probability level.

The X 2 value 0.175 lies between 50-70% probability range. Therefore this deviation from the expected value is insignificant and the observed ratio is in good fit with 9:7 ratio.

It is concluded that the experimental result shows the characters with complementary factor interaction in F2 generatie.

As the observed samples are assumed to show complementary factor interaction, so the assumed genotypes are:

Here, the analysis shows that 2 pairs of factors control the same character and two dominant genes A and B are complementary to each other. Each of which has no effect on expression of character, but when in combination shows their effect, i.e., pink colour.

Absence of any one of the them (A or B) leads to absence of pink colour and it can be concluded very easily that the colour character is controlled by two pairs of factors which are complementary to each other.

From a plant after selfing total 96 seeds are harvested of which yellow seeds 79, brown seeds 17. Explain the result with X 2 -analysis.

Sample character and sample size

Determination of expected segregation ratio:

(By estimating magnitude of devia­tion)

According to the table, we find that the minimum deviation is in case of 13:3 ratio. So it is assumed that the observed sample should fit well with this ratio.

Determination of Chi-Square value

Since there are two classes, degree of freedom = 2-1 = 1. The calcu­lated X 2 value 0.068 is much less than the table value 3.841 for 1 degree of freedom at 0.05 probability level.

The X 2 -value 0.068 lies between 90-95% probability level. Therefore, this deviation from the expected value is highly insignificant and the observed ratio has a very good fit with the expected ratio.

As the experimental result shows good fit with 13:3 ratio. So it is as­sumed that the brown colour of seed coat is controlled by gene C, but the presence of another dominant gene D inhibits the effect of C, and the seed coat colour becomes yel­low.

The dominant gene D does not have its own expression but it inhibits the effect of another dominant gene C. So the effect of C is only expressed when there is recessive gene d. This phenomenon is called Inhibitory Factor.

So, the phenotypic ratio of Yellow seed: Brown seed = 13: 3.

In an experiment, the hybrid plant yielded 193 brown coloured seeds and 15 white seeds. Comment on the observed result with X 2 -analysis.

Sample character and sample size:

Determination o expected segregation ration:

(By estimating magnitude of deviation)

According to the table, we find that the deviation is minimum in case of 15:1 ratio. So, it is assumed that the observed sample should fit with this ratio.

Determination of Chi-square value

Since there are two classes, degree of freedom = 2 – 1 = 1. The calcu­lated X 2 value 0.332 is less than the table value 3.841 for 1 degree of freedom at 0.05 probability level.

The X 2 value 0.332 lies between 75-90% probability levels. Therefore this deviation from the expected value is insignificant and the observed ratio has good fit with the expected ratio.

As the experimental result shows good fit with 15:1 ratio, so it is as­sumed that the brown colour of seed is controlled by two pairs of factors or alleles. Presence of any one of them will give them brown seed colour. Whereas the recessive condition of both will give the white colour.

This case may be represented as follows:

So the observed result shows the duplicate factor interaction in F2 ratio.

Test the goodness of fit in the following sample from an experiment with garden pea plant.

Determination of expected segregation ratio:

According to the table, we find that the deviation is minimum in case of 1:1:1:1 ratio. So, it is assumed that the observed sample should fit with this ratio.

Determination of Chi-square value

Since there are 4 classes, degrees of freedom = 4-1=3. The calcu­lated X 2 value is 0.618, which is much less than the tabulated X 2 value for 3 degree of freedom at 0.05 probability level.

The calculated value lies between 70-90% probability level. Therefore the deviation from the expected value is insignificant and the observed ratio has a good fit with the expected ratio.

As the experimental result shows good fit with 1:1:1:1 ratio, so it is assumed that the result is obtained from a dihybrid test cross. The dominant characters are yellow and round.

Parental genotypes are assumed as:

Example 14→ (An example not in agreement with 1:2:1):

A geneticist obtained 209 plants after selfing a hybrid, among which with red flower = 52 plants, with pink flower = 128 plants and with white flower = 29 plants. Show the goodness of fit with 1:2:1 ratio.

Determination of expected frequency of different plant:

Calculation of Chi-square value:

The calculated value of X 2 = 15.626. Since there are 3 classes, so the degrees of freedom = (3 – 1) = 2. The tabulated X 2 value for 2 degree of freedom at 0.05 probability level is 5.99. As the observed value is much higher than the tabulated value, so the result does not in agreement with 1:2:1 ratio, i.e., the observation does not show goodness of fit with the expected ratio.

In conclusion, the principle of incomplete dominance is not applicable here.

Chi-Square Test for Association Of Attributes:

By using 2ࡨ contingency table the X 2 analysis is applied to test whether there is any association between two or more classifications, i.e., to test for independence of the two attributes.

Steps to be followed to calculate Chi-Square:

1. Null hypothesis should be set up, which is no association exists between the attributes.

H0: No association exists between the attributes.

H1 : Association exists between the attributes.

2. Expected frequency (E) is calculated corresponding to each category by the formula.

Rl = Sum total of row in which Eij is present.

CJ = Sum total of column in which Eij is present,

3. The Chi-square value is calculated according to formula

Degrees of freedom = (R – 1) (C – 1)

4. Table value is found out for a particular level of significance and for the calculated degree of freedom.

5. The calculated value and table value are compared, if the calculated value of X 2 < the table value then the null hypothesis is accepted. But if the X 2 value is larger than the tabulated value then null hypothesis is rejected.

An experiment was carried out to see the effect of an organo-mercuric compound on the survival of seedling. Two different concentrations are applied to test whether the percentage of death in higher concentration is significantly different from that of lower concentration or both are independent.

In this case the null hypothesis will be – there is no significant difference, i.e., both the effects are independent.

H0: Both the effects are independent.

H1: Both the effects are significantly different.

Table showing expected results and deviation

In this example, as the (O-E) is always 5.2, so we can compute the value in following way.

The degree of freedom for this example is

The tabulated X 2 value at degree of freedom 1, and at p = 0.05 level is 3.84.

As the calculated X 2 value is much less than the tabulated X 2 value so the null hypoth­esis is accepted, i.e., both the effects are independent, there is no relation of death percent­age with low and high concentration of fungicide.

Yates Correction:

Yates correction is applied to increase the precision of X 2 test, only when the degree of freedom is 1 and the expected classes are small (less than 30). In case of 1 degree of freedom, there is possibility of underestimating the probabilities listed in the table. This can be adjusted by subtracting the correction value from the deviation value.

For goodness of fit, Chi-square formula using Yates correction (½ or 0.5) will be:

In Example 12,

In case of contingency Chi-square, using Yates correction the Chi-square value is calculated as follows:


Goodness-of-fit tests for categorized data Pearson's chi square and likelihood ratio G-test

In our first worked example we revisit the study by Meyer et al. on the occurrence of portosystemic shunt in Irish The authors described the distribution of ammonia concentrations in the venous blood as 'essentially normal', but performed no statistical (or graphical) assessments.

Ammoniak Fl l
<25
30
35
40
45
50
55
60
65
70
75
80
85
90
95
100
105
110
115
120
>120
7
6
15
26
38
43
32
68
69
105
127
121
94
97
85
34
25
21
13
1
17
6.2
6.3
11.2
18.8
29.3
42.9
58.8
75.4
90.4
101.6
106.8
105.1
96.9
83.5
67.4
51.0
36.1
23.9
14.8
8.6
9.0

If we had the raw data available, then one of the cumulative rank methods or Shapiro-Wilks would have been the preferred method of testing normality. Since we only have access to the categorized distribution, we will use Pearson's chi square test - but with the reservation that we are loosing information by categorizing a continuous variable. The first figure below shows observed frequencies with the lowest and highest frequencies pooled in order to eliminate small expected frequencies.

The second figure shows a normal distribution with the same mean (73.8), standard deviation (19.4), interval width (5) and number of observations (1044). Expected probabilities were obtained using R by obtaining the cumulative probability up to each upper bound, subtracting the cumulative probability up to the upper bound below that, and multiplying by sample size.

Pearson's X 2 can then be calculated using the general

The number of degrees of freedom is given by [number of classes - 1 - number of parameters estimated] which in this case is [21-1-2] =18. Hence P = 0.00000127. We can therefore reject the null hypothesis and conclude that a normal distribution does not provide a good fit to the data.

If preferred, a likelihood ratio G-test could be used

The number of degrees of freedom is again given by [number of classes - 1 - number of parameters estimated] = 18. Hence P = .000000166. Again we reject the null hypothesis and conclude that observed distribution deviates significantly from a normal distribution.

Our second worked example is from a study by Greenwood & Yule that we first looked at in The table gives the observed frequency distribution of accidents per individual, together with expected distributions assuming either a Poisson or negative binomial distribution.

Accidents experienced by
414 machinists over 3 months
No.
accidents
Fl l
Poisson
l
Negatief
binomial.
0
1
2
3
4
5
6
7
8
296
74
26
8
4
4
1
0
1
256
122
30
5
1
0
0
0
0
299
69
26
11
5
2
1
1
0

Number of accidents is a discrete variable, so either Pearson's chi square test or the G likelihood ratio test would be appropriate to assess goodness of fit. To avoid expected frequencies less than 5, we pool the higher categories as appropriate. Poisson-verdeling

Pearson's X 2 can then be calculated using the general

The number of degrees of freedom is given by [number of classes - 1 - number of parameters estimated] which, because a Poisson distribution has just one parameter, in this case is [5-1-1] =3. Using R's inverse chisquared probability function, pchisq(49.67, 3, low=FALSE), gives an upper tail P-value of 9.392416e-11. We can therefore conclude that the observed distribution deviates significantly from a Poisson distribution.

Negative binomial distribution

Pearson's X 2 can then be calculated using the general

The number of degrees of freedom is given by [number of classes - 1 - number of parameters estimated] which, since the negative binomial requires TWO parameters to be estimated (m & k, or p & q), in this case is [5-1-2] =2. Referring this value to R, gives a P-value of 0.516. We can therefore conclude that the observed distribution does not deviate significantly from a negative binomial distribution. Note the phrasing here - we have not proved that the negative binomial is a 'significantly good fit' to the data, as we cannot prove the null hypothesis.

Our third worked example is from a study on the striped skunk by Larivi re & Messier that we looked at in The observed distribution of natal dens between habitat types is compared with the expected distribution if selection were in accordance with availability. Three of the six expected frequencies are less than 5, so some categories should be pooled. However, the authors did not pool categories, so we will first calculate Pearson's X 2 without pooling.

Observed and expected frequencies of
47 natal den sites in different habitats
Habitat Fl l
Wetlands
Farmsteads
Nesting areas
Right-of-ways
Woodland
Misc
13
18
4
3
8
1
11.40
1.02
12.50
4.10
15.68
2.30

We will use R for all the calculations here, as there is nothing new to learn from the calculations. R gives a X 2 -value of 293.46, similar to that obtained by the authors. Since the theoretical distribution is dictated by the availability of the different habitats which is known without error, we have (k-1)= 5 df and P < 0,00001. Note however that R gives a warning that the chi-squared approximation may be incorrect.

We must then consider which classes to pool to provide a more valid test. One might be tempted to pool all three classes with small expected frequencies but this would not be wise because farmsteads is one of the categories we are most interested in - and is also the category in which there is the widest divergence between observed and expected. We will therefore just pool the rights of ways and miscellaneous category - which at least seems to make sense.

This gives almost exactly the same (highly significant) X 2 -value, albeit with one less degree of freedom. R still complains that the chi-squared approximation may be incorrect despite the fact that we have now met the condition that no more than 20% of the expected frequencies (that is 1 out of 5) be less than 5. Given it would be quite illogical to pool farmsteads with any other category, we could either present the analysis as is or (better) use Monte Carlo to estimate the null distribution of X 2 .

This gives a P-value of 0.0005 indicating that the choice of natal den sites differs significantly from that expected on the basis of availability.


31.2 How does the chi-square goodness of fit test work?

The (chi^<2>) goodness of fit test uses raw counts to address questions about expected proportions, or probabilities of events 28 . As always, we start by setting up the appropriate null hypothesis. This will be question specific, but it must always be framed in terms of ‘no effect’ or ‘no difference.’ We then work out what a sampling distribution of some kind looks like under this null hypothesis, and use this to assess how likely the observed result is (i.e. calculate a P-value).

We don’t need to work directly with the sampling distributions of counts in each category. Instead, we calculate an appropriate (chi^<2>) test statistic. The way to think about this is that the (chi^<2>) statistic reduces the information in the separate category counts down to a single number.

Let’s see how the (chi^<2>) goodness of fit test works using the Silene example discussed above. Imagine that we collected data on the frequency of plants bearing male and female flowers in a population of Silene dioica:

Mannelijk Female
Observed 105 87

We want to test whether the ratio of male to female flowers differs significantly from that expected in an uninfected population. The ‘expected in an uninfected population’ situation is the null hypothesis for the test.

Step 1. Calculate the counts expected when the null hypothesis is correct. This is the critical step. In de Silene example, we need to work out how many male and female plants we expected to sample if the sex ratio really were 1:1. These numbers are: (105 + 87)/2 = 192/2 = 96 of each sex.

Stap 2. Calculate the (chi^<2>) test statistic from the observed and expected counts. We will show you how to do this later. However, this calculation isn’t all that important, in the sense that we don’t learn much by doing it. The resulting (chi^<2>) statistic summarises—across all the categories—how likely the observed data are under the null hypothesis.

Step 3. Compare the (chi^<2>) statistic to the theoretical predictions of the (chi^<2>) distribution to assess the statistical significance of the difference between observed and expected counts.

The interpretation of this P-value in this test is the same as for any other kind of statistical test: it is the probability we would see the observed frequencies, or more extreme values, under the null hypothesis.

31.2.1 Assumptions of the chi-square goodness of fit test

Let’s remind ourselves about the assumptions of the (chi^<2>) goodness of fit test:

The data are independent counts of objects or events which can be classified into mutually exclusive categories. We shouldn’t aggregate Silene sex data from different surveys unless we were absolutely certain each survey had sampled different populations.

The expected counts are not too low. The rule of thumb is that the expected values (not the observed counts!) should be greater than 5. If any of the expected values are below 5 the P-values generated by the test start to become less reliable.


Here we consider hypothesis testing with a discrete outcome variable in a single population. Discrete variables are variables that take on more than two distinct responses or categories and the responses can be ordered or unordered (i.e., the outcome can be ordinal or categorical). The procedure we describe here can be used for dichotomous (exactly 2 response options), ordinal or categorical discrete outcomes and the objective is to compare the distribution of responses, or the proportions of participants in each response category, to a known distribution. The known distribution is derived from another study or report and it is again important in setting up the hypotheses that the comparator distribution specified in the null hypothesis is a fair comparison. The comparator is sometimes called an external or a historical control.

In one sample tests for a discrete outcome, we set up our hypotheses against an appropriate comparator. We select a sample and compute descriptive statistics on the sample data. Specifically, we compute the sample size (n) and the proportions of participants in each response

category ( , , . ) where k represents the number of response categories. We then determine the appropriate test statistic for the hypothesis test. The formula for the test statistic is given below.

We find the critical value in a table of probabilities for the chi-square distribution with degrees of freedom (df) = k-1. In the test statistic, O = observed frequency and E=expected frequency in each of the response categories. The observed frequencies are those observed in the sample and the expected frequencies are computed as described below. χ 2 (chi-square) is another probability distribution and ranges from 0 to ∞. The test above statistic formula above is appropriate for large samples, defined as expected frequencies of at least 5 in each of the response categories.

When we conduct a χ 2 test, we compare the observed frequencies in each response category to the frequencies we would expect if the null hypothesis were true. These expected frequencies are determined by allocating the sample to the response categories according to the distribution specified in H0. This is done by multiplying the observed sample size (n) by the proportions specified in the null hypothesis (p 10 , p 20 , . P k0 ). To ensure that the sample size is appropriate for the use of the test statistic above, we need to ensure that the following: min(np10 , n p20 , . n pk0 ) > 5.

The test of hypothesis with a discrete outcome measured in a single sample, where the goal is to assess whether the distribution of responses follows a known distribution, is called the χ 2 goodness-of-fit test. As the name indicates, the idea is to assess whether the pattern or distribution of responses in the sample "fits" a specified population (external or historical) distribution. In the next example we illustrate the test. As we work through the example, we provide additional details related to the use of this new test statistic.

A University conducted a survey of its recent graduates to collect demographic and health information for future planning purposes as well as to assess students' satisfaction with their undergraduate experiences. The survey revealed that a substantial proportion of students were not engaging in regular exercise, many felt their nutrition was poor and a substantial number were smoking. In response to a question on regular exercise, 60% of all graduates reported getting no regular exercise, 25% reported exercising sporadically and 15% reported exercising regularly as undergraduates. The next year the University launched a health promotion campaign on campus in an attempt to increase health behaviors among undergraduates. The program included modules on exercise, nutrition and smoking cessation. To evaluate the impact of the program, the University again surveyed graduates and asked the same questions. The survey was completed by 470 graduates and the following data were collected on the exercise question:


Non Parametric and Distribution Free

It has to be noted that the Chi square goodness of fit test and test for independence of attributes depend only on the set of observed and expected frequencies and degrees of freedom. These two tests do not need any assumption regarding distribution of the parent population from which the samples are taken.

Since these tests do not involve any population parameters or characteristics, they are also termed as non parametric or distribution free tests. An additional important fact on these two tests is they are sample size independent and can be used for any sample size as long as the assumption on minimum expected cell frequency is met.


Bekijk de video: Chi-square Tests for Goodness of Fit and Independence (Januari- 2022).