Inhoud
- Het vereiste type gegevens
- De Goodness-of-Fit-test
- De Chi-kwadraat statistiek berekenen
- De Chi-Square statistiek interpreteren
Experimenten testen voorspellingen. Deze voorspellingen zijn vaak numeriek, wat betekent dat, terwijl wetenschappers gegevens verzamelen, ze verwachten dat de cijfers op een bepaalde manier uit elkaar vallen. Real-world data komen zelden overeen met de voorspellingen die wetenschappers doen, dus hebben wetenschappers een test nodig om hen te vertellen of het verschil tussen waargenomen en verwachte getallen te wijten is aan willekeurige kansen, of aan een onvoorziene factor die de wetenschapper zal dwingen de onderliggende theorie aan te passen . Een chikwadraat-test is een statistisch hulpmiddel dat wetenschappers hiervoor gebruiken.
Het vereiste type gegevens
U hebt categorische gegevens nodig om een chikwadraat-test te gebruiken. Een voorbeeld van categorische gegevens is het aantal mensen dat een vraag "ja" heeft beantwoord versus het aantal mensen dat de vraag "nee" heeft beantwoord (twee categorieën), of het aantal kikkers in een populatie die groen, geel of grijs is ( drie categorieën). U kunt geen chi-kwadraat-test gebruiken op continue gegevens, zoals die kunnen worden verzameld uit een enquête waarin mensen worden gevraagd hoe lang ze zijn. Uit zo'n enquête zou je een breed scala aan hoogtes halen. Als u de hoogten echter verdeelt in categorieën zoals "minder dan 6 voet lang" en "6 voet lang en meer", kunt u een chikwadraat-test op de gegevens gebruiken.
De Goodness-of-Fit-test
Een Goodness-of-Fit-test is een veel voorkomende en misschien wel de eenvoudigste test die wordt uitgevoerd met behulp van de chi-square statistiek. In een Goodness-of-Fit-test maakt de wetenschapper een specifieke voorspelling over de cijfers die ze verwacht te zien in elke categorie van haar gegevens. Ze verzamelt vervolgens gegevens uit de echte wereld - geobserveerde gegevens - en gebruikt de chikwadraat-test om te zien of de geobserveerde gegevens voldoen aan haar verwachtingen.
Stel je bijvoorbeeld voor dat een bioloog de overervingspatronen in een kikkersoort bestudeert. Onder de 100 nakomelingen van een stel kikkerouders, verwacht het biologen genetische model dat ze 25 gele nakomelingen, 50 groene nakomelingen en 25 grijze nakomelingen verwacht. Wat ze eigenlijk waarneemt, zijn 20 gele nakomelingen, 52 groene nakomelingen en 28 grijze nakomelingen. Wordt haar voorspelling ondersteund of is haar genetische model onjuist? Ze kan een chikwadraat-test gebruiken om erachter te komen.
De Chi-kwadraat statistiek berekenen
Begin met het berekenen van de chikwadraat statistiek door elke verwachte waarde af te trekken van de bijbehorende waargenomen waarde en het kwadraat van elk resultaat. De berekening voor het voorbeeld van de kikker nakomelingen zou er als volgt uitzien:
geel = (20 - 25) ^ 2 = 25 groen = (52 - 50) ^ 2 = 4 grijs = (28 - 25) ^ 2 = 9
Deel nu elk resultaat door de bijbehorende verwachte waarde.
geel = 25 ÷ 25 = 1 groen = 4 ÷ 50 = 0,08 grijs = 9 ÷ 25 = 0,36
Voeg tot slot de antwoorden van de vorige stap bij elkaar.
chikwadraat = 1 + 0,08 + 0,36 = 1,44
De Chi-Square statistiek interpreteren
De chikwadraat statistiek vertelt u hoe verschillend uw waargenomen waarden waren van uw voorspelde waarden. Hoe hoger het getal, hoe groter het verschil. Je kunt bepalen of je chikwadraatwaarde te hoog of laag genoeg is om je voorspelling te ondersteunen door te kijken of deze onder een bepaalde waarde ligt kritische waarde op een chi-square distributietabel. Deze tabel vergelijkt chikwadraat waarden met waarschijnlijkheden, genaamd p-waarden. In het bijzonder vertelt de tabel u de waarschijnlijkheid dat de verschillen tussen uw waargenomen en verwachte waarden eenvoudig te wijten zijn aan willekeurige kans of dat er een andere factor aanwezig is. Voor een goodness-of-fit-test, als de p-waarde 0,05 of minder is, moet je je voorspelling afwijzen.
U moet het bepalen graden van vrijheid (df) in uw gegevens voordat u de kritische chikwadraatwaarde kunt opzoeken in een distributietabel. Vrijheidsgraden worden berekend door 1 af te trekken van het aantal categorieën in uw gegevens. Er zijn drie categorieën in dit voorbeeld, dus er zijn 2 vrijheidsgraden. Een blik op deze chi-square distributietabel vertelt je dat voor 2 vrijheidsgraden de kritische waarde voor een 0,05 waarschijnlijkheid 5,99 is. Dit betekent dat zolang uw berekende chikwadraatwaarde minder dan 5,99 is, uw verwachte waarden, en dus de onderliggende theorie, geldig en ondersteund zijn. Omdat de chi-kwadraat statistiek voor de gegevens van de kikker nakomelingen 1,44 was, kan de bioloog haar genetisch model accepteren.