Inhoud
- Lineaire regressie is beperkt tot lineaire relaties
- Lineaire regressie kijkt alleen naar het gemiddelde van de afhankelijke variabele
- Lineaire regressie is gevoelig voor uitbijters
- Gegevens moeten onafhankelijk zijn
Lineaire regressie is een statistische methode voor het onderzoeken van de relatie tussen een afhankelijke variabele, aangeduid als y, en een of meer onafhankelijke variabelen, aangeduid als X. De afhankelijke variabele moet continu zijn, omdat deze elke waarde kan aannemen, of op zijn minst dicht bij continu. De onafhankelijke variabelen kunnen van elk type zijn. Hoewel lineaire regressie op zichzelf geen oorzakelijk verband kan tonen, wordt de afhankelijke variabele meestal beïnvloed door de onafhankelijke variabelen.
Lineaire regressie is beperkt tot lineaire relaties
Van nature kijkt lineaire regressie alleen naar lineaire relaties tussen afhankelijke en onafhankelijke variabelen. Dat wil zeggen, er wordt aangenomen dat er een rechte relatie tussen hen is. Soms is dit niet correct. De relatie tussen inkomen en leeftijd is bijvoorbeeld gebogen, d.w.z. het inkomen heeft de neiging om in de vroege delen van de volwassenheid te stijgen, af te vlakken in de latere volwassenheid en af te nemen nadat mensen met pensioen gaan. Je kunt zien of dit een probleem is door te kijken naar grafische weergaven van de relaties.
Lineaire regressie kijkt alleen naar het gemiddelde van de afhankelijke variabele
Lineaire regressie kijkt naar een verband tussen het gemiddelde van de afhankelijke variabele en de onafhankelijke variabelen. Als u bijvoorbeeld kijkt naar de relatie tussen het geboortegewicht van baby's en maternale kenmerken zoals leeftijd, kijkt lineaire regressie naar het gemiddelde gewicht van baby's van moeders van verschillende leeftijden. Soms moet u echter naar de uitersten van de afhankelijke variabele kijken, bijvoorbeeld baby's lopen een risico wanneer hun gewichten laag zijn, dus u zou in dit voorbeeld naar de uitersten willen kijken.
Net zoals het gemiddelde geen volledige beschrijving is van een enkele variabele, is lineaire regressie geen volledige beschrijving van relaties tussen variabelen. U kunt dit probleem oplossen met behulp van kwantiele regressie.
Lineaire regressie is gevoelig voor uitbijters
Uitbijters zijn gegevens die verrassend zijn. Uitbijters kunnen univariate (op basis van één variabele) of multivariate zijn. Als je kijkt naar leeftijd en inkomen, zijn univariate uitbijters dingen zoals een persoon die 118 jaar oud is, of iemand die vorig jaar $ 12 miljoen verdiende. Een multivariate uitbijter zou een 18-jarige zijn die $ 200.000 verdiende. In dit geval is noch de leeftijd, noch het inkomen erg extreem, maar heel weinig 18-jarige mensen verdienen zoveel geld.
Uitbijters kunnen grote gevolgen hebben voor de regressie. U kunt dit probleem oplossen door invloedsstatistieken op te vragen bij uw statistische software.
Gegevens moeten onafhankelijk zijn
Lineaire regressie veronderstelt dat de gegevens onafhankelijk zijn. Dat betekent dat de scores van het ene onderwerp (zoals een persoon) niets te maken hebben met die van een ander. Dit is vaak, maar niet altijd, verstandig. Twee veel voorkomende gevallen waarbij het niet logisch is, zijn clustering in ruimte en tijd.
Een klassiek voorbeeld van clustering in de ruimte zijn studententestscores, wanneer je studenten hebt uit verschillende klassen, klassen, scholen en schooldistricten. Studenten in dezelfde klas zijn meestal op veel manieren vergelijkbaar, d.w.z. ze komen vaak uit dezelfde wijken, ze hebben dezelfde leraren, enz. Ze zijn dus niet onafhankelijk.
Voorbeelden van clustering in de tijd zijn studies waarbij u dezelfde onderwerpen meerdere keren meet. In een onderzoek naar voeding en gewicht kunt u bijvoorbeeld elke persoon meerdere keren meten. Deze gegevens zijn niet onafhankelijk, omdat wat een persoon bij een gelegenheid weegt, verband houdt met wat hij of zij bij andere gelegenheden weegt. Een manier om hiermee om te gaan is met modellen met meerdere niveaus.