De nadelen van lineaire regressie

Posted on
Schrijver: Peter Berry
Datum Van Creatie: 19 Augustus 2021
Updatedatum: 13 November 2024
Anonim
Limitation of Linear Regression
Video: Limitation of Linear Regression

Inhoud

Lineaire regressie is een statistische methode voor het onderzoeken van de relatie tussen een afhankelijke variabele, aangeduid als y, en een of meer onafhankelijke variabelen, aangeduid als X. De afhankelijke variabele moet continu zijn, omdat deze elke waarde kan aannemen, of op zijn minst dicht bij continu. De onafhankelijke variabelen kunnen van elk type zijn. Hoewel lineaire regressie op zichzelf geen oorzakelijk verband kan tonen, wordt de afhankelijke variabele meestal beïnvloed door de onafhankelijke variabelen.

Lineaire regressie is beperkt tot lineaire relaties

Van nature kijkt lineaire regressie alleen naar lineaire relaties tussen afhankelijke en onafhankelijke variabelen. Dat wil zeggen, er wordt aangenomen dat er een rechte relatie tussen hen is. Soms is dit niet correct. De relatie tussen inkomen en leeftijd is bijvoorbeeld gebogen, d.w.z. het inkomen heeft de neiging om in de vroege delen van de volwassenheid te stijgen, af te vlakken in de latere volwassenheid en af ​​te nemen nadat mensen met pensioen gaan. Je kunt zien of dit een probleem is door te kijken naar grafische weergaven van de relaties.

Lineaire regressie kijkt alleen naar het gemiddelde van de afhankelijke variabele

Lineaire regressie kijkt naar een verband tussen het gemiddelde van de afhankelijke variabele en de onafhankelijke variabelen. Als u bijvoorbeeld kijkt naar de relatie tussen het geboortegewicht van baby's en maternale kenmerken zoals leeftijd, kijkt lineaire regressie naar het gemiddelde gewicht van baby's van moeders van verschillende leeftijden. Soms moet u echter naar de uitersten van de afhankelijke variabele kijken, bijvoorbeeld baby's lopen een risico wanneer hun gewichten laag zijn, dus u zou in dit voorbeeld naar de uitersten willen kijken.

Net zoals het gemiddelde geen volledige beschrijving is van een enkele variabele, is lineaire regressie geen volledige beschrijving van relaties tussen variabelen. U kunt dit probleem oplossen met behulp van kwantiele regressie.

Lineaire regressie is gevoelig voor uitbijters

Uitbijters zijn gegevens die verrassend zijn. Uitbijters kunnen univariate (op basis van één variabele) of multivariate zijn. Als je kijkt naar leeftijd en inkomen, zijn univariate uitbijters dingen zoals een persoon die 118 jaar oud is, of iemand die vorig jaar $ 12 miljoen verdiende. Een multivariate uitbijter zou een 18-jarige zijn die $ 200.000 verdiende. In dit geval is noch de leeftijd, noch het inkomen erg extreem, maar heel weinig 18-jarige mensen verdienen zoveel geld.

Uitbijters kunnen grote gevolgen hebben voor de regressie. U kunt dit probleem oplossen door invloedsstatistieken op te vragen bij uw statistische software.

Gegevens moeten onafhankelijk zijn

Lineaire regressie veronderstelt dat de gegevens onafhankelijk zijn. Dat betekent dat de scores van het ene onderwerp (zoals een persoon) niets te maken hebben met die van een ander. Dit is vaak, maar niet altijd, verstandig. Twee veel voorkomende gevallen waarbij het niet logisch is, zijn clustering in ruimte en tijd.

Een klassiek voorbeeld van clustering in de ruimte zijn studententestscores, wanneer je studenten hebt uit verschillende klassen, klassen, scholen en schooldistricten. Studenten in dezelfde klas zijn meestal op veel manieren vergelijkbaar, d.w.z. ze komen vaak uit dezelfde wijken, ze hebben dezelfde leraren, enz. Ze zijn dus niet onafhankelijk.

Voorbeelden van clustering in de tijd zijn studies waarbij u dezelfde onderwerpen meerdere keren meet. In een onderzoek naar voeding en gewicht kunt u bijvoorbeeld elke persoon meerdere keren meten. Deze gegevens zijn niet onafhankelijk, omdat wat een persoon bij een gelegenheid weegt, verband houdt met wat hij of zij bij andere gelegenheden weegt. Een manier om hiermee om te gaan is met modellen met meerdere niveaus.