Inhoud
Wanneer wetenschappers, economen of statistici op basis van theorie voorspellingen doen en vervolgens echte gegevens verzamelen, hebben ze een manier nodig om de variatie tussen voorspelde en gemeten waarden te meten. Ze vertrouwen meestal op de gemiddelde kwadratische fout (MSE), die de som is van de variaties van de individuele gegevenspunten in het kwadraat en gedeeld door het aantal gegevenspunten minus 2. Wanneer de gegevens worden weergegeven in een grafiek, bepaalt u de MSE door het optellen van de variaties in de gegevenspunten van de verticale as. In een x-y-grafiek zouden dat de y-waarden zijn.
Waarom de variaties kwadrateren?
Het vermenigvuldigen van de variatie tussen voorspelde en waargenomen waarden heeft twee gewenste effecten. De eerste is om ervoor te zorgen dat alle waarden positief zijn. Als een of meer waarden negatief waren, zou de som van alle waarden onrealistisch klein kunnen zijn en een slechte weergave van de werkelijke variatie tussen voorspelde en waargenomen waarden. Het tweede voordeel van kwadraten is om meer gewicht te geven aan grotere verschillen, wat ervoor zorgt dat een grote waarde voor MSE grote gegevensvariaties betekent.
Voorbeeldberekening voorraadalgoritme
Stel dat u een algoritme heeft dat dagelijks de prijzen van een bepaald aandeel voorspelt. Op maandag voorspelt het dat de aandelenkoers $ 5,50 is, op dinsdag $ 6,00, woensdag $ 6,00, donderdag $ 7,50 en vrijdag $ 8,00. Als u maandag als dag 1 beschouwt, hebt u een set gegevenspunten die er als volgt uitzien: (1, 5.50), (2, 6.00), (3, 6.00), (4, 7.50) en (5, 8.00). De werkelijke prijzen zijn als volgt: maandag $ 4,75 (1, 4,75); Dinsdag $ 5,35 (2, 5,35); Woensdag $ 6,25 (3, 6,25); Donderdag $ 7,25 (4, 7,25); en vrijdag: $ 8,50 (5, 8,50).
De variaties tussen de y-waarden van deze punten zijn respectievelijk 0,75, 0,65, -0,25, 0,25 en -0,50, waarbij het negatieve teken een voorspelde waarde aangeeft die kleiner is dan de waargenomen waarde. Om MSE te berekenen, kwadrateer je eerst elke variatiewaarde, wat de mintekens elimineert en 0,5625, 0,4225, 0,0625, 0,0625 en 0,25 oplevert. Het optellen van deze waarden geeft 1,36 en delen door het aantal metingen min 2, wat 3 is, levert de MSE op, die 0,45 blijkt te zijn.
MSE en RMSE
Kleinere waarden voor MSE duiden op nauwere overeenstemming tussen voorspelde en waargenomen resultaten, en een MSE van 0,0 duidt op perfecte overeenstemming. Het is echter belangrijk om te onthouden dat de variatiewaarden vierkant zijn. Wanneer een foutmeting vereist is die zich in dezelfde eenheden bevindt als de gegevenspunten, nemen statistici de root mean square error (RMSE). Ze verkrijgen dit door de vierkantswortel van de gemiddelde kwadratische fout te nemen. Voor het bovenstaande voorbeeld zou de RSME 0,671 of ongeveer 67 cent zijn.