Comment calculer l'erreur type d'estimation?
Pour calculer l'erreur type d'estimation, créez un tableau de données à cinq colonnes. Dans les deux premières colonnes, entrez les valeurs de vos données mesurées et entrez les valeurs de la ligne de régression dans la troisième colonne. Dans la quatrième colonne, calculez les valeurs prédites à partir de la ligne de régression en utilisant l'équation de cette ligne. Ce sont les erreurs. Remplissez la cinquième colonne en multipliant chaque erreur par elle-même. Additionnez toutes les valeurs de la colonne 5, puis prenez la racine carrée de ce nombre pour obtenir l'erreur type d'estimation. Pour apprendre à organiser les paires de données, continuez à lire!
L'erreur standard d'estimation est utilisée pour déterminer dans quelle mesure une ligne droite peut décrire les valeurs d'un ensemble de données. Lorsque vous disposez d'une collection de données provenant d'une mesure, d'une expérience, d'une enquête ou d'une autre source, vous pouvez créer une ligne de régression pour estimer des données supplémentaires. Avec l'erreur standard d'estimation, vous obtenez un score qui décrit la qualité de la ligne de régression.
Partie 1 sur 2: tabulation de vos données
- 1Créez une table de données à cinq colonnes. Tout travail statistique est généralement facilité par la présentation de vos données dans un format concis. Une table simple sert très bien cet objectif. Pour calculer l'erreur type d'estimation, vous utiliserez cinq mesures ou calculs différents. Par conséquent, la création d'un tableau à cinq colonnes est utile. Étiquetez les cinq colonnes comme suit:
- x{\style d'affichage x}
- y{\style d'affichage y}
- y′{\displaystyle y^{\prime }}
- y−y′{\displaystyle yy^{\prime }}
- (y−y′)2{\displaystyle (yy^{\prime })^{2}}
- Notez que le tableau présenté dans l'image ci-dessus effectue les soustractions opposées, y′−y{\displaystyle y^{\prime }-y} . L'ordre le plus standard, cependant, est y−y′{\displaystyle yy^{\prime }} . Étant donné que les valeurs de la dernière colonne sont au carré, le négatif n'est pas problématique et ne changera pas le résultat. Néanmoins, vous devez reconnaître que le calcul le plus standard est y−y′{\displaystyle yy^{\prime }} .
- 2Saisissez les valeurs de vos données mesurées. Après avoir collecté vos données, vous aurez des paires de valeurs de données. Pour ces calculs statistiques, la variable indépendante est étiquetée x{\displaystyle x} et la variable dépendante, ou résultante, est y{\displaystyle y} . Entrez ces valeurs dans les deux premières colonnes de votre table de données.
- L'ordre des données et l'appariement sont importants pour ces calculs. Vous devez faire attention à garder vos points de données appariés ensemble dans l'ordre.
- Pour les exemples de calculs présentés ci-dessus, les paires de données sont les suivantes:
- (12)
- (24)
- (35)
- (44)
- (55)
- 3Calculer une droite de régression. En utilisant les résultats de vos données, vous serez en mesure de calculer une droite de régression. C'est aussi ce qu'on appelle une ligne de meilleur ajustement ou la ligne des moindres carrés. Le calcul est fastidieux mais peut être fait à la main. Vous pouvez également utiliser une calculatrice graphique portable ou certains programmes en ligne qui calculeront rapidement la ligne la mieux adaptée à l'aide de vos données.
- Pour cet article, on suppose que vous disposez de l'équation de la droite de régression ou qu'elle a été prédite par des moyens antérieurs.
- Pour l'exemple de jeu de données dans l'image ci-dessus, la droite de régression est y′=0,6x+2,2{\displaystyle y^{\prime }=0,6x+2,2} .
- 4Calculer les valeurs prédites à partir de la droite de régression. À l'aide de l'équation de cette ligne, vous pouvez calculer les valeurs y prédites pour chaque valeur x de votre étude ou pour d'autres valeurs x théoriques que vous n'avez pas mesurées.
- En utilisant l'équation de la droite de régression, calculez ou "prédisez" les valeurs de y′{\displaystyle y^{\prime }} pour chaque valeur de x. Insérez la valeur x dans l'équation et trouvez le résultat pour y′{\displaystyle y^{\prime }} comme suit:
- y′=0,6x+2,2{\displaystyle y^{\prime }=0,6x+2,2}
- y′(1)=0,6(1)+2,2=2,8{\displaystyle y^{\prime }(1)=0,6(1)+2,2=2,8}
- y′(2)=0,6(2)+2,2=3,4{\displaystyle y^{\prime }(2)=0,6(2)+2,2=3,4}
- y′(3)=0,6(3)+2,2=4,0{\displaystyle y^{\prime }(3)=0,6(3)+2,2=4,0}
- y′(4)=0,6(4)+2,2=4,6{\displaystyle y^{\prime }(4)=0,6(4)+2,2=4,6}
- y′(5)=0,6(5)+2,2=5,2{\displaystyle y^{\prime }(5)=0,6(5)+2,2=5,2}
- En utilisant l'équation de la droite de régression, calculez ou "prédisez" les valeurs de y′{\displaystyle y^{\prime }} pour chaque valeur de x. Insérez la valeur x dans l'équation et trouvez le résultat pour y′{\displaystyle y^{\prime }} comme suit:
Partie 2 sur 2: effectuer les calculs
- 1Calculer l'erreur de chaque valeur prédite. Dans la quatrième colonne de votre tableau de données, vous calculerez et enregistrerez l'erreur de chaque valeur prédite. Plus précisément, soustrayez la valeur prédite ( y′{\displaystyle y^{\prime }} ) de la valeur réelle observée ( y{\displaystyle y} ).
- Pour les données de l'ensemble d'échantillons, ces calculs sont les suivants:
- y(x)−y′(x){\displaystyle y(x)-y^{\prime }(x)}
- y(1)−y′(1)=2−2,8=−0,8{\displaystyle y(1)-y^{\prime }(1)=2-2,8=-0,8}
- y(2)−y′(2)=4−3,4=0,6{\displaystyle y(2)-y^{\prime }(2)=4-3,4=0,6}
- y(3)−y′(3)=5−4=1{\displaystyle y(3)-y^{\prime }(3)=5-4=1}
- y(4)−y′(4)=4−4,6=−0,6{\displaystyle y(4)-y^{\prime }(4)=4-4,6=-0,6}
- y(5)−y′(5)=5−5,2=−0,2{\displaystyle y(5)-y^{\prime }(5)=5-5,2=-0,2}
- Pour les données de l'ensemble d'échantillons, ces calculs sont les suivants:
- 2Calculer les carrés des erreurs. Prenez chaque valeur de la quatrième colonne et mettez-la au carré en la multipliant par elle-même. Remplissez ces résultats dans la dernière colonne de votre tableau de données.
- Pour l'exemple de jeu de données, ces calculs sont les suivants:
- -0,82=0,64{\displaystyle -0,8^{2}=0,64}
- 0,62=0,36{\displaystyle 0,6^{2}=0,36}
- 12=1.0{\displaystyle 1^{2}=1.0}
- -0,6=0,36{\displaystyle -0,6=0,36}
- -0,2=0,04{\displaystyle -0,2=0,04}
- Pour l'exemple de jeu de données, ces calculs sont les suivants:
- 3Trouvez la somme des erreurs au carré (SSE). La valeur statistique connue sous le nom de somme des erreurs au carré (SSE) est une étape utile pour trouver l'écart type, la variance et d'autres mesures. Pour trouver le SSE à partir de votre table de données, ajoutez les valeurs dans la cinquième colonne de votre table de données.
- Pour cet exemple d'ensemble de données, ce calcul est le suivant:
- 0,64+0,36+1,0+0,36+0,04=2,4{\displaystyle 0,64+0,36+1,0+0,36+0,04=2,4}
- Pour cet exemple d'ensemble de données, ce calcul est le suivant:
- 4Finalisez vos calculs. L'erreur type de l'estimation est la racine carrée de la moyenne de l'ESS. Il est généralement représenté par la lettre grecque σ{\displaystyle \sigma } . Par conséquent, le premier calcul consiste à diviser le score SSE par le nombre de points de données mesurés. Ensuite, trouvez la racine carrée de ce résultat.
- Si les données mesurées représentent une population entière, vous trouverez la moyenne en divisant par N, le nombre de points de données. Cependant, si vous travaillez avec un ensemble d'échantillons plus petit de la population, remplacez N-2 dans le dénominateur.
- Pour l'exemple d'ensemble de données de cet article, nous pouvons supposer qu'il s'agit d'un exemple d'ensemble et non d'une population, simplement parce qu'il n'y a que 5 valeurs de données. Par conséquent, calculez l'erreur type de l'estimation comme suit:
- σ=2,45−2{\displaystyle \sigma ={\sqrt {\frac {2,4}{5-2}}}}
- σ=2,43{\displaystyle \sigma ={\sqrt {\frac {2,4}{3}}}}
- σ=0,8{\displaystyle \sigma ={\sqrt {0,8}}}
- σ=0,894{\displaystyle \sigma =0,894}
- 5Interprétez votre résultat. L'erreur standard de l'estimation est un chiffre statistique qui vous indique dans quelle mesure vos données mesurées se rapportent à une ligne droite théorique, la ligne de régression. Un score de 0 signifierait une correspondance parfaite, chaque point de données mesuré tombant directement sur la ligne. Les données largement dispersées auront un score beaucoup plus élevé.
- Avec ce petit ensemble d'échantillons, le score d'erreur standard de 0,894 est assez faible et représente des résultats de données bien organisés.