Comment rejeter les valeurs aberrantes dans les données?
Les valeurs aberrantes sont des points de données qui se trouvent en dehors de la plage normale de données. Ce sont des nombres beaucoup plus élevés ou beaucoup plus bas que le reste de vos données. Afin de tirer des conclusions significatives des données expérimentales, vous devez examiner vos données à la recherche de valeurs aberrantes et décider de les éliminer ou non.
Partie 1 sur 2: calcul des valeurs aberrantes
- 1Observez vos données. Recherchez des nombres bien supérieurs ou bien inférieurs à la majorité de vos points de données.
- Imaginons que vous ayez planté une douzaine de tournesols et que vous surveilliez leur taille chaque semaine.
- Toutes vos fleurs ont commencé à 61 centimètres de haut. La plupart de vos fleurs ont poussé d'environ 8 à 30 centimètres, elles mesurent donc maintenant environ 32 à 91 centimètres de haut.
- Mais un enfant voisin a accidentellement jeté sa balle dans votre jardin, et lorsqu'il a couru pour la récupérer, il a écrasé l'un de vos tournesols!
- Lorsque vous mesurez vos fleurs en fin de semaine, la fleur écrasée n'est qu'à environ 8 centimètres du sol. Étant donné que les autres sont beaucoup plus grandes, vous pourriez considérer cette fleur écrasée comme une valeur aberrante.
- 2Écrivez vos données dans l'ordre. Cela vous aidera à trouver la médiane ou le point médian plus tard.
- Dans l'ordre, vos hauteurs de tournesol en pouces sont 3, 32, 32, 33, 33, 33, 34, 34, 35, 35, 36, 36.
- 3Trouvez le point à mi-chemin de vos données. Pour l'exemple du tournesol, le point à mi-chemin est compris entre 33 et 34.
- 4Trouvez le premier quartile, ou q1. Pour trouver Q1, déterminez le nombre médian dans la première moitié de vos données. La médiane est le nombre qui tombe au milieu des données.
- Dans notre exemple de tournesol, la première moitié des données est 3, 32, 32, 33, 33, 33.
- Le milieu se situe entre 32 et 33, donc la médiane est de 32,5.
- Appelez ça Q1.
- Q1=32,5
- 5Trouvez le troisième quartile, ou q3. Pour trouver Q3, déterminez le nombre médian dans la seconde moitié de vos données.
- Dans notre exemple de tournesol, la seconde moitié des données est 34, 34, 35, 35, 36, 36.
- Le milieu se situe entre 35 et 35, donc la médiane est de 35.
- Appelez ça Q3.
- T3=35
- 6Soustraire q1 de q3. Ce nombre est l'intervalle interquartile (IQR).
- Q3-Q1=IQR
- 35-32,5=2,5
- IQR=2,5
- 7Déterminez si vous avez une valeur aberrante au-delà de votre limite supérieure. Les valeurs aberrantes sont tout nombre supérieur à Q3+1,5(IQR) ou inférieur à Q1-1,5(IQR). Commencez par votre limite supérieure.
- Q3+1,5(IQR)
- 35+1,5(2,5)
- 35+3,75=38,75
- 38,75 est votre limite supérieure. Tout nombre supérieur à 38,75 est une valeur aberrante.
- Dans l'ensemble de données sur le tournesol, aucun nombre n'est supérieur à la limite supérieure.
- 8Déterminez si vous avez une valeur aberrante au-delà de votre limite inférieure. Le processus est similaire à la recherche de valeurs aberrantes au-delà de la limite supérieure, mais la formule est un peu différente.
- Q1-1,5 (IQR)
- 32,5-1,5(2,5)
- 32,5-3,75=28,75
- 28,75 est votre limite inférieure. Tout nombre inférieur à 28,75 est une valeur aberrante.
- Dans l'ensemble de données sur le tournesol, 3 est inférieur à 28,75, il s'agit donc d'une valeur aberrante. Vous pouvez justifier votre décision de l'éliminer de vos données.
Partie 2 sur 2: décider de rejeter les valeurs aberrantes
- 1Faites quelques calculs rapides. Cela vous aidera à déterminer si les valeurs aberrantes causent des problèmes avec vos données.
- Les hauteurs de vos 10 tournesols, en pouces, sont peut-être: 34, 32, 33, 33, 34, 3, 35, 35, 36, 36, 33 et 32.
- Si vous en incluez 3, la hauteur moyenne de vos tournesols est de 80 centimètres.
- Si vous en oubliez 3, la hauteur moyenne de vos tournesols est de 86 centimètres.
- Si vous vouliez faire des généralisations sur vos fleurs de tournesol (comme calculer la quantité moyenne qu'ils ont poussé sur une semaine), vous voudrez peut-être rejeter les valeurs aberrantes.
- 2Déterminez la cause de vos valeurs aberrantes. Si une erreur humaine a causé un nombre très élevé ou très faible (comme dans l'exemple du tournesol), ce point de données ne vous est pas très utile. Demandez-vous si ce nombre fait vraiment partie de l'ensemble de données que vous aviez l'intention d'étudier.
- Puisque quelqu'un a marché sur votre tournesol, le point de données périphérique ne vous dit rien sur la façon dont vos tournesols ont poussé.
- 3Décidez d'éliminer ou non vos valeurs aberrantes. Fondez votre décision sur le fait que l'inclusion du nombre dans votre ensemble de données vous donne ou non des informations utiles.
- Dans le cas du tournesol broyé, vous rejetteriez probablement le tournesol de 7,60 cm.
- Vous pouvez également rejeter les valeurs aberrantes si vous pensez avoir mal mesuré ou noté le mauvais nombre.
- En revanche, si votre tournesol était beaucoup plus court que les autres car il a été planté dans un endroit où il n'a pas reçu de soleil direct, vous pouvez décider qu'il s'agit d'une information utile et inclure ce numéro dans votre jeu de données.
- 4Rejeter la valeur aberrante. Supprimez ce numéro de vos données. À partir de maintenant, faites vos calculs sans ce nombre.
- 5Défendez votre décision. Le rejet des valeurs aberrantes rend vos données «impures». Vous ne devez rejeter les points de données que si vous avez une très bonne raison. Si vous devez rédiger un rapport de vos données, soyez prêt à expliquer pourquoi vous avez rejeté les valeurs aberrantes en utilisant les formules Q3+1,5(IQR) et Q1-1,5(IQR).
- Il n'est pas considéré comme une bonne pratique statistique d'écarter les valeurs aberrantes sans motif valable. L'élimination des valeurs aberrantes sans motif entraîne généralement une sous-estimation de la variabilité réelle du processus qui génère les données.