Comment calculer les valeurs aberrantes?

Pour calculer les valeurs aberrantes d'un ensemble de données, vous devez d'abord trouver la médiane. Ensuite, obtenez le quartile inférieur, ou Q1, en trouvant la médiane de la moitié inférieure de vos données. Faites de même pour la moitié supérieure de vos données et appelez-la Q3. Trouvez l'intervalle interquartile en trouvant la différence entre les 2 quartiles. Ensuite, calculez les clôtures intérieures des données en multipliant la plage par 1,5, puis en la soustrayant de Q1 et en l'ajoutant à Q3. Tout ce qui est en dehors de ces chiffres est une valeur aberrante mineure. Pour trouver les valeurs aberrantes majeures, multipliez la plage par 3 et faites la même chose. Pour des exemples et des conseils sur ce qu'il faut faire avec les valeurs aberrantes, lisez la suite!

Des valeurs aberrantes majeures ou pas du tout des valeurs aberrantes
En utilisant la méthodologie décrite ci-dessus, il est possible de déterminer si certains points sont des valeurs aberrantes mineures, des valeurs aberrantes majeures ou pas du tout des valeurs aberrantes.

En statistiques, une valeur aberrante est un point de données qui diffère considérablement des autres points de données d'un échantillon. Souvent, les valeurs aberrantes dans un ensemble de données peuvent alerter les statisticiens sur des anomalies expérimentales ou des erreurs dans les mesures prises, ce qui peut les amener à omettre les valeurs aberrantes de l'ensemble de données. S'ils font des valeurs aberrantes de leur Omettre ensemble de données, des changements importants dans les conclusions de l'étude peuvent en résulter. Pour cette raison, savoir calculer et évaluer les valeurs aberrantes est important pour assurer une bonne compréhension des données statistiques.

Pas

  1. 1
    Apprenez à reconnaître les valeurs aberrantes potentielles. Avant de décider d'omettre ou non les valeurs aberrantes d'un ensemble de données donné, nous devons d'abord, évidemment, identifier les valeurs aberrantes potentielles de l'ensemble de données. De manière générale, les valeurs aberrantes sont des points de données qui diffèrent grandement de la tendance exprimée par les autres valeurs de l'ensemble de données - en d'autres termes, elles se situent en dehors des autres valeurs. Il est généralement facile de détecter cela sur des tableaux de données ou (surtout) sur des graphiques. Si l'ensemble de données est exprimé visuellement sur le graphique, les points périphériques seront «loin» des autres valeurs. Si, par exemple, la majorité des points d'un ensemble de données forment une ligne droite, les valeurs aberrantes ne pourront pas être raisonnablement interprétées pour se conformer à la ligne.
    • Considérons un ensemble de données qui représente les températures de 12 objets différents dans une pièce. Si 11 des objets ont une température de quelques degrés à 21°C, mais que le douzième objet, un four, a une température de 149°C, un examen rapide peut vous dire que le le four est probablement une valeur aberrante.
  2. 2
    Organisez tous les points de données du plus bas au plus élevé. La première étape du calcul des valeurs aberrantes dans un ensemble de données consiste à trouver la valeur médiane (moyenne) de l'ensemble de données. Cette tâche est grandement simplifiée si les valeurs de l'ensemble de données sont classées de la plus petite à la plus grande. Donc, avant de continuer, triez les valeurs de votre ensemble de données de cette manière.
    • Continuons avec l'exemple ci-dessus. Voici notre jeu de données représentant les températures de plusieurs objets dans une pièce: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Si nous ordonnons les valeurs de l'ensemble de données de la plus faible à la plus élevée, notre nouvel ensemble de valeurs est: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
    Pour calculer les valeurs aberrantes d'un ensemble de données
    Pour calculer les valeurs aberrantes d'un ensemble de données, vous devez d'abord trouver la médiane.
  3. 3
    Calculer la médiane de l'ensemble de données. La médiane d'un ensemble de données est le point de données au-dessus duquel se trouve la moitié des données et en dessous duquel se trouve la moitié des données - essentiellement, c'est le point "milieu" dans un ensemble de données. Si l'ensemble de données contient un nombre impair de points, cela est facile à trouver - la médiane est le point qui a le même nombre de points au-dessus qu'en dessous. Cependant, s'il y a un nombre pair de points, alors, puisqu'il n'y a pas de point médian unique, les 2 points médians doivent être moyennés pour trouver la médiane. Notez que, lors du calcul des valeurs aberrantes, la médiane est généralement affectée de la variable Q2 - - c'est parce qu'elle se situe entre Q1 et Q3, les quartiles inférieur et supérieur, que nous définirons plus tard.
    • Ne soyez pas confus par les ensembles de données avec des nombres pairs de points - la moyenne des deux points du milieu sera souvent un nombre qui n'apparaît pas dans l'ensemble de données lui-même - c'est OK. Cependant, si les deux points médians sont le même nombre, la moyenne, évidemment, sera également ce nombre, ce qui est également OK.
    • Dans notre exemple, nous avons 12 points. Les 2 termes du milieu sont les points 6 et 7 - 70 et 71, respectivement. Ainsi, la médiane de notre ensemble de données est la moyenne de ces deux points: ((70 + 71) / 2), = 70,5.
  4. 4
    Calculez le quartile inférieur. Ce point, auquel nous affecterons la variable Q1, est le point de données en dessous duquel 25 pour cent (ou un quart) des observations sont réglés. En d'autres termes, il s'agit du point à mi-chemin des points de votre ensemble de données en dessous de la médiane. S'il y a un nombre pair de valeurs en dessous de la médiane, vous devez encore une fois faire la moyenne des deux valeurs moyennes pour trouver Q1, un peu comme vous avez peut-être dû le faire pour trouver la médiane elle-même.
    • Dans notre exemple, 6 points se situent au-dessus de la médiane et 6 points en dessous. Cela signifie que, pour trouver le quartile inférieur, nous devrons faire la moyenne des deux points médians des six points inférieurs. Les points 3 et 4 des 6 derniers sont tous deux égaux à 70. Ainsi, leur moyenne est ((70 + 70) / 2), = 70. 70 sera notre valeur pour Q1
  5. 5
    Calculez le quartile supérieur. Ce point, auquel est affectée la variable Q3, est le point de données au-dessus duquel se situent 25 pour cent des données. Trouver Q3 est presque identique à trouver Q1, sauf que, dans ce cas, les points au - dessus de la médiane, plutôt qu'en dessous, sont pris en compte.
    • En reprenant l'exemple ci-dessus, les deux points médians des 6 points au-dessus de la médiane sont 71 et 72. La moyenne de ces 2 points donne ((71 + 72) / 2), = 71,5. 71,5 sera notre valeur pour Q3.
    La première étape du calcul des valeurs aberrantes dans un ensemble de données consiste à trouver
    La première étape du calcul des valeurs aberrantes dans un ensemble de données consiste à trouver la valeur médiane (moyenne) de l'ensemble de données.
  6. 6
    Trouvez l'intervalle interquartile. Maintenant que nous avons défini Q1 et Q3, nous devons calculer la distance entre ces deux variables. La distance de Q1 à Q3 est trouvée en soustrayant Q1 de Q3. La valeur que vous obtenez pour l'intervalle interquartile est vitale pour déterminer les limites des points non aberrants dans votre ensemble de données.
    • Dans notre exemple, nos valeurs pour Q1 et Q3 sont 70 et 71,5, respectivement. Pour trouver l'intervalle interquartile, nous soustrayons Q3 - Q1: 71,5 - 70 = 1,5.
    • Notez que cela fonctionne même si Q1, Q3 ou les deux sont des nombres négatifs. Par exemple, si notre valeur Q1 était de -70, notre intervalle interquartile serait de 71,5 - (-70) = 141,5, ce qui est correct.
  7. 7
    Trouvez les «clôtures intérieures» pour l'ensemble de données. Les valeurs aberrantes sont identifiées en évaluant si elles se situent ou non dans un ensemble de limites numériques appelées «clôtures intérieures» et «clôtures extérieures». Un point qui sort des limites internes de l'ensemble de données est classé comme une valeur aberrante mineure, tandis qu'un point qui sort des limites externes est classé comme une valeur aberrante majeure. Pour trouver les clôtures intérieures de votre ensemble de données, commencez par multiplier l'intervalle interquartile par 1,5. Ensuite, ajoutez le résultat à Q3 et soustrayez-le de Q1. Les deux valeurs résultantes sont les limites des clôtures internes de votre ensemble de données.
    • Dans notre exemple, l'intervalle interquartile est (71,5 - 70) ou 1,5. En multipliant cela par 1,5, on obtient 2,25. Nous ajoutons ce nombre à Q3 et le soustrayons de Q1 pour trouver les limites des clôtures intérieures comme suit:
      • 71,5 + 2,25 = 73,75
      • 70 - 2,25 = 67,75
      • Ainsi, les limites de notre clôture intérieure sont 67,75 et 73,75.
    • Dans notre ensemble de données, seule la température du four - 300 degrés - se situe en dehors de cette plage et peut donc être une valeur aberrante légère. Cependant, nous n'avons pas encore déterminé si cette température est une valeur aberrante majeure, alors ne tirons aucune conclusion avant de le faire.
  8. 8
    Trouvez les "clôtures extérieures" pour l'ensemble de données. Cela se fait de la même manière que les clôtures intérieures, sauf que l'intervalle interquartile est multiplié par 3 au lieu de 1,5. Le résultat est ensuite ajouté à Q3 et soustrait de Q1 pour trouver les limites supérieure et inférieure de la clôture extérieure.
    • Dans notre exemple, multiplier l'intervalle interquartile ci-dessus par 3 donne (1,5 * 3), ou 4,5. On retrouve les limites de la clôture extérieure de la même manière que précédemment:
      • 71,5 + 4,5 = 76
      • 70 - 4,5 = 65,5
      • Les limites de notre clôture extérieure sont 65,5 et 76.
    • Tous les points de données situés à l'extérieur des clôtures extérieures sont considérés comme des valeurs aberrantes majeures. Dans cet exemple, la température du four, 300 degrés, se situe bien en dehors des barrières extérieures, il s'agit donc certainement d' une valeur aberrante majeure.
    Évaluer les valeurs aberrantes est important pour assurer une bonne compréhension des données statistiques
    Pour cette raison, savoir calculer et évaluer les valeurs aberrantes est important pour assurer une bonne compréhension des données statistiques.
  9. 9
    Utilisez une évaluation qualitative pour déterminer s'il faut «éliminer» les valeurs aberrantes. En utilisant la méthodologie décrite ci-dessus, il est possible de déterminer si certains points sont des valeurs aberrantes mineures, des valeurs aberrantes majeures ou pas du tout des valeurs aberrantes. Cependant, ne vous y trompez pas: l'identification d'un point comme valeur aberrante le marque uniquement comme un candidat à omission de l'ensemble de données, et non comme un point qui doit être omis. La raison qu'une valeur aberrante diffère du reste des points de l'ensemble de données est crucial pour déterminer s'il faut ou non omettre la valeur aberrante. En règle générale, les valeurs aberrantes qui peuvent être attribuées à une erreur quelconque - une erreur de mesure, d'enregistrement ou de conception expérimentale, par exemple - sont omises. D'un autre côté, les valeurs aberrantes qui ne sont pas attribuées à une erreur et qui révèlent de nouvelles informations ou des tendances non prévues ne sont généralement pas omises.
    • Un autre critère à considérer est de savoir si les valeurs aberrantes ont un impact significatif sur la moyenne (moyenne) d'un ensemble de données d'une manière qui la fausse ou la fait paraître trompeuse. Ceci est particulièrement important à considérer si vous avez l'intention de tirer des conclusions à partir de la moyenne de votre ensemble de données.
    • Évaluons notre exemple. Dans notre exemple, puisqu'il est hautement improbable que le four ait atteint une température de 300 degrés par une force naturelle imprévue, nous pouvons conclure avec une quasi-certitude que le four a été accidentellement laissé allumé, ce qui a entraîné une lecture anormale de température élevée. De plus, si nous n'omettons pas la valeur aberrante, la moyenne de notre ensemble de données est (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89,67 degrés, tandis que la moyenne si nous faisons omettre les valeurs aberrantes est (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70,55.
      • Étant donné que la valeur aberrante peut être attribuée à une erreur humaine et parce qu'il est inexact de dire que la température moyenne de cette pièce était de près de 90 degrés, nous devrions choisir d'omettre notre valeur aberrante.
  10. 10
    Comprendre l'importance de (parfois) retenir les valeurs aberrantes. Alors que certaines valeurs aberrantes doivent être omises des ensembles de données car elles résultent d'erreurs et/ou de résultats biaisés de manière inexacte ou trompeuse, certaines valeurs aberrantes doivent être conservées. Si, par exemple, une valeur aberrante semble être véritablement obtenue (c'est-à-dire qu'elle n'est pas le résultat d'une erreur) et/ou donne un nouvel aperçu du phénomène mesuré, elle ne doit pas être omise d'emblée. Les expériences scientifiques sont des situations particulièrement sensibles lorsqu'il s'agit de traiter des valeurs aberrantes - omettre une valeur aberrante par erreur peut signifier omettre des informations qui signifient une nouvelle tendance ou découverte.
    • Par exemple, disons que nous concevons un nouveau médicament pour augmenter la taille des poissons dans une ferme piscicole. Nous utiliserons notre ancien jeu de données ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), sauf que, cette fois, chaque point représentera la masse d'un poisson (en grammes) après avoir été traité avec un médicament expérimental différent dès la naissance. En d'autres termes, le premier médicament a donné à un poisson une masse de 71 grammes, le deuxième médicament a donné à un autre poisson une masse de 70 grammes, et ainsi de suite. Dans cette situation, 300 est toujours une valeur aberrante, mais nous ne devons pas l'omettre car, en supposant que ce n'est pas dû à une erreur, cela représente un succès significatif dans notre expérience. Le médicament qui a donné un poisson de 300 grammes a fonctionné mieux que tous les autres médicaments, donc ce point est en fait le plusimportant dans notre ensemble de données, plutôt que le moindre.

Conseils

  • Lorsque des valeurs aberrantes sont trouvées, essayez d'expliquer leur présence avant de les éliminer de l'ensemble de données; ils peuvent indiquer des erreurs de mesure ou des anomalies dans la distribution.

Choses dont vous aurez besoin

  • Calculatrice

Questions et réponses

  • Est-il possible que la moitié de mon ensemble de données soit des valeurs aberrantes si je traite un grand ensemble de données?
    Probablement pas. Disons que votre ensemble de données est de 4000 mesures de pression artérielle systolique. Dans la plupart des études, juste pour éviter le problème des erreurs de mesure humaines, la pression artérielle sera indiquée comme la moyenne de deux échantillons. Cela réduit considérablement l'erreur humaine. Certaines pressions systoliques vont être bien supérieures à 200 mmHg, tandis que d'autres sont bien inférieures à 100 mmHg. Faites confiance à vos statistiques récapitulatives, puis faites quelques graphiques.
  • Peut-il y avoir plus d'une valeur aberrante?
    Avec de grandes quantités de données, il est possible d'avoir plusieurs valeurs aberrantes, mais il peut être assez difficile de les identifier car elles sont plus susceptibles de se situer au centre des quartiles.
  • Pour trouver la clôture intérieure, dois-je toujours multiplier l'intervalle inter quartile par 1,5?
    Une valeur aberrante est une valeur X telle que soit X>quartile supérieur+1,5x (quartile supérieur-quartile inférieur), Xquartile supérieur+3,0x (quartile supérieur-quartile inférieur) ou X.
  • Vous utilisez 1,5 pour faire le calcul, mais certains scientifiques disent d'utiliser 2,2. Qu'est ce que tu penses de ça?
    Dans les statistiques, vous utilisez 1,5.
  • Cette technique peut-elle être utilisée avec des échantillons de petite taille?
    Oui, c'est possible (en fonction de la taille de l'échantillon). Si la taille de l'échantillon est de 4+, alors oui.
  • Que faire si l'intervalle interquartile est négatif?
    La plage ne peut jamais être vraiment négative. Si votre intervalle interquartile est négatif, vous avez soustrait le quartile supérieur du quartile inférieur. Pour corriger cela, soustrayez le quartile inférieur du quartile supérieur ou multipliez votre réponse actuelle par -1.
  • Quelle mesure de la tendance centrale n'est pas influencée par les valeurs aberrantes?
    Toutes les mesures de tendance centrale sont influencées par les valeurs aberrantes, mais la médiane est la moins affectée. Par exemple, si la médiane est 5 et le nombre au-dessus est 6, peu importe si vous avez un autre nombre qui est 7 ou si ce nombre est 300. Parce que la médiane est principalement sur le nombre de nombres de chaque côté, un la valeur aberrante ne l'affecterait plus que tout autre nombre.
  • Comment puis-je le calculer lorsque ma valeur aberrante inférieure est négative?
    C'est bien d'avoir votre valeur aberrante inférieure comme négative, il suffit de la calculer de la même manière.
  • Comment calculer l'intervalle interquartile?
    Trouvez la médiane des données (s'il s'agit d'un nombre singulier, ne l'incluez pas d'un côté ou de l'autre) et séparez-vous en deux groupes. Ensuite, trouvez la médiane de chaque groupe. La première médiane est le quartile 1 (Q1) et la seconde est le quartile trois (Q3). Utilisez la formule générale (Q3 - Q1) pour trouver l'intervalle interquartile.
  • Veuillez me dire pourquoi 1,5 et 3 ont été utilisés pour multiplier l'IQR lors de la détermination des clôtures intérieures et extérieures. Comment sont-ils arrivés? Sont-ils un chiffre constant?
    1,5 est toujours utilisé pour multiplier l'IQR pour trouver les clôtures. En effet, la définition d'une valeur aberrante est tout point de données supérieur à 1,5 IQR en dessous du premier quartile ou au-dessus du troisième quartile. Et 3 est juste 1,5 doublé.
Questions sans réponse
  • Existe-t-il une évaluation quantitative du degré de valeur aberrante d'une entrée?
  • Cette technique peut-elle être utilisée pour des ensembles de données non paramétriques?
  • Si un nombre se trouve exactement sur les limites de la clôture intérieure, est-il toujours considéré comme une valeur aberrante mineure?

FacebookTwitterInstagramPinterestLinkedInGoogle+YoutubeRedditDribbbleBehanceGithubCodePenWhatsappEmail