Comment trouver le coefficient de corrélation?

Pour trouver le coefficient de corrélation à la main, placez d'abord vos paires de données dans un tableau avec une ligne intitulée "X" et l'autre "Y". Calculez ensuite la moyenne de X en additionnant toutes les valeurs de X et en divisant par le nombre de valeurs. Calculez la moyenne de Y de la même manière. Ensuite, utilisez la formule de l'écart type pour le calculer à la fois pour X et Y. Enfin, utilisez les moyennes et les écarts types et le nombre de paires de votre ensemble de données comme entrées de la formule du coefficient de corrélation, et résolvez l'équation résultante. Pour apprendre à trouver le coefficient de corrélation avec une calculatrice en ligne ou votre propre calculatrice graphique, lisez la suite!

Le coefficient de corrélation est parfois appelé «coefficient de corrélation produit-moment de Pearson»
Le coefficient de corrélation est parfois appelé «coefficient de corrélation produit-moment de Pearson» en l'honneur de son développeur, Karl Pearson.

Le coefficient de corrélation, noté r ou, est la mesure de la corrélation linéaire (la relation, en termes de force et de direction) entre deux variables. Il va de -1 à +1, avec des signes plus et moins utilisés pour représenter une corrélation positive et négative. Si le coefficient de corrélation est exactement -1, alors la relation entre les deux variables est un ajustement négatif parfait; si le coefficient de corrélation est exactement +1, alors la relation est un ajustement positif parfait. Sinon, deux variables peuvent avoir une corrélation positive, une corrélation négative ou aucune corrélation du tout. Vous pouvez calculer la corrélation à la main, en utilisant des calculatrices de corrélation gratuites disponibles en ligne, ou en utilisant les fonctions statistiques d'une bonne calculatrice graphique.

Méthode 1 sur 4: trouver le coefficient de corrélation à la main

  1. 1
    Assemblez vos données. Pour commencer à calculer une corrélation efficace, examinez d'abord vos paires de données. Il est utile de les mettre dans un tableau, verticalement ou horizontalement. Étiquetez chaque ligne ou colonne x et y.
    • Par exemple, supposons que vous ayez quatre paires de données pour x et y. Votre tableau peut ressembler à ceci:
      • x || oui
      • 1 || 1
      • 2 || 3
      • 4 || 5
      • 5 || 7
  2. 2
    Calculer la moyenne de x. Pour calculer la moyenne, vous devez additionner toutes les valeurs de x, puis diviser par le nombre de valeurs.
    • En utilisant l'exemple ci-dessus, notez que vous avez quatre valeurs pour x. Pour calculer la moyenne, additionnez toutes les valeurs données pour x, puis divisez par 4. Votre calcul ressemblerait à ceci:
    • μx=(1+2+4+5)/4{\displaystyle \mu _{x}=(1+2+4+5)/4}
    • μx=10,5{\displaystyle \mu _{x}=10,5}
    • μx=3{\displaystyle \mu _{x}=3}
  3. 3
    Trouvez la moyenne de y. Pour trouver la moyenne de y, suivez les mêmes étapes, en additionnant toutes les valeurs de y, puis en divisant par le nombre de valeurs.
    • Dans l'exemple ci-dessus, vous avez également quatre valeurs pour y. Additionnez toutes ces valeurs, puis divisez par 4. Vos calculs ressembleraient à ceci:
    • μy=(1+3+5+7)/4{\displaystyle \mu _{y}=(1+3+5+7)/4}
    • μy=11,5{\displaystyle \mu _{y}=11,5}
    • μy=4{\displaystyle \mu _{y}=4}
  4. 4
    Déterminer l'écart type de x. Une fois que vous avez vos moyens, vous pouvez calculer l'écart type. Pour cela, utilisez la formule:
    • σx=1n−1Σ(x−μx)2{\displaystyle \sigma _{x}={\sqrt {{\frac {1}{n-1}}\Sigma (x-\mu _{x})^ {2}}}}
    • Avec les exemples de données, vos calculs devraient ressembler à ceci:
    • σx=14−1∗((1−3)2+(2−3)2+(4−3)2+(5−3)2){\displaystyle \sigma _{x}={\sqrt {{ \frac {1}{4-1}}*((1-3)^{2}+(2-3)^{2}+(4-3)^{2}+(5-3)^{ 2})}}}
    • σx=13∗(4+1+1+4){\displaystyle \sigma _{x}={\sqrt {{\frac {1}{3}}*(4+1+1+4)}}}
    • σx=13∗(10){\displaystyle \sigma _{x}={\sqrt {{\frac {1}{3}}*(10)}}}
    • σx=103{\displaystyle \sigma _{x}={\sqrt {\frac {10}{3}}}}
    • σx=1,83{\displaystyle \sigma _{x}=1,83}
  5. 5
    Calculez l'écart type de y. En utilisant les mêmes étapes de base, trouvez l'écart type de y. Vous utiliserez la même formule, en utilisant les points de données y.
    • Avec les exemples de données, vos calculs devraient ressembler à ceci:
    • σy=14−1∗((1−4)2+(3−4)2+(5−4)2+(7−4)2){\displaystyle \sigma _{y}={\sqrt {{ \frac {1}{4-1}}*((1-4)^{2}+(3-4)^{2}+(5-4)^{2}+(7-4)^{ 2})}}}
    • σy=13∗(9+1+1+9){\displaystyle \sigma _{y}={\sqrt {{\frac {1}{3}}*(9+1+1+9)}}}
    • σy=13∗(20){\displaystyle \sigma _{y}={\sqrt {{\frac {1}{3}}*(20)}}}
    • σy=203{\displaystyle \sigma _{y}={\sqrt {\frac {20}{3}}}}
    • σy=2,58{\displaystyle \sigma _{y}=2,58}
  6. 6
    Revoyez la formule de base pour trouver un coefficient de corrélation. La formule de calcul d'un coefficient de corrélation utilise des moyennes, des écarts types et le nombre de paires dans votre ensemble de données (représenté par n). Le coefficient de corrélation lui-même est représenté par la lettre minuscule r ou la lettre grecque minuscule rho,. Pour cet article, vous utiliserez la formule connue sous le nom de coefficient de corrélation de Pearson, illustrée ci-dessous:
    • ρ=(1n−1)Σ(x−μxσx)∗(y−μyσy){\displaystyle \rho =\left({\frac {1}{n-1}}\right)\Sigma \left({\ frac {x-\mu _{x}}{\sigma _{x}}}\right)*\left({\frac {y-\mu _{y}}{\sigma _{y}}}\ droite)}
    • Vous remarquerez peut-être de légères variations dans la formule, ici ou dans d'autres textes. Par exemple, certains utiliseront la notation grecque avec rho et sigma, tandis que d'autres utiliseront r et s. Certains textes peuvent montrer des formules légèrement différentes; mais ils seront mathématiquement équivalents à celui-ci.
  7. 7
    Trouvez le coefficient de corrélation. Vous disposez maintenant des moyennes et des écarts types de vos variables, vous pouvez donc utiliser la formule du coefficient de corrélation. N'oubliez pas que n représente le nombre de valeurs que vous avez. Vous avez déjà calculé les autres informations pertinentes dans les étapes ci-dessus.
    • En utilisant les données de l'échantillon, vous entreriez vos données dans la formule du coefficient de corrélation et calculeriez comme suit:
    • ρ=(1n−1)Σ(x−μxσx)∗(y−μyσy){\displaystyle \rho =\left({\frac {1}{n-1}}\right)\Sigma \left({\ frac {x-\mu _{x}}{\sigma _{x}}}\right)*\left({\frac {y-\mu _{y}}{\sigma _{y}}}\ droite)}
    • ρ=(13)∗{\displaystyle \rho =\left({\frac {1}{3}}\right)*} [ (1−31,83)∗(1−42,58)+(2− 31,83)∗(3−42,58){\displaystyle \left({\frac {1-3}{1,83}}\right)*\left({\frac {1-4}{2, 58}}\right)+\left({\frac {2-3}{1,83}}\right)*\left({\frac {3-4}{2,58}}\right)}
      + (4−31,83)∗(5−42,58)+(5−31,83)∗(7−42,58){\displaystyle +\gauche({\frac {4-3}{1,83 }}\droite)*\gauche({\frac {5-4}{2,58}}\droite)+\gauche({\frac {5-3}{1,83}}\droite)*\gauche ({\frac {7-4}{2,58}}\right)} ]
    • ρ=(13)∗(6+1+1+64 721){\displaystyle \rho =\left({\frac {1}{3}}\right)*\left({\frac {6+1+1 +6}{4,721}}\droit)}
    • ρ=(13)∗2,965{\displaystyle \rho =\left({\frac {1}{3}}\right)*2,965}
    • ρ=(2,9653){\displaystyle \rho =\left({\frac {2,965}{3}}\right)}
    • ρ=0,988{\displaystyle \rho =0,988}
  8. 8
    Interprétez votre résultat. Pour cet ensemble de données, le coefficient de corrélation est de 0,988. Ce nombre vous dit deux choses sur les données. Regardez le signe du nombre et la taille du nombre.
    • Parce que le coefficient de corrélation est positif, vous pouvez dire qu'il existe une corrélation positive entre les données x et les données y. Cela signifie que lorsque les valeurs x augmentent, vous vous attendez à ce que les valeurs y augmentent également.
    • Comme le coefficient de corrélation est très proche de +1, les données x et y sont très étroitement liées. Si vous deviez représenter graphiquement ces points, vous verriez qu'ils forment une très bonne approximation d'une ligne droite.
Le coefficient de corrélation est un nombre unique que vous pouvez calculer pour deux ensembles de points
Le coefficient de corrélation est un nombre unique que vous pouvez calculer pour deux ensembles de points de données.

Méthode 2 sur 4: utiliser des calculateurs de corrélation en ligne

  1. 1
    Recherchez sur Internet des calculateurs de corrélation. La mesure de la corrélation est un calcul assez standard pour les statisticiens. Le calcul peut devenir très fastidieux s'il est fait à la main pour de grands ensembles de données. En conséquence, de nombreuses sources ont mis en ligne des calculateurs de corrélation. Utilisez n'importe quel moteur de recherche et entrez le terme de recherche «calculateur de corrélation».
  2. 2
    Entrez vos données. Lisez attentivement les instructions sur le site Web afin de saisir correctement vos données. Il est important que vos paires de données soient conservées dans l'ordre, sinon vous générerez un résultat de corrélation incorrect. Différents sites Web utilisent différents formats pour saisir des données.
  3. 3
    Calculez vos résultats. Ces sites de calcul sont populaires car, après avoir entré vos données, vous n'avez généralement qu'à cliquer sur le bouton qui dit "Calculer", et le résultat apparaîtra automatiquement.
Parce que le coefficient de corrélation est positif
Parce que le coefficient de corrélation est positif, vous pouvez dire qu'il existe une corrélation positive entre les données x et les données y.

Méthode 3 sur 4: utiliser des calculatrices graphiques

  1. 1
    Entrez vos données. À l'aide d'une calculatrice graphique portable, entrez dans la fonction de statistiques de votre calculatrice, puis sélectionnez la commande «Modifier».
    • Chaque calculatrice aura des commandes de touches légèrement différentes. Cet article donnera les instructions spécifiques pour la Texas Instruments TI-86.
    • Entrez dans la fonction Stat en appuyant sur [2nd]-Stat (au-dessus de la touche +), puis appuyez sur F2-Edit.
  2. 2
    Effacez toutes les anciennes données stockées. La plupart des calculatrices conserveront les données statistiques jusqu'à ce qu'elles soient effacées. Pour vous assurer de ne pas confondre les anciennes données avec les nouvelles données, vous devez d'abord effacer toutes les informations précédemment stockées.
    • Utilisez les touches fléchées pour déplacer le curseur pour mettre en surbrillance l'en-tête "xStat". Appuyez ensuite sur Effacer et Entrée. Cela devrait effacer toutes les valeurs de la colonne xStat.
    • Utilisez les touches fléchées pour mettre en surbrillance l'en-tête yStat. Appuyez sur Effacer et Entrée pour vider également les données de cette colonne.
  3. 3
    Entrez vos valeurs de données. A l'aide des touches fléchées, déplacez le curseur sur le premier espace sous l'en-tête xStat. Tapez votre première valeur de données, puis appuyez sur Entrée. Vous devriez voir l'espace en bas de l'écran afficher "xStat(1)=_", avec votre valeur remplissant l'espace vide. Lorsque vous appuyez sur Entrée, les données remplissent le tableau, le curseur passe à la ligne suivante et la ligne en bas de l'écran doit maintenant indiquer "xStat(2)=_".
    • Continuez à saisir toutes les valeurs de données x.
    • Lorsque vous avez terminé les données x, utilisez les touches fléchées pour passer à la colonne yStat et entrez les valeurs des données y.
    • Une fois toutes les données saisies, appuyez sur Quitter pour effacer l'écran et quitter le menu Stat.
  4. 4
    Calculer les statistiques de régression linéaire. Le coefficient de corrélation est une mesure de la mesure dans laquelle les données se rapprochent d'une ligne droite. Une calculatrice graphique statistique peut très rapidement calculer la ligne la mieux ajustée et le coefficient de corrélation.
    • Entrez dans la fonction Stat, puis appuyez sur le bouton Calc. Sur la TI-86, c'est [2nd][Stat][F1].
    • Choisissez les calculs de régression linéaire. Sur la TI-86, c'est [F3], qui est étiqueté "LinR". L'écran graphique devrait alors afficher la ligne "LinR _", avec un curseur clignotant.
    • Vous devez maintenant saisir les noms des deux variables que vous souhaitez calculer. Ce sont xStat et yStat.
      • Sur la TI-86, sélectionnez la liste des noms en appuyant sur [2nd][List][F3].
      • La ligne du bas de votre écran devrait maintenant afficher les variables disponibles. Choisissez [xStat] (c'est probablement le bouton F1 ou F2), puis entrez une virgule, puis [yStat].
      • Appuyez sur Entrée pour calculer les données.
  5. 5
    Interprétez vos résultats. Lorsque vous appuyez sur Entrée, la calculatrice calcule instantanément les informations suivantes pour les données que vous avez saisies:
    • y=a+bx{\displaystyle y=a+bx} : C'est la formule générale pour une ligne droite. Cependant, au lieu du "y=mx+b" familier, cela est présenté dans l'ordre inverse.
    • a={\style d'affichage a=} . Il s'agit de la valeur de l'ordonnée à l'origine de la ligne la mieux ajustée.
    • b={\style d'affichage b=} . C'est la pente de la droite la mieux ajustée.
    • corr={\displaystyle {\text{corr}}=} . C'est le coefficient de corrélation.
    • n={\style d'affichage n=} . Il s'agit du nombre de paires de données utilisées dans le calcul.

Méthode 4 sur 4: revoir les fondamentaux

  1. 1
    Comprendre le concept de corrélation. La corrélation fait référence à la relation statistique entre deux quantités. Le coefficient de corrélation est un nombre unique que vous pouvez calculer pour deux ensembles de points de données. Le nombre sera toujours compris entre -1 et +1, et il indique à quel point les deux ensembles de données ont tendance à être étroitement liés.
    • Par exemple, si vous deviez mesurer la taille et l'âge des enfants jusqu'à l'âge d'environ 12 ans, vous vous attendriez à trouver une forte corrélation positive. En vieillissant, les enfants ont tendance à grandir.
    • Un exemple de corrélation négative serait des données comparant le temps passé par une personne à pratiquer des coups de golf et le score de golf de cette personne. Au fur et à mesure que la pratique augmente, le score devrait diminuer.
    • Enfin, vous vous attendriez à très peu de corrélation, positive ou négative, entre la pointure d'une personne, par exemple, et les scores SAT.
  2. 2
    Savoir trouver un moyen. La moyenne arithmétique, ou «moyenne», d'un ensemble de données est calculée en additionnant toutes les valeurs des données, puis en divisant par le nombre de valeurs dans l'ensemble. Lorsque vous aurez trouvé le coefficient de corrélation de vos données, vous devrez calculer la moyenne de chaque ensemble de données.
    • La moyenne d'une variable est indiquée par la variable avec une ligne horizontale au-dessus. Ceci est souvent appelé «barre x» ou «barre y» pour les ensembles de données x et y. Alternativement, la moyenne peut être signifiée par la lettre grecque minuscule mu,. Pour indiquer la moyenne des points de données x, par exemple, vous pouvez écrire μ x ou μ(x).
    • Par exemple, si vous disposez d'un ensemble de points de données x (12,56,910), la moyenne de ces données est calculée comme suit:
      • μx=(1+2+5+6+9+10)/6{\displaystyle \mu _{x}=(1+2+5+6+9+10)/6}
      • μx=30,5{\displaystyle \mu _{x}=30,5}
      • μx=5,5{\displaystyle \mu _{x}=5,5}
  3. 3
    Notez l'importance de l'écart type. Dans les statistiques, l'écart type mesure la variation, montrant comment les nombres sont répartis par rapport à la moyenne. Un groupe de nombres avec un faible écart-type est collecté assez étroitement. Un groupe de nombres avec un écart type élevé sont largement dispersés.
    • Symboliquement, l'écart type est exprimé soit par la lettre minuscule s, soit par la lettre grecque minuscule sigma,. Ainsi, l'écart type des données x s'écrit soit s x soit σ x.
  4. 4
    Reconnaître la notation de sommation. L'opérateur de sommation est l'un des opérateurs les plus courants en mathématiques, indiquant une somme de valeurs. Il est représenté par la lettre grecque majuscule, sigma ou.
    • Par exemple, si vous avez un ensemble de points de données x (12,56,910), alors ∑x signifie:
      • 1+2+5+6+9+10 = 33.
Un coefficient de corrélation inférieur à 0,5 (encore positif ou négatif) représente un faible
En général, un coefficient de corrélation supérieur à 0,8 (soit positif, soit négatif) représente une forte corrélation; un coefficient de corrélation inférieur à 0,5 (encore positif ou négatif) représente un faible.

Conseils

  • Le coefficient de corrélation est parfois appelé «coefficient de corrélation produit-moment de Pearson» en l'honneur de son développeur, Karl Pearson.
  • En général, un coefficient de corrélation supérieur à 0,8 (soit positif, soit négatif) représente une forte corrélation; un coefficient de corrélation inférieur à 0,5 (encore positif ou négatif) représente un faible.

Mises en garde

  • La corrélation montre que les deux ensembles de données sont liés d'une manière ou d'une autre. Attention toutefois à ne pas interpréter cela comme un lien de causalité. Par exemple, si vous comparez les tailles de chaussures des gens et leur taille, vous trouverez probablement une forte corrélation positive. Les personnes de grande taille ont généralement des pieds plus larges. Cependant, cela ne signifie pas que grandir fait grandir vos pieds ou que les grands pieds vous font grandir. Ils arrivent juste ensemble.

Questions et réponses

  • Vous obtenez les informations suivantes sur deux variables x et y: Moyenne(x)= 315 et Moyenne(y)=1103. Variance(x)=59 et Variance(y)=156. Covariance(x,y)= -54. Calculez le coefficient de corrélation entre X et Y. Calculez votre réponse à deux décimales.
    Cette question soulève un niveau de statistiques plus élevé que celui abordé dans cet article. Il est possible de calculer le coefficient de corrélation à partir des moyennes, de la variance et de la covariance, sans avoir réellement les points de données d'origine pour commencer. La relation est Coefficient de corrélation = Covariance / ((Std. Dev. (x) * (Std. Dev. (y)). L'écart type est la racine carrée de la variance. Donc, avec vos données, cela se simplifie en Corr. Coeff.=-54/sqrt(59)sqrt(156) = -0,56.
Questions sans réponse
  • Quelle est la différence entre un coefficient et un gradient de corrélation?

En parallèle
  1. Comment calculer les cotes du loto?
  2. Comment calculer les scores Z?
  3. Comment calculer le quartile supérieur?
  4. Comment calculer l'âge moyen?
  5. Comment calculer l'inflation?
  6. Comment calculer les probabilités de plusieurs dés?
FacebookTwitterInstagramPinterestLinkedInGoogle+YoutubeRedditDribbbleBehanceGithubCodePenWhatsappEmail