Coefficient de corrélation avec R

Un fichier de données

Travaillons sur une enquête de satisfactions dans un hôpital, récupéré lors d’un cours de FUN (France Unité Numérique). Les fichiers sont disponibles ici.

Par la suite, ces données seront stockées dans la variable satis .

Dans ces données comme souvent, les observations sont en lignes et les variables en colonnes.

Quelques repère

– Si le coefficient de corrélation $r$ est nul, on dit que les deux paramètres sont indépendants.
– Si $r>0$, ils varient dans le même sens.
– Si $r<0,4$, la corrélation est faible.
– Dans le cas d’un est, il faut que $p < 5~\%$.

Un exemple

Cherchons s’il y a une corrélation entre le score de relation et l’âge des personnes.

Des graphiques

Commençons par tracer le nuage de points.

plot(satis$score.relation,satis$age)

plot_01.png

Pour éviter les superpositions, on peut utiliser la fonctions jitter.

plot(jitter(satis$score.relation),jitter(satis$age))

plot_02.png

Le coefficient de corrélation

On peut obtenir ce coefficient uniquement par la commande cor :

cor(satis$score.relation,satis$age,use="complete.obs")


[1] 0.09596955

Mais il est aussi simple de faire le test complet avec la méthode de Pearson :

cor.test(satis$score.relation,satis$age,use="complete.obs")


Pearson's product-moment correlation


data: satis$score.relation and satis$age
t = 1.796, df = 347, p-value = 0.07336
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.009102243 0.198945290
sample estimates:
cor
0.09596955

On y voit que $r \approx 0,1$, ce qui est très faible.

De plus, $p \approx 7~\% $, ce qui est trop élevé.

On ne peut pas affirmé qu’une corrélation existe entre le score de relation et l’âge.


Niveau supérieur : Les tests avec R