Un fichier de données
Travaillons sur une enquête de satisfactions dans un hôpital, récupéré lors d’un cours de FUN (France Unité Numérique). Les fichiers sont disponibles ici.
Par la suite, ces données seront stockées dans la variable satis .
Dans ces données comme souvent, les observations sont en lignes et les variables en colonnes.
Quelques repère
– Si le coefficient de corrélation $r$ est nul, on dit que les deux paramètres sont indépendants.
– Si $r>0$, ils varient dans le même sens.
– Si $r<0,4$, la corrélation est faible.
– Dans le cas d’un est, il faut que $p < 5~\%$.
Un exemple
Cherchons s’il y a une corrélation entre le score de relation et l’âge des personnes.
Des graphiques
Commençons par tracer le nuage de points.
plot(satis$score.relation,satis$age)
Pour éviter les superpositions, on peut utiliser la fonctions jitter.
plot(jitter(satis$score.relation),jitter(satis$age))
Le coefficient de corrélation
On peut obtenir ce coefficient uniquement par la commande cor :
cor(satis$score.relation,satis$age,use="complete.obs")
[1] 0.09596955
Mais il est aussi simple de faire le test complet avec la méthode de Pearson :
cor.test(satis$score.relation,satis$age,use="complete.obs")
Pearson's product-moment correlation
data: satis$score.relation and satis$age
t = 1.796, df = 347, p-value = 0.07336
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.009102243 0.198945290
sample estimates:
cor
0.09596955
On y voit que $r \approx 0,1$, ce qui est très faible.
De plus, $p \approx 7~\% $, ce qui est trop élevé.
On ne peut pas affirmé qu’une corrélation existe entre le score de relation et l’âge.