Un fichier de données
Travaillons sur une enquête de satisfactions dans un hôpital, récupéré lors d’un cours de FUN (France Unité Numérique). Les fichiers sont disponibles ici.
Par la suite, ces données seront stockées dans la variable satis .
Dans ces données comme souvent, les observations sont en lignes et les variables en colonnes.
On dispose d’un échantillon
Il faut deux conditions :
– le caractère étudié suit une loi normale ;
– l’échantillon est aléatoire.
Pour un échantillon donné, il n’y a pas de fonction R donnant l’intervalle de confiance au seuil de 95%.
On doit donc calculer les deux bornes de l’intervalle :
\left[\overline{x} -1,96 \times \frac{\sigma}{\sqrt{n}}~;~\overline{x} + 1,96 \times \frac{\sigma}{\sqrt{n}}\right]où $\overline{x}$ est la moyenne et $\sigma$ l’écart-type de l’échantillon de taille $n$.
Prenons l’exemple des âges.
library(prettyR) describe(satis$age)
Numeric
mean median var sd valid.n
x 58.21 60 317.2 17.81 528
58.21-1.96*17.81/sqrt(528)
[1] 56.69084
58.21+1.96*17.81/sqrt(528)
[1] 59.72916
On utilise la loi binomiale
La librairie binom propose une dizaine de méthode pour calculer l’intervalle de confiance au seuil de 95% grâce à la fonction binom.confint. On pourra choisir la méthode « exact ».
Prenons comme exemple les 269 personnes sur les 405 qui recommandent l’hôpital.
library(binom) binom.confint(269,405,method="exact")
method x n mean lower upper
1 exact 269 405 0.6641975 0.6158948 0.7100798