Intervalle de confiance avec R

Un fichier de données

Travaillons sur une enquête de satisfactions dans un hôpital, récupéré lors d’un cours de FUN (France Unité Numérique). Les fichiers sont disponibles ici.

Par la suite, ces données seront stockées dans la variable satis .

Dans ces données comme souvent, les observations sont en lignes et les variables en colonnes.

On dispose d’un échantillon

Il faut deux conditions :
– le caractère étudié suit une loi normale ;
– l’échantillon est aléatoire.

Pour un échantillon donné, il n’y a pas de fonction R donnant l’intervalle de confiance au seuil de 95%.

On doit donc calculer les deux bornes de l’intervalle :

\left[\overline{x} -1,96 \times \frac{\sigma}{\sqrt{n}}~;~\overline{x} + 1,96 \times \frac{\sigma}{\sqrt{n}}\right]

où $\overline{x}$ est la moyenne et $\sigma$ l’écart-type de l’échantillon de taille $n$.

Prenons l’exemple des âges.

library(prettyR)
describe(satis$age)

Numeric mean median var sd valid.n x 58.21 60 317.2 17.81 528

58.21-1.96*17.81/sqrt(528)

[1] 56.69084

58.21+1.96*17.81/sqrt(528)

[1] 59.72916

On utilise la loi binomiale

La librairie binom propose une dizaine de méthode pour calculer l’intervalle de confiance au seuil de 95% grâce à la fonction binom.confint. On pourra choisir la méthode « exact ».

Prenons comme exemple les 269 personnes sur les 405 qui recommandent l’hôpital.

library(binom)
binom.confint(269,405,method="exact")

method x n mean lower upper 1 exact 269 405 0.6641975 0.6158948 0.7100798