Pour les utilisateurs de R, on commence par charger un certain nombre de modules intéressants.
Nous sommes prêts à travailler sur ce jeu de données, et, pour ce qui nous intéresse ici, à analyser les données continues qu’il renferme.
Comparaison de moyennes
T test : adéquation à une norme
On observe des différences de poids \((X_i)\) chez nos individus entre le début et la fin de l’expérience. Est-ce que la différence de poids moyenne est différente de zéro ?
On souhaite réaliser le test d’hypothèse suivant :
- H0 : la moyenne des \((X_i)\) vaut zero.
- H1 : la moyenne des \((X_i)\) est différente de zéro.
Conditions d’application :
- les variables aléatoires sont indépendantes et de même loi.
- soit les variables aléatoires sont distribuées normalement, soit l’échantillon est “grand”.
On commence toujours par représenter nos données.
plot_diff_weight <- d %>% ggplot(aes(x=diff_weight)) +
geom_histogram(alpha=0.7, position="identity", bins=20) +
theme_bw() +
ylab("effectif") +
xlab("différence de poids à 6 mois")
plot_diff_weight

Ici les conditions d’application semblent respectées.
Un résultat théorique certifie qu’une certaine statistique de test \(T\) calculée à partir :
- de l’effectif,
- de la moyenne empirique dans chaque groupe,
- et de la variance empirique dans chaque groupe,
est distribuée suivant une loi de Student avec un certain nombre de “degrés de liberté”.
Il s’agit donc de calculer la valeur observée de cette statistique de test sur notre échantillon, et de la comparer aux quantiles de la loi théorique.
La fonction pour faire ça en R est la suivante :
##
## One Sample t-test
##
## data: d$diff_weight
## t = -11.129, df = 499, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## -1.509690 -1.056617
## sample estimates:
## mean of x
## -1.283153
L’output de la fonction nous rappelle :
- en première ligne l’échantillon sur lequel on a appliqué le test,
- en seconde ligne on récupère la valeur observée de la statistique de test, ainsi que le nombre de “degrés de liberté” de la loi théorique.
- en fin de seconde ligne, super importante : la p-value !!! Probabilité que la valeur de la statistique soit au moins aussi extrême qu’observée, sous H0.
- troisième ligne : un rappel de l’hypothèse alternative du test (modifiable avec l’argument
alternative
).
- un intervalle de confiance à 95% de la moyenne (bornes modifiables via l’argument
conf.level
).
- tout à la fin, l’estimation ponctuelle de la moyenne.
Que concluons-nous ?
T test : comparaison de 2 moyennes
On observe des valeurs \((X_{i,j})\) de nos individus \(i\) dans deux groupes \(j=1\) et \(j=2\). Ici les deux groupes correspondent au control vs. treatment, et les observations correspondent à une différence de poids entre le début et la fin de l’expérience.
Est-ce que la différence de poids moyenne est différente dans les deux groupes ?
On souhaite réaliser le test d’hypothèse suivant :
- H0 : la moyenne des \((X_{i,1})\) est identique à celle des \((X_{i,2})\).
- H1 : les deux moyennes sont différentes.
Conditions d’application :
- les variables aléatoires sont indépendantes et de même loi.
- soit les variables aléatoires sont distribuées normalement, soit l’échantillon est “grand”.
On commence toujours par représenter nos données et quantités d’intérêt.
m <- d %>% group_by(group) %>% summarise(mean=mean(diff_weight)) %>% select(mean)
plot_diff_weight_by_group <- d %>% ggplot(aes(x=diff_weight, fill=group)) +
geom_histogram(alpha=0.5, position="identity", bins=20) +
theme_bw() +
ylab("effectif") +
xlab("différence de poids à 6 mois") +
scale_fill_manual(values=c(bleuclair, rose)) +
geom_vline(xintercept = c(m$mean[1], m$mean[2]), color=c(bleuclair, rose))
plot_diff_weight_by_group

Ici les conditions d’application semblent respectées.
Un résultat théorique certifie qu’une statistique de test calculée à partir de l’effectif, des moyennes empiriques des deux groupes et de la variance empirique des deux groupes, est distribuée suivant une loi de Student avec un certain nombre de “degrés de liberté”.
Il s’agit donc de calculer la valeur observée de cette statistique de test sur notre échantillon, et de la comparer aux quantiles de la loi théorique.
La fonction pour faire ça en R est la suivante :
t.test(diff_weight ~ group, data=d)
##
## Welch Two Sample t-test
##
## data: diff_weight by group
## t = 1.9787, df = 489.92, p-value = 0.04841
## alternative hypothesis: true difference in means between group control and group treatment is not equal to 0
## 95 percent confidence interval:
## 0.003200646 0.906752183
## sample estimates:
## mean in group control mean in group treatment
## -1.055665 -1.510642
Ca se lit de façon très similaire à ce qu’on avait précédemment, les différences étant :
- L’IC à 95% correspond à celui de la différence des deux moyennes.
- Les estimations ponctuelles correspondent aux deux moyennes.
Que concluons-nous ?
ANOVA : comparaison de n moyennes
On souhaite plus précisément tester ici la différence d’au moins une moyenne parmi plusieurs groupes.
On dispose cette fois d’observations de la même quantité $(X_{i,j}) chez l’individu \(i\) dans le groupe \(j\), dans un nombre de groupes potentiellement supérieur à 2. Est-ce que la moyenne d’au moins un groupe diffère des autres groupes ?
Par exemple, ici, la différence de poids moyenne change-t-elle dans les trois classes d’âge ? (< 40, 40-60, > 60)
On teste formellement :
- H0 : les moyennes des \((X_{i,1})\), des \((X_{i,2})\) et des \((X_{i,3})\) sont identiques.
- H1 : au moins une des moyennes diffère.
Conditions d’application :
- les variables aléatoires sont indépendantes et suivent une loi normale.
- il y a égalité de variance entre les différents groupes.
Une fois n’est pas coutûme, commençons par représenter les données :
m <- d %>% group_by(age_group) %>% summarise(mean=mean(diff_weight)) %>% select(mean)
plot_diff_weight_by_age_group <- d %>% ggplot(aes(x=diff_weight, fill=as.factor(age_group))) +
geom_histogram(alpha=0.5, position="identity", bins=20) +
theme_bw() +
ylab("effectif") +
xlab("différence de poids à 6 mois") +
scale_fill_manual(values=c(bleufonce, bleuclair, rose)) +
geom_vline(xintercept = c(m$mean[1], m$mean[2], m$mean[3]), color=c(bleufonce, bleuclair, rose))
plot_diff_weight_by_age_group

ggsave("../../Figures/illu_diabete_diff_weight_age_group.pdf", plot=plot_diff_weight_by_age_group, width=12, height=5)
Les conditions d’application semblent respectées (au moins graphiquement).
Un résultat théorique certifie cette fois qu’une certaine statistique de test, calculée à partir :
- des effectifs des différents groupes
- et des variances intra-groupes / inter-groupes,
est distribuée suivant une loi de Fisher avec un certain nombre de “degrés de liberté”.
Il s’agit donc de calculer la valeur observée de cette statistique de test sur notre échantillon, et de la comparer aux quantiles de la loi théorique.
La fonction pour faire ça en R est la suivante :
res_aov <- aov(diff_weight ~ age_group, data=d)
summary(res_aov)
## Df Sum Sq Mean Sq F value Pr(>F)
## age_group 2 4 2.099 0.315 0.73
## Residuals 497 3313 6.666
Les deux points les plus intéressants de l’output sont :
- la “F value” qui est la valeur de la statistique de test,
- et la p-value : la probabilité sous H0 d’obtenir une statistique de test au moins aussi extrême qu’observée.
Que concluons-nous ?
Finissons par un petit test, permettant de se convaincre qu’une ANOVA avec deux groupes correspond à un T test.
res_aov_2 <- aov(diff_weight ~ group, data=d)
summary(res_aov_2)
## Df Sum Sq Mean Sq F value Pr(>F)
## group 1 26 25.875 3.915 0.0484 *
## Residuals 498 3291 6.609
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
t.test(diff_weight ~ group, data=d)
##
## Welch Two Sample t-test
##
## data: diff_weight by group
## t = 1.9787, df = 489.92, p-value = 0.04841
## alternative hypothesis: true difference in means between group control and group treatment is not equal to 0
## 95 percent confidence interval:
## 0.003200646 0.906752183
## sample estimates:
## mean in group control mean in group treatment
## -1.055665 -1.510642
Test de Wilcoxon
L’alter-ego non-paramétrique du T test est le test de Wilcoxon (aussi appelé Mann-Whitney ou Wilcoxon-Mann-Whitney).
- Avantage : conditions d’application toujours remplies.
- Inconvénient : moins puissant qu’un T test.
Dans notre cas, étant donné le grand effectif de notre essai clinique, le T test était un choix très approprié. On peut cependant se convaincre du fonctionnement d’un test de Wilcoxon en l’essayant :
wilcox.test(diff_weight ~ group, data=d)
##
## Wilcoxon rank sum test with continuity correction
##
## data: diff_weight by group
## W = 34330, p-value = 0.0566
## alternative hypothesis: true location shift is not equal to 0
Test de Kruskal-Wallis
De même, testons l’utilisation de l’alter-ego de l’ANOVA en version non-paramétrique :
kruskal.test(diff_weight ~ age_group, data=d)
##
## Kruskal-Wallis rank sum test
##
## data: diff_weight by age_group
## Kruskal-Wallis chi-squared = 0.60933, df = 2, p-value = 0.7374
On se convainc aussi facilement qu’un test de Kruskal-Wallis avec une variable à deux modalités revient à faire un test de Wilcoxon :
kruskal.test(diff_weight ~ group, data=d)
##
## Kruskal-Wallis rank sum test
##
## data: diff_weight by group
## Kruskal-Wallis chi-squared = 3.6355, df = 1, p-value = 0.05656
Régression linéaire univariée
Une droite de régression commune
On dispose cette fois d’observations d’une variables \((Y_i)\) d’intérêt, par exemple encore une fois la différence de poids. Et d’une autre variable quantitative \((X_i)\) correspondant à quelque chose qui pourrait être corrélé à nos \((Y_i)\), par exemple ici le temps pendant lequel le patient a strictement observé son traitement (compliance).
Est-ce que le gain de poids dépend de la compliance, dans le groupe traité ?
Le coefficient de corrélation \(\rho\) correspond à la covariance des deux quantités normalisée par les écarts-types des deux quantités. Il est compris entre -1 et 1 et renseigne sur la dispersion des données en 2D. En cas de corrélation linéaire parfaite, il vaut 1 ou -1.
Formellement on peut tester, avec le test de Bravais-Pearson :
- H0 : \(\rho = 0\),
- H1 : \(\rho \neq 0\).
Conditions d’application : les \((Y_i, X_i)\) doivent être appariées et distribuées normalement.
Commençons par représenter les données, avec une droite de régression partagé par tous les points :
plot_diff_weight_vs_compliance <- d %>%
ggplot(aes(y=diff_weight, x=t_compliance)) +
geom_point() +
geom_smooth(method="lm", se=F, formula="y ~ x", col=bleufonce) +
theme_bw() +
xlab("t_compliance") +
ylab("différence de poids à 6 mois")
plot_diff_weight_vs_compliance

On peut à présent effectuer un test de corrélation en prenant tous les points ensemble :
cor.test(d$diff_weight, d$t_compliance)
##
## Pearson's product-moment correlation
##
## data: d$diff_weight and d$t_compliance
## t = -3.5459, df = 498, p-value = 0.0004283
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.2412955 -0.0702008
## sample estimates:
## cor
## -0.1569254
Que concluons-nous ?
Une droite dans chaque groupe
Deuxième essai plus intéressant : regarder l’influence de t_compliance
séparément dans les deux bras de l’essai clinique. On commence par observer les données :
plot_diff_weight_vs_compliance_2 <- d %>%
ggplot(aes(y=diff_weight, x=t_compliance, color = group)) +
geom_point() +
geom_smooth(method="lm", se=F, formula="y ~ x") +
theme_bw() +
xlab("t_compliance") +
ylab("différence de poids à 6 mois") +
scale_color_manual(values=c(bleuclair, rose))
plot_diff_weight_vs_compliance_2

ggsave("../../Figures/illu_diabete_diff_weight_reglin.pdf", plot=plot_diff_weight_vs_compliance_2, width=12, height=5)
Puis un test de corrélation en prenant uniquement le groupe control
:
d_control <- d %>% filter(group == "control")
cor.test(d_control$diff_weight, d_control$t_compliance)
##
## Pearson's product-moment correlation
##
## data: d_control$diff_weight and d_control$t_compliance
## t = -0.58815, df = 248, p-value = 0.557
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.1606448 0.0871489
## sample estimates:
## cor
## -0.03732163
Et enfin, le même test de corrélation en prenant uniquement le groupe treatment
:
d_treatment <- d %>% filter(group == "treatment")
cor.test(d_treatment$diff_weight, d_treatment$t_compliance)
##
## Pearson's product-moment correlation
##
## data: d_treatment$diff_weight and d_treatment$t_compliance
## t = -4.3818, df = 248, p-value = 1.739e-05
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.3795073 -0.1489484
## sample estimates:
## cor
## -0.2680618
Que concluons-nous ?
Le modèle linéaire
Description
Le modèle linéaire présente l’intérêt d’unifier tous ces tests dans un unique framework.
Il consiste à modéliser une variable de réponse \(Y_i\) chez l’individu \(i\) comme une fonction linéaire de nos variables explicatrices \(X_{i,j}\), à laquelle on rajoute un bruit Gaussien centré. Une fonction linéaire n’est rien de plus qu’une somme pondérée de nos variables \(X_{i,j}\), soit :
\[
Y_i = a_1 X_{i,1} + a_2 X_{i,2} + ... + a_J X_{i,J} + \epsilon_i, ~~~\text{ avec } \epsilon_i \sim \mathcal{N}(0, \sigma^2)
\]
On suppose que tous les \((Y_i)\) sont indépendantes et suivent la même loi. Le but du jeu, pour le statisticien, consiste à fitter les valeurs des coefficients \(a_j\) grâce aux observations.
Bonne nouvelle : la syntaxe de R pour fitter un modèle linéaire est assez rapide et intuitive.
Un simple intercept
Premier cas simple : on aimerait modéliser la différence de poids comme étant uniquement une moyenne + un petit bruit Gaussien, et calculer cette moyenne comme on l’avait fait lors du premier test de Student.
res_lm_1 <- lm(formula="diff_weight ~ 1", data=d)
summary(res_lm_1)
##
## Call:
## lm(formula = "diff_weight ~ 1", data = d)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8.9290 -1.7337 0.1193 1.7881 7.7890
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.2832 0.1153 -11.13 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.578 on 499 degrees of freedom
Vérifier qu’on retombe bien sur la même chose que précédemment.
Un effet de variable discrète
Deuxième cas simple : on aimerait modéliser la différence de poids comme étant la somme d’un coefficient particulier chez les individus du groupe “control” et un autre coefficient chez les individus du groupe “treatment”. Soit exactement ce qu’on avait fait avec un test de Student comparant les deux moyennes.
Il se trouve que R, lorsqu’on lui donne à manger une variable à plusieurs modalités, va automatiquement la “scinder” en sous-variables indicatrices de chaque modalité. La syntaxe reste donc très simple :
# première version avec moyenne commune aux deux groupes
# et un petit ajout pour le groupe traitement
res_lm_group <- lm(formula="diff_weight ~ group", data=d)
summary(res_lm_group)
##
## Call:
## lm(formula = "diff_weight ~ group", data = d)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8.7016 -1.6078 0.1307 1.7151 8.0165
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.0557 0.1626 -6.493 2.04e-10 ***
## grouptreatment -0.4550 0.2299 -1.979 0.0484 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.571 on 498 degrees of freedom
## Multiple R-squared: 0.007801, Adjusted R-squared: 0.005809
## F-statistic: 3.915 on 1 and 498 DF, p-value: 0.0484
# deuxième version avec moyenne dans chaque groupe
res_lm_group_2 <- lm(formula="diff_weight ~ 0 + group", data=d)
summary(res_lm_group_2)
##
## Call:
## lm(formula = "diff_weight ~ 0 + group", data = d)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8.7016 -1.6078 0.1307 1.7151 8.0165
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## groupcontrol -1.0557 0.1626 -6.493 2.04e-10 ***
## grouptreatment -1.5106 0.1626 -9.291 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.571 on 498 degrees of freedom
## Multiple R-squared: 0.2051, Adjusted R-squared: 0.2019
## F-statistic: 64.24 on 2 and 498 DF, p-value: < 2.2e-16
On a donc exactement le même modèle sous-jacent, avec des estimations de paramètres identiques. Cependant, ici, les p-value indiquées correspondent à un test d’adéquation du paramètre à 0. Si on souhaite comparer les deux moyennes et retomber sur le même résultat qu’au début du document, il faut donc passer par la première version et regarder le test d’adéquation du paramètre à 0.
Troisième possibilité, notre différence de poids dépend d’une variable prenant 3 modalités ou plus (comme on avait proposé lors de la réalisation du test ANOVA ci-dessus). La même syntaxe fonctionne toujours aussi bien :
res_lm_group_3 <- lm(formula="diff_weight ~ 0 + age_group", data=d)
summary(res_lm_group_3)
##
## Call:
## lm(formula = "diff_weight ~ 0 + age_group", data = d)
##
## Residuals:
## Min 1Q Median 3Q Max
## -9.0199 -1.7538 0.0998 1.7780 7.6981
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## age_groupentre 40 et 60 -1.1923 0.2080 -5.731 1.73e-08 ***
## age_groupmoins de 40 -1.3993 0.1883 -7.432 4.72e-13 ***
## age_groupplus de 60 -1.2335 0.2054 -6.005 3.69e-09 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.582 on 497 degrees of freedom
## Multiple R-squared: 0.1999, Adjusted R-squared: 0.195
## F-statistic: 41.38 on 3 and 497 DF, p-value: < 2.2e-16
L’output standard du modèle linéaire ne nous calcule des p-values que pour les tests d’adéquation de chaque paramètre à 0. Bien que l’ANOVA soit effectivement un test réalisé au sein du même framework de modèle linéaire, la p-value associée n’est récupérable, en pratique avec R, que via la fonction aov
vue précédemment.
Un effet de variable continue
Dernier exemple similaire à ce qu’on avait fait précédemment : expliquer notre variable de réponse “différence de poids” par le “temps de compliance”.
res_lm_compliance <- lm(formula="diff_weight ~ t_compliance", data=d)
summary(res_lm_compliance)
##
## Call:
## lm(formula = "diff_weight ~ t_compliance", data = d)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8.1795 -1.6306 0.0848 1.7868 7.6839
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.855739 0.165900 -5.158 3.61e-07 ***
## t_compliance -0.020148 0.005682 -3.546 0.000428 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.549 on 498 degrees of freedom
## Multiple R-squared: 0.02463, Adjusted R-squared: 0.02267
## F-statistic: 12.57 on 1 and 498 DF, p-value: 0.0004283
Vers plus de complexification
Et si on souhaite un effet additif du groupe et du temps de compliance :
res_lm_compliance_group <- lm(formula="diff_weight ~ 0 + group + t_compliance", data=d)
summary(res_lm_compliance_group)
##
## Call:
## lm(formula = "diff_weight ~ 0 + group + t_compliance", data = d)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8.4145 -1.6278 0.0921 1.7597 7.9167
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## groupcontrol -0.618262 0.201687 -3.065 0.002292 **
## grouptreatment -1.085678 0.199611 -5.439 8.42e-08 ***
## t_compliance -0.020325 0.005664 -3.588 0.000366 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.541 on 497 degrees of freedom
## Multiple R-squared: 0.2252, Adjusted R-squared: 0.2205
## F-statistic: 48.14 on 3 and 497 DF, p-value: < 2.2e-16
Ce n’est pas exactement ce qu’on avait fait tout à l’heure sur le graphe : on avait alors deux régressions linéaires, une dans chaque groupe. R possède encore une fois une syntaxe pratique pour ça :
res_lm_compliance_group_2 <- lm(formula="diff_weight ~ 0 + group * t_compliance", data=d)
summary(res_lm_compliance_group_2)
##
## Call:
## lm(formula = "diff_weight ~ 0 + group * t_compliance", data = d)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8.2949 -1.5933 0.1597 1.6771 7.8364
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## groupcontrol -0.960433 0.233093 -4.120 4.43e-05 ***
## grouptreatment -0.743698 0.231290 -3.215 0.00139 **
## t_compliance -0.004425 0.007897 -0.560 0.57549
## grouptreatment:t_compliance -0.032257 0.011248 -2.868 0.00431 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.522 on 496 degrees of freedom
## Multiple R-squared: 0.2378, Adjusted R-squared: 0.2317
## F-statistic: 38.69 on 4 and 496 DF, p-value: < 2.2e-16
On a introduit super facilement ce qu’on appelle des interactions entre nos variables. Le modèle linéaire, et la syntaxe de R, sont donc des outils de modélisation extrêmement puissants/versatiles. Ils demandent à bien réfléchir en amont à ce qu’on souhaite étudier pour éviter une trop grande multiplication de tests statistiques.
Quel serait selon vous le modèle linéaire le plus approprié pour diff_weight
?
Quel serait selon vous le modèle linéaire le plus approprié pour diff_steps
?
