Pour les utilisateurs de R, on commence par charger un certain nombre de modules intéressants.

# le package moderne standard pour manipuler ses données
library(tidyverse)

# quelques couleurs manuelles
bleufonce <- "#3d5468"
bleuclair <- "#5b7c98"
rose <- "#ff5555"

Puis on importe le dataset dans notre session de R :

d <- read.csv("etude_fictive_diabetes.csv")
head(d)
##   X id   group sex age height weight_t0 diabetes steps_t0 t_compliance
## 1 1  1 control   F  72   1.61     80.25       II     2642           32
## 2 2  2 control   M  71   1.81     79.66        I     1675           48
## 3 3  3 control   F  32   1.72     67.25       II     2698            8
## 4 4  4 control   M  76   1.74     73.59        I     2519            2
## 5 5  5 control   F  34   1.53     83.98        I     2764           12
## 6 6  6 control   F  70   1.71     69.14       II     2606           24
##     age_group      bmi bmi_group diff_weight diff_steps is_depressed
## 1  plus de 60 30.95945     obese  -3.6168091  -26.66633            1
## 2  plus de 60 24.31550    normal  -2.6491665  656.62903            1
## 3 moins de 40 22.73188    normal  -1.5288284   17.31293            0
## 4  plus de 60 24.30638    normal  -3.0515988 -589.42996            1
## 5 moins de 40 35.87509     obese   0.8933788  761.91017            1
## 6  plus de 60 23.64488    normal  -0.3074968  216.47307            1
##   feels_sleepy n_meals_glycemia_out_of_target weight_tf steps_tf
## 1      morning                             53  76.63319 2615.334
## 2      morning                             19  77.01083 2331.629
## 3      morning                              4  65.72117 2715.313
## 4      morning                             17  70.53840 1929.570
## 5    afternoon                            188  84.87338 3525.910
## 6       always                              9  68.83250 2822.473

Nous sommes prêts à travailler sur ce jeu de données, et, pour ce qui nous intéresse ici, à analyser les données continues qu’il renferme.

Comparaison de moyennes

T test : adéquation à une norme

On observe des différences de poids \((X_i)\) chez nos individus entre le début et la fin de l’expérience. Est-ce que la différence de poids moyenne est différente de zéro ?

On souhaite réaliser le test d’hypothèse suivant :

  • H0 : la moyenne des \((X_i)\) vaut zero.
  • H1 : la moyenne des \((X_i)\) est différente de zéro.

Conditions d’application :

  • les variables aléatoires sont indépendantes et de même loi.
  • soit les variables aléatoires sont distribuées normalement, soit l’échantillon est “grand”.

On commence toujours par représenter nos données.

plot_diff_weight <- d %>% ggplot(aes(x=diff_weight)) +
    geom_histogram(alpha=0.7, position="identity", bins=20) +
    theme_bw() +
    ylab("effectif") + 
    xlab("différence de poids à 6 mois")
plot_diff_weight

Ici les conditions d’application semblent respectées.

Un résultat théorique certifie qu’une certaine statistique de test \(T\) calculée à partir :

  • de l’effectif,
  • de la moyenne empirique dans chaque groupe,
  • et de la variance empirique dans chaque groupe,

est distribuée suivant une loi de Student avec un certain nombre de “degrés de liberté”.

Il s’agit donc de calculer la valeur observée de cette statistique de test sur notre échantillon, et de la comparer aux quantiles de la loi théorique.

La fonction pour faire ça en R est la suivante :

t.test(x=d$diff_weight)
## 
##  One Sample t-test
## 
## data:  d$diff_weight
## t = -11.129, df = 499, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  -1.509690 -1.056617
## sample estimates:
## mean of x 
## -1.283153

L’output de la fonction nous rappelle :

  1. en première ligne l’échantillon sur lequel on a appliqué le test,
  2. en seconde ligne on récupère la valeur observée de la statistique de test, ainsi que le nombre de “degrés de liberté” de la loi théorique.
  3. en fin de seconde ligne, super importante : la p-value !!! Probabilité que la valeur de la statistique soit au moins aussi extrême qu’observée, sous H0.
  4. troisième ligne : un rappel de l’hypothèse alternative du test (modifiable avec l’argument alternative).
  5. un intervalle de confiance à 95% de la moyenne (bornes modifiables via l’argument conf.level).
  6. tout à la fin, l’estimation ponctuelle de la moyenne.

Que concluons-nous ?

T test : comparaison de 2 moyennes

On observe des valeurs \((X_{i,j})\) de nos individus \(i\) dans deux groupes \(j=1\) et \(j=2\). Ici les deux groupes correspondent au control vs. treatment, et les observations correspondent à une différence de poids entre le début et la fin de l’expérience.

Est-ce que la différence de poids moyenne est différente dans les deux groupes ?

On souhaite réaliser le test d’hypothèse suivant :

  • H0 : la moyenne des \((X_{i,1})\) est identique à celle des \((X_{i,2})\).
  • H1 : les deux moyennes sont différentes.

Conditions d’application :

  • les variables aléatoires sont indépendantes et de même loi.
  • soit les variables aléatoires sont distribuées normalement, soit l’échantillon est “grand”.

On commence toujours par représenter nos données et quantités d’intérêt.

m <- d %>% group_by(group) %>% summarise(mean=mean(diff_weight)) %>% select(mean)

plot_diff_weight_by_group <- d %>% ggplot(aes(x=diff_weight, fill=group)) +
    geom_histogram(alpha=0.5, position="identity", bins=20) +
    theme_bw() +
    ylab("effectif") + 
    xlab("différence de poids à 6 mois") +
    scale_fill_manual(values=c(bleuclair, rose)) +
    geom_vline(xintercept = c(m$mean[1], m$mean[2]), color=c(bleuclair, rose))
plot_diff_weight_by_group

Ici les conditions d’application semblent respectées.

Un résultat théorique certifie qu’une statistique de test calculée à partir de l’effectif, des moyennes empiriques des deux groupes et de la variance empirique des deux groupes, est distribuée suivant une loi de Student avec un certain nombre de “degrés de liberté”.

Il s’agit donc de calculer la valeur observée de cette statistique de test sur notre échantillon, et de la comparer aux quantiles de la loi théorique.

La fonction pour faire ça en R est la suivante :

t.test(diff_weight ~ group, data=d)
## 
##  Welch Two Sample t-test
## 
## data:  diff_weight by group
## t = 1.9787, df = 489.92, p-value = 0.04841
## alternative hypothesis: true difference in means between group control and group treatment is not equal to 0
## 95 percent confidence interval:
##  0.003200646 0.906752183
## sample estimates:
##   mean in group control mean in group treatment 
##               -1.055665               -1.510642

Ca se lit de façon très similaire à ce qu’on avait précédemment, les différences étant :

  1. L’IC à 95% correspond à celui de la différence des deux moyennes.
  2. Les estimations ponctuelles correspondent aux deux moyennes.

Que concluons-nous ?

ANOVA : comparaison de n moyennes

On souhaite plus précisément tester ici la différence d’au moins une moyenne parmi plusieurs groupes.

On dispose cette fois d’observations de la même quantité $(X_{i,j}) chez l’individu \(i\) dans le groupe \(j\), dans un nombre de groupes potentiellement supérieur à 2. Est-ce que la moyenne d’au moins un groupe diffère des autres groupes ?

Par exemple, ici, la différence de poids moyenne change-t-elle dans les trois classes d’âge ? (< 40, 40-60, > 60)

On teste formellement :

  • H0 : les moyennes des \((X_{i,1})\), des \((X_{i,2})\) et des \((X_{i,3})\) sont identiques.
  • H1 : au moins une des moyennes diffère.

Conditions d’application :

  • les variables aléatoires sont indépendantes et suivent une loi normale.
  • il y a égalité de variance entre les différents groupes.

Une fois n’est pas coutûme, commençons par représenter les données :

m <- d %>% group_by(age_group) %>% summarise(mean=mean(diff_weight)) %>% select(mean)

plot_diff_weight_by_age_group <- d %>% ggplot(aes(x=diff_weight, fill=as.factor(age_group))) +
    geom_histogram(alpha=0.5, position="identity", bins=20) +
    theme_bw() +
    ylab("effectif") + 
    xlab("différence de poids à 6 mois") +
    scale_fill_manual(values=c(bleufonce, bleuclair, rose)) +
    geom_vline(xintercept = c(m$mean[1], m$mean[2], m$mean[3]), color=c(bleufonce, bleuclair, rose))
plot_diff_weight_by_age_group

ggsave("../../Figures/illu_diabete_diff_weight_age_group.pdf", plot=plot_diff_weight_by_age_group, width=12, height=5)

Les conditions d’application semblent respectées (au moins graphiquement).

Un résultat théorique certifie cette fois qu’une certaine statistique de test, calculée à partir :

  • des effectifs des différents groupes
  • et des variances intra-groupes / inter-groupes,

est distribuée suivant une loi de Fisher avec un certain nombre de “degrés de liberté”.

Il s’agit donc de calculer la valeur observée de cette statistique de test sur notre échantillon, et de la comparer aux quantiles de la loi théorique.

La fonction pour faire ça en R est la suivante :

res_aov <- aov(diff_weight ~ age_group, data=d)
summary(res_aov)
##              Df Sum Sq Mean Sq F value Pr(>F)
## age_group     2      4   2.099   0.315   0.73
## Residuals   497   3313   6.666

Les deux points les plus intéressants de l’output sont :

  1. la “F value” qui est la valeur de la statistique de test,
  2. et la p-value : la probabilité sous H0 d’obtenir une statistique de test au moins aussi extrême qu’observée.

Que concluons-nous ?

Finissons par un petit test, permettant de se convaincre qu’une ANOVA avec deux groupes correspond à un T test.

res_aov_2 <- aov(diff_weight ~ group, data=d)
summary(res_aov_2)
##              Df Sum Sq Mean Sq F value Pr(>F)  
## group         1     26  25.875   3.915 0.0484 *
## Residuals   498   3291   6.609                 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
t.test(diff_weight ~ group, data=d)
## 
##  Welch Two Sample t-test
## 
## data:  diff_weight by group
## t = 1.9787, df = 489.92, p-value = 0.04841
## alternative hypothesis: true difference in means between group control and group treatment is not equal to 0
## 95 percent confidence interval:
##  0.003200646 0.906752183
## sample estimates:
##   mean in group control mean in group treatment 
##               -1.055665               -1.510642

Test de Wilcoxon

L’alter-ego non-paramétrique du T test est le test de Wilcoxon (aussi appelé Mann-Whitney ou Wilcoxon-Mann-Whitney).

  • Avantage : conditions d’application toujours remplies.
  • Inconvénient : moins puissant qu’un T test.

Dans notre cas, étant donné le grand effectif de notre essai clinique, le T test était un choix très approprié. On peut cependant se convaincre du fonctionnement d’un test de Wilcoxon en l’essayant :

wilcox.test(diff_weight ~ group, data=d)
## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  diff_weight by group
## W = 34330, p-value = 0.0566
## alternative hypothesis: true location shift is not equal to 0

Test de Kruskal-Wallis

De même, testons l’utilisation de l’alter-ego de l’ANOVA en version non-paramétrique :

kruskal.test(diff_weight ~ age_group, data=d)
## 
##  Kruskal-Wallis rank sum test
## 
## data:  diff_weight by age_group
## Kruskal-Wallis chi-squared = 0.60933, df = 2, p-value = 0.7374

On se convainc aussi facilement qu’un test de Kruskal-Wallis avec une variable à deux modalités revient à faire un test de Wilcoxon :

kruskal.test(diff_weight ~ group, data=d)
## 
##  Kruskal-Wallis rank sum test
## 
## data:  diff_weight by group
## Kruskal-Wallis chi-squared = 3.6355, df = 1, p-value = 0.05656

Régression linéaire univariée

Une droite de régression commune

On dispose cette fois d’observations d’une variables \((Y_i)\) d’intérêt, par exemple encore une fois la différence de poids. Et d’une autre variable quantitative \((X_i)\) correspondant à quelque chose qui pourrait être corrélé à nos \((Y_i)\), par exemple ici le temps pendant lequel le patient a strictement observé son traitement (compliance).

Est-ce que le gain de poids dépend de la compliance, dans le groupe traité ?

Le coefficient de corrélation \(\rho\) correspond à la covariance des deux quantités normalisée par les écarts-types des deux quantités. Il est compris entre -1 et 1 et renseigne sur la dispersion des données en 2D. En cas de corrélation linéaire parfaite, il vaut 1 ou -1.

Formellement on peut tester, avec le test de Bravais-Pearson :

  • H0 : \(\rho = 0\),
  • H1 : \(\rho \neq 0\).

Conditions d’application : les \((Y_i, X_i)\) doivent être appariées et distribuées normalement.

Commençons par représenter les données, avec une droite de régression partagé par tous les points :

plot_diff_weight_vs_compliance <- d %>% 
    ggplot(aes(y=diff_weight, x=t_compliance)) +
    geom_point() +
    geom_smooth(method="lm", se=F, formula="y ~ x", col=bleufonce) +
    theme_bw() +
    xlab("t_compliance") + 
    ylab("différence de poids à 6 mois")
plot_diff_weight_vs_compliance

On peut à présent effectuer un test de corrélation en prenant tous les points ensemble :

cor.test(d$diff_weight, d$t_compliance)
## 
##  Pearson's product-moment correlation
## 
## data:  d$diff_weight and d$t_compliance
## t = -3.5459, df = 498, p-value = 0.0004283
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.2412955 -0.0702008
## sample estimates:
##        cor 
## -0.1569254

Que concluons-nous ?

Une droite dans chaque groupe

Deuxième essai plus intéressant : regarder l’influence de t_compliance séparément dans les deux bras de l’essai clinique. On commence par observer les données :

plot_diff_weight_vs_compliance_2 <- d %>% 
    ggplot(aes(y=diff_weight, x=t_compliance, color = group)) +
    geom_point() +
    geom_smooth(method="lm", se=F, formula="y ~ x") +
    theme_bw() +
    xlab("t_compliance") + 
    ylab("différence de poids à 6 mois") +
    scale_color_manual(values=c(bleuclair, rose))
plot_diff_weight_vs_compliance_2

ggsave("../../Figures/illu_diabete_diff_weight_reglin.pdf", plot=plot_diff_weight_vs_compliance_2, width=12, height=5)

Puis un test de corrélation en prenant uniquement le groupe control :

d_control <- d %>% filter(group == "control")
cor.test(d_control$diff_weight, d_control$t_compliance)
## 
##  Pearson's product-moment correlation
## 
## data:  d_control$diff_weight and d_control$t_compliance
## t = -0.58815, df = 248, p-value = 0.557
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.1606448  0.0871489
## sample estimates:
##         cor 
## -0.03732163

Et enfin, le même test de corrélation en prenant uniquement le groupe treatment :

d_treatment <- d %>% filter(group == "treatment")
cor.test(d_treatment$diff_weight, d_treatment$t_compliance)
## 
##  Pearson's product-moment correlation
## 
## data:  d_treatment$diff_weight and d_treatment$t_compliance
## t = -4.3818, df = 248, p-value = 1.739e-05
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.3795073 -0.1489484
## sample estimates:
##        cor 
## -0.2680618

Que concluons-nous ?

Le modèle linéaire

Description

Le modèle linéaire présente l’intérêt d’unifier tous ces tests dans un unique framework.

Il consiste à modéliser une variable de réponse \(Y_i\) chez l’individu \(i\) comme une fonction linéaire de nos variables explicatrices \(X_{i,j}\), à laquelle on rajoute un bruit Gaussien centré. Une fonction linéaire n’est rien de plus qu’une somme pondérée de nos variables \(X_{i,j}\), soit :

\[ Y_i = a_1 X_{i,1} + a_2 X_{i,2} + ... + a_J X_{i,J} + \epsilon_i, ~~~\text{ avec } \epsilon_i \sim \mathcal{N}(0, \sigma^2) \]

On suppose que tous les \((Y_i)\) sont indépendantes et suivent la même loi. Le but du jeu, pour le statisticien, consiste à fitter les valeurs des coefficients \(a_j\) grâce aux observations.

Bonne nouvelle : la syntaxe de R pour fitter un modèle linéaire est assez rapide et intuitive.

Un simple intercept

Premier cas simple : on aimerait modéliser la différence de poids comme étant uniquement une moyenne + un petit bruit Gaussien, et calculer cette moyenne comme on l’avait fait lors du premier test de Student.

res_lm_1 <- lm(formula="diff_weight ~ 1", data=d)
summary(res_lm_1)
## 
## Call:
## lm(formula = "diff_weight ~ 1", data = d)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -8.9290 -1.7337  0.1193  1.7881  7.7890 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -1.2832     0.1153  -11.13   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.578 on 499 degrees of freedom

Vérifier qu’on retombe bien sur la même chose que précédemment.

Un effet de variable discrète

Deuxième cas simple : on aimerait modéliser la différence de poids comme étant la somme d’un coefficient particulier chez les individus du groupe “control” et un autre coefficient chez les individus du groupe “treatment”. Soit exactement ce qu’on avait fait avec un test de Student comparant les deux moyennes.

Il se trouve que R, lorsqu’on lui donne à manger une variable à plusieurs modalités, va automatiquement la “scinder” en sous-variables indicatrices de chaque modalité. La syntaxe reste donc très simple :

# première version avec moyenne commune aux deux groupes
# et un petit ajout pour le groupe traitement
res_lm_group <- lm(formula="diff_weight ~ group", data=d)
summary(res_lm_group)
## 
## Call:
## lm(formula = "diff_weight ~ group", data = d)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -8.7016 -1.6078  0.1307  1.7151  8.0165 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)     -1.0557     0.1626  -6.493 2.04e-10 ***
## grouptreatment  -0.4550     0.2299  -1.979   0.0484 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.571 on 498 degrees of freedom
## Multiple R-squared:  0.007801,   Adjusted R-squared:  0.005809 
## F-statistic: 3.915 on 1 and 498 DF,  p-value: 0.0484
# deuxième version avec moyenne dans chaque groupe
res_lm_group_2 <- lm(formula="diff_weight ~ 0 + group", data=d)
summary(res_lm_group_2)
## 
## Call:
## lm(formula = "diff_weight ~ 0 + group", data = d)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -8.7016 -1.6078  0.1307  1.7151  8.0165 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## groupcontrol    -1.0557     0.1626  -6.493 2.04e-10 ***
## grouptreatment  -1.5106     0.1626  -9.291  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.571 on 498 degrees of freedom
## Multiple R-squared:  0.2051, Adjusted R-squared:  0.2019 
## F-statistic: 64.24 on 2 and 498 DF,  p-value: < 2.2e-16

On a donc exactement le même modèle sous-jacent, avec des estimations de paramètres identiques. Cependant, ici, les p-value indiquées correspondent à un test d’adéquation du paramètre à 0. Si on souhaite comparer les deux moyennes et retomber sur le même résultat qu’au début du document, il faut donc passer par la première version et regarder le test d’adéquation du paramètre à 0.

Troisième possibilité, notre différence de poids dépend d’une variable prenant 3 modalités ou plus (comme on avait proposé lors de la réalisation du test ANOVA ci-dessus). La même syntaxe fonctionne toujours aussi bien :

res_lm_group_3 <- lm(formula="diff_weight ~ 0 + age_group", data=d)
summary(res_lm_group_3)
## 
## Call:
## lm(formula = "diff_weight ~ 0 + age_group", data = d)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -9.0199 -1.7538  0.0998  1.7780  7.6981 
## 
## Coefficients:
##                         Estimate Std. Error t value Pr(>|t|)    
## age_groupentre 40 et 60  -1.1923     0.2080  -5.731 1.73e-08 ***
## age_groupmoins de 40     -1.3993     0.1883  -7.432 4.72e-13 ***
## age_groupplus de 60      -1.2335     0.2054  -6.005 3.69e-09 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.582 on 497 degrees of freedom
## Multiple R-squared:  0.1999, Adjusted R-squared:  0.195 
## F-statistic: 41.38 on 3 and 497 DF,  p-value: < 2.2e-16

L’output standard du modèle linéaire ne nous calcule des p-values que pour les tests d’adéquation de chaque paramètre à 0. Bien que l’ANOVA soit effectivement un test réalisé au sein du même framework de modèle linéaire, la p-value associée n’est récupérable, en pratique avec R, que via la fonction aov vue précédemment.

Un effet de variable continue

Dernier exemple similaire à ce qu’on avait fait précédemment : expliquer notre variable de réponse “différence de poids” par le “temps de compliance”.

res_lm_compliance <- lm(formula="diff_weight ~ t_compliance", data=d)
summary(res_lm_compliance)
## 
## Call:
## lm(formula = "diff_weight ~ t_compliance", data = d)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -8.1795 -1.6306  0.0848  1.7868  7.6839 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -0.855739   0.165900  -5.158 3.61e-07 ***
## t_compliance -0.020148   0.005682  -3.546 0.000428 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.549 on 498 degrees of freedom
## Multiple R-squared:  0.02463,    Adjusted R-squared:  0.02267 
## F-statistic: 12.57 on 1 and 498 DF,  p-value: 0.0004283

Vers plus de complexification

Et si on souhaite un effet additif du groupe et du temps de compliance :

res_lm_compliance_group <- lm(formula="diff_weight ~ 0 + group + t_compliance", data=d)
summary(res_lm_compliance_group)
## 
## Call:
## lm(formula = "diff_weight ~ 0 + group + t_compliance", data = d)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -8.4145 -1.6278  0.0921  1.7597  7.9167 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## groupcontrol   -0.618262   0.201687  -3.065 0.002292 ** 
## grouptreatment -1.085678   0.199611  -5.439 8.42e-08 ***
## t_compliance   -0.020325   0.005664  -3.588 0.000366 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.541 on 497 degrees of freedom
## Multiple R-squared:  0.2252, Adjusted R-squared:  0.2205 
## F-statistic: 48.14 on 3 and 497 DF,  p-value: < 2.2e-16

Ce n’est pas exactement ce qu’on avait fait tout à l’heure sur le graphe : on avait alors deux régressions linéaires, une dans chaque groupe. R possède encore une fois une syntaxe pratique pour ça :

res_lm_compliance_group_2 <- lm(formula="diff_weight ~ 0 + group * t_compliance", data=d)
summary(res_lm_compliance_group_2)
## 
## Call:
## lm(formula = "diff_weight ~ 0 + group * t_compliance", data = d)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -8.2949 -1.5933  0.1597  1.6771  7.8364 
## 
## Coefficients:
##                              Estimate Std. Error t value Pr(>|t|)    
## groupcontrol                -0.960433   0.233093  -4.120 4.43e-05 ***
## grouptreatment              -0.743698   0.231290  -3.215  0.00139 ** 
## t_compliance                -0.004425   0.007897  -0.560  0.57549    
## grouptreatment:t_compliance -0.032257   0.011248  -2.868  0.00431 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.522 on 496 degrees of freedom
## Multiple R-squared:  0.2378, Adjusted R-squared:  0.2317 
## F-statistic: 38.69 on 4 and 496 DF,  p-value: < 2.2e-16

On a introduit super facilement ce qu’on appelle des interactions entre nos variables. Le modèle linéaire, et la syntaxe de R, sont donc des outils de modélisation extrêmement puissants/versatiles. Ils demandent à bien réfléchir en amont à ce qu’on souhaite étudier pour éviter une trop grande multiplication de tests statistiques.

Quel serait selon vous le modèle linéaire le plus approprié pour diff_weight ?

Quel serait selon vous le modèle linéaire le plus approprié pour diff_steps ?

Conclusion

Nous avons vu ici un certain nombre de méthodes permettant d’analyser des variables continues. Les points principaux à retenir sont les suivants :

  1. Pour comparer deux moyennes, ou une moyenne à une norme, le T test est la bonne option, à condition que les données soient en grand nombre, ou qu’elles soient distribuées normalement.
  2. Pour comparer plus que deux moyennes, une ANOVA fait l’affaire, sous des conditions identiques.
  3. Lorsque les conditions d’application des tests paramétriques ne sont pas rencontrées, on peut recourir à des tests non-paramétriques : Wilcoxon et Kruskal-Wallis.
  4. Pour quantifier la corrélation entre deux variables continues distribuées normalement, un test de corrélation de Pearson peut être utilisé.
  5. Le modèle linéaire unifie tous les tests paramétriques précédents dans un unique framework, où une variable de réponse continue \(Y\) est modélisée comme une combinaison linéaire de variables explicatives \(X\) (discrètes ou continues).
---
title: "Statistiques au LAPEC -- Analyse de données continues"
author: "Marc Manceau"
date: "2024-01"
output: 
  html_document:
    toc: TRUE
    toc_depth: 2
    toc_float: TRUE
    highlight: "tango"
    code_download: TRUE
---

Pour les utilisateurs de R, on commence par charger un certain nombre de modules intéressants.

```{r message=F}
# le package moderne standard pour manipuler ses données
library(tidyverse)

# quelques couleurs manuelles
bleufonce <- "#3d5468"
bleuclair <- "#5b7c98"
rose <- "#ff5555"
```

Puis on importe le dataset dans notre session de R :

```{r}
d <- read.csv("etude_fictive_diabetes.csv")
head(d)
```

Nous sommes prêts à travailler sur ce jeu de données, et, pour ce qui nous intéresse ici,
à analyser les données continues qu'il renferme.


# Comparaison de moyennes

## T test : adéquation à une norme

On observe des différences de poids $(X_i)$ chez nos individus entre le début et la fin de l'expérience.
Est-ce que la différence de poids moyenne est différente de zéro ?

On souhaite réaliser le test d'hypothèse suivant :

* H0 : la moyenne des $(X_i)$ vaut zero.
* H1 : la moyenne des $(X_i)$ est différente de zéro.

Conditions d'application :

* les variables aléatoires sont indépendantes et de même loi.
* soit les variables aléatoires sont distribuées normalement, soit l'échantillon est "grand".

On commence toujours par représenter nos données.

```{r fig.width=10}
plot_diff_weight <- d %>% ggplot(aes(x=diff_weight)) +
    geom_histogram(alpha=0.7, position="identity", bins=20) +
    theme_bw() +
    ylab("effectif") + 
    xlab("différence de poids à 6 mois")
plot_diff_weight
```

Ici les conditions d'application semblent respectées.

Un résultat théorique certifie qu'une certaine statistique de test $T$ calculée à partir :

* de l'effectif, 
* de la moyenne empirique dans chaque groupe, 
* et de la variance empirique dans chaque groupe, 

est distribuée suivant une loi de Student avec un certain nombre de "degrés de liberté".

Il s'agit donc de calculer la valeur observée de cette statistique de test sur notre échantillon, 
et de la comparer aux quantiles de la loi théorique.

La fonction pour faire ça en R est la suivante :

```{r}
t.test(x=d$diff_weight)
```

L'output de la fonction nous rappelle :

1. en première ligne l'échantillon sur lequel on a appliqué le test,
2. en seconde ligne on récupère la valeur observée de la statistique de test, 
   ainsi que le nombre de "degrés de liberté" de la loi théorique.
3. en fin de seconde ligne, super importante : la p-value !!! 
   Probabilité que la valeur de la statistique soit au moins aussi extrême qu'observée, sous H0.
4. troisième ligne : un rappel de l'hypothèse alternative du test (modifiable avec l'argument `alternative`).
5. un intervalle de confiance à 95% de la moyenne (bornes modifiables via l'argument `conf.level`).
6. tout à la fin, l'estimation ponctuelle de la moyenne.

> Que concluons-nous ?


## T test : comparaison de 2 moyennes

On observe des valeurs $(X_{i,j})$ de nos individus $i$ dans deux groupes $j=1$ et $j=2$. 
Ici les deux groupes correspondent au control vs. treatment, 
et les observations correspondent à une différence de poids entre le début et la fin de l'expérience.

Est-ce que la différence de poids moyenne est différente dans les deux groupes ?

On souhaite réaliser le test d'hypothèse suivant :

* H0 : la moyenne des $(X_{i,1})$ est identique à celle des $(X_{i,2})$.
* H1 : les deux moyennes sont différentes.

Conditions d'application :

* les variables aléatoires sont indépendantes et de même loi.
* soit les variables aléatoires sont distribuées normalement, soit l'échantillon est "grand".

On commence toujours par représenter nos données et quantités d'intérêt.

```{r fig.width=10}
m <- d %>% group_by(group) %>% summarise(mean=mean(diff_weight)) %>% select(mean)

plot_diff_weight_by_group <- d %>% ggplot(aes(x=diff_weight, fill=group)) +
    geom_histogram(alpha=0.5, position="identity", bins=20) +
    theme_bw() +
    ylab("effectif") + 
    xlab("différence de poids à 6 mois") +
    scale_fill_manual(values=c(bleuclair, rose)) +
    geom_vline(xintercept = c(m$mean[1], m$mean[2]), color=c(bleuclair, rose))
plot_diff_weight_by_group
```

Ici les conditions d'application semblent respectées.

Un résultat théorique certifie qu'une statistique de test calculée à partir de l'effectif, 
des moyennes empiriques des deux groupes et de la variance empirique des deux groupes, 
est distribuée suivant une loi de Student avec un certain nombre de "degrés de liberté".

Il s'agit donc de calculer la valeur observée de cette statistique de test sur notre échantillon, 
et de la comparer aux quantiles de la loi théorique.

La fonction pour faire ça en R est la suivante :

```{r}
t.test(diff_weight ~ group, data=d)
```

Ca se lit de façon très similaire à ce qu'on avait précédemment, les différences étant :

1. L'IC à 95% correspond à celui de la différence des deux moyennes.
2. Les estimations ponctuelles correspondent aux deux moyennes.

> Que concluons-nous ?


## ANOVA : comparaison de n moyennes

On souhaite plus précisément tester ici la différence d'au moins une moyenne parmi plusieurs groupes.

On dispose cette fois d'observations de la même quantité $(X_{i,j}) chez l'individu $i$ dans le groupe $j$, 
dans un nombre de groupes potentiellement supérieur à 2.
Est-ce que la moyenne d'au moins un groupe diffère des autres groupes ?

Par exemple, ici, la différence de poids moyenne change-t-elle dans les trois classes d'âge ? (< 40, 40-60, > 60)

On teste formellement :

* H0 : les moyennes des $(X_{i,1})$, des $(X_{i,2})$ et des $(X_{i,3})$ sont identiques.
* H1 : au moins une des moyennes diffère.

Conditions d'application :

* les variables aléatoires sont indépendantes et suivent une loi normale.
* il y a égalité de variance entre les différents groupes.

Une fois n'est pas coutûme, commençons par représenter les données :

```{r fig.width=10}
m <- d %>% group_by(age_group) %>% summarise(mean=mean(diff_weight)) %>% select(mean)

plot_diff_weight_by_age_group <- d %>% ggplot(aes(x=diff_weight, fill=as.factor(age_group))) +
    geom_histogram(alpha=0.5, position="identity", bins=20) +
    theme_bw() +
    ylab("effectif") + 
    xlab("différence de poids à 6 mois") +
    scale_fill_manual(values=c(bleufonce, bleuclair, rose)) +
    geom_vline(xintercept = c(m$mean[1], m$mean[2], m$mean[3]), color=c(bleufonce, bleuclair, rose))
plot_diff_weight_by_age_group
ggsave("../../Figures/illu_diabete_diff_weight_age_group.pdf", plot=plot_diff_weight_by_age_group, width=12, height=5)
```

Les conditions d'application semblent respectées (au moins graphiquement).

Un résultat théorique certifie cette fois qu'une certaine statistique de test, 
calculée à partir :

* des effectifs des différents groupes
* et des variances intra-groupes / inter-groupes,

est distribuée suivant une loi de Fisher avec un certain nombre de "degrés de liberté".

Il s'agit donc de calculer la valeur observée de cette statistique de test sur notre échantillon, 
et de la comparer aux quantiles de la loi théorique.

La fonction pour faire ça en R est la suivante :

```{r}
res_aov <- aov(diff_weight ~ age_group, data=d)
summary(res_aov)
```

Les deux points les plus intéressants de l'output sont :

1. la "F value" qui est la valeur de la statistique de test,
2. et la p-value : la probabilité sous H0 d'obtenir une statistique de test au moins aussi extrême qu'observée.

> Que concluons-nous ?

Finissons par un petit test, permettant de se convaincre qu'une ANOVA avec deux groupes correspond à un T test.

```{r}
res_aov_2 <- aov(diff_weight ~ group, data=d)
summary(res_aov_2)
t.test(diff_weight ~ group, data=d)
```


## Test de Wilcoxon

L'alter-ego non-paramétrique du T test est le test de Wilcoxon
(aussi appelé Mann-Whitney ou Wilcoxon-Mann-Whitney).

* Avantage : conditions d'application toujours remplies.
* Inconvénient : moins puissant qu'un T test.

Dans notre cas, étant donné le grand effectif de notre essai clinique,
le T test était un choix très approprié.
On peut cependant se convaincre du fonctionnement d'un test de Wilcoxon
en l'essayant :

```{r}
wilcox.test(diff_weight ~ group, data=d)
```

## Test de Kruskal-Wallis

De même, testons l'utilisation de l'alter-ego de l'ANOVA en version non-paramétrique :

```{r}
kruskal.test(diff_weight ~ age_group, data=d)
```

On se convainc aussi facilement qu'un test de Kruskal-Wallis avec une variable
à deux modalités revient à faire un test de Wilcoxon :

```{r}
kruskal.test(diff_weight ~ group, data=d)
```


# Régression linéaire univariée

## Une droite de régression commune

On dispose cette fois d'observations d'une variables $(Y_i)$ d'intérêt, 
par exemple encore une fois la différence de poids. 
Et d'une autre variable quantitative $(X_i)$ correspondant à quelque chose qui pourrait être corrélé à nos $(Y_i)$, 
par exemple ici le temps pendant lequel le patient a strictement observé son traitement (compliance).

Est-ce que le gain de poids dépend de la compliance, dans le groupe traité ?

Le coefficient de corrélation $\rho$ correspond à la covariance des deux quantités normalisée par les écarts-types des deux quantités. 
Il est compris entre -1 et 1 et renseigne sur la dispersion des données en 2D. 
En cas de corrélation linéaire parfaite, il vaut 1 ou -1.

Formellement on peut tester, avec le test de Bravais-Pearson :

* H0 : $\rho = 0$,
* H1 : $\rho \neq 0$.

Conditions d'application : les $(Y_i, X_i)$ doivent être appariées et distribuées normalement.

Commençons par représenter les données, avec une droite de régression
partagé par tous les points :

```{r fig.width=10}
plot_diff_weight_vs_compliance <- d %>% 
	ggplot(aes(y=diff_weight, x=t_compliance)) +
    geom_point() +
    geom_smooth(method="lm", se=F, formula="y ~ x", col=bleufonce) +
    theme_bw() +
    xlab("t_compliance") + 
    ylab("différence de poids à 6 mois")
plot_diff_weight_vs_compliance
```

On peut à présent effectuer un test de corrélation en prenant tous les points ensemble :

```{r}
cor.test(d$diff_weight, d$t_compliance)
```

> Que concluons-nous ?


## Une droite dans chaque groupe

Deuxième essai plus intéressant : regarder l'influence de `t_compliance`
séparément dans les deux bras de l'essai clinique.
On commence par observer les données :

```{r fig.width=10}
plot_diff_weight_vs_compliance_2 <- d %>% 
	ggplot(aes(y=diff_weight, x=t_compliance, color = group)) +
    geom_point() +
    geom_smooth(method="lm", se=F, formula="y ~ x") +
    theme_bw() +
    xlab("t_compliance") + 
    ylab("différence de poids à 6 mois") +
    scale_color_manual(values=c(bleuclair, rose))
plot_diff_weight_vs_compliance_2
ggsave("../../Figures/illu_diabete_diff_weight_reglin.pdf", plot=plot_diff_weight_vs_compliance_2, width=12, height=5)
```

Puis un test de corrélation en prenant uniquement le groupe `control` :

```{r}
d_control <- d %>% filter(group == "control")
cor.test(d_control$diff_weight, d_control$t_compliance)
```

Et enfin, le même test de corrélation en prenant uniquement le groupe `treatment` :

```{r}
d_treatment <- d %>% filter(group == "treatment")
cor.test(d_treatment$diff_weight, d_treatment$t_compliance)
```

> Que concluons-nous ?


# Le modèle linéaire

## Description

Le modèle linéaire présente l'intérêt d'unifier tous ces tests dans un unique framework.

Il consiste à modéliser une *variable de réponse* $Y_i$ chez l'individu $i$ 
comme une fonction linéaire de nos *variables explicatrices* $X_{i,j}$, 
à laquelle on rajoute un *bruit* Gaussien centré. 
Une fonction linéaire n'est rien de plus qu'une somme pondérée de nos variables $X_{i,j}$, soit :

$$ 
Y_i = a_1 X_{i,1} + a_2 X_{i,2} + ... + a_J X_{i,J} + \epsilon_i, ~~~\text{ avec } \epsilon_i \sim \mathcal{N}(0, \sigma^2)
$$

On suppose que tous les $(Y_i)$ sont indépendantes et suivent la même loi.
Le but du jeu, pour le statisticien, consiste à fitter les valeurs des coefficients $a_j$ grâce aux observations.

Bonne nouvelle : la syntaxe de R pour fitter un modèle linéaire est assez rapide et intuitive.

## Un simple intercept

Premier cas simple : on aimerait modéliser la différence de poids comme étant uniquement une moyenne + un petit bruit Gaussien, 
et calculer cette moyenne comme on l'avait fait lors du premier test de Student.

```{r}
res_lm_1 <- lm(formula="diff_weight ~ 1", data=d)
summary(res_lm_1)
```

> Vérifier qu'on retombe bien sur la même chose que précédemment.

## Un effet de variable discrète

Deuxième cas simple : on aimerait modéliser la différence de poids comme étant 
la somme d'un coefficient particulier chez les individus du groupe "control" 
et un autre coefficient chez les individus du groupe "treatment". 
Soit exactement ce qu'on avait fait avec un test de Student comparant les deux moyennes.

Il se trouve que R, lorsqu'on lui donne à manger une variable à plusieurs modalités, 
va automatiquement la "scinder" en sous-variables indicatrices de chaque modalité. 
La syntaxe reste donc très simple :

```{r}
# première version avec moyenne commune aux deux groupes
# et un petit ajout pour le groupe traitement
res_lm_group <- lm(formula="diff_weight ~ group", data=d)
summary(res_lm_group)
```

```{r}
# deuxième version avec moyenne dans chaque groupe
res_lm_group_2 <- lm(formula="diff_weight ~ 0 + group", data=d)
summary(res_lm_group_2)
```

On a donc exactement le même modèle sous-jacent, avec des estimations de paramètres identiques. 
Cependant, ici, les p-value indiquées correspondent à un test d'adéquation du paramètre à 0. 
Si on souhaite comparer les deux moyennes et retomber sur le même résultat qu'au début du document, 
il faut donc passer par la première version et regarder le test d'adéquation du paramètre à 0.

Troisième possibilité, notre différence de poids dépend d'une variable prenant 3 modalités ou plus 
(comme on avait proposé lors de la réalisation du test ANOVA ci-dessus). 
La même syntaxe fonctionne toujours aussi bien :

```{r}
res_lm_group_3 <- lm(formula="diff_weight ~ 0 + age_group", data=d)
summary(res_lm_group_3)
```

L'output standard du modèle linéaire ne nous calcule des p-values
que pour les tests d'adéquation de chaque paramètre à 0.
Bien que l'ANOVA soit effectivement un test réalisé au sein du même
framework de modèle linéaire, la p-value associée n'est récupérable,
en pratique avec R, que via la fonction `aov` vue précédemment.

## Un effet de variable continue

Dernier exemple similaire à ce qu'on avait fait précédemment : 
expliquer notre variable de réponse "différence de poids" par le "temps de compliance".

```{r}
res_lm_compliance <- lm(formula="diff_weight ~ t_compliance", data=d)
summary(res_lm_compliance)
```

## Vers plus de complexification

Et si on souhaite un effet additif du groupe et du temps de compliance :

```{r}
res_lm_compliance_group <- lm(formula="diff_weight ~ 0 + group + t_compliance", data=d)
summary(res_lm_compliance_group)
```

Ce n'est pas exactement ce qu'on avait fait tout à l'heure sur le graphe : 
on avait alors deux régressions linéaires, une dans chaque groupe. 
R possède encore une fois une syntaxe pratique pour ça :

```{r}
res_lm_compliance_group_2 <- lm(formula="diff_weight ~ 0 + group * t_compliance", data=d)
summary(res_lm_compliance_group_2)
```

On a introduit super facilement ce qu'on appelle des *interactions* entre nos variables.
Le modèle linéaire, et la syntaxe de R, sont donc des outils de modélisation extrêmement puissants/versatiles.
Ils demandent à bien réfléchir en amont à ce qu'on souhaite étudier 
pour éviter une trop grande multiplication de tests statistiques.

> Quel serait selon vous le modèle linéaire le plus approprié pour `diff_weight` ?

> Quel serait selon vous le modèle linéaire le plus approprié pour `diff_steps` ?

# Conclusion

Nous avons vu ici un certain nombre de méthodes permettant d'analyser des variables continues.
Les points principaux à retenir sont les suivants :

1. Pour comparer deux moyennes, ou une moyenne à une norme, le T test est la bonne option,
   à condition que les données soient en grand nombre, ou qu'elles soient distribuées normalement.
2. Pour comparer plus que deux moyennes, une ANOVA fait l'affaire, sous des conditions identiques.
3. Lorsque les conditions d'application des tests paramétriques ne sont pas rencontrées,
   on peut recourir à des tests non-paramétriques : Wilcoxon et Kruskal-Wallis.
4. Pour quantifier la corrélation entre deux variables continues distribuées normalement,
   un test de corrélation de Pearson peut être utilisé.
5. Le modèle linéaire unifie tous les tests paramétriques précédents dans un unique framework,
   où une variable de réponse continue $Y$ est modélisée comme une combinaison linéaire
   de variables explicatives $X$ (discrètes ou continues).


