Pour les utilisateurs de R, on commence par charger un certain nombre de modules intéressants.
Contexte
Les 4 catégories de patients
On considère que nos patients sont de 4 types différents, avec deux variables à deux modalités :
- Exposé (\(E\)) vs. Non-Exposé (\(\bar{E}\)) à un facteur environnemental. On peut penser à ces deux catégories dans un cadre épidémio, par exemple avec des patients exposé à l’amiante vs. non-exposés à l’amiante. Ou des patients fumeurs vs. non-fumeurs. Ou toute autre variable dichotomique. Dans un cadre de RCT, on peut s’intéresser aux patients du groupe traité vs. groupe contrôle.
- Malade (\(M\)) vs. Non-Malade (\(\bar{M}\)). Dans les exemples épidémiologiques ci-dessus, la maladie pourrait être un cancer des poumons. Dans le cadre de notre RCT, on pourrait s’intéresser à un aspect de la maladie étudiée, par exemple avoir des douleurs importantes, avoir un arrêt maladie, avoir une rechute…
On a donc des patients qui peuvent être classés dans 4 cases selon leur appartenance à ces modalités. Pour se simplifier les notations, on introduit deux variables aléatoires binaires :
- \(X\) vaut zéro si le patient est non-exposé, et 1 s’il est exposé.
- \(Y\) vaut zéro si le patient est non-malade, et 1 s’il est malade.
Scénario retenu
Pour nous fixer les idées sur un scénario particulier, nous allons considérer le scénario suivant :
- une population de taille totale \(n = 1e6\) patients,
- chaque patient a une probabilité d’être exposé \(\mathbb{P}(X=1) = 0.1\),
- sachant qu’il est exposé, il a une probabilité d’être malade de \(\mathbb{P}(Y = 1 | X = 1) = 0.02\),
- sachant qu’il est non-exposé, il a une probabilité d’être malade de \(\mathbb{P}(Y = 1 | X = 0) = 0.002\).
On peut simuler une réalisation de ce scénario pour simuler toute notre population d’intérêt sous-jacente à l’étude :
n <- 1e6
p_E <- 0.1
p_M_given_E <- 0.02
p_M_given_NE <- 0.002
n_E <- rbinom(1, n, p_E)
n_NE <- n - n_E
n_M_E <- rbinom(1, n_E, p_M_given_E)
n_NM_E <- n_E - n_M_E
n_M_NE <- rbinom(1, n_NE, p_M_given_NE)
n_NM_NE <- n_NE - n_M_NE
lE <- "Exposé\n(X=1)"
lNE <- "Non-Exposé\n(X=0)"
lM <- "Malade\n(Y=1)"
lNM <- "Non-Malade\n(Y=0)"
d <- data.frame(exposition = factor(c(lE, lE, lNE, lNE), levels=c(lNE, lE)),
maladie = as.factor(c(lM, lNM, lM, lNM)),
n = c(n_M_E, n_NM_E, n_M_NE, n_NM_NE))
d %>% ggplot(aes(x = exposition, y = maladie)) +
geom_raster(aes(fill=n)) +
geom_text(aes(label=n)) +
scale_x_discrete(position = "top") +
theme_bw()

Question
La question de recherche générale est toujours similaire :
Y-a-t’il une augmentation/diminution du risque d’être malade lorsqu’un patient est exposé ?
ou de façon équivalente,
Y-a-t’il une association entre le fait d’être malade et le fait d’être exposé ?
Définitions quantifiant une association
On peut répondre à cette question en calculant deux quantités d’intérêt alternatives :
- La Risk Difference (RD),
- Le Risk Ratio (RR).
Risk Difference (RD)
La Risk Difference (RD) parfois aussi appelée Absolute Risk Difference (ARD) ou Attributable Risk (AR) ou encore, selon qu’on la pense positive ou négative, Absolute Risk Reduction (ARR) ou Absolute Risk Increase (ARI), correspond à la définition suivante :
\[
RD = \mathbb{P}(Y = 1 | X = 1) - \mathbb{P}(Y = 1 | X = 0)
\]
Si la quantité est nulle, les patients ont la même probabilité d’être malade sachant qu’ils sont exposés ou non exposés. Si la quantité est positive, les patients ont une plus grande chance d’être malade sachant qu’ils sont exposés. Si la quantité est négative, les patients ont une moins grande chance d’être malade sachant qu’ils sont exposés.
On interprète la valeur en énonçant une phrase telle que “un patient exposé a une probabilité augmentée de RD d’être malade par rapport à un patient non-exposé”.
Sur notre exemple, on a fixé les deux probabilités conditionnelles nécessaires pour calculer RD, qui est donc :
RD <- p_M_given_E - p_M_given_NE
Le résultat vaut 0.018.
Risk Ratio (RR)
Le Risk Ratio (RR), encore appelé Relative Risk (RR aussi), correspond à la définition suivante :
\[
RR = \frac{ \mathbb{P}(Y = 1 | X = 1) }{ \mathbb{P}(Y = 1 | X = 0) }
\]
Si la quantité vaut 1, les patients ont la même probabilité d’être malade sachant qu’ils sont exposés ou non exposés. Si la quantité est supérieure à 1, les patients ont une plus grande chance d’être malade sachant qu’ils sont exposés. Si la quantité est inférieure à 1, les patients ont une moins grande chance d’être malade sachant qu’ils sont exposés.
On interprète la valeur en énonçant une phrase telle que “un patient exposé a une probabilité RR fois supérieure d’être malade par rapport à un patient non-exposé”.
Sur notre exemple, on peut encore calculer RR à partir des valeurs de probabilités conditionnelles fixées, qui est donc :
RR <- p_M_given_E / p_M_given_NE
Le résultat vaut 10.
Différents échantillonnages
Dans la réalité, on ne peut jamais observer notre population complète de 1 millions de patients. On a donc recours à une étude, au cours de laquelle on va échantillonner un certain nombre de patients selon des modalités bien choisies.
Quelque soit l’échantillonnage réalisé, on va toujours remplir un tableau similaire au tableau ci-dessus.
ATTENTION cependant ! On ne pourra pas toujours en faire la même chose !
Echantillon représentatif de la population
La première situation, en terme de simplicité, correspond au cas où on échantillonne nos individus uniformément dans la population générale.
Ce cas de figure est pratique, puisqu’il nous permet d’échantillonner nos individus de façon directement proportionnelle à la loi jointe de \(X\) et \(Y\). Autrement dit, si on échantillonne \(n_S\) individus, le nombre d’individus obtenu dans nos 4 catégories (0,0), (0,1), (1,0), (1,1) correspond à un tirage multinomial dans la loi jointe \((p_{00}, p_{01}, p_{10}, p_{11})\).
Dans le cas de notre scenario de départ, on peut simuler un tel échantillon de la façon suivante :
n_S <- 1e3
p_M_E <- p_E * p_M_given_E
p_M_NE <- (1 - p_E) * p_M_given_NE
p_NM_E <- p_E * (1 - p_M_given_E)
p_NM_NE <- (1 - p_E) * (1- p_M_given_NE)
samp <- rmultinom(1, n_S, prob = c(p_M_E, p_NM_E, p_M_NE, p_NM_NE))
d_S_1 <- data.frame(exposition = factor(c(lE, lE, lNE, lNE), levels=c(lNE, lE)),
maladie = as.factor(c(lM, lNM, lM, lNM)),
n = samp)
p1 <- d_S_1 %>% ggplot(aes(x = exposition, y = maladie)) +
geom_raster(aes(fill=n)) +
geom_text(aes(label=n)) +
scale_x_discrete(position = "top") +
theme_bw()
p1

Toutes nos probabilités d’intérêt peuvent être estimées comme on en a l’intuition, puisque l’échantillon est représentatif de la population. Notamment :
\[
\hat{ p_{\bar{E}\bar{M}} } = n_{\bar{E}\bar{M}} / n_S \\
\hat{ p_{\bar{E}M} } = n_{\bar{E}M} / n_S \\
\hat{ p_{E\bar{M}} } = n_{E\bar{M}} / n_S \\
\hat{ p_{EM} } = n_{EM} / n_S
\]
On obtient donc, en particulier, pour ce qui nous intéresse :
\[
\hat{ RR } = \frac{ \frac{ n_{EM} }{ n_{EM} + n_{E\bar{M}} } }{ \frac{ n_{\bar{E}M} }{ n_{\bar{E}M} + n_{\bar{E}\bar{M}} } }
\]
Ce qui, en R, donne :
RR_S_1 <- ( samp[1] / (samp[1] + samp[2]) ) / (samp[3] / (samp[3] + samp[4]))
On obtient la valeur 11.5. Etant donné la faible prévalence de la maladie, on comprend qu’il faut échantillonner un grand nombre de patients pour réduire la variance de notre estimateur. Ici, avec les effectifs considérés, on a une grande variance, ainsi qu’une chance non-négligeable d’obtenir un estimateur mal défini avec 0 patients au dénominateur.
Echantillon contrôlant l’exposition
C’est ce qu’on fait typiquement dans le domaine des essais cliniques. En contrôlant la quantité de patients \(E\) et \(\bar{E}\), le design expérimental nous fait tirer :
- d’une part les malades et non-malades parmi les \(E\), dans une loi binomiale de paramètre \(n_E, \mathbb{P}(Y=1 | X = 1)\).
- d’autre part les malades et non-malades parmi les \(\bar{E}\), dans une loi binomiale de paramètre \(n_{\bar{E}}, \mathbb{P}(Y=1 | X = 0)\).
Encore une fois, simulons ce que ça donne dans notre scénario :
n_S_2 <- 500
n_M_E <- rbinom(1, n_S_2, p_M_given_E)
n_NM_E <- n_S_2 - n_M_E
n_M_NE <- rbinom(1, n_S_2, p_M_given_NE)
n_NM_NE <- n_S_2 - n_M_NE
d_S_2 <- data.frame(exposition = factor(c(lE, lE, lNE, lNE), levels=c(lNE, lE)),
maladie = as.factor(c(lM, lNM, lM, lNM)),
n = c(n_M_E, n_NM_E, n_M_NE, n_NM_NE))
p2 <- d_S_2 %>% ggplot(aes(x = exposition, y = maladie)) +
geom_raster(aes(fill=n)) +
geom_text(aes(label=n)) +
scale_x_discrete(position = "top") +
theme_bw()
p2

On ne peut donc plus estimer \(\mathbb{P}(X = 0)\) ou \(\mathbb{P}(X = 1)\), mais on peut toujours estimer nos deux quantités d’intérêt, \(\mathbb{P}(Y = 1 | X = 1)\) par \(n_{EM} / (n_{EM} + n_{E\bar{M}})\), et \(\mathbb{P}(Y = 1 | X = 0)\) par \(n_{\bar{E}M} / (n_{\bar{E}M} + n_{\bar{E}\bar{M}})\).
On obtient donc, à nouveau, pour ce qui nous intéresse ici :
\[
\hat{ RR } = \frac{ \frac{ n_{EM} }{ n_{EM} + n_{E\bar{M}} } }{ \frac{ n_{\bar{E}M} }{ n_{\bar{E}M} + n_{\bar{E}\bar{M}} } }
\]
Ce qui, en R, donne :
RR_S_2 <- ( n_M_E / (n_M_E + n_NM_E) ) / ( n_M_NE / (n_M_NE + n_NM_NE))
On obtient la valeur infinie. Etant donné la faible prévalence de la maladie, on comprend qu’il faut échantillonner un grand nombre de patients pour réduire la variance de notre estimateur. Ici, avec les effectifs considérés, on a une grande variance, ainsi qu’une chance non-négligeable d’obtenir un estimateur mal défini avec 0 patients au dénominateur.
Par rapport au cas précédent, on contrôle le nombre d’exposés introduits, ce qui augmente l’effectif du groupe exposé par rapport à un cas où l’exposition serait rare. On augmente donc également la chance de voir des malades dans le groupe exposé, mais on diminue la chance de voir des malades dans le groupe non-exposé.
Echantillon contrôlant la maladie
Aussi appelé échantillonnage “cas-témoin”. Cette fois, on échantillonne un nombre fixé de \(M\) et de \(\bar{M}\). Le design expérimental est tel que, à présent,
- le nombre d’individus \(E\) et \(\bar{E}\) parmi les \(M\) est donné par un tirage binomial parmi \(N_M\) individus.
- le nombre d’individus \(E\) et \(\bar{E}\) parmi les \(\bar{M}\) est donné par un tirage binomial parmi \(N_{\bar{M}}\) individus.
Cette fois, on ne sait plus comment estimer \(\mathbb{P}(Y = 1 | X = 1)\) ni \(\mathbb{P}(Y = 1 | X = 0)\).
On pourrait bien faire l’inverse, c’est à dire estimer \(\mathbb{P}(X = 1 | Y = 1)\) ou \(\mathbb{P}(X = 1 | Y = 0)\), mais ça ne nous aidera pas à calculer RR ou RD.
n_S_3 <- 500
p_M <- p_E * p_M_given_E + (1 - p_E) * p_M_given_NE
p_E_given_M <-p_E * p_M_given_E / p_M
p_E_given_NM <- p_E * (1 - p_M_given_E) / (1 - p_M)
n_M_E <- rbinom(1, n_S_3, p_E_given_M)
n_M_NE <- n_S_3 - n_M_E
n_NM_E <- rbinom(1, n_S_3, p_E_given_NM)
n_NM_NE <- n_S_3 - n_NM_E
d_S_3 <- data.frame(exposition = factor(c(lE, lE, lNE, lNE), levels=c(lNE, lE)),
maladie = as.factor(c(lM, lNM, lM, lNM)),
n = c(n_M_E, n_NM_E, n_M_NE, n_NM_NE))
p3 <- d_S_3 %>% ggplot(aes(x = exposition, y = maladie)) +
geom_raster(aes(fill=n)) +
geom_text(aes(label=n)) +
scale_x_discrete(position = "top") +
theme_bw()
p3

Cet échantillonnage nous permet donc d’observer un nombre suffisant de malades dans le cas d’une maladie ayant une faible prévalence.
Mais que peut-on en faire ?
De l’utilité de l’Odds Ratio (OR)
Si RD et RR sont déjà deux quantités alternatives pour répondre à la même question, à quoi bon en introduire une troisième ?
La réponse est uniquement méthodologique : dans le cas du dernier échantillonnage discuté ci-dessus, il nous est impossible de calculer RR et RD, mais il nous sera toujours possible de calculer OR.
Définition
Passons à la définition, avant de pouvoir en dire plus :
\[
OR = \frac{ \frac{\mathbb{P}(Y = 1 | X = 1)}{ 1 - \mathbb{P}(Y = 1 | X = 1) } }{ \frac{\mathbb{P}(Y = 1 | X = 0)}{ 1 - \mathbb{P}(Y = 1 | X = 0) } }
\]
A première vue, comme pour RD et RR, il nous faut donc être en mesure de calculer la loi conditionnelle de \(Y\) sachant \(X\) pour utiliser la définition ci-dessus.
Sur notre exemple de scénario, on peut calculer sa valeur :
OR <- (p_M_given_E / (1 - p_M_given_E)) / (p_M_given_NE / (1 - p_M_given_NE))
On obtient une valeur de 10.1836735. Soit quelque chose d’assez proche de ce qu’on avait pour RR (souvenez-vous, RR valait 10).
Cas d’une maladie rare
Le problème principal de OR, c’est son interprétation. Le rapport d’odds (cotes, en français), est clairement pas une quantité qui s’interprète aussi facilement que RR. Difficile notamment d’obtenir une phrase simple qui résumé ce qu’on a appris avec OR. Ce pourrait être “la cote associée au fait d’avoir la maladie dans le groupe exposé est OR fois plus grande que la cote associée au fait d’avoir la maladie dans le groupe non-exposé”.
En réalité, un cas nous intéresse particulièrement : le cas d’une maladie rare dans nos deux groupes, c’est à dire avec \(\mathbb{P}(Y = 1 | X = 1)\) et \(\mathbb{P}(Y = 1 | X = 0)\) faibles. Dans ce cas, les dénominateurs des deux cotes sont proches de 1, et il vient tout simplement :
\[
OR \approx \frac{ \mathbb{P}(Y = 1 | X = 1) }{ \mathbb{P}(Y = 1 | X = 0) } = RR
\]
Voilà donc pourquoi, lorsqu’on étudie une maladie rare, on pourra interpréter intuitivement un OR comme un RR. Et voilà pourquoi la valeur qu’on obtient ci-dessus est si proche du RR calculé précédemment.
Symmétrie des deux groupes
Il se trouve qu’une propriété intéressante nous permet également de calculer OR lorsqu’on a accès à la loi conditionnelle de \(X\) sachant \(Y\).
Cette propriété, la voici :
\[
OR = \frac{ \frac{\mathbb{P}(X = 1 | Y = 1)}{ 1 - \mathbb{P}(X = 1 | Y = 1) } }{ \frac{\mathbb{P}(X = 1 | Y = 0)}{ 1 - \mathbb{P}(X = 1 | Y = 0) } }
\]
Pour se convaincre de cette propriété, simplifions les deux fractions. La fraction de définition tout d’abord :
\[
OR
= \frac{ \frac{\mathbb{P}(Y = 1 | X = 1)}{ 1 - \mathbb{P}(Y = 1 | X = 1) } }{ \frac{\mathbb{P}(Y = 1 | X = 0)}{ 1 - \mathbb{P}(Y = 1 | X = 0) } }
= \frac{ \frac{\mathbb{P}(Y = 1 | X = 1)}{ \mathbb{P}(Y = 0 | X = 1) } }{ \frac{\mathbb{P}(Y = 1 | X = 0)}{ \mathbb{P}(Y = 0 | X = 0) } }
= \frac{ \frac{\mathbb{P}(Y = 1 , X = 1)}{ \mathbb{P}(Y = 0 , X = 1) } }{ \frac{\mathbb{P}(Y = 1 , X = 0)}{ \mathbb{P}(Y = 0 , X = 0) } }
= \frac{ \mathbb{P}(Y = 1 , X = 1) \mathbb{P}(Y = 0 , X = 0) }{ \mathbb{P}(Y = 0 , X = 1) \mathbb{P}(Y = 1 , X = 0) }
\]
Et la fraction qui apparaît dans la propriété, à présent : \[
\frac{ \frac{\mathbb{P}(X = 1 | Y = 1)}{ 1 - \mathbb{P}(X = 1 | Y = 1) } }{ \frac{\mathbb{P}(X = 1 | Y = 0)}{ 1 - \mathbb{P}(X = 1 | Y = 0) } }
= \frac{ \frac{\mathbb{P}(X = 1 | Y = 1)}{ \mathbb{P}(X = 0 | Y = 1) } }{ \frac{\mathbb{P}(X = 1 | Y = 0)}{ \mathbb{P}(X = 0 | Y = 0) } }
= \frac{ \frac{\mathbb{P}(X = 1 , Y = 1)}{ \mathbb{P}(X = 0 , Y = 1) } }{ \frac{\mathbb{P}(X = 1 , Y = 0)}{ \mathbb{P}(X = 0 , Y = 0) } }
= \frac{ \mathbb{P}(X = 1 , Y = 1) \mathbb{P}(X = 0 , Y = 0) }{ \mathbb{P}(X = 0 , Y = 1) \mathbb{P}(X = 1 , Y = 0) }
\]
Indépendance des deux événements
Une seconde propriété peut nous aider à interpréter OR : celui-ci vaut 1 si et seulement si \(X\) est indépendante de \(Y\).
En effet, si \(X\) est indépendante de \(Y\), alors par application de la définition, \[
OR
= \frac{ \frac{\mathbb{P}(X = 1 | Y = 1)}{ 1 - \mathbb{P}(X = 1 | Y = 1) } }{ \frac{\mathbb{P}(X = 1 | Y = 0)}{ 1 - \mathbb{P}(X = 1 | Y = 0) } }
= \frac{ \frac{\mathbb{P}(X = 1)}{ 1 - \mathbb{P}(X = 1) } }{ \frac{\mathbb{P}(X = 1)}{ 1 - \mathbb{P}(X = 1) } }
= 1
\]
Et réciproquement, si \(OR = 1\), alors : \[
\frac{\mathbb{P}(X = 1 | Y = 1)}{ \mathbb{P}(X = 0 | Y = 1) }
= \frac{\mathbb{P}(X = 1 | Y = 0)}{ \mathbb{P}(X = 0 | Y = 0) }
= \frac{\mathbb{P}(X = 1)}{ \mathbb{P}(X = 0) }
\]
On peut faire de même symmétriquement pour la loi de \(Y\). On a donc bien indépendance de \(X\) et \(Y\).
Différents cas d’application
Reprenons les trois possibilités d’échantillonnage qu’on avait proposées précedemment.
La première, un échantillonnage représentatif de la population générale, menait au tableau suivant :

La probabilité \(\mathbb{P}(Y = 1 | X = 1)\) s’estime alors simplement en divisant \(n_{EM}\) par \(n_{EM} + n_{E\bar{M}}\). Les normalisations se simplifient et on peut estimer OR simplement avec :
\[
\hat{OR}
= \frac{ \frac{n_{EM}}{n_{E\bar{M}}} }{ \frac{n_{\bar{E}M}}{n_{\bar{E}\bar{M}}} }
= \frac{ n_{EM} n_{\bar{E}\bar{M}} }{ n_{E\bar{M}} n_{\bar{E}M} }
\]
On obtient alors :
OR1 <- d_S_1$n[1] * d_S_1$n[4] / (d_S_1$n[2] * d_S_1$n[3])
Ce qui vaut 11.6329114.
Dans le second cas, avec un échantillonnage contrôlant l’exposition, on avait obtenu le tableau suivant :

La même formule que précédemment s’applique encore, pour la même raison.
OR2 <- d_S_2$n[1] * d_S_2$n[4] / (d_S_2$n[2] * d_S_2$n[3])
Cette fois, l’application numérique nous donne l’infini.
Enfin, passons au troisième cas, l’échantillonnage en contrôlant la quantité de malades. C’était cet échantillonnage qui nous posait problème pour calculer RR. On avait :

la propriété de symmétrie de \(X\) et \(Y\) nous permet encore de calculer quelque chose, en estimant \(\mathbb{P}(X = 1 | Y = 1)\) par \(n_{EM} / (n_{EM} + n_{\bar{E}M})\). Les dénominateurs se simplifient encore, de sorte qu’on retombe sur la même formule que précédemment, une fois de plus.
OR3 <- d_S_3$n[1] * d_S_3$n[4] / (d_S_3$n[2] * d_S_3$n[3])
Cette fois, l’application numérique nous donne 13.0950997.
Ce dernier cas de figure est clairement le plus approprié pour estimer OR, puisqu’on maximise les effectifs de chacune des catégories, ce qui diminue la variance de notre estimateur.
