Poly de révision

Nombre de sujets nécessaires, puissance statistique et annales résolues

Ce poly a un seul objectif : permettre de répondre entièrement aux questions d’annales portant sur le calcul du nombre de sujets nécessaires, la puissance, et les cas voisins.

Il suit une progression volontairement simple :

reconnaître immédiatement le type de question ;
mobiliser la bonne formule ou le bon raisonnement ;
écrire une réponse d’examen complète, même si le calcul exact n’est pas reconstructible ;
retrouver année par année ce qu’il fallait faire.

didactique progressif détaillé orienté annales HTML A4 + PDF

Idée directrice

Le mot NSN ne signifie pas toujours la même chose selon le design.
Dans un essai randomisé, on peut souvent faire un vrai calcul prospectif.
Dans une cohorte ou une étude transversale, il faut souvent raisonner plutôt en nombre d’événements, en précision, ou en interprétation des intervalles de confiance.

Comment utiliser ce poly

Lecture conseillée :

lire les sections 1 à 4 pour acquérir la mécanique générale ;
passer ensuite directement à la section “Annales résolues” ;
revenir à la fin sur les réponses-type et la checklist.

Si vous êtes en révision rapide, les éléments à mémoriser en priorité sont :

les paramètres indispensables d’un NSN ;
les trois grandes formules de base ;
les ajustements majeurs : dropout, cluster, multiplicité, surdispersion, co-primary endpoints, non-infériorité ;
la façon de répondre quand le calcul exact est impossible.

1. Carte rapide des questions couvertes

Année	Épreuve	Nature de la question	Mouvement attendu
2011	EPI	puissance a posteriori	discuter l’effet brut vs l’effet net et la précision
2011	RC	ITT, perdus de vue, inflation du NSN	distinguer arrêt de traitement et vraie perte de suivi
2012	EPI	faible nombre d’événements, puissance	montrer que peu d’événements = faible puissance
2012	RC	retrouver le NSN	raisonner “event-driven” à partir du nombre d’événements
2013	EPI	pas de calcul a priori, puissance rudimentaire	remplacer le NSN par un raisonnement de précision
2014	EPI	même situation, très grande cohorte	conclure à une puissance très élevée, limite = biais
2016	EPI	comment discuter la puissance d’une cohorte	raisonner par événements, sous-groupes, IC
2019	EPI	cohorte immense	dire que la puissance n’est pas le vrai problème
2020	RC	co-primary endpoints	partir d’un calcul simple puis ajouter la corrélation
2021	RC	essai individuel au lieu de cluster	faire un NSN standard à deux proportions
2022	RC	modèle binomial négatif	énumérer les paramètres et expliquer ce qui manque
2023	RC	essai individuel, trois bras, majoration	calcul continu simple puis inflation
2024	RC	non-infériorité	retrouver le calcul simplifié du corrigé
2025	RC	log-rank, hypothèses explicites	reprendre directement les hypothèses de l’article

2. Réflexe n°1 : identifier le bon type de question

2.1. Vrai NSN prospectif

Vous êtes dans ce cas si l’énoncé demande :

“combien de sujets faut-il inclure ?”
“retrouvez le nombre de sujets nécessaires”
“si l’essai avait randomisé des sujets et non des clusters”
“essai de non-infériorité”
“test du log-rank”

Le bon réflexe est alors :

identifier le type de critère principal ;
récupérer alpha, beta, l’effet attendu, et la variabilité ;
appliquer la formule ou la logique pertinente ;
corriger pour les éléments de design.

2.2. Puissance a posteriori

Vous êtes dans ce cas si l’étude est déjà réalisée et que la question dit :

“calculez une puissance a posteriori”
“le faible nombre d’événements a limité la puissance”
“comment discuter la puissance dans une telle étude ?”

Le bon réflexe est alors :

dire d’abord que la puissance observée est un raisonnement secondaire ;
utiliser plutôt l’estimation d’effet et l’IC95% ;
si on vous force à chiffrer, proposer un calcul grossier et l’interpréter avec prudence.

2.3. Critique méthodologique autour du NSN

Vous êtes dans ce cas si l’énoncé mêle NSN et :

ITT ;
perdus de vue ;
cluster ;
co-primary endpoints ;
multiplicité ;
surdispersion.

Le bon réflexe est alors :

ne pas foncer sur une formule ;
commencer par expliquer pourquoi le calcul simple est insuffisant ;
expliciter l’ajustement qui manque.

3. Les briques de base à connaître

3.1. Les paramètres indispensables

Paramètre	Symbole	Ce qu’il faut dire
risque de première espèce	`alpha`	probabilité de faux positif acceptée
risque de deuxième espèce	`beta`	probabilité de faux négatif acceptée
puissance	`1 - beta`	probabilité de détecter l’effet s’il existe
effet minimal pertinent	`delta`, `HR`, `p1-p2`	effet qu’on ne veut pas manquer
variabilité / risque de base	`sigma`, `p`, taux d’événements	composante indispensable du calcul
allocation	`r`, `p`	1:1, 2:1, trois bras, cluster
suivi / recrutement	durée	crucial en survie et en event-driven
pertes prévues	dropout	inflation éventuelle de l’effectif
design complexe	`ICC`, `rho`, surdispersion	cluster, co-primary, comptages

Phrase à écrire presque à chaque fois

Pour calculer un NSN, il faut au minimum un alpha, une puissance, une taille d’effet cliniquement pertinente, et une mesure de la variabilité ou du risque de base. Ensuite on ajuste si nécessaire pour les pertes, le cluster, la multiplicité ou d’autres contraintes du design.

3.2. Les valeurs de `z` à mémoriser

Hypothèse	Valeur utile
`alpha = 0,05` bilatéral	`1,96`
`alpha = 0,05` unilatéral	`1,645`
`alpha = 0,025` unilatéral	`1,96`
puissance 80%	`0,84`
puissance 85%	`1,04` environ
puissance 90%	`1,28`

Repères à citer tels quels :

$z_{1-\alpha/2} = 1{,}96 \quad \text{pour } \alpha = 5\% \text{ bilatéral}$

$z_{1-\beta} = 0{,}84 \quad \text{pour une puissance de } 80\%$

$z_{1-\beta} = 1{,}28 \quad \text{pour une puissance de } 90\%$

3.3. Formule indispensable pour remonter d’un `IC95%` vers un `SE`

Cette formule est capitale dans les questions de puissance a posteriori, parce que les articles donnent souvent une estimation et son IC95%, mais pas directement l’écart-type standard (SE).

3.3.1. Cas général : estimateur exprimé sur une échelle linéaire

Si l’intervalle de confiance est écrit sous la forme :

$IC95\% = \hat\theta \pm 1{,}96 \times SE$

alors :

$SE = \frac{\text{borne sup} - \text{borne inf}}{2 \times 1{,}96} = \frac{\text{largeur de l'IC}}{3{,}92}$

Autrement dit :

vous prenez la largeur totale de l’intervalle ;
vous la divisez par 3,92 ;
vous obtenez un SE approché.

Exemple simple : si une réduction relative est estimée à 10% avec IC95% -4% à 24%, alors

$SE \approx \frac{0{,}24 - (-0{,}04)}{3{,}92} = \frac{0{,}28}{3{,}92} \approx 0{,}071$

3.3.2. Cas très fréquent des `RR`, `OR` et `HR`

Pour les risques relatifs, odds ratios et hazard ratios, il faut presque toujours travailler sur l’échelle logarithmique, car c’est sur cette échelle que l’IC est approximativement symétrique.

Dans tout ce poly, $\log$ désigne le logarithme népérien, c’est-à-dire $\ln$ .

Si l’article donne :

$RR \text{ avec } IC95\% [L ; U]$

alors on utilise :

$SE(\log RR) \approx \frac{\log(U) - \log(L)}{3{,}92}$

et de même :

$SE(\log OR) \approx \frac{\log(U) - \log(L)}{3{,}92}$

$SE(\log HR) \approx \frac{\log(U) - \log(L)}{3{,}92}$

Exemple : si RR = 0,72 avec IC95% 0,63 à 0,81,

$SE(\log RR) \approx \frac{\log(0{,}81) - \log(0{,}63)}{3{,}92} \approx 0{,}064$

avec :

$\log(0{,}81) \approx -0{,}21,\qquad \log(0{,}63) \approx -0{,}46$

$\log(0{,}81)-\log(0{,}63) \approx 0{,}25$

$\frac{0{,}25}{3{,}92} \approx 0{,}064$

Table utile de ln(x) sans calculatrice :

`x`	`ln(x)`
`0,1`	`-2,303`
`0,2`	`-1,609`
`0,3`	`-1,204`
`0,4`	`-0,916`
`0,5`	`-0,693`
`0,6`	`-0,511`
`0,7`	`-0,357`
`0,8`	`-0,223`
`0,9`	`-0,105`
`1,0`	`0,000`
`1,1`	`0,095`
`1,2`	`0,182`
`1,3`	`0,262`
`1,4`	`0,336`
`1,5`	`0,405`
`1,6`	`0,470`
`1,7`	`0,531`
`1,8`	`0,588`
`1,9`	`0,642`
`2,0`	`0,693`

3.3.3. Comment on s’en sert à l’examen

Le chemin de calcul est presque toujours le même :

repérer dans l’article l’estimateur et son IC95% ;
choisir la bonne échelle :
- échelle brute si l’effet est donné comme une différence ou une réduction exprimée directement ;
- échelle logarithmique pour un RR, OR ou HR ;
calculer le SE avec la formule largeur / 3,92 ;
calculer un score de Wald grossier :

$z \approx \frac{\hat\theta}{SE}$

ou, pour un RR / OR / HR :

$z \approx \frac{|\log(\widehat{RR})|}{SE(\log RR)}$

conclure qualitativement :
- z très supérieur à 1,96 : puissance observée très élevée ;
- z proche de 1,96 : puissance limitée ou modérée ;
- z inférieur à 1,96 : résultat imprécis, puissance faible.

Pour un chiffrage grossier de puissance observée, on peut utiliser :

$\text{puissance} \approx \Phi(z - 1{,}96)$

en bilatéral au seuil 5%, avec toutes les précautions d’usage.

Ici, Φ désigne la fonction de répartition de la loi normale centrée réduite :

$\Phi(a) = P(Z \le a) \quad \text{avec } Z \sim \mathcal N(0,1)$

Concrètement, pour passer de z - 1,96 à une puissance :

soit vous utilisez une table de la loi normale ;
soit vous utilisez des valeurs repères ;
soit vous raisonnez par ordre de grandeur.

Table de Φ(x) de -2 à 2 par pas de 0,25 :

`x`	`Φ(x)`
`-2`	`0,0228`
`-1,75`	`0,0401`
`-1,5`	`0,0668`
`-1,25`	`0,1056`
`-1`	`0,1587`
`-0,75`	`0,2266`
`-0,5`	`0,3085`
`-0,25`	`0,4013`
`0`	`0,5000`
`0,25`	`0,5987`
`0,5`	`0,6915`
`0,75`	`0,7734`
`1`	`0,8413`
`1,25`	`0,8944`
`1,5`	`0,9332`
`1,75`	`0,9599`
`2`	`0,9772`

Règle de symétrie très utile :

$\Phi(-x) = 1 - \Phi(x)$

Par exemple :

$\Phi(-0{,}5) \approx 1 - 0{,}69 = 0{,}31$

$\Phi(-0{,}75) \approx 1 - 0{,}77 = 0{,}23$

$\Phi(-1) \approx 1 - 0{,}84 = 0{,}16$

Piège classique

Dans cette partie du poly, on n’utilise pas directement Φ(z).
On utilise :

$\text{puissance} \approx \Phi(z - 1{,}96)$

Donc :

si z = 1,96, alors z - 1,96 = 0 et la puissance est autour de 50% ;
si z = 2,96, alors z - 1,96 = 1 et la puissance est autour de 84% ;
si z = 3,96, alors z - 1,96 = 2 et la puissance est autour de 98%.

Tableau mental très pratique :

`z` observé	`z - 1,96`	puissance approximative
`1,0`	`-0,96`	`0,17`
`1,5`	`-0,46`	`0,32`
`1,96`	`0`	`0,50`
`2,5`	`0,54`	`0,70`
`2,96`	`1,00`	`0,84`
`3,5`	`1,54`	`0,94`
`3,96`	`2,00`	`0,98`
`5,0`	`3,04`	`≈ 1,00`

Lecture pratique :

si z - 1,96 est proche de 0, la puissance est autour de 50% ;
si z - 1,96 vaut environ 1, la puissance est déjà élevée ;
si z - 1,96 vaut 2 ou plus, la puissance est très élevée ;
si z - 1,96 vaut 3 ou plus, elle est pratiquement égale à 1.

Important

Cette astuce sert surtout à produire un ordre de grandeur quand l’examen impose une discussion de puissance a posteriori. En pratique, l’IC95% est souvent plus informatif que la puissance observée elle-même.

3.4. Les trois grandes formules

3.4.1. Deux moyennes

$n_{\text{par bras}} = \frac{2(z_{1-\alpha/2}+z_{1-\beta})^2\sigma^2}{\delta^2}$

À utiliser quand le critère principal est continu et qu’on compare deux groupes indépendants.

3.4.2. Deux proportions

$n_{\text{par bras}} = \frac{\left[z_{1-\alpha/2}\sqrt{2\bar p(1-\bar p)}+z_{1-\beta}\sqrt{p_1(1-p_1)+p_2(1-p_2)}\right]^2}{(p_1-p_2)^2}$

avec $\bar p = (p_1+p_2)/2$ .

À utiliser quand le critère principal est binaire.

3.4.3. Essais de survie / log-rank

Ce qu’on dimensionne souvent d’abord, c’est le nombre d’événements requis.

Pour passer d’un risque cumulé observé à un taux annuel sous hypothèse exponentielle, on utilise :

$\lambda \approx -\frac{\log(1-R(t))}{t}$

Réciproquement :

$R(t) = 1-e^{-\lambda t}$

Si le traitement agit via un hazard ratio :

$\lambda_1 = HR \times \lambda_0$

Forme de base de Schoenfeld :

$D = \frac{(z_{1-\alpha/2}+z_{1-\beta})^2}{p(1-p)\left[\log(HR)\right]^2}$

où :

$D$ = nombre d’événements nécessaires ;
$p$ = proportion allouée à un groupe, souvent 0,5 ;
$HR$ = hazard ratio visé.

Cas très fréquent d’une randomisation 1:1 :

$p = 0{,}5 \qquad \Rightarrow \qquad p(1-p) = 0{,}5 \times 0{,}5 = 0{,}25$

Donc :

$\frac{1}{p(1-p)} = \frac{1}{0{,}25} = 4$

et la formule devient :

$D = \frac{4(z_{1-\alpha/2}+z_{1-\beta})^2}{\left[\log(HR)\right]^2}$

Autrement dit, le 4 ne sort pas de nulle part : il vient simplement du fait que l’on remplace p(1-p) par 0,25 dans le cas 1:1.

Attention aussi à la notation de z :

en bilatéral à 5%, on écrit $z_{1-\alpha/2} = 1{,}96$ ;
en unilatéral à 2,5%, on écrit $z_{1-\alpha} = 1{,}96$ .

La valeur numérique est la même, mais l’écriture correcte dépend du type de test.

Ensuite seulement on convertit ce besoin en un nombre de sujets à partir :

du risque attendu ;
de la durée de recrutement ;
de la durée de suivi ;
des pertes de vue.

3.4.4. Non-infériorité

Dans les annales, la non-infériorité apparaît surtout quand on veut montrer que la stratégie test n’est pas trop moins bonne que le contrôle.

Il faut alors toujours préciser :

le sens de l’hypothèse ;
la marge de non-infériorité $\Delta$ ;
le fait que l’alpha est en général unilatéral.

Cas simple à deux proportions, avec un critère binaire défavorable et une marge exprimée en différence absolue de risque :

$H_0 : p_T - p_C \ge \Delta \qquad \text{contre} \qquad H_1 : p_T - p_C < \Delta$

Forme générale, à groupes équilibrés :

$n_{\text{par bras}} \approx \frac{(z_{1-\alpha}+z_{1-\beta})^2\,[p_C(1-p_C)+p_T(1-p_T)]}{\left[\Delta-(p_T-p_C)\right]^2}$

Dans beaucoup d’exercices de cours, on suppose que les deux groupes auront des risques proches, donc $p_T \approx p_C \approx p$ . La formule se simplifie alors en :

$n_{\text{par bras}} \approx \frac{2(z_{1-\alpha}+z_{1-\beta})^2\,p(1-p)}{\Delta^2}$

C’est exactement l’esprit de l’annale 2024 RC :

on prend souvent un alpha unilatéral à 2,5%, donc $z_{1-\alpha} \approx 1{,}96$ ;
on choisit une puissance, par exemple 90%, donc $z_{1-\beta} \approx 1{,}28$ ;
puis on remplit la formule avec le risque de base et la marge cliniquement acceptable.

Point crucial :

plus la marge $\Delta$ est petite, plus le NSN explose ;
la non-infériorité demande souvent plus de sujets qu’un essai de supériorité classique.

4. Les ajustements qu’il ne faut pas oublier

4.1. Dropout et perdus de vue

Si l’on prévoit un taux de perte $q$ :

$n_{\text{ajusté}} = \frac{n_{\text{calculé}}}{1-q}$

Exemple :

si n = 100 par bras et q = 15%, alors 100/0,85 = 117,6, donc 118 par bras.

Piège majeur

Un arrêt du traitement n’est pas forcément une perte de suivi.
En ITT, un patient qui arrête le traitement reste analysable si l’on continue à recueillir le critère principal.

4.2. Essai en cluster

Effet de design :

$DE = 1 + (m-1)\times ICC$

Puis :

$n_{\text{cluster-ajusté}} = n_{\text{individuel}} \times DE$

où :

$m$ = taille moyenne des clusters ;
$ICC$ = corrélation intra-cluster.

4.3. Multiplicité

Correction la plus simple :

$\alpha_{\text{ajusté}} = \frac{\alpha}{m}$

si l’on fait m comparaisons indépendantes et que l’on veut un contrôle global simple de l’erreur de type I.

4.4. Co-primary endpoints

Quand le critère principal comporte plusieurs composantes qui doivent toutes être positives :

le NSN augmente ;
la corrélation entre critères devient importante ;
une simple formule “deux moyennes” ou “deux proportions” n’est plus suffisante.

4.5. Surdispersion

Pour les comptages, si la variance dépasse la moyenne :

un modèle de Poisson simple devient trop optimiste ;
il faut un modèle binomial négatif ou une correction équivalente ;
le NSN est plus grand que dans un calcul naïf.

4.6. Non-infériorité

Toujours vérifier :

la marge de non-infériorité ;
le sens de l’hypothèse ;
le caractère souvent unilatéral du test ;
la justification clinique de la marge.

5. Comment écrire une bonne réponse d’examen

5.1. Trame universelle

identifier le design ;
identifier le type de critère principal ;
lister les paramètres nécessaires ;
préciser lesquels sont présents dans l’article ;
faire le calcul ou le raisonnement détaillé ;
conclure par un chiffre ou une interprétation claire.

5.2. Si le calcul exact est impossible

Une excellente copie peut écrire :

Le calcul exact n’est pas reconstructible car il manque [paramètre], mais la logique du dimensionnement est claire : il faut [liste des paramètres], et l’ordre de grandeur attendu est de [chiffre ou intervalle plausible].

5.3. Si l’étude est observationnelle

Une excellente copie peut écrire :

Ici, la bonne discussion n’est pas vraiment celle d’un NSN a priori. Il faut plutôt raisonner en nombre d’événements, en largeur des IC95%, et en limites de validité causale.

6. Annales résolues avec calculs détaillés

Dans chaque annale, le bloc Extrait de l’article à analyser montre le passage original en anglais qu’il faut lire. Essayez d’abord de repérer seul les paramètres utiles, puis utilisez le bouton pour vérifier.

Mode d’emploi de cette section

Pour vous en servir comme d’un vrai cahier d’exercices :

lisez d’abord l’article et le contexte ;
reformulez la question d’examen avec vos propres mots ;
relevez dans l’article les hypothèses utiles avant de regarder le calcul ;
comparez ensuite votre raisonnement à la résolution guidée et à la réponse type.

6.1. 2011 EPI

Article et contexte

Article support : Kalager et al., NEJM 2010, sur l’effet de la mammographie de dépistage sur la mortalité par cancer du sein en Norvège.

programme national commencé en 1996, avec extension géographique progressive pendant 9 ans ;
femmes âgées de 50 à 69 ans, mammographie tous les 2 ans ;
40 075 femmes atteintes d’un cancer du sein incluses dans l’analyse ;
comparaison en quatre groupes :
- groupe actuel avec dépistage ;
- groupe actuel sans dépistage ;
- groupe historique miroir du premier ;
- groupe historique miroir du second.

Ce point est crucial : l’article n’oppose pas simplement “dépistage” contre “pas de dépistage”. Il essaie aussi de séparer l’effet du dépistage de l’amélioration générale de la prise en charge du cancer du sein au fil du temps.

Question posée dans l’annale

Dans la mesure du possible calculez une puissance a posteriori.

Exercice contextualisé

L’énoncé vous demande une puissance a posteriori, mais le vrai travail préalable est de comprendre sur quel effet vous allez la calculer.

Dans ce papier, on peut raisonner sur deux effets différents :

l’effet brut du groupe avec dépistage par rapport à son groupe historique ;
l’effet net attribuable spécifiquement au dépistage, après prise en compte du fait que la mortalité baisse aussi dans le groupe non dépisté grâce aux progrès thérapeutiques et diagnostiques.

Si vous ne faites pas cette distinction, vous ne répondez pas à la vraie difficulté de la question.

Extrait de l’article à analyser

Passage exact de l'article

Lisez d'abord l'extrait en anglais, essayez d'identifier les paramètres utiles, puis vérifiez avec le bouton.

"We analyzed data from 40,075 women with breast cancer. The rate of death was reduced by 7.2 deaths per 100,000 person-years in the screening group as compared with the historical screening group (rate ratio, 0.72; 95% confidence interval [CI], 0.63 to 0.81) and by 4.8 deaths per 100,000 person-years in the nonscreening group as compared with the historical nonscreening group (rate ratio, 0.82; 95% CI, 0.71 to 0.93; P<0.001 for both comparisons), for a relative reduction in mortality of 10% in the screening group (P = 0.13). Thus, the difference in the reduction in mortality between the current and historical groups that could be attributed to screening alone was 2.4 deaths per 100,000 person-years, or a third of the total reduction of 7.2 deaths."

"Given the reduction in mortality among women in the nonscreening group, as compared with their historical counterparts, the relative reduction among women in the screening group was 10% (95% CI, -4 to 24; P = 0.13)."

Infos à repérer

baisse de mortalité dans le groupe avec dépistage vs historique : 7,2 décès pour 100 000 personnes-années ; RR = 0,72 ; IC95% 0,63 à 0,81 ;
baisse de mortalité dans le groupe sans dépistage vs historique : 4,8 décès pour 100 000 personnes-années ; RR = 0,82 ; IC95% 0,71 à 0,93 ;
effet attribuable au dépistage seul : 2,4 décès pour 100 000 personnes-années, soit environ un tiers de la baisse totale ;
traduction relative de cet effet net : environ 10%, avec IC95% -4% à 24%.

Ce que l’examinateur veut vérifier

savez-vous repérer qu’il s’agit d’une quasi-expérience et non d’un essai randomisé classique ;
savez-vous distinguer effet brut et effet net du dépistage ;
savez-vous comprendre qu’une puissance post hoc calculée sur l’effet brut et sur l’effet net ne raconte pas la même histoire.

Comment passer des chiffres de l’article au calcul

La difficulté de cette annale n’est pas seulement de réciter une formule.
Il faut montrer quel nombre on prend dans l’article et pourquoi.

Étape 1. Décider quel effet on veut quantifier

Deux options sont possibles :

effet brut du programme avec dépistage : RR = 0,72, IC95% 0,63 à 0,81 ;
effet net attribuable au dépistage seul après soustraction de l’amélioration générale : environ 10%, IC95% -4% à 24%.

La copie doit dire explicitement quel effet est choisi.
Si on ne le dit pas, le calcul est ambigu.

Étape 2. Choisir la bonne échelle

Pour le RR = 0,72, on travaille sur l’échelle logarithmique, car un risque relatif ne se traite pas directement sur l’échelle brute.

On applique donc la formule générale rappelée en section 3.3 :

$SE(\log RR) \approx \frac{\log(\text{borne sup}) - \log(\text{borne inf})}{3{,}92}$

Pour l’effet net 10% avec IC95% -4% à 24%, l’effet est déjà présenté sur une échelle linéaire centrée autour de 0, donc on peut utiliser directement :

$SE \approx \frac{\text{largeur de l'IC}}{3{,}92}$

Étape 3. Refaire le calcul sur l’effet brut

Rappel de formule

Pour un risque relatif, on travaille sur l’échelle logarithmique et on utilise :

$SE(\log RR) \approx \frac{\log(\text{borne sup}) - \log(\text{borne inf})}{3{,}92}$

Ici, l’article donne RR = 0,72 et IC95% 0,63 à 0,81. On remplace donc dans la formule :

$SE(\log RR) \approx \frac{\log(0{,}81)-\log(0{,}63)}{3{,}92} \approx 0{,}064$

Pour voir d’où vient ce 0,064, on peut expliciter :

$\log(0{,}81) \approx -0{,}21$

$\log(0{,}63) \approx -0{,}46$

$\log(0{,}81) - \log(0{,}63) \approx -0{,}21 - (-0{,}46) = 0{,}25$

$\frac{0{,}25}{3{,}92} \approx 0{,}064$

Rappel de formule

Une fois le SE obtenu, on calcule un score de Wald grossier par :

$z \approx \frac{|\log(\widehat{RR})|}{SE(\log RR)}$

Ici :

$z \approx \frac{|\log(0{,}72)|}{0{,}064} \approx \frac{0{,}329}{0{,}064} \approx 5{,}12$

avec :

$\log(0{,}72) \approx -0{,}33$

$\frac{|\log(0{,}72)|}{0{,}064} \approx \frac{0{,}33}{0{,}064} \approx 5{,}12$

Si l’on veut traduire ce z en puissance observée grossière, on utilise :

$\text{puissance} \approx \Phi(z - 1{,}96)$

donc :

$\Phi(5{,}12 - 1{,}96) = \Phi(3{,}16)$

Comme $\Phi(3)$ vaut déjà environ 0,9987, $\Phi(3{,}16)$ est encore un peu au-dessus et donc très proche de 1.

Interprétation :

z est très au-dessus de 1,96 ;
donc le signal statistique est très fort ;
si l’on force une puissance a posteriori sur cet effet brut, elle sera quasi égale à 100%.

Étape 4. Refaire le calcul sur l’effet net

Ici, il faut être très explicite sur l’origine des nombres :

10% est l’estimation ponctuelle rapportée par l’article pour l’effet net du dépistage ;
-4% et 24% sont les bornes de l’IC95% données par l’article ;
en revanche, SE et z ne sont pas donnés par l’article : on les reconstruit.

On travaille ici sur une échelle linéaire, donc on utilise directement :

$SE \approx \frac{\text{borne sup} - \text{borne inf}}{3{,}92}$

En remplaçant par les valeurs de l’article :

$SE \approx \frac{0{,}24 - (-0{,}04)}{3{,}92} = \frac{0{,}28}{3{,}92} \approx 0{,}071$

Ce calcul veut simplement dire :

largeur de l’IC = 0,24 - (-0,04) = 0,28 ;
puis 0,28 / 3,92 ≈ 0,071.

On a donc reconstruit un SE d’environ 0,071.

Rappel de formule

Sur une échelle linéaire, le score de Wald grossier s’écrit :

$z \approx \frac{\hat\theta}{SE}$

Ici, l’effet estimé vaut 0,10, donc :

$z \approx \frac{0{,}10}{0{,}071} \approx 1{,}40$

Autrement dit :

effet estimé = 0,10 ;
erreur standard reconstruite = 0,071 ;
donc z ≈ 0,10 / 0,071 ≈ 1,40.

Interprétation :

z est inférieur à 1,96 ;
l’IC95% recouvre 0 ;
la puissance observée grossière n’est que d’environ 30%.

Si l’on veut expliciter le passage vers 30%, on utilise :

$\text{puissance} \approx \Phi(z - 1{,}96)$

donc :

$\Phi(1{,}40 - 1{,}96) = \Phi(-0{,}56)$

Comme $\Phi(0)=0{,}50$ , une valeur négative comme -0,56 donne forcément quelque chose en dessous de 0,50.
Avec une table de la loi normale, on trouve environ 0,29, soit 29%, que l’on peut arrondir à 30%.

Étape 5. Conclure correctement

La conclusion attendue n’est pas seulement numérique :

sur l’effet brut, l’étude paraît très puissante ;
sur l’effet spécifique du dépistage, elle est beaucoup moins convaincante ;
l’article est donc surtout limité par la difficulté d’isoler l’effet causal propre du dépistage, pas par un manque global de femmes incluses.

Calcul grossier si l’on force une puissance observée sur le résultat brut

Si l’on prend la comparaison la plus simple, celle du groupe “screening” contre son groupe historique :

Formule de départ :

$SE(\log RR) \approx \frac{\log(\text{borne sup}) - \log(\text{borne inf})}{3{,}92}$

Application numérique :

$SE(\log RR) \approx \frac{\log(0{,}81)-\log(0{,}63)}{3{,}92} \approx 0{,}064$

Décomposition mentale possible :

$\log(0{,}81) \approx -0{,}21,\qquad \log(0{,}63) \approx -0{,}46$

$\log(0{,}81) - \log(0{,}63) \approx 0{,}25$

$\frac{0{,}25}{3{,}92} \approx 0{,}064$

Puis, avec :

$z \approx \frac{|\log(\widehat{RR})|}{SE(\log RR)}$

$z \approx \frac{|\log(0{,}72)|}{0{,}064} \approx 5{,}12$

avec :

$\log(0{,}72) \approx -0{,}33$

$\frac{|\log(0{,}72)|}{0{,}064} \approx \frac{0{,}33}{0{,}064} \approx 5{,}12$

Pour passer de ce z à une puissance observée grossière, on utilise :

$\text{puissance} \approx \Phi(z - 1{,}96)$

donc :

$\Phi(5{,}12 - 1{,}96) = \Phi(3{,}16)$

Or $\Phi(3{,}16)$ signifie : probabilité qu’une variable normale standard soit inférieure à 3,16.

En pratique :

avec une table de la loi normale, on trouve une valeur très proche de 1 ;
sans table, il suffit de savoir que $\Phi(3) \approx 0{,}9987$ ;
donc $\Phi(3{,}16)$ est encore un peu au-dessus.

Conclusion : la puissance observée est pratiquement égale à 1, c’est-à-dire quasi 100%.

Calcul grossier sur l’effet net réellement attribué au dépistage

Si l’on essaie maintenant de raisonner sur l’effet propre du dépistage, estimé à environ 10% avec IC95% -4% à 24% :

Formule de départ :

$SE \approx \frac{\text{borne sup} - \text{borne inf}}{3{,}92}$

Application numérique :

$SE \approx \frac{0{,}24-(-0{,}04)}{3{,}92} \approx 0{,}071$

Puis, avec :

$z \approx \frac{\hat\theta}{SE}$

$z \approx \frac{0{,}10}{0{,}071} \approx 1{,}40$

Puis :

$\text{puissance} \approx \Phi(1{,}40 - 1{,}96) = \Phi(-0{,}56) \approx 0{,}29$

Donc la puissance observée approximative n’est que d’environ 30%.

Ce qu’il faut comprendre

La section “puissance” de la copie doit faire apparaître ceci :

si vous regardez l’effet brut, l’étude semble très puissante ;
si vous regardez le bénéfice spécifique du dépistage, la puissance est nettement plus faible ;
la question de fond n’est donc pas “y avait-il assez de femmes ?”, mais “l’étude pouvait-elle isoler proprement un effet du dépistage au-delà des progrès généraux de prise en charge ?”.

Réponse type

L’article est une étude quasi-expérimentale fondée sur le déploiement progressif du dépistage mammographique en Norvège. Il faut donc d’abord distinguer l’effet brut du groupe dépisté par rapport à son groupe historique et l’effet net attribuable au dépistage seul. Sur l’effet brut, la baisse de mortalité est marquée (RR = 0,72, IC95% 0,63 à 0,81) et une puissance a posteriori serait très élevée. Mais l’article montre aussi qu’une partie importante de la baisse de mortalité existe dans le groupe non dépisté, ce qui réduit l’effet propre du dépistage à environ 10% (IC95% -4% à 24%). Si l’on force un calcul sur cet effet net, la puissance devient faible, autour de 30%. La bonne conclusion est donc que l’étude est grande, mais qu’elle distingue imparfaitement le bénéfice spécifique du dépistage de l’amélioration globale des traitements.

6.2. 2011 RC

Article et contexte

Article support : James et al., NEJM 2010, essai SCOUT sur la sibutramine chez des sujets en surpoids ou obèses à haut risque cardiovasculaire.

10 744 sujets inclus au départ ;
après une phase de run-in simple aveugle de 6 semaines, 9804 sujets randomisés ;
participants âgés d’au moins 55 ans, avec maladie cardiovasculaire préexistante, diabète de type 2, ou les deux ;
critère principal : temps jusqu’au premier événement du composite :
- infarctus du myocarde non fatal ;
- AVC non fatal ;
- arrêt cardiaque récupéré ;
- décès cardiovasculaire.

L’article est donc un essai de survie / temps jusqu’à événement, pas un essai à critère binaire mesuré une seule fois.

Question posée dans l’annale

L’analyse est réalisée en ITT et le nombre de sujets nécessaire est calculé en tenant compte d’un nombre de perdus de vue possible. Qu’en pensez-vous ?

Exercice contextualisé

La question d’examen ne vous demande pas de refaire tout le calcul du NSN.
Elle vous demande de juger la phrase suivante :

L’analyse est réalisée en ITT et le nombre de sujets nécessaire est calculé en tenant compte d’un nombre de perdus de vue possible. Qu’en pensez-vous ?

Pour répondre, vous devez lire l’article avec trois idées en tête :

l’essai est en ITT ;
le critère principal est un événement cardiovasculaire que l’on peut continuer à observer même si le traitement est arrêté ;
il faut distinguer arrêt du traitement et vraie perte de suivi.

Extrait de l’article à analyser

Passage exact de l'article

Ici, les informations utiles sont dispersées entre le paragraphe de dimensionnement, le résumé des résultats et le diagramme de flux.

"We estimated that we would need to enroll 9000 subjects (4500 in each group) and to continue the study until 2160 confirmed primary outcome events had occurred to have 80% power to detect an 11.4% reduction in the hazard ratio with sibutramine as compared with placebo, or vice versa, assuming a 7% annual event rate with placebo and a 30% rate of discontinuation of sibutramine, at a two-sided type I error rate of 0.05."

"The mean duration of treatment was 3.4 years ... The risk of a primary outcome event was 11.4% in the sibutramine group as compared with 10.0% in the placebo group."

"58 were lost to follow-up ... 47 were lost to follow-up ... approximately 40% of the subjects had discontinued treatment."

Infos à repérer

planification : environ 9000 sujets, 2160 événements confirmés, puissance 80%, taux annuel placebo 7%, discontinuation 30% ;
après randomisation : 4906 dans le bras sibutramine et 4898 dans le bras placebo ;
suivi moyen du traitement : 3,4 ans ; résultat principal : 11,4% vs 10,0% ;
pertes de vue réelles : 47 et 58 ; arrêts permanents du traitement beaucoup plus fréquents, environ 4046 au total.

Ce que l’examinateur veut vérifier

savez-vous reconnaître qu’en ITT, un sujet reste analysable même s’il arrête le traitement, tant que l’on continue à recueillir les événements ;
savez-vous dire qu’une inflation du NSN pour “perdus de vue” n’a de sens que s’il y a risque de perdre l’information sur le critère principal ;
savez-vous montrer, avec les données de l’article, que la vraie perte d’information est faible alors que la non-observance est forte.

Résolution guidée

Le point clé est le suivant :

l’essai a beaucoup d’arrêts de traitement ;
mais très peu de vraies pertes de vue ;
or l’ITT tolère les premiers, mais pas les secondes.

On peut chiffrer cela simplement :

pertes de vue réelles :

$\frac{47+58}{9804} \approx 1{,}1\%$

discontinuations de traitement :

$\frac{4046}{9804} \approx 41{,}3\%$

Donc l’article mélange potentiellement deux réalités très différentes si l’on n’est pas précis dans le vocabulaire.

Réponse type

Le papier SCOUT est un essai ITT à critère principal de type temps jusqu’à événement cardiovasculaire. Il faut donc distinguer les arrêts de traitement, fréquents, des vraies pertes de suivi, rares. En ITT, un patient qui arrête la sibutramine reste analysable si les événements cardiovasculaires continuent à être recueillis. Or c’est justement ce qui était prévu dans l’étude. Les chiffres de l’article montrent que les pertes de vue réelles sont faibles (105/9804, soit environ 1,1%), alors que les arrêts de traitement sont très nombreux (4046/9804, soit plus de 40%). Il est donc légitime de majorer un NSN pour anticiper des données manquantes sur le critère principal, mais il ne faut pas confondre cela avec la simple non-observance. La critique méthodologique attendue est là.

6.3. 2012 EPI

Article et contexte

Article support : Cooper et al., NEJM 2011, étude de cohorte rétrospective sur les médicaments du TDAH et les événements cardiovasculaires graves chez l’enfant et l’adulte jeune.

1 200 438 enfants et jeunes adultes de 2 à 24 ans ;
2 579 104 personnes-années de suivi ;
373 667 personnes-années d’utilisation actuelle de médicaments du TDAH ;
issue principale : événements cardiovasculaires graves :
- mort subite d’origine cardiaque ;
- infarctus du myocarde ;
- AVC ;
seulement 81 événements au total dans toute la cohorte, soit 3,1 pour 100 000 personnes-années.

Question posée dans l’annale

Il est indiqué dans le texte que: “The low number of events limited the statistical power of the study”. Pouvez-vous retrouver au moins approximativement cette puissance statistique ?

Exercice contextualisé

Le piège de cet article est classique :

la cohorte est énorme ;
mais les événements intéressants sont très rares.

Quand l’énoncé vous demande de retrouver approximativement la puissance, il veut que vous voyiez que la taille globale de la base de données ne suffit pas. Ce qui compte ici, c’est le nombre d’événements informatifs.

Extrait de l’article à analyser

Passage exact de l'article

Ici, presque toute la logique de la question est déjà dans le paragraphe de résultats et dans la dernière phrase de conclusion.

"Cohort members had 81 serious cardiovascular events (3.1 per 100,000 person-years). Current users of ADHD drugs were not at increased risk for serious cardiovascular events (adjusted hazard ratio, 0.75; 95% confidence interval [CI], 0.31 to 1.85)."

"There were 7 confirmed events among 373,667 person-years of follow-up for current users ... and 49 confirmed events among 1,597,962 person-years of follow-up for nonusers."

"This large study showed no evidence that current use of an ADHD drug was associated with an increased risk of serious cardiovascular events, although the upper limit of the 95% confidence interval indicated that a doubling of the risk could not be excluded ... The low number of events limited the statistical power of the study."

Infos à repérer

événements chez les utilisateurs actuels : 7 ;
événements chez les non-utilisateurs : 49 ;
HR ajusté = 0,75 avec IC95% 0,31 à 1,85 ;
message clé de l'article : pas de sur-risque démontré, mais un doublement du risque ne peut pas être exclu.

Ce que l’examinateur veut vérifier

savez-vous expliquer pourquoi une cohorte gigantesque peut malgré tout être peu puissante pour un événement rare ;
savez-vous utiliser l’intervalle de confiance pour produire un ordre de grandeur de puissance post hoc ;
savez-vous relier la faible puissance à la largeur de l’IC95%.

Approximation par l’intervalle de confiance

Formule de départ pour un hazard ratio :

$SE(\log HR) \approx \frac{\log(\text{borne sup}) - \log(\text{borne inf})}{3{,}92}$

Application numérique :

$SE(\log HR) \approx \frac{\log(1{,}85)-\log(0{,}31)}{3{,}92} \approx 0{,}456$

Sans sauter d’étapes :

$\log(1{,}85) \approx 0{,}62,\qquad \log(0{,}31) \approx -1{,}17$

$\log(1{,}85)-\log(0{,}31) \approx 0{,}62 - (-1{,}17) = 1{,}79$

$\frac{1{,}79}{3{,}92} \approx 0{,}456$

Puis, avec le score de Wald :

$z \approx \frac{|\log(\widehat{HR})|}{SE(\log HR)}$

$z \approx \frac{|\log(0{,}75)|}{0{,}456} \approx 0{,}63$

avec :

$\log(0{,}75) \approx -0{,}29$

$\frac{|\log(0{,}75)|}{0{,}456} \approx \frac{0{,}29}{0{,}456} \approx 0{,}63$

Puissance observée approximative :

$\text{puissance} \approx \Phi(z - 1{,}96)$

$\Phi(0{,}63 - 1{,}96) \approx 0{,}09$

car :

$0{,}63 - 1{,}96 = -1{,}33$

$\Phi(-1{,}33) \approx 0{,}09$

soit environ 10%.

Ce qu’il faut comprendre

La copie doit faire apparaître explicitement que :

l’effectif total est très grand ;
mais le nombre d’événements dans le groupe vraiment informatif est minuscule ;
c’est pour cela que l’IC95% reste très large ;
donc l’étude rassure contre un effet massif, mais n’exclut pas proprement un sur-risque modéré à important.

Réponse type

L’article inclut plus de 1,2 million de sujets, mais il ne faut pas se laisser impressionner par la taille globale de la cohorte : il n’y a que 81 événements cardiovasculaires graves au total et seulement 7 chez les utilisateurs actuels. C’est donc une situation typique où la cohorte est grande mais l’information statistique utile reste faible. À partir du HR = 0,75 et de son IC95% 0,31 à 1,85, on retrouve une puissance post hoc très grossière d’environ 10%. La bonne conclusion est que l’étude ne met pas en évidence de sur-risque, mais qu’elle manque de puissance pour exclure proprement un effet modéré, ce que montre déjà la largeur de l’intervalle de confiance.

6.4. 2012 RC

Article et contexte

Article support : AIM-HIGH Investigators, NEJM 2011, essai comparant niacine à libération prolongée versus placebo chez des patients ayant une maladie cardiovasculaire athéroscléreuse, un HDL bas et déjà une prise en charge lipidique intensive.

3414 patients randomisés :
- 1718 niacine ;
- 1696 placebo ;
traitement de fond par simvastatine, avec ézétimibe si besoin ;
critère principal : premier événement du composite cardiovasculaire ;
essai interrompu après environ 3 ans de suivi moyen pour absence d’efficacité ;
taux observés du critère principal :
- 16,4% dans le groupe niacine ;
- 16,2% dans le groupe placebo.

Question posée dans l’annale

Essayez de retrouver approximativement le nombre de sujet nécessaire.

Exercice contextualisé

Cette annale est typique d’un essai event-driven.

Vous ne devez pas raisonner comme si les auteurs avaient choisi un effectif fixe à partir d’une simple formule “deux proportions”. En réalité, le papier dit explicitement qu’il attend :

un nombre d’événements donné ;
sur une durée moyenne de suivi donnée ;
pour détecter une réduction relative donnée.

Votre travail consiste donc à montrer que le besoin était de l’ordre de plusieurs milliers de patients.

Extrait de l’article à analyser

Passage exact de l'article

Le paragraphe de dimensionnement est ici très explicite : il faut le lire comme un essai piloté par le nombre d'événements.

"In this event-driven trial, we expected to observe 800 adjudicated primary events during a mean follow-up period of 4.6 years. With this number of events, we estimated that the study would have 85% power to detect a 25% reduction in the revised five-component primary end point, at a one-sided alpha level of 0.025."

"A total of 3414 patients were randomly assigned to receive niacin (1718) or placebo (1696) ... The primary end point occurred in 282 patients in the niacin group (16.4%) and in 274 patients in the placebo group (16.2%)."

Infos à repérer

cible de dimensionnement : 800 événements primaires adjudiqués ;
suivi moyen prévu : 4,6 ans ; puissance 85% ; alpha unilatéral 0,025 ;
effet visé : réduction relative de 25% du critère principal ;
effectif finalement randomisé : 3414 sujets ; taux observés : 16,4% vs 16,2%.

Ce que l’examinateur veut vérifier

savez-vous reconnaître un essai piloté par le nombre d’événements ;
savez-vous exploiter un risque observé pour revenir à un ordre de grandeur d’effectif ;
savez-vous dire que le calcul exact n’est pas parfaitement reconstructible sans toutes les hypothèses de recrutement et de censure.

Raisonnement de coin de table

L’article observé donne environ 16,2% d’événements à 3 ans dans le groupe placebo.
On transforme cela en un taux annuel sous hypothèse exponentielle :

Formule de départ :

$\lambda \approx -\frac{\log(1-R(t))}{t}$

Application numérique :

$\lambda_0 \approx -\frac{\log(1-0{,}162)}{3} \approx 0{,}0589 \text{ par an}$

En détaillant :

$1 - 0{,}162 = 0{,}838$

$\log(0{,}838) \approx -0{,}177$

$-\frac{\log(0{,}838)}{3} \approx \frac{0{,}177}{3} \approx 0{,}0589$

Risque placebo sur 4,6 ans :

Formule de départ :

$R(t) = 1-e^{-\lambda t}$

Application numérique :

$R_0(4{,}6) = 1-e^{-0{,}0589\times 4{,}6} \approx 0{,}237$

Sous un HR = 0,75, risque traité :

Formule de départ :

$\lambda_1 = HR \times \lambda_0$

Application numérique :

$\lambda_1 \approx 0{,}75 \times 0{,}0589 \approx 0{,}0442 \text{ par an}$

Puis :

$R_1(4{,}6) \approx 1-e^{-0{,}0442 \times 4{,}6} \approx 0{,}184$

Risque moyen d’événement :

Formule de départ :

$\bar R \approx \frac{R_0+R_1}{2}$

$\bar R \approx \frac{0{,}237+0{,}184}{2} \approx 0{,}211$

Pour obtenir 800 événements :

Formule de départ :

$N \approx \frac{D}{\bar R}$

$N \approx \frac{800}{0{,}211} \approx 3798$

soit environ 3800 sujets au total, donc autour de 1900 par bras.

Interprétation

Ce calcul ne prétend pas reconstituer exactement le protocole, mais il montre bien que :

l’ordre de grandeur attendu est celui de quelques milliers de patients ;
l’effectif de 3414 randomisés est cohérent avec un essai event-driven de cette nature.

Réponse type

L’essai AIM-HIGH n’est pas dimensionné comme un essai simple à deux proportions, mais comme un essai event-driven. Les auteurs annoncent vouloir observer 800 événements primaires, avec une puissance de 85%, un alpha unilatéral de 2,5%, et une réduction relative attendue de 25%. En utilisant le risque observé dans le groupe placebo pour retrouver un ordre de grandeur du risque cumulé sur la durée de suivi, on retombe sur un besoin d’environ 3500 à 3800 sujets randomisés, soit autour de 1700 à 1900 par bras. L’effectif réellement inclus (3414) est donc cohérent avec cette logique.

6.5. 2013 EPI

Article et contexte

Article support : Lasalvia et al., Lancet 2013, enquête transversale sur la discrimination vécue et anticipée chez les personnes ayant un trouble dépressif majeur.

enquête transversale, pas essai interventionnel ;
39 sites dans 35 pays ;
1082 participants adultes avec diagnostic de dépression majeure ;
outil principal : DISC-12 ;
résultat descriptif central :
- 855 / 1082, soit 79%, rapportent une discrimination vécue dans au moins un domaine de vie.

Question posée dans l’annale

Dans l’article on ne trouve pas de justification de la taille de l’échantillon. A posteriori, il n’est pas facile de calculer une puissance statistique. Essayez tout de même de proposer un tel calcul, même très rudimentaire. (5 points)

Exercice contextualisé

La question d’examen est volontairement piégeuse :

Dans l’article on ne trouve pas de justification de la taille de l’échantillon. A posteriori, il n’est pas facile de calculer une puissance statistique. Essayez tout de même de proposer un tel calcul, même très rudimentaire.

Or le papier :

n’est pas un essai ;
ne teste pas une hypothèse principale unique ;
rapporte surtout des estimations descriptives et des associations multivariées.

La bonne réponse consiste donc à dire pourquoi un calcul de puissance classique est artificiel, puis à proposer un raisonnement de précision.

Extrait de l’article à analyser

Passage exact de l'article

Ici, le résumé suffit presque à lui seul pour reconstruire la réponse attendue.

"Methods In a cross-sectional survey, people with a diagnosis of major depressive disorder were interviewed in 39 sites (35 countries) worldwide with the discrimination and stigma scale (version 12; DISC-12)."

"Findings 1082 people with depression completed the DISC-12. Of these, 855 (79%) reported experiencing discrimination in at least one life domain. 405 (37%) participants had stopped themselves from initiating a close personal relationship, 271 (25%) from applying for work, and 218 (20%) from applying for education or training."

Infos à repérer

type de dessin : cross-sectional survey ;
taille de l'échantillon : 1082 ;
résultat principal facilement exploitable : 855 / 1082, soit 79%, rapportent une discrimination vécue ;
autres chiffres descriptifs utiles : 405 (37%), 271 (25%) et 218 (20%).

Ce que l’examinateur veut vérifier

savez-vous dire qu’il n’y a pas de vrai NSN prospectif ici ;
savez-vous remplacer l’idée de puissance par l’idée de précision d’estimation ;
savez-vous montrer que 1082 sujets donnent déjà une estimation assez stable de la proportion principale.

Calcul de précision simple

Formule de départ pour la proportion observée :

$p = \frac{x}{n}$

$p = \frac{855}{1082} \approx 0{,}790$

Puis l’erreur standard d’une proportion :

$SE(p) = \sqrt{\frac{p(1-p)}{n}}$

$SE(p) = \sqrt{\frac{p(1-p)}{n}} \approx \sqrt{\frac{0{,}79\times 0{,}21}{1082}} \approx 0{,}0124$

Enfin l’intervalle de confiance approximatif :

$IC95\% \approx p \pm 1{,}96\times SE(p)$

$IC95\% \approx 0{,}79 \pm 1{,}96\times 0{,}0124$

soit environ :

$[0{,}766 ; 0{,}814]$

c’est-à-dire 76,6% à 81,4%.

Ce qu’il faut comprendre

Avec cette annale, l’examinateur ne veut pas un faux calcul sophistiqué. Il veut que vous disiez :

que le papier n’est pas construit autour d’un unique test principal ;
que le meilleur substitut d’une discussion de puissance est la largeur de l’IC95% autour de la proportion centrale ;
que l’étude est assez grande pour décrire ce phénomène avec une précision raisonnable.

Réponse type

L’article est une enquête transversale internationale et ne repose pas sur un vrai calcul prospectif de nombre de sujets pour tester une hypothèse unique. Il est donc assez artificiel de parler de puissance au sens classique. En revanche, on peut raisonner en précision : la proportion principale observée, 855/1082, soit environ 79%, est estimée avec un IC95% assez étroit, autour de 76,6% à 81,4%. Cela montre que l’effectif est globalement confortable pour décrire la fréquence de la discrimination vécue, même si le papier n’explicite pas un calcul de taille d’échantillon a priori.

6.6. 2014 EPI

Article et contexte

Article support : Bao et al., NEJM 2013, étude de cohorte sur la consommation de noix et la mortalité totale et cause-spécifique.

deux grandes cohortes prospectives :
- 76 464 femmes ;
- 42 498 hommes ;
participants exempts de cancer, cardiopathie et AVC au départ ;
consommation de noix réévaluée tous les 2 à 4 ans ;
3 038 853 personnes-années de suivi ;
27 429 décès au total.

Question posée dans l’annale

Dans l’article on ne trouve pas de justification de la taille de l’échantillon. A posteriori, il n’est pas facile de calculer une puissance statistique. Essayez tout de même de proposer un tel calcul, même très rudimentaire.

Exercice contextualisé

Ici encore, la question parle de “puissance a posteriori”, mais l’article ne manque clairement pas de taille.

Ce qu’il faut montrer dans votre copie, c’est que :

la cohorte est gigantesque ;
le nombre d’événements est gigantesque ;
l’estimation principale est très précise ;
donc la discussion méthodologique doit porter ailleurs que sur la puissance.

Extrait de l’article à analyser

Passage exact de l'article

Le passage utile est ici le paragraphe de résultats qui combine taille de cohorte, nombre d'événements et précision des HR.

"We examined the association between nut consumption and subsequent total and cause-specific mortality among 76,464 women in the Nurses’ Health Study (1980-2010) and 42,498 men in the Health Professionals Follow-up Study (1986-2010)."

"During 3,038,853 person-years of follow-up, 16,200 women and 11,229 men died ... The pooled multivariate hazard ratios for death among participants who ate nuts, as compared with those who did not, were ... 0.80 (95% confidence interval [CI], 0.73 to 0.86) for seven or more times per week (P<0.001 for trend)."

Infos à repérer

résultat principal pour la consommation la plus élevée de noix : HR ≈ 0,80 avec IC95% 0,73 à 0,86 ;
effet dose-réponse monotone avec plusieurs catégories intermédiaires ;
événements très nombreux : plus de 27 000 décès, ce qui explique la précision de l'estimation.

Ce que l’examinateur veut vérifier

savez-vous voir qu’un papier observationnel peut être surabondant en information ;
savez-vous utiliser la finesse de l’IC95% comme indicateur indirect de précision ;
savez-vous conclure que la faiblesse du papier éventuel serait la confusion résiduelle, pas un manque de puissance.

Approximation par l’IC95%

Formule de départ pour un hazard ratio :

$SE(\log HR) \approx \frac{\log(\text{borne sup}) - \log(\text{borne inf})}{3{,}92}$

$SE(\log HR) \approx \frac{\log(0{,}86)-\log(0{,}73)}{3{,}92} \approx 0{,}0418$

En détaillant :

$\log(0{,}86) \approx -0{,}151,\qquad \log(0{,}73) \approx -0{,}315$

$\log(0{,}86)-\log(0{,}73) \approx -0{,}151 - (-0{,}315) = 0{,}164$

$\frac{0{,}164}{3{,}92} \approx 0{,}0418$

Puis :

$z \approx \frac{|\log(\widehat{HR})|}{SE(\log HR)}$

$z \approx \frac{|\log(0{,}80)|}{0{,}0418} \approx 5{,}34$

avec :

$\log(0{,}80) \approx -0{,}223$

$\frac{|\log(0{,}80)|}{0{,}0418} \approx \frac{0{,}223}{0{,}0418} \approx 5{,}34$

Enfin :

$\text{puissance} \approx \Phi(z - 1{,}96)$

donc ici :

$\Phi(5{,}34 - 1{,}96) = \Phi(3{,}38)$

Comme $\Phi(3)$ vaut déjà environ 0,9987, une telle valeur correspond à une puissance observée pratiquement égale à 1.

Réponse type

Le papier repose sur deux très grandes cohortes prospectives totalisant plus de 118 000 participants, plus de 3 millions de personnes-années et plus de 27 000 décès. Le résultat principal pour les plus gros consommateurs de noix (HR ≈ 0,80, IC95% 0,73 à 0,86) est estimé avec un intervalle très étroit, ce qui traduit une grande précision. Si l’on forçait un raisonnement en puissance observée, celle-ci serait quasi maximale. La bonne conclusion n’est donc pas “l’étude manque de puissance”, mais plutôt “l’étude est largement informative, et les vraies limites éventuelles tiennent à la confusion et à l’interprétation causale”.

6.7. 2016 EPI

Article et contexte

Article support : Schnabel et al., Lancet 2015, analyse des tendances sur 50 ans de la fibrillation atriale dans la cohorte de Framingham.

9511 participants ;
inclusion entre 1958 et 2007 ;
202 417 personnes-années ;
1544 cas incidents de fibrillation atriale ;
analyses par périodes de 10 ans et séparées selon le sexe.

Question posée dans l’annale

Comment aborder la question de la puissance statistique dans une telle étude ?

Exercice contextualisé

La question :

Comment aborder la question de la puissance statistique dans une telle étude ?

ne vise pas un calcul chiffré unique.
Elle vous demande de comprendre qu’un papier de tendances temporelles observationnelles ne se juge pas comme un essai randomisé à critère principal unique.

Il faut donc discuter la puissance à plusieurs niveaux :

sur l’ensemble de la cohorte ;
à l’intérieur des décennies ;
dans les analyses plus fines ou plus rares.

Extrait de l’article à analyser

Passage exact de l'article

Pour cette annale, il faut lire à la fois le paragraphe de résultats globaux et la phrase de discussion sur la puissance limitée dans les décennies anciennes.

"Findings During 50 years of observation (202 417 person-years), 1544 cases of new-onset atrial fibrillation occurred ... We analysed trends within 10 year groups (1958-67, 1968-77, 1978-87, 1988-97, and 1998-2007), stratified by sex."

"The number of atrial fibrillation cases in the first decades of reporting was small and might provide unstable estimates. For low-frequency conditions, the standard errors of the hazards ratios were large, and we had restricted power to detect trends across decades of the study period."

Infos à repérer

ampleur globale : 1544 cas incidents, donc beaucoup d'information pour les analyses générales ;
structure des analyses : comparaison sur cinq décennies, avec stratification par sexe ;
remarque explicite des auteurs : dans les premières décennies, les effectifs de cas sont plus faibles, les erreurs standard plus grandes et la puissance plus limitée.

Ce que l’examinateur veut vérifier

savez-vous renoncer à chercher un NSN fictif quand il n’y en a pas ;
savez-vous basculer vers une discussion en nombre d’événements et précision ;
savez-vous dire que la puissance n’est pas uniforme dans toutes les sous-analyses.

Ce qu’il faut écrire

La bonne réponse se structure ainsi :

au niveau global, l’étude est riche en information (1544 cas) ;
au niveau des décennies anciennes, les nombres sont plus petits, donc les comparaisons de tendance sont moins robustes ;
au niveau des sous-groupes, certains résultats restent fragiles malgré la taille totale de la cohorte.

Réponse type

Dans cette étude de cohorte sur 50 ans, la puissance ne doit pas être discutée comme dans un essai randomisé avec un nombre de sujets nécessaire a priori. Il faut raisonner à partir du nombre d’événements et de la structure des analyses. Globalement, l’étude est très informative, avec 9511 participants, plus de 202 000 personnes-années et 1544 cas incidents de fibrillation atriale. En revanche, lorsqu’on découpe ces données par décennies et par sexe, certaines périodes anciennes reposent sur des effectifs de cas plus faibles ; les auteurs signalent eux-mêmes des erreurs standard plus larges et une puissance limitée pour détecter certaines tendances. La bonne discussion porte donc sur la précision des estimations selon les sous-analyses, pas sur un NSN classique.

6.8. 2019 EPI

Article et contexte

Article support : Shan et al., BMJ 2018, étude de cohorte sur le travail posté de nuit, le mode de vie et le risque de diabète de type 2 chez des infirmières américaines.

deux grandes cohortes de nurses ;
143 410 femmes sans diabète, maladie cardiovasculaire ni cancer au départ ;
suivi sur environ 22 à 24 ans ;
10 915 cas incidents de diabète de type 2 ;
résultats principaux :
- HR = 1,31 par tranche de 5 ans de travail de nuit tournant ;
- HR = 2,30 par facteur de mode de vie défavorable.

Question posée dans l’annale

Dans une cohorte de cette taille, comment se discute la question de la puissance statistique ?

Exercice contextualisé

L’énoncé vous demande :

Dans une cohorte de cette taille, comment se discute la question de la puissance statistique ?

Le but n’est pas de refaire un calcul.
Le but est de montrer que, quand une cohorte cumule :

beaucoup de sujets ;
beaucoup d’événements ;
une exposition fréquente ;

la significativité statistique cesse d’être la question principale.

Extrait de l’article à analyser

Passage exact de l'article

Le bon passage combine la taille finale des deux cohortes et le paragraphe de résultats sur les HR.

"The final analysis included 55 324 participants from the NHS and 88 086 participants from the NHS II."

"During 22-24 years of follow-up, 10 915 cases of incident type 2 diabetes occurred. The multivariable adjusted hazard ratios for type 2 diabetes were 1.31 (95% confidence interval 1.19 to 1.44) per five year increment of duration of rotating night shift work and 2.30 (1.88 to 2.83) per unhealthy lifestyle factor."

Infos à repérer

taille de la population : 55 324 + 88 086 = 143 410 participantes ;
nombre de cas incidents : 10 915 ;
exposition d'intérêt courante dans cette population ;
effets estimés avec précision : HR = 1,31 par tranche de 5 ans de travail de nuit et HR = 2,30 par facteur de mode de vie défavorable.

Ce que l’examinateur veut vérifier

savez-vous reconnaître une situation où la puissance n’est pas le vrai problème ;
savez-vous déplacer la discussion vers la taille d’effet, la pertinence clinique et les IC95% ;
savez-vous éviter une réponse automatique de type “il faudrait calculer la puissance”.

Ce qu’il faut comprendre

Dans une cohorte immense :

il est facile d’obtenir des p-values petites ;
ce n’est pas cela qui fait l’intérêt scientifique principal ;
il faut surtout regarder :
- l’ampleur des HR ;
- leurs IC95% ;
- la plausibilité causale et les biais résiduels.

Réponse type

Dans cette cohorte, la puissance n’est pas le sujet principal. L’étude suit plus de 143 000 infirmières pendant plus de vingt ans et observe plus de 10 000 cas incidents de diabète de type 2. Avec une exposition assez fréquente et un aussi grand nombre d’événements, l’étude est largement capable de détecter des effets modestes. La discussion doit donc porter surtout sur la taille des associations, leurs IC95%, et la validité causale, bien plus que sur un éventuel manque de puissance.

6.9. 2020 RC

Article et contexte

Article support : Schnitzer et al., JAMA 2019, essai randomisé en double aveugle sur le tanezumab dans l’arthrose de hanche ou de genou.

698 patients randomisés ;
3 bras : placebo, tanezumab 2,5 mg, tanezumab 2,5/5 mg ;
critère principal = 3 co-primary endpoints à 16 semaines :
- WOMAC Pain ;
- WOMAC Physical Function ;
- PGA-OA.

L’article dit explicitement que l’effectif d’environ 230 patients par bras est choisi pour obtenir 90% de puissance across all 3 co-primary end points.

Question posée dans l’annale

Dans l’étude il est calculé un nombre de sujets à inclure égal à 3*230. Proposez de votre côté un calcul de ce paramètre.

Exercice contextualisé

Vous lisez un essai à trois bras chez des patients ayant une arthrose symptomatique.
Les auteurs annoncent un dimensionnement à 230 patients par bras.

Votre travail consiste à raisonner en deux temps :

refaire un calcul naïf comme si chaque endpoint était isolé ;
expliquer pourquoi ce calcul est insuffisant dès lors que la réussite de l’essai exige que les trois endpoints soient positifs.

Extrait de l’article à analyser

Passage exact de l'article

Le paragraphe JAMA donne le coeur du dimensionnement. La structure de corrélation utilisée dans le corrigé vient ensuite du plan d'analyse et du support de correction.

"A sample size of approximately 230 patients per treatment group was determined to provide 90% power to achieve statistical significance at the 5% 2-sided level for comparisons of tanezumab, 2.5 mg, and tanezumab, 2.5/5 mg, vs placebo across all 3 co-primary end points."

"This was based on estimates from a combined analysis of 2 previous studies (treatment difference of -1.0 for WOMAC Pain and Physical Function subscales and -0.32 for PGA-OA, and SDs of 2.73, 2.58, and 0.92, respectively)."

Infos à repérer

dans le paragraphe JAMA : puissance 90%, niveau bilatéral global 5%, delta = 1, 1, 0,32, et SD = 2,73, 2,58, 0,92 ;
le vrai point méthodologique est la phrase "across all 3 co-primary end points" ;
corrélations utilisées dans le corrigé pour majorer le calcul : 0,93, 0,68, 0,68 ;
ces corrélations viennent du plan d'analyse / support de correction, pas du paragraphe principal visible ci-dessus.

Ce que l’examinateur veut vérifier

savez-vous reconnaître un vrai piège de co-primary endpoints ;
savez-vous faire un calcul simple à deux moyennes pour obtenir un ordre de grandeur de départ ;
savez-vous expliquer pourquoi l’effectif réel doit être plus grand que ce calcul naïf.

Étape 1 : calcul naïf si chaque endpoint était analysé séparément

On applique la formule “deux moyennes” avec z_alpha = 1,96 et z_beta = 1,28.

Formule de départ :

$n_{\text{par bras}} = \frac{2(z_{1-\alpha/2}+z_{1-\beta})^2\sigma^2}{\delta^2}$

Critère 1 :

$n \approx \frac{2(1{,}96+1{,}28)^2 \times 2{,}73^2}{1^2} \approx 156$

Critère 2 :

$n \approx \frac{2(1{,}96+1{,}28)^2 \times 2{,}58^2}{1^2} \approx 140$

Critère 3 :

$n \approx \frac{2(1{,}96+1{,}28)^2 \times 0{,}92^2}{0{,}32^2} \approx 174$

Si l’on oubliait complètement la multiplicité du critère principal, on conclurait donc à 140 à 174 sujets par bras, soit environ 165 par bras.

Pourquoi ce calcul naïf ne suffit pas

Ici, l’essai n’est pas positif si un seul endpoint marche.
Il n’est positif que si les trois co-primary endpoints sont tous significatifs.

Autrement dit :

il ne faut pas seulement alimenter un test sur une variable ;
il faut maintenir une bonne puissance pour un critère principal composite logique ;
le coût en sujets dépend alors de la corrélation entre les trois mesures.

Le corrigé officiel s’appuie justement sur cette idée et utilise une méthode dédiée aux multiple co-primary endpoints.

Résolution guidée

Le raisonnement attendu est le suivant :

partir du calcul simple à deux moyennes pour montrer que l’ordre de grandeur de base est autour de 165 par bras ;
rappeler que l’article n’a pas un critère principal unique mais trois co-critères simultanés ;
conclure qu’il faut majorer l’effectif en fonction de la structure de corrélation.

Le corrigé retrouve alors environ 195 sujets par bras, soit :

Formule de départ :

$N_{\text{total}} = n_{\text{par bras}} \times \text{nombre de bras}$

$195 \times 3 = 585 \text{ sujets au total}$

Les auteurs ont finalement choisi :

$230 \times 3 = 690 \text{ sujets}$

donc un choix un peu plus conservateur que le minimum reconstruit.

Réponse type

L’article correspond à un essai à trois bras avec trois co-primary endpoints continus. Si chaque critère était dimensionné isolément, un calcul standard à deux moyennes donnerait un besoin d’environ 140 à 174 sujets par bras, soit autour de 165 par bras. Mais cette valeur est trop faible, car l’essai n’est concluant que si les trois endpoints sont positifs. Il faut donc intégrer la corrélation entre co-critères et le fait que la puissance doit porter sur l’ensemble du critère principal multiple. Le corrigé retrouve alors environ 195 sujets par bras, soit 585 au total, ce qui est cohérent avec le choix des auteurs de retenir 230 sujets par bras.

6.10. 2021 RC

Article et contexte

Article support : Roy et al., PLoS Medicine 2020, essai cluster randomisé apparié par paires dans des cliniques VIH en Zambie, évaluant les adherence clubs.

10 cliniques randomisées (5 intervention, 5 contrôle) ;
critère principal : temps jusqu’au premier retrait tardif du traitement (>7 jours de retard) ;
hypothèse des auteurs : environ 65% des patients du groupe contrôle auront au moins un retard important, avec une réduction relative attendue de 50% sous intervention ;
calcul de l’article fondé sur une formule de matched-pair cluster randomized trial, avec 5 paires de cliniques et 120 patients par clinique.

Question posée dans l’annale

Si le design avait été celui d’un essai randomisé standard, combien de patients aurait-il fallu inclure pour obtenir une puissance statistique “convenable” (partant des mêmes hypothèses d’effet attendu que les auteurs) ?

Exercice contextualisé

L’article original dimensionne un essai en cluster apparié, avec une formule assez spécialisée.

Mais la question d’examen vous demande autre chose :

Si le design avait été celui d’un essai randomisé standard, combien de patients aurait-il fallu inclure ?

Vous devez donc volontairement simplifier le papier :

oublier l’appariement des cliniques ;
oublier l’effet cluster ;
oublier le temps jusqu’au retard ;
ramener le problème à un essai individuel à deux proportions.

Extrait de l’article à analyser

Passage exact de l'article

Ici, l'article donne directement la formule de cluster apparié et les hypothèses de départ. L'annale vous demande ensuite de simplifier ce design.

"Sample size was derived using formulae for matched-pair cluster randomized trials ... Existing program data suggest that 65% of patients are >7 days late for a pharmacy refill visit at least once during their first year after starting ART ... We assumed a conservative matched-pair coefficient of variation of 0.10. We also assumed a 50% relative reduction in missed pharmacy visits due to AC participation. Under these assumptions, our selection of 5 pairs of clinics and 120 patients per clinic yields a power of 96%."

Infos à repérer

risque de base dans le groupe contrôle : environ 65% ;
effet attendu : réduction relative de 50% ;
donc, pour l'exercice simplifié de cours, on peut prendre P1 = 0,60 et P2 = 0,30 ;
le calcul réel de l'article repose sur 5 paires de cliniques et 120 patients par clinique.

Ce que l’examinateur veut vérifier

savez-vous distinguer le design réel du papier du design fictif demandé par l’énoncé ;
savez-vous enlever mentalement tout ce qui tient au cluster pour revenir à une formule standard ;
savez-vous donner un chiffre cohérent avec le corrigé : un peu moins de 50 par bras.

Calcul à deux proportions pour l’essai individuel fictif

Avec une allocation 1:1, un alpha bilatéral à 5% et une puissance de 80% :

Formule de départ :

$\bar p = \frac{p_1+p_2}{2}$

$\bar p = \frac{0{,}60+0{,}30}{2} = 0{,}45$

Puis on applique la formule standard à deux proportions :

$n_{\text{par bras}} = \frac{\left[z_{1-\alpha/2}\sqrt{2\bar p(1-\bar p)}+z_{1-\beta}\sqrt{p_1(1-p_1)+p_2(1-p_2)}\right]^2}{(p_1-p_2)^2}$

$n \approx \frac{\left[1{,}96\sqrt{2\times 0{,}45\times 0{,}55}+0{,}84\sqrt{0{,}60\times 0{,}40+0{,}30\times 0{,}70}\right]^2}{(0{,}60-0{,}30)^2}$

$n \approx 41{,}9$

On retient donc environ 42 patients par bras, soit en pratique 45 à 50 par bras après arrondi prudent.

Point pédagogique important

Le calcul de l’article et celui de l’examen ne répondent pas à la même question :

l’article : essai en clusters appariés, avec coefficient de variation et nombre de cliniques ;
l’examen : essai individuel standard pour vérifier que vous savez refaire la base “deux proportions”.

Réponse type

Le papier original est un essai en clusters appariés, mais la question demande explicitement ce qu’aurait donné un essai randomisé individuel standard. Il faut donc simplifier le problème en un calcul à deux proportions. En reprenant un risque de base autour de 60% dans le bras contrôle et une réduction relative de 50%, on obtient P1 = 0,60 et P2 = 0,30. Le calcul standard donne environ 42 patients par bras pour alpha = 5% et une puissance de 80%, soit un peu moins de 50 patients par bras après arrondi, ce qui est cohérent avec le corrigé.

6.11. 2022 RC

Article et contexte

Article support : Bacharier et al., NEJM 2021, essai de phase 3, randomisé, en double aveugle, chez des enfants de 6 à 11 ans ayant un asthme modéré à sévère non contrôlé.

52 semaines de suivi ;
randomisation 2:1 dupilumab versus placebo ;
critère principal : annualized rate of severe asthma exacerbations ;
analyse des exacerbations par modèle binomial négatif.

Question posée dans l’annale

Expliquez les modalités de calcul du nombre de sujets nécessaires.

Exercice contextualisé

Ici, l’examinateur ne vous demande pas un petit calcul de cours “deux proportions” ou “deux moyennes”.
Il veut vérifier que vous savez lire une section de dimensionnement plus avancée.

La bonne démarche est :

repérer dans l’article quels paramètres servent au calcul ;
expliquer pourquoi l’issue est un comptage récurrent et non un simple oui/non ;
montrer pourquoi le binomial négatif est utilisé à la place d’un modèle de Poisson simple.

Extrait de l’article à analyser

Passage exact de l'article

Le paragraphe statistique donne ici presque tous les paramètres du NSN, y compris la surdispersion du modèle binomial négatif.

"We determined that a sample of approximately 345 and 255 patients would have approximately 94% and 96% power to detect a 54% and 60% relative reduction in the annualized rate of severe exacerbations in the two primary efficacy populations, respectively, assuming a randomization ratio of 2:1 and annualized rates of severe exacerbation of 0.7 and 0.8 in the placebo group, with a two-tailed significance level of 0.05. These calculations assumed an average exposure duration of 0.9 years and a dispersion measure of 1.5 for the negative binomial distribution assumed for the exacerbation count."

Infos à repérer

deux populations principales d'efficacité ;
échantillons visés d'environ 345 et 255 patients ; puissances 94% et 96% ;
réductions relatives visées de 54% et 60% ; taux placebo 0,7 et 0,8 ;
randomisation 2:1, durée moyenne d'exposition 0,9 an, dispersion 1,5 pour le binomial négatif.

Ce que l’examinateur veut vérifier

savez-vous reconnaître un critère de comptage récurrent ;
savez-vous dire qu’il faut un taux de base, une durée d’observation, un effet relatif visé, et non seulement une proportion ;
savez-vous expliquer le rôle de la surdispersion.

Ce qu’il faut écrire

Pour reconstruire le calcul, il faut au minimum :

un alpha ;
une puissance ;
le taux annualisé d’exacerbations dans le groupe contrôle ;
l’effet minimal à détecter, ici un rate ratio ou une réduction relative attendue ;
la durée moyenne de suivi ou d’exposition ;
le ratio d’allocation (2:1) ;
un paramètre de surdispersion, ici 1,5.

Pourquoi le binomial négatif est central

Le nombre d’exacerbations par patient n’est pas un simple résultat binaire :

certains enfants ont 0 exacerbation ;
d’autres en ont plusieurs ;
les comptages varient plus que ce que prévoirait un modèle de Poisson idéal.

Le binomial négatif permet précisément de modéliser cette variabilité excédentaire.
Si on faisait semblant d’utiliser un modèle de Poisson simple, on risquerait de sous-estimer le NSN.

Réponse type

Le papier correspond à un essai où le critère principal est un nombre annualisé d’exacerbations sévères, analysé en binomial négatif. Le calcul du nombre de sujets ne repose donc pas seulement sur alpha, beta et une différence binaire, mais aussi sur un taux de base d’exacerbations, une durée moyenne d’exposition, un ratio d’allocation 2:1, un effet relatif attendu, et un paramètre de dispersion. L’article mentionne justement des tailles visées d’environ 345 et 255 patients selon la population d’efficacité, avec une dispersion supposée de 1,5. La réponse attendue est donc surtout méthodologique : on doit expliquer que le NSN dépend d’un modèle de comptage avec surdispersion, et qu’un calcul naïf de type Poisson ou deux proportions serait inadapté.

6.12. 2023 RC

Article et contexte

Article support : Edwardson et al., BMJ 2022, essai cluster randomisé à trois bras chez des employés de bureau du Royaume-Uni.

78 clusters et 756 salariés ;
3 bras : SWAL, SWAL + desk, contrôle ;
critère principal : temps assis quotidien à 12 mois ;
hypothèses de dimensionnement de l’article :
- différence pertinente delta = 60 minutes ;
- écart-type sigma = 90 minutes ;
- ICC = 0,05 ;
- taille moyenne de cluster 20 ;
- inflation supplémentaire de 30%.

Question posée dans l’annale

Si l’essai avait randomisé des sujets et non des clusters, quel aurait été le nombre de sujets à inclure (avec les mêmes hypothèses que dans l’article) ?

Exercice contextualisé

L’article réel dimensionne un essai en cluster avec ICC, taille de cluster et inflation pour pertes.

La question d’examen vous demande un exercice de simplification :

Si l’essai avait randomisé des sujets et non des clusters, quel aurait été le nombre de sujets à inclure ?

Vous devez donc :

enlever tout ce qui relève du cluster ;
garder les hypothèses de base sur delta et sigma ;
tenir compte du fait qu’il y a 3 bras et une majoration de 30%.

Extrait de l’article à analyser

Passage exact de l'article

Le premier paragraphe donne les hypothèses initiales du protocole. Le second montre qu'un réajustement a été fait pendant le recrutement.

"We determined that a sample size of 420 participants and 10 clusters in each arm would provide more than 90% power to detect a 60 minute difference in overall sitting time using multilevel models with a two tailed significance level of 5%. This calculation assumed a standard deviation of 90 minutes, an intraclass correlation coefficient of 0.05, a coefficient of variation of 0.54 (cluster range 15-45), and an average cluster size of 20, allowing for multiple comparisons with the control group. We inflated the number of clusters in each arm by 1 to allow for whole cluster drop-out, and the number of participants was inflated by 30% to allow for potential individual loss to follow-up and non-compliance with activPAL, giving a total sample size of 660 participants to be recruited, with 11 clusters in each arm."

"During the recruitment process it became clear that the observed average and variability of cluster size were different ... the inflation for loss to follow up and non-compliance ... was increased from 30% to 40%. This resulted in 690 participants from 72 clusters needed."

Infos à repérer

hypothèses initiales utiles pour l'exercice : delta = 60 minutes, sigma = 90 minutes, ICC = 0,05, taille moyenne de cluster 20, puissance >90%, alpha 5% ;
essai à 3 bras avec comparaisons multiples contre le contrôle ;
inflation initiale prévue de 30% pour pertes et non-compliance ;
l'article a ensuite révisé le plan à 690 participants / 72 clusters avec inflation 40%, mais l'annale exploite les hypothèses initiales.

Ce que l’examinateur veut vérifier

savez-vous transformer un essai cluster en un calcul individuel simple ;
savez-vous ne pas réinjecter l’ICC alors que l’énoncé vous demande explicitement de l’oublier ;
savez-vous ensuite ré-élargir au vrai essai en tenant compte du nombre de bras et de l’attrition.

Étape 1 : calcul individuel de base

Le corrigé retient :

Formule de départ :

$n_{\text{par bras}} = \frac{2(z_{1-\alpha/2}+z_{1-\beta})^2\sigma^2}{\delta^2}$

On prend ici :

$z_{1-\alpha/2} = 1{,}96$

$z_{1-\beta} = 1{,}28$

Donc :

$(1{,}96 + 1{,}28)^2 \approx 10{,}5$

Application numérique :

$n_{\text{individuel}} \approx \frac{10{,}5 \times 2 \times 90^2}{60^2}$

$n_{\text{individuel}} \approx 47{,}25$

soit environ 48, arrondi à 50.

Étape 2 : revenir au nombre total de sujets dans l’essai

Comme l’essai comporte 3 bras :

Formule de départ :

$N_{\text{total}} = n_{\text{par bras}} \times 3$

$50 \times 3 = 150$

Puis on applique la majoration de 30% annoncée dans le papier :

Formule de départ :

$N_{\text{majoré}} = N_{\text{base}} \times 1{,}30$

$150 \times 1{,}30 = 195$

Donc on retient environ 200 sujets au total.

Multiplicité

Le corrigé précise qu’une correction simple de multiplicité de type Bonferroni augmenterait l’effectif, mais pas de façon spectaculaire ici.
Le cœur de la question reste surtout :

enlever l’effet cluster ;
garder delta et sigma ;
réintégrer ensuite le nombre de bras et la marge de sécurité de 30%.

Réponse type

L’article réel est un essai en cluster à trois bras, mais la question demande de raisonner comme s’il s’agissait d’un essai individuel. On enlève donc l’ICC et tout l’habillage cluster, puis on fait un calcul classique à deux moyennes avec sigma = 90 et delta = 60, ce qui donne environ 48 sujets, soit 50 par groupe après arrondi. Comme l’essai comporte 3 bras, cela fait 150 sujets au total, puis 195 après majoration de 30%. On peut donc répondre qu’un essai individuel aurait nécessité environ 200 sujets au total.

6.13. 2024 RC

Article et contexte

Article support : Moncrieff et al., Lancet Psychiatry 2023, essai randomisé comparant réduction progressive d’antipsychotique versus maintien chez des patients ayant une psychose récurrente.

essai ouvert, en groupes parallèles ;
suivi de 24 mois ;
critère principal : social functioning (SFS) ;
critère secondaire majeur : severe relapse ;
l’article dit qu’il fallait :
- 206 patients pour détecter 4 points de différence sur le SFS ;
- 372 patients pour un raisonnement de non-infériorité excluant une différence de 10% sur les rechutes sévères.

Question posée dans l’annale

Essayez, dans la mesure du possible, de retrouver le “Nombre de Sujets Nécessaires” que les auteurs calculent pour le test de l’hypothèse de non-infériorité.

Exercice contextualisé

Cette annale est subtile, car le papier réel et la formule de cours ne parlent pas exactement la même langue.

Le papier :

a un critère principal continu (SFS) ;
ajoute un raisonnement séparé de non-infériorité sur les rechutes sévères.

L’examen vous demande :

Essayez, dans la mesure du possible, de retrouver le nombre de sujets nécessaires pour le test de l’hypothèse de non-infériorité.

Il faut donc reconnaître que l’exercice vise surtout un ordre de grandeur pédagogique autour de la marge de non-infériorité.

Extrait de l’article à analyser

Passage exact de l'article

Le papier donne distinctement le calcul pour le critère principal continu et le calcul de non-infériorité sur la rechute sévère.

"Sample size calculations, detailed in the protocol paper, showed that a total sample size of 206 was required to identify a minimally clinically important difference of 4 points on the SFS with 90% power for the primary outcome. Using a non-inferiority calculation, a sample size of 372 was required for 90% power to exclude a difference of 10% between groups using a non-inferiority boundary of 10% event rates for severe relapse."

Infos à repérer

puissance 90% ;
marge / borne de non-infériorité : 10% pour les rechutes sévères ;
ordre de grandeur annoncé par l'article : 372 sujets pour le raisonnement de non-infériorité ;
issue clinique concernée : severe relapse.

Ce que le corrigé de l’annale fait réellement

Le corrigé transforme le problème en une version très simplifiée de cours, du type deux proportions en non-infériorité, avec :

un facteur global $(z_\alpha + z_\beta)^2 \approx 10$ ;
un risque de base pris à 10% ;
une différence admissible de 10 points.

Autrement dit, on ne reconstruit pas toute la stratégie statistique du papier ; on essaie plutôt de retomber sur le bon ordre de grandeur.

Calcul simplifié du corrigé

Formule de départ, dans la version très simplifiée utilisée par le corrigé :

$N \approx \frac{2(z_\alpha+z_\beta)^2\,[p_C(1-p_C)+p_T(1-p_T)]}{\Delta^2}$

Ici, le corrigé prend approximativement :

$(z_\alpha+z_\beta)^2 \approx 10$ ;
p_C = 0{,}10 ;
p_T = 0{,}10 ;
$\Delta = 0{,}10$ .

Application numérique :

$N \approx \frac{2\times 10 \times [0{,}10(1-0{,}10)+0{,}10(1-0{,}10)]}{(0{,}10)^2}$

$N \approx \frac{20 \times (0{,}09 + 0{,}09)}{0{,}01}$

$N \approx \frac{20 \times 0{,}18}{0{,}01} = 360$

On retrouve donc environ 360 sujets au total, ce qui est très proche des 372 cités dans l’article.

Le message méthodologique à faire apparaître

En non-infériorité :

la marge acceptable est le paramètre clé ;
on cherche à montrer que la stratégie test n’est pas trop mauvaise par rapport au contrôle ;
l’ordre de grandeur du NSN dépend fortement de cette marge.

Réponse type

Le papier annonce un raisonnement de non-infériorité sur les rechutes sévères avec une marge de 10%, conduisant à un besoin d’environ 372 sujets. Le corrigé de l’annale propose une reconstruction simplifiée avec la formule de cours pour deux proportions, en prenant un risque de base autour de 10% et une différence admissible de 10 points. On retrouve alors environ 360 sujets au total, ce qui est cohérent avec l’ordre de grandeur donné par l’article. La vraie idée à mettre en avant est que, dans un calcul de non-infériorité, la marge cliniquement acceptable structure tout le dimensionnement.

6.14. 2025 RC

Article et contexte

Article support : Hautzinger et al., JAMA Psychiatry 2024, essai randomisé comparant deux psychothérapies adjuvantes pour prévenir la rechute dans le trouble bipolaire euthymique :

SEKT : thérapie cognitivo-comportementale structurée ;
FEST : thérapie de soutien centrée sur le patient.

L’essai est :

randomisé ;
en aveugle pour les évaluateurs ;
centré sur le temps jusqu’à la rechute ;
conduit sur 18 mois de traitement/suivi, avec une vraie section Sample size calculation dans l’article.

Question posée dans l’annale

A l’aide des données disponibles dans l’article, essayez de retrouver au moins approximativement une estimation du nombre de sujets à inclure dans l’essai.

Exercice contextualisé

Ici, il ne suffit pas de recopier la section Sample size calculation.
Il faut au moins montrer comment on passe des hypothèses cliniques de l’article à un ordre de grandeur calculé.

Autrement dit :

transformer les proportions sans rechute en paramètres statistiques exploitables ;
faire un premier calcul simple de coin de table ;
expliquer pourquoi le vrai calcul de survie/log-rank conduit à un effectif plus grand.

Extrait de l’article à analyser

Passage exact de l'article

Cette fois, la meilleure stratégie consiste vraiment à traduire le paragraphe "Sample size calculation" presque ligne par ligne.

"Sample size calculation was based on a 2-sided log-rank test under the following specifications: (1) study duration of 48 months, with patient recruitment during the first 36 months and (2) proportion of dropouts in the control group and in the treatment group of 12% each ... Under the a priori-defined condition that the proportion of relapse-free patients should improve from 50% in the control group to 70% in the treatment group during the first year of treatment, this required a sample size of 300 (n = 150 per treatment arm) for statistical significance (1 - beta = 80%; alpha = .05)."

Infos à repérer

test du log-rank bilatéral ;
durée totale d'étude 48 mois ; recrutement pendant les 36 premiers mois ;
12% de dropouts dans chaque bras ;
amélioration de la proportion de patients sans rechute de 50% à 70% pendant la première année ; puissance 80% ; alpha 5% ;
conclusion directe des auteurs : 300 sujets au total, soit 150 par bras.

Ce que l’examinateur veut vérifier

savez-vous reconnaître une logique de survie / temps jusqu’à événement ;
savez-vous ne pas forcer inutilement une formule “deux proportions” ;
savez-vous partir d’un paragraphe de dimensionnement pour reconstruire un calcul plausible et pas seulement recopier la conclusion.

Étape 1 : traduire l’hypothèse clinique en effet statistique

L’article dit qu’au bout d’un an, la proportion de patients sans rechute passerait de 50% à 70%.

Donc, en raisonnant sur le risque de rechute à un an :

$p_C = 1-0{,}50 = 0{,}50$

$p_T = 1-0{,}70 = 0{,}30$

Si l’on prend une approximation exponentielle très simple, on peut aussi écrire :

$\lambda_C \approx -\log(0{,}50) \approx 0{,}693$

$\lambda_T \approx -\log(0{,}70) \approx 0{,}357$

donc :

$HR \approx \frac{\lambda_T}{\lambda_C} \approx \frac{0{,}357}{0{,}693} \approx 0{,}51$

L’effet attendu est donc important : on passe grossièrement d’un risque de rechute de 50% à 30%, soit un HR d’environ 0,5.

Étape 2 : premier calcul très simple en ramenant le problème à deux proportions

Si l’on oublie temporairement le caractère “temps jusqu’à événement” et qu’on fait un calcul binaire naïf à 1 an :

$\bar p = \frac{p_C+p_T}{2} = \frac{0{,}50+0{,}30}{2} = 0{,}40$

Puis :

$n_{\text{par bras}} = \frac{\left[z_{1-\alpha/2}\sqrt{2\bar p(1-\bar p)}+z_{1-\beta}\sqrt{p_C(1-p_C)+p_T(1-p_T)}\right]^2}{(p_C-p_T)^2}$

Avec alpha = 5% bilatéral et puissance 80% :

$n \approx \frac{\left[1{,}96\sqrt{2\times 0{,}40\times 0{,}60}+0{,}84\sqrt{0{,}50\times 0{,}50+0{,}30\times 0{,}70}\right]^2}{(0{,}50-0{,}30)^2}$

$n \approx \frac{(1{,}96\times 0{,}693 + 0{,}84\times 0{,}678)^2}{0{,}20^2}$

$n \approx \frac{(1{,}358 + 0{,}570)^2}{0{,}04} \approx \frac{1{,}928^2}{0{,}04} \approx \frac{3{,}72}{0{,}04} \approx 93$

On obtient donc environ 93 sujets par bras.

Si l’on corrige ensuite pour 12% de dropout :

$n_{\text{ajusté}} \approx \frac{93}{0{,}88} \approx 106$

Ce calcul donne donc environ 106 sujets par bras, soit environ 210 à 220 au total.

Étape 3 : pourquoi l’article retient malgré tout environ 150 sujets par bras

Le calcul précédent est utile, mais il sous-estime le besoin réel car l’article ne raisonne pas sur un simple critère binaire à 1 an.

Les auteurs utilisent :

un test du log-rank ;
une durée totale d’étude de 48 mois ;
un recrutement étalé sur les 36 premiers mois ;
des dropouts dans les deux groupes.

Avec l’approximation exponentielle précédente, on a vu que :

$HR \approx 0{,}51$

Un calcul de Schoenfeld très grossier donnerait alors :

$D \approx \frac{4(1{,}96+0{,}84)^2}{[\log(0{,}51)]^2}$

$\log(0{,}51) \approx -0{,}67$

$D \approx \frac{4\times 2{,}80^2}{0{,}67^2} \approx \frac{31{,}36}{0{,}45} \approx 70$

soit environ 70 événements nécessaires.

Ensuite, pour passer des événements aux sujets, il faut savoir quelle proportion des patients fournira effectivement un événement observable pendant la fenêtre d’analyse, compte tenu :

du recrutement étalé ;
de la censure administrative ;
des dropouts ;
des hypothèses exactes du logiciel ou du protocole.

Cette dernière conversion n’est pas entièrement reconstructible à partir du seul paragraphe publié. En revanche, elle explique très bien pourquoi le calcul complet des auteurs aboutit à un effectif plus élevé que notre calcul binaire simplifié.

En pratique, une copie solide peut donc conclure :

le calcul naïf donne environ 100 à 110 sujets par bras ;
un vrai calcul de survie/log-rank, plus conservateur, conduit plausiblement à environ 150 par bras ;
la valeur publiée de 300 sujets au total est donc cohérente.

Conclusion chiffrée

$N = 300 \text{ sujets au total} = 150 \text{ par bras}$

L’essai a ensuite effectivement randomisé 305 participants, ce qui confirme que l’ordre de grandeur retenu par les auteurs est bien celui d’un essai à environ 150 patients par bras.

Réponse type

À partir du texte de l’article, on peut d’abord faire un calcul simplifié en ramenant le problème à un critère binaire à 1 an : 50% de patients sans rechute dans le contrôle contre 70% sous traitement, soit des risques de rechute de 50% contre 30%. La formule classique à deux proportions donne alors environ 93 sujets par bras, soit environ 106 par bras après majoration pour 12% de dropout. Mais ce calcul reste trop optimiste, car l’article dimensionne en réalité un essai de survie avec test du log-rank, recrutement étalé sur 36 mois et durée totale d’étude de 48 mois. Le vrai calcul, plus conservateur, conduit donc logiquement à un effectif plus élevé, de l’ordre de 150 sujets par bras, soit 300 au total. C’est cette valeur qu’il faut rapporter, en expliquant comment on s’en approche.

6.15. 2026 RC

Article et contexte

Article support : Fang et al., NEJM 2026, essai de phase 3 comparant sacituzumab tirumotecan à une chimiothérapie standard chez des patients avec NSCLC avancé muté EGFR après échec d’un EGFR-TKI.

essai randomisé 1:1 ;
376 patients randomisés (188 par bras) ;
critère principal : progression-free survival (PFS) ;
critère secondaire clé hiérarchisé : overall survival (OS) ;
le paragraphe statistique donne explicitement un raisonnement de dimensionnement par événements.

Statut de cette section

Les dix premières questions ci-dessous sont des questions proposées d’entraînement à partir de l’article 2026 RC. Elles ne sont pas des annales officielles, mais elles reprennent exactement le type de raisonnement demandé dans les annales précédentes. Trois questions complémentaires sur \lambda sont ajoutées ensuite, comme prolongement technique.

Extrait de l’article à analyser

Passage exact de l'article

Le premier extrait donne le vrai calcul de dimensionnement. Le second donne le résultat observé pour le critère principal.

"We calculated, on the basis of historical data, that approximately 356 participants would have to be enrolled for a total of 249 events (disease progression or death) to occur to give the trial 88% power to detect a hazard ratio of 0.67 for progression-free survival at a one-sided alpha level of 0.025."

"This sample size would also provide the trial with 80% power to detect the difference between the groups in overall survival with the assumption of a hazard ratio of 0.70."

"Overall, 376 patients underwent randomization, with 188 assigned to each group. After a median follow-up of 18.9 months, the median progression-free survival was 8.3 months in the sac-TMT group and 4.3 months in the chemotherapy group (hazard ratio for disease progression or death, 0.49; 95% confidence interval [CI], 0.39 to 0.62)."

"Overall survival was significantly longer with sac-TMT than with chemotherapy (hazard ratio for death, 0.60; 95% CI, 0.44 to 0.82)."

Infos à repérer

hypothèse de dimensionnement : HR = 0,67 pour la PFS ;
puissance visée : 88% ; alpha unilatéral 0,025 ;
nombre d'événements requis annoncé : 249 ;
nombre de sujets annoncé : environ 356 ;
pour l'OS, l'article dit aussi que cet effectif donnerait 80% de puissance pour un HR = 0,70 ;
résultat observé finalement sur la PFS : HR = 0,49 avec IC95% 0,39 à 0,62 ;
résultat observé sur l'OS : HR = 0,60 avec IC95% 0,44 à 0,82.

Question 1 proposée

A l’aide des données disponibles dans l’article, essayez de retrouver approximativement le nombre d’événements nécessaires pour le critère principal de PFS.

Exercice contextualisé

Ici, on est dans le cas classique d’un essai de survie piloté par le nombre d’événements.

La bonne stratégie est donc :

identifier le HR visé ;
convertir la puissance en $z_{1-\beta}$ ;
appliquer la formule de Schoenfeld.

Résolution guidée

On part de la formule générale :

$D = \frac{(z_{1-\alpha}+z_{1-\beta})^2}{p(1-p)[\log(HR)]^2}$

Comme l’essai est randomisé 1:1 :

$p = 0{,}5 \qquad \Rightarrow \qquad p(1-p) = 0{,}25$

donc :

$D = \frac{4(z_{1-\alpha}+z_{1-\beta})^2}{[\log(HR)]^2}$

Ici :

$z_{1-\alpha} = 1{,}96 \qquad \text{car } \alpha = 0{,}025 \text{ unilatéral}$

Pour une puissance de 88%, on prend :

$z_{1-\beta} \approx 1{,}18$

car Φ(1,18) est proche de 0,88.

Ensuite :

$\log(0{,}67) \approx -0{,}40$

donc :

$[\log(0{,}67)]^2 \approx 0{,}16$

Application numérique :

$D \approx \frac{4(1{,}96+1{,}18)^2}{0{,}16}$

$1{,}96+1{,}18 = 3{,}14$

$3{,}14^2 \approx 9{,}86$

$4 \times 9{,}86 \approx 39{,}4$

$D \approx \frac{39{,}4}{0{,}16} \approx 246$

On tombe donc sur environ 246 à 249 événements, ce qui est cohérent avec les 249 donnés par l’article.

Réponse type

Le calcul de l’article correspond à un dimensionnement de survie de type Schoenfeld. Avec un HR visé de 0,67, un alpha unilatéral de 2,5% (z = 1,96) et une puissance de 88% (z ≈ 1,18), on obtient :

$D \approx \frac{4(1{,}96+1{,}18)^2}{[\log(0{,}67)]^2} \approx 246$

soit environ 250 événements, ce qui retrouve correctement les 249 événements annoncés par les auteurs.

Question 2 proposée

A l’aide des données disponibles dans l’article, essayez de retrouver approximativement le nombre total de sujets à inclure.

Exercice contextualisé

Une fois D obtenu, il faut passer des événements aux patients.

Dans un essai de survie, cette étape dépend :

du recrutement étalé ;
de la durée de suivi ;
de la censure ;
du taux de pertes de vue.

Ici, on vous donne directement une hypothèse simplifiée : environ 70% des participants devraient fournir un événement analysable.

Résolution guidée

Formule de départ :

$N \approx \frac{D}{p_{\text{event}}}$

Avec :

$D \approx 249 \qquad \text{et} \qquad p_{\text{event}} \approx 0{,}70$

Application numérique :

$N \approx \frac{249}{0{,}70}$

$N \approx 355{,}7$

Donc :

$N \approx 356 \text{ sujets au total}$

ce qui redonne exactement l’ordre de grandeur du papier.

Réponse type

Si l’on admet qu’environ 70% des patients randomisés contribueront à un événement analysable, alors le passage des 249 événements requis au nombre de sujets se fait simplement par N ≈ D / p_event. On obtient :

$N \approx 249 / 0{,}70 \approx 356$

soit environ 356 sujets au total, valeur parfaitement cohérente avec le paragraphe de dimensionnement de l’article.

Question 3 proposée

Si l’effet attendu avait été plus modeste, par exemple HR = 0,80 au lieu de 0,67, quel aurait été l’ordre de grandeur du besoin en événements, puis en sujets, toutes choses égales par ailleurs ?

Exercice contextualisé

Cette question est très utile pour comprendre une idée fondamentale :

plus le HR attendu est proche de 1,
plus il faut d’événements,
donc plus le nombre de sujets nécessaires augmente fortement.

Résolution guidée

On garde les mêmes valeurs de alpha et de puissance :

$z_{1-\alpha} = 1{,}96 \qquad ; \qquad z_{1-\beta} \approx 1{,}18$

Formule de départ :

$D = \frac{4(z_{1-\alpha}+z_{1-\beta})^2}{[\log(HR)]^2}$

Cette fois :

$\log(0{,}80) \approx -0{,}223$

donc :

$[\log(0{,}80)]^2 \approx 0{,}050$

Le numérateur ne change pas :

$4(1{,}96+1{,}18)^2 \approx 39{,}4$

Donc :

$D \approx \frac{39{,}4}{0{,}050} \approx 788$

soit environ 790 événements.

Si l’on garde la même hypothèse de 70% d’événements observables :

$N \approx \frac{788}{0{,}70} \approx 1126$

On arrive donc à un peu plus de 1100 sujets au total.

Réponse type

Avec un effet attendu plus modeste, par exemple $HR = 0{,}80$ , le besoin en événements augmente fortement car $\log(HR)$ se rapproche de zéro. Le calcul de Schoenfeld donne alors environ 790 événements au lieu de 249. En supposant toujours qu’environ 70% des sujets fournissent un événement analysable, il faudrait alors :

$N \approx 790 / 0{,}70 \approx 1130$

soit de l’ordre de 1100 à 1150 sujets au total. Cette question montre bien à quel point le NSN dépend de l’effet attendu.

Question 4 proposée

Dans la mesure du possible, calculez une puissance a posteriori grossière sur l’effet observé pour la PFS.

Exercice contextualisé

Cette formulation ressemble aux annales d’épidémiologie, mais on peut très bien l’utiliser ici sur le résultat principal observé.

Le but n’est pas d’obtenir un chiffre parfait. Il faut surtout montrer que :

l’effet observé est beaucoup plus fort que l’effet anticipé ;
l’intervalle de confiance est étroit ;
la puissance observée sera donc très élevée.

Résolution guidée

L’article donne :

$HR = 0{,}49 \qquad \text{avec } IC95\% [0{,}39 ; 0{,}62]$

On commence par reconstruire :

$SE(\log HR) \approx \frac{\log(0{,}62)-\log(0{,}39)}{3{,}92}$

Décomposition :

$\log(0{,}62) \approx -0{,}48$

$\log(0{,}39) \approx -0{,}94$

$\log(0{,}62)-\log(0{,}39) \approx 0{,}46$

Donc :

$SE(\log HR) \approx \frac{0{,}46}{3{,}92} \approx 0{,}118$

Puis :

$z \approx \frac{|\log(0{,}49)|}{0{,}118}$

Or :

$\log(0{,}49) \approx -0{,}71$

donc :

$z \approx \frac{0{,}71}{0{,}118} \approx 6{,}0$

Enfin :

$\text{puissance} \approx \Phi(z-1{,}96) = \Phi(6{,}0-1{,}96) = \Phi(4{,}04)$

Une valeur de 4,04 est très au-dessus de 3, donc :

$\Phi(4{,}04) \approx 1$

La puissance observée grossière est donc pratiquement égale à 1.

Réponse type

Si l’on force un calcul de puissance a posteriori à partir du résultat observé HR = 0,49 [0,39 ; 0,62], on reconstruit d’abord SE(log HR) ≈ 0,118, puis un score de Wald d’environ z ≈ 6,0. Cela donne une puissance observée très proche de 100%. La bonne interprétation est surtout que l’effet observé est très nettement plus fort que l’effet de dimensionnement (HR = 0,67) et qu’il a été estimé avec un intervalle de confiance étroit.

Question 5 proposée

Si les auteurs avaient voulu une puissance de 90% au lieu de 88%, avec les mêmes autres hypothèses, combien aurait-il fallu prévoir d’événements, puis de sujets ?

Exercice contextualisé

Cette question ressemble beaucoup aux annales où l’on vous demande :

soit de refaire le NSN ;
soit d’expliquer comment il changerait si la puissance exigée était plus élevée.

Ici, on garde :

le même HR = 0,67 ;
le même alpha unilatéral 0,025 ;
la même hypothèse d’environ 70% d’événements observables.

Résolution guidée

On reprend la formule de Schoenfeld :

$D = \frac{4(z_{1-\alpha}+z_{1-\beta})^2}{[\log(HR)]^2}$

Cette fois :

$z_{1-\beta} = 1{,}28 \qquad \text{pour une puissance de } 90\%$

On garde :

$z_{1-\alpha} = 1{,}96 \qquad ; \qquad \log(0{,}67) \approx -0{,}40$

Donc :

$D \approx \frac{4(1{,}96+1{,}28)^2}{0{,}16}$

$1{,}96+1{,}28 = 3{,}24$

$3{,}24^2 \approx 10{,}50$

$4 \times 10{,}50 \approx 42{,}0$

$D \approx \frac{42{,}0}{0{,}16} \approx 262{,}5$

soit environ 263 événements.

Puis :

$N \approx \frac{263}{0{,}70} \approx 376$

On retient donc environ 376 sujets au total.

Réponse type

En passant d’une puissance de 88% à 90%, le besoin en événements augmente légèrement. Avec HR = 0,67, alpha = 0,025 unilatéral et la formule de Schoenfeld, on obtient environ 263 événements au lieu de 249. Si l’on suppose toujours qu’environ 70% des sujets fourniront un événement analysable, cela conduit à :

$N \approx 263 / 0{,}70 \approx 376$

soit environ 376 sujets au total. C’est intéressant, car cela est très proche de l’effectif effectivement randomisé dans l’essai.

Question 6 proposée

A l’aide des données disponibles dans l’article, essayez de retrouver approximativement le nombre d’événements qu’il aurait fallu pour l’OS si l’on recycle l’hypothèse HR = 0,70 avec une puissance de 80%.

Exercice contextualisé

Cette question ressemble beaucoup à ce qui est déjà demandé dans certaines annales :

prendre une hypothèse de l’article ;
la remettre dans une formule simple ;
vérifier qu’on retrouve un ordre de grandeur cohérent.

Ici, on reprend la logique de Schoenfeld, mais sur l’OS au lieu de la PFS.

Résolution guidée

Formule générale :

$D = \frac{4(z_{1-\alpha}+z_{1-\beta})^2}{[\log(HR)]^2}$

Si l’on recycle la même approximation d’alpha :

$z_{1-\alpha} = 1{,}96$

Pour une puissance de 80% :

$z_{1-\beta} = 0{,}84$

Avec :

$\log(0{,}70) \approx -0{,}357$

donc :

$[\log(0{,}70)]^2 \approx 0{,}127$

Application numérique :

$D \approx \frac{4(1{,}96+0{,}84)^2}{0{,}127}$

$1{,}96+0{,}84 = 2{,}80$

$2{,}80^2 = 7{,}84$

$4 \times 7{,}84 = 31{,}36$

$D \approx \frac{31{,}36}{0{,}127} \approx 247$

Il faudrait donc environ 247 événements de décès.

Réponse type

En reprenant la formule de Schoenfeld avec HR = 0,70, alpha ≈ 2,5% unilatéral et une puissance de 80%, on obtient environ 247 événements requis pour l’OS. Cela aide à comprendre pourquoi les auteurs disent que l’effectif prévu pour la PFS pouvait aussi couvrir l’OS, à condition d’avoir assez de décès observables pendant le suivi.

Question 7 proposée

Si seulement 60% des sujets randomisés devaient finalement contribuer à un événement de PFS analysable, combien de sujets faudrait-il inclure ?

Exercice contextualisé

Cette question reprend exactement une logique très fréquente dans les annales :

on a un besoin en événements ;
puis on vous demande de convertir ce besoin en nombre de sujets sous une autre hypothèse de rendement.

La formule reste la même, seule la proportion de sujets “utiles” change.

Résolution guidée

On garde :

$D \approx 249$

mais cette fois :

$p_{\text{event}} \approx 0{,}60$

Donc :

$N \approx \frac{249}{0{,}60}$

$N \approx 415$

Il faudrait donc environ 415 sujets au total.

Réponse type

Si seulement 60% des sujets randomisés devaient fournir un événement de PFS analysable, alors il faudrait :

$N \approx 249 / 0{,}60 \approx 415$

soit environ 415 patients au total. Cette question montre qu’à besoin en événements fixé, le NSN dépend fortement de la proportion attendue de sujets qui contribueront effectivement à l’analyse.

Question 8 proposée

Si l’essai avait été randomisé en 2:1 au lieu de 1:1, quel aurait été l’ordre de grandeur du besoin en événements, puis en sujets, pour la PFS ?

Exercice contextualisé

Dans les annales, on oublie souvent que l’allocation intervient directement dans les formules de survie.

Quand l’allocation n’est plus 1:1, on ne peut plus utiliser la forme simplifiée avec le facteur 4 ; il faut revenir à la formule générale avec :

$p(1-p)$

où p est la proportion allouée à un groupe.

Résolution guidée

Formule générale :

$D = \frac{(z_{1-\alpha}+z_{1-\beta})^2}{p(1-p)[\log(HR)]^2}$

Ici :

$p = \frac{2}{3} \qquad \Rightarrow \qquad p(1-p) = \frac{2}{3}\times\frac{1}{3} = \frac{2}{9} \approx 0{,}222$

On garde :

$(z_{1-\alpha}+z_{1-\beta})^2 \approx 9{,}86$

et :

$[\log(0{,}67)]^2 \approx 0{,}16$

Donc :

$D \approx \frac{9{,}86}{0{,}222 \times 0{,}16}$

$0{,}222 \times 0{,}16 \approx 0{,}0355$

$D \approx \frac{9{,}86}{0{,}0355} \approx 278$

Il faudrait donc environ 278 événements.

Si l’on garde l’hypothèse de 70% d’événements observables :

$N \approx \frac{278}{0{,}70} \approx 397$

On retient donc environ 400 sujets au total.

Réponse type

Avec une allocation 2:1, l’information statistique est un peu moins bonne qu’en 1:1. En reprenant la formule générale de Schoenfeld avec p = 2/3, on obtient environ 278 événements au lieu de 249. Sous l’hypothèse que 70% des sujets fournissent un événement analysable, cela conduit à environ 400 sujets au total. L’allocation déséquilibrée augmente donc légèrement le besoin en effectif.

Question 9 proposée

Dans la mesure du possible, calculez une puissance a posteriori grossière sur l’effet observé pour l’OS.

Exercice contextualisé

Cette question est volontairement parallèle à celle faite sur la PFS, pour vous entraîner à refaire exactement la même chaîne :

IC95% vers SE(log HR) ;
puis SE vers z ;
puis z vers une puissance observée grossière.

Résolution guidée

L’article donne :

$HR = 0{,}60 \qquad \text{avec } IC95\% [0{,}44 ; 0{,}82]$

On reconstruit :

$SE(\log HR) \approx \frac{\log(0{,}82)-\log(0{,}44)}{3{,}92}$

Avec :

$\log(0{,}82) \approx -0{,}20$

$\log(0{,}44) \approx -0{,}82$

donc :

$\log(0{,}82)-\log(0{,}44) \approx 0{,}62$

Puis :

$SE(\log HR) \approx \frac{0{,}62}{3{,}92} \approx 0{,}159$

Le score de Wald vaut alors :

$z \approx \frac{|\log(0{,}60)|}{0{,}159}$

or :

$\log(0{,}60) \approx -0{,}51$

donc :

$z \approx \frac{0{,}51}{0{,}159} \approx 3{,}21$

Enfin :

$\text{puissance} \approx \Phi(3{,}21-1{,}96) = \Phi(1{,}25)$

Or :

$\Phi(1{,}25) \approx 0{,}89$

La puissance observée grossière est donc d’environ 89%.

Réponse type

En forçant le calcul sur l’OS observée (HR = 0,60 [0,44 ; 0,82]), on trouve SE(log HR) ≈ 0,159, puis z ≈ 3,21, soit une puissance observée grossière d’environ 89%. Ce résultat est cohérent avec le fait que l’effet sur l’OS est estimé de manière assez précise et reste statistiquement convaincant.

Question 10 proposée

Si les auteurs avaient anticipé dès le départ l’effet réellement observé sur la PFS (HR ≈ 0,49) au lieu de HR = 0,67, quel aurait été l’ordre de grandeur du besoin en événements, puis en sujets ?

Exercice contextualisé

Cette question est très proche de l’esprit des annales où l’on vous demande de discuter si les hypothèses de départ étaient conservatrices.

Ici, l’idée est simple :

plus l’effet attendu est fort ;
moins il faut d’événements ;
donc moins il faut de sujets.

Résolution guidée

On garde :

$z_{1-\alpha} = 1{,}96 \qquad ; \qquad z_{1-\beta} \approx 1{,}18$

Donc le numérateur reste :

$4(1{,}96+1{,}18)^2 \approx 39{,}4$

Mais cette fois :

$\log(0{,}49) \approx -0{,}71$

donc :

$[\log(0{,}49)]^2 \approx 0{,}50$

Ainsi :

$D \approx \frac{39{,}4}{0{,}50} \approx 79$

Il faudrait donc seulement environ 80 événements.

Si l’on suppose encore 70% d’événements observables :

$N \approx \frac{79}{0{,}70} \approx 113$

On retient donc environ 110 à 115 sujets au total.

Réponse type

Si les auteurs avaient anticipé un effet aussi fort que celui finalement observé sur la PFS (HR ≈ 0,49), alors le besoin en événements aurait été bien plus faible : environ 80 événements au lieu de 249. Sous l’hypothèse qu’environ 70% des sujets fournissent un événement analysable, cela donnerait seulement 110 à 115 sujets au total. Cela montre que l’hypothèse de dimensionnement initiale (HR = 0,67) était nettement plus prudente que ce qui a été observé.

Questions complémentaires sur λ

Les trois questions suivantes sont supplémentaires aux 10 questions d’annales ci-dessus. Elles servent à travailler explicitement les liens :

$m = \frac{\log 2}{\lambda} \qquad ; \qquad R(t) = 1-e^{-\lambda t} \qquad ; \qquad HR \approx \frac{\lambda_T}{\lambda_C}$

sous une hypothèse exponentielle simplificatrice.

Question 11 proposée

A l’aide des données disponibles dans l’article, retrouvez approximativement les taux instantanés \lambda_C et \lambda_T de PFS dans les deux groupes, en supposant une loi exponentielle.

Exercice contextualisé

Dans les annales, ce type de question sert à vérifier que vous savez passer :

d’une médiane de survie ;
à un taux instantané ;
puis à une lecture plus concrète du phénomène.

Ici, les médianes observées sont :

4,3 mois dans le groupe chimiothérapie ;
8,3 mois dans le groupe sac-TMT.

Résolution guidée

Sous hypothèse exponentielle, le lien entre médiane m et taux \lambda est :

$m = \frac{\log 2}{\lambda} \qquad \Longleftrightarrow \qquad \lambda = \frac{\log 2}{m}$

On prend :

$\log 2 \approx 0{,}693$

Pour le bras contrôle :

$\lambda_C \approx \frac{0{,}693}{4{,}3}$

$\lambda_C \approx 0{,}161 \text{ par mois}$

Pour le bras traité :

$\lambda_T \approx \frac{0{,}693}{8{,}3}$

$\lambda_T \approx 0{,}084 \text{ par mois}$

Cela signifie, de manière très simplifiée, que le rythme de progression ou de décès est presque deux fois plus faible dans le bras sac-TMT que dans le bras chimiothérapie.

Réponse type

On part de la relation :

$\lambda = \frac{\log 2}{m}$

Pour le groupe contrôle :

$\lambda_C \approx \frac{0{,}693}{4{,}3} \approx 0{,}161 \text{ par mois}$

Pour le groupe traité :

$\lambda_T \approx \frac{0{,}693}{8{,}3} \approx 0{,}084 \text{ par mois}$

Le taux instantané d’événement est donc approximativement deux fois plus faible dans le bras traité.

Question 12 proposée

A l’aide des données disponibles dans l’article, retrouvez approximativement le hazard ratio à partir des médianes observées de PFS.

Exercice contextualisé

Cette question ressemble aux annales où l’on vous demande de faire parler les chiffres de l’article, même quand la quantité demandée n’est pas écrite telle quelle dans le paragraphe de méthode.

L’idée est ici de montrer que, sous hypothèse exponentielle :

le HR peut se lire comme un rapport de taux ;
les médianes observées donnent déjà une bonne intuition de l’effet.

Résolution guidée

Sous hypothèse exponentielle :

$HR \approx \frac{\lambda_T}{\lambda_C}$

Or :

$\lambda_C \approx 0{,}161 \qquad ; \qquad \lambda_T \approx 0{,}084$

Donc :

$HR \approx \frac{0{,}084}{0{,}161}$

$HR \approx 0{,}52$

L’article rapporte :

$HR = 0{,}49$

Le résultat n’est pas exactement identique, ce qui est normal :

la loi exponentielle n’est qu’une approximation ;
les médianes sont arrondies ;
le HR publié vient d’une vraie analyse de survie sur toutes les données, pas d’un simple calcul à partir des médianes.

Mais l’ordre de grandeur est très cohérent.

Réponse type

On utilise :

$HR \approx \frac{\lambda_T}{\lambda_C}$

En remplaçant :

$HR \approx \frac{0{,}084}{0{,}161} \approx 0{,}52$

Cette valeur est très proche du HR publié de 0,49. Les médianes observées sont donc cohérentes avec un effet important du traitement sur la PFS.

Question 13 proposée

En supposant une loi exponentielle et un suivi fixe de 12 mois sans perte de vue, quelle proportion de patients avec événement de PFS attendrait-on approximativement dans chaque groupe ? En quoi cela aide-t-il à comprendre que l’article parle d’environ 70% de patients fournissant un événement analysable ?

Exercice contextualisé

Cette question fait le lien entre deux étages du raisonnement :

les taux instantanés \lambda ;
la proportion de patients qui auront un événement pendant une certaine fenêtre de suivi.

C’est précisément ce type de pont qui permet de passer, dans un essai de survie, du besoin en événements au besoin en sujets.

Résolution guidée

Sous hypothèse exponentielle :

$R(t) = 1-e^{-\lambda t}$

où R(t) est ici le risque cumulé d’avoir progressé ou d’être décédé avant le temps t.

Pour le groupe contrôle à 12 mois :

$R_C(12) \approx 1-e^{-0{,}161 \times 12}$

$0{,}161 \times 12 = 1{,}932$

$e^{-1{,}932} \approx 0{,}145$

Donc :

$R_C(12) \approx 1-0{,}145 = 0{,}855$

soit environ 86% d’événements à 12 mois.

Pour le groupe traité :

$R_T(12) \approx 1-e^{-0{,}084 \times 12}$

$0{,}084 \times 12 = 1{,}008$

$e^{-1{,}008} \approx 0{,}365$

Donc :

$R_T(12) \approx 1-0{,}365 = 0{,}635$

soit environ 64% d’événements à 12 mois.

En allocation 1:1, une moyenne grossière donne :

$\frac{0{,}855+0{,}635}{2} \approx 0{,}745$

soit environ 75% de patients avec événement si tous étaient suivis 12 mois complets sans censure.

Cela aide à comprendre pourquoi une hypothèse pratique d’environ 70% de sujets contribuant à un événement analysable est très plausible dès qu’on tient compte de la censure administrative, du recrutement étalé et des arrondis.

Réponse type

On utilise :

$R(t) = 1-e^{-\lambda t}$

Pour le groupe contrôle :

$R_C(12) \approx 1-e^{-0{,}161 \times 12} \approx 0{,}855$

Pour le groupe traité :

$R_T(12) \approx 1-e^{-0{,}084 \times 12} \approx 0{,}635$

En moyenne 1:1, cela donne environ :

$\frac{0{,}855+0{,}635}{2} \approx 0{,}745$

soit environ 75% de patients avec événement. Cela rend très plausible l’hypothèse pratique d’environ 70% de sujets contribuant à un événement analysable.

6.16. 2026 EPI

Article et contexte

Article support : Rosenström et al., Lancet Psychiatry 2025, cohorte rétrospective comparant therapist-guided internet CBT (iCBT) à la face-to-face CBT (fCBT) pour la dépression en Finlande.

étude observationnelle sur registres ;
objectif principal : estimer un ATE sur le changement de score PHQ-9 ;
effectif analysé : 5834 patients (5446 iCBT et 388 fCBT) ;
l’article ne présente pas un vrai NSN d’essai randomisé, mais un objectif de précision.

Statut de cette section

Les dix questions ci-dessous sont des questions proposées d’entraînement à partir de l’article 2026 EPI. Ici, le thème “nombre de sujets” doit être compris comme un travail sur la précision, puis sur ce que donnerait un faux NSN si l’on transformait artificiellement l’article en essai simple.

Extrait de l’article à analyser

Passage exact de l'article

Le premier extrait précise la cible de précision. Les suivants donnent l'estimation finale et un ordre de grandeur de la variabilité.

"We arrived at our sample size by taking all eligible patients from the register. Our aim was to estimate the ATE between fCBT and guided iCBT. An estimate with a 95% CI no wider than 1.7 PHQ-9 points can be considered accurate ..."

"Observed difference in means (change in PHQ-9 [fCBT]) − (change in PHQ-9 [iCBT]) = 1.120; SE = 0.312; 95% CI 0.509 to 1.731."

"Estimated ATE (change in PHQ-9 [fCBT]) − (change in PHQ-9 [iCBT]) = 0.745; SE of the estimate = 0.300; 95% CI 0.156 to 1.334."

"Uusimaa region only: estimated ATE = 0.636; SE = 0.326; 95% CI −0.002 to 1.276."

"The mean PHQ-9 decline defined via change in PHQ-9 in the full sample was 3.6 points (5.0) ... The full-data change in PHQ-9 was 2.4 points (4.8) [in fCBT]."

Infos à repérer

cible de précision : IC95% ≤ 1,7 point de PHQ-9 ;
différence brute observée : 1,120 avec SE = 0,312 et IC95% 0,509 à 1,731 ;
estimateur final : ATE = 0,745, SE = 0,300, IC95% 0,156 à 1,334 ;
dans la région d'Uusimaa uniquement : ATE = 0,636, SE = 0,326, IC95% -0,002 à 1,276 ;
ordre de grandeur de l'écart-type du changement de PHQ-9 : environ 5,0 en iCBT et 4,8 en fCBT ;
effectif effectivement analysé : 5834 patients au total.

Pourquoi pas de λ ici ?

Pour cette annale 2026 EPI, \lambda n’est pas le bon outil de départ.

Pourquoi ?

le critère principal n’est pas un temps jusqu’à événement ;
on n’analyse pas une survie, une rechute ou un délai ;
on analyse une différence moyenne de score (PHQ-9).

Ici, les bons outils sont donc :

\sigma pour la variabilité ;
SE pour la précision ;
la largeur de l’IC95% ;
et la taille d’effet sur une échelle continue.

Question 1 proposée

Montrez que l’objectif annoncé est un objectif de précision et non un vrai NSN de supériorité. Quel SE maximal cela impose-t-il, et ce critère a-t-il été atteint ?

Exercice contextualisé

Ici, la première chose à comprendre est que l’article ne dit pas :

“nous voulions détecter une différence de x”,

mais :

“nous voulions une estimation avec un IC95% assez étroit”.

Il faut donc partir de la largeur cible de l’intervalle de confiance.

Résolution guidée

Rappel de formule :

$\text{largeur}(IC95\%) \approx 3{,}92 \times SE$

Donc, si l’on veut une largeur maximale de 1,7 :

$SE_{\text{cible}} \approx \frac{1{,}7}{3{,}92} \approx 0{,}434$

Maintenant, on regarde le résultat observé dans l’article :

$IC95\% = [0{,}156 ; 1{,}334]$

Sa largeur vaut :

$1{,}334 - 0{,}156 = 1{,}178$

donc :

$SE_{\text{observé}} \approx \frac{1{,}178}{3{,}92} \approx 0{,}301$

ce qui est cohérent avec le SE = 0,300 donné dans le tableau.

Comme :

$0{,}301 < 0{,}434$

la précision visée a bien été atteinte, et même dépassée.

Réponse type

L’article ne formule pas un NSN de supériorité classique ; il fixe une cible de précision : obtenir un IC95% de largeur au plus 1,7 point de PHQ-9. Cela correspond à un SE maximal d’environ 1,7 / 3,92 = 0,434. Or l’estimation finale a un SE d’environ 0,300, retrouvé soit directement dans le tableau, soit à partir de l’intervalle [0,156 ; 1,334]. L’objectif réel était donc bien un objectif de précision, et la précision observée est meilleure que celle visée.

Question 2 proposée

A l’aide des données disponibles dans l’article, essayez de retrouver approximativement le nombre de sujets qui aurait suffi dans une étude équilibrée à deux groupes pour garantir une largeur d’IC95% de 1,7 point, en prenant $\sigma \approx 4{,}9$ .

Exercice contextualisé

Cette question transforme l’objectif de précision de l’article en un calcul de coin de table beaucoup plus classique.

On utilise ici l’ordre de grandeur de la variabilité observée dans l’article :

SD ≈ 5,0 dans le groupe iCBT ;
SD ≈ 4,8 dans le groupe fCBT ;

donc un écart-type commun raisonnable :

$\sigma \approx 4{,}9$

Résolution guidée

Dans une étude équilibrée à deux groupes, l’erreur standard d’une différence de moyennes vaut :

$SE \approx \sigma \sqrt{\frac{2}{n}}$

La largeur de l’IC95% vaut donc :

$\text{largeur}(IC95\%) \approx 3{,}92 \times \sigma \sqrt{\frac{2}{n}}$

On veut une largeur égale à 1,7, donc :

$1{,}7 \approx 3{,}92 \times 4{,}9 \times \sqrt{\frac{2}{n}}$

Ce qui donne :

$n \approx 2\left(\frac{3{,}92 \times 4{,}9}{1{,}7}\right)^2$

Application numérique :

$3{,}92 \times 4{,}9 \approx 19{,}2$

$\frac{19{,}2}{1{,}7} \approx 11{,}3$

$11{,}3^2 \approx 127{,}7$

$n \approx 2 \times 127{,}7 \approx 255$

Il faudrait donc environ 255 sujets par bras, soit environ 510 au total.

Réponse type

En ramenant le problème à une étude simple et équilibrée à deux groupes, avec un écart-type commun d’environ 4,9, la contrainte de précision IC95% ≤ 1,7 conduit à :

$n \approx 2\left(\frac{3{,}92 \times 4{,}9}{1{,}7}\right)^2 \approx 255$

Il aurait donc fallu de l’ordre de 250 à 260 patients par bras, soit environ 500 à 520 sujets au total, pour garantir une telle précision dans un cadre simplifié.

Question 3 proposée

Si l’on transformait artificiellement cette question en un essai de supériorité classique visant à détecter une différence cliniquement perceptible de 1,7 point sur le PHQ-9, avec alpha = 5% et puissance 80%, quel serait le NSN approximatif par bras ?

Exercice contextualisé

Cette question n’est pas celle du papier, mais elle est très formatrice.

Elle permet de comparer deux logiques différentes :

logique de précision ;
logique de détection d’une différence cliniquement pertinente.

Résolution guidée

On utilise la formule classique à deux moyennes :

$n_{\text{par bras}} = \frac{2(z_{1-\alpha/2}+z_{1-\beta})^2\sigma^2}{\delta^2}$

Avec :

$z_{1-\alpha/2} = 1{,}96 \qquad ; \qquad z_{1-\beta} = 0{,}84$

$\sigma \approx 4{,}9 \qquad ; \qquad \delta = 1{,}7$

Application numérique :

$n \approx \frac{2(1{,}96+0{,}84)^2 \times 4{,}9^2}{1{,}7^2}$

$1{,}96+0{,}84 = 2{,}80$

$2{,}80^2 = 7{,}84$

$4{,}9^2 \approx 24{,}0$

$1{,}7^2 = 2{,}89$

Donc :

$n \approx \frac{2 \times 7{,}84 \times 24{,}0}{2{,}89} \approx \frac{376{,}3}{2{,}89} \approx 130$

On retient donc environ 130 sujets par bras, soit 260 au total.

Réponse type

Si l’on faisait comme s’il s’agissait d’un essai à deux groupes cherchant à détecter une différence cliniquement pertinente de 1,7 point sur le PHQ-9, avec alpha = 5%, puissance 80% et $\sigma \approx 4{,}9$ , on obtiendrait environ :

$n \approx 130 \text{ par bras}$

soit environ 260 sujets au total. Ce chiffre est plus petit que celui obtenu avec la logique de précision, ce qui rappelle qu’un objectif “avoir un IC étroit” est souvent plus exigeant qu’un simple objectif “détecter une différence”.

Question 4 proposée

Dans la mesure du possible, calculez une puissance a posteriori grossière pour l’ATE observé dans l’article.

Exercice contextualisé

Cette question reprend presque mot pour mot un type de question déjà rencontré dans les annales.

Ici, il faut toutefois bien rappeler que dans une étude observationnelle complexe, la puissance a posteriori n’est pas l’outil idéal. Mais, si on la force, on peut au moins faire le calcul de base à partir de l’estimation et de son SE.

Résolution guidée

L’article donne :

$\widehat\theta = 0{,}745 \qquad ; \qquad SE = 0{,}300$

Le score de Wald vaut :

$z \approx \frac{0{,}745}{0{,}300} \approx 2{,}48$

Puis :

$\text{puissance} \approx \Phi(z-1{,}96)$

Donc :

$\Phi(2{,}48-1{,}96) = \Phi(0{,}52)$

Or :

$\Phi(0{,}5) \approx 0{,}69$

donc :

$\Phi(0{,}52) \approx 0{,}70$

La puissance observée grossière est donc d’environ 70%.

Ce chiffre n’est pas à surinterpréter. Ce qui compte surtout est que :

l’IC95% exclut 0 ;
mais l’effet observé reste petit au regard du seuil clinique de 1,7.

Réponse type

Si l’on force un calcul de puissance a posteriori à partir de l’ATE observé 0,745 avec SE = 0,300, on obtient z ≈ 2,48, puis une puissance grossière d’environ Φ(0,52) ≈ 0,70, soit 70%. Cela dit, la bonne lecture de l’article n’est pas vraiment “puissance suffisante ou non”, mais plutôt “précision correcte, effet statistiquement significatif, mais taille d’effet modeste sur le plan clinique”.

Question 5 proposée

Si l’on voulait non pas détecter 1,7 point, mais seulement détecter l’effet observé de 0,745 point dans un essai simple à deux groupes, avec alpha = 5%, puissance 80% et $\sigma \approx 4{,}9$ , quel serait le NSN approximatif par bras ?

Exercice contextualisé

Cette question est très pédagogique parce qu’elle permet de comparer :

une différence cliniquement pertinente de 1,7 point ;
une différence effectivement observée de 0,745 point.

Comme 0,745 est beaucoup plus petit que 1,7, on doit s’attendre à un NSN beaucoup plus grand.

Résolution guidée

On reprend la formule à deux moyennes :

$n_{\text{par bras}} = \frac{2(z_{1-\alpha/2}+z_{1-\beta})^2\sigma^2}{\delta^2}$

Avec :

$z_{1-\alpha/2} = 1{,}96 \qquad ; \qquad z_{1-\beta} = 0{,}84$

$\sigma \approx 4{,}9 \qquad ; \qquad \delta = 0{,}745$

Le numérateur est le même que tout à l’heure :

$2(1{,}96+0{,}84)^2 \times 4{,}9^2 \approx 376{,}3$

Mais le dénominateur devient :

$0{,}745^2 \approx 0{,}555$

Donc :

$n \approx \frac{376{,}3}{0{,}555} \approx 678$

On retient donc environ 680 sujets par bras, soit environ 1360 au total.

Réponse type

Si l’on voulait détecter dans un essai simple la petite différence observée dans l’article (0,745 point sur le PHQ-9), alors le NSN deviendrait beaucoup plus grand. En reprenant alpha = 5%, puissance 80% et $\sigma \approx 4{,}9$ , on obtient environ :

$n \approx 678 \text{ par bras}$

soit de l’ordre de 680 sujets par bras, donc environ 1360 au total. Cette question montre bien qu’un effet statistiquement significatif peut rester assez petit et coûter très cher à démontrer dans un essai prospectif classique.

Question 6 proposée

A partir de l’IC95% de la différence brute observée (1,120 [0,509 ; 1,731]), retrouvez son SE, puis comparez sa précision à celle de l’ATE ajusté.

Exercice contextualisé

Cette question est utile pour bien distinguer :

la différence brute ;
l’ATE ajusté.

Dans cet article, les deux donnent des estimations proches, mais il est intéressant de voir si l’ajustement a coûté ou gagné en précision.

Résolution guidée

Rappel :

$SE \approx \frac{\text{largeur}(IC95\%)}{3{,}92}$

Pour la différence brute :

$\text{largeur} = 1{,}731 - 0{,}509 = 1{,}222$

Donc :

$SE_{\text{brut}} \approx \frac{1{,}222}{3{,}92} \approx 0{,}312$

Ce résultat retombe exactement sur le SE = 0,312 donné dans le tableau.

Pour l’ATE ajusté, on a déjà :

$SE_{\text{ATE}} \approx 0{,}300$

Comparaison :

$0{,}300 < 0{,}312$

L’ATE ajusté est donc légèrement plus précis que la différence brute.

Réponse type

À partir de l’intervalle 0,509 à 1,731, on obtient une largeur de 1,222, donc un SE d’environ 1,222 / 3,92 = 0,312. Ce SE est très proche de celui de l’ATE ajusté (0,300), qui est même légèrement plus petit. Dans cet article, l’ajustement causal n’a donc pas dégradé la précision ; il l’a même un peu améliorée.

Question 7 proposée

Dans la mesure du possible, calculez une puissance a posteriori grossière pour la différence brute observée de 1,120.

Exercice contextualisé

Cette question est parallèle à celle posée sur l’ATE ajusté, mais cette fois on travaille sur l’estimateur brut.

Elle permet de voir qu’une différence brute apparemment assez modeste en valeur absolue peut néanmoins être estimée avec une bonne puissance observée, simplement parce que son SE est petit.

Résolution guidée

On prend :

$\widehat\theta = 1{,}120 \qquad ; \qquad SE = 0{,}312$

Donc :

$z \approx \frac{1{,}120}{0{,}312} \approx 3{,}59$

Puis :

$\text{puissance} \approx \Phi(3{,}59-1{,}96) = \Phi(1{,}63)$

Or :

$\Phi(1{,}64) \approx 0{,}95$

donc :

$\Phi(1{,}63) \approx 0{,}95$

La puissance observée grossière est donc d’environ 95%.

Réponse type

Pour la différence brute observée 1,120 avec SE = 0,312, on trouve un score de Wald d’environ 3,59, puis une puissance observée grossière de l’ordre de 95%. Cela montre que la différence brute est estimée avec une bonne précision statistique, même si sa lecture causale est moins satisfaisante que celle de l’ATE ajusté.

Question 8 proposée

Dans la mesure du possible, calculez une puissance a posteriori grossière pour l’ATE estimé dans la région d’Uusimaa uniquement.

Exercice contextualisé

Cette question est très proche d’un vrai piège d’annale :

le résultat global est significatif ;
mais un sous-ensemble de données l’est beaucoup moins.

Cela permet d’illustrer l’effet d’un effectif plus petit sur la précision.

Résolution guidée

Dans la région d’Uusimaa, l’article donne :

$\widehat\theta = 0{,}636 \qquad ; \qquad SE = 0{,}326$

Donc :

$z \approx \frac{0{,}636}{0{,}326} \approx 1{,}95$

Puis :

$\text{puissance} \approx \Phi(1{,}95-1{,}96) = \Phi(-0{,}01)$

Or :

$\Phi(0) = 0{,}50$

donc :

$\Phi(-0{,}01) \approx 0{,}50$

La puissance observée grossière est donc environ 50%.

C’est cohérent avec le fait que l’IC95% [-0,002 ; 1,276] touche pratiquement 0.

Réponse type

Dans l’analyse restreinte à Uusimaa, l’ATE est 0,636 avec SE = 0,326, soit z ≈ 1,95. Cela conduit à une puissance observée grossière d’environ 50%, ce qui est cohérent avec un intervalle de confiance qui frôle 0 et donc avec un résultat beaucoup moins convaincant que dans l’analyse principale.

Question 9 proposée

Si l’on voulait une largeur d’IC95% non plus de 1,7 point mais de 1,0 point, quel effectif approximatif faudrait-il dans une étude équilibrée à deux groupes avec $\sigma \approx 4{,}9$ ?

Exercice contextualisé

Cette question prolonge directement la logique de précision de l’article :

on garde la même variabilité ;
mais on exige une estimation encore plus précise.

Comme la largeur visée diminue, l’effectif nécessaire doit augmenter nettement.

Résolution guidée

On repart de :

$\text{largeur}(IC95\%) \approx 3{,}92 \times \sigma \sqrt{\frac{2}{n}}$

On veut maintenant :

$1{,}0 \approx 3{,}92 \times 4{,}9 \times \sqrt{\frac{2}{n}}$

Donc :

$n \approx 2\left(\frac{3{,}92 \times 4{,}9}{1{,}0}\right)^2$

Or :

$3{,}92 \times 4{,}9 \approx 19{,}2$

Donc :

$n \approx 2 \times 19{,}2^2$

$19{,}2^2 \approx 368{,}6$

$n \approx 2 \times 368{,}6 \approx 737$

Il faudrait donc environ 740 sujets par bras, soit environ 1480 au total.

Réponse type

Avec un objectif de précision plus exigeant, IC95% ≤ 1,0 point, le besoin en effectif augmente fortement. En reprenant $\sigma \approx 4{,}9$ , on obtient environ 740 sujets par bras, soit près de 1500 sujets au total. Cela montre à quel point les objectifs de précision étroite sont coûteux en effectif.

Question 10 proposée

Si l’on dimensionnait un essai simple non pas sur l’ATE ajusté (0,745) mais sur la différence brute observée (1,120), quel serait le NSN approximatif par bras ? Comparez au calcul basé sur 0,745.

Exercice contextualisé

Cette question est très utile pédagogiquement car elle montre qu’un NSN dépend énormément de la taille d’effet choisie.

On compare ici deux scénarios :

dimensionner sur l’effet ajusté 0,745 ;
dimensionner sur la différence brute 1,120.

Résolution guidée

On garde :

$n_{\text{par bras}} = \frac{2(z_{1-\alpha/2}+z_{1-\beta})^2\sigma^2}{\delta^2}$

Avec :

$z_{1-\alpha/2} = 1{,}96 \qquad ; \qquad z_{1-\beta} = 0{,}84 \qquad ; \qquad \sigma \approx 4{,}9$

Le numérateur est toujours :

$2(1{,}96+0{,}84)^2 \times 4{,}9^2 \approx 376{,}3$

Si cette fois :

$\delta = 1{,}120$

alors :

$1{,}120^2 \approx 1{,}254$

et :

$n \approx \frac{376{,}3}{1{,}254} \approx 300$

On retient donc environ 300 sujets par bras, soit 600 au total.

Comparaison :

avec $\delta = 0{,}745$ , on trouvait environ 680 par bras ;
avec $\delta = 1{,}120$ , on tombe à environ 300 par bras.

Réponse type

Si l’on dimensionne un essai simple sur la différence brute observée 1,120 plutôt que sur l’ATE ajusté 0,745, le NSN devient beaucoup plus petit, car l’effet supposé est plus grand. Le calcul donne environ 300 sujets par bras, soit 600 au total. À comparer aux 680 sujets par bras obtenus quand on dimensionne sur 0,745. Cette question rappelle qu’un petit changement dans la taille d’effet retenue peut modifier massivement le NSN.

7. Réponses prêtes à l’emploi par grand type de question

7.1. Si l’on vous demande un vrai NSN

Il s’agit d’un calcul de NSN [pour deux proportions / deux moyennes / un essai de survie]. Il me faut donc un alpha, une puissance, une taille d’effet cliniquement pertinente, et une mesure de la variabilité ou du risque de base. En reprenant les hypothèses de l’article, on obtient un effectif d’environ [x] par bras, à majorer si nécessaire pour [dropout / cluster / multiplicité / autres].

7.2. Si l’on vous demande une puissance a posteriori

Une puissance a posteriori n’est pas l’outil le plus satisfaisant car l’intervalle de confiance contient déjà l’information de précision.

Si on force néanmoins un calcul grossier, on remonte d’abord au SE par :

$SE \approx \frac{\text{largeur}(IC95\%)}{3{,}92}$

ou, pour un RR, un OR ou un HR :

$SE(\log \theta) \approx \frac{\log(\text{borne sup})-\log(\text{borne inf})}{3{,}92}$

On en déduit ensuite un z, puis une puissance observée approximative. L’important est surtout de dire si l’IC95% exclut ou non un effet cliniquement important.

7.3. Si l’article ne donne pas assez d’éléments

Le calcul exact n’est pas reconstructible car il manque [paramètre]. En revanche, la logique du dimensionnement est claire : il faut [liste des paramètres] et le résultat attendu est de l’ordre de [ordre de grandeur].

7.4. Si l’étude est une grande cohorte

Dans cette étude, la puissance n’est pas le vrai problème. Avec un effectif et un nombre d’événements aussi élevés, l’information est abondante. La discussion doit porter surtout sur la taille d’effet, les IC95%, et la validité causale.

8. Checklist finale avant de rendre la copie

Checklist de 20 secondes

Ai-je bien identifié le design ?
Ai-je dit si l’on parle de NSN prospectif, de puissance observée, ou de simple précision ?
Ai-je cité alpha, beta, l’effet attendu, et la variabilité ?
Ai-je pensé aux pertes, au cluster, à la multiplicité, à la surdispersion, ou aux co-primary endpoints ?
Ai-je conclu par un chiffre ou par une interprétation claire ?
Ai-je expliqué ce qui manque si le calcul exact n’est pas refaisable ?

9. Conclusion

Pour traiter correctement toutes les questions du dossier sur ce thème, il faut retenir trois idées.

Le bon raisonnement dépend du design.
On ne parle pas de la même manière d’un essai randomisé, d’un essai event-driven, d’une cohorte, ou d’une étude transversale.
Un bon calcul de NSN repose toujours sur les mêmes briques.
alpha, beta, effet attendu, variabilité ou risque de base, puis ajustements de design.
Quand le calcul exact est impossible, une réponse méthodologiquement claire vaut mieux qu’un faux calcul précis.
En examen, cela rapporte des points parce que cela montre que vous avez compris la logique statistique réelle de la question.

Ce poly couvre ainsi l’ensemble des variantes rencontrées dans les annales du dossier, avec une progression allant des formules générales vers les cas d’examen réellement posés.