Publié le 24 oct 2018Lecture 15 min

Le « p » statistique à 0,05 est-il fiable ou non ? Telle est la question

Louis MONNIER, Claude COLETTE, Institut de Recherche Clinique, Montpellier

Pendant très longtemps, l’évaluation des traitements médicamenteux et des stratégies thérapeutiques resta limitée à des impressions cliniques plutôt qu’à des déductions tirées de la collaboration entre cliniciens et statisticiens. Ce n’est que dans les années 60 que la méthode statistique prit réellement son essor pour devenir un outil incontournable pour analyser les résultats des essais médicamenteux. En France, des statisticiens comme Daniel Schwartz furent des pionniers dans ce domaine et ses ouvrages comme Méthodes statistiques à l’usage des médecins et des biologistes⁽¹⁾ ou comme L’Essai thérapeutique chez l’homme⁽²⁾ restèrent pendant de nombreuses années des références pour tous ceux qui voulaient s’initier à la méthodologie de l’analyse statistique en médecine et dans les sciences de la vie. Aujourd’hui il n’y a aucune étude, aussi mineure soit-elle, qui ne fasse appel à cette méthodologie. Le « p » statistique est devenu son expression la plus familière pour tous les médecins qui s’intéressent aux essais médicamenteux, que ces derniers soient grands ou petits.

Le « p » statistique en majesté dans les grands congrès Les grands congrès internationaux sont souvent le lieu où sont rapportés pour la première fois les résultats des grands essais thérapeutiques qui portent sur un nombre de sujets sans cesse croissant. Tous les médecins qui assistent à ces congrès savent qu’ils vont être soumis à une avalanche d’informations qui s’abattent sur eux sous la forme de données statistiques. Ces dernières sont en général déclinées par les conférenciers sous la forme d’une énumération plus ou moins longue de valeurs du « p », qu’elles soient considérées ou non comme significatives. Le « gold standard » est de considérer que le seuil de significativité des « p » est égal à 0,05. Si sur le critère de jugement principal choisi (« primary end point »), par exemple l’incidence des accidents cardiovasculaires mortels ou non mortels, le nouveau médicament testé montre une supériorité (p < 0,05) par rapport à un placebo et a fortiori par rapport à un médicament plus ancien, son succès est assuré auprès d’un auditoire de prescripteurs potentiels. Les conférenciers sont choisis parmi un « panel » d’experts ayant participé à des degrés divers à l’élaboration du protocole de l’étude, au recrutement des patients, à l’analyse des résultats et à leur exploitation statistique. Ces présentations dans les congrès à grande renommée et à forte audience sont particulièrement prisées par les médecins qui souhaitent bénéficier en « prime time » d’une information tenue jusque-là secrète, sauf pour quelques initiés ayant participé à l’essai thérapeutique. Deux ou trois jours avant la séance plénière, il est d’ailleurs surprenant d’écouter les conciliabules de couloir entre congressistes qui espèrent glaner quelques informations préliminaires auprès de personnes censées savoir quelque chose alors qu’en fait elles ne savent rien de plus que les autres jusqu’à la présentation officielle. Cette dernière se déroule en général selon un rituel qui s’apparente à une cérémonie solennelle avec des experts juchés sur une estrade surélevée pour présenter à tour de rôle les résultats de l’étude, chacun dans son domaine de compétence. Le tout est orchestré par un expert principal (appelé « chairman »). Après le catalogue de ses nombreux conflits d’intérêts, son rôle est d’inaugurer la « cérémonie » par un discours introductif. Ensuite commence la longue litanie des résultats communiqués sous forme de chiffres et de « p » statistiques au milieu desquels l’auditeur lambda, souvent désorienté par l’avalanche de données, éprouve quelques difficultés à se faire une idée claire sur la pertinence des résultats présentés. Dès lors, pour se forger une opinion plus précise sur la significativité ou la non-significativité des « p » rapportés, il est préférable d’attendre la version imprimée des résultats qui sont rapidement publiés in extenso dans les grands journaux comme le New England Journal of Medicine, le Lancet ou le JAMA. La lecture à « tête reposée » de la publication est indispensable pour se frayer un passage dans le dédale des « p » statistiques dont l’interprétation requiert évidemment un minimum de connaissances statistiques et d’esprit critique. C’est ce que nous allons tenter de développer dans les lignes qui suivent. Le « p » statistique : signification et significativité Pour que l’interprétation des résultats d’un essai thérapeutique soit aussi objective que possible, encore faut-il s’entendre sur la significativité du « p » statistique. Cette question a été soulevée récemment dans un article publié dans le JAMA sous la rubrique « Point de vue », par Ioannidis(3), statisticien à l’université de Stanford et membre de l’American Statistical Association (ASA). La question posée était la suivante : le seuil de pertinence du « p » statistique doit-il être maintenu à sa valeur classique de 0,05 ? L’auteur rappelle que la majorité des articles publiés (environ 96 %) considèrent que les résultats d’une étude sont statistiquement significatifs dès que le « p » statistique devient < 0,05. Ce concept est cependant considéré comme problématique par l’ASA qui propose de revoir le statu quo et de faire passer le seuil de significativité à 0,005. À l’appui de cette proposition, l’auteur rappelle que les valeurs de « p » sont souvent mal interprétées. À titre d’exemple, une valeur de « p » à 0,02 (2 %) est souvent considérée, à tort, comme correspondant au niveau de probabilité de véracité de l’hypothèse nulle (par exemple l’efficacité identique d’un médicament et d’un placebo), tandis que l’hypothèse alternative (le médicament est plus efficace que le placebo) aurait une probabilité de 98 %. Cette interprétation est erronée. En fait, les tests statistiques (par exemple les tests de comparaison de moyennes par le test de Student ou de fréquences par le test du Chi-carré) permettent de quantifier l’erreur de type I appelée erreur alpha. Pour comprendre sa signification, supposons que nous comparions 2 médicaments A et B. L’hypothèse nulle (H0) est de considérer que A est équivalent à B (A = B). Deux cas de figure peuvent se présenter : – le premier est celui où l’hypothèse nulle est réellement vraie. Dans ce cas, si H0 est rejetée par les tests statistiques, on commet une erreur de type I puisque le test indique que A est différent de B, alors qu’en réalité A = B. En revanche si H0 n’est pas rejetée on ne commet pas d’erreur ; – le deuxième cas de figure est celui dans lequel l’hypothèse nulle (A = B) est réellement fausse. Dans ce cas, si H0 est rejetée par les tests on ne commet pas d’erreur. En revanche, dans ce cas de figure on commet une erreur de type II (erreur bêta) si H0 n’est pas rejetée, puisque le test indique que A = B alors que A est en réalité différent de B. Ces différentes situations sont consignées sur le tableau 1(4). La discordance entre le désaccord observé entre expérience réalisée et hypothèse nulle (H0) est quantifiée par la valeur de « p »(5). Le calcul de cette valeur relève normalement de calculs très complexes. Par bonheur, la valeur de « p » est fournie par des tables grâce à une lecture directe en fonction du résultat du test statistique (calcul du t de Student ou du Chi-carré par exemple) et en le rapportant à α (probabilité de faire une erreur de type I). Pour la probabilité β de faire une erreur de type II, sa valeur n’est en général ni connue ni spécifiée, à l’inverse de la probabilité α de faire une erreur de type I. Il est bien connu que plus la probabilité de commettre une erreur de type I (α) est faible, plus la probabilité de commettre une erreur de type II (β) est élevée. Pour réduire à la fois les probabilités des 2 types d’erreur, il est nécessaire d’augmenter le nombre de cas (n) inclus dans l’étude(4). Cette règle explique pourquoi il existe une surenchère permanente pour augmenter le nombre de cas dans toutes les études, en particulier celles où on envisage de comparer deux médicaments A et B. La même logique existe quand on veut comparer un médicament A versus un placebo. La conséquence est la réalisation et la publication de « méga études » de plus en plus fréquentes portant sur plus de 10 000 cas. Le « p » statistique : interprétation à la lumière de quelques exemples Premier exemple : l’étude SAVOR-TIMI 53(6) Elle a été conçue pour comparer la survenue d’accidents cardiovasculaires mortels ou non mortels sous traitement par saxagliptine (un inhibiteur de la DPP-4) versus un groupe contrôle (placebo). Cette étude a porté sur 16 492 patients ayant un diabète de type 2. Malgré l’inclusion d’un grand nombre de sujets, les résultats de cette étude interventionnelle randomisée n’ont montré ni augmentation ni diminution des accidents cardiovasculaires (critère de jugement principal ou « primary end point ») entre les 2 bras thérapeutiques. Pour essayer de trouver un résultat significatif et pour tenter de valoriser des études dont les résultats sont souvent neutres (décevants diront certains), les investigateurs ont pris l’habitude de définir et d’augmenter le nombre de critères de jugement secondaires ou « secondary end points » quand les résultats au niveau de l’objectif primaire, en l’occurrence les accidents cardiovasculaires, ne sont pas au rendez-vous : p = 0,99 pour la supériorité et p < 0,0001 pour la non-infériorité de la saxagliptine par rapport au placebo dans l’étude SAVOR-TIMI 53 (tableau 2)(6). Pour les critères de jugement secondaires, seul est mentionné dans le tableau celui qui est significatif (p = 0,007) sur les hospitalisations pour insuffisance cardiaque, qui sont plus nombreuses dans le groupe saxagliptine que dans le groupe placebo. Pour les autres objectifs secondaires, les niveaux de significativité n’atteignent jamais le seuil de significativité à 0,05 : - Décès quelles qu’en soient les causes : p = 0,15 - Décès de cause cardiovasculaire : p = 0,72 - Infarctus du myocarde : p = 0,52 - Accidents vasculaires cérébraux : p = 0,38 - Hospitalisations pour angor instable : p = 0,24 - Hospitalisations pour revascularisation coronarienne : p = 0,18 Dans ces « méga essais », il est également habituel de compléter l’étude par une analyse de sous-groupes de patients choisis en fonction de paramètres anthropométriques ou cliniques tels que l’âge, le poids ou la présence/absence de complications cardiovasculaires au départ de l’étude. Ces mesures, qui consistent à fragmenter la population et à augmenter le nombre de critères de jugement, finissent parfois par conduire à des résultats significatifs sur certains paramètres ou dans certains sous-groupes, en particulier si l’on retient une valeur de « p » significative à un seuil de 0,05. Dans ces conditions, ne faut-il pas réduire la valeur du seuil de significativité du « p » à moins de 0,005 pour éviter de déclarer des résultats significatifs alors qu’ils ne le sont pas ? C’est cette discussion qui fait l’objet du « Point de vue » publié dans le JAMA par Ioannidis(3). Pour appuyer cette opinion que nous considérons comme tout à fait pertinente, prenons l’exemple de l’étude SAVOR-TIMI 53(6) où les hospitalisations pour insuffisance cardiaque ont été significativement plus nombreuses (p = 0,007) dans le groupe saxagliptine que dans le groupe placebo (tableau 2). Cette augmentation de fréquence a alimenté les débats pendant de nombreux mois. Si la valeur du seuil de significativité du « p » avait été portée à 0,005, le résultat n’aurait pas été considéré comme significatif et aurait probablement évité d’interminables discussions dont la pertinence n’était pas évidente dans la mesure où par le jeu des simples lois du hasard une deuxième étude pratiquée dans les mêmes conditions n’aurait vraisemblablement rien montré de significatif, même avec le seuil classique de 0,05. Deuxième exemple : l’étude HEART2D(7) Dans cette étude, deux schémas insuliniques, l’un prandial (3 injections d’analogues rapides/jour), l’autre basal (glargine 1 fois/jour), sont comparés chez des patients ayant un diabète de type 2 et ayant fait un infarctus du myocarde. Les deux schémas ont montré un effet identique en prenant comme critère de jugement principal la survenue d’une récidive d’accident cardiovasculaire dans l’étude principale(7). En revanche, dans une analyse réalisée dans la sous-population des sujets âgés (plus de 65,7 ans)(8), le schéma prandial s’est accompagné d’une diminution de la fréquence des récidives (p = 0,029). L’explication alléguée était que le schéma prandial réduisait mieux les excursions glycémiques postprandiales que le schéma basal. Ce dernier résultat serait donc en faveur d’un schéma insulinique prandial par rapport au basal. Toutefois, plusieurs remarques viennent à l’esprit. La valeur du « p » quand le seuil est fixé à 0,05 laisse planer le doute sur sa réelle significativité, surtout quand il s’applique à une population réduite par rapport à la population initiale, laquelle avait été randomisée alors que la sous-population (en l’occurrence la population âgée) n’a pas fait l’objet d’une « post-randomisation ». Cette dernière, souvent impossible, est pourtant utile si on veut éviter les biais statistiques. Dans ces conditions, les résultats de l’analyse post-hoc de l’étude HEART2D(8) chez les sujets âgés doivent être pris avec beaucoup de réserves. Troisième exemple : l’étude interventionnelle LEADER(9) Elle a porté sur 9 340 sujets et elle a consisté à comparer 2 groupes de patients diabétiques de type 2 selon qu’ils étaient traités par un agoniste des récepteurs du GLP-1 (le liraglutide, Victoza®) ou affectés au groupe placebo. Si on se place dans une stratégie d’analyse statistique avec un seuil de significativité du « p » à 0,05, les résultats montrent une supériorité indiscutable du liraglutide par rapport au placebo sur plusieurs critères de jugement (« end points ») primaires ou secondaires (tableau 3)(9). En revanche, si le seuil de significativité est porté à 0,005, la supériorité du liraglutide par rapport au placebo ne s’exprime que sur un seul des « end points », représenté par un composite « étendu » constitué par les situations suivantes : les décès par accident cardiovasculaire, les infarctus du myocarde et les accidents vasculaires cérébraux non mortels, les revascularisations coronariennes ou les hospitalisations pour angor instable ou insuffisance cardiaque (tableau 3). Pour quelques « end points » les résultats indiquent que la valeur du « p » est située dans la zone < 0,05 mais > 0,005. C’est en particulier le cas pour les infarctus du myocarde avec un « p » à 0,046, les « end points » primaires composites « non étendus » avec un « p » à 0,01, les décès quelles qu’en soient les causes avec un « p » à 0,02 et les décès de cause cardiovasculaire pris isolément ("p" à 0,007) lorsqu’ils ne sont pas inclus dans le composite « étendu ». Ces résultats doivent-ils être considérés comme significatifs ou non significatifs ? Les auteurs de l’étude considèrent qu’ils le sont. Dès lors, la conséquence logique pour les auteurs a été de conclure que dans le groupe liraglutide, l’incidence des événements cardiovasculaires et des décès quelles qu’en soient les causes était moindre dans le groupe liraglutide que dans le groupe placebo. Si on considère que la valeur seuil du « p » doit atteindre 0,005, un seul des résultats de l’étude LEADER est significatif (celui sur le composite « étendu » comme indiqué plus haut), alors que tous les autres ne le sont pas. Dans ces conditions, il serait préférable de conclure que le liraglutide a une tendance à réduire l’incidence des accidents cardiovasculaires sans toutefois se hasarder à conclure qu’il diminue celle des décès toutes causes confondues, qu’ils soient ou non d’origine cardiovasculaire(9). Ceci signifie qu’une lecture critique de LEADER aurait pu conduire à freiner les enthousiasmes soulevés par cette étude lorsqu’elle a été publiée, même si des études antérieures chez l’animal avaient montré un effet cardioprotecteur des agonistes des récepteurs du GLP-1(10). Depuis, grâce à des études complémentaires, les preuves se sont accumulées pour montrer que la classe des agonistes du GLP-1 semble avoir des effets bénéfiques sur le système cardiovasculaire par des effets directs(11) ou indirects(12). Quatrième exemple : l’étude EMPA-REG(13) Dans un essai randomisé réalisé sur 7 020 patients ayant un diabète de type 2, les investigateurs ont essayé de répondre à la question suivante : l’empagliflozine, un inhibiteur du SGLT2, lorsqu’elle est comparée à un placebo, réduit-elle le risque d’accidents cardiovasculaires ? Les résultats sur certains critères de jugement ont été spectaculaires (tableau 4). Les décès, qu’ils soient d’origine cardiovasculaire ou quelle qu’en soit la cause, ont été réduits de manière très significative dans le groupe empagliflozine par rapport au groupe placebo avec un « p » statistique < 0,001. Des résultats significatifs (p < 0,001) ont également été observés sur les hospitalisations pour insuffisance cardiaque (p < 0,002) et sur les hospitalisations pour insuffisance cardiaque ou décès de cause cardiovasculaire, à l’exclusion des accidents vasculaires cérébraux (p < 0,001). Dans ce cas, les résultats sont suffisamment positifs pour considérer que l’empagliflozine a un effet bénéfique sur le risque cardiovasculaire puisque la significativité de p est largement en dessous du seuil de 0,005 proposé par les plus « durs » des statisticiens(3). Le critère de jugement primaire est un composite qui recouvre les décès de cause cardiovasculaire, les infarctus du myocarde et les accidents vasculaires cérébraux non mortels. Le critère de jugement primaire « étendu » comprend les événements sélectionnés pour le critère de jugement primaire en y rajoutant les hospitalisations pour angor instable. Le « p » statistique : peut-on le compléter et l’améliorer ? Pour essayer de clarifier la situation, quand les résultats du « p » statistique ne sont pas suffisamment probants, certains auteurs dont Ioannidis(3) proposent d’utiliser d’autres outils statistiques tels que la méthode bayésienne appliquée à l’analyse statistique(3,14). Les fondements de cette analyse ont été développés au XVIIIe siècle par un statisticien Anglais, Thomas Bayes. Son fameux théorème dit théorème de Bayes ne fit l’objet que de notes éparses qui ne furent éditées qu’après son décès survenu en 1761. Le principe de la méthode bayésienne appliquée à l’analyse statistique consiste à fixer la probabilité de l’hypothèse nulle (H0) avant le début de l’étude (« prior probability ») et à la comparer à cette même probabilité d’hypothèse nulle à la fin de l’étude (« posterior probability »)(14). La première est fixée de manière arbitraire (par exemple 50 %). La deuxième est calculée à partir de données recueillies au cours de l’étude et en tenant compte évidemment de la probabilité arbitraire de départ. La variation entre les deux probabilités évalue par exemple la puissance statistique de la supériorité éventuelle d’un traitement A par rapport à un placebo. Dans l’étude LEADER(9), si on considère au départ de l’étude que la probabilité de l’hypothèse nulle (H0) pour les décès cardiovasculaires est égale à 50 %, le calcul de cette même probabilité n’est plus que de 2 % en fin d’étude(15) (tableau 5). Le passage de 50 % à 2 % fournit une forte preuve en faveur de la supériorité du liraglutide par rapport au placebo en termes de réduction des décès par accidents cardiovasculaires. Pour les autres événements tels que le MACE-3 points (« Major Adverse Cardiovascular Events »), qui est un composite d’accidents cardiovasculaires mortels, d’infarctus du myocarde et d’accidents vasculaires cérébraux non mortels, la signification est comprise entre un niveau faible, modéré ou modéré-fort (tableau 5)(15). À la lecture de ce tableau, il est possible de dire que la méthode bayésienne confirme dans l’ensemble la supériorité du liraglutide sur le placebo, au moins pour réduire les décès par accidents cardiovasculaires et à un moindre degré pour diminuer la fréquence des décès quelles qu’en soient les causes. Dans l’étude EMPA-REG, l’analyse bayésienne a été réalisée(15). Comme on pouvait s’y attendre, elle confirme la haute significativité obtenue avec l’analyse classique qui avait déjà montré que le « p » est < 0,001 pour les décès, qu’ils soient d’origine cardiovasculaire ou quelles qu’en soient les causes(13) (tableau 5). MACE-3 points : « Major Adverse Cardiovascular Events » qui regroupent un composite formé par les décès cardiovasculaires et les infarctus du myocarde ou les accidents vasculaire cérébraux non mortels. Les chiffres dans les cases indiquent la probabilité de l'hypothèse nulle (H0). Conclusion Pour terminer cet article, nous ne pouvons que souscrire à l’opinion exprimée par Ioannidis(3), l’auteur du « Point de vue » publié dans le JAMA. Cette opinion peut être résumée de la manière suivante. En premier lieu, la valeur du seuil du « p » doit être adaptée aux objectifs poursuivis, ce qui signifie clairement que le « p » à 0,05 est sûrement inadapté dans de nombreuses études. Ceci est vrai pour les études qui portent sur un faible nombre de cas car il suffit que quelques sujets s’écartent trop de la moyenne pour trouver une significativité qui n’existe pas. Dans les études interventionnelles qui portent sur un grand nombre d’individus, les risques d’erreur sont moins élevés sauf lorsqu’on fragmente les populations en sous-groupes et lorsqu’on multiplie les nombres des « end-points ». Est-il pour autant possible de fixer un nouveau seuil de significativité du « p » à 0,005 ? Rien n’est moins sûr. C’est pour cette raison que d’autres solutions telles que la méthode bayésienne pourraient être proposées de manière quasi systématique pour améliorer sur une grande échelle les déductions statistiques quand elles ne sont pas entièrement probantes avec les méthodes classiques. La réduction du seuil de significativité du « p » à 0,005 reste malgré tout une mesure souhaitable en sachant que dans certaines études, en particulier celles qui concernent le génome humain où la variabilité est complexe, le seuil du « p » devrait être porté à un niveau très bas avec 8 chiffres après la virgule, soit « p » < 5.10-8. "Diabétologie Pratique : publication avancée en ligne".

Attention, pour des raisons réglementaires ce site est réservé aux professionnels de santé.

pour voir la suite, inscrivez-vous gratuitement.

Si vous êtes déjà inscrit,
connectez vous :

Se connecter

Si vous n'êtes pas encore inscrit au site,
inscrivez-vous gratuitement :

Je m'inscris

Articles sur le même thème

Études

24 fév 2023Lecture 11 min

La SOS Study trente ans après - Validation à très long terme de la chirurgie bariatrique

Jean-Louis SCHLIENGER, Faculté de médecine, Université de Strasbourg

À partir des années 1980, l’obésité n’est plus considérée comme une disgrâce, mais comme une authentique maladie chronique responsable d’une sur morbi-mortalité que seule une perte de poids intentionnelle et...

Études

25 oct 2019Lecture 11 min

Études nutritionnelles - Entre pistes sérieuses et argumentum ad absurdum

Louis MONNIER*, Jean-Louis SCHLIENGER**, Claude COLETTE*, *Institut universitaire de...

Les études d’épidémiologie et d’interventions nutritionnelles ont été à la base de la nutrition moderne. Les premières servent d’alerte pour détecter les facteurs nutritionnels ou alimentaires qui peuvent...

Études

10 oct 2019Lecture 15 min

Bénéfices-risques des inhibiteurs de SGLT2

Patrice DARMON, Pôle ENDO, CHU de la Conception, Assistance publique - Hôpitaux de...

La Société francophone du diabète prend position.

Vidéo sur le même thème

Études

Cohorte SFDT1 : premiers résultats d’études

Sylvie PICARD (Dijon) & Guy FAGHERAZZI (Luxembourg Institute of Health)

La cohorte SFDT1 qui a débuté en 2020 compte aujourd’hui environ 2 000 patients suivis longitudinalement. Cette étude prospective a permis...

Le « p » statistique à 0,05 est-il fiable ou non ? Telle est la question

pour voir la suite, inscrivez-vous gratuitement.

Articles sur le même thème

La SOS Study trente ans après - Validation à très long terme de la chirurgie bariatrique

Études nutritionnelles - Entre pistes sérieuses et argumentum ad absurdum

Bénéfices-risques des inhibiteurs de SGLT2

Vidéo sur le même thème

Cohorte SFDT1 : premiers résultats d’études

Rechercher un article

Articles par thèmes

ABONNEZ-VOUS

Diabétologie Pratique

Le « p » statistique à 0,05 est-il fiable ou non ? Telle est la question

pour voir la suite, inscrivez-vous gratuitement.

Articles sur le même thème

La SOS Study trente ans après - Validation à très long terme de la chirurgie bariatrique

Études nutritionnelles - Entre pistes sérieuses et argumentum ad absurdum

Bénéfices-risques des inhibiteurs de SGLT2

Vidéo sur le même thème

Cohorte SFDT1 : premiers résultats d’études

Rechercher un article

Articles par thèmes

Rester connecté

ABONNEZ-VOUS

Diabétologie Pratique