Version PDF

Thérapeutique

20 déc 2019

NNT, marqueur clé de l’efficience thérapeutique - Débat sur l’équivalence des analogues du GLP-1 pour exemple

Claude COLETTE*, Louis MONNIER*, Fabrice BONNET**, *Institut universitaire de recherche clinique, université de Montpellier, **CHU de Rennes, université de Rennes

L’efficacité d’un médicament ou d’une classe thérapeutique est habituellement estimée à partir de ce que les investigateurs désignent sous le terme de RCT, Randomized Controlled Trials pour essais contrôlés randomisés. Ces essais thérapeutiques consistent à évaluer les effets bénéfiques ou délétères d’un médicament donné en le comparant à un placebo dans une grande population de sujets sélectionnés sur des critères bien précis. Dans le cadre de cet article, nous nous intéresserons aux essais conduits avec les agonistes des récepteurs du GLP-1 à action prolongée (hebdomadaire ou au minimum 24 heures) chez des diabétiques de type 2 en prévention primaire ou secondaire d’événements cardiovasculaires.

Ces essais comparatifs portent en général sur de gran des populations (environ 10 000 patients), d’où le qualificatif de « mega-trial » qui leur est souvent attribué. Dans ces conditions la répartition par tirage au sort permet d’affecter près de 5 000 participants au groupe « traitement » actif (l’analogue du GLP-1 dans le cas présent) tandis qu’un nombre quasi identique de sujets reçoit le placebo. L’effet du principe actif est en général jugé au terme de quelques années de traitement sur des critères plus ou moins « durs » désignés dans les publications internationales sous le vocable de « primary or secondary outcomes ». Les plus « durs » d’entre eux, bien que le terme soit totalement inapproprié, sont les décès de cause cardiovasculaire, ou quelle qu’en soit la cause, survenus pendant la période de suivi. D’autres critères sont souvent utilisés : les infarctus du myocarde quand ils surviennent et les accidents vasculaires cérébraux décrits comme non mortels, les accidents ischémiques transitoires, les interventions de revascularisation coronarienne, les hospitalisations pour angor instable ou pour insuffisance cardiaque. Pour donner davantage de force à l’analyse statistique, les différents événements sont souvent regroupés (composite outcomes) dans une entité qui couvre l’ensemble des événements cardiovasculaires majeurs ou MACE (Major Adverse Cardiovascular Events). Bien que ces regroupements soient classiques, ils devraient être regardés avec un esprit critique, car ils sont parfois destinés à faire « sortir » des significativités statistiques là où l’analyse des événements pris individuellement ne montre aucun effet significatif. Dans cet article, nous donnerons des exemples de ce type de mise en garde à partir de l’analyse des essais thérapeutiques conduits avec les analogues du GLP-1 : SUSTAIN-6 (sémaglutide)(1), LEADER (liraglutide)(2) REWIND (dulaglutide)(3), EXSCEL (exénatide à libération prolongée)(4) et HARMONY OUTCOMES (albiglutide)(5). Avant de comparer ces essais, il convient de rappeler quelques notions portant sur le lexique utilisé pour lire les grands essais cliniques. Lexique utilisé pour analyser les résultats Notion de risque absolu La définition est simple. Si on inclut N sujets dans un essai clinique et si au bout de X années n d’entre eux font par exemple un accident cardiovasculaire mortel, le risque absolu de faire ce type d’accident est égal à (n/N) x 100. Le risque absolu, exprimé en pourcentage, peut être également défini comme l’incidence d’un événement donné. Notion de risque relatif Si 2 groupes tirés au sort sont comparés, l’un traité par un principe actif (groupe 1), l’autre par un placebo, les quantités n1/N x 100 = R1 et n2/N = R2 seront les risques absolus, par exemple d’un événement cardiovasculaire mortel, dans les 2 populations. Dans ces conditions, le risque relatif pour ce type d’accident est le rapport R1/R2 des risques absolus. Au bout de 5 ans de suivi, supposons que le pourcentage d’événements dans le groupe de diabétiques de type 2 traités par un principe actif soit de 6 % alors qu’il est de 8 % dans le groupe resté sous placebo, le risque relatif dans le groupe traité par médicament sera égal à 6 %/8 %, soit 0,75 et la réduction du risque relatif sera de (1 - 0,75) %, soit -25 %. Réduction du risque relatif : significative ou non significative ? Pour répondre à cette question, il faut associer le risque relatif à une quantité appelée l’intervalle de confiance à 95 % qui possède deux limites, l’une inférieure et l’autre supérieure. En effet, la réalisation de 100 essais contrôlés randomisés ayant un protocole identique conduirait à 100 résultats différents en termes de risque relatif, mais 95 d’entre eux donneraient un résultat qui se situerait dans un intervalle compris entre deux limites supérieures et inférieures. Cet intervalle porte évidemment le nom d’intervalle à 95 % (IC95%). Étant donné qu’il est matériellement impossible de tester un médicament grâce à 100 études comportant chacune 10 000 participants, les investigateurs ont recours au calcul de l’IC95% à partir de tables qui donnent la dispersion des résultats du risque relatif avec une probabilité de 95 % comme si les 100 études avaient été réellement effectuées. Dès lors, le résultat est considéré comme statistiquement significatif quand la barre horizontale de l’IC95% ne mord pas sur la verticale de neutralité représentant un RR = 1. Le raisonnement est extrapolable aux odds ratio (OR) et au hazard ratio (HR). Sur la figure 1, il apparaît que les résultats sont significatifs dans les cas suivants : a) la survenue d’effets néfastes constitués par un « composite » de décès et/ou d’événements cardiovasculaires dans SUSTAIN-6(1), LEADER(2), REWIND(3) et HARMONY OUTCOMES(5). En revanche, les résultats ne sont pas significatifs dans EXSCEL(4) (exénatide à libération prolongée). Le « p » statistique est classiquement considéré comme significatif quand sa valeur est < 0,05, mais dans de nombreux cas, un seuil à 0,005 pourrait être conseillé(6) pour s’assurer que la significativité du résultat est réelle. Figure 1. Hazard ratio (HR) et valeurs du « p » statistique dans 5 essais contrôlés randomisés où un analogue à action prolongée du GLP-1 est comparé à un placebo chez des patients ayant un diabète de type 2. Les HR sont indiqués pour un composite d’événements cardiovasculaires (partie supérieure de la figure) et pour les décès de cause cardiovasculaire (partie inférieure de la figure). Notion de nombre de sujets à traiter pour éviter un événement indésirable chez l’un d’entre eux Ce nombre désigné sous l’acronyme NNT (Number Needed to Treat)(7) est aisément calculable quand les auteurs d’un essai clinique randomisé fournissent les risques absolus (R1 et R2) dans les 2 groupes qui sont comparés. La formule est la suivante : 100/[R2 - R1]. Dans l’exemple que nous avons proposé, avec un R1 = 6 % et un R2 = 8 %, le nombre de sujets à traiter est égal à 100/[2 %] = 50. Les pièges dans la détermination et l’interprétation du risque relatif doivent-ils conduire au calcul du nombre de sujets à traiter (NNT) ? Il peut être démontré que deux études peuvent conduire à des RR, HR ou OR identiques sans avoir la même « significativité » statistique et par-delà la même « signification » clinique. Reprenons l’exemple que nous avons pris. Supposons que 2 études aient donné le même risque relatif (RR) = 0,75. Dans une première étude (A) qui a porté sur 10 000 sujets dans chaque groupe, on a observé respectivement la survenue de 600 et 800 événements avec le principe actif et le placebo sur une période de 5 ans, soit (risque absolu 1)A = 6 % et (risque absolu 2)A = 8 % avec un risque relatif (RRA) égal à 0,75 (6 %/8 %). Dans une deuxième étude (B) qui a porté sur 1 000 sujets dans chaque groupe, on a observé respectivement la survenue de 240 et 320 événements avec le principe actif et le placebo soit (risque absolu 1)B = 24 % et (Risque absolu 2)B = 32 % avec un risque relatif (RRB) égal à 0,75 (24 %/32 %). Les résultats paraissent identiques si on se contente de ne regarder que les risques relatifs. En revanche, les effets sont totalement différents si on s’intéresse au nombre de sujets à traiter (NNT) pour éviter un événement. Dans l’étude A, le NNT est égal à 100/[8 %-6 %] soit 50 sujets alors que dans l’étude B sa valeur est égale à 100/[32 %-24 %] soit 12 sujets environ. Ce résultat indique que le médicament prescrit dans l’étude B est beaucoup plus efficace et donc beaucoup plus pertinent que celui qui est administré dans l’étude A. Cette donnée n’apparaissait pas à la simple lecture des risques relatifs. Ce type de différence pourrait être mis en évidence par le calcul du « p » statistique. Une approche populaire du « p » est de considérer qu’il est statistiquement significatif quand sa valeur est < 0,05 et très significatif en dessous de 0,01. En fait ce « p » statistique permet de calculer la probabilité de rejeter l’hypothèse nulle (H0 = pas de différence d’effet). En d’autres termes, si H0 est rejetée par les tests statistiques et s’il y a une différence réelle d’effet, on ne commet pas d’erreur(8). En revanche, si H0 est rejetée par les tests statistiques et s’il n’y a pas de différence réelle d’effet, on commet une erreur de type I. C’est donc la discordance entre le résultat de l’expérience réalisée et l’hypothèse nulle (H0) qui est quantifiée par le « p ». Pour la quantification de la significativité statistique d’un RR, HR ou OR, deux éléments interviennent : son écart par rapport à la verticale de neutralité défini par un RR, HR ou OR égal à 1 et son IC95%. La significativité a d’autant plus de chance d’être élevée quand l’IC95% est faible. Dans la mesure où l’IC95% est une fonction inverse du nombre de participants inclus dans les études, on comprend aisément que les investigateurs aient tendance à augmenter le nombre de sujets ou à regrouper plusieurs effets indésirables pour obtenir une significativité là où il n’y en aurait pas avec un nombre de sujets plus faible ou avec une analyse séparée des effets indésirables. Ceci explique que les études interventionnelles randomisées portent sur des populations atteignant quelques milliers de participants et que le critère de jugement principal (primary end-point) soit souvent un « composite » d’effets indésirables. L’exemple des analogues du GLP-1 à action prolongée Afin de donner une traduction concrète aux considérations méthodologiques que nous avons développées dans le chapitre précédent, nous proposons au lecteur de prendre l’exemple des RCT réalisés avec les analogues du GLP-1 à action prolongée afin de répondre aux questions suivantes : a) les analogues ontils des effets équivalents ? b) le calcul du NNT est-il utile, indispensable, pour établir des différences éventuelles entre les analogues ? c) y a-t-il pour les nom bres de sujets à traiter un seuil au-delà duquel le traitement perd toute pertinence clinique ? Parmi les études d’intervention randomisées sur les analogues du GLP-1 à action prolongée, nous avons sélectionné les 5 plus importantes. Leurs caractéristiques principales (type d’analogue, dose thérapeutique, nombre de participants, durée de l’étude, réduction de l’exposition chronique au glucose jugée sur la baisse de l’HbA1c) sont résumées sur le tableau 1. Tous les analogues utilisés sont à administration hebdomadaire, hormis le liraglutide qui est injecté quotidiennement. Les participants sont tous des personnes ayant un diabète de type 2. L’administration de l’analogue du GLP-1 s’inscrit dans le cadre d’une prévention primaire ou secondaire. Dans le cas de ces 5 études, la définition de la prévention primaire reste relative dans la mesure où elle est, certes, caractérisée par l’absence d’atteinte cardiovasculaire cliniquement patente au moment de l’inclusion, mais avec un bémol lié à la présence de facteurs de risque cardiovasculaire (hypertension artérielle, dyslipidémie… ) chez tous les sujets inclus. Résultats de l’intervention par les analogues du GLP-1 sur le hazard ratio c’est-à-dire sur le risque relatif de faire un événement indésirable Sur la figure 1 nous avons uniquement consigné les résultats qui concernent un composite d’événements cardiovasculaires (MACE) et les décès de cause cardiovasculaire. La plupart des études montrent une réduction significative du risque d’événements indésirables, mais ce sont les études SUSTAIN-6(1) avec le sémaglutide, HARMONY OUTCOMES avec l’albiglutide(5) et LEADER(2) avec le liraglutide qui donnent les résultats les plus significatifs sur les composites d’événements cardiovasculaires. De manière surprenante, seule l’étude LEADER(2) donne un résultat significatif quand l’analyse statistique est limitée aux décès de cause cardiovasculaire. Les résultats les plus discordants sont observés pour les études SUSTAIN- 6(1) avec le sémaglutide et HARMONY OUTCOMES(5) avec l’albiglutide, car ils montrent une réduction très significative sur les composites d’événements cardiovasculaires alors que ces deux analogues n’ont aucun effet sur les décès de cause cardiovasculaire. L’une des explications de cette discordance réside probablement dans le fait que les « composites » d’événements cardiovasculaires n’ont pas une définition identique dans tous les RCT. Dans les études SUSTAIN- 6, HARMONY OUTCOMES et LEADER, les investigateurs ont inclus 6 catégories d’événements néfastes dans le composite cardiovasculaire : décès de cause cardiovasculaire + infarctus du myocarde non mortels + accidents vasculaires cérébraux non mortels + revascularisations + hospitalisations pour angor instable et/ou insuffisance cardiaque. Ces études sont celles qui ont conduit aux résultats les plus significatifs (figure 1). À l’inverse, l’absence de significativité (EXSCEL) ou une faible significativité (REWIND) (figure 1) est observée quand les composites ne contiennent pas les revascularisations et les hospitalisations intercurrentes pour des motifs cardiologiques. Ces disparités dans le choix des composites peuvent expliquer les discordances observées en termes de significativité statistique. Résultats de l’effet de l’intervention par les analogues du GLP-1 sur le nombre de sujets à traiter (NNT) Le calcul du nombre de sujets à traiter permet-il de lever les ambiguïtés que nous venons de soulever ? Si nous limitons notre attention aux « composites » (tableau 2), le nombre de sujets à traiter pour éviter un événement cardiovasculaire devient de plus en plus faible et donc de plus en plus pertinent quand on se déplace selon une échelle qui va de EXSCEL (NNT = 125) au sémaglutide (NNT = 17) en passant par REWIND (NNT = 71), LEADER (NNT = 42) et HARMONY OUTCOMES (NNT = 27). Sur cette base, le classement est sensiblement différent quand on s’intéresse uniquement aux décès de cause cardiovasculaire. Dans ce cas, le meilleur effet est attribué au liraglutide (NNT = 77) (tableau 2). Les autres études donnent des résultats peu convaincants avec des NNT largement supérieurs à 100. Même s’il est impossible de classer les analogues du GLP-1 à action prolongée à partir du NNT, il semble que le liraglutide soit le plus efficace, que le sémaglutide, l’albiglutide et le dulaglutide le soient un peu moins, tandis que l’exénatide retard se place en dernière position. Ainsi, en dépit des critiques que l’on peut adresser au NNT, son calcul conduit à penser que tous les analogues du GLP-1 ne sont pas équivalents malgré une métaanalyse qui plaide pour un effet de classe(9). La preuve que le NNT est un excellent marqueur d’efficience thérapeutique malgré quelques limites liées à la durée du suivi La question qui se pose pour clore cette analyse est la suivante : existe-t-il une relation entre le « p » statistique calculé à partir des HR et les NNT ? Grâce aux données fournies par les 5 RCT que nous avons analysées, la relation entre les 2 paramètres est décrite par une fonction hyperbolique (figure 2), le NNT devenant de plus en plus grand au fur et à mesure que la valeur du « p » statistique devient de moins en moins significative. La relation est forte avec un R2 à 0,68 (p < 0,0001). De surcroît, la correspondance entre les seuils du p (0,005 et 0,05) peut être établie de la manière suivante : un « p » statistique à 0,005 correspond à un NNT de l’ordre de 40 et un « p » statistique à 0,05 correspond à un NNT de l’ordre de 80. Ainsi, il apparaît qu’un traitement par analogue du GLP-1 devient pertinent s’il conduit à un NNT < 40 ou voisin de 40. C’est le cas pour le sémaglutide (NNT = 17), l’albiglutide (NNT = 27) et le liraglutide (NNT = 42). Il reste moyennement pertinent quand le NNT est compris entre 40 et 80 (dulaglutide, NNT = 71). Au-delà de 80, il est permis de se poser la question sur la pertinence de tels traitements. L’exénatide à libération prolongée appartient malheureusement à cette dernière catégorie (NNT = 125). Il est probable que ces 2 seuils du NNT soient extrapolables à d’autres classes médicamenteuses destinées à prévenir la survenue d’événements cardiovasculaires dans le cadre de programmes de prévention primaire ou secondaire. Figure 2. Relation entre les « p » statistiques des hazard ratios (HR) pour différents événements cardiovasculaires (axe des X) et le nombre de sujets à traiter (NNT axe des Y) pour éviter un événement cardiovasculaire chez l’un des patients traités par un analogue du GLP-1. Pour faciliter la représentation, les « p » statistiques ont été transformés en Log (p x 104). Les seuils du « p » statistique à 0,05 et 0,005 correspondent respectivement à des NNT de l’ordre de 40 et 80. La zone ombrée foncée correspond à l’objectif idéal à atteindre en NNT (< 40) : traitement pertinent. La zone ombrée claire correspond à un objectif intermédiaire : traitement pertinent, mais moins que dans le cas précédent. L’un des inconvénients du NNT réside dans le fait qu’il intègre une durée de temps de traitement. Quand on dit que le NNT est de 20 sujets à traiter pour éviter un événement, encore faut-il que la période soit précisée. Dans le cas présent, étant donné que les 5 essais que nous avons retenus n’ont pas la même durée de suivi, nous avons fait pour établir la figure 2 une correction de temps pour ajuster les 2 études les plus courtes (HARMONY OUTCOMES et SUSTAIN-6) dont les durées de suivi sont respectivement de 1,6 et 2 ans à une durée de 3 ans, c’est-à-dire proche des 3 autres études (REWIND, EXSCEL et LEADER) dont les durées de suivi sont comprises entre 3 et 5,4 ans. De toute manière, le fait que SUSTAIN-6 ait une durée courte (2 ans) renforce le résultat de cette étude par rapport aux autres, car une durée de suivi longue aurait conduit à une différence de risque absolu encore plus grande et donc à un NNT encore plus faible. Conclusion Il faudrait que les investigateurs des études interventionnelles contrôlées et randomisées (RCT) n’hésitent pas à fournir toutes les données relatives à l’analyse des résultats. Les hazard ratios et leur significativité exprimée par le « p » statistique sont certainement utiles, mais restent insuffisants. Notre opinion est que le nombre de sujets à traiter (NNT) fournit des renseignements indispensables qui, de plus, sont beaucoup plus parlants pour le médecin prescripteur que des hazard ratios et des IC à 95 % avec lesquels il n’est pas toujours parfaitement familiarisé. Enfin, l’analyse des composites événements indésirables devrait être harmonisée pour que les études soient réellement comparables(9,10).

Attention, pour des raisons réglementaires ce site est réservé aux professionnels de santé.

pour voir la suite, inscrivez-vous gratuitement.

Si vous êtes déjà inscrit,
connectez vous :

Si vous n'êtes pas encore inscrit au site,
inscrivez-vous gratuitement :

Articles sur le même thème

  •  
  • 1 sur 20
  • >
publicité
publicité