J. Clin. Epidemiol. 1.998, 51(4): 289-295
Comentario
¿Conocimiento No Comunicado?
Interpretación y Aplicación de los Resultados
de los Ensayos Clínicos y del Meta-Análisis
George Davey Smith y Matthias Egger
DEPARTAMENTO DE MEDICINA SOCIAL, UNIVERSIDAD DE BRISTOL, BRISTOL, REINO UNIDO
Las evaluaciones de las terapeúticas médicas deben enfrentarse a la distinción entre principios generales, los beneficios (o daños) que producen los tratamientos a nivel de grupo y las decisiones acerca del cuidado clínico particular que debería recibir un paciente determinado. Esta tensión se puede percibir en las discusiones surgidas en el momento de la introducción de métodos formales de evaluación de cuidados sanitarios. Los enfoques estadísticos aplicados en medicina, que a principios del siglo diecinueve aparecían referidos como el "método numérico"[1], fueron considerados como un ataque al "arte" de la medicina y algo que apartaba a los médicos de su propia tarea, que era adaptar el tratamiento a las características de los individuos particulares que constituían sus pacientes. En 1835, Jean Civiale utilizó el método numérico para resaltar que en el tratamiento de las piedras en la vejiga, la litotricia (trituración y expulsión) era superior a la litotomía (extracción quirúrgica). Murieron seis (2,3%) de los 257 pacientes tratados con litotricia, en comparación con los 1.141 (20%) muertos entre los 5.715 pacientes del grupo control que fueron tratados con litotomía. Estos resultados no convencieron a una comisión de la Academia de Ciencias encargada de revisar ese trabajo[2]. Un miembro de la comisión, el clínico François Joseph Double, dijo:
En asuntos estadísticos, cuando se intenta apreciar los hechos de forma numérica, la primera preocupación por encima de todo es dejar al individuo fuera de lugar, considerándolo meramente como una fracción de su especie. Se le debe privar de su individualidad para eliminar cualquier rasgo de la misma que pudiera introducirse accidentalmente en la pregunta de interés. Por el contrario, en la medicina aplicada, el problema siempre es individual, los hechos que contribuyen a solucionarlo se presentan uno por uno; nosotros nos enfrentamos exclusivamente a la personalidad del paciente y en último término a un ser humano particular con toda su idiosincria al que el médico debe tratar. Para nosotros las masas quedan completamente fuera de la cuestión[2].
El punto de vista que aquí se comenta tiene una larga historia en la medicina. Tal como escribió antes de Double, hace ya más de 500 años, el cirujano Henri de Mondeville, "Cualquiera que crea que se puede acomodar la misma cosa a cualquier persona es un inmenso tonto, ya que la medicina no se practica sobre el género humano en general, sino sobre cada individuo en particular" [3]. El papel aparentemente menor que juegan las habilidades clínicas de acuerdo con los que proponen la evaluación estadística de la eficacia del tratamiento, visto como un fallo para comprender la importancia del "conocimiento no comunicado" en la práctica clínica[4], es un objetivo de ataque ahora por los oponentes a la actual moda de la medicina basada en la evidencia [5]. Identificar cuando es apropiado generalizar desde lo abstracto al individuo particular constituye el problema central de cualquier forma de práctica clínica científica.
EL PACIENTE INDIVIDUAL CONSULTA A CHARLES STEIN
El médico que aconsejó a los estudiantes de medicina en la mitad del siglo diecinueve que "el conocimiento más valioso que poseemos es el que hemos adquirido a través de una larga y continuada observación y experiencia. De ninguna manera se puede comunicar a los otros de forma escrita u oral" [4], estaría sorprendido al conocer que ahora se recomienda una búsqueda de MEDLINE como paso esencial para unos óptimos cuidados sanitarios [6]. Se sugiere que lo que se puede extraer de un ensayo aleatorio controlado, o mejor aún de un meta-análisis de ensayos aleatorios controlados, proporciona rápidamente la evidencia que se requiere.
Si el tema bajo consideración fuera el manejo de un paciente que ha sufrido un infarto de miocardio, se localizaría en este caso un meta-análisis sobre el uso de b-bloqueantes en prevención secundaria (figura 1). El meta-análisis estima que en conjunto existe una reducción del 22% en la mortalidad cuando se utilizan b-bloqueantes después de un ataque cardiaco. Una prueba estadística no rechaza la hipótesis nula que sostiene que los ensayos son homogéneos (p= 0,16) y un completo análisis de sensibilidad sugiere que los hallazgos del meta-análisis son robustos y se mantienen cuando se cambian los métodos estadísticos, se ponderan los estudios de acuerdo con la calidad metodológica, o cuando se excluyen ensayos cuyos resultados pueden estar influídos por una finalización temprana [7].
La aplicación de los resultados del mata-análisis a un paciente en particular requiere aceptar la asunción de que los pacientes incluídos en los ensayos clínicos son un grupo de referencia apropiado para ese paciente en cuestión. ¿Es aceptable asumir que el efecto de un determinado tratamiento es idéntico a lo largo de los diferentes grupos de pacientes? ?Responden de la misma forma el joven que el anciano, los hombres que las mujeres, los que padecen una enfermedad leve que aquellos que tienen una enfermedad severa? La alternativa a aplicar los resultados globales, es decir, la suma de la evidencia de los ensayos disponibles, es localizar subgrupos con características bastante similares a las del paciente en consideración. El arte de la medicina puede ser, en realidad, la aplicación de la habilidad que los expertos clínicos tienen, o piensan que tienen, para reconocer las sutiles diferencias y trazos que permiten la adecuación exacta del tratamiento y la investigación al paciente.
Sin embargo, parear las características del paciente con los subgrupos puede estar seriamente errado. Consideremos a un médico que trabaje en Alemania y que consulte el meta-análisis de b-bloqueantes después de un infarto de miocardio. Se puede tener en cuenta el único ensayo exclusivo que reclutó a una proporción substancial de pacientes alemanes, el Estudio Europeo sobre Infarto [8] (EIS en la figura 1) y desechar la reducción global de la mortalidad debida al tratamiento con b-bloqueantes. Este estudio no demostró beneficio, e insinuó un aumento de la mortalidad, para el grupo aleatorio que utilizó b-bloqueantes. ¿Cómo se deben manejar los pacientes alemanes? Es bastante inverosimil que estos pacientes no se beneficien realmente de un tratamiento que ayuda a los pacientes en otros países y la estimación más válida del resultado para los pacientes alemanes puede venir, esencialmente, de desestimar el único ensayo que recrutó en números substanciales a pacientes alemanes.
FIGURA 1. Mortalidad total en los 17 ensayos control-placebo de b-bloqueantes en prevención secundaria después de un infarto de miocardio. El cuadrado negro y la linea horizontal corresponde a la razón de odds y a los intervalos de confianza del 95% de los ensayos. El diamante representa la razón de odds combinada y su intervalo de confianza del 95%, que indica una reducción del 22% en los odds de la mortalidad (Fuente: Egger et al. [7].)
Esta conclusión puede parecer paradójica: de hecho la expresión estadística de este razonamiento se conoce como paradoja de Stein [9]. La aplicación de resultados procedentes de un meta-análisis, o el hallazgo global de un ensayo clínico más que lo que se observa en un análisis de subgrupos, se basa en la asunción de que las inconsistencias entre ensayos o entre subgrupos dentro de los ensayos se deben al azar. Charles Stein demostró que se puede hacer una estimación más fiable de una medida teniendo en cuenta los hallazgos procedentes de situaciones similares en vez de confiar completamente en un suceso en particular. La aplicación del método de Stein implica "contraer" los puntos de datos individuales hacia la gran media. El grado de ajuste de un único punto hacia la gran media dependerá de la precisión de su valor, esencialmente de la cantidad de datos en los que se basa ese valor. En el caso del meta-análisis de los b-bloqueantes, cuanto mayor sea el tamaño de la muestra de un estudio particular, mayor será la precisión estimada de su efecto y menor sería la contracción hacia la gran media. Un valor extremo que se basa en una cantidad substancial de datos se ajustará menos hacia la gran media que un valor extremo basado en pequeñas cantidades de datos. Dado que el EIS sólo es un contribuyente menor de la evidencia global respecto a los efectos de los b-bloqueantes después de un infarto de miocardio, su efecto estimado se ajustará de forma considerable hacia el resultado global.
LOS RIESGOS DE LOS ANÁLISIS DE SUBGRUPOS
Un factor que contribuye a la aplicación inadecuada de los hallazgos procedentes de subgrupos dentro de ensayos clínicos es que los informes a menudo se concentran más en los análisis de subgrupos que en el resultado global. En el caso de los b-bloqueantes después de un infarto de miocardio, los autores de los ensayos individuales (generalmente poco poderosos) a menudo procuran identificar algunos subgrupos sobre los que el tratamiento parece ser particularmente beneficioso o inútil. Sin embargo, al comprobar los hallazgos de estos subgrupos en ensayos posteriores y en un proyecto conjunto de diferentes ensayos se encontró que eran grandemente espúreos [10,11].
Un ejemplo actual lo ha proporcionado la presentación particular de los datos del Ensayo Beta-Bloqueantes en Ataque Cardiaco (BHAT), que comprendía 3.837 pacientes hospitalizados por infarto de miocardio en 31 centros médicos de Estados Unidos y Canadá [12]. Los pacientes recibieron de forma aleatoria propanolol o un placebo y estuvieron en seguimiento durante un promedio de 25 meses. En conjunto, las tasas de mortalidad estimadas fueron 7,2% para el propanolol y 9,8% para el placebo (RR 0,73; IC del 95%, 0,59-0,9). Horwitz et al [13] se sorprendieron al ver que los resultados en un tercio de los centros de estudio eran discordantes con respecto a los resultados principales, en donde salía más favorecido el placebo que el
TABLA 1. Tasas de mortalidad por tipo de tratamiento en los 31 centros del Ensayo Beta-Bloqueantes en Ataque Cardiaco
|
|
|
Tasa de mortalidad (%) |
Diferencia proporcional (%) |
|
|
Centro |
Número de pacientes |
Propanolol |
Placebo |
|
|
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 |
97 115 113 84 130 141 131 110 111 88 155 117 140 196 96 105 129 84 94 125 119 251 115 65 88 140 193 150 110 127 118 |
0 1,8 1,8 2,4 4,7 4,3 3,0 5,5 5,5 4,5 5,2 3,4 5,7 7,2 6,3 13,5 7,6 7,0 10,4 6,5 8,3 8,0 17,5 12,5 7,0 11,4 7,4 10,7 12,7 12,5 8,5 |
6,3 12,1 8,9 9,5 15,2 11,3 7,7 12,7 12,5 9,3 10,3 6,8 10,0 12,1 10,4 21,2 11,1 9,8 13,0 7,9 10,2 7,9 17,2 12,1 6,7 10,0 6,1 6,7 7,3 4,8 1,7 |
-100 - 80 - 80 - 75 - 69 - 62 - 61 - 57 - 56 - 51 - 49 - 49 - 43 - 40 - 40 - 36 - 32 - 29 - 20 - 19 - 18 0,8 2 3 5 14 20 60 75 162 400 |
Fuente: Horwitz et at. [13].
propanolol (Tabla 1). Compararon 20 centros en los cuales el propanolol era superior al placebo (RR combinado 0,5; IC del 95%, 0,38-0,67) con 11 centros en que ocurría lo contrario (RR combinado 1,33; IC del 95%, 0,95-1,88) y concluyeron que, basándose en la falta de solapamiento de los intervalos de confianza, "los distintos efectos del tratamiento con propanolol en los centros dominantes y divergentes no se podía atribuir exclusivamente al azar" [13].
Horwitz et al intentaron entonces explicar las diferencias de los efectos del tratamiento en términos de carácteristicas de los pacientes, las cuales diferían entre los centros que informaron acerca de un efecto beneficioso del tratamiento y aquellos que informaban sobre un efecto perjudicial. Encontraron varias diferencias: en los centros que informaban acerca del efecto beneficioso de los b-bloqueantes estabán en mayor grado representados los pacientes que tenían una historia de infarto de miocardio previo, que tenían insuficiencia cardiaca congestiva y que no eran de raza blanca, que en los centros en los que los b-bloqueantes estaban asociados con un resultado adverso. Horwitz y colaboradores sugirieron que las recomendaciones sobre tratamiento deberían modificarse de acuerdo con sus hallazgos.
Horwitz y colaboradores consideraron una "observación extraordinaria que un tercio de los centros BHAT tuvieran resultados favorables para el placebo" [14]. Sin embargo, es bastante probable que estos hallazgos se deban enteramente al azar y cualquier conclusión obtenida a partir de ellos, espúrea. Esto se puede demostrar mediante un sencillo ejercicio de simulación. Si se asume un RR constante de 0,73 a lo largo de los 31 centros BHAT (multiplicando el número de muertes observadas en el grupo placebo por 0,73 para obtener el número esperado de muertes en el grupo de propanolol) y se añade un error aleatorio (mediante muestreo de la correspondiente distribución de Poisson con una media igual al número de muertes), aparecen resultados similares a los observados en BHAT (Tabla 2). Había 20 centros en donde el propanolol era superior al placebo (RR combinado 0,58; IC del 95%, 0,44-0,78) y 10 centros en los cuales el placebo era superior al propanolol (RR combinado 1,76; IC del 95%, 1,21-2,54). Las observaciones que Horwitz y colaboradores querían utilizar para modificar las recomendaciones de tratamiento es probable que sólo reflejen el lugar que ocupa el azar.
Otro ejercicio de simulación ha mostrado que, si el efecto del tratamiento es estadísticamente significativo (p = 0,05) y los pacientes se distribuyen de forma aleatoria entre dos grupos, en una de cada tres ocasiones el efecto del tratamiento será grande y altamente significativo, estadísticamente hablando, en un grupo y no significativo e irrelevante en el otro [15]. Por tanto, el análisis de subgrupos puede llenar la literatura de hallazgos espúreos, aunque aparentemente de relevancia clínica, que hará desviar el rumbo de la práctica clínica más que ayudarla.
EL PROBLEMA DE GENERALIZAR LOS HALLAZGOS DE LOS ENSAYOS
El otro lado de la moneda respecto a la demostración de que los análisis de subgrupos producen probablemente hallazgos espúreos es que es fácil imaginar situaciones en las cuales el mismo tratamiento puede beneficiar a un grupo de pacientes y no tener efecto, o incluso producir daño, en otro grupo.Durante un amplio rango de conferencias en 1.921, Sir James Mackenzie demostró
de forma sofisticada la comprensión de este aspecto [16]. Mackenzie, cuyas contribuciones a la cardiología, la epidemiología clínica y a la práctica de la medicina general son ampliamente reconocidas [17, 18], puso en conocimiento cómo de limitada es la habilidad de la práctica médica en relación con el juicio pronóstico cuando se realizan exámenes médicos para pólizas de seguros de vida [16]. Mackenzie aplicó su método, que combinaba observaciones clínicas extensas y detalladas, principalmente procedentes de la práctica de medicina general, con el conocimiento fisiológico (como el contrario al puramente anatómico) de la función del corazón,
TABLA 2. Tasas supuestas de mortalidad por tipo de tratamiento en los 31 centros del Ensayo Beta-Bloqueantes en Ataque Cardiacoa
|
|
|
Tasa de mortalidad (%) |
Diferencia proporcional (%) |
|
|
Centro |
Número de pacientes |
Propanolol |
Placebo |
|
|
10 31 8 30 20 19 1 4 6 22 11 25 29 14 23 27 18 9 2 12 15 3 16 26 24 21 5 13 7 17 28 |
88 118 110 127 125 94 97 84 141 251 155 88 110 196 115 193 84 111 115 117 96 113 105 140 65 119 130 140 131 129 150 |
0 0 3,6 1,6 4,8 4,3 4,1 4,8 7,0 4,0 9,0 6,8 3,6 7,1 8,6 3,1 7,1 7,1 17,2 5,1 1,3 15,4 6,1 5,7 8,3 27,3 13,8 8,6 24,5 10,5 10,4 |
6,8 1,7 12,7 4,8 12,9 10,6 8,3 9,5 12,9 7,2 15,6 11,4 5,5 10,2 12,3 4,2 9,5 9,1 19,3 5,2 1,3 14,1 4,6 4,3 5,1 15,6 7,7 4,3 11,5 3,6 2,1 |
-100 -100 - 71 - 67 - 63 - 60 - 51 - 50 - 45 - 45 - 42 - 40 - 33 - 30 - 30 - 26 - 25 - 21 - 11 - 2 0 + 9 + 31 + 33 + 64 + 75 + 80 +100 +113 +195 +400 |
a
Resultados de un ejercicio de simulación en el que se asume una reducción constante del riesgo relativo del 27% (RR = 0,73) en todos los centros, después de añadir un error aleatorio de Poisson.en la controversia acerca del uso adecuado de digital. El observó que [16]:
Desde hace más de cien años se reconoce que el digital tiene una acción benéfica en determinadas formas de enfermedad cardiaca, pero no existe un conocimiento preciso acerca de cual tipo de enfermedad cardiaca puede beneficiarse de la droga, por tanto, a cada persona que se le supone una aflicción del corazón se le da digital. Cuidadosas investigaciones han revelado que la droga se debe utilizar exclusivamente en un pequeño porcentaje de casos ...
El pequeño porcentaje de casos que el tenía en mente se referían básicamente a los pacientes con fibrilación del atrium y con una rápida respuesta ventricular [17], aunque dijo que algunas veces podría haber una mejoría de los síntomas en fallo cardiaco con ritmo sinusal [19]. La visión restrictiva de Mackenzie acerca del terreno apropiado del uso de la terapia digital se extendió rápidamente entre las ideas de sus contemporáneos, principalmente en Europa y Estados Unidos, que consideraban que la digital se debería utilizar en todas las formas de fallo cardiaco, incluídos los pacientes con ritmo sinusal [18]. Un artículo en el primer volumen del recientemente bautizado British Heart Journal en 1939 marcó la adopción masiva de la perspectiva de Mackenzie en su propio país [20]. Esta visión fue repetida de forma frecuente a lo largo del siguiente medio siglo [21].
Un ensayo aleatorio controlado a gran escala sobre la terapaia digital en pacientes con fallo cardiaco y en ritmo sinusal, publicado 76 años después de la conferencia de Mackenzie [22], no encontró beneficios sobre la mortalidad global y una pequeña reducción en un resultado que combinaba hospitalización o mortalidad en casos de empeoramiento del fallo cardiaco. Los beneficios fueron mayores, en términos absolutos y relativos, para los pacientes que tenían un riesgo mayor cuando comenzaban el tratamiento. Esto confirma y asienta el argumento general de Mackenzie acerca del objetivo del tratamiento, que se basaba tanto en el nivel de riesgo y en la fisiopatología de la enfermedad.
Mackenzie consideró otras diversas situaciones donde los resultados de los tratamientos podrían variar entre los grupos de pacientes. Para un paciente sospechoso de apendicitis, señaló que una intervención podría o bien salvarle la vida o ser un riesgo innecesario, dependiendo si tenía en ese momento un apéndice inflamado o no. La cirugía en el caso de la úlcera péptica presentaba el mismo caso: "He visto pacientes enormemente beneficiados por la operación, algunos han empeorado por la misma y he visto incluso morir pacientes como consecuencia de la intervención". En ese momento el tratamiento de la úlcera péptica era un asunto de intenso debate, en el que unos abogaban por la cirugía y otros por el tratamiento médico. En una serie de pacientes tratados quirúrgicamente sólo se curaron el 27% [23]. Esto se vió como "el resultado evidente de la interferencia de la cirugía en aquellos casos que eran tributarios de tratamiento médico" [23]. En realidad, tal como consideró un eminente cirujano, " pueden encontrarse síntomas similares a una úlcera gástrica en otras enfermedades y las intervenciones sobre el estómago se realizan frecuentemente sin encontrar ninguna justificación local" [24]. Otros, sin embargo, han informado de altas tasas de éxito (80%) de la cirugía y fallos del tratamiento en la mayoría de los pacientes tratados médicamente [25,26]. En esa época la mortalidad de la operación estaba alrededor del 5%, mientras que la mortalidad de las úlceras gástricas no tratadas se estimaba en un 20% [23,25].
Esta situación hace clara la tensión entre la perstectiva individual y la de grupo. Imaginemos un ensayo aleatorio, llevado a cabo en los tiempos en que Mackenzie escribía eso, comparando el tratamiento médico con el quirúrgico. En ese tiempo, cuando no había gastroscopias, el ensayo hipotético habría incluído una mezcla de pacientes, con unos que probablemente se beneficiarían de la intervención (casos quirúrgicos) y muchos casos que se tratarían de forma conservadora. Tal como aparece en la tabla 3, los resultados generales (con un beneficio significativo de la cirugía) habrían sido desafortunados cuando se aplicaban a los pacientes individuales, para quienes la cirugía produciría o una reducción substancial mayor o un aumento del riesgo de muerte.
TABLA 3. Resultados de la mortalidad de un hipotético ensayo realizado en la década de los 20 donde se comparan tratamientos médicos y quirúrgicos entre 800 pacientes con úlcera péptica de estómago
|
|
Resultados globales* |
Casos quirúrgicos |
Casos médicos |
|||
|
|
Muertos |
Vivos |
Muertos |
Vivos |
Muertos |
Vivos |
|
Tratamiento quirúrgico Tratamiento médico |
20 42 |
380 358 |
10 40 |
190 160 |
10 2 |
190 198 |
|
Riesgo relativo Intervalos de confianza del 95% |
0,48
0,28-0,80 |
0,25
0,13-0,49 |
5,0
1,11-22,5 |
|||
* Los resultados generales indican un efecto beneficioso de la cirugía, reduciendo el riesgo de muerte en un 52%. Este es un promedio erróneo que infraestima el beneficio que se obtiene en los casos "quirúrgicos" y falla a la hora de reflejar el daño que causa a los casos "médicos".
Existen muchos ejemplos de terapias que tienen diferentes efectos en pacientes con diferentes niveles de riesgo [27]. Si tomamos un ejemplo de cirugía más reciente y real, los datos de pacientes individuales de un meta-análisis de ensayos de by-pass de arterias coronarias [28], se observa que mientras que los pacientes de alto riesgo consiguen aumentar de forma significativa el tiempo de supervivencia después de la cirugía, los pacientes de bajo riesgo tienen en la actualidad periodos de supervivencia más cortos si se someten a cirugía (figura 2). De forma similar, el valor de la escleroterapia para reducir el riesgo de sangrado en pacientes cirróticos con varices esofágicas se debería restringir a los pacientes de alto riesgo [29].
Los hallazgos aquí presentados resaltan los problemas de la generalización a partir de los resultados de los ensayos clínicos. El problema de la generalización ha estado tradicionalmente relacionado, sin embargo, con la extensión de los hallazgos procedentes de un grupo incluído en un ensayo particular a otros grupos no incluídos en él: por ejemplo, generalizar los resultados de ensayos llevados a cabo en hombres a mujeres, o los llevados a cabo en personas en edades medias a ancianos. Sin embargo, tal como se ha visto previamente, también pueden existir problemas a la hora de generalizar los resultados globales de un ensayo a grupos de pacientes incluídos en el propio estudio. Tomemos el hipotético ejemplo del ensayo sobre úlcera péptica (ver tabla 3) en el que la cirugía parece reducir la mortalidad general, incluso aunque para un grupo importante de participantes tiene efectos dañinos. La aplicación de los criterios de inclusión del ensayo a vuestros pacientes se traduciría en la identificación de algunas personas como candidatas al tratamiento, aquellas que concuerdan con los criterios del ensayo por los cuales el tratamiento reduce la mortalidad, y que realmente los situarían en un lugar donde tendrían un riesgo elevado de sufrir un daño al recibir el tratamiento.
DE LO GENERAL A LO PARTICULAR
La naturaleza potencialmente engañosa de los resultados agregados de los ensayos está ilustrada en la discusión de Ioannidis y Lau [30] acerca de la contribución de los pacientes de alto riesgo a los hallazgos de los ensayos clínicos. El tratamiento que dieron al tema del efecto del magnesio intravenoso en el infarto agudo de miocardio también suministra una demostración de cómo no existe una solución sencilla para determinar si se debería aceptar el resultado global o se deberían buscar subgrupos para ello. A pesar de que los diversos análisis de subgrupos hechos en el gran ensayo ISIS-4 no encontraron ningún beneficio con el magnesio en el subgrupo de alto riesgo [31,32], permanece la creencia de que los resultados generales obscurecen el valioso beneficio en los pacientes de alto riesgo [30,33].
FIGURA 2. Aumento del tiempo de supervivencia de acuerdo con la puntuación de riesgo de la Administración de Veteranos procedente de siete ensayos que comparan la cirugía de bypass coronario mediante injerto con el tratamiento médico en pacientes con enfermedad coronaria estable (Fuente: Yusuf et al. [28]).
Las discusiones acerca de cuando es apropiado generalizar desde lo abstracto a pacientes particulares o a subgrupos de pacientes revelan que los que proponen diferentes puntos de vista no pueden apreciar las posiciones de los otros [14,34]. El nivel de debate no ha avanzado grandemente desde que Civiale y Double cruzaron sus espadas, con los clínicos defendiendo su desdén de los principios básicos de la estadística en nombre de la "biología clínica" [14] y los estadísticas presentando argumentos a nivel de abstracción [34] que produce un rechazo comprensible por parte de los clínicos.
Lo que se requiere es un grado de humildad en un tema para el que no hay solución clínica o estadística. Con el beneficio de conocer lo que ya ha ocurrido, descubriremos probablemente que en muchas de las situaciones clínicas actuales nos encontramos en la misma situación que Mackenzie al principio del siglo para determinar cuales de las características del paciente influirían en las decisiones sobre el tratamiento. El desarrollo de los ensayos clínicos aleatorios desde los tiempos de Mackenzie ha proporcionado una base mucho más sólida para tomar decisiones acerca de pacientes abstractos y, si se incluyen muestras representativas de pacientes en los ensayos, decidir si el efecto global de un tratamiento sobre la salud de la población es beneficioso o dañino. Sin embargo, los ensayos aleatorios no han contestado todavía la pregunta de cuáles individuos se benefician actualmente de las intervenciones médicas. Esto, seguramente, es el tema clave de la investigación clínica para el próximo milenio.
El Departamento de Medicina Social de la Universidad de Bristol forma parte del Consejo de Investigación Médica para la Colaboración en la Investigación de Servicios Sanitarios
Society for Social Medicine
META-ANÁLISIS/HSR
Ensayos con doble placebo, creencias firmes y meta-análisis: lecciones procedentes de la homeopatía y la cardiología
M. EGGER, G. DAVEY SMITH (Departamento de Medicina Social, Universidad de Bristol)
Objetivos- Revisar posibles fuentes de sesgos en meta-análisis; ofrecer métodos gráficos y estadísticos para detectar tales sesgos; y aplicar estos métodos a meta-análisis de ensayos aleatorios recientes.
Antecedentes- Diversos mecanismos pueden conducir a la inclusión de una muestra sesgada de estudios en una revisión sistemática o meta-análisis. Entre ellos se incluyen los sesgos de publicación, sesgos del idioma, sesgos de citaciones y sesgos múltiples de publicación. Una heterogeneidad real en el tamaño de las estimaciones del efecto procedentes de diferentes estudios, por ejemplo cuando los efectos difieren según el riesgo subyacente, o cuando la intensidad de la intervención varía a lo largo de los estudios, puede producir unas estimaciones combinadas del efecto sin sentido. Las irregularidades en los datos, que pueden ir desde un pobre diseño metodológico a un análisis inadecuado y un fraude evidente, son otra fuente de sesgos. Se discutirá el fundamento teórico de estos sesgos y se mostrará la evidencia empírica.
Métodos- Se dispone de métodos gráficos y estadísticos para detectar los sesgos y explorar las fuentes de heterogeneidad en meta-análisis. El gráfico de chimenea es un sencillo gráfico de dispersión de las estimaciones del efecto en relación con el tamaño de la muestra. Este gráfico es útil para detectar la heterogeneidad cuya causa puede estar en que no hay pequeños estudios negativos (sesgos de publicación) o en una baja calidad en ensayos pequeños. Las pruebas estadísticas examinan si existe asociación entre las estimaciones del efecto y sus precisiones. Entre los métodos se incluyen una prueba de correlación del rango, un enfoque de regresión de efectos fijos y una meta-regresión de efectos al azar.
Marco- Meta-análisis de 89 ensayos sobre homeopatía, de 15 ensayos sobre magnesio intravenoso en infarto de miocardio y de 22 ensayos de estreptoquinasa intravenosa en infarto de miocardio.
Resultados- Los exámenes visuales indican una asimetría en el gráfico de chimenea y por tanto un sesgo potencial en los ensayos sobre homeopatía y magnesio pero no en los ensayos sobre estreptoquinasa. Esto se confirmó con los análisis estadísticos habituales. En el caso de la homeopatía, también se asoció con las estimaciones del efecto el idioma de publicación y la calidad del estudio. Una búsqueda manual de publicaciones especializadas en homeopatía y magnesio indicó que existe una comunidad de investigadores que mantienen unas creencias firmes en la eficacia de estos tratamientos. Se mostrarán ejemplos ilustrativos.
Conclusiones- La utilización de métodos gráficos y técnicas de meta-regresión para escrutar de forma puntillosa la presencia de sesgos y otras fuentes de heterogeneidad en las revisiones sistemáticas y en el meta-análisis, debería convertirse en un procedimiento de rutina en el meta-análisis. Esto es particularmente importante cuando existen creencias fuertes sobre el tema de estudio a priori. Estas creencias parecen ser bastante comunes tanto en la medicina dominante como en la alternativa.
BMJ, 1.994; 308: 72-74.
¿Quién se beneficia de las intervenciones médicas?
Tratar pacientes de bajo riesgo puede ser una estrategia de alto riesgo
A menudo, los resultados de los ensayos clínicos se expresan en términos relativos, por ejemplo, un tratamiento particular reduce en un 40% el riesgo de un resultado adverso. Incluso conocer que el tratamiento reduce el riesgo de tal resultado desde un 5% a un 3% (una reducción absoluta de un 2%), puede ser clínicamente más útil1.
Los efectos del tratamiento antiplaquetario son una referencia en este caso. El meta-análisis de ensayos aleatorios controlados de tales tratamientos realizado por la Colaboración de Ensayistas Antiplaquetarios muestra que el riesgo de morir por causa vascular varia substancialmente según el grupo de pacientes (p. 81)2. El rango va desde un 10% en un mes para pacientes que entraron en el ensayo en el momento de un infarto agudo de miocardio, a un 9% a los dos años de supervivencia después del infarto y baja hasta sólo un 2% en cinco años en el caso de ensayos de prevención primaria.
No es por tanto sorprendente que, con tal variación de riesgos de futuros sucesos vasculares, los efectos absolutos de los agentes antiplaquetarios difieran substancialmente según los grupos de pacientes. Las reduciones en términos de riesgos relativos pueden ser similares, las drogas antiplaquetarias reducen el riesgo futuro de infarto no letal de miocardio en un 30% tanto en ensayos de prevención primaria como de secundaria. Pero cuando los resultados se presentan en términos de número de pacientes que necesitan ser tratados para evitar un infarto no letal de miocardio, los números parecen muy diferentes.
Para prevenir un infarto no letal de miocardio, se necesitan tratar 50 pacientes durante dos años en prevención secundaria, y 200 pacientes durante cinco años en prevención primaria. En otras palabras, se necesitan 100 pacientes-año de tratamiento en prevención secundaria o 1.000 pacientes-año de tratamiento en prevención primaria para obtener el mismo resultado beneficioso de un infarto no letal de miocardio menos.
El hecho de que el riesgo en que se encuentran los pacientes cuando comienzan el tratamiento influye en el beneficio absoluto del tratamiento, se ha discutido ampliamente en relación con el tratamiento de la hipertensión 3-5. De acuerdo con los ensayos aleatorios controlados, el tratamiento reduce de forma consistente el riesgo de accidente cerebrovascular en un 40% (expresado en términos relativos)6. Sin embargo, la variación de hasta 10 veces en las tasas de accidentes cerebrovasculares en los pacientes de estos ensayos, produce un rango del número de pacientes-año de tratamiento necesitados para prevenir un accidente cerebrovascular que varía entre alrededor de 100 y 1.000. Para prevenir una muerte por proceso vascular, las cifras equivalentes son aproximadamente el doble. Las características de los pacientes en la linea de base, edad, sexo, presión sanguínea, otros factores de riesgo para enfermedad cardiovascular y el daño final en el órgano, pueden discriminar grupos con amplias diferencias de riesgo de enfermedad coronaria o cerebrovascular.El balance entre beneficios y efectos secundarios del tratamiento será más favorable en pacientes con mayor riesgo de enfermedad vascular.
Consideremos, por ejemplo, la hipertensión sistólica en el programa del anciano (SHEP), en el que el 28% del grupo de tratamiento informaban sobre lo que ellos consideraban un "problema intolerable" durante el tratamiento, una proporción considerablemente mayor que el 21% que informaba sobre ese mismo suceso en el grupo placebo 7. El balance entre reducir el riesgo de un accidente cerebrovascular o de una muerte por causa vascular y el incremento, que afecta a 7 de cada 100 pacientes, en el riesgo de experimentar un "problema intolerable" sería claramente valorado de forma diferente según los distintos niveles de riesgo cardiovascular de los pacientes.
El balance entre los beneficios y los efectos secundarios indeseados es particularmente firme cuando los efectos secundarios son serios. El balance será más favorable para aquellos pacientes con un riesgo mayor de sufrir el evento y que el tratamiento trata de prevenir. En el caso de los agentes antiplaquetarios, existe cierta evidencia de que pudieran incrementar ligeramente el riesgo de accidente cerebrovascular hemorrágico. Para el caso de participantes de bajo riesgo en ensayos de prevención primaria, esto favorece el hecho de que las reducciones en muertes por proceso vascular debidas al tratamiento son pequeñas y no significativas, lo que se traduce en que la mejor estimación es la de una muerte evitada por cada 1.450 personas-año de tratamiento. Esto es desfavorable cuando se compara con una muerte vascular evitada por cada 75 personas-año de tratamiento en los supervivientes de un infarto de miocardio y de una muerte evitada por cada 3 personas-año de tratamiento en pacientes tratados durante un infarto agudo de miocardio.
Consideraciones similares se pueden aplicar al consumo apropiado de drogas que disminuyen el colesterol8. Para pacientes que tienen alto riesgo de morir por enfermedad coronaria, la reducción de las concentraciones de colesterol sanguíneo mediante fármacos reduce la mortalidad. Para pacientes con riesgo bajo, por ejemplo, aquellos con concentraciones moderadamente altas de colesterol sanguíneo pero sin síntomas de enfermedad cardiovascular, las drogas que reducen el colesterol pueden suponer un aumento del riesgo de muerte. Para estos pacientes, un pequeño aumento absoluto del riesgo de muerte atribuíble al tratamiento, de aproximadamente 1-2 muertes por 1.000 pacientes-año de tratamiento, es suficiente para rechazar cualquier tratamiento relacionado con la disminución del riesgo de enfermedad coronaria.
Pequeños riesgos pueden tener mayor peso que pequeños beneficios
Comentando este fenómeno, Geoffrey Rose subrayó que "en la prevención de masas, cada individuo tiene generalmente sólo una pequeña expectativa de beneficio y este pequeño beneficio puede ser fácilemte sobrepasado por un pequeño riesgo"9. Esto debería servir como precaución contra el consumo indiscriminado de drogas para prevenir enfermedades hasta que se hayan establecido sus beneficios globales mediante ensayos controlados10.
Un último ejemplo en el campo de la medicina cardiovascular concierne a los inhibidores de la enzima convertidora de la angiotensina utilizados para tratar y prevenir el fallo cardiaco. Mientras que la utilización de estas drogas en el infarto agudo de miocardio en apariencia produce exclusivamente un pequeño beneficio11, su utilización a largo plazo en pacientes con, o en riesgo de desarrollar, fallo cardiaco ha tenido resultados más impresionantes. Los resultados de cinco grandes ensayos12-16, que aparecen en la figura, muestran que tratar pacientes de alto riesgo produce un beneficio considerablemente mayor que tratar pacientes de bajo riesgo. Dado que el rango en el número de pacientes que se necesitan tratar en un año para prevenir una muerte varía entre 2 y 330, dependiendo de su riesgo de muerte por enfermedad cardiaca previa, las evaluaciones de riesgo-beneficio y coste-efectividad variarán ampliamente entre diferentes situaciones clínicas.
Figura: Efecto de los inhibidores de la enzima convertidora de angiotensina sobre la mortalidad en pacientes con disfunción ventricular: resultados de cinco ensayos controlados
Fuera del campo de la medicina cardiovascular, es evidente la misma relación, por ejemplo, cuando se evalúa el beneficio de tratar la infección por VIH con zidovudina. El primer gran ensayo en pacientes con SIDA, o complejos relacionados con SIDA, con alto riesgo de morir muestra efectos impresionantes: 42 muertes menos por 100 personas-año de tratamiento17. Incluso en pacientes con una infección menos avanzada de VIH que participaron en el ensayo Concorde, el uso temprano de zidovudina se asoció con un efecto adverso no significativo sobre la mortalidad18. Cuando se examinó la relación entre el beneficio del tratamiento y la mortalidad entre los controles de seis ensayos publicados17-22, el aumento de riesgo de muerte en los controles se asoció con el incremento en el retraso del número de muertes debido al tratamiento con zidovudina. Para las personas que tienen una infección asintomática por VIH, los efectos secundarios de la zidovudina junto con los inciertos efectos en la mortalidad hacen que la opción del tratamiento no sea muy atractiva. Una demostración formal reciente acerca de que el tratamiento temprano con zidovudina en el curso de la enfermedad no es coste-efectivo apoya esta conclusión23.
El mayor beneficio (y la disminución de la probabilidad de daño) experimentado por pacientes en alto riesgo tiene diversas implicaciones en la práctica clínica y en las políticas de salud pública. En primer lugar, la forma de presentación de los datos del ensayo puede influir las percepciones del médico acerca de las recomendaciones de tratamiento. Convertir las mediciones relacionadas con el beneficio en mediciones tales como el número de pacientes que necesitan ser tratados para prevenir un evento puede modificar la respuesta de los facultativos a los resultados de los ensayos, presumiblemente en la dirección adecuada24. Se debería potenciar que tanto los investigadores como las empresas farmaceúticas proporcionen medidas absolutas y relativas del beneficio producido por el tratamiento.
En segundo lugar, las guías de prácticas clínicas deberían reflejar la asociación entre el grado de beneficio y el nivel de riesgo. Esto no ha sido así en el caso del primer conjunto de guías de práctica clínica del programa nacional de educación sobre colesterol en los Estados Unidos25. En este caso se recomendaba el tratamiento intensivo para determinados grupos de pacientes con un considerable riesgo menor de evento coronario que para otros grupos de pacientes que se consideró que no requerían una atención especial26. De forma prometedora, tanto la última revisión de estas guías27 como el nuevo conjunto de guiás de Nueva Zelanda para tratar el aumento de la presión arterial28 han tenido un enfoque basado en el riesgo a la hora de hacer decisiones acerca del tratamiento. En tercer lugar, el meta-análisis debería incorporar estimaciones del riesgo de los ensayos incluídos para examinar si las diferencias sistemáticas observadas en el beneficio están relacionadas con el grado de riesgo de los participantes de los ensayos8. En último lugar, dado que aquellos que más se benefician del tratamiento son los que más tienen que ganar, se debería reconocer la irracionalidad de las recomendaciones actuales que aconsejan que no se trate a los grupos de población con un aumento del riesgo de enfermedad, tal como es el caso de los fumadores.
GEORGE DAVEY SMITH
Senior lecturer en epidiomolgía y salud pública
Departamento de Salud Pública,
Universidad de Glasgow,
Glasgow G12 8RZ
MATTHIAS EGGER
Senior research fellow
Departamento de Medicina Social y Preventiva
Universidad de Berna,
CH-3012 Berna,
Suiza.
Ponencias |
Programa |
Portada |