DOI: 10.20986/resed.2020.3727/2019
ORIGINAL
Eficacia de pregabalina, gabapentina y duloxetina en el dolor neuropático verificado por el análisis de la curva-p
Efficacy of pregabalin, gabapentin and duloxetine in neuropathic pain verified by the p-curve analysis
J. C. Roche Bueno
Servicio de Neurología. Hospital Universitario Miguel Servet. Zaragoza, España
Recibido: 21-02-2019
Aceptado: 05-11-2019
Correspondencia: José Carlos Roche Bueno
jcrochebueno@gmail.com
ABSTRACT
Introduction: There is a growing concern among clinicians and researchers that many results published in scientific journals are false positives.
Objective: To determine the value of evidence or integrity of the body of the published literature on the efficacy of pregabalin, gabapentin and duloxetine in the treatment of neuropathic pain.
Methods: A literature search was conducted selecting randomized clinical trials that evaluated the efficacy of pregabalin, gabapentin and duloxetine in neuropathic pain. The p-curve analysis of the studies with statistically significant results was applied to study their distribution.
Results: It was demonstrated that there was a significant asymmetry to the right in the p-curve of the three drugs (continuous test p <0.0001) confirming the value of evidence from the studies.
Conclusions: Clinicians, scientists and scientific publications should be aware of the growing problem with "p-hacking" and its harmful effects. All parties share the responsibility to maintain the scientific integrity of the published literature.
Key words: P-curve, duloxetine, pregabalin, gabapentin, neuropathic pain, treatment.
RESUMEN
Introducción: Existe una preocupación creciente entre los clínicos y los investigadores de que muchos resultados publicados en revistas científicas se tratan de falsos positivos.
Objetivo: Determinar el valor de evidencia o integridad del cuerpo de la literatura publicada sobre la eficacia de pregabalina, gabapentina y duloxetina en el tratamiento del dolor neuropático.
Métodos: Se realizó una búsqueda bibliográfica seleccionando ensayos clínicos aleatorizados que evaluaban la eficacia de pregabalina, gabapentina y duloxetina en dolor neuropático. Se aplicó el análisis de curva-p de los estudios con resultados estadísticamente significativos para estudiar su distribución.
Resultados: Se demostró que existía una asimetría significativa a la derecha en la curva-p de los tres fármacos (test continuo p < 0,0001) confirmando el valor de evidencia de los estudios.
Conclusiones: Los clínicos, los científicos y las publicaciones científicas deben ser conscientes del problema creciente con el “p-hacking” y sus efectos perjudiciales. Todas las partes comparten la responsabilidad en mantener la integridad científica de la literatura publicada.
Palabras clave: Curva-p, duloxetina, pregabalina, gabapentina, dolor neuropático, tratamiento.
INTRODUCCIÓN
El dolor neuropático está causado por una lesión o enfermedad que afecta al sistema nervioso somatosensorial (1). Supone un impacto considerable en la calidad de vida de los pacientes y una carga económica en la sociedad (2-4). El dolor neuropático se considera una entidad clínica específica con múltiples etiologías (1).
Metanálisis recientes recomiendan con un grado de evidencia fuerte el uso como primera línea de tratamiento de gabapentina, pregabalina, duloxetina, venlafaxina y antidepresivos tricíclicos en el tratamiento del dolor neuropático (5). De los ensayos clínicos aleatorizados y controlados que recoge este metanálisis, 7 trabajos de 9 publicados eran positivos con duloxetina, 9 de 14 con gabapentina, 4 de 6 con gabapentina enacarbil y 18 de 25 con pregabalina. La mayoría de estos estudios han sido realizados en pacientes con neuropatía diabética dolorosa, neuralgia postherpética y lesiones medulares. Sin embargo, en estudios reales o de práctica clínica la tasa de mejoría clínica es inferior. Esto puede ser debido a una inexactitud diagnóstica, a una ineficacia relativa de los fármacos o a un conocimiento insuficiente de la efectividad de estos fármacos (6).
Hay que considerar que existe una preocupación creciente entre los clínicos y los investigadores de que muchos resultados publicados en revistas científicas se tratan de falsos positivos, es decir, de errores tipo I, como ocurre en otras disciplinas (7). Hay evidencias de que las revistas, especialmente las de mayor impacto, publican desproporcionalmente resultados significativos (8).
Existen dos tipos reconocidos de sesgos de publicación: a) el efecto “file-drawer”, que tiene lugar cuando el investigador tiende a no enviar sus hallazgos cuando estos han sido negativos (9); y b) el informe selectivo o “p-hacking”, que ocurre cuando los autores manipulan, intencionadamente o no, los datos a través de varios métodos estadísticos hasta obtener hallazgos estadísticamente significativos (10,11). Entre estas técnicas incorrectas podemos incluir los análisis intermedios en la recogida de datos, la inclusión o no de datos extremos, la modificación de los criterios de inclusión, las comparaciones múltiples y los análisis por subgrupos sin correcciones estadísticas. La publicación de falsos positivos es muy perjudicial para el desarrollo de la medicina porque conduce a explorar y a aplicar falsas teorías que suponen desperdicios de recursos económicos y humanos para los investigadores, para los administradores públicos con cambios en la política sanitaria y para los pacientes. Por tanto, la cuantificación de los informes selectivos es de vital importancia (12).
La curva-p es la distribución de los valores de las p estadísticamente significativas (9). Analizando su distribución podemos inferir si los hallazgos de los diferentes estudios tienen valor de evidencia o no. Si la hipótesis nula es cierta (no hay un efecto real de la eficacia del fármaco que queremos estudiar), en un 5 % de los estudios realizados obtendríamos un p valor < 0,05, en un 4 % un p valor de < 0,04, en un 3 % un p valor de < 0,03 y así sucesivamente. La curva-p sería plana u horizontal. Si por el contrario la frecuencia de los p valores muestra una asimetría hacia la derecha (es decir, están más próximos al valor 0,01 que al de 0,05), esto es indicativo de evidencia. De forma inversa, si la mayoría de los valores están cercanos al umbral 0,05, estaríamos ante un claro ejemplo de “p-hacking” o manipulación de resultados.
El objetivo principal del estudio es analizar la eficacia de pregabalina, duloxetina y gabapentina en el tratamiento del dolor neuropático aplicando el análisis de la curva-p.
MATERIAL Y MÉTODOS
Estrategia de búsqueda
Se realizó una búsqueda sistemática en PubMed, https://www.ncbi.nlm.nih.gov/pubmed/, en octubre de 2018 para términos relacionados con “pregabalin”, “duloxetine”, “gabapentin” y “therapeutics”. Se aplicaron los filtros de “Randomized Controlled Studies” y “humans”. Los criterios de inclusión requerían el análisis de eficacia de uno de los fármacos diana (gabapentina, pregabalina, duloxetina) controlado con placebo en cualquier etiología conocida de dolor neuropático. Se obtuvo un único p valor significativo para cada uno de los estudios, el primer informado, para evitar correlaciones entre los valores del mismo estudio (diferentes dosis, diferentes escalas que estudian el grado de dolor, etc.). La búsqueda obtuvo 237 trabajos, de los cuales 156 fueron excluidos por no cumplir los criterios de inclusión (77 no evaluaron la eficacia del fármaco o no existió un grupo placebo, 46 no tuvieron una finalidad terapéutica como objetivo principal, 16 no analizaron una etiología conocida de dolor neuropático, 11 eran metanálisis y 6 eran protocolos o registros previos a un ensayo clínico). De los 81 estudios restantes se tuvieron que excluir 31 trabajos por no encontrarse hallazgos significativos, no indicarse el p valor o describirse como p < 0,05 sin mayor exactitud (Figura 1).
De esta forma, este análisis de la curva-p comprendió los hallazgos de 50 estudios que investigaron la eficacia de pregabalina, duloxetina o gabapentina en las diferentes causas de dolor neuropático (Tabla I). Los valores inferiores a < 0,0001 fueron convertidos a 0,0001. Todos los estudios incluidos fueron publicados en revistas de revisión por pares.
Análisis estadístico
El análisis de la curva-p fue realizado por el software de uso público, http://p-curve.com, basado en el trabajo teórico y práctico de Simonsohn y cols. (9). Este programa permite introducir los p valores de los trabajos originales, con los que desarrolla dos tipos de análisis estadísticos: test binomiales y continuos. Los test binominales comparan la proporción esperada de hallazgos estadísticamente significativos que son inferiores a p < 0,025 (dado que todos los estudios publicados en la literatura médica emplean una valor d α de 0,05) cuando no hay un efecto real asumiendo un 33 % de potencia. La potencia se define como la probabilidad de encontrar un hallazgo positivo cuando verdaderamente lo es. En la mayoría de los ensayos clínicos se suele emplear una potencia en torno al 80 %, de tal forma que el 33 % da una curva conservadora que afloja los valores esperados. Los test continuos convierten los p-valores en puntuación Z, suma las puntuaciones Z, lo divide por la raíz cuadrada del número de p valores incluidos en el análisis, en nuestro estudio corresponde al número de trabajos, para obtener una puntación promedio Z. Esto es conocido como el método de Stouffer. Esta puntuación promedio Z es comparada con la hipótesis nula (Z = 0).
Con ambas técnicas, test binomial y test continuo, podemos determinar un test de asimetría a la derecha para evaluar si los estudios contienen valor de evidencia, un test de asimetría a la izquierda para determinar si los estudios demuestran un intenso “p-hacking”, y un test conocido como de horizontalidad que determina si el valor de evidencia de los estudios es inadecuado. El análisis de la curva-p solo emplea p valores significativos inferiores a 0,05.
RESULTADOS
De los 50 estudios que informaban p valores significativos, 9 correspondían a trabajos con duloxetina, 18 con gabapentina y 24 con pregabalina. La Tabla I muestra los datos de los 50 estudios incluidos en el análisis en los que se muestra el fármaco que se estudia y la p analizada. Uno de los estudios evaluaba la eficacia de gabapentina, pregabalina y placebo.
Duloxetina
El 89 % de los valores informaban un valor de 0,01 o menos, 0 % informaban un p valor de aproximadamente 0,02 o 0,03, 11 % de 0,04 y 0 % de 0,05 (Figura 2). Los resultados indican que los estudios en el análisis contienen valor de evidencia indicado por una asimetría derecha estadísticamente significativa de los p valores tanto con el test binomial (p = 0,0195) como con el test continuo (Z = -5,36, p < 0,0001) como se muestra en la Tabla II. Además, la distribución no mostraba asimetría a la izquierda indicando que no había “p-hacking”. El test de horizontalidad era no significativo tanto por el test binomial (p = 0,9517) como con el test continuo (Z = 2,89, p = 0,9987). Por tanto, los estudios no carecen de valor de evidencia. Finalmente, el análisis post hoc de potencia estadística indica que la potencia promedio de los test incluidos en la curva-p es del 83 % con un intervalo de confianza del 58-95 %.
Gabapentina
El 67 % de los valores informaban un valor de 0,01 o menos, el 11 % correspondían a un p valor de aproximadamente 0,02, el 0 % a un p valor de 0,03, el 17 % de 0,04 y el 6 % de 0,05 (Figura 2). Los resultados indican que los estudios en el análisis contienen valor de evidencia indicado por una asimetría derecha estadísticamente significativamente (test binomial, p = 0,0154; test continuo, Z = -5,36, p < 0,0001 [Tabla II]). No había evidencia de “p-hacking”. El test de horizontalidad era no significativo (test binomial, p = 0,8014; test continuo, Z = 1,05, p = 0,8526). Los estudios no carecen de valor de evidencia. La potencia promedio es del 50 % con un intervalo de confianza del 24-73 %.
Pregabalina
El 83 % de los valores informaban un valor de 0,01 o menos, el 8 % correspondían a un p valor de aproximadamente 0,02, 0 % a un p valor de 0,03, 4 % de 0,04 y 4 % de 0,05 (Figura 2). Los resultados indican que los estudios en el análisis contienen valor de evidencia indicado por una asimetría derecha estadísticamente significativamente (test binomial, p < 0,0001; test continuo, Z = -7,68, p < 0,0001 [Tabla II]). No había evidencia de “p-hacking”. El test de horizontalidad era no significativo (test binomial, p = 0,9967; test continuo, Z = 3,8, p = 0,9999). Los estudios no carecen de valor de evidencia. La potencia promedio es del 77 % con un intervalo de confianza del 61-88 %.
DISCUSIÓN
El análisis de la curva-p realizado en nuestro estudio sugiere que los resultados de las publicaciones que evalúan la eficacia terapéutica frente a placebo de duloxetina, gabapentina y pregabalina en diferentes tipos de dolor neuropático demuestran valor de evidencia como se demuestra con la asimetría a la derecha en cada uno de los fármacos examinados. El análisis no mostraba indicios de “p-hacking”. El registro previo de los ensayos clínicos con el principal objetivo del estudio mitiga la posibilidad del “p-hacking”. Sin embargo, la no publicación de estudios con resultados negativos dificulta la extrapolación del verdadero efecto de un fármaco. En el caso concreto que nos ocupa, se estima que podría sobreestimarse la eficacia real de estos fármacos en un 10 %, considerando los trabajos registrados que no llegaron a publicarse. Tres revisiones de la Cohcrane Database avalan la eficacia con calidad baja a moderada para el dolor neuropático de duloxetina a dosis entre 60 y 120 mg/día con un buen perfil de seguridad al compararse con otros antidepresivos o frente a pregabalina. En estas revisiones pregabalina ha demostrado eficacia en la mayoría de pacientes con dolor neuropático crónico, con una minoría sin respuesta y con un porcentaje menor que no notará efectos beneficiosos o que no tolerarán por efectos secundarios. Con la gabapentina se obtenía hasta un 50 % de reducción del dolor que repercutía en la calidad del sueño, en la fatiga, en la depresión y en la calidad de vida (5-8). De esta forma, nuestros resultados complementan estos hallazgos confirmando que los resultados positivos se tratan de verdaderos positivos, eliminando la duda de la existencia de supuestos falsos positivos o de efectos de la manipulación de los resultados a partir de los estudios pivotales. El estudio de curva p demuestra así la calidad del cuerpo de la literatura disponible.
Cuando Ronald Fisher introdujo el concepto de p valor en la década de 1920, su intención no era que fuese un test definitivo para juzgar la evidencia sobre la hipótesis que se quería estudiar, sino un aviso de que se requería una segunda mirada o un estudio confirmatorio. Fisher apuntó que cuanto más pequeño fuese el valor de p, mayor sería la probabilidad de que la hipótesis nula fuese falsa. Sin embargo, con el paso de los años, obtener un valor de p de 0,05 ha llegado ser el principal objetivo de muchos trabajos científicos y la medicina de investigación actual presenta una tasa de replicación de estudios baja (7).
Es necesario subrayar que el análisis de la curva-p es diferente, pero a la vez complementario, de un metanálisis. Ambos tipos de análisis estadísticos tratan de aclarar si un efecto o intervención médica es real. Un metanálisis estima con mayor fuerza el tamaño real del efecto en comparación con los estudios pivotales. En cambio, un análisis de la curva-p evalúa la integridad de los hallazgos más que la magnitud del efecto. Respondería a la pregunta de si los resultados positivos reflejan sesgos de publicación o son el resultado de la manipulación estadística de los datos.
El principal inconveniente del presente trabajo es que la mayoría de los estudios estaban dirigidos a poblaciones con polineuropatía diabética dolorosa y neuralgia postherpética mientras que el resto de causas de dolor neuropático no están tan bien representadas (13-23). Por este motivo es más difícil extrapolar nuestros datos para las diferentes etiologías de dolor neuropático, ya sea central o periférico.
CONCLUSIONES
Los clínicos, científicos y las publicaciones científicas deben ser conscientes del problema creciente con el “p-hacking” y sus efectos perjudiciales. Todas las partes comparten la responsabilidad en mantener la integridad científica de la literatura publicada.
CONFLICTO DE INTERESES
No se declaran conflictos de interés ni fuentes de financiación.
FINANCIACIÓN
Este trabajo no ha recibido fuentes de financiación.
BIBLIOGRAFÍA