análisis estadístico en un ensayo clínico

Anuncio
ANÁLISIS ESTADÍSTICO EN UN ENSAYO
CLÍNICO: DETERMINACIÓN DEL TAMAÑO
MUESTRAL, INTERPRETACIÓN DE
RESULTADOS FC 5
ETAPAS DEL ANÁLISIS ESTADÍSTICO
ANTES DE EMPEZAR EL ENSAYO (DISEÑO)
-Definición de variable principal y variables secundarias.
-Cálculo del tamaño de la muestra.
DURANTE LA REALIZACIÓN DEL ENSAYO
-Recogida de datos.
-Análisis intermedios.
AL FINAL DEL ENSAYO
-Comparación de las características basales.
-Análisis de la variable principal y las secundarias:
·variables continuas.
·variables discretas.
·análisis de supervivencia.
-Tipos de análisis:
·test de significación estadística.
·intervalos de confianza.
-Efecto relativo vs. efecto absoluto.
-Análisis por intención de tratar vs. análisis por protocolo.
-Análisis de subgrupos.
Antes de empezar:
1. DEFINICIÓN DE VARIABLES
Se reconocen variables principales y secundarias.
VARIABLE PRINCIPAL
La variable principal viene definida por el objetivo principal del estudio; por ello ha de
ser adecuada para medir el objetivo principal. Es recomendable que exista sólo una
variable principal, ya que la existencia de varias dificulta mucho el diseño del estudio;
por otro lado, cuantas más variables se manejen, mayor probabilidad que la
significación encontrada en alguno sea por azar.
Se pueden usar variables subrogadas, que se relacionan con la principal y se ven más
rápido o con mayor facilidad. Ej.: sea un fármaco, siendo el objetivo disminución de la
mortalidad; se puede usar la variable subrogada TA, ya que por otros estudios se sabe
que la disminución de la TA se relaciona con disminución de mortalidad. Y para
demostrar disminución de TA se necesitan 100 pacientes durante 6 meses, mientras que
para demostrar disminución de mortalidad se necesitan 2000 pacientes durante 5 años
(datos ficticios). Pero al final habrá que realizar un estudio para demostrar disminución
de mortalidad.
VARIABLES SECUNDARIAS
Las secundarias serán tantas como se quieran para evaluar los objetivos secundarios.
Existen objetivos secundarios porque hacen más interesante la inversión del tiempo y el
dinero en el estudio. Se construye un estudio para un objetivo y se aprovecha la
estructura para, con poco gasto extra, estudiar otras cosas. Estos objetivos suelen ser
planteamientos de hipótesis que darán lugar a futuros estudios. Pero no se puede olvidar
que los objetivos secundarios no justifican nunca el estudio.
Ej.: un estudio que valora el comportamiento de un antiagregante vs. AAS para la prevención
del ictus; se ve que ambos son iguales en este aspecto, pero se ve que el antiagregante tiene
menos efectos dañinos para el estómago. Para demostrar esto habrá que hacer otro ensayo donde
esto sea la variable principal.
TIPOS DE VARIABLES
 CUALITATIVAS, DISCRETAS O CATEGÓRICAS
A su vez pueden ser:
·dicotómicas o binarias: sí/no. Ej. mortalidad/curación.
·ordinales: no hay igual distancia entre los diferentes valores. Ej. remisión
completa/remisión parcial/no cambio/progresión (ej. en un cáncer).
 CUANTITATIVAS O CONTINUAS
Escala igual para todas y se puede medir a diferentes puntos de la escala. Hay igual
distancia entre los valores. Ej. TA, Tª, peso… En ellas se puede medir la diferencia
(TAantes-TAdespués), la razón (TAantes/TAdespués) o el porcentaje de cambio ((TAantesTAdespués)/TAantes · 100).
 TIEMPO DE SUPERVIVENCIA O TIEMPO HASTA LA RECAÍDA
Es una variable continua pero se estudia aparte. Mucho uso en pacientes con cáncer:
hasta que el paciente se muere o hasta que el cáncer progresa.
2. CÁLCULO DEL TAMAÑO DE LA MUESTRA
¿POR QUÉ ES NECESARIO CALCULAR EL TAMAÑO DE LA MUESTRA
ANTES DE EMPEZAR EL ESTUDIO?
Aunque el cálculo que se hace es siempre teórico y sujeto a error, este error es
siempre menor que si se asume un tamaño por simple azar. Si nuestra muestra es
insuficiente no será capaz de detectar efectos clínicos relevantes (será científicamente
inútil). Si es excesiva estaremos derrochando el tiempo y el dinero, aparte de que
éticamente no es correcto exponer a un tratamiento que a priori no se sabe su utilidad a
más pacientes de lo estrictamente necesario.
PARÁMETROS DE LOS QUE DEPENDE EL TAMAÑO DE LA MUESTRA
Los 4 primeros son las más imp.
MAGNITUD DEL EFECTO QUE QUEREMOS DETECTAR ()
Si queremos demostrar pequeñas diferencias, hará falta un gran tamaño muestral, y
viceversa.
Martín-Luna 187: en un ejemplo de tramposos y honrados, si queremos realizar un test de honradez,
sería la mínima diferencia importante; en el ejemplo que pone: pudiera no importarnos declarar
honrados a todos aquellos tramposos q usen una moneda tan poco trucada cuya probabilidad de cara sea
inferior al 55%. Pero deseamos q nuestro test detecte a los fulleros del tipo p>55. La diferencia 0’55-0’50
= 0’05 es la magnitud del test.
VARIABILIDAD DE LA VARIABLE PRINCIPAL
Cuanto más variante sea la variable inicial, mayor tamaño muestral necesitamos.
ERROR TIPO I O ERROR 
Probabilidad de tener un falso positivo. Está estipulado en 0,05 (5%). El valor p<0,05
está previamente definido. Se da un valor tan bajo porque estamos hablando de la
probabilidad de considerar válido un fármaco cuando realmente no lo sea.
ERROR TIPO II O ERROR 
Probabilidad de obtener un falso negativo. Se considera adecuado 0,2 ó 0,1.
Teóricamente es menos relevante, ya que define la probabilidad de considerar no
adecuado un fármaco que realmente sí es válido. En este caso, la casa comercial se
encarga de realizar otro estudio hasta comprobar la eficacia de su fármaco.
OBJETIVO DEL ESTUDIO Y LA VARIABLE PRINCIPAL. Depende de:
PODER ESTADÍSTICO
Es la probabilidad de detectar una diferencia cuando realmente exista. Se define
como 1-, siendo pues el 80 ó 90%. Detecta los verdaderos positivos.
Martín-Luna: siguiendo con el ejemplo de tramposos,
podríamos desear que un 90% de los fulleros del tipo p= 0’55
sean detectados por el test siendo éste significativo. Esto quiere
decir que la potencia o poder estadístico es del 90% para
p=0’55 o que el error beta es del 10%. Así, no me importa
calificar de honrados a un 10% de los fulleros p=0’55. Esto tb
implica que si p>0’55, la potencia será mayor y el error beta
disminuirá.
Así, sentadas las bases y obtenemos el valor de n. Si
recordamos que todo aumento de n ocasiona una disminución
de beta, la esencia del problema consiste en ir aumentando n
hasta lograr que el valor p) –para un valor p prefijado 0’55sea tan pequeño como se desee. Obviamente, ct más exigentes
seamos con las condiciones iniciales alfa, beta y la magnitud,
mayor tamaño muestral necesitaremos.
PROPORCIÓN DE PACIENTES EN LOS DISTINTOS GRUPOS
Los tamaños muestrales pueden ser iguales (1:1) o distintos (2:1, 3:1); estos
últimos requieren muestras mayores, pero pueden ser interesantes. P. ej. un nuevo
fármaco, en el grupo que lo toma se pone mayor muestra para ver también los efectos
secundarios, etc.
PROPORCIÓN DE PÉRDIDAS (d)
Se calculan a priori por estudios previos o definidos por el investigador. Las pérdidas
no valen para estudio principal al final. Para calcularlas se multiplica el tamaño muestral
por 1/(1-d).
FÓRMULAS PARA EL CÁLCULO DEL TAMAÑO MUESTRAL
Estas fórmulas incluyen los parámetros comentados, según el tipo de variables y el tipo
de estudio. Existen programas informáticos, incluso gratuitos en internet, que calculan
el tamaño muestral en multitud de condiciones, con fórmulas que pueden llegar a ser
muy complejas. En general son todas (variabilidad / magnitud ) x Factor.
VARIABLES CUALITATIVAS (DICOTÓMICAS)
Chi cuadrado.
n
p1 ·(100  p1 )  p2 ·(100  p2 )
· f ( ,  ) , donde
( p2  p1 ) 2
·el numerador mide la variabilidad.
·el denominador mide la magnitud.
·f(,) es el factor que considera  y . Factor estadístico para  de 0,05 y  de
0,2 ó 0,1, que es 7,9 ó 10,5, respect.
·n = nº de pacientes por cada brazo de tratamiento.
·p1 = porcentaje de éxito esperado con el tratamiento habitual.
·p2 = porcentaje de éxito esperado con el tratamiento nuevo.
VARIABLES CUANTITATIVAS
t de Student.
2s 2
n
· f ( ,  )
(m2  m1 ) 2
, donde
·el numerador mide la variabilidad.
·el denominador mide la magnitud.
·f(,) es el factor que considera  y . Factor estadístico para  de 0,05 y  de
0,2 ó 0,1, que es 7,9 ó 10,5, respect.
·n = nº de pacientes por cada brazo de tratamiento.
·s = desviación estándar de la respuesta.
·m1 = respuesta esperada con el tratamiento habitual.
·m2 = respuesta esperada con el tratamiento nuevo.
ESTUDIOS DE EQUIVALENCIA TERAPÉUTICA (ENSAYOS NEGATIVOS)
Es el caso de los genéricos. Cuando se quiere sacar al mercado un genérico hay
que demostrar que es igual al fármaco que ya existe. En este punto nos encontramos con
un problema: en estadística es imposible demostrar que dos tratamientos son iguales.
Por ello, lo que se hace es demostrar que no son diferentes con una probabilidad <0,05.
Así:
n
2 p·(100  p)
· f ( ,  )
d2
, donde
·en el numerador solo hay una “p” porque se consideran iguales.
·el denominador mide la diferencia clínicamente relevante.
·f(,) es el factor que considera  y . Factor estadístico para  de 0,05 y  de
0,2 ó 0,1, que es 7,9 ó 10,5, respect.
·n = nº de pacientes por cada brazo de tratamiento.
·p = porcentaje de éxito esperado con el tratamiento habitual.
·d = diferencia clínicamente relevante.
Ejemplo: ensayo clínico de un nuevo antibiótico comparado con cefuroxima en
neumonía:
p = 85%; d = 10%;  = 0,05;  = 0,2.
n = 202.
Pérdidas: 15%  n = 238.
Para los genéricos se suele admitir una diferencia no mayor del 10-20% con el
original como válido.
DURANTE EL ESTUDIO:
3. RECOGIDA DE DATOS:
Se recogen datos sobre:
·el tratamiento.
·factores pronósticos que puedan afectar a los resultados (edad, sexo, reza, etc.).
·datos de respuesta al tratamiento, incluyendo efectos secundarios (variables
principal y secundarios).
4. ANÁLISIS INTERMEDIOS
Estos análisis se suelen realizar en los ensayos en fase III, comparando con el fármaco
antiguo.
JUSTIFICACIÓN
-Problema ético: son estudios (fase III) sobre muchos pacientes, ¿hay que esperar a que
todo el mundo se exponga? No, el análisis se comienza cuando la muestra sea
razonable.
-Razones económicas: puede ser que nos ahorremos la mitad del estudio.
-Razones prácticas: comprueba la buena marcha del ensayo y si es necesaria alguna
modificación.
INCONVENIENTES
Aumenta el riesgo de cometer un error tipo I (falso positivo) porque, mientras
más estudios se hacen sobre una muestra, más probabilidades hay de que la diferencia
sea debida el azar. Por esto deben estar previstos en el protocolo del estudio y hacer
pocos y sólo para la variable principal. Para no alterar el curso del estudio se debe
mantener la confidencialidad de los resultados. Existe un comité de estudio,
independiente de los investigadores; así no se descubre el doble ciego. Para que el azar
no aumente las probabilidades de encontrar una diferencia se realiza lo que se llama una
penalización estadística, esto es, se considera que se necesita una p<0,01 para la
significación de estos análisis.
AL FINAL DEL ESTUDIO:
5. COMPARACIÓN DE LAS CARACTERÍSTICAS BASALES
Lo primero es comprobar que los dos grupos son homogéneos, esto es, que solo
difieren en la variable que se mide y no en otras. En el caso de tener factores
pronósticos diferentes en los dos grupos puede ser necesario hacer algún ajuste
estadístico para compararlos.
PRESENTACIÓN DE RESULTADOS CONFORME A LA ESTADÍSTICA
DESCRIPTIVA
Las variables cualitativas se expresan en porcentajes.
Para las cuantitativas se utilizan:
·la media y desviación estándar o error estándar.
·la mediana y el rango.
·el intervalo de confianza.
COMPARACIÓN DE LAS VARIABLES DEL ESTUDIO
Comparar las variables principales y secundarias entre ambos grupos.
Ejemplo de Comparación de las características basales:
• metoprolol vs placebo después de IAM
placebo
N
697
Hombres
76,2%
Edad (M ± SEM)
60,0 ± 0,3
IAM previo
22,7%
HTA
29,7%
Signos ECG de IAM
47,8%
Mortalidad (90 días)
8,9%
metoprolol
698
75,5%
60,0 ± 0,3
21,2%
29,1%
49,9%
5,7%
Otro
ejemplo:
Representación
gráfica de los resultados
Vemos como presentar los resultados
como intevalo de confianza es más
correcto que hacerlo por DS o Error
estandar.
6. TEST DE SIGNIFICACIÓN ESTADÍSTICA
OBJETIVO
Rechazar la hipótesis nula (H0) de no diferencia entre los tratamientos:
·calculan la probabilidad (p) de que la diferencia observada sea explicada por el
azar.
·cuanto menor sea esta probabilidad, mayor será lo evidencia en contra de H0
(significativo si <0,05).
· la p sólo indica que no interviene el azar, pero un p muy significativa no indica
que la variable es más o menos diferente. La magnitud es la que da la diferencia.
El intervalo de confianza sí mide la diferencia de magnitud.
VARIABLES CUALITATIVAS
-Comparación de 2 o más porcentajes: chi cuadrado.
-Pequeño tamaño de muestra: test exacto de Fisher.
VARIABLES CUANTITATIVAS
-Comparación de 2 medias: t de Student para muestras independientes o para muestras
pareadas.
-Comparación de más de 2 medias: ANOVA seguido de comparaciones a posteriori
entre grupos.
-Comparación de medias obtenidas en diferentes momentos de tiempo: ANOVA para
medidas repetidas.
VARIABLES CUANTITATIVAS CUANDO NO SIGUEN UNA DISTRIBUCIÓN
NORMAL (<30 PACIENTES)
-Transformación de los datos para normalizados.
-Pruebas no paramétricas: test de Wilcoxon o U de Mann-Withney, test de KruskallWallis.
7. AJUSTE PARA FACTORES PRONÓSTICOS
Cuando los dos grupos de comparación difieren en algún factor pronóstico deberemos
usar otras pruebas de significación estadística:
-Para respuestas cuantitativas: regresión múltiple o análisis de covarionza
(ANCOVA).
-Para respuestas cualitativas: regresión logística, test de Mantel-Haenszel.
La desigualdad entre factores pronósticos es más frecuente cuando la asignación del
tratamiento no es aleatorio o el tamaño de la muestra es pequeño.
8. ANÁLISIS DE SUPERVIVENCIA
-Curva de supervivencia: método de Kaplan-Meier.
-Pruebas estadísticas: Iogrank o Mantel-Cox, test de
Breslow.
9. INTERPRETACIÓN DE LOS RESULTADOS
INTERPRETACIÓN DE LOS TEST DE SIGNIFICACIÓN ESTADÍSTICA
Simplemente evalúan cómo es de fuerte la evidencia de que un tratamiento sea
superior a otro.
A pesar de que p<0,05 existe 1 probabilidad entre 20 de que ese tratamiento
realmente no sea mejor que el otro (falso positivo). Si p>0,05 no quiere decir que los
dos tratamientos sean iguales. Cuanto menor sea la p, mayor será la evidencia de que la
diferencia observada sea real, pero no nos indica la magnitud de esa diferencia.
Significación estadística no es lo mismo que relevancia clínica. Ej.: estudio
con 10.000 pacientes con neumonía; curación con cefuroxima: 85%; curación con el
nuevo antibiótico: 86%; p=0,03  significación estadística; diferencia de curación =
1%  no relevancia clínica.
Nota: recalcar que la p lo que indica es la fuerza de la evidencia, no que ésta sea
clínicamente significativa. Recordar que en estadística no se puede concluir nunca que 2
supuestos son iguales. Recordar que p>0,05 lo que indica es no estadísticamente
significativo, no que sean iguales.
Todo ello nos lleva a considerar como más adecuados para el estudio los
intervalos de confianza.
INTERPRETACIÓN DE LOS INTERVALOS DE CONFIANZA
Estiman la magnitud de la mejoría de un tratamiento respecto a otro, por lo que es
preferible a los tests de significación. Nos dan una idea de cuál será el valor real en
una población futura de pacientes. La amplitud del intervalo depende del tamaño de la
muestra y de la desviación estándar. IC 95%: nos indica el intervalo dentro del cual
estará incluido el valor real con un 95% de probabilidades:
IC 95% = valor observado ± 1,96 · error estándar.
Relacionado con el test de significación estadística: significativo si los 2 límites
del intervalo van en el mismo sentido (no incluye el 0). Ej. metoprolol vs. placebo en
IAM; mortalidad con metoprolol: 5,70%; mortalidad con placebo: 8,9%; diferencia
entre grupos: 3,2%; p = 0,023  significación estadística; IC95% = 0,4% - 6,0% 
significación estadística porque el intervalo no incluye el 0, pero el efecto real puede ser
muy pequeño o muy grande.
Nota: la idea es que añaden a la significación estadística la posible relevancia
clínica, ya que se puede medir si la diferencia clínica es o no aceptable.
CUANTIFICAR EL EFECTO: ABSOLUTO vs. RELATIVO
EJEMPLO 1
Muertos Vivos Total
40
658
698
Metoprolol
62
635
697
Placebo
102
1293
1395
Total
*Riesgo relativo (RR) = incidencia en expuestos/incidencia en no expuestos.
En el ejemplo: RR = (40/698)/(62/697) = 5,7%/8,9% = 0,64.
*Reducción del riesgo = (incidencia en no expuestos – incidencia en
expuestos)/incidencia en no expuestos. = 36%
En el ejemplo: (8,9–5,7)/8,9 = 36%. Nos indica que un paciente tratado con metoprolol
tiene una probabilidad de morir a los 90 días un 36% inferior.
*Beneficio absoluto: incidencia en no expuestos – incidencia en expuestos.
En el ejemplo: 8,9–5,7 = 3,2%. Número de vidas salvadas por cada 1000 pacientes
tratados: 32.
*NNT: nº de pacientes que necesitamos tratar para salvar una vida o para evitar un
evento. Es 100/diferencia absoluta.
En el ejemplo: 100/3,2% = 31.
EJEMPLO 2
Placebo Metoprolol
MORTALIDAD
40%
20%
Pacientes de alto riesgo
4%
2%
Pacientes de bajo riesgo
*Riesgo relativo: en los dos tipos de pacientes se observa una reducción del riesgo de un
50%.
*Beneficio absoluto (diferencia de riesgo): 20% y 2% respect.
RR
BA (DR)
Pacientes de alto riesgo 20/40 = 0,5 40–20 = 20%
Pacientes de bajo riesgo
2/4 = 0,5
4–2 = 2%
*Nº de vidas salvadas por cada 1000 pacientes tratados:
·pacientes de alto riesgo: 200.
·pacientes de bajo riesgo: 20.
*NNT:
·pacientes de alto riesgo: 100/20 = 5.
·pacientes de bajo riesgo: 100/2 = 50.
*El efecto absoluto es un mejor indicador del efecto real de un tratamiento en un
grupo de pacientes concretos.
El beneficio absoluto, la cuantificación en NNT y el nº de vidas salvadas por
cada 1000 pacientes tratados es lo que al final se usa para la realización de programas
generales de salud pública, etc., ya que nos permite cuantificar el costo/beneficio del
fármaco.
¡¡¡SEGURO QUE CAE EN EXAMEN EL CONCEPT DE NNT!!!
ANÁLISIS POR INTENCIÓN DE TRATAR vs. ANÁLISIS POR PROTOCOLO
El ANÁLISIS POR INTENCIÓN DE TRATAR o según la asignación aleatoria es más
adecuado.
El ANÁLISIS POR PROTOCOLO o de casos válidos es el que solo tiene en cuenta los
pacientes que completan el estudio de acuerdo al protocolo. En el análisis por intención
de tratar se incluyen los que se han salido (ej. los que se curan y no vuelven, los que
abandonan por efectos secundarios…); por esto se considera que es más adecuado el
análisis por intención de tratar que por protocolo, sobre todo en los ensayos en fase III
(muchos pacientes, fármaco en el mercado).
EJEMPLO
Un ensayo empieza con 400 pacientes, 200 con tto. A y 200 con tto. B. Del brazo del
tto. A se van 40 (quedan 160). Curan 80. Del brazo del tto. B se van 10 (quedan 190).
Curan 75. En el análisis por intención de tratar se ve que A tiene un éxito del 40% y B
del 37,5%. La diferencia de riesgo es de 2,5% (rango desde –7% a 12%). En el análisis
por protocolo se ve que A tiene un éxito del 50% y B del 39,5%. La diferencia de riesgo
es de 10,5% (rango desde 0,1% a 20,9%). *Se ve claramente que el análisis por
intención de tratar es más exigente.
ANÁLISIS DE SUBGRUPOS
El análisis de unos subgrupos concretos de acuerdo a unos criterios concretos
expuestos de antemano es lícito. Al aumentar el nº de análisis aumenta la probabilidad
de cometer un error tipo I. Cualquier análisis o comparación adicional es siempre de
carácter exploratorio, es decir, sirve para generar hipótesis, no para confirmarlas.
EL PROBLEMA DE LA MULTIPLICIDAD DE ANÁLISIS (RIESGO DE
HACER MUCHOS ANÁLISIS)
La realización de múltiples tests de significación estadística incrementa la probabilidad
de falsos positivos:
·múltiples tratamientos.
·análisis de subgrupos.
·múltiples objetivos.
·análisis intermedios.
·medidas repetidas.
Nº de tests repetidos al nivel de
5%
1
2
3
4
5
10
20
Nivel global de significación
0,05
0,08
0,11
0,13
0,14
0,19
0,25
Nivel de significación
requerido para mantener el 5%
0,05
0,029
0,022
0,018
0,16
0,0106
0,0075
Ya se comento la importancia de no realizar muchos estudios sobre la muestra
porque aumentaba la probabilidad de falsos positivos. También en los análisis
intermedios se consideró la posibilidad de una penalización estadistíca. En esta línea
está este punto del tema. Conforme se repiten estudios sobre datos acumulados hay que
disminuir el nivel de significación para mantener el 5% requerido. Intuitivamente se ve
que si se maneja un margen del 5%, en 100 estudios, 5 darían resultados positivos por
azar; por ello, si se realizan varios estudios, hay que disminuir el nivel para que al final
se mantenga ese 5% requerido.
Descargar