cálculo de tamaños muestrales aproximados

Anuncio
Fórmula LEHR
CÁLCULO DE TAMAÑOS MUESTRALES APROXIMADOS:
FÓRMULA DE LEHR
Eduardo Cuestas. Servicio de Pediatría y Neonatología. Área de Epidemiología Clínica y Bioestadística.
Hospital Privado Centro Médico de Córdoba.
Resumen
Este artículo propone para su memorización una ecuación simple para el cálculo aproximado de tamaños
muestrales, conformada solo para una serie de valores determinados (Poder de 80%, dos colas, p < de 0,05),
los cuales ocurren con más frecuencia en investigación clínica. Después de presentar la fórmula en términos
de estimados de la varianza (s2) y del efecto tamaño (d), plantea algunas formas alternativas y luego discute la
exactitud de la aproximación junto a otras propiedades, como así también da ejemplos prácticos para su
aplicación.
Palabras clave
Tamaño muestral
Abstract
This paper suggest for memorization an equation for calculating approximate sample size requirements
intended only for a specific set of values (80% power, for two-tailed alpha < 0.05 test) which seems to occur
often in clinical research. After presenting the formula in terms of variance estimate (s2) and effect size (d),
derived later a few alternative forms and then discuss the accuracy of the approximation and other properties
as well give examples of its use.
Key words
Sample size
Correspondencia:
Eduardo Cuestas
Servicio de Pediatría y Neonatología
Hospital Privado
Av. Naciones Unidas 346
X5016KHE Córdoba
Tel.: 0351-4688241
Fax: 0351-4688286
e-mail: [email protected]
Financiación: Propia
Conflictos de interés: Ninguno a declarar
100
Experiencia Médica - Vol 26 - Nº 3 - 2008
especialmente en situaciones en las que no se cuenta con
personal capacitado para resolver el asunto, o tiene
dificultades para comprender o utilizar correctamente
paquetes informáticos sofisticados o complicadas tablas
estadísticas 1.
Introducción
El objetivo principal del análisis estadístico consiste en
realizar generalizaciones válidas desde una muestra
representativa a la población, de modo que la acción del
azar o de los sesgos originados en la acción de variables
confundentes, sean conocidos y controlados de una
manera razonable mediante el cálculo de probabilidades.
Las pruebas de significación estadística se aplican con el
fin de determinar si una diferencia obedece a una
variación aleatoria o no.
La aplicación del método estadístico implica una serie
de pasos secuenciales: 1) Planteo de la hipótesis de
estudio o alternativa (Ha), que es generalmente una
proposición de que las diferencias son debidas a una
causa particular. 2) Planteo de la hipótesis de nulidad
(Ho), que es la proposición de que ésas diferencias son
meramente casuales, y por eso debe ser rechazada
primero para luego plantear la anterior.
Diferencia entre dos medias
Si se recuerda que el tamaño de la muestra para un test
de t se consigue con la siguiente fórmula:
(1)
n = 2 [(Zα + Zβ ) σ ]
δ2
donde σ es la desviación típica (s) y δ la diferencia entre
las dos medias (d).
Ahora bien, si tomamos α = 0,05 (p), Zα = 1,96 y β =
0,20 (una potencia de 0,80), entonces Zβ = 0,84; y
2(1,96 + 0,84) = 15,7; que esta muy próximo a 16,
tenemos que la confusa fórmula (1), puede reducirse a:
(2) n = 16 s2
d2
3) Definición del nivel de significación, que fijar la
probabilidad (p) para rechazar la Ho. 4) Aplicación de
las pruebas de significación y 5) Aceptación o rechazo
de la Ho.
Las pruebas de significación pueden llevar a dos tipos de
errores: 1) El error α, tipo I o falso positivo, que se
plantea cuando se rechaza la Ho cuando esta es
verdadera. Este error se controla mediante el nivel de
confianza o 1- α, dado por el nivel de significación de la
prueba de modo que el error no exceda el 5% o el 1%
(p<0,05 ó p<0,01 ó 1- α= 95% ó 99%). Y 2) El error β,
tipo II o falso negativo, ocurre cuando no se rechaza la
Ho cuando esta es falsa. Para controlar este error se
utiliza el poder estadístico ó 1-β, que depende única y
exclusivamente del tamaño muestral y debe tratar de
reducirse a un 20% de probabilidad (1-β=0,80%). De
aquí deriva la importancia del tamaño muestral
adecuado, pues una muestra pequeña, puede no mostrar
una diferencia que existe en realidad.
donde d es δ y s es σ; por lo que debemos memorizar
que: "el tamaño de la muestra es igual a 16 s al cuadrado
divido por d al cuadrado".
Diferencia entre más de dos medias (ANOVA)
Se debe añadir al 16 un "1" como un estimado de la
varianza, por cada grupo adicional que se desee
comparar, para evitar parcialmente el "inflado" del error
α, por las múltiples comparaciones que se realizan.
Diferencia entre dos proporciones
La desviación típica de una proporción esta relacionado
a:
(3)
√(1-p)
donde p es la proporción, por lo tanto, y siguiendo el
mismo razonamiento de (1), la fórmula es:
(4) n = 16 p (1-p)
(p1- p2)2
en la que p1 y p2 son las dos proporciones a comparar,
que reemplazan a d,y s2 se sustituye por la fórmula (3),
El cálculo del tamaño muestral suele ser un tema de
frecuente preocupación entre los investigadores por su
aparente dificultad; aunque es dable recalcar, que existen
simultáneamente otros problemas tan o más importantes
que éste, como por ejemplo, la elección del diseño
experimental, la forma de selección de la muestra, la
presencia de sesgos, la identificación de variables
confusoras, para citar sólo algunos, entre muchos otros.
anulándose entonces la raíz por la potencia.
Diferencia entre más de dos proporciones
Se procede de igual manera que en las medias;
agregando un "1" al 16 por cada grupo que supere el par.
Pruebas de correlación
Para decidir si una correlación es significativamente
distinta de cero, y admitiendo que el error típico (et) de
la correlación es:
(5)
1/ √ (n-2)
El propósito de esta nota, sin querer reemplazar el
proceso usual, es divulgar una fórmula fácil de
memorizar y de aplicar por cualquier médico que desee
calcular
tamaños
muestrales
aproximados,
101
Fórmula LEHR
La fórmula para calcular el tamaño muestral es entonces:
(6)
n = 8/r2 + 2
3.Para obtener el tamaño mínimo de pacientes en un
estudio de correlación, cuyo r sea de 0,6; aplicando la
ecuación (8), vemos que:
(8 / 0,36) + 2 = 24,2 sujetos en total.
Aplicando el Programa Epidat con un poder de 80%,
advertimos que el n es = a 11 sujetos por grupo, siendo
el error ∆ = 24 - 22 = 2 ( 4,8%).
Se concluye que utilizando la fórmula de Lehr, puede
calcularse el tamaño muestral en forma fácil y con un
margen de error razonable.
donde r es el coeficiente de correlación esperado.
Discusión
Sin duda, el hecho más interesante de la "regla del 16" es
que pone de manifiesto la relación existente entre
tamaño de la muestra y diferencia. Como todo va
elevado al cuadrado, si se duplica la diferencia a
detectar, se debe dividir la muestra por cuatro y si se
duplica la desviación típica, la muestra se debe también
multiplicar por cuatro.
Bibliografía
1.Lehr R. Sixteen s-squared over d-squared: a relation
for crude sample size estimates. Statistic in Medicine
1992;11:1099-1102.
2.Campbell MJ, Julius SA, Altman DG. Estimating
sample size for binary, ordered categorical, and
continuous outcomes in two group comparisons. BMJ
1995;311:1145-1148.
3.Gardner MJ, Altman DG. Statistic with confidence.
Londres. BMJ. 1989.
4.Kraemer HC, Thiemann S. How many subjects?
Beverly Hills (CA). Sage. 1987.
La exactitud de la regla está determinada en gran parte
por el hecho de que a n mayores, el poder (β) se
aproxima a 0,807 casi infinitamente; dependiendo
exclusivamente del cociente de las magnitudes s y d y no
de sus valores absolutos. Este hecho se deduce de una
derivación simple e intuitiva obtenida de que
aproximadamente el 80% del área bajo la curva normal
se encuentra a la derecha de z = -0,84; dando origen a (d2 et) / et = 0,84; donde el et es = al doble del cuadrado
de la dt dividida entre n ( 2 s2 / n ), siendo esta la base
matemática de la aproximación2-4.
Finalmente debe dejar de reiterarse que la fórmula
propuesta constituye solamente una ayuda para calcular
tamaños muestrales aproximados, con un cierto margen
de error, y no debe sustituir la consulta a los expertos en
caso de que sea necesario.
Ejemplos
Echando mano a una simple calculadora podemos
realizar los siguientes cálculos:
1.Encontrar el número aproximado de pacientes para
detectar una diferencia de 3 entre las medias de respuesta
de dos tratamientos a y b , cuya varianza (s2) conjunta es
de 28.
Utilizando la ecuación (2), tenemos que:
16 x 28 / 9 = 49,7 sujetos por grupo, implicando un n =
a 100.
Utilizando el programa Epidat para calcualar el tm con
una s = 5 y una d = 3 y un poder de 80%, para una p <
0,05 , el n es = a 98 pacientes; implicando un ∆ = 100 98 = 2 (el error es apenas de 2, ó de 2%).
2.¿Cuál es el número necesario de pacientes para
detectar una diferencia entre porcentajes, siendo a = a
0,45 y b = a 0,35. Mediante la ecuación (4), observamos
que:
16 x (0,4) (0,6)/ 0,01 = 384 sujetos en cada grupo.
Realizando el cálculo con el programa Epidat, para un
poder del 80%, los resultados son de n = a 376; con un
∆ = 384 - 376 = 8 (error de 2 %).
102
Descargar