92 Educación Médica Cómo estimar el tamaño de la muestra en investigaciones con humanos R. Dennis Los trabajos de investigación que involucran seres humanos deben ir precedidos, en su etapa de planeación, de un estimativo del tamaño de la muestra necesario para obtener conclusiones valederas. Los conceptos de: error alfa, error beta, poder, variabilidad de los resultados y mínima diferencia, importantes de detectar clínicamente justifican este cálculo. Se discuten estos conceptos y la manera de utilizarlos en fórmulas de uso fácil para calcular el tamaño apropiado de la muestra. INTRODUCCION La curiosidad científica, entendida como el deseo de aumentar nuestros conocimientos, es una característica propia de los profesionales de la medicina. Estos conocimientos pueden aumentarse mediante la memorización de lecturas y conferencias, sistema tradicional en nuestras escuelas de Medicina; o a través de una actitud científica validando experimentalmente hipótesis propias derivadas de estas lecturas o de nuestro trabajo clínico diario. Estas hipótesis por lo general abarcan temas como utilidad de un examen diagnóstico, factores de riesgo para el desarrollo de una enfermedad, utilidad de una estrategia de tratamiento o el curso natural de una enfermedad. Con frecuencia, sin embargo, nuestras inquietudes investigativas tropiezan con escollos que nos pueden parecer insalvables y limitan, por falta de información Rodolfo J Dennis MD., MSc.: Departamento de Medicina Interna y Unidad de Epidemiología Clínica, Pontificia Universidad Javeriana. Solicitud de separatas al Dr. Dennis. Acta Médica C o l o m b i a n a Vol 14 N°2 - M a r z o - A b r i l - 1989 apropiada, el desarrollo de nuestro potencial investigativo. ¿Cuántas observaciones (o pacientes) necesitamos para que nuestras conclusiones sean válidas? ¿Cuál es la diferencia entre tener 15 pacientes? ¿o 30? ¿o 100? ¿Cómo hacemos para tener una idea, al diseñar un estudio (aunque sea aproximada), del número de pacientes necesario y del tiempo que podemos tardar en llevarlo a cabo? Estas y muchas otras preguntas similares nos pueden detener en los umbrales de una investigación promisoria por cuanto, en términos generales, nuestros estudios de pregrado y postgrado nos han proporcionado los elementos necesarios para resolverlas. Día a día llegan a la unidad de epidemiología Clínica de nuestra U n i v e r s i d a d , diferentes investigadores en salud con excelentes hipótesis de trabajo, buscando información sobre cuántos individuos son necesarios en el estudio que piensan desarrollar. La mayoría de estos investigadores no desean una explicación detallada de cómo fueron derivadas estas fórmulas, ni de los finísimos detalles de áreas debajo de curvas de distribución. Sólo desean tener una idea de cómo calcular el número aproximado de pacientes para su estudio particular. Hasta hace algunos años no se había establecido la necesidad de calcular el tamaño de la muestra en un estudio clínico y no teníamos una idea clara de su vital importancia. Freiman, más que nadie, ha contribuido a demostrar el rol crítico que tiene el tamaño de la muestra en las conclusiones que se deriven de un estudio. El estudio de Freiman (1) demostró que aun en las revistas médicas de más alto prestigio por la exigencia de sus edito- Tamaño de la muestra en investigaciones con humanos 93 res, se encuentran publicados trabajos cuya deficiente planeación indujo a conclusiones equivocadas. El error consistió en considerar que los tratamientos no diferían entre sí por sus efectos sobre los grupos tratados. La causa principal de este error fue el tamaño inapropiado de las observaciones (muestra) efectuadas. Pensando en esto y en que los conceptos de error tipo I o tipo II son en ocasiones difíciles de asimilar (especialmente este último) elaboré este artículo. Pretendiendo únicamente hacer una revisión breve de las razones y de la necesidad de calcular el tamaño de la muestra y de los recursos metodológicos a disposición del investigador para calcularla. Aquellos lectores con un interés más profundo en el tema pueden consultar varios libros excelentes (2-4). error tipo alfa o simplemente un error de tipo falso positivo (Tabla 1). Obviamente, cuando estamos evaluando un tratamiento con graves efectos secundarios o una terapia invasiva o una terapia cara y de potencial iatrogénico, es no solamente indeseable sino abiertamente peligroso incurrir en error de tipo I por un tamaño de muestra insuficiente. Hoy en día en la literatura mundial hay una prevención general contra los errores alfa; nadie acepta ya un resultado c o m o positivo si la p está por encima de 0.05. Sin embargo, todavía existe poca preocupación por el efecto de llevar a cabo múltiples análisis estadísticos con los resultados de un estudio; entre más pruebas de este tipo se hagan, con un nivel de significación de 0.05, hay mayor probabilidad de obtener un resultado falso positivo. Cuando hemos hecho en el transcurso del análisis de un estudio, 10 exámenes estadísticos independientes, la probabilidad de un error de tipo falso positivo (alfa) es del 4 0 % (5). En estos casos se puede entonces ser más rígido, y desde el punto de vista clínico práctico, sólo aceptar como válidos resultados con p menor de 0.01. El valor p es en realidad una probabilidad; es la probalidad de obtener un resultado tanto ( o más) extremo que el observado si la diferencia entre los diferentes grupos fuese enteramente debida a variabilidad del intrumento de medición, o de la respuesta del paciente, o para abreviar, simplemente por azar (6). Otra forma de expresarlo es aquella probabilidad por encima de la cual dire- ERROR Y VARIABILIDAD Existen tres razones básicas por las cuales se debe obtener un tamaño aproximado de la muestra: el error de tipo I, el error de tipo II y la variabilidad del resultado. Error tipo I y II. En general, cuando un investigador se propone comparar, por ejemplo, la eficacia de un tratamiento, formula una hipótesis de trabajo que pueda rebatir o desechar, y que en lenguaje estadístico se denomina hipótesis nula. Esta se expresaría más o menos en los siguientes términos: " N o hay una diferencia en eficacia entre el tratamiento A y el tratamiento B". Existe también una hipótesis alterna que aceptaríamos al rechazar la hipótesis nula y se expresaría como: "el tratamiento A es más efectivo que el tratamiento B". Cuando el investigador somete a un análisis estadístico sus resultados y obtiene un valor p m e n o r de 0.05, dice que la diferencia es estadísticamente significativa, rechaza la hipótesis nula y, por ende, acepta la hipótesis alterna. Cuando estamos analizando los resultados de un estudio como el enunciado, es posible que aunque en realidad no haya diferencia alguna entre los grupos estudiados (hipótesis nula verdadera), concluyamos falsamente que sí la hay y rechacemos erróneamente la hipótesis nula y aceptemos la alterna. A esto se le ha llamado error de tipo I, Acta Med Colomb Vol 14 N°2 - 1989 94 mos que las diferencias que nos interesan entre los grupos en estudio, muy probablemente se deben al azar y que m u y problamente son diferencias no verdaderas. La manera de evaluar (antes de desarrollar el estudio) la probabilidad de obtener un error tipo I es a través del m á x i m o nivel alfa que estamos dispuestos a tolerar. El nivel alfa es aquel valor de p por encima del cual nos proponemos rechazar la hipótesis nula de no diferencia entre los grupos (tratamientos, factores de riesgo, etc) en estudio. Por consenso en la literatura médica se ha establecido una p=0.05 como el máximo nivel alfa tolerable. En torno a este uso de p existe una gran polémica hoy en día. Así por ejemplo, Rothman (6) argumenta que las revistas de medicina deberían estimular el uso de intervalos de confianza para el informe de resultados en experimentos clínicos en vez de niveles de significación Rothman basa su afirmación en que los intervalos de confianza mostrarían tendencias, no un simple punto de corte dicotómico positivo o negativo. Los intervalos de confianza definirían los límites entre los cuales, con una probalidad del 90 o 95%, se encuentra el resultado que obtuvimos del estudio. A menores valores de alfa, habrá entonces una m e n o r posibilidad de incurrir en un error tipo I; dicho de otra manera, entre menos error alfa queramos tolerar, más pacientes debemos tener: si deseamos ser rígidos y sólo tolerar una probabilidad de error alfa de 0.01, necesitaremos más pacientes en el estudio que si vamos a tolerar una de 0.05. Cuando estamos analizando el resultado de un estudio, es posible que aunque verdaderamente haya diferencias entre los grupos que se estudian (hipótesis alterna verdadera), concluyamos erróneamente que no la hay y equivocadamente aceptemos la hipótesis nula y descartemos la hipótesis alterna (Tabla 1). A esto se le ha llamado error de tipo II, error beta, o simplemente un error de tipo falso negativo. Es indeseable que si estamos evaluando un tratamiento efectivo o más barato o más corto, lo descartemos como inútil cuando en realidad sí R. Dennis sirve. También es abiertamente indeseable concluir que dos esquemas de tratamiento son comparables en efectividad y en efectos colaterales, cuando en realidad uno de ellos tiene efectos colaterales mucho más graves. Estas dos situaciones también tienen implicaciones éticas serias. La manera de evaluar, la probabilidad de obtener un error de tipo beta, antes de llevar a cabo el estudio, es mediante el máximo nivel beta que estamos dispuestos a tolerar. Esto equivale a fijar un nivel por debajo del cual un resultado negativo es un verdadero negativo, y no un resultado falsamente negativo. Arbitrariamente, al igual que con el nivel alfa, se ha establecido el máximo nivel beta aceptable en 0.20; si un estudio tiene una probabilidad m a y o r del 20% de que su resultado sea un falso negativo, se deben tener reservas con sus conclusiones. Al igual que con el error de tipo I, a niveles más bajos de beta (0.1, 0.05) menos probabilidad de un error de tipo II. Al igual que con el error de tipo I, a niveles más bajos de beta, mayor número de pacientes se necesitan en el estudio (2). El valor de la fórmula 1 -beta se ha llamado poder o sensibilidad del estudio; esto es, la capacidad de un estudio de encontrar una diferencia significativa si en realidad la hubiere (Tabla 1). Otra forma de expresar este concepto es que a niveles más bajos de beta, el poder del estudio para encontrar una diferencia significativa, si en realidad la hay, aumenta. El concepto de p oder de un estudio es relativamente nuevo, y aún no está ampliamente difundido en la literatura médica. Sin embargo, cada día más y más informes anotan el poder que tenía el estudio para detectar un resultado positivo si en verdad lo había (7-8), especialmente si analizan un resultado negativo en sus conclusiones. Aunque no se ha determinado una cifra mínima aceptable de poder o sensibilidad para calcular el tamaño de las muestras, no se debe usar menos del 80% (e. g., una probabilidad de error beta del 20%). En el análisis crítico de la literatura médica, se deben considerar inconclusos aquellos estudios con un resultado negativo y con poder o sensibilidad menor del 60%. Tamaño de la muestra en investigaciones con humanos 95 Para mostrar la profusión de estudios en la literatura mundial con resultados negativos posiblemente debidos a bajo poder, volvamos al estudio de Freiman et al (1), en el que analizaron 71 ensayos clínicos aleatorizados, de múltiples tratamientos que resultaron "negativos" o "sin diferencias". Ellos encontraron que 50 de los 71 estudios no tenían el suficiente poder para encontrar diferencias incluso d e l 5 0 % entre los tratamientos de los grupos en estudio. Este estudio recalca el concepto de que los términos poder y error de tipo II no son una curiosidad estadística y que son una necesidad en el planeamiento de la investigación médica seria (9). Young et al (8) han publicado además un artículo con tablas fáciles de usar para evaluar trabajos con resultados negativos y determinar la utilidad del estudio dependiendo del número de pacientes y de 1a mínima difercncia entre grupos considerada útil de detectar. Variabilidad: La tercera razón básica por la cual calculamos el tamaño adecuado de la muestra en un estudio es el concepto de variabilidad de los resultados (10). Las medidas de dispersión de una muestra (varianza, desviación estándar) y el promedio de la misma muestra, guardan una relación inversa con el tamaño de la muestra usada para obtener esos valores. Los estudios con muestras pequeñas usualmente no pueden ser informados con la suficiente precisión como para que sus resultados sean útiles. Un ejemplo es el resultado hipotético de un estudio en el cual el riesgo de contraer cáncer de endometrio cuando una mujer menopáusica ha estado expuesta a estrógenos es 7 veces más alto que el de una mujer no expuesta; pero con un intervalo de confianza del resultado que v a r í e entre 1.5 (mínima asociación) y 1.8 (asociación extrema). vas, pero sin mayor utilidad en la práctica clínica. Un ejemplo sería al evaluar dos esquemas antihipertensivos. Hipotéticamente, con un número grande de pacientes, podemos encontrar que el esquema A disminuyó la presión arterial diastólica hasta 84 mm de Hg y el esquema B hasta 87 mm de Hg, y que esta diferencia f u e estadísticamente significativa. Para el clínico, 3 mm de Hg no son una diferencia de utilidad práctica y puede concluir que las drogas son comparables. Esta es la diferencia básica entre un resultado estadísticamente significativo pero clínicamente no significativo ni importante. Al igual que con los errores de tipo I y II, para poder tener la capacidad de detectar diferencias pequeñas entre los grupos a estudiar, se necesitará un mayor número de pacientes en los grupos. Otra forma de expresar este concepto es que, si solamente estamos interesados en explorar diferencias grandes entre los grupos del estudio, necesitaremos menor cantidad de pacientes. El corolario obvio de esto es que el castigo a pagar será el de no encontrar diferencias significativas entre los grupos, si en realidad existe una diferencia menor de la que estipulamos. Una alegoría que usamos con frecuencia con nuestros estudiantes de medicina y que facilita 1a explicación de este concepto es la de un pescador y su red. Si el pescador está solamente interesado en pescar tiburones (diferencias grandes) tejerá una red poco tupida que le representará poco trabajo (tamaño de muestra pequeño). El castigo a pagar radicará en no poder pescar sardinas (diferencias pequeñas) ya que para eso necesitará una red más tupida (mayor tamaño de muestra). Mínima diferencia clínicamente importante. Las fórmulas para el cálculo del tamaño de la muestra utilizan, además de un estimativo de los errores alfa y beta, un estimativo de la mínima diferencia que, como clínicos, pensamos que es útil detectar entre los grupos que se evaluarán (4). Con tamaños de muestra grandes, podremos encontrar diferencias estadísticamente significatiActa Med Colomb Vol 14 N°2 - 1989 Este concepto se amplía en el siguiente ejemplo: Se quiere evaluar un esquema nuevo y promisorio de preparación del colon para cirugía electiva del mismo. Se comparará este nuevo esquema contra el esquema q u e se utiliza de rutina en el hospital (grupo control). Al investigador le parece que la mínima diferencia que clínicamente se justifica encontrar (en porcentaje de sobreinfección en el postoperatorio) entre los dos esquemas es del 15%, para concluir que el esquema propuesto es mejor que el conocido. Le parece razonable 2 0 % de so- R. Dennis 96 breinfección en el grupo control según estadísticas locales, y 5% en el grupo del nuevo esquema, basado en la literatura. Con base a este razonamiento calcula el tamaño de la muestra. Corre el riesgo de que si en realidad hay diferencias entre los dos esquemas, pero la diferencia real es de menos del 15% de sobreinfección (por ejemplo 10% o 5%), el número de pacientes calculado puede no permitirle encontrar esa m e n o r diferencia, y concluirá falsamente que el nuevo esquema no ofrece ninguna ventaja y que ambos esquemas son comparables. FORMULAS DE "BOLSILLO" PARA CALCULAR EL T A M A Ñ O DE LAS MUESTRAS Varias de estas fórmulas son útiles en más de un tipo de diseño metodológico, pero pensamos que didácticamente esmejor dividirlas según el diseño que se quiere utilizar para cada uno de los estudios que tenemos en mente ( 1 1 , 1 2 ) . Donde: n: número de pacientes necesario en cada grupo del estudio. p 1 : estimativo probable de respuesta en el grupo control, en porcentaje. p 2 : estimativo probable de respuesta en el grupo de tratamiento, que el investigador quiere detectar como diferente d e p 1 . f (alfa y beta): estimativo de cómputo de los niveles alfa y beta dispuesto a tolerar y que el investigador quiere usar, ver Tabla 2 ( 1 1 ) . Ejemplo: Siguiendo con el estudio del protocolo de preparación del colon ya anunciado y con P 1 de 2 0 % y p 2 de 5%, usando un nivel alfa de 0.05 evaluando dos colas y beta de 0.20, tenemos: Vale decir que cada grupo requiere 72 pacientes para realizar el estudio propuesto. Donde: n: número de pacientes en cada grupo c): la diferencia esperada c o m o verdadera entre los dos grupos, y que el investigador desea detectar como importante (clínicamente). S: Estimativo de la desviación estándar del promedio de las observaciones (asumiendo homogeneidad de varianzas y por ende similares desviaciones estándar entre los grupos). Este estimativo puede obtenerse fácilmente de otros estudios en la revisión bibliográfica previa al diseño, o de un estudio piloto. f (alfa y beta): Estimativo de cómputo de los niveles alfa y beta usados, ver Tabla 2 ( 1 1 ) . Ejemplo: Se quiere evaluar un antibiótico nuevo para el tratamiento de las exacerbaciones infecciosas de la bronquitis crónica y se comparará con un antibiótico c o m ú n m e n t e usado para esta entidad. Los investigadores piensan que la variable más importante a investigar es el número de días en promedio hasta la mejoría. La diferencia que en * La evaluación de una o dos colas difiere con respecto a la interpretación de una conclusión estadísticamente significativa. Cuando se usa una cola, la inferencia es que el valor real que buscamos está por encima de aquel especificado en la hipótesis nula; cuando evaluamos dos colas, la inferencia es que el valor real puede estar por encima o por debajo de lo especificado en la hipótesis nula (14). Con relación al ejemplo de la preparación del colon, el nuevo esquema bien puede disminuir la incidencia de infección en el post-operatorio, pero también puede aumentarla (con respecto al grupo control). En esta situación se debe usar la columna de dos colas. Tamaño de la muestra en investigaciones con humanos 97 promedio hasta la mejoría se estimó como clínicamente importante es de dos días (6 para el nuevo antibiótico y 8 para el antibiótico control), con una desviación estándar de dos días. Debido a que se quiso evitar al m á x i m o la posibilidad de un error de tipo I o II, se usó un nivel alfa (dos colas) de 0.01 y un nivel beta de 0.10: expuesto (e igual cantidad en el no expuesto) P 1 : probabilidad de desarrollar la enfermedad (blanco) en los no expuestos. p 2 : probabilidad de desarrollar la enfermedad (blanco) en los expuestos, obtenida de multiplicar P 1 por el RR considerado c o m o útil de detectar. Ejemplo:Se está planeando un estudio para determinar si hay asociación entre exposición a analgésicos y el desarrollo de anemia aplásica. Basado en la literatura, el investigador piensa que la probabilidad de desarrollar anemia aplásica (incidencia) si no se ha estado expuesto a analgésicos antiinflamatorios no esteroideos es del 0.5%. ¿Cuántos pacientes expuestos y no expuestos necesitaría para tener una probabilidad del 80% (poder) de detectar un riesgo relativo de 2 o más usando un nivel alfa de 0.05? En este caso cada grupo deberá contar con 30 pacientes. B. estudios de cohortes: En este tipo de diseño se empieza típicamente con un grupo de individuos expuestos o no expuestos a un factor de riesgo X y sin enfermedad, y se siguen prospectivamente en el tiempo hasta que desarrollan la enfermedad (o el resultado) blanco que se quiere estudiar. La medida de asociación clave en este tipo de estudios es el riesgo relativo (RR). El RR es definido como el riesgo de desarrollar la enfermedad o el resultado que se busca en el grupo expuesto, con respecto al riesgo de desarrollar la enfermedad en el grupo no expuesto a los factores de riesgo identificados. Ejemplo: el riesgo de desarrollar cáncer de pulm ó n es de 9 en 100.000 si la persona fue un fumador moderado, mientras que es sólo de 1 en 100.000 si no lo ha sido. El riesgo de desarrollar cáncer de pulmón si la persona ha fumado, con respecto a no haberlo hecho, es de 9. Dicho de otra manera: es 9 veces más frecuente el desarrollar cáncer de pulm ó n si se ha f u m a d o que si no se ha fumado. Para el cálculo del tamaño de la muestra en este tipo de estudios se necesita estimar: a) El máximo nivel alfa dispuesto a tolerar; b) el máximo nivel beta dispuesto a tolerar; c) el mínimo riesgo relativo considerado como clínicamente útil de detectar; d) la incidencia (probabilidad) de la enfermedad en el grupo no expuesto. La fórmula es: Donde: n: número de pacientes necesarios en el grupo Acta Med Colomb Vol 14 N°2 - 1989 En este caso el investigador deberá conformar dos cohortes de 4.670 personas cada una. c. E s t u d i o s de casos y c o n t r o l e s : En este tipo de diseño se empieza típicamente con un grupo de personas que han sufrido la enfermedad blanco, y un grupo de personas que no la tienen (grupo control, por lo general asignado por el investigador). Retrospectivamente, se determina a qué factores de riesgo estuvieron expuestos ambos grupos, en el lapso considerado como importante por el investigador. La medida de asociación clave en este tipo de estudios es el riesgo relativo (RR), obtenido de manera indirecta (3). Para el Cálculo de tamaño de muestra se necesita estimar: a) El máximo nivel alfa dispuesto a tolerar; b) el máximo nivel beta dispuesto a tolerar; c) el mínimo RR considerado como útil o importante de detectar; d) la prevalencia (probabilidad) de la exposición en el grupo sin enfermedad (controles). La fórmula a usar es similar a las vistas anteriormente (11): R. Dennis 98 Donde: n: número de pacientes necesarios en cada grupo. p 1 : probabilidad de exposición (prevalencia) en el grupo control. p 2 : probabilidad de exposición en los enfermos, calculada del siguiente modo: Ejemplo: U s e m o s la misma situación anterior en el diseño de cohortes. Basado en la literatura, el investigador documenta que la probabilidad de exposición a analgésicos en pacientes sin anemia aplásica (grupo control) en los 15 días anteriores al ingreso, es del 20%. En este caso, p 1 2 0 % Ahora; el investigador debe hacer grupos de 177 pacientes, lo cual, desde el punto de vista de eficiencia y costos, con las probabilidades usadas como ejemplo, indica el diseño de casos y controles en esta situación. LIMITACIONES DE LOS CALCULOS DE TAMAÑOS DE MUESTRAS Las fórmulas enunciadas aquí sólo dan una aproximación (aunque cercana) al número real de pacientes necesarios. La atracción que ejerce una cifra exacta como las que resultan de estas fórmulas, revisten a estos cálculos de un rigor falso que puede prestarse a engaño (6). En lo que sí hay acuerdo en la literatura es que si hay tiempo y los costos lo permiten, es m á s adecuado sobreestimar los cálculos del tamaño de la muestra, y si es el caso, acabar temprano el estudio (3, 6). Para estudios con diseños más sofisticados y de análisis estadístico complicado (estudios con apareo de casos y controles, con más de dos grupos, con diseños de "crossover", o análisis de sobrevida, por citar unos cuantos) deben consultarse libros o artículos especializados sobre el t e m a (2, 3 , 4 ) o idealmente contar con la ayuda de un bioestadístico. En ocasiones, se desea demostrar "equivalencia" de las intervenciones. Calcular tamaños de muestra asumiendo que no hay diferencias entre los grupos resultaría en un n ú m e r o infinito de pacientes, con las fórmulas antes descritas. La estrategia en estos casos es especificar algún valor X, tal que, intervenciones con diferencias entre ellas menores que este valor X puedan ser consideradas "igualmente efectivas" o "equivalentes". El especificar este valor puede ser difícil, pero sin él ningún estudio de este tipo podría ser diseñado (3). Otra forma de enfocar este problema es desde el punto de vista de validación de hipótesis: la hipótesis nula sería que las dos intervenciones difieren en menos de este valor X y la hipótesis alterna sería el demostrar que sí difieren. En la práctica, el investigador usualmente tiene más de una variable en los resultados de los que quisiera sacar conclusiones válidas. Esto es particularmente importante en los estudios de casos y controles en los que se va de "expedición de pesca". Lo indicado en estos casos es calcular el tamaño de la muestra para cada una de estas variables y saber en cuáles tiene poder suficiente para sacar conclusiones valederas (12). ABSTRACT Medical Research in h u m a n beings should be preceded by calculation of the sample size needed to obtain valid results. T h e concepts of alpha error, beta error, power, result variability, and of the minimal difference worth finding, are identified not only as the main factors that justify these calculartions but as elements to be used in easy to follow sample size formulas. REFERENCIAS 1. Freíman JA. T h e importance of Beta, the type II error, and sample size in the design and interpretation of the randomized clinical trial. New Engl J Med 1978; 299: 690-694. Tamaño de la muestra en investigaciones con humanos 99 2. Schlesselman JJ. Case control Studies; Desing, conduct, analysis. New Y o r k : Oxford University Press; 1982: 144-170. for administration of metaproterenol in hospitalized patients. Journal of Asthna 1985; 22: 87-92. 3. Friedman LM, Furberg CD, Demets DL. Fundamentals of clincal trials. 2a ed, Littleton. PSG Publishing Company Inc; 1985: 83-107. 8. Young MS, Bresnitz EA, Strom BL. Sample size nomograms for interpreting negative clinical studies. Ann Int Med 1983; 99:248-251. 4. Fleiss JL. Statistical methods for rates and proportions. 2a ed. New York: John Wiley and Sons;1982 9. Ingelfinger JA, Mosteller F, Thibodeau LA, Ware JH. Biostatistics in clinical medicine. New York: Macmillan Publishing Co Ine; 1983. 5. Galen R, Gambino SR. Beyond normality: The predictive value and efficiency of medical diagnoses. New York: John Wiley & Sons; 1975:2-3. 10. Fletcher RH, Fletcher RH, Wagner EH. Clinical epidemiology the essentials. Baltimore: Williams & Wilkins 1982; 154:17-37. 6. Rothman KJ. Modem Epidemiology. Boston: Little, Brown and Company; 1986: 79-82,115-125. 11. Dobson A J. Calculating sample size. Transactions of the Menzies Foundation 1984; 7 : 7 5 - 7 9 . 7. Berenberg MJ, Baigelman W, Cupples LA, et al. Comparison of metered dose ubgaker attached to and aerochamber with an updraft nebulizer 12. Acta Med Colomb Vol 14 N°2 - 1989 Colton T. Statistics in medicine. Boston: Little, Brown and Company; 1974:147-161.