Clase Nº 7: Intervalo de Confianza Curso: Bioestadística

Anuncio
Bioingenieria e Informatica M édica/Bioengineering- Medical
[Index FAC] [Index CCVC]
Informatics
Curso: Bioestadística básica para m édicos asistenciales
Clase Nº 7: Intervalo de Confianza
Raul E. Ortego, Carlos R. Secotaro
Index curso - Clase anterior - Clase siguiente
En este tema los conceptos se desarrollan también con palabras conocidas, pero acorde a su significado,
en el marco de conversaciones cotidianas, la asociación "suena" ininteligible; por el contrario, en
bioestadística, expresan un concepto muy preciso.
Nos parece que la principal dificultad para entender este tema es que, justamente, se lo aborda desde el
significado habitual de los términos en el lenguaje coloquial.
En el diccionario de nuestras consultas (ibid), intervalo es un espacio o un tiempo que separa dos lugares
o dos momentos. En m úsica tiene una acepción, que aunque esencialmente matemática, no nos ayuda
mucho a nuestros propios intríngulis.
¿A qu é espacio o tiempo está refiriéndose intervalo en bioestadística?
Nuestras analogías sobre "localización" (espacio) de los valores de la variable, tal vez, nos sirvan
también en este caso, ya veremos.
En los coloquios, y para el diccionario (ibid), confianza tiene varias acepciones: "Esperanza firme en
una persona o cosa", "Ánimo, aliento y vigor para obrar", "Familiaridad en el trato". La "cosa" en
bioestadística es un determinado hallazgo.
Por otro lado, una de las acepciones del verbo confiar (ibid) es: "Esperar que ocurra algo". El "algo"
de referencia para la bioestadística es una repetición, un "bis".
Proponemos utilizar para el lenguaje de la Estadística el siguiente significado de confianza: la esperanza
firme en la veracidad de un hallazgo; también es útil la acepción de esperar que ocurra algo
parecido a lo que ya sucedió.
Para ratificar que seguimos dentro de la lengua de Cervantes, quizás en un dialecto en realidad, sugerimos
interpretar el intervalo de confianza como la esperanza de que un fenómeno sucedido se repita
dentro de límites determinados.
En el tema intervalo de confianza (IC) se analiza la probabilidad de que el hallazgo en una sola
muestra no sólo represente, sino que permita identificar (confianza) constantes de la población
de referencia, si no exactamente, al menos aproximadamente (intervalo).
Por una muestra inferir la población
El análisis de muestras es el procedimiento que usa la Estadística para conocer las características de una
población determinada.
Los estadígrafos (funciones de las muestras) son variables y excepcionalmente coincidirán con los
parámetros (funciones de la población). Más aún, en el caso de que Estadígrafos y Parámetros sean
iguales, no se reconocerá esa circunstancia por cuanto los parámetros son desconocidos.
4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology
Asumido que el promedio de una muestra no coincide con el promedio de la población que se desea
conocer (inferir); la estadística apela a procedimientos matemáticos para calcular la probabilidad de que
el promedio de la población
(µ) se ubique dentro de un rango determinado a partir de los estadígrafos hallados.
No est á demás recordar que rango , como vimos en Estadística Descriptiva, es una manera de señalar los
límites de las localizaciones posibles, los límites del intervalo.
El espacio limitado por el rango es un intervalo .
La esperanza de que el promedio poblacional se encuentre en ese rango es el grado, el nivel de
confianza que desea establecer.
La probabilidad con la que se establecen los límites del intervalo es un coeficiente a elegir,
habitualmente se opta por 95% ó 99%.
Los estadígrafos se distribuyen simétricamente alrededor de los parámetros; tanto más cierta esta
afirmación, cuanto más grande sea la muestra.
Si se analizan experiencias con varias muestras, la confianza (esperanza) es que los diversos estadígrafos
se ubicarán en el intervalo calculado con una sola de esas muestras (cualquiera) con una probabilidad
predeterminada (coeficiente elegido).
Quedan así definidos intervalo de confianza y coeficiente de confianza.
La representación no es una reproducción en escala
Trataremos de integrar el IC con ideas y expresiones que ya hemos analizado:
l
l
l
La Distribución Simétrica o "Campana".
El Error Standard (ES) o "Error por Muestreo".
Confianza, esperanza, en que se repitan funciones en sucesivos muestreos.
Utilizaremos nuevamente uno de los gráficos empleados para discutir ES.
En el gráfico está la "campana" de la localización de cada valor de la variable de la población, la
muestra "miniatura" ideal, la muestra roja ó 2 y la muestra celeste ó 1.
Reutilizaremos también uno de los gráficos de la "Probabilidad de pertenecer".
4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology
Este gráfico de distribución simétrica expresa que el 68% ( 34% en cada lado de la campana ) de los
valores de la variable se "localizan" ( y X ) en la campana en el rango del promedio µ ± 1 G
( Desvío Standard ); también se observa que el 95% de ellos ( 47,5% en cada lado de la campana )
se ubican en el rango µ ± 2 G , y en el rango de µ ± 3 G se ubica el 99% (49,5% en cada lado de la
campana). Los expertos suelen manejarse con la "sombra" de la curva denominada "área bajo la
curva" (en relleno rojo del gráfico a la derecha se observa el 99% del " área bajo la curva ")
Sin hacer ningún cálculo se aprecia que los promedios (estadígrafos) de las muestras de las dos
poblaciones de esta comparación (No Diabéticos y Diabéticos) se distribuyen alrededor de sus
respectivos promedios (parámetros) poblacionales.
La distribución de los estadígrafos de las muestras alrededor de los parámetros de su población de
referencia también es prácticamente sim étrica.
Esto parece natural, las muestras no sólo representan, son ellas mismas expresión de fenómenos
biológicos. Tanto más grandes las muestras, cuanto más simétrica cada una de ellas, y m ás simétrica la
distribución de estad ígrafos alrededor de los parámetros.
Proponemos retener estas ideas para comprender el lenguaje:
1.
2.
3.
Las muestras tienen funciones diferentes a la población que representan.
Las muestras de una misma población tienen funciones diferentes entre sí.
Las funciones de muestras de una misma población se distribuyen simétricamente
alrededor de las funciones de la población representada.
Para muestra basta un botón
4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology
Se puede retomar nuestra conocida "campana", por su universalidad, también para una cuestión que
podríamos resumir en una afirmación y una pregunta:
l
l
Los estadígrafos difieren con los parámetros y aún entre sí representando a la misma poblaci ón.
¿Cu ántas muestras analizar para proyectar y/o inferir razonablemente sobre la realidad
de una población?
Veamos lo que sucede cuando superponemos una sola muestra con su promedio y su Desvío
Standard
( ± DS ) sobre su población representada (µ ± G).
El 95% de los valores de la variable de la población que se localizan en la campana se encuentran dentro
del rango
µ ± 2 G.
No hace falta hacer cuentas para percibir que el promedio de una muestra de esa población será un
valor que aunque calculado (virtual) tendrá aproximadamente un 95% de probabilidades de estar dentro
del mismo rango poblacional (µ ± 2G).
En otros términos, analizando 100 muestras, 95 de ellas tendrán un promedio dentro de ese rango
poblacional
(µ ± 2 G).
En la búsqueda de µ
Dado el promedio de una muestra: ¿Qué tan alejado está de el promedio µ de la población?
Se puede intentar una respuesta sólo con el Desvío Standard ( DS) de la muestra.
Será más precisa la respuesta si se corrige ese DS con el tamaño de la muestra (n), a esa corrección del
DS se la denomina Error Standard (ES) y es, como ya hemos visto, una expresión matemática del error
por muestreo .
Si observa el gráfico con las campanas superpuestas de una población con una de sus posibles muestras,
no necesita demasiados cálculos para percibir que el promedio µ se encuentra dentro del rango
de la muestra.
4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology
± 2 DS
Si en lugar de X (un valor de la variable) se emplea el promedio de la muestra
ES, se mantienen las probabilidades de encontrar a µ.
y se reemplaza DS por el
Introducir ES significa hacer participar de los cálculos de Z al tamaño de la muestra (n).
La consecuencia es: "Z" tendrá valores diferentes según se modifique "n".
El valor de "Z" en el cual la probabilidad de aparición de un valor es ± 2.5% (p=0.025) para una
muestra con "n" "grande" es 1.96.
En otros términos, el 95% de los valores de la variable (47,5% a ambos lados de la campana) se
localizarán en el rango " Z" = ± 1.96.
En lenguaje matemático el 95% de los valores posibles de "Z" serán:
En cualquier texto de Estadística se puede comprobar que simplemente despejando términos a partir de
esta "mini" ecuación de "Z" de una muestra "grande" se concluye:
Expresándolo con palabras se puede afirmar que con "Z" = 1.96 se verifica que el promedio de la
población µ se localizará con un 95% de probabilidades en el intervalo.
El intervalo señalado por "Z" = -1.96 y "Z" = +1.96 es el que corresponde en una campana a los
valores de la muestra X de igual valor absoluto y signo opuesto que delimitan el 95% de los valores
aparecidos de la muestra.
Las secuencias algebraicas citadas se pueden ampliar y comprender mejor en el capítulo 10 pag 214 a 220
del libro "Modern Elementary Statistics", Second Edition del Profesor John E. Freund. Editorial Prentice –
Hall, Inc. Englewood Cliffs, N.J. (Prentice – Hall Mathematics Series. Dr Albert A. Bennett, Editor).
Muestra grande – muestra pequeña
En los cálculos aritméticos para despejar al promedio de la población " µ" se trabaja con el Desvío
Standard ( ó G) de la poblaci ón. En realidad ese dato (parámetro) tampoco es conocido; se cuenta con
el estadígrafo Desvío Standard (DS).
Se admite como lógico, y lo confirma la observación, que "DS" se aproxima progresivamente a "G" en la
medida que aumenta el tamaño de la muestra (n).
La corrección del "DS" según "n" lo expresamos como el Error Standard (ES).
En muestras con variables cuantitativas continuas se considera "grande " una muestra cuando "n" es de
30 valores o más; la muestra es pequeña cuando es < 30.
Para nuestra pretensión de poder entender lo que leemos y oímos en trabajos científicos que utilizan estos
conceptos para sustentar conclusiones o "evidencias", quizás nos baste con recordar que con una sola
4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology
muestra se puede inferir con probabilidad conocida, razonablemente, el promedio de la
población de referencia.
Más aún, para memorizar, sugerimos redondear el valor de "Z" de 1.96 a 2 y retener este concepto: El
promedio poblacional µ tiene alrededor de un 95 % de probabilidades de ser un valor de la
variable incluído en el intervalo comprendido entre los valores extremos
.
La salvedad "alrededor de" se origina en que el factor que corrige al ES ya sabemos que no es
siempre exactamente "2" ni tampoco siempre es 1.96 ya que es un valor inconstante
influenciado por el tama ño de la muestra.
En realidad al factor de corrección, que se lo denomina "t", se lo calcula desde una mini ecuación
que tiene las mismas ideas que Z.
El factor de corrección "t" es un valor que depende del tamaño de la muestra (n) o si se prefiere
luego de una sutileza aritm ética (n – 1) de los "grados de libertad".
La distribución t eórica "t" de las muestras o "Theoretical Sampling Distribution" no es otra cosa que
una construcción similar de curvas y tablas como las que vimos al estudiar la "universalidad" de la
"campana", cuando citábamos que se pod ía calcular Z para cualquier distribución simétrica asignando un
valor a µ y otro a G (vimos entonces que se podía hacer con 0 y 1 respectivamente).
En 1908 W. S. Gosset a quien en su empleo le impedían publicar sus investigaciones, optó por hacerlo de
todos modos, pero con el pseudónimo "Student".
"Student" comunicó en esa época las consecuencias del tamaño de las muestras "n" sobre la
distribución. Desde entonces, a la familia de curvas y tablas de distribución investigadas originalmente
para muestras "pequeñas"
(n < 30) pero no limitadas por ese número, se las denomina "Distribución t de Student" o
"Distribución t".
Existen tablas con el valor de "t"; como ejemplos citaremos que para una muestra de 60 valores t = 2, y
que no varía demasiado entre 20 (t = 2.09) y 100 ( t = 1.98).
Por lo expuesto insistimos en la sugerencia de recordar que el promedio de una población se
encuentra con un 95% de probabilidades en el rango del promedio de una de sus muestras ±
"2" ES.
Informes con intervalo de confianza
El sentido de conocer el rango dentro del cual se encuentra el promedio "µ" a partir de los estadígrafos
± DS trasciende a lo meramente acad émico.
Simbolizaremos intervalo de confianza como "IC" agregando a continuación el coeficiente de
confianza elegido, la expresión será, por ejemplo, IC 95.
Un informe expresa que durante el seguimiento a 5 años un determinado tratamiento disminuye la
mortalidad de la cardiopatía isquémica según OR 0.75 (IC 95 0.45 – 1.05).
OR 0.75 (OR<1) señala que mueren 75 pacientes que tienen prescripto el tratamiento referido cada 100
pacientes que mueren sin recibir ese tratamiento.
Est á claro que OR = 1 nos diría que mueren igual número de pacientes con y sin tratamiento; en otros
términos, el tratamiento no caracteriza a una población particular, distinta de la enfermedad original al
inferir diferentes parámetros.
Por el contrario, OR > 1 indicaría que entre los pacientes con ese tratamiento hay más muertes que entre
los pacientes que no lo tienen prescripto. Con palabras populares, que es "peor el remedio que la
enfermedad".
4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology
Intervalo de confianza graficado
Se construye con líneas horizontales expresando el informe con el IC y líneas verticales como referencia
de las cuales la más relevante es la correspondiente a la relación 1 (uno) ya que simboliza la ausencia de
diferencias significativas.
El informe que debemos analizar expresa OR 0.75 (IC 95 0.45 – 1.05)
El intervalo de confianza en este caso agrega al OR de 0.75 que existe una confianza con el 95% de
probabilidades de que la relación real entre la muestra de pacientes que tenía prescripto el tratamiento
estudiado y la muestra de pacientes a los que no se les instituyó, sea un valor de OR localizado en el
intervalo limitado por el rango 0.45 a 1.05.
Se puede expresar la misma idea afirmando que si se repite 100 veces la experiencia, en 95 de ellas se
espera el OR localizado en el intervalo del rango 0.45 -1.05.
No se dice nada diferente si se confía en que existe un 95% de probabilidades de que en sucesivas
investigaciones el OR est é comprendido en el rango 0.45 – 1.05.
La interpretación del IC y el significado estadístico
En Hipótesis de Trabajo aprendimos que para dar significado estadístico a una diferencia entre
muestras, esto es que representan a poblaciones diferentes, se exigía, al menos, un probabilidad
menor al 5% de que la misma fuese casual (p < 0.05).
Con la misma idea en la mente, si confiamos en que con 95 % de probabilidades el OR 0.75
informado representa a una relación entre muestras que se localiza en el intervalo 0.45 – 1.05, va
de suyo que existe más de un 5% de probabilidades de que la relación OR sea > 1 ya que se ubicaría
por dentro de uno de los límites (1.05) del intervalo. OR > 1 significa en términos de interpretación de
la relación entre las muestras exactamente lo contrario de lo que sugiere OR 0.75 (OR < 1).
Con un 95% de confianza en que la relación entre muestras puede ser tanto superior como
inferior a 1 (uno) se concluye que se está frente a una relación casualmente diferente de 1; en
realidad son muestras de una misma población.
En idioma técnico, se confirma la hipótesis nula y se descarta la Hipótesis Alternativa.
Sugerimos que observe nuevamente el Intervalo de Confianza graficado y seguramente coincidirá que con
sólo un "vistazo" descarta la Hipótesis Alternativa y confirma la Nula.
Es el rango del intervalo el que da la confianza en que se trate de muestras de la misma o de
diferentes poblaciones.
Index curso - Clase anterior - Clase siguiente
Publicación: Octubre 2005
4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology
Tope
Preguntas, aportes y comentarios ser án respondidos por el relator
o por expertos en el tema a través de la lista de Bioingenieria e Inform ática Médica
Llene los campos del formulario y oprima el botón "Enviar"
Preguntas, aportes o
comentarios:
Nombre y apellido:
País: Argentina
Dirección de E-Mail:
Enviar
Borrar
Dr. Diego Esandi
Co -Presidente
Comité Científico
Dra. Silvia Nanfara
Co -Presidente
Comité Científico
Prof. Dr. Armando Pacher
Presidente
Comité Técnico/Organizador
Correo electrónico
Correo electrónico
Correo electrónico
©1994-2005
CETIFAC - Bioingenier ía UNER
Webmaster - Actualización: 10-Oct-2005
4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology
Descargar