Clase Nº 4: Error Standard

Anuncio
[Index FAC] [Index CCVC]
Bioingeniería e Informática Médica/Bioengineering- Medical Informatics
Curso: Bioestadística básica para médicos asistenciales
Clase Nº 4: Error Standard
Raul E. Ortego, Carlos R. Secotaro
Index curso - Clase anterior - Clase siguiente
El Error Standard podríamos expresarlo conceptualmente como el error que se puede cometer al intentar
conocer a una Población por una Mue s tra de sí misma.
La frecuencia absoluta de aparición de rangos de glucemias en una Población (están todos, no es una
muestra) de 4600 pacientes No diabéticos fue la siguiente:
Tabla de Resultados
Histograma de frecuencia y polígono de frecuencia
4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology
Conceptos y tipo de variable
Para facilitar la comprensión del ejemplo hemos transformado una variable continua como es la Glucemia
en una cardinal como es el "rango de glucemia".
Lo hemos hecho para que la "localización" de los valores de la variable sea más simple.
Los conceptos sobre las limitaciones (el Error ) de conocer a la población por una muestra se aplican en
los estudios que utilizan variables cualitativas nominales o cardinales, que "cuentan" para obtener la
frecuencia de aparición en cualquiera de sus modalidades. Por supuesto que ocurre lo mismo si se trabaja
con relaciones de las frecuencias obtenidas, como son el "Riesgo o Prevalencia", el "Odds Ratio", etc.
Es conveniente destacar que las "ideas fuerzas" que expondremos a continuación son las mismas
cuando se trabaja con variables cuantitativas continuas o discontinuas.
En la analogía propuesta en este ensayo, se trata del mismo idioma, el mismo lenguaje.
Localización en la "Campana":
Al histograma de frecuencia que se denomina "Campana", lo simplificaremos para trabajar, "colgando" en
cada "localización" el número de "habitantes" de ese valor de la variable allí "alojados" o "ubicados" si se
prefiere.
La línea gruesa vertical que divide a esta "campana" con distribución simétrica en fracciones iguales, es la
línea que ya estudiamos pasando simultánemente por el valor PROMEDIO , por el valor de la MEDIANA y
por el valor del MODO.
No está de más recordar que en cada "localización" se alojan habitantes que comparten la identidad en
cuanto al valor de la variable en el Eje de las X, pero que pertenecen a otras comunidades (Poblaciones).
En este caso, esos otros "ocupantes" en cada "rango", podrían pertenecer a poblaciones de pacientes
Diabéticos y de diversos tipos de Diabetes.
A esos valores de la variable ("individuos") "alojados" en la misma localización que los miembros de la
población en estudio, pero que no pertenecen a ella, los ignoraremos, los discriminaremos, como si no
"existiesen".
4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology
El Azar del Muestreo
Si observa la campana de la población del ejemplo encontrará, a los 4600 "pobladores", la totalidad,
"localizados" según cada valor de la variable de la población.
Observe que los valores en este caso son 7 (siete) rangos, las localizaciones también son 7 (siete), los
pobladores son 4600 distribuídos simétricamente.
Una muestra es una fracción de una población que se obtiene tomando azarosamente a algunos
miembros de la población "muestreada".
Idealmente una muestra sería una "miniatura " de la población. La idea de muestra está concebida
imaginando que la misma es una "copia a escala" de la población.
En el imaginario, la muestra no sólo representa sino que reproduce (a escala) a la población con sus
características de distribución.
En nuestro ejemplo, no necesitamos hacer ningún "cálculo de probabilidades" para saber que una muestra
del 10% de la población (460 pacientes) no será obtenida, si de verdad es por azar, tomando un 10% de
cada "localización". El azar, que garantiza ecuanimidad en la representación; conspira contra la exactitud
de la "copia a escala".
Obtener tal tipo de copia sería "sacar la lotería", es posible pero muy poco probable.
Cantidad y representación
Si por el azar del muestreo la "extracción" no es proporcionalmente idéntica para cada "localización", no
hacen falta fórmulas para intuir que las campanas de diversas muestras no serán iguales entre sí, ni
tampoco una "miniatura" exacta de la población.
Las campanas de las muestras no son un calco entre sí; tampoco la contracción (fracción
proporcional exacta si se prefiere) de la campana de la población.
La muestra "ideal", la "miniatura" o "copia" a escala, en color rojo en el gráfico, es muy útil para
captar algunas ideas que luego se expresarán en el "lenguaje" estadístico.
Las localizaciones con pocos "habitantes" tienen menos probabilidades de obtener representantes en el
muestreo; sin hacer cálculos de probabilidades, sólo observe las flechas punteadas en color rojo
"buscando" representantes y en color celeste la frecuencia de aparición de ese valor en la población y en
la muestra.
No sólo eso, mirando el gráfico, reflexione sobre las chances de lograr "copia exacta" en la
representación si las posibilidades de simplemente "aparecer" ya son escasas.
4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology
Tampoco es necesario un cálculo matemático complejo para percibir que cuanto menor proporción de la
población sea incluída en la muestra (más pequeña la muestra), mayor será el Error en la
Representación de la Población.
Error por muestreo
Comprendida la idea de que la muestra no es una representación "exacta" de la población, debemos
asumir un Error en la representación, un Error por muestreo, en las proyecciones y en las inferencias
que inducimos desde una muestra a su población.
Si la mala noticia es que las muestras tienen ERROR, la buena noticia es que ese error puede ser
calculado con notable precisión.
En los párrafos y gráficos anteriores se explicó la idea de que hay una relación inversa entre tamaño de
la muestra y Error por muestreo.
El concepto "cuanto menor la muestra, mayor el Error" tiene una expresión matemática que la
Estadística incluye en los cálculos de proyección e inferencias.
Error promedio o error standard
En nuestro conocida campana, dejamos la muestra ideal (miniatura) en color negro e incorporamos al
gráfico las imágenes de dos muestras de diferente tamaño. La muestra mayor en color celeste y la
muestra menor en color rojo.
En la población y en cada una de las muestras incluímos la línea vertical que divide en dos fracciones
iguales a cada campana.
Es la línea que contiene a la medida de tendencia central ; la línea que en nuestro intento de
comprensión, asumíamos como referencia de localización o "Km 0".
El gráfico no es "caprichoso" al dibujar cada línea de referencia de localización, la referencia obtenida con
la muestra ideal "miniatura" es coincidente con la medida de tendencia central verdadera, es decir la de
la población. No tiene Error de Muestreo.
Conforme a las ideas que se discutieron previamente, las muestras reales no tendrán la medida de
tendencia central igual a la de la población de origen.
En la realidad hay Error de Muestreo.
La diferencia de la medida de tendencia central de la muestra con la referencia verdadera de la población
dependerá inversamente del tamaño de la muestra.
4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology
En el gráfico, la muestra celeste, más grande, tiene una referencia de localización más próxima a la
verdadera, con menor Error, que la muestra roja, más pequeña.
El Error de muestreo se expresa en el lenguaje estadístico agregando a la medida de tendencia central
de la muestra un valor, calculado teniendo en cuenta el tamaño de la muestra, que informa cuan alejada
está esa referencia de la real de la población.
El valor del Error de la muestra se denomina Error Promedio o Error Standard.
Cálculo del error standard
Conocemos el número que figurará en el denominador de cualquier fórmula que calcule el Error Standard
(ES), será el número de casos analizados, será el tamaño de la muestra en relación inversa al ES.
Nos falta colocar un número en el numerador de la Ecuación que calcule el Error.
En el caso de variables cuantitativas continuas , se utiliza como numerador al Desvío Standard
obtenido en el muestreo.
El Desvío Standard la estudiamos como una medida de distribución; para nosotros, legos, una expresión
de la dispersión de las localizaciones, de la manera en que se ubican con respecto a la línea de referencia
los valores de la variable. En nuestras humildes analogías, entendíamos al Desvío como el "domicilio" del
valor de la variable. En esa idea, el Desvío Standard (DS) o Desvío Promedio, como valor agregado a
la medida de tendencia central (media y/o mediana) informa con la expresión
± DS si las
localizaciones en general están más o menos alejadas de la línea de referencia, del "Km 0" para nuestra
traducción al lenguaje cotidiano.
Una muestra con gran DS, con mucha dispersión de las localizaciones, con amplia distribución si se
prefiere, será más difícil asumirla como representación homogénea (sin error de representación) de una
población, más aún si las inclusiones son azarosas.
Se comprende que para calcular el Error Standard de muestreo, el DS es directamente proporcional al
ES ; DS y ES tienen relación directa ( mayor DS , mayor ES ).
Así se llega a la expresión matemática, en la que "n" es el tamaño de la muestra.
Las razones matemáticas para utilizar como denominador la raíz cuadrada del tamaño de la muestra
escapan a la finalidad de este ensayo, nos basta con entender que tal artilugio aritmético no cambia la
esencia de las ideas que hemos discutido.
Para trabajar matemáticamente con variables cualitativas, la estadística apela al recurso simple de
contar las apariciones (frecuencia de aparición) de cada opción de la variable, ya que contamos
cualidades y no valores cuantitativos.
Obtenidas las frecuencias de aparición en la muestra, la Estadística relaciona estas frecuencias entre sí de
diversas maneras para trabajar con ellas (Riesgo, Odds , etc.)
Estas relaciones o proporciones resultan de referir un número a otro. Ese otro número es el utilizado como
referencia.
Si de Riesgo o Prevalencia se trata, la relación o proporción se construye colocando en el numerador el
número de Eventos contados y en el denominador el número total de referencia, el tamaño de la
muestra . De esta manera se expresa, por ejemplo, que el Riesgo de muerte durante la internación por
Infarto de miocardio (IAM) es de 0.1 o lo que es lo mismo 10% ó 10 / 100 . Con ello se dice que de
cada 100 pacientes internados por IAM se mueren 10 pacientes. En realidad la muestra de estudio fue de
1040 pacientes y la cantidad de pacientes fallecidos fue de 104. El cálculo de 104/1040 arroja como
4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology
resultado 0.1 o sus expresiones porcentuales.
En estos tratamientos matemáticos se capta rápidamente que cuanto mayor sea el tamaño de la
muestra, cuanto más cercano el tamaño de la muestra al total de la población, mayor será la probabilidad
de que la relación hallada sea verdadera, se percibe que el Error de muestreo, el error por
"reclutamiento" azaroso sea menor.
Se ratifica la idea previa, a mayor tamaño de la muestra, menor error.
Estas relaciones proporcionales o, simplemente proporciones, aritméticamente, se calculan utilizando al
tamaño de la muestra como denominador, como referente; luego la proporción hallada tiene relación
inversa con el tamaño de la muestra. En un sentido aritmético estricto, se podría decir que a mayor
tamaño de muestra, menor proporción; "Riesgo" si fuese esa la proporción estudiada. Esto carece de
sentido porque es evidente que a mayor tamaño de la muestra, mayor número de eventos, mayor
numerador; el resultado neto es una proporción más cercana a la verdadera.
En la expresión Riesgo, es mejor como idea interpretar que a mayor tamaño de muestra, menor
Error en la estimación del Riesgo.
Por la construcción matemática del Riesgo, surge que el Error del Riesgo está en relación directa al
valor calculado . En realidad se sigue vinculando al Error con el tamaño de la muestra y de manera
inversa; mayor tamaño de muestra, menor error.
Si "P " es la proporción hallada en la muestra, la ecuación para calcular el Error Estándar (ES) que
utilizan los expertos en Estadística es:
Si repasamos lo expuesto previamente, caemos en la cuenta que el tamaño de la muestra ( n ) aparece
explícito en el denominador y está implícito en el numerador.
Quizás lo único que debamos recordar de esta ecuación para nuestras expresiones idiomáticas estadísticas
es que, para calcular el ES en las relaciones obtenidas con variables cualitativas, el número "llave" es el
tamaño de la muestra; ratificando la idea de que a mayor tamaño de muestra, menor error de
muestreo, menor ES.
Index curso - Clase anterior - Clase siguiente
Publicación: Septiembre 2005
Tope
Preguntas, aportes y comentarios serán respondidos por el relator
o por expertos en el tema a través de la lista de Bioingeniería e Informática Médica
Llene los campos del formulario y oprima el botón "Enviar"
Preguntas, aportes o
comentarios:
4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology
Nombre y apellido:
País: Argentina
Dirección de E-Mail:
Enviar
Borrar
Dr. Diego Esandi
Co-Presidente
Comité Científico
Dra. Silvia Nanfara
Co-Presidente
Comité Científico
Prof. Dr. Armando Pacher
Presidente
Comité Técnico/Organizador
Correo electrónico
Correo electrónico
Correo electrónico
©1994-2005
CETIFAC - Bioingeniería UNER
Webmaster Actualización: 15-sep-05
4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology
Descargar