[Index FAC] [Index CCVC] Bioingeniería e Informática Médica/Bioengineering- Medical Informatics Curso: Bioestadística básica para médicos asistenciales Clase Nº 4: Error Standard Raul E. Ortego, Carlos R. Secotaro Index curso - Clase anterior - Clase siguiente El Error Standard podríamos expresarlo conceptualmente como el error que se puede cometer al intentar conocer a una Población por una Mue s tra de sí misma. La frecuencia absoluta de aparición de rangos de glucemias en una Población (están todos, no es una muestra) de 4600 pacientes No diabéticos fue la siguiente: Tabla de Resultados Histograma de frecuencia y polígono de frecuencia 4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology Conceptos y tipo de variable Para facilitar la comprensión del ejemplo hemos transformado una variable continua como es la Glucemia en una cardinal como es el "rango de glucemia". Lo hemos hecho para que la "localización" de los valores de la variable sea más simple. Los conceptos sobre las limitaciones (el Error ) de conocer a la población por una muestra se aplican en los estudios que utilizan variables cualitativas nominales o cardinales, que "cuentan" para obtener la frecuencia de aparición en cualquiera de sus modalidades. Por supuesto que ocurre lo mismo si se trabaja con relaciones de las frecuencias obtenidas, como son el "Riesgo o Prevalencia", el "Odds Ratio", etc. Es conveniente destacar que las "ideas fuerzas" que expondremos a continuación son las mismas cuando se trabaja con variables cuantitativas continuas o discontinuas. En la analogía propuesta en este ensayo, se trata del mismo idioma, el mismo lenguaje. Localización en la "Campana": Al histograma de frecuencia que se denomina "Campana", lo simplificaremos para trabajar, "colgando" en cada "localización" el número de "habitantes" de ese valor de la variable allí "alojados" o "ubicados" si se prefiere. La línea gruesa vertical que divide a esta "campana" con distribución simétrica en fracciones iguales, es la línea que ya estudiamos pasando simultánemente por el valor PROMEDIO , por el valor de la MEDIANA y por el valor del MODO. No está de más recordar que en cada "localización" se alojan habitantes que comparten la identidad en cuanto al valor de la variable en el Eje de las X, pero que pertenecen a otras comunidades (Poblaciones). En este caso, esos otros "ocupantes" en cada "rango", podrían pertenecer a poblaciones de pacientes Diabéticos y de diversos tipos de Diabetes. A esos valores de la variable ("individuos") "alojados" en la misma localización que los miembros de la población en estudio, pero que no pertenecen a ella, los ignoraremos, los discriminaremos, como si no "existiesen". 4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology El Azar del Muestreo Si observa la campana de la población del ejemplo encontrará, a los 4600 "pobladores", la totalidad, "localizados" según cada valor de la variable de la población. Observe que los valores en este caso son 7 (siete) rangos, las localizaciones también son 7 (siete), los pobladores son 4600 distribuídos simétricamente. Una muestra es una fracción de una población que se obtiene tomando azarosamente a algunos miembros de la población "muestreada". Idealmente una muestra sería una "miniatura " de la población. La idea de muestra está concebida imaginando que la misma es una "copia a escala" de la población. En el imaginario, la muestra no sólo representa sino que reproduce (a escala) a la población con sus características de distribución. En nuestro ejemplo, no necesitamos hacer ningún "cálculo de probabilidades" para saber que una muestra del 10% de la población (460 pacientes) no será obtenida, si de verdad es por azar, tomando un 10% de cada "localización". El azar, que garantiza ecuanimidad en la representación; conspira contra la exactitud de la "copia a escala". Obtener tal tipo de copia sería "sacar la lotería", es posible pero muy poco probable. Cantidad y representación Si por el azar del muestreo la "extracción" no es proporcionalmente idéntica para cada "localización", no hacen falta fórmulas para intuir que las campanas de diversas muestras no serán iguales entre sí, ni tampoco una "miniatura" exacta de la población. Las campanas de las muestras no son un calco entre sí; tampoco la contracción (fracción proporcional exacta si se prefiere) de la campana de la población. La muestra "ideal", la "miniatura" o "copia" a escala, en color rojo en el gráfico, es muy útil para captar algunas ideas que luego se expresarán en el "lenguaje" estadístico. Las localizaciones con pocos "habitantes" tienen menos probabilidades de obtener representantes en el muestreo; sin hacer cálculos de probabilidades, sólo observe las flechas punteadas en color rojo "buscando" representantes y en color celeste la frecuencia de aparición de ese valor en la población y en la muestra. No sólo eso, mirando el gráfico, reflexione sobre las chances de lograr "copia exacta" en la representación si las posibilidades de simplemente "aparecer" ya son escasas. 4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology Tampoco es necesario un cálculo matemático complejo para percibir que cuanto menor proporción de la población sea incluída en la muestra (más pequeña la muestra), mayor será el Error en la Representación de la Población. Error por muestreo Comprendida la idea de que la muestra no es una representación "exacta" de la población, debemos asumir un Error en la representación, un Error por muestreo, en las proyecciones y en las inferencias que inducimos desde una muestra a su población. Si la mala noticia es que las muestras tienen ERROR, la buena noticia es que ese error puede ser calculado con notable precisión. En los párrafos y gráficos anteriores se explicó la idea de que hay una relación inversa entre tamaño de la muestra y Error por muestreo. El concepto "cuanto menor la muestra, mayor el Error" tiene una expresión matemática que la Estadística incluye en los cálculos de proyección e inferencias. Error promedio o error standard En nuestro conocida campana, dejamos la muestra ideal (miniatura) en color negro e incorporamos al gráfico las imágenes de dos muestras de diferente tamaño. La muestra mayor en color celeste y la muestra menor en color rojo. En la población y en cada una de las muestras incluímos la línea vertical que divide en dos fracciones iguales a cada campana. Es la línea que contiene a la medida de tendencia central ; la línea que en nuestro intento de comprensión, asumíamos como referencia de localización o "Km 0". El gráfico no es "caprichoso" al dibujar cada línea de referencia de localización, la referencia obtenida con la muestra ideal "miniatura" es coincidente con la medida de tendencia central verdadera, es decir la de la población. No tiene Error de Muestreo. Conforme a las ideas que se discutieron previamente, las muestras reales no tendrán la medida de tendencia central igual a la de la población de origen. En la realidad hay Error de Muestreo. La diferencia de la medida de tendencia central de la muestra con la referencia verdadera de la población dependerá inversamente del tamaño de la muestra. 4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology En el gráfico, la muestra celeste, más grande, tiene una referencia de localización más próxima a la verdadera, con menor Error, que la muestra roja, más pequeña. El Error de muestreo se expresa en el lenguaje estadístico agregando a la medida de tendencia central de la muestra un valor, calculado teniendo en cuenta el tamaño de la muestra, que informa cuan alejada está esa referencia de la real de la población. El valor del Error de la muestra se denomina Error Promedio o Error Standard. Cálculo del error standard Conocemos el número que figurará en el denominador de cualquier fórmula que calcule el Error Standard (ES), será el número de casos analizados, será el tamaño de la muestra en relación inversa al ES. Nos falta colocar un número en el numerador de la Ecuación que calcule el Error. En el caso de variables cuantitativas continuas , se utiliza como numerador al Desvío Standard obtenido en el muestreo. El Desvío Standard la estudiamos como una medida de distribución; para nosotros, legos, una expresión de la dispersión de las localizaciones, de la manera en que se ubican con respecto a la línea de referencia los valores de la variable. En nuestras humildes analogías, entendíamos al Desvío como el "domicilio" del valor de la variable. En esa idea, el Desvío Standard (DS) o Desvío Promedio, como valor agregado a la medida de tendencia central (media y/o mediana) informa con la expresión ± DS si las localizaciones en general están más o menos alejadas de la línea de referencia, del "Km 0" para nuestra traducción al lenguaje cotidiano. Una muestra con gran DS, con mucha dispersión de las localizaciones, con amplia distribución si se prefiere, será más difícil asumirla como representación homogénea (sin error de representación) de una población, más aún si las inclusiones son azarosas. Se comprende que para calcular el Error Standard de muestreo, el DS es directamente proporcional al ES ; DS y ES tienen relación directa ( mayor DS , mayor ES ). Así se llega a la expresión matemática, en la que "n" es el tamaño de la muestra. Las razones matemáticas para utilizar como denominador la raíz cuadrada del tamaño de la muestra escapan a la finalidad de este ensayo, nos basta con entender que tal artilugio aritmético no cambia la esencia de las ideas que hemos discutido. Para trabajar matemáticamente con variables cualitativas, la estadística apela al recurso simple de contar las apariciones (frecuencia de aparición) de cada opción de la variable, ya que contamos cualidades y no valores cuantitativos. Obtenidas las frecuencias de aparición en la muestra, la Estadística relaciona estas frecuencias entre sí de diversas maneras para trabajar con ellas (Riesgo, Odds , etc.) Estas relaciones o proporciones resultan de referir un número a otro. Ese otro número es el utilizado como referencia. Si de Riesgo o Prevalencia se trata, la relación o proporción se construye colocando en el numerador el número de Eventos contados y en el denominador el número total de referencia, el tamaño de la muestra . De esta manera se expresa, por ejemplo, que el Riesgo de muerte durante la internación por Infarto de miocardio (IAM) es de 0.1 o lo que es lo mismo 10% ó 10 / 100 . Con ello se dice que de cada 100 pacientes internados por IAM se mueren 10 pacientes. En realidad la muestra de estudio fue de 1040 pacientes y la cantidad de pacientes fallecidos fue de 104. El cálculo de 104/1040 arroja como 4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology resultado 0.1 o sus expresiones porcentuales. En estos tratamientos matemáticos se capta rápidamente que cuanto mayor sea el tamaño de la muestra, cuanto más cercano el tamaño de la muestra al total de la población, mayor será la probabilidad de que la relación hallada sea verdadera, se percibe que el Error de muestreo, el error por "reclutamiento" azaroso sea menor. Se ratifica la idea previa, a mayor tamaño de la muestra, menor error. Estas relaciones proporcionales o, simplemente proporciones, aritméticamente, se calculan utilizando al tamaño de la muestra como denominador, como referente; luego la proporción hallada tiene relación inversa con el tamaño de la muestra. En un sentido aritmético estricto, se podría decir que a mayor tamaño de muestra, menor proporción; "Riesgo" si fuese esa la proporción estudiada. Esto carece de sentido porque es evidente que a mayor tamaño de la muestra, mayor número de eventos, mayor numerador; el resultado neto es una proporción más cercana a la verdadera. En la expresión Riesgo, es mejor como idea interpretar que a mayor tamaño de muestra, menor Error en la estimación del Riesgo. Por la construcción matemática del Riesgo, surge que el Error del Riesgo está en relación directa al valor calculado . En realidad se sigue vinculando al Error con el tamaño de la muestra y de manera inversa; mayor tamaño de muestra, menor error. Si "P " es la proporción hallada en la muestra, la ecuación para calcular el Error Estándar (ES) que utilizan los expertos en Estadística es: Si repasamos lo expuesto previamente, caemos en la cuenta que el tamaño de la muestra ( n ) aparece explícito en el denominador y está implícito en el numerador. Quizás lo único que debamos recordar de esta ecuación para nuestras expresiones idiomáticas estadísticas es que, para calcular el ES en las relaciones obtenidas con variables cualitativas, el número "llave" es el tamaño de la muestra; ratificando la idea de que a mayor tamaño de muestra, menor error de muestreo, menor ES. Index curso - Clase anterior - Clase siguiente Publicación: Septiembre 2005 Tope Preguntas, aportes y comentarios serán respondidos por el relator o por expertos en el tema a través de la lista de Bioingeniería e Informática Médica Llene los campos del formulario y oprima el botón "Enviar" Preguntas, aportes o comentarios: 4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology Nombre y apellido: País: Argentina Dirección de E-Mail: Enviar Borrar Dr. Diego Esandi Co-Presidente Comité Científico Dra. Silvia Nanfara Co-Presidente Comité Científico Prof. Dr. Armando Pacher Presidente Comité Técnico/Organizador Correo electrónico Correo electrónico Correo electrónico ©1994-2005 CETIFAC - Bioingeniería UNER Webmaster Actualización: 15-sep-05 4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology