Métodos Cuantitativos DISTRIBUCIONES DE PROBABILIDAD Un modelo probabilístico es un modelo matemático que describe el comportamiento de una variable aleatoria. Es una función que depende de los valores de la variable aleatoria, y de otras cantidades que caracterizan a una población en particular y que se denominan parámetros del modelo. En el proceso de modelación, es necesario seguir los siguientes pasos: 1. Seleccionar el modelo más apropiado. 2. Ajustar el modelo (calcular el valor de sus parámetros). 3. Verificar el modelo. 4. Decidir su aceptación o volver al paso 1. Para ejecutar el paso 1, podemos optar por una amplia gama de modelos de probabilidad, desarrollados para representar distintos tipos de variables y diferentes fenómenos aleatorios. Por lo tanto, el problema se reduce a elegir el modelo más apropiado para el caso en estudio. Para ejecutar el paso 2, es necesario recopilar una muestra representativa de la población en estudio y calcular las cantidades necesarias como para evaluar los parámetros del modelo. Existe una gran variedad de "patrones" o funciones a las que una distribución de datos se puede ajustar, lo cual depende primero de que el rango de datos pertenezca a una escala métrica o no-métrica. Las variables no métricas pueden ser aproximadas a funciones de tipo discreto, como la distribución binomial. Las variables métricas pueden aproximarse a funciones funciones "continuas" diversas, como la Métodos Cuantitativos hipergeométrica, la de Poisson, etc. Cada patrón específico de distribución sigue diferentes supuestos y tiene, por tanto, distintas aplicaciones. Se menciona el concepto de “aproximar” porque es difícil que en la realidad los datos sigan exactamente un cierto patrón o función matemática. Sin embargo, estas aproximaciones nos permiten realizar análisis estadísticos más robustos. Así, una gran cantidad de distribuciones, directa o indirectamente, siguen un patrón: patrón no significa una forma exacta. Distribuciones de Probabilidad A. Discretas: i) Binomial ii) Poisson B. Continuas: i) Distribución Normal ii) Distribución Hipergeométrica iii) t de Student iv) Ji Cuadrada v) Distribución F La selección depende, entre otros, de los siguientes factores: Un adecuado análisis del problema considerado: qué tipo de variable se estudia, qué fenómeno se desea modelar, etc. Los resultados de la descripción de los datos disponibles: forma de la distribución, propiedades de la variable. La disponibilidad y manejo de un buen número de modelos de probabilidad que permitan describir diferentes tipos de situaciones. 2 Métodos Cuantitativos La Distribución Normal La distribución normal es construida a partir de la distribución de frecuencias relativas de clase de un grupo de datos. Esto es, se construye a partir del histograma de proporciones. Una distribución normal es aquella curva que sigue una forma de "campana", como la que se muestra en la siguiente figura. Para discernir si una distribución se aproxima o no a una curva normal, es obvio que no basta con saber si ésta tiene forma de campana o no: otras distribuciones tienen una forma un tanto parecida, además de que la campana puede tener alturas distintas, según el tipo de distribución del que se trate. En este caso, la distribución normal tiene un grupo de características que la describen de forma única: La curva es totalmente simétrica. Esto es, que si dividimos la gráfica en su punto medio, el área a la derecha de la curva será exactamente igual (en área y forma) a la porción de la curva a la izquierda de dicho punto medio. Dicho punto medio es precisamente en el que coinciden la media, la mediana y la moda. Es unimodal. Esto es, tan sólo tiene 1 moda (al centro de la distribución). 3 Métodos Cuantitativos La unidad base de la curva es la desviación estándar particular para esa distribución, o puntuaciones "z". Precisamente utilizando estas unidades "z", o de desviación estándar: aproximadamente un 68.26% de los datos de la dispersión se encuentran 1 desviación estándar de la media; asimismo, el 95.44% de las observaciones están contenidas en el rango 2 desviaciones estándar de la media. Por último, el 97.74% de los datos se encuentran entre la media y tres desviaciones estándar de ésta, sea a su derecha o a su izquierda. Hay dos razones básicas que otorgan un valor singular a la distribución normal: 1. Tiene algunas propiedades que la hacen aplicable a un gran número de situaciones en las que es necesario hacer inferencias mediante la toma de muestras. La distribución normal es una distribución útil de muestreo. 2. La distribución normal casi se ajusta a las distribuciones de frecuencias reales observadas en muchos fenómenos, incluyendo características humanas (pesos, alturas), resultados de procesos físicos (dimensiones y rendimientos) y muchas otras medidas de interés para los administradores. 3. Para definir una distribución normal de probabilidad necesitamos definir sólo dos parámetros: la media y la desviación estándar. 4. No importa cuáles sean los valores de la media y la desviación estándar para una distribución de probabilidad normal, el área bajo la curva es 1, de manera que podemos pensar en áreas bajo la curva como si fueran probabilidades. Estandarización. Dentro de las características de la distribución normal, se incluían las unidades "z", como unidad base. Para explicar un poco el concepto de unidad "z", pensemos primero, ¿cómo es posible comparar dos distribuciones, dos medias, si tienen dispersiones muy distintas? O, más complicado aún, ¿cómo se comparan -por ejemplo- la calificación de dos personas en tests de inteligencia distintos, con distinta 4 Métodos Cuantitativos escala? Para tal fin, existe un procedimiento que se llama estandarización, que precisamente crea una unidad estándar -llamada "z"- que considera estos factores. La puntuación "z" transforma las distintas observaciones en unidades de desviación estándar y, con ello, estandariza una escala de intervalos. Su fórmula es z donde xx s X es la puntuación a convertir a unidades estándar, X la media, y s la desviación estándar. Como se ve en la fórmula, el valor "z" tiene como referencias la media y la desviación estándar de una distribución. El razonamiento detrás de este proceso: Radica en crear una nueva distribución de valores estándar ("z"), en donde la media de esta distribución es cero (punto de referencia de cualquier escala con rango continuo). Y donde la unidad de medición de dicha escala es la desviación estándar. La siguiente figura muestra un gráfico para la distribución que se crea al estandarizar una distribución. Como se puede apreciar, dicha distribución se comporta tal y como la distribución normal indica. 5 Métodos Cuantitativos Gracias a que los datos de una distribución normal se distribuyen de acuerdo a las reglas anteriormente vistas, podemos crear una unidad de desviación estándar llamada unidad "z"- que considera estos factores. A esto se le conoce como estandarización y es un proceso casi tan simple como transformar horas a minutos. La puntuación "z" convierte las distintas observaciones en unidades de desviación estándar y, con ello, estandariza la escala de intervalos. En el caso de la distribución de policias y tránsitos del AMCM (ver sesión 2), para convertir cualquier valor de una distribución (digamos, la edad 21 años), tan sólo restamos esta cantidad a la media y la dividimos entre la desviación estándar. z x x 21 36.57 1.4800 s 10.52 Esta observación se encuentra a -1.48 desviaciones estándar de la media que es igual a cero. Los valores estándarizados de cada una de las observaciones de esta distribución pueden apreciarse en el siguiente cuadro: 6 Métodos Cuantitativos X z X z x Z X z x Z 21 -1.4800 28 -0.8146 33 -0.3394 39 0.2310 49 1.1816 21 -1.4800 28 -0.8146 33 -0.3394 39 0.2310 50 1.2766 21 -1.4800 28 -0.8146 33 -0.3394 40 0.3260 51 1.3717 22 -1.3850 29 -0.7196 34 -0.2443 41 0.4211 51 1.3717 22 -1.3850 29 -0.7196 34 -0.2443 41 0.4211 51 1.3717 23 -1.2899 29 -0.7196 34 -0.2443 41 0.4211 52 1.4667 23 -1.2899 29 -0.7196 35 -0.1492 41 0.4211 52 1.4667 23 -1.2899 30 -0.6245 35 -0.1492 42 0.5162 52 1.4667 23 -1.2899 30 -0.6245 35 -0.1492 42 0.5162 53 1.5618 23 -1.2899 30 -0.6245 36 -0.0542 43 0.6112 54 1.6568 24 -1.1949 30 -0.6245 36 -0.0542 44 0.7063 54 1.6568 24 -1.1949 30 -0.6245 36 -0.0542 44 0.7063 56 1.8470 24 -1.1949 30 -0.6245 36 -0.0542 45 0.8013 57 1.9420 25 -1.0998 30 -0.6245 36 -0.0542 45 0.8013 59 2.1321 25 -1.0998 31 -0.5295 36 -0.0542 45 0.8013 59 2.1321 25 -1.0998 31 -0.5295 36 -0.0542 45 0.8013 65 2.7025 26 -1.0048 31 -0.5295 37 0.0409 45 0.8013 26 -1.0048 32 -0.4344 37 0.0409 47 0.9914 26 -1.0048 32 -0.4344 38 0.1359 47 0.9914 27 -0.9097 33 -0.3394 38 0.1359 48 1.0865 Interpreta algunos de estos valores: ¿Qué observaciones se encontrarían a la derecha de la media y a la misma distancia que aquellos que tienen 21 años de edad? ¿Cómo puedes verificar las reglas de 68% y 95% vistas anteriormente? Como ya vimos, el razonamiento detrás de este proceso radica en que se crea una nueva distribución de valores estándar ("z"), en donde la media de esta distribución es cero (como punto de referencia, que sin estandarizar es la media) y donde la unidad de medición de dicha escala es la desviación estándar –por eso se llaman unidades de desviación estándar. 7 Métodos Cuantitativos Ejemplo Distribución Normal Aunque la distribución de las edades de los policías no es exactamente normal, pensemos por unos momentos que se aproxima a una distribución normal. En el siguiente Gráfico se puede apreciar el histograma con la curva que describe la distribución de las edades de los policias y agentes de tránsito del AMCM. EDAD EN A¥OS CUMPLIDOS 20 Frequency 10 Std. Dev = 10.52 Mean = 36.6 N = 96.00 0 20.0 25.0 30.0 35.0 40.0 45.0 50.0 55.0 60.0 65.0 EDAD EN A¥OS CUMPLIDOS Como se puede apreciar, la dispersión se ajusta a una curva que tiene forma de “campana”. Sin embargo, esta curva no se ajusta cabalmente a la curva de la distribución normal. ¿Por qué? Porque la distribución normal tiene un grupo de características que la describen de forma única: La curva de la distribución normal es completamente simétrica. Esto es, que si dividimos la gráfica en su punto medio, el área a la derecha de la curva será exactamente igual (en área y forma) a la porción de la curva a la izquierda de 8 Métodos Cuantitativos dicho punto medio. La distribución de las edades de los policías y agentes de tránsito la simetría es casi perfecta. Dicho punto medio es precisamente en el que coinciden la media, la mediana y la moda. Para el caso de las edades, la media y la mediana son de 36.6 y 35 años, respectivamente, mientras que las modas fueron 30 y 36 años. Es unimodal. Esto es, tan sólo tiene 1 moda (al centro de la distribución, como se dijo). La distribución de edades no cumple con esta condición pues tiene dos modas: 30 y 36 años). ¿Cómo operan las reglas de la distribución normal en términos de la distribución de las observaciones según las distancias marcadas por la desviación estandar?: Sin importar cuál sea la dispersión de una variable, en una curva de distribución normal un 68.26% de los datos se encuentra a 1 desviación estándar del punto en donde se ubica la media; el 95.44% de las observaciones están contenidas en el rango 2 desviaciones estándar alrededor de la media. Por último, el 99.72% de los datos se encuentran entre la media y tres desviaciones estándar de ésta, sea a su derecha o a su izquierda. Si la distribución de la variable edad viniera de una distribución normal, con media igual a 36.6 y desviación estándar igual a 10.52. aproximadamente. Un 68% de los datos se encontrarán dentro del siguiente rango: x (1* ) 36.57 10.52 26.05 x (1* ) 36.57 10.52 47.09 Es decir, un 68% de las observaciones se encontrarán entre 26 y 47 años de edad. ¿Se cumple esto? 9 Métodos Cuantitativos El número de observaciones entre esas edades es igual a 63. Por lo tanto, 66% 63 96 de las observaciones se encuentran a una desviación estándar. Asimismo, un 95% de la población de policías y agentes de tránsito debería estar en el siguiente rango: x (2 * ) 36.57 21.04 15.5 x (2 * ) 36.57 21.04 57.6 Es decir, un 95% de las observaciones se encontrarán entre 16 y 58 años de edad. ¿Se cumple esto? El número de observaciones entre esas edades es igual a 93. Por lo tanto, 97% 93 96 de las observaciones se encuentran a una desviación estándar Este patrón de normalidad, además de ser común en gran cantidad de datos, permite el uso de diversas técnicas estadísticas que se verán más adelante. Lo importante es entender la distribución normal, ya que es un concepto angular para el uso de una gran gama de herramientas estadísticas útiles tanto en el análisis de los datos como en la etapa de muestreo. 10 Métodos Cuantitativos Uso de la tabla de Distribución Normal Estándar La tabla de distribución de probabilidad normal estándar da los valores de únicamente la mitad del área bajo la curva normal, empezando con 0,0 en la media. Como la distribución normal de probabilidad es simétrica, los valores verdaderos para una mitad de la curva son verdaderos para la otra. Las tablas estadísticas indican porciones del área bajo la curva normal que están contenidas dentro de cualquier número de desviaciones estándar (más, menos) a partir de la media. No es posible ni necesario tener una tabla distinta para cada curva normal posible. En lugar de ello, podemos utilizar una distribución de probabilidad normal estándar para encontrar áreas bajo cualquier curva normal. Con esta tabla podemos determinar el área o la probabilidad de que la variable aleatoria distribuida normalmente esté dentro de ciertas distancias a partir de la media. Estas distancias están definidas en términos de desviaciones estándar. Para cualquier distribución normal de probabilidad, todos los intervalos que contienen el mismo número de desviaciones estándar a partir de la media contendrán la misma fracción del área total bajo la curva para cualquier distribución de probabilidad normal. Ejercicios 11 Métodos Cuantitativos 1. México y Chile son clasificados en dos evaluaciones distintas de países, en la que cada una mide el nivel de transparencia de su administración pública. México obtuvo una calificación de 68 puntos, en donde la calificación promedio del conjunto de países evaluados fue de 50 puntos, mientras que la desviación estándar fue de 10. Chile, por su parte, obtuvo un puntaje de 27 en su evaluación, en el que la media de los países fue 18 y la desviación estándar fue de 6 puntos. Suponiendo que ambas evaluaciones miden el mismo tipo de transparecia del sector público, y que ambas distribuciones siguen un patrón de distribución normal, ¿quién obtuvo un mayor puntaje o clasificación en lo que respecta a transperencia? ¿México o Chile? 2. Utilizando la tabla de valores "z", encuentre la proporción de observaciones desde una distribución normal estándar que satisface cada uno de las siguientes proposiciones: A. Z < 2.85 B. Z > 2.85 C. Z > -1.66 D. 1.66 < Z < 1.77 3. Usando la tabla de valores "z", encuentre el valor de z que satisfaga de mejor manera las siguientes condiciones: A. El punto z en el que el 25% de las observaciones estén por debajo de él. B. El punto z en el que el 40% de las observaciones estén por encima de él. 12