INTRODUCCIÓN A LA PROBABILIDAD

Anuncio
Métodos Cuantitativos
DISTRIBUCIONES DE PROBABILIDAD
Un modelo probabilístico es un modelo matemático que describe el comportamiento
de una variable aleatoria. Es una función que depende de los valores de la variable
aleatoria, y de otras cantidades que caracterizan a una población en particular y que se
denominan parámetros del modelo.
En el proceso de modelación, es necesario seguir los siguientes pasos:
1. Seleccionar el modelo más apropiado.
2. Ajustar el modelo (calcular el valor de sus parámetros).
3. Verificar el modelo.
4. Decidir su aceptación o volver al paso 1.
Para ejecutar el paso 1, podemos optar por una amplia gama de modelos de
probabilidad, desarrollados para representar distintos tipos de variables y diferentes
fenómenos aleatorios. Por lo tanto, el problema se reduce a elegir el modelo más
apropiado para el caso en estudio.
Para ejecutar el paso 2, es necesario recopilar una muestra representativa de la
población en estudio y calcular las cantidades necesarias como para evaluar los
parámetros del modelo.
Existe una gran variedad de "patrones" o funciones a las que una distribución de datos
se puede ajustar, lo cual depende primero de que el rango de datos pertenezca a una
escala métrica o no-métrica. Las variables no métricas pueden ser aproximadas a
funciones de tipo discreto, como la distribución binomial. Las variables métricas
pueden
aproximarse
a
funciones
funciones
"continuas"
diversas,
como
la
Métodos Cuantitativos
hipergeométrica, la de Poisson, etc. Cada patrón específico de distribución sigue
diferentes supuestos y tiene, por tanto, distintas aplicaciones.
Se menciona el concepto de “aproximar” porque es difícil que en la realidad los datos
sigan exactamente un cierto patrón o función matemática. Sin embargo, estas
aproximaciones nos permiten realizar análisis estadísticos más robustos. Así, una gran
cantidad de distribuciones, directa o indirectamente, siguen un patrón: patrón no
significa una forma exacta.
Distribuciones de Probabilidad
A. Discretas: i) Binomial
ii) Poisson
B. Continuas: i) Distribución Normal
ii) Distribución Hipergeométrica
iii) t de Student
iv) Ji Cuadrada
v) Distribución F
La selección depende, entre otros, de los siguientes factores:

Un adecuado análisis del problema considerado: qué tipo de variable se estudia,
qué fenómeno se desea modelar, etc.

Los resultados de la descripción de los datos disponibles: forma de la distribución,
propiedades de la variable.

La disponibilidad y manejo de un buen número de modelos de probabilidad que
permitan describir diferentes tipos de situaciones.
2
Métodos Cuantitativos
La Distribución Normal
La distribución normal es construida a partir de la distribución de frecuencias relativas
de clase de un grupo de datos. Esto es, se construye a partir del histograma de
proporciones. Una distribución normal es aquella curva que sigue una forma de
"campana", como la que se muestra en la siguiente figura.
Para discernir si una distribución se aproxima o no a una curva normal, es obvio que
no basta con saber si ésta tiene forma de campana o no: otras distribuciones tienen
una forma un tanto parecida, además de que la campana puede tener alturas distintas,
según el tipo de distribución del que se trate. En este caso, la distribución normal tiene
un grupo de características que la describen de forma única:

La curva es totalmente simétrica. Esto es, que si dividimos la gráfica en su
punto medio, el área a la derecha de la curva será exactamente igual (en área y
forma) a la porción de la curva a la izquierda de dicho punto medio.

Dicho punto medio es precisamente en el que coinciden la media, la mediana y
la moda.

Es unimodal. Esto es, tan sólo tiene 1 moda (al centro de la distribución).
3
Métodos Cuantitativos

La unidad base de la curva es la desviación estándar particular para esa
distribución, o puntuaciones "z".

Precisamente utilizando estas unidades "z", o de desviación estándar:
aproximadamente un 68.26% de los datos de la dispersión se encuentran  1
desviación estándar de la media; asimismo, el 95.44% de las observaciones
están contenidas en el rango 2 desviaciones estándar de la media. Por último,
el 97.74% de los datos se encuentran entre la media y tres desviaciones
estándar de ésta, sea a su derecha o a su izquierda.
Hay dos razones básicas que otorgan un valor singular a la distribución normal:
1. Tiene algunas propiedades que la hacen aplicable a un gran número de
situaciones en las que es necesario hacer inferencias mediante la toma de
muestras. La distribución normal es una distribución útil de muestreo.
2. La distribución normal casi se ajusta a las distribuciones de frecuencias reales
observadas en muchos fenómenos, incluyendo características humanas (pesos,
alturas), resultados de procesos físicos (dimensiones y rendimientos) y muchas
otras medidas de interés para los administradores.
3. Para definir una distribución normal de probabilidad necesitamos definir sólo
dos parámetros: la media y la desviación estándar.
4.
No importa cuáles sean los valores de la media y la desviación estándar para
una distribución de probabilidad normal, el área bajo la curva es 1, de manera
que podemos pensar en áreas bajo la curva como si fueran probabilidades.
Estandarización.
Dentro de las características de la distribución normal, se incluían las unidades "z",
como unidad base. Para explicar un poco el concepto de unidad "z", pensemos
primero, ¿cómo es posible comparar dos distribuciones, dos medias, si tienen
dispersiones muy distintas? O, más complicado aún, ¿cómo se comparan -por
ejemplo- la calificación de dos personas en tests de inteligencia distintos, con distinta
4
Métodos Cuantitativos
escala? Para tal fin, existe un procedimiento que se llama estandarización, que
precisamente crea una unidad estándar -llamada "z"- que considera estos factores.
La puntuación "z" transforma las distintas observaciones en unidades de desviación
estándar y, con ello, estandariza una escala de intervalos. Su fórmula es
z
donde
xx
s
X es la puntuación a convertir a unidades estándar,
X
la media, y s la
desviación estándar. Como se ve en la fórmula, el valor "z" tiene como referencias la
media y la desviación estándar de una distribución.
El razonamiento detrás de este proceso:

Radica en crear una nueva distribución de valores estándar ("z"), en donde la
media de esta distribución es cero (punto de referencia de cualquier escala con
rango continuo).

Y donde la unidad de medición de dicha escala es la desviación estándar.
La siguiente figura muestra un gráfico para la distribución que se crea al estandarizar
una distribución. Como se puede apreciar, dicha distribución se comporta tal y como la
distribución normal indica.
5
Métodos Cuantitativos
Gracias a que los datos de una distribución normal se distribuyen de acuerdo a las
reglas anteriormente vistas, podemos crear una unidad de desviación estándar llamada unidad "z"- que considera estos factores. A esto se le conoce como
estandarización y es un proceso casi tan simple como transformar horas a minutos.
La puntuación "z" convierte las distintas observaciones en unidades de desviación
estándar y, con ello, estandariza la escala de intervalos. En el caso de la distribución de
policias y tránsitos del AMCM (ver sesión 2), para convertir cualquier valor de una
distribución (digamos, la edad 21 años), tan sólo restamos esta cantidad a la media y
la dividimos entre la desviación estándar.
z
x  x 21 36.57

 1.4800
s
10.52
Esta observación se encuentra a -1.48 desviaciones estándar de la media que es igual
a cero. Los valores estándarizados de cada una de las observaciones de esta
distribución pueden apreciarse en el siguiente cuadro:
6
Métodos Cuantitativos
X
z
X
z
x
Z
X
z
x
Z
21
-1.4800
28
-0.8146
33
-0.3394
39
0.2310
49
1.1816
21
-1.4800
28
-0.8146
33
-0.3394
39
0.2310
50
1.2766
21
-1.4800
28
-0.8146
33
-0.3394
40
0.3260
51
1.3717
22
-1.3850
29
-0.7196
34
-0.2443
41
0.4211
51
1.3717
22
-1.3850
29
-0.7196
34
-0.2443
41
0.4211
51
1.3717
23
-1.2899
29
-0.7196
34
-0.2443
41
0.4211
52
1.4667
23
-1.2899
29
-0.7196
35
-0.1492
41
0.4211
52
1.4667
23
-1.2899
30
-0.6245
35
-0.1492
42
0.5162
52
1.4667
23
-1.2899
30
-0.6245
35
-0.1492
42
0.5162
53
1.5618
23
-1.2899
30
-0.6245
36
-0.0542
43
0.6112
54
1.6568
24
-1.1949
30
-0.6245
36
-0.0542
44
0.7063
54
1.6568
24
-1.1949
30
-0.6245
36
-0.0542
44
0.7063
56
1.8470
24
-1.1949
30
-0.6245
36
-0.0542
45
0.8013
57
1.9420
25
-1.0998
30
-0.6245
36
-0.0542
45
0.8013
59
2.1321
25
-1.0998
31
-0.5295
36
-0.0542
45
0.8013
59
2.1321
25
-1.0998
31
-0.5295
36
-0.0542
45
0.8013
65
2.7025
26
-1.0048
31
-0.5295
37
0.0409
45
0.8013
26
-1.0048
32
-0.4344
37
0.0409
47
0.9914
26
-1.0048
32
-0.4344
38
0.1359
47
0.9914
27
-0.9097
33
-0.3394
38
0.1359
48
1.0865
Interpreta algunos de estos valores: ¿Qué observaciones se encontrarían a la derecha
de la media y a la misma distancia que aquellos que tienen 21 años de edad? ¿Cómo
puedes verificar las reglas de 68% y 95% vistas anteriormente?
Como ya vimos, el razonamiento detrás de este proceso radica en que se crea una
nueva distribución de valores estándar ("z"), en donde la media de esta distribución es
cero (como punto de referencia, que sin estandarizar es la media) y donde la unidad de
medición de dicha escala es la desviación estándar –por eso se llaman unidades de
desviación estándar.
7
Métodos Cuantitativos
Ejemplo Distribución Normal
Aunque la distribución de las edades de los policías no es exactamente normal,
pensemos por unos momentos que se aproxima a una distribución normal. En el
siguiente Gráfico se puede apreciar el histograma con la curva que describe la
distribución de las edades de los policias y agentes de tránsito del AMCM.
EDAD EN A¥OS CUMPLIDOS
20
Frequency
10
Std. Dev = 10.52
Mean = 36.6
N = 96.00
0
20.0 25.0 30.0 35.0 40.0 45.0 50.0 55.0 60.0 65.0
EDAD EN A¥OS CUMPLIDOS
Como se puede apreciar, la dispersión se ajusta a una curva que tiene forma de
“campana”. Sin embargo, esta curva no se ajusta cabalmente a la curva de la
distribución normal. ¿Por qué? Porque la distribución normal tiene un grupo de
características que la describen de forma única:

La curva de la distribución normal es completamente simétrica. Esto es, que si
dividimos la gráfica en su punto medio, el área a la derecha de la curva será
exactamente igual (en área y forma) a la porción de la curva a la izquierda de
8
Métodos Cuantitativos
dicho punto medio. La distribución de las edades de los policías y agentes de
tránsito la simetría es casi perfecta.

Dicho punto medio es precisamente en el que coinciden la media, la mediana y
la moda. Para el caso de las edades, la media y la mediana son de 36.6 y 35
años, respectivamente, mientras que las modas fueron 30 y 36 años.

Es unimodal. Esto es, tan sólo tiene 1 moda (al centro de la distribución, como
se dijo). La distribución de edades no cumple con esta condición pues tiene dos
modas: 30 y 36 años).
¿Cómo operan las reglas de la distribución normal en términos de la distribución de las
observaciones según las distancias marcadas por la desviación estandar?:

Sin importar cuál sea la dispersión de una variable, en una curva de distribución
normal un 68.26% de los datos se encuentra a  1 desviación estándar del punto en
donde se ubica la media; el 95.44% de las observaciones están contenidas en el
rango 2 desviaciones estándar alrededor de la media. Por último, el 99.72% de los
datos se encuentran entre la media y tres desviaciones estándar de ésta, sea a su
derecha o a su izquierda.

Si la distribución de la variable edad viniera de una distribución normal, con media
igual a 36.6 y desviación estándar igual a 10.52. aproximadamente. Un 68% de los
datos se encontrarán dentro del siguiente rango:
x  (1* )  36.57 10.52  26.05
x  (1* )  36.57  10.52  47.09
Es decir, un 68% de las observaciones se encontrarán entre 26 y 47 años de edad. ¿Se
cumple esto?
9
Métodos Cuantitativos
El número de observaciones entre esas edades es igual a 63. Por lo tanto, 66%
 63 
 
 96 
de las observaciones se encuentran a una desviación estándar.
Asimismo, un 95% de la población de policías y agentes de tránsito debería estar en el
siguiente rango:
x  (2 * )  36.57  21.04  15.5
x  (2 * )  36.57  21.04  57.6
Es decir, un 95% de las observaciones se encontrarán entre 16 y 58 años de edad. ¿Se
cumple esto?
El número de observaciones entre esas edades es igual a 93. Por lo tanto, 97%
 93 
 
 96 
de las observaciones se encuentran a una desviación estándar
Este patrón de normalidad, además de ser común en gran cantidad de datos, permite
el uso de diversas técnicas estadísticas que se verán más adelante. Lo importante es
entender la distribución normal, ya que es un concepto angular para el uso de una
gran gama de herramientas estadísticas útiles tanto en el análisis de los datos como en
la etapa de muestreo.
10
Métodos Cuantitativos
Uso de la tabla de Distribución Normal Estándar
La tabla de distribución de probabilidad normal estándar da los valores de únicamente
la mitad del área bajo la curva normal, empezando con 0,0 en la media. Como la
distribución normal de probabilidad es simétrica, los valores verdaderos para una
mitad de la curva son verdaderos para la otra.
Las tablas estadísticas indican porciones del área bajo la curva normal que están
contenidas dentro de cualquier número de desviaciones estándar (más, menos) a partir
de la media.
No es posible ni necesario tener una tabla distinta para cada curva normal posible. En
lugar de ello, podemos utilizar una distribución de probabilidad normal estándar para
encontrar áreas bajo cualquier curva normal. Con esta tabla podemos determinar el
área o la probabilidad de que la variable aleatoria distribuida normalmente esté dentro
de ciertas distancias a partir de la media. Estas distancias están definidas en términos
de desviaciones estándar.
Para cualquier distribución normal de probabilidad, todos los intervalos que contienen
el mismo número de desviaciones estándar a partir de la media contendrán la misma
fracción del área total bajo la curva para cualquier distribución de probabilidad normal.
Ejercicios
11
Métodos Cuantitativos
1. México y Chile son clasificados en dos evaluaciones distintas de países, en la que
cada una mide el nivel de transparencia de su administración pública. México
obtuvo una calificación de 68 puntos, en donde la calificación promedio del
conjunto de países evaluados fue de 50 puntos, mientras que la desviación
estándar fue de 10. Chile, por su parte, obtuvo un puntaje de 27 en su evaluación,
en el que la media de los países fue 18 y la desviación estándar fue de 6 puntos.
Suponiendo que ambas evaluaciones miden el mismo tipo de transparecia del
sector público, y que ambas distribuciones siguen un patrón de distribución
normal, ¿quién obtuvo un mayor puntaje o clasificación en lo que respecta a
transperencia? ¿México o Chile?
2. Utilizando la tabla de valores "z", encuentre la proporción de observaciones desde
una distribución normal estándar que satisface cada uno de las siguientes
proposiciones:
A.
Z < 2.85
B.
Z > 2.85
C.
Z > -1.66
D.
1.66 < Z < 1.77
3. Usando la tabla de valores "z", encuentre el valor de z que satisfaga de mejor
manera las siguientes condiciones:
A.
El punto z en el que el 25% de las observaciones estén por debajo de él.
B.
El punto z en el que el 40% de las observaciones estén por encima de él.
12
Descargar