1. Distribución Normal estándar

Anuncio
Distribución Normal estándar y cuadrados mı́nimos
Universidad de Puerto Rico
ESTA 3041
Prof. Héctor D. Torres Aponte
1.
Distribución Normal estándar
En efecto, todas las distribuciones Normales son lo mismo si usamos las unidades de medida σ alrededor de su media µ que es el centro. El proceso para cambiar nuestra distribución
a estas variables se le conoce como estandarización.
Definición 1.1. Si x es una observación de una distribución con media µ y desviación
estándar σ, el valor estandar de x lo es
z=
x−µ
σ
Este valor estándar también se le conoce como valor-z.
El valor-z nos indica cuantas desviaciones estándares está la observación original de si
media y en que dirección. Las observaciones mayores que su media toman valores posı́tivos
cuando se estandarizan mientras los valores que son menores a su media toman valores
negativos.
Ejemplo 1.1. El peso de una bolsa de “papitas” cuya etiqueta indica que es de 9oz es
aproximadamente Normal con µ = 9.12oz y σ = 0.15oz. El peso estándar es
z=
weight − 9.12
0.15
Por ejemplo una bolsa que pese 9.3oz, su peso estandarizado lo es
z=
9.3 − 9.12
= 1.2
0.15
o simplemente 1.2 desviaciones estándar por encima de la media. Similarmente una bolsa
que pese 8.7oz tiene un peso estandarizado de
z=
8.7 − 9.12
= −2.8
0.15
o 2.8 desviaciones por debajo de la media.
Si las variables originales (antes de aplicar el proceso de estandarización) tenı́an una
distribución normal, el proceso de estandarización no brinda una nueva escala (común) y
esta distribución sigue siendo una Normal conocida como distribución Normal estándar.
1
Definición 1.2. La distribución Normal estándar es la distribución Normal N (0, 1) que
tiene media 0 y desviación estándar 1. Si una variable x tiene una distribución Normal
N (µ, σ) entonces la variable estándar lo es
z=
x−µ
σ
y tiene una distribución Normal.
Ejemplo 1.2. ¿Cual es la proporción de todas las bolsas de “papitas” (cuya etiqueta indica
que su peso es de 9oz) que pesan menos de 9.3oz? Utilizando los datos del Ejemplo 1, podemos
decir que esta proporción es el área bajo curva N (9.12, 0.15) a la izquierda del punto 9.3.
Como el peso estándar correspondiente a 9.3 onzas lo es
9.3 − 9.12
x−µ
=
= 1.2
σ
0.15
el área es la misma que el área bajo la curva de la distribución Normal estándar a la izquierda
del punto z = 1.2.
z=
Table entry = 0.8849
z = 1.2
Figura 1: El área bajo la curva Normal estándar a la izquierda del punto z = 1.2
.
Para encontrar este resultado de forma matemática necesitamos cálculo diferencial. Pero,
como no tenemos esa herramienta podemos utilizar unas tablas de valores llamada probabilidades normales estándares.
Definición 1.3 (Proceso para utilizar la tabla Normal estándar).
en términos de la variable observada x.
1. Escriba el problema
2. Estandarizamos a x para re-escribir el problemas en términos de variables Normales
estándares z. Dibujamos un diagrama para mostrar el área bajo la curva que queremos
encontrar.
3. En contramos el área bajo la curva requerida utilizando la tabla Normal estándar que
se encuentra en la contraportada del libro. Note que el área total de esta curva siempre
es 1.
2
Ejemplo 1.3. La tasa de rendimiento anual de ciertas acciones se distribuye aproximadamente Normal. Desde el 1945, la bolsa de valores Standard & Poor’s 500 tiene un rendimiento
anual promedio de 12 % con una desviación estándar de 16.5 %. Se toma esta distribución
Normal para el rendimiento anual por largos periodos. ¿En que proporción de años el mercado
baja?
1. Establecer el problema: Sea x la tasa de rendimiento anual de Standard & Poor’s 500.
La variable x tiene una distribución Normal N (12, 16.5). Queremos saber la proporción
cuando x < 0.
2. Estandarizamos: Restando la media de x y dividiendo por la desviación estándar, obtenemos:
x < 0
x − 12
< 0
16.5
z < −0.73
3. Usamos la tabla: Utilizando la tabla para la distribución Normal estándar podemos ver
que el área es 0.2327. El mercado va bajar anualmente un 23.27 % del tiempo. Note
que el área a la derecha de −0.73 es 1 − 0.2327 = 0.7673. Lo que nos indica que la
bolsa va a estar por encima un 76.73 % del tiempo (Ver Figura 2).
Table entry = 0.2327
Area = 0.7673
z = – 0.73
Figura 2: Área bajo la curva en una curva Normal estandar
Ejemplo 1.4. ¿Que porciento de años tendrı́a un rendimiento anual entre un 12 % y 50 %?
1. Queremos la proporción de los años entre 12 ≤ x ≤ 50.
2. Estandarizamos
12 ≤
12 − 12
≤
16.5
0≤
x
x−12
16.5
z
3
≤ 50
50 − 12
≤
16.5
≤ 2.30
3. Usando la tabla, el área entre 0 y 2.30 es el área por dejabo de 2.30 menos el área por
debajo de 0 Ver Figura 3. De la tabla de distribución obtenemos:
área entre 0 y 2.30 = área debajo de 2.30 − área debajo de 0.00
= 0.9893 − 0.5000 = 0.4893
Alrededor de 40 % de los años tienen un rendimiento anual entre 12 % y 50 %.
Area = 0.5
Area = 0.4893
z=0
z = 2.3
Area = 0.9893
Figura 3: Área bajo la curva Normal estándar para el ejemplo 1.4
4
2.
Regresión lineal y cuadrados mı́nimos
Average amount of gas consumed per day
in hundreds of cubic feet
Definición 2.1. Una linea de regresión es una linea recta que describe como la variable
respuesta y cambia respecto a la variable explicativa x. Usamos la linea de regresión para
predecir los valores de y dado un valor x.
12
11
10
9
8
7
6
5
4
3
2
1
0
0
5 10 15 20 25 30 35 40 45 50
Average number of heating degree-days per day
55
Figura 4: Regresión lineal para el consumo de gas natural de cierta familia.
La fı́gura 4 es un diagrama de disperción para el consumo de gas natural. Vemos que
los datos tienen una relación lineal muy fuerte entre la temperatura y la cantidad promedio
de gas consumido. La correlación es r = 0.9953, vemos que esta es muy cercano a r = 1.
La linea de regresión dibujada en la Figura 4 representa muy bien los datos obtenidos en el
diagrama de dispersión.
Si queremos prenosticar cuanto gas podemos consumir cuando la temperatora está en 20
grados por dı́a entonces tenemos que localizar cuando x = 20, luego nos movemos hacı́a la
linea y vemos el valor de y el cual es aproximadamente 4.9 miles de piés cúbicos de gas en
ese mes.
Obviamente como es una predicción, probablemente tenemos un error. Supongamos que
en el mes que se hizo la predicción realmente consumieron 5.1 miles de piés cúbicos de gas
natural, entonces nuestro error de predicción fue:
error = observación y − predicción y
= 5.1 − 4.9 = 0.2
Es por eso que queremos saber cual es la distancia mı́nima entre los puntos observados y la
linea. La Figura 5 ilustra esta idea.
Definición 2.2. La linea de regresión lineal de cuadrados mı́nimos de y respecto a x es la
linea que representa la suma de los cuadrados de las distancias verticales de los puntos de la
data hasta la linea haciendolos lo mas pequeño posible.
5
Average amount of gas consumed
per day in hundreds of cubic feet
7.0
6.5
predicted ŷ
6.0
distance y – yˆ
5.5
observed y
5.0
4.5
20
22
24
26
28
30
Average number of heating degree-days per day
32
Definición 2.3. Suponga que tenemos data sobre una variable explicativa x y una variable
respuesta y para n individuos. De esta data calculamos la media x̄ y ȳ y las desviaciones
estándares sx y sy de las dos variables y su correlación r. La regresion lineal (cuadrados
mı́nimos) es la linea definida por:
ŷ = b0 + b1 x
con pendiente
b1 = r
sy
sx
e intercepto
b0 = ȳ − b1 x̄
Ejemplo 2.1. La linea de la Figura 4 es en efecto una regresión linear de cuadrados mı́nimos.
Esta linea tiene una ecuación definida como:
ŷ = 1.0892 + 0.1890x
La pendiente de la regresión lineal es siempre importante para interpretar la data. La
pendiente es la tasa de cambio de la cantidad de cambio en ŷ cuando x incrementa por 1.
En este ejemplo b1 = 0.1890 lo que implica a que grado de temperatura adicional aumenta el
consumo por 0.19 miles de piés cúbicos de gas natural.
El intercepto de la regresión lineal es el valor ŷ cuando x = 0. Para la predicción es
bastante sencillo. Si queremos predecir para 20 grados en el dı́a, sustituimos x = 20:
ŷ = 1.0892 + (0.1890) (20)
= 1.0892 + 3.78 = 4.869
6
Datos sobre la regresión lineal
1. La identificación de la variable explicativa y la variable respuesta es algo escencial al
momento de establecer nuestra regresión.
2. Existe una relación entre la correlación y la pendiente de la regresión. La pendiente es
b1 = r
sy
sx
. Esta ecuación nos indica el cambio a travez de la linea de regresión, hay un cambio
de una desviación in x respecto a r desviaciones estándares en y.
3. La linea de regresión siempre pasa por el punto (x̄, ȳ).
7
Descargar