1. Distribución Normal estándar

Distribución Normal estándar y cuadrados mı́nimos Universidad de Puerto Rico ESTA 3041 Prof. Héctor D. Torres Aponte 1. Distribución Normal estándar En efecto, todas las distribuciones Normales son lo mismo si usamos las unidades de medida σ alrededor de su media µ que es el centro. El proceso para cambiar nuestra distribución a estas variables se le conoce como estandarización. Definición 1.1. Si x es una observación de una distribución con media µ y desviación estándar σ, el valor estandar de x lo es z= x−µ σ Este valor estándar también se le conoce como valor-z. El valor-z nos indica cuantas desviaciones estándares está la observación original de si media y en que dirección. Las observaciones mayores que su media toman valores posı́tivos cuando se estandarizan mientras los valores que son menores a su media toman valores negativos. Ejemplo 1.1. El peso de una bolsa de “papitas” cuya etiqueta indica que es de 9oz es aproximadamente Normal con µ = 9.12oz y σ = 0.15oz. El peso estándar es z= weight − 9.12 0.15 Por ejemplo una bolsa que pese 9.3oz, su peso estandarizado lo es z= 9.3 − 9.12 = 1.2 0.15 o simplemente 1.2 desviaciones estándar por encima de la media. Similarmente una bolsa que pese 8.7oz tiene un peso estandarizado de z= 8.7 − 9.12 = −2.8 0.15 o 2.8 desviaciones por debajo de la media. Si las variables originales (antes de aplicar el proceso de estandarización) tenı́an una distribución normal, el proceso de estandarización no brinda una nueva escala (común) y esta distribución sigue siendo una Normal conocida como distribución Normal estándar. 1 Definición 1.2. La distribución Normal estándar es la distribución Normal N (0, 1) que tiene media 0 y desviación estándar 1. Si una variable x tiene una distribución Normal N (µ, σ) entonces la variable estándar lo es z= x−µ σ y tiene una distribución Normal. Ejemplo 1.2. ¿Cual es la proporción de todas las bolsas de “papitas” (cuya etiqueta indica que su peso es de 9oz) que pesan menos de 9.3oz? Utilizando los datos del Ejemplo 1, podemos decir que esta proporción es el área bajo curva N (9.12, 0.15) a la izquierda del punto 9.3. Como el peso estándar correspondiente a 9.3 onzas lo es 9.3 − 9.12 x−µ = = 1.2 σ 0.15 el área es la misma que el área bajo la curva de la distribución Normal estándar a la izquierda del punto z = 1.2. z= Table entry = 0.8849 z = 1.2 Figura 1: El área bajo la curva Normal estándar a la izquierda del punto z = 1.2 . Para encontrar este resultado de forma matemática necesitamos cálculo diferencial. Pero, como no tenemos esa herramienta podemos utilizar unas tablas de valores llamada probabilidades normales estándares. Definición 1.3 (Proceso para utilizar la tabla Normal estándar). en términos de la variable observada x. 1. Escriba el problema 2. Estandarizamos a x para re-escribir el problemas en términos de variables Normales estándares z. Dibujamos un diagrama para mostrar el área bajo la curva que queremos encontrar. 3. En contramos el área bajo la curva requerida utilizando la tabla Normal estándar que se encuentra en la contraportada del libro. Note que el área total de esta curva siempre es 1. 2 Ejemplo 1.3. La tasa de rendimiento anual de ciertas acciones se distribuye aproximadamente Normal. Desde el 1945, la bolsa de valores Standard & Poor’s 500 tiene un rendimiento anual promedio de 12 % con una desviación estándar de 16.5 %. Se toma esta distribución Normal para el rendimiento anual por largos periodos. ¿En que proporción de años el mercado baja? 1. Establecer el problema: Sea x la tasa de rendimiento anual de Standard & Poor’s 500. La variable x tiene una distribución Normal N (12, 16.5). Queremos saber la proporción cuando x < 0. 2. Estandarizamos: Restando la media de x y dividiendo por la desviación estándar, obtenemos: x < 0 x − 12 < 0 16.5 z < −0.73 3. Usamos la tabla: Utilizando la tabla para la distribución Normal estándar podemos ver que el área es 0.2327. El mercado va bajar anualmente un 23.27 % del tiempo. Note que el área a la derecha de −0.73 es 1 − 0.2327 = 0.7673. Lo que nos indica que la bolsa va a estar por encima un 76.73 % del tiempo (Ver Figura 2). Table entry = 0.2327 Area = 0.7673 z = – 0.73 Figura 2: Área bajo la curva en una curva Normal estandar Ejemplo 1.4. ¿Que porciento de años tendrı́a un rendimiento anual entre un 12 % y 50 %? 1. Queremos la proporción de los años entre 12 ≤ x ≤ 50. 2. Estandarizamos 12 ≤ 12 − 12 ≤ 16.5 0≤ x x−12 16.5 z 3 ≤ 50 50 − 12 ≤ 16.5 ≤ 2.30 3. Usando la tabla, el área entre 0 y 2.30 es el área por dejabo de 2.30 menos el área por debajo de 0 Ver Figura 3. De la tabla de distribución obtenemos: área entre 0 y 2.30 = área debajo de 2.30 − área debajo de 0.00 = 0.9893 − 0.5000 = 0.4893 Alrededor de 40 % de los años tienen un rendimiento anual entre 12 % y 50 %. Area = 0.5 Area = 0.4893 z=0 z = 2.3 Area = 0.9893 Figura 3: Área bajo la curva Normal estándar para el ejemplo 1.4 4 2. Regresión lineal y cuadrados mı́nimos Average amount of gas consumed per day in hundreds of cubic feet Definición 2.1. Una linea de regresión es una linea recta que describe como la variable respuesta y cambia respecto a la variable explicativa x. Usamos la linea de regresión para predecir los valores de y dado un valor x. 12 11 10 9 8 7 6 5 4 3 2 1 0 0 5 10 15 20 25 30 35 40 45 50 Average number of heating degree-days per day 55 Figura 4: Regresión lineal para el consumo de gas natural de cierta familia. La fı́gura 4 es un diagrama de disperción para el consumo de gas natural. Vemos que los datos tienen una relación lineal muy fuerte entre la temperatura y la cantidad promedio de gas consumido. La correlación es r = 0.9953, vemos que esta es muy cercano a r = 1. La linea de regresión dibujada en la Figura 4 representa muy bien los datos obtenidos en el diagrama de dispersión. Si queremos prenosticar cuanto gas podemos consumir cuando la temperatora está en 20 grados por dı́a entonces tenemos que localizar cuando x = 20, luego nos movemos hacı́a la linea y vemos el valor de y el cual es aproximadamente 4.9 miles de piés cúbicos de gas en ese mes. Obviamente como es una predicción, probablemente tenemos un error. Supongamos que en el mes que se hizo la predicción realmente consumieron 5.1 miles de piés cúbicos de gas natural, entonces nuestro error de predicción fue: error = observación y − predicción y = 5.1 − 4.9 = 0.2 Es por eso que queremos saber cual es la distancia mı́nima entre los puntos observados y la linea. La Figura 5 ilustra esta idea. Definición 2.2. La linea de regresión lineal de cuadrados mı́nimos de y respecto a x es la linea que representa la suma de los cuadrados de las distancias verticales de los puntos de la data hasta la linea haciendolos lo mas pequeño posible. 5 Average amount of gas consumed per day in hundreds of cubic feet 7.0 6.5 predicted ŷ 6.0 distance y – yˆ 5.5 observed y 5.0 4.5 20 22 24 26 28 30 Average number of heating degree-days per day 32 Definición 2.3. Suponga que tenemos data sobre una variable explicativa x y una variable respuesta y para n individuos. De esta data calculamos la media x̄ y ȳ y las desviaciones estándares sx y sy de las dos variables y su correlación r. La regresion lineal (cuadrados mı́nimos) es la linea definida por: ŷ = b0 + b1 x con pendiente b1 = r sy sx e intercepto b0 = ȳ − b1 x̄ Ejemplo 2.1. La linea de la Figura 4 es en efecto una regresión linear de cuadrados mı́nimos. Esta linea tiene una ecuación definida como: ŷ = 1.0892 + 0.1890x La pendiente de la regresión lineal es siempre importante para interpretar la data. La pendiente es la tasa de cambio de la cantidad de cambio en ŷ cuando x incrementa por 1. En este ejemplo b1 = 0.1890 lo que implica a que grado de temperatura adicional aumenta el consumo por 0.19 miles de piés cúbicos de gas natural. El intercepto de la regresión lineal es el valor ŷ cuando x = 0. Para la predicción es bastante sencillo. Si queremos predecir para 20 grados en el dı́a, sustituimos x = 20: ŷ = 1.0892 + (0.1890) (20) = 1.0892 + 3.78 = 4.869 6 Datos sobre la regresión lineal 1. La identificación de la variable explicativa y la variable respuesta es algo escencial al momento de establecer nuestra regresión. 2. Existe una relación entre la correlación y la pendiente de la regresión. La pendiente es b1 = r sy sx . Esta ecuación nos indica el cambio a travez de la linea de regresión, hay un cambio de una desviación in x respecto a r desviaciones estándares en y. 3. La linea de regresión siempre pasa por el punto (x̄, ȳ). 7

1. Distribución Normal estándar

Documentos relacionados

Productos

Apoyo

1. Distribución Normal estándar

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib