Distribuciones normales.

Anuncio
Distribuciones normales.
Cálculo Numérico y Estadística. Grado en Química. U. de Alcalá. Curso 2014-2015.
F. San Segundo.
Función de densidad de la familia de distribuciones normales.
Empezamos recordando un hallazgo fundamental que hemos hecho al nal de la primera parte
de este capítulo. Si tenemos una binomial B(n, p) con n grande (n > 30) y p moderado, de
manera que
μ = n ⋅ p , σ = √−
n−⋅−p−−
⋅−
q,
entonces la curva que aproxima a la binomial es la
grá ca de la función normal:
x−μ
1
− 12 ( σ )
fμ,σ (x) =
−− e
σ√2π
2
Se trata de una familia de curvas, que cambian con los valores de μ y σ:
·
μ indica la posición del máximo de la campana.
·
σ controla la anchura de la campana.
2/15
La distribución normal en GeoGebra.
Una de las mejores maneras de explorar esta familia de curvas normales es usando GeoGebra.
Concretamente, con estos comandos:
mu = Deslizador[-5, 5, 0.05, 0, 200]
sigma = Deslizador[0, 2, 0.05, 0, 200]
sigma = 1
Normal[mu, sigma, x]
RazónEjes[20,3]
Obtendrás un resultado como este:
Puedes descargar un chero con estos comandos en este enlace Más adelante veremos otras
formas de trabajar con las curvas normales en Geogebra y R (ver Tutorial05).
3/15
Regla 68 - 95 - 99.
Esta propiedad, que se cumple para todas las curvas normales señala la conexión que existe
entre todas las funciones de esa familia:
Si X es una variable normal de tipo N(μ, σ) entonces se cumplen estas
aproximaciones (las probabilidades con tres cifras signi cativas):
⎧ P (μ − σ < X < μ + σ) ≈ 0.683,
⎨ P (μ − 2σ < X < μ + 2σ) ≈ 0.955
⎩
P (μ − 3σ < X < μ + 3σ) ≈ 0.997
En resumen, si tenemos una colección de datos con distribución normal, es bastante raro
encontrar un valor que se diferencie de la media en más de una desviación típica (ocurre
menos del 5% de las veces) y es más raro aún encontrar un valor a más de tres desviaciones
típicas de la media (sucede con menos del 1% de los valores).
4/15
Tipi cación.
La razón última por la que ocurre lo anterior es porque todas las variables normales están
relacionadas mediante un cambio de escala. Concretamente:
Si X
∼ N(μ, σ), entonces la variable que se obtiene mediante:
X−μ
Z=
σ
es una variable normal estándar N(0, 1) , que en Estadística siempre
llamamos Z .
Este cambio de escala para obtener el valor de Z a partir del de X se llama tipi cación.
· La regla 68 - 95 - 99, combinada con la tipi cación, nos dice que si al tipi car un valor de una
distribución normal obtenemos un resultado mayor que
considerarse raro.
2 en valor absoluto, el valor puede
· Gracias a ideas como estas y a la omnipresencia de distribuciones normales en la
naturaleza, podemos considerar a Z como una especie de escala universal probabilidad (o de
rareza).
5/15
Ejemplo.
Los resultados de una Marathon dependen de otros factores, aparte del rendimiento de los
atletas: el per l de la prueba, el viento, la humedad del aire, etc. Si quieres comparar los
resultados de dos atletas en dos pruebas, una forma de hacerlo es tipi cando. Por ejemplo,
supongamos que en la Marathon 1 los corredores obtuvieron un tiempo medio de
μ1 = 4.68
horas con una desviación típica de σ1 = 1.01 horas, mientras que en la Marathon 2 el tiempo
medio fue μ2 = 4.43 con una desviación típica σ2 = 1.12 . Dos amigos participaron cada
uno en una de estas dos pruebas y quieren saber quién de ellos lo hizo mejor. El que participo
en la primera prueba obtuvo un tiempo X1
tiempo de X2 = 3.75 .
= 3.91 , mientras que el de la segunda obtuvo un
Suponiendo que los tiempos de los corredores en cada Marathon son
X1 ∼ N(4.68, 1.01)
X2 ∼ N(4.43, 1.12)
y tipi cando,
3.91 − 4.68
≈ −0.762,
1.01
3.75 − 4.43
≈ −0.607,
1.12
Así que, teniendo en cuenta las diferencias entre ambas pruebas, en realidad hizo mejor
carrera el primero de ellos, a pesar de que su tiempo total fue mayor.
6/15
Suma de variables normales independientes.
Ya sabemos que si X1 y X2 son dos variables aleatorias independientes, entonces
μX1 +X2 = μX1 + μX2
y también
2
2 + σ2
σX
=
σ
+
X
X
X2
1
2
1
Pero en el caso de las variables normales, la forma también se conserva: la suma, además, es
también una normal.
Si X1 ∼ N(μ1 , σ1 ) y X2 ∼ N(μ2 , σ2 ), son variables normales
independientes, su suma es de nuevo una variable normal de tipo:
−−−−−−
N(μ1 + μ2 , √σ12 + σ22 ).
Este resultado se generaliza a la suma de
resultado una normal de tipo
k variables normales independientes, que dan como
−−
−−−−−−−−−
2
N(μ1 + ⋯ + μk , √σ1 + ⋯ + σk2 ).
7/15
Problema directo de probabilidad en las distribuciones normales.
La tipi cación hace especialmente importantes los problemas relacionados con la distribución
Z ∼ N(0, 1) . Al trabajar con Z nos vamos a encontrar a menudo con dos tipos de preguntas
concretas. En los que vamos a llamar problemas directos de probabilidad los datos que
tenemos son intervalos de valores de Z , y lo que se quiere averiguar es la probabilidad de que
Z
pertenezca a uno de esos intervalos. Por ejemplo, dados los valores
a, b,
calcular la
probabilidad
P (a < Z < b)
También pueden ser problemas con intervalos no acotados como P (Z
> 3) =??
8/15
Problema inverso de probabilidad en las distribuciones normales.
En cambio, en un problema inverso de probabilidad el dato es la probabilidad, y lo que
queremos averiguar es el valor de Z que de ne un cierto intervalo cuya probabilidad coincide
con la que nos han dado.
Se entiende mejor con un ejemplo. Dada una probabilidad
el que se cumple P (Z
> a) = 0.25? En una
P = 0.25 , ¿cuál es el valor a para
gura:
Problemas directos e inversos en distribuciones normales cualesquiera.
Aunque los hemos descrito en el caso de Z , estos dos tipos de problemas se extienden de
forma natural a otras distribuciones normales. Y como veremos más adelante, también a otras
distribuciones no normales.
9/15
Las distribuciones normales en R. Funciones pnorm, qnorm.
Es importante recordar que R usa siempre por defecto la cola izquierda de las distribuciones
y que, si no se indican media y varianza, R asume que estamos usando Z ∼ N(0, 1) .
· pnorm sirve para resolver problemas directos de probabilidad. Por ejemplo, si
X ∼ N(12, 0.6) y queremos resolver el problema P (X < 13) =?? usaríamos:
pnorm(13, mean = 12, sd = 0.6)
## [1] 0.9522096
X ∼ N(12, 0.6) y queremos
averiguar cuál es el valor k para el que se cumple P (X ≤ K) = 0.9522096 usaríamos
· qnorm sirve para los problemas inversos de probabilidad. Si
qnorm(0.9522096, mean = 12, sd = 0.6)
## [1] 13
Más detalles en la Sección 5 del Tutorial 5.
10/15
Función rnorm.
La función rnorm genera valores aleatorios de una distribución normal y por lo tanto es
extremadamente útil para hacer simulaciones y experimentos.
Por ejemplo, podemos generar
1000
valores de una normal
N(23, 4)
y dibujar su
histograma con este comando:
hist(rnorm(1000, mean = 23, sd = 4), breaks=15, col="orange")
Hay también una función dnorm que sirve para dibujar curvas normales y que vamos a usar
poco o nada en este curso.
11/15
Problemas directos e inversos con normales en GeoGebra.
En GeoGebra disponemos de una forma muy visual de afrontar los dos tipos de problemas,
usando la Calculadora de Probabilidades
Además, disponemos de los comandos Normal y NormalInversa para usar directamente en
la Línea de Entrada o en la Vista Simbólica. Para más detalles nos remitimos a la Sección 4.1 del
Tutorial04.
12/15
Advertencia: no todas las distribuciones son normales.
Hemos visto que las distribuciones binomiales con n grande y p moderado se aproximan
mediante distribuciones normales. Este hecho, junto con la composición celular de muchos
seres vivos y la composición atómica de la materia, permite entender porque muchos
fenómenos naturales parecen comportarse, a escala macroscópica, como si siguieran una
distribución normal.
No obstante, también hay muchos otros fenómenos naturales, asimismo a escala
macroscópica, que no se pueden describir adecuadamente mediante las distribuciones
normales. Debe tenerse siempre en cuenta que las distribuciones normales son muy
simétricas. Y hay muchos casos en los que nos encontraremos con datos que son
inherentemente asimétricos, con sesgos muy de nidos, como en la gura de abajo. Existen
otras distribuciones estadísticas adecuadas para estas situaciones (más detalles en el libro).
13/15
Teorema Central del Límite: la normal para aproximar la binomial.
Recuerda que hemos llegado a las distribuciones normales tratando de aproximar los valores
de binomiales con n grande y p moderado.
Sea X
∼ B(n, p) y sea
μ = n ⋅ p, σ = √−
n−⋅−p−−
⋅−
q
Entonces, siempre que se cumpla
n ⋅ p > 5, n ⋅ q > 5
(si no, la aproximación no es muy
buena),
P (k1 ≤ X ≤ k2 ),
P (k1 − 0.5 ≤ Y ≤ k2 + 0.5) .
· para calcular
P (X = k), la
P (k − 0.5 ≤ Y ≤ k + 0.5) .
· Para
calcular
la aproximación por la normal que usamos es
aproximación
por
la
normal
que
usamos
es
· Para calcular P (X
≤ k), la aproximación por la normal que usamos es P (Y ≤ k + 0.5).
Del mismo modo, para P (X ≥ k), la aproximación por la normal que usamos es
P (Y ≥ k − 0.5)
Puedes ver en el libro (Sección 5.6.2) por que hacemos esos ajustes de 0.5 unidades.
14/15
Ejemplo.
Dada una binomial X
∼ B(320, 0.25) , para calcular la probabilidad
P (70 ≤ X ≤ 90)
−−−−−−−−−−−−−
−−
usamos la normal Y ∼ N(320 ⋅ 0.25, √320 ⋅ 0.25 ⋅ 0.75 ) = N(80, √60 )
y calculamos
P (70 − 0.5 ≤ Y ≤ 90 + 0.5) = P (69.5 ≤ Y ≤ 90.5)
En R esto se obtiene con
pnorm(90.5, mean = 80, sd = sqrt(60)) - pnorm(69.5, mean = 80, sd = sqrt(60))
## [1] 0.8247558
El cálculo directo con la binomial es:
sum(dbinom(70:90, size = 320, prob = 0.25))
## [1] 0.8250121
Así que hemos obtenido cuatro cifras decimales signi cativas, que no está nada mal.
15/15
Descargar