Estadística inferencial 2 - Matemáticas en el IES Valle del Oja

Anuncio
Tema 6: ESTADÍSTICA INFERENCIAL. MUESTREO
Profesor: Francisco J. Agudo Garcı́a
Curso 2009 - 2010
Índice
1. Introducción
2
2. Muestreo
3
3. Distribución Normal
5
3.1. Tipificación de la variable . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
3.2. La distribución Binomial se aproxima a la normal . . . . . . . . . . .
7
4. Estimación de Parámetros
8
5. Distribuciones muestrales
8
5.1. Distribución muestral de medias . . . . . . . . . . . . . . . . . . . . . . .
8
5.2. Distribución muestral de proporciones . . . . . . . . . . . . . . . . . . . 10
6. Estimación Puntual
11
7. Intervalos de Probabilidad
12
7.1. Intervalo de probabilidad para la media muestral X
. . . . . . . . . 13
7.2. Intervalo de probabilidad para la proporción muestral p̂ . . . . . . 15
8. Estimación por intervalos
15
8.1. Estimación de la media de una población µ . . . . . . . . . . . . . . . . 16
8.2. Estimación de una proporción p . . . . . . . . . . . . . . . . . . . . . . . . 17
8.3. Error máximo admisible . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
8.4. Tamaño de las muestras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1
Matemáticas Aplicadas a las C.S. II
Estadı́stica inferencial
9. Actividades Finales
19
10.Anexo I: Tabla de la Distribución Normal Estandar
21
11.Anexo II
22
12.Anexo III: La Distribución Binomial
23
1.
Introducción
La palabra Inferir signica: Sacar una consecuencia de una cosa. Sacar consecuencia o deducir una cosa de otra. La estadı́stica es la ciencia o rama de las Matemáticas que se ocupa de
recoger datos, analizarlos y organizarlos, y también de realizar las predicciones que sobre esos
datos puedan deducirse, tiene dos vertientes básicas:
Estadı́stica descriptiva: Básicamente se ocupa de la 1a parte, es decir, a partir de
ciertos datos, analizarlos y organizarlos. Es aquı́ donde tiene sentido calcular la media,
mediana, moda, varianza, desviación tı́pica, etc. Es la parte que estudiamos el año pasado.
Estadı́stica inferencial: Se ocupa de predecir y sacar conclusiones para una población,
tomando como base una muestra (es decir , una parte ) de dicha población. Teniendo en
cuenta que cualquier predicción siempre ha de hacerse bajo un cierto grado de fiabilidad o
confianza. Esta vertiente de la estadı́stica es la que estudiaremos en esta unidad didáctica
y en la siguiente.
En ocasiones el tamaño de la población es muy grande y frecuentemente no es posible estudiar
todos sus elementos (por razones de tiempo, economı́a, etc). Por eso lo que nos interesa es
estudiar una muestra y deducir o inferir las caracterı́sticas de la población a partir de las
caracterı́sticas de la muestra: La estadı́stica Inferencial se ocupa de deducir o inferir las
caracterı́sticas de la población a partir de las de la muestra. Podemos dividir la estadı́stica
inferencial en:
Estadı́stiva Inductiva, cuyo objetivo es estimar los parámetros de una población
• mediante un único valor: estimación puntual
• mediante un intervalo: estimación por intervalos
Estadı́stica Deductiva, cuyo objetivo es comprobar si la información que nos proporciona la muestra permite afirmar o no, una suposición previa (hipótesis) formulada sobre
la población, mediante el contraste de hipótesis que trataremos en la siguiente unidad.
Recordamos algunos términos estadı́sticos:
Población: es el conjunto de elementos objeto del estudio estadı́stico.
Individuo: es cada elemento de la población.
Muestra: es el subconjunto o parte de la muestra que tomamos para hacer el estudio.
IES Mar Serena
2
Curso 09/10
Matemáticas Aplicadas a las C.S. II
Estadı́stica inferencial
Tamaño de la muestra: es el número de individuos que la componen.
Es muy importante distinguir entre los parámetros poblacionales o simplemente parámetros,
que son los ı́ndices centrales, de dispersión , etc, de TODA la población y que en la práctica
no son calculables.
Y los parámetros muestrales o estadı́sticos, que son los ı́ndices centrales, de dispersión,
etc de la muestra, que son los que se calculan para estimar los parámetros.
Los estadı́sticos que más vamos a utilizar son:
La media muestral: x
La desviación tı́pica muestral: s
2.
Muestreo
Ya sabemos que una población es el conjunto de individuos sobre los que hacemos cierto
estudio, y que una muestra es un subconjunto de la población. Es evidente que los resultados
de una determinada encuesta tendrán un mayor grado de fiabilidad si dicha encuesta se realiza
sobre la población completa. Sin embargo, en la mayorı́a de las ocasiones esto no es posible,
debido a múltiples razones, como por ejemplo:
Imposibilidad material Hacer una encuesta a los casi 41 millones de españoles es
imposible, o hacer un estudio sobre la fecha de caducidad de un producto. Si lo hacemos
con todos los productos ¿qué vendemos luego?
Imposibilidad temporal Hacer un estudio sobre la duración de una bombilla. ¿Cuánto
debemos esperar para saberlo?.
Por tanto, es habitual que tengamos que manejarnos con muestras, de modo que es importante saber elegir bien una muestra de la población, una muestra que represente bien a dicha
población y que nos permita con un alto grado de fiabilidad inferir o predecir las caracterı́sticas de la población.
Hay muchas maneras de elegir una muestra de una población, Pero antes de pasar a analizar
dichas formas de extracción de muestras, lo que si hemos de dejar claro es que todas las muestras han de cumplir varias condiciones indispensables.
Es evidente que para que el estudio a realizar sea fiable, hay que cuidar mucho la elección
de la muestra, para que represente en la medida de lo posible a la poblacion de la que se extrae.
Si la muestra está mal elegida, diremos que no es representativa. En este caso, se pueden producir errores imprevistos e incontrolados. Dichos errores se denominan sesgos y diremos que
la muestra está sesgada.
Una de las condiciones para que una muestra sea representativa es que el sistema que se
utilize para elegirla sea aleatorio, es decir, que todos los individuos de la población tengan las
mismas posibilidades de ser elegidos, mientras que si la elección de la muestra es subjetiva, es
probable que resulte sesgada.
Las distintas maneras de elegir una muestra de una población se denominan muestreos y
básicamente hay dos tipos de muestreos:
IES Mar Serena
3
Curso 09/10
Matemáticas Aplicadas a las C.S. II
Estadı́stica inferencial
1. Muestreo no probabilı́stico: El investigador no elige la muestra al azar, sino mediante
determinados criterios subjetivos. Los individuos de la población no tienen la misma
probabilidad de ser incluidos en la muestra.
En este tipo de muestreo suele ser muy escasa la representatividad y por tanto, poco
válidas las inferencias que pueden hacerse.
2. Muestreo probabilı́stico o aleatorio: Es el que se realiza teniendo en cuenta que cada
miembro de la población tiene la misma probabilidad de ser elegido en la muestra. Con
este tipo de muestreo, las muestras suelen ser más representativas, es posible conocer
los errores cometidos y pueden hacerse inferencias estadı́sticas. En este caso podemos
distinguir varios tipos:
Muestreo aleatorio simple: Aquel en el que cada individuo de la población tiene las
mismas posibilidades de salir en la muestra.
Muestreo sistemático: En el que se elige un individuo al azar y a partir de él, a
intervalos constantes, se eligen los demás hasta completar la muestra.
Muestreo estratificado: Se divide la población en clases o estratos y se escoge, aleatoriamente, un número de individuos de cada estrato proporcional al número de componentes de cada estrato.
Muestreo por conglomerados: Si no disponemos de la relación de los elementos de la
población, o de los posibles estratos, no podemos aplicar los muestreos anteriores.
Aquı́ entra el llamado muestreo por conglomerados, donde en lugar de elegir individuos directamente, se eligen unidades más amplias donde se clasifican los elementos
de la población, llamados conglomerados. En cada etapa del muestreo en lugar de
seleccionar elementos al azar seleccionamos conglomerados.
Los conglomerados deben ser tan heterogéneos como la población a estudiar, para
que la represente bien. Luego se elegirı́an algunos de los conglomerados al azar, y
dentro de éstos, analizar todos sus elementos o tomar una muestra aleatoria simple.
No debemos confundir estrato y conglomerado. Un estrato es homogéneo (sus elementos tienen las mismas caracterı́sticas), mientras que un conglomeardo es heterogéneo
(debe representar bien a la población).
En cualquier caso hemos de asumir que un error en el muestreo ocasionará que los
resultados que proporcione la muestra no coincidan o estén alejados de los valores reales de la
población. Pueden darse dos tipos de errores:
Error aleatorio muestral. Para reducir este error hay que aumentar el tamaño de la
muestra.
Error sistemático o Sesgo. Va asociado al proceso de selección de la muestra y se
reduce mejorando esta selección.
Veamos la diferencia de estos muestreos mediante el siguiente ejemplo: Imaginemos que
hemos de recoger una muestra de 20 alumnos de entre los de un 600 instituto.
1
Muestreo aleatorio simple: Elegirı́amos un alumno al azar (probabilidad de elegirlo 600
).
1
Lo devolvemos a la población y se elige otro (probabilidad de elegirlo 600 ), y ası́ hasta
20. Observa que si no devolviésemos al alumno, entonces, la probabilidad de escoger al
1
2o alumno serı́a 599
, y ya no todos tendrı́an la misma probabilidad de ser elegidos. 1 El
problema es que entonces permitimos que se puedan repetir individuos.
1
Recuerda las extracciones con y sin reemplazamiento
IES Mar Serena
4
Curso 09/10
Matemáticas Aplicadas a las C.S. II
Estadı́stica inferencial
Muestreo sistemático: Como hemos de elegir 20 alumnos de 600, es decir, 1 de cada 30,
se procede ası́: Se ordenan los alumnos y se numeran, se elige uno al azar, por ejemplo
el alumno 27, y luego los demás se eligen a partir de este a intervalos de 30 alumnos.
Escogerı́amos por tanto a los alumnos:
27,57,87,117,147,177,207,237,267,297,327,357,387,417,447,477,507,537,567,597
Muestreo estratificado: Como queremos que la muestra sea representativa, lo mejor será conocer cuántos alumnos de cada curso hay, es decir, si hay 200 alumnos de 3o ESO, 150 de
4o ESO, 150 de 1o Bachillerato y 100 de 2o Bachillerato, procederı́amos ası́:
Como de 600 en total hemos de elegir a 20, de 200 de 3o de ESO hemos de elegir x
20
600
=
x
200
−→ x =
4000
600
= 6, 6 ≈ 7 alumnos de 3o ESO
De igual manera, utilizando una regla de tres, podemos calcular los alumnos correspondientes a los demás cursos: 7 alumnos son de 3o , 5 alumnos de 4o , 5 alumnos de 1o
y 3 alumnos de 2o . Por último, para la elección de cada alumno dentro de cada curso
utilizamos el muestreo aleatorio simple.
Muestreo por conglomerados: Para ver este muestreo, hemos de cambiar el ejemplo.
Supongamos que queremos extraer una muestra aleatoria de los estudiantes universitarios
del paı́s. Necesitariamos una lista con todos ellos para poder realizar algún muestreo del
tipo de los 3 anteriores, lo cuál es muy difı́cil de conseguir.
Sin embargo, los estudiantes estan clasificados por Universidades, Facultades y Clases.
Podemos seleccionar en una primera etapa algunas Universidades, después algunas facultades al azar, dentro de las facultades algunas clases y dentro de las clases, algunos
estudiantes por muestreo aleatorio simple. Los conglomerados en cada etapa serı́an las
diferentes Universidades, las diferentes facultades y las diferentes clases.
Como vemos los conglomerados son unidades amplias y heterogéneas.
Ejercicio 1: En una población de 1500 jóvenes, 7500 adultos y 1000 ancianos, se hace
una encuesta a 200 personas para conocer sus actividades de ocio preferidas. Si se utiliza
un muestreo estratificado, ¿qué tamaño muestral corresponde a cada estrato?.
3.
Distribución Normal
En este punto vamos a recordar la distribución de probabilidad normal que es fundamental para comprender los puntos siguientes.
La campana de Gauss, curva de Gauss o curva normal es una función de probabilidad
continua y simétrica, cuyo máximo coincide con la media µ. Esta curva fue descrita por el
matemático alemán Carl F. Gauss, que llegó a ella estudiando los errores que se cometen al
medir reiteradamente una cierta magnitud2 .
2
Al efectuar una misma observación astronómica o geodésica repetidas veces, obtenı́a valores diferentes
debido a errores humanos y a errores de los aparatos de medida. Para resolver este problema formuló la teorı́a
de mı́nimos cuadrados, de gran utilidad práctica.
IES Mar Serena
5
Curso 09/10
Matemáticas Aplicadas a las C.S. II
Estadı́stica inferencial
La gran importancia de esta distribución se debe a la enorme frecuencia con que aparece
en las situaciones más variadas, entre las muchas variables que se distribuyen normalmente
podemos citar:
Caracteres morfológicos como peso, talla, etc
Caracteres fisiológicos, como por ejemplo el efecto de una misma dosis de un fármaco.
Caracteres sociológicos, como por ejemplo el consumo de ciertos productos por individuos
de un mismo grupo humano.
Caracteres fı́sicos, como por ejemplo la resistencia a la rotura de piezas aparentemente
idénticas.
Y en general cualquier caracterı́stica que se obtenga como suma de muchos factores
Figura 1: Distribución Normal µ es la media, σ es la desviación tı́pica
Si X es una variable aleatoria que sigue la Distribución Normal, entonces es suficiente con
conocer su media µ y su desviación tı́pica σ para que quede completamente determinada. Se
dice entonces que X = N (µ, σ).
La distribución Z = N (0, 1) se conoce como normal estandar( µ = 0 y σ = 1 ). Se encuentra
tabulada y resulta sencillo calcular probabilidades que se corresponden con las áreas encerradas
bajo la curva. La tabla la tienes en el epı́grafe Anexo I.
3.1.
Tipificación de la variable
Cuando una variable normal X no sigue la distribución estandar N (0, 1) sino una N (µ, σ)
entonces hay que tipificar la variable, es decir, transformarla en una variable estandar. Para
ello se hace el cambio de variable:
X −µ
Z=
σ
Con lo que el cálculo de probabilidades se reduce a:
P (X ≤ a) = P
IES Mar Serena
X −µ
a−µ
a−µ
≤
=P Z≤
σ
σ
σ
6
Curso 09/10
Matemáticas Aplicadas a las C.S. II
Estadı́stica inferencial
y éstas se encuentran en la tabla.
Por ejemplo, en una distribución X = N (14, 4) hallar P (X ≤ 20)
20 − 14
X − 14
≤
= P (Z ≤ 1, 5) = 0, 9332
P (X ≤ 20) = P
4
4
Como ya habrás observado (y recordarás del curso pasado), en la tabla sólo encontramos los
valores correspondientes a P (Z ≤ a) con a ≥ 0. En los demás casos hemos de usar propiedades
de la curva normal, como la simetrı́a, para llegar al resultado. En el epı́grafe Anexo II tienes
ejemplos de todos los casos posibles.
3.2.
La distribución Binomial se aproxima a la normal
En el curso anterior estudiamos las distribuciones binomiales B(n, p) anexo III. Son distribuciones de probabilidad discretas3 , que responden a la función de probabilidad:
n
r
P (X = k) =
siendo la media µ = n · p y la desviación tı́pica σ =
El cálculo de expresiones de la forma
n
r
!
pk q n−k
√
n · p · q.
!
pk q n−k , resulta muy laborioso y complicado
sobre todo cuando n es grande.
El matemático Abraham de Moivre (1667-1754) demostró el siguiente resultado que, bajo ciertas
condiciones, permite aproximar la distribución binomial por una distribución normal:
Teorema 1 Si X es una variable discreta que sigue la distribución binomial X = B(n, p),
√
entonces la variable X se aproxima a una variable normal Y = N (n · p, n · p · q)
√
B(n, p) ≈ N (n · p, n · p · q)
La bondad de la aproximación4 es mayor cuanto mayor es n y cuanto más próximo está p a 0,5.
Ejercicio 2: Se efectúan 15 lanzamientos de una moneda. Calcula la probabilidad de que:
a)Salgan exactamente 9 caras.
b)Salgan entre 8 y 12 caras, ambas inclusive.
Nota a tener en cuenta: Corrección de Yates
Cuando aproximamos una distribución Binomial mediante una Normal, estamos convirtiendo
una variable discreta en variable continua. Para variables continuas la probabilidad de que
la variable tome un valor fijo es nula, P (X = a) = 0. Para evitar este problema, en la
aproximación de los valores fijos, estos se corrigen sustituyéndolos por un intervalo centrado en
el valor y de amplitud la unidad.
Ası́ para X = a se considera a − 0, 5 ≤ X ≤ a + 0, 5.
Utiliza la corrección de Yates para resolver el ejercicio propuesto.
3
Son aquellas en las que la variable sólo toma un número finito o numerable de valores
Esta aproximación está especialmente indicada cuando n es mayor que 10, ya que las tablas binomiales
ofrecen valores hasta n=10
4
IES Mar Serena
7
Curso 09/10
Matemáticas Aplicadas a las C.S. II
4.
Estadı́stica inferencial
Estimación de Parámetros
Como el objetivo principal de la estadı́stica inferencial es el estudio de la población y realizar
predicciones acerca de ella (pero a partir de una muestra de ella, no de la población entera), en
principio tendremos que estimar los ı́ndices de la población a partir de los ı́ndices correspondientes para la muestra.
En una primera aproximación, parece lógico pensar que si por ejemplo, queremos determinar
la media de una cierta población, si hemos cogido una muestra representativa la media de la
muestra (que es fácilmente calculable porque tenemos los datos) será muy parecida a la de la
población y por tanto nos sirva para estimarla.
Por tanto debemos distinguir entre:
1. Parámetros poblacionales: Que son los ı́ndices centrales y de dispersión que definen a una
población.
Representaremos la media poblacional µ y la desviación tı́pica poblacional σ.
En el caso de proporciones, la proporción de población que tiene una determinada caracterı́stica la denotaremos por p y la proporción que no la cumple por q = 1 − p (como en
la Distribución Binomial)
2. Estadı́sticos poblacionales: Son los ı́ndices centrales y de dispersión que definen a una
muestra.
Representaremos la media muestral por x̄ y la desviación tı́pica muestral por s.
En el caso de proporciones, la proporción de muestra que tiene una determinada caracterı́stica la denotaremos por p̂ y la proporción que no la cumple por q̂ = 1 − p̂.
¿Cuál es el problema de la estimación entonces?. Como vamos a disponer de una muestra, lo
que podemos calcular es x̄ y s (o bien p̂ y q̂), y a partir de estos intentar estimar quienes tienen
que ser µ y σ (o bien p y q), los reales para la población.
Para ello hemos de conocer cuál es la relación entre un estadı́stico y el correspondiente parámetro.
Es necesario conocer la distribución muestral de estos estadı́sticos.
5.
5.1.
Distribuciones muestrales
Distribución muestral de medias
Comenzamos por la situación de obtener conclusiones sobre la media de la población a partir
del estudio de medias obtenidas de las muestras.
Si tenemos una población de parámetros desconocidos µ y σ, y tomamos una muestra, podemos
calcular la media muestral, x¯1 , que tendrá cierta relación con µ.
Podrı́amos tomar otra muestra, de igual tamaño n, y calcular de nuevo su media muestral x¯2 ,
que también estará relacionada con µ.
Ası́ sucesivamente, podemos considerar una variable aleatoria X̄n , que asigna a cada muestra
su media y podemos estudiar entonces su distribución denominada distribución muestral de
medias.
IES Mar Serena
8
Curso 09/10
Matemáticas Aplicadas a las C.S. II
Estadı́stica inferencial
Teorema 2 Si la población sigue una distribución normal N (µ, σ), donde µ y σ son desconocidos, si elegimos todas las muestras de cierto tamaño (n), de forma que sean representativas,
entonces:
La media de las medias muestrales de todas las muestras posibles, es igual a la media
poblacional, es decir:
x¯1 + x¯2 + · · · + x¯k
x̄ =
=µ
k
La desviación tı́pica de las medias muestrales posibles es:
σ
sx̄ = √
n
Conclusión: Las medias de las muestras de tamaño n extraı́das de una población de parámetros
µ y σ , se aproximan por una distribución:
σ
X −→ N µ, √
n
!
siempre que n sea suficientemente grande. En la práctica se considera que n es suficientemente
grande si n ≥ 30.
Notas importantes a tener en cuenta:
1. Este resultado se conoce como Teorema central del lı́mite
2. Si la población es normal, el resultado se cumple para muestras de CUALQUIER tamaño
(incluso menor que 30).
3. En la práctica suele ocurrir que σ es desconocida. En estos casos el resultado sigue siendo
válido aproximando σ por la desviación tı́pica muestral s, siempre que n sea suficientemente grande (n ≥ 100) .
Ejercicio 3: La altura de los estudiantes de cierta población se distribuye según una normal
de media 167 y desviación tı́pica 3,2.
a) Calcula la probabilidad de que un estudiante mida menos de 165 cm.
b) Se toma una muestra de 10 estudiantes. Calcula la probabilidad de que la media muestral
sea menor que 165 cm.
Ejercicio 4: Los pesos de los tornillos que fabrica cierta máquina se distribuyen según una
N (142, 32 , 8, 5) (medidas en gramos). Se toman muestras de 25 tornillos. Calcular:
a) Distribución que siguen las medias de esas muestras.
b) Probabilidad de que una muestra elegida al azar de 25 tornillos tenga un peso medio superior
a 144,6 gramos.
c) La misma pregunta si la muestra es de 100 tornillos.
Ejercicio 5: Una máquina ha fabricado piezas de precisión con un peso medio de 150 gr. y
una desviación tı́pica de 20 gr. Calcular la probabilidad de que una muestra de 80 piezas tenga
un peso medio de más de 155 gr. (Solución: 0’0129)
IES Mar Serena
9
Curso 09/10
Matemáticas Aplicadas a las C.S. II
Estadı́stica inferencial
Ejercicio 6: Sabemos que el gasto mensual en electricidad (por familia) se distribuye normalmente con media 142,32 e y desviación tı́pica 8,5 e.
a) Halla la probabilidad de que una muestra de 25 familias elegidas al azar, tenga un gasto
medio superior a 144,6 e.
b) Realiza el mismo cálculo si la muestra que se toma es de 100 familias.
5.2.
Distribución muestral de proporciones
Cuando en una población estudiamos cierta caracterı́stica que sólo puede tomar dos valores:
sı́ (éxito) o no (fracaso) nos encontramos con la distribución binomial.
Nos planteamos ahora determinar qué proporción de una población posee un cierto atributo,
por ejemplo si es fumador o no fumador, si tiene ordenador o no, si tiene alergia o no,etc... El
estudio de este tipo de proporciones es equiparable al de una distribución binomial (donde sólo
hay dos posibilidades).
Cada una de las muestras que extraigamos tendrá un porcentaje de individuos con esa misma
caracterı́stica.
Llamamos p al parámetro poblacional, que es la proporción de uno de los valores que presenta
la variable aleatoria en la población y q al parámetro poblacional para el otro valor (q = 1 − p).
Si extraemos muestras de tamaño n, para cada muestra tendremos un estadı́stico proporción
muestral que llamamos p̂ .
La distribución que asocia a cada muestra su proporción es la distribución muestral de
proporciones. Como para poblaciones grandes sabemos que la binomial se aproxima a una
normal, aplicando razonamientos similares a los del apartado anterior se tiene el siguiente:
Teorema 3 Las proporciones muestrales de tamaño n ≥ 30, extraı́das de una población en la
que la probabilidad de éxito es p, se ajustan a una normal
r
N p,
p·q
n
En la práctica se considera que la aproximación es buena para n ≥ 30, n · p ≥ 5 y
n · q ≥ 5.
En la práctica habitualmente ocurre que las proporciones poblacionales p y q son desconocidas. En estos casos se aproximan por las respectivas de una muestra p̂. Esto se puede
hacer por ser p̂ un estimador insesgado, como veremos en el epı́grafe siguiente.
Ejercicio 7: Una fábrica de pasteles fabrica, en su producción habitual, un 3 % de pasteles
defectuosos. Un cliente recibe un pedido de 500 pasteles de la fábrica.
a) Probabilidad de que encuentre más del 5 % de pasteles defectuosos.
b) Probabilidad de que encuentre menos de un 1 % de pasteles defectuosos.
Ejercicio 8: De una población de 120 alumnos, hay 48 que tienen 2 o más hermanos. Si de
dicha población se toman muestras de tamaño 40.
a) ¿Qué distribución siguen las proporciones muestrales?.
b) ¿Cuál es la probabilidad de que se encuentre en dicha muestra una proporción de más del
IES Mar Serena
10
Curso 09/10
Matemáticas Aplicadas a las C.S. II
Estadı́stica inferencial
55 % de alumnos con 2 o más hermanos?.
Ejercicio 9: En un saco mezclamos judı́as blancas y pintas en la relación de 14 blancas por
cada pinta. Extraemos un puñado de 100 judı́as. Calcula la probabilidad de que la proporción
de judı́as pintas esté comprendida entre 0,05 y 0,1.
Ejercicio 10: Una población está formada por los elementos 1, 2, 4 y 6
a) Obtén todas las muestras con reemplazamiento de tamaño 2 y calcula la proporción de cifras
pares de cada muestra.
b) Calcula la media y la desviación tı́pica de la distribución muestral de proporciones.
c) Compara los resultados con los que conocemos teóricamente (Teorema 3).
6.
Estimación Puntual
Comenzamos este tema estudiando la teorı́a de muestras y hemos visto cómo la estadı́stica inferencial trata de inferir información sobre una población, utilizando muestras extraidas
aleatoriamente de esa población.
Dentro de la estadı́stica inferencial está la estadı́stica inductiva, que trata de estimar
parámetros poblacionales a partir de sus correspondientes estadı́sticos muestrales.
Esta estimación puede hacerse de dos formas:
Estimación puntual
Estimación por intervalos
Por ejemplo si decimos que la estatura media de los españoles es de 1,75 m. estamos haciendo
una estimación puntual, mientras que si decimos que la estatura media está entre 1,72 y 1,78
m. estamos haciendo una estimación por intervalos.
Por tanto la estimación puntual consiste en estimar mediante un único valor el parámetro
poblacional desconocido.
Las estimaciones puntuales son más precisas que las estimaciones por intervalos, que veremos
en el epı́grafe 8, sin embargo, son menos fiables.
En la estimación puntual el estadı́stico que usamos para la estimación se llama estimador
puntual. Éstos pueden ser:
Insesgados: Si la media de la distribución muestral del estadı́stico coincide con su correspondiente parámetro poblacional.
Según hemos visto en el punto anterior:
• La media muestral x̂ es un estimador insesgado de la media poblacional µ
• La proporción muestral p̂ es un estimador insesgado de la proporción poblacional p
Sesgados: Si la media de la distribución muestral del estadı́stico NO coincide con su
correspondiente parámetro poblacional.
En general siempre debemos escoger estimadores insesgados
5
5
Si hay más de un estimador insesgado para un mismo parámetro, se escoge el más eficiente, en el sentido
de que su distribución muestral tenga menos dispersión
IES Mar Serena
11
Curso 09/10
Matemáticas Aplicadas a las C.S. II
7.
Estadı́stica inferencial
Intervalos de Probabilidad
En una variable normal cualquiera N (µ, σ), se verifica que:
1. En el intervalo (µ − σ, µ + σ) está el 68’26 % de la población.
2. En el intervalo (µ − 2 · σ, µ + 2 · σ) está el 95’44 % de la población.
3. En el intervalo (µ − 3 · σ, µ + 3 · σ) está el 99’74 % de la población.
Figura 2: Porcentajes de población en los diferentes intervalos simétricos de la normal estandar
N (0, 1).
Es evidente que a medida que el intervalo se amplı́a, hay mayor porcentaje de la población en
él. En general, dado un porcentaje del N % , siempre es posible encontrar un intervalo simétrico
respecto de la media de forma que dicho intervalo contenga a dicho porcentaje de población.
Más explicitamente, se denomina intervalo de probabilidad a aquel intervalo para el cuál se
sabe que hay una seguridad del N % de que los parámetros muestrales (x̄ o p̂) se encuentren en
dicho intervalo. La seguridad N viene fijada previamente.
Se denomina Nivel de confianza al número:
1−α=
N
100
y llamaremos Nivel de significación al valor α.
Nota: El nivel de confianza vendrá explicitado en las condiciones del problema, por ejemplo:
Si queremos que el 85 % de la población esté en el intervalo, el nivel de confianza será 1 − α =
85
= 0, 85 mientras que el nivel de significación será α = 0,15.
100
IES Mar Serena
12
Curso 09/10
Matemáticas Aplicadas a las C.S. II
7.1.
Estadı́stica inferencial
Intervalo de probabilidad para la media muestral X
Si la población sigue una distribución de parámetros µ y σ, y las muestras son de tamaño
n ≥ 30 (o bien la población es normal y las muestras pueden ser de cualquier tamaño), sabemos
que la media muestral x̄ sigue una distribución:


σ
X −→ N µ, √ 
n
Se trata de encontrar el valor de k como en la figura:
Figura 3: Buscamos el valor de k que deje en el intervalo (µ − k, µ + k) al (1 − α) · 100 % de la
población.
Razonemos ahora sobre la normal Z −→ N (0, 1) que es la que se encuentra tabulada:
Si queremos que el intervalo buscado contenga a la media muestral con una confianza de
1 − α, entonces fuera del intervalo el área tiene que ser de α, y como la curva es simétrica, en
α
cada una de las ramas fuera de la región sombreada tenemos un área de 2 .
Llamaremos
z α2
al punto situado en eje x que separa la región sombreada de la otra.
Figura 4: En la tabla de la N (0, 1) buscamos el valor z α2 de modo que en el intervalo (−z α2 , z α2 )
esté el (1 − α) % de la población.
IES Mar Serena
13
Curso 09/10
Matemáticas Aplicadas a las C.S. II
N
Ahora bien,
este valor corresponde
µ , √σn debemos tipificar:
Estadı́stica inferencial
a una Normal N (0, 1), como nosotros manejamos una
k−µ
√σ
n
= z α2
Y despejando encontramos el valor buscado:
σ
k = µ + √ · z α2
n
De modo que, dado el nivel de significación α o el de confianza 1 − α, podemos determinar el
intervalo de probabilidad para la media muestral, que será:


σ
σ
µ − √ · z α , µ + √ · z α 
n 2
n 2
Veamos algún ejemplo:
Sabiendo que la población de recién nacidos sigue una normal de media µ=3100 gr. y desviación
tipica σ=150 gr.Calcular el intervalo de probabilidad con un nivel de confianza del 95 % para la
media de una muestra de 100 recién nacidos.
Solución: Para un nivel de confianza del 95 %, el nivel de significación es α = 0.05 y en cada
zona fuera de la región queda α2 = 0.025 Debemos buscar en la tabla de la N (0, 1) el valor
z0,025 , es decir, el valor que deja a su derecha un área de 0.025
P (Z ≥ z0,025 ) = 0,025 =⇒ P (Z ≤ z0,025 ) = 0,975 =⇒ z0,025 = 1,96
|
{z
mira en la tabla
}
Figura 5: Obtención del valor z para un nivel de confianza del 95 %
Sabemos que la media muestral sigue una distribución:
150
N 3100 , √
100
!
Por tanto el intervalo buscado es :
150
150
3100 − 1,96 · √
, 3100 + 1,96 · √
100
100
IES Mar Serena
14
!
= (3070,6 , 3129,4)
Curso 09/10
Matemáticas Aplicadas a las C.S. II
Estadı́stica inferencial
Esto significa que el 95 % de las muestras de tamaño 100 tendrá su media comprendida entre
estos dos valores: (3070,6 , 3129,4).
Nota: Como n es 100 ≥ 30 el resultado también serı́a cierto incluso si el peso de los recien
nacidos fuera una variable que no siguiera una distribución normal.
Ejercicio 11:
Las notas de una población de 150 alumnos siguen una distribución de media 5,5 y varianza
σ 2 = 4,1616. Extraemos muestras de tamaño 36. Calcula el intervalo de probabilidad para un
nivel de confianza del: a)75 % b) 86’64 %, e interpreta los resultados.
7.2.
Intervalo de probabilidad para la proporción muestral p̂
Razonando de manera análoga podemos llegar a obtener un intervalo para la proporción
muestral p̂ con un nivel de significación α.
p·q
p·q
, p + z α2 ·
p − z α2 ·
n
n
s
s
!
donde p y q son las proporciones poblacionales y n ≥ 30.
Ejercicio 12:
Sabiendo que la proporción de alumnos con teléfono móvil de una población de 120 alumnos
es de p = 0, 7. Halla el intervalo de probabilidad para la proporción de:
a) las muestras de tamaño 30 con una confianza del 75 %.
b) las muestras de tamaño 49 con una confianza del 90 %.
c) las muestras de tamaño 49 con una confianza del 99 %.
8.
Estimación por intervalos
Si queremos estimar la estatura de un jugador de baloncesto y decimos “1,85 metros” estamos haciendo una estimación puntual que no dice nada sobre la seguridad o duda de que esto
sea cierto, sin embargo si decimos: “estoy casi seguro que mide entre 1,80 y 1,90”, entonces
tenemos un cierto grado de confianza de que eso sea cierto.
Es por esto que la estimación puntual se utiliza poco, pues no tenemos datos suficientes
que nos indiquen el grado de fiabilidad del dato muestral que hemos tomado. Lo que tiene
más sentido plantearse es cúal es la probabilidad de que la media o proporción poblacional
pertenezcan a un intervalo determinado.
Logicaménte cuanto mayor sea el intervalo mayor será el grado de confianza que podamos
tener, aunque tambien será mayor el error que cometamos al hacer la estimación.
IES Mar Serena
15
Curso 09/10
Matemáticas Aplicadas a las C.S. II
8.1.
Estadı́stica inferencial
Estimación de la media de una población µ
La media µ de una población es desconocida y deseamos conocerla. Para ello, basándonos
en los intervalos de probabilidad, sabemos que si la población tiene parámetros µ y σ, la media
muestral x̄ sigue una distribución:


σ
X −→ N µ, √ 
n
siendo n el tamaño de la muestra.
Sabemos también que el intervalo de probabilidad para x̄ con un nivel de confianza (1 − α) es:


σ
σ
µ − √ · z α , µ + √ · z α 
n 2
n 2
De donde se tiene que:
σ
σ
µ − √ · z α2 ≤ x̄ ≤ µ + √ · z α2
n
n
Ahora despejando µ en la primera desigualdad:
σ
µ ≤ x̄ + √ · z α2
n
y despejando en la segunda desigualdad:
σ
µ ≥ x̄ − √ · z α2
n
Por lo que:
σ
σ
x̄ − √ · z α2 ≤ µ ≤ x̄ + √ · z α2
n
n
Conclusión: El intervalo de confianza para la media µ desconocida es:


σ
σ
x̄ − √ · z α , x̄ + √ · z α 
n 2
n 2
Notas:
Este resultado es cierto siempre que tengamos la certeza de que la población objeto de
estudio sigue la distribución normal, o bien, que el tamaño de las muestras sea suficientemente grande (n ≥ 30). Recuerda el teorema2.
Cuando la desviación tı́pica poblacional σ es desconocida, en su lugar se usa la desviación
tı́pica muestral s, con lo que el intervalo queda:


s
s
x̄ − √ · z α , x̄ + √ · z α 
n 2
n 2
σ
Al valor √n se le llama Error tı́pico
IES Mar Serena
16
Curso 09/10
Matemáticas Aplicadas a las C.S. II
Estadı́stica inferencial
Ejercicio 13: Para estimar la media de los resultados que obtendrı́an al resolver un cierto test
los alumnos de 4o de E.S.O. de la Comunidad de Andalucı́a, se les pasa el test a 400 alumnos
escogidos al azar, con los resultados de la siguiente tabla:
Puntuación
1
2
3
4
5
Número de alumnos
24
80
132
101
163
Estima con un nivel de confianza del 95 % el valor de la media poblacional.
Ejercicio 14: De una variable estadı́stica conocemos la desviación tı́pica 8, pero desconocemos la media. Para estimarla, extraemos una muestra de tamaño 60 cuya media es 37. Estimar
la media poblacional con una confianza del 99 %.
8.2.
Estimación de una proporción p
Si para una poblacion se desconoce la proporción p de individuos que poseen cierta propiedad,
y deseamos dar un intervalo de confianza para el valor de p, como el intervalo de probabilidad
para la proporción muestral, p̂ , para el nivel de confianza 1 − α en una muestra de tamaño n
es:
s
s
!
p·q
p·q
, p + z α2 ·
n
n
p − z α2 ·
Razonando igual que en el caso anterior encontramos que el intervalo de confianza para p con
un nivel de significación α es:
p·q
p·q
p̂ − z α2 ·
, p̂ + z α2 ·
n
n
s
s
!
Y como además no se conocen ni p ni q se utilizan en su lugar p̂ y q̂, quedando:


p̂
− z α2 ·
v
u
u p̂
t
· q̂
, p̂ + z α2 ·
n
v
u
u p̂
t

· q̂ 

n
Notas:
Para poder aplicar este resultado es necesario que n ≥ 30
Habitualmente en las encuestas se suele utilizar esta fórmula con el valor p = q = 0, 50
porque es la situación más desfavorable.
Ejercicio 15: Determina el intervalo de confianza, con una significación del 0,05 para la proporción poblacional de fumadores entre los jóvenes menores de 18 años, a partir de una muestra
de tamaño 900, cuando no se conocen valores de p anteriores. Considera los dos casos anteriores (usando p̂ y usando p = q = 0, 5). La proporción de fumadores en la encuesta ha sido de
p̂ = 0, 3.
IES Mar Serena
17
Curso 09/10
Matemáticas Aplicadas a las C.S. II
8.3.
Estadı́stica inferencial
Error máximo admisible
Al estudiar los intervalos de confianza hemos visto que su amplitud depende del factor:
σ
z ·√
n
α
2
r
z ·
o
α
2
En el caso de la media se tiene:
| µ − x̄ |= z α2 ·
√σ
n
En el caso de la proporción:
| p − p̂ |= z α2 ·
q
p·q
n
p·q
n
Se llama Error máximo admisible para la estimación de medias o de proporciones, respectivamente a:
r
σ
p·q
α
α
E = z2 · √
o
E = z2 ·
n
n
Observamos que:
El error es mayor al aumentar el nivel de confianza, ya que el valor z α2 aumenta como
podemos observar en la tabla:
Confianza = 1 − α
0,90
0,95
0,99
z α2
1,645
1,960
2,575
Al aumentar
el tamaño muestral n disminuimos el error porque dividimos por un número
√
mayor: n
Por tanto: Para reducir el error no hay que aumentar la confianza, sino el tamaño
de la muestra elegida.
8.4.
Tamaño de las muestras
Hemos visto que el tamaño de las muestras n es inversamente proporcional al error admisible
E. A partir de la expresión del error admisible podemos despejar el valor del tamaño de la
muestra n:
Para la estimación de medias:
n =
Zα · σ 2
2
E
n =
Para la estimación de proporciones:
Z 2α · p · q
2
E2
Ejercicio 16: Al medir un tiempo de reacción, un psicólogo sabe que la desviación tı́pica
del mismo es 0,5 segundos. ¿Cuál es el número de medidas que deberá realizar para que con
una confianza del 99 %, el error de estimación no exceda de 0,1 segundos?.
IES Mar Serena
18
Curso 09/10
Matemáticas Aplicadas a las C.S. II
Estadı́stica inferencial
Ejercicio 17: Se sabe que el tiempo de dedicación de los jóvenes al ocio sigue una distribución normal de media 400 minutos y desviación tı́pica 63 minutos. Halla el tamaño mı́nimo de
la muestra de jóvenes que garantiza con una probabilidad de 0,95 que el tiempo medio de ocio
está entre 382 y 418 minutos.
Ejercicio 18: Para 96 familias españolas elegidas al azar se ha determinado que la TV
permanece encendida en la casa una media de 217 minutos diarios, la desviación tı́pica de la
muestra fue de 40 minutos.
a) Para una fiabilidad del 95 % ¿qué error se asume cuando se da por bueno ese dato para el
total de las familias españolas?.
b) ¿Qué tamaño muestral serı́a necesario para reducir ese error a la mitad?.
NOTA IMPORTANTE
Diferencia entre intervalos de probabilidad y de confianza
En un intervalo de probabilidad lo que conocemos es la media y desviación tı́pica poblacionales, y damos el intervalo donde se encontrará (para un cierto nivel de confianza) la media
muestral o la proporción muestral.
Sin embargo, en un intervalo de confianza entramos ya en el terreno de la estimación, es
decir:
NO conocemos la media poblacional (y en ocasiones tampoco la desviación tı́pica poblacional)
ni la proporción poblacional , sino que sólo conocemos, o podemos calcular, la media muestral
o la proporción muestral, y de lo que se trata es de dar un intervalo en el que se encuentre la
media poblacional (o la proporción poblacional).
9.
Actividades Finales
1. Supongamos que una población se compone de niños de edades 2, 3, 6, 8 y 11 años.
Considera todas las muestras posibles de 3 niños (con reemplazamiento) que pueden
formarse. Halla:
a) La media y la desviación tı́pica de la población.
b) La media y la desviación tı́pica de la distribución muestral de medias.
c) ¿Qué relación hay entre los resultados obtenidos en a) y b) ?
2. Suponiendo que las puntuaciones de un test de inteligencia se distribuyen según una
Normal N(100,15).
a) Calcula la probabilidad de que una muestra de tamaño 49, extraida de esa población,
tenga una media inferior a 98.
b) Calcula la probabilidad de que una muestra de tamaño 81, extraida de esa población,
tenga una media superior a 105.
IES Mar Serena
19
Curso 09/10
Matemáticas Aplicadas a las C.S. II
Estadı́stica inferencial
3. Se supone que la estatura de los jóvenes de 18 años de cierta población sigue una distribución normal de media 162 cm y desviación tı́pica 12 cm. En una muestra tomada al
azar de 100 de esos jóvenes:
a) ¿Cuál es la probabilidad de que la media esté entre 159 y 165 cm?.
b) ¿Cuántos de esos jóvenes tienen su estatura entre esos valores?.
4. En una determinada población se sabe que el 20 % de las personas usan gafas graduadas
y el resto no. Tomamos una muestra de 256 personas. ¿Cuál es la probabilidad de que el
porcentaje de personas encuestadas que usan gafas esté entre el 15 % y el 25 %?
5. En una muestra aleatoria de 1000 personas, están a favor de que el ministerio de economı́a
mantenga la presión fiscal el 65 %. Halla el intervalo de confianza del 99 % para la proporción.
En una encuesta realizada un año antes habı́a resultado un 68 % favorable al mantenimiento de la presión fiscal, ¿cae este valor dentro del margen de confianza de la nueva
encuesta?.¿Qué podemos decir sobre el cambio de opinión de la población de un año a
otro?
6. Se sabe que la desviación tı́pica del peso de los individuos de cierta población es 6 kg.
Calcula el tamaño de la muestra que se ha de considerar para, con un nivel de confianza
del 95 %, estimar el peso medio con un error inferior a 1 kg.
7. En una encuesta de opinión, durante una campaña electoral en una ciudad, se preguntó a
una muestra aleatoria de 400 personas a cuál de los dos candidatos pensaban votar.
Declararon 160 que votarı́an a un determinado partido. Obtén un estimador puntual y un
intervalo de confianza del 95 % para la proporción de ciudadanos que votará a ese partido
en las elecciones.
8. La edad media de esperanza de vida de una población es 50 años, con una desviación
tı́pica de 10 años. Una compañı́a de seguros quiere determinar el tamaño de una muestra
para que la estimación difiera del valor 50 en al menos 2 % de este valor, tomando como
nivel de confianza el 95 %. Calcula el tamaño de dicha muestra.
9. Deseamos conocer el número de personas mayores de edad, que serı́a necesario incluir en
una muestra nacional, para estimar su proporción con un error de E=0,04 y un nivel de
confianza del 99,73 %. Se dispone de un valor p = 0, 45 del último censo.
10. La desviación tı́pica de los habitantes de cierto paı́s es 10 cm. Calcula el tamaño mı́nimo
que ha de tener una muestra de habitantes de dicho paı́s para que el error cometido al
estimar la altura media sea inferior a 1 cm con un nivel de significación α = 1 %.
11. La estatura media de los niños de 10 años en España es de 135 cm, con una varianza de
64 cm2 . Calcula el tamaño de muestra necesario para que el intervalo de confianza al 95 %
de la media muestral tenga una amplitud de 2 cm.
12. Según una encuesta electoral, la intención de voto a cierto partido polı́tico está entre el
42 % y el 48 %. Se trata de un intervalo de confianza, pero en la ficha técnica no aparece
el nivel de confianza, sólo aparece el tamaño de la muestra n = 1056 individuos. Obtén
el nivel de confianza.
IES Mar Serena
20
Curso 09/10
Matemáticas Aplicadas a las C.S. II
10.
Estadı́stica inferencial
Anexo I: Tabla de la Distribución Normal Estandar
IES Mar Serena
21
Curso 09/10
Matemáticas Aplicadas a las C.S. II
11.
Estadı́stica inferencial
Anexo II
IES Mar Serena
22
Curso 09/10
Matemáticas Aplicadas a las C.S. II
12.
Estadı́stica inferencial
Anexo III: La Distribución Binomial
Se conoce como experimento de Bernouilli a un experimento aleatorio que sólo tiene
dos resultados posibles, que son complementarios entre sı́ y se denominan: éxito y fracaso.
Consideramos un experimento aleatorio con las siguientes caracterı́sticas:
1. Cada prueba del experimento es una prueba de Bernouilli, es decir, sólo son posibles dos
resultados: el suceso A (éxito) y su contrario A (fracaso).
2. El resultado obtenido en cada prueba es independiente de los resultados obtenidos en
las pruebas anteriores.
3. La probabilidad del suceso A es siempre constante y no varı́a de una prueba a otra.
P (A) = p y P (A) = q = 1 − p.
Definimos la variable aleatoria X como el número de éxitos obtenidos en n pruebas. Entonces
X es una variable aleatoria discreta que sigue la denominada como distribución de probabilidad binomial.
Una distribución binomial queda caracterizada por dos parámetros: El número de pruebas realizadas n y la probabilidad del suceso éxito p y se representa por B(n,p).
IES Mar Serena
23
Curso 09/10
Descargar