estadistica_aplicada_teoria-PPT.pdf

Anuncio
CAPÍTULO 1:
INTRODUCCIÓN Y CONCEPTOS
FUNDAMENTALES
1
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 1: INTRODUCCIÓN Y CONCEPTOS
FUNDAMENTALES
1.1 Conceptos fundamentales de estadística
1.2 Estadística descriptiva
1.3 Conceptos elementales de probabilidad
2
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 1: INTRODUCCIÓN Y CONCEPTOS
FUNDAMENTALES
1.1 Conceptos fundamentales de estadística
• Situaciones deterministas y aleatorias.
• El modelo matemático. Concepto de probabilidad y estadística.
• Aplicaciones a las Ciencias Experimentales
• ¿Cómo se resuelve un problema utilizando la Estadística? Ejemplo:
Leyes de Mendel.
• Población y muestra. Cómo seleccionar una muestra aleatoria.
3
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA
Situaciones deterministas y aleatorias
¿Podrías predecir con certeza qué ocurrirá con el agua
cuando alcance los 100º C?
¿Sabrías determinar el tiempo que le costará a un
caballito de un tiovivo dar una vuelta completa?
¿Podrías predecir el sexo de un niño en el primer mes de
gestación?
Se está experimentando una nueva planta de tomate
¿podrías determinar el número de frutos que dará cada
una de las plantas en una temporada?
4
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA
Situaciones deterministas y aleatorias
Los fenómenos determinísticos son aquellos tales que, dado el
estado inicial y las condiciones de realización, se puede predecir
el estado final.
Los fenómenos aleatorios o estocásticos son aquellos tales que,
dado el estado inicial y las condiciones de realización, no se
puede predecir el estado final.
5
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA
Situaciones deterministas y aleatorias
Para los fenómenos determinísticos es posible encontrar modelos
que los representen de forma exacta dado un conjunto de
condiciones iniciales a la realización del experimento.
espacio recorrido  velocidad  tiempo
Para los fenómenos aleatorios o estocásticos es necesario
especificar en el modelo, de alguna forma, la incertidumbre de la
aparición de los resultados.
EL CÁLCULO DE PROBABILIDADES Y LA
ESTADÍSTICA MATEMÁTICA SON LAS CIENCIAS
QUE ESTUDIAN LOS FENÓMENOS ALEATORIOS.
6
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA
El modelo matemático: Concepto de probabilidad
¿Cuál es la probabilidad de acertar 6 en la Lotería
Primitiva?
MODELO MATEMÁTICO:
El concepto de probabilidad.
El Cálculo de Probabilidades es la disciplina que permite estudiar
las posibilidades de realización de los fenómenos aleatorios.
7
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA
El modelo matemático: Concepto de Estadística
¿Qué experimento realizarías para poder predecir el
número esperado de tomates que dará cada una de las
plantas?
¿Con qué seguridad puedes realizar la predicción
anterior?
MODELO MATEMÁTICO:
Concepto de Estadística.
La Estadística es la rama de las matemáticas que utiliza grandes
conjuntos de datos numéricos para obtener inferencias basadas en
el cálculo de probabilidades.
8
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA
Aplicaciones a las Ciencias Experimentales
• Determinar el contenido de una determinada sustancia.
Determinar la cantidad de ion nitrato en una muestra
concreta de agua
Determinar la concentración de anticuerpos de
inmunoglobulina M en suero de varones.
• Estudiar el rendimiento de una determinada sustancia.
Comparar su efecto con otros existentes.
Estudiar el rendimiento de un fertilizante de plantas de
tomate.
Comparar el efecto de un nuevo medicamento con otros
existentes.
9
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA
Aplicaciones a las Ciencias Experimentales
• Comprobar la eficacia de un instrumento de medida
Comparar un método nuevo para la determinación de la
demanda de oxígeno en aguas residuales con el método
estándar de sales de mercurio.
• Comparar los resultados de un experimento realizado en
diferentes condiciones.
Comparar la concentración de albúmina en suero
sanguíneo de los individuos sanos con los que padecen
una determinada enfermedad.
10
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA
Aplicaciones a las Ciencias Experimentales
• Reconocimiento de pautas.
Determinar si un derramamiento de aceite proviene de
una fuente concreta.
• Estudiar el alcance de una enfermedad o de una medida para
prevenirla.
En una plantación en la que se ha detectado la aparición
de unos determinados parásitos se desea estimar el
efecto en la producción.
Análisis del efecto de una campaña publicitaria para
prevenir el cáncer de próstata.
11
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA
Ejemplo: Leyes de Mendel
Mendel (1865) estudió el cruce de una variedad de
guisantes amarillos y otra de verdes. Observó que:
• Los guisantes verdes al reproducirse dan siempre
verdes.
• Los amarillos dan unos sólo amarillos y otros amarillos
y verdes, formando los primeros una raza pura.
• Si se cruzan verdes con amarillos de raza pura se
obtiene una primera raza de híbridos amarillos.
• Si los híbridos amarillos se cruzan entre sí, se obtiene
guisantes amarillos y verdes ¿se puede establecer en
qué proporción?
12
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA
Ejemplo: Leyes de Mendel
Recogida de datos
Se seleccionan al azar 10 plantas de guisantes en la
plantación disponible o se usan 10 plantas de laboratorio.
Se cuenta cuántos guisantes amarillos y cuántos verdes
hay en cada una de las plantas.
TEORÍA DE MUESTREO y
DISEÑO DE EXPERIMENTOS
13
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA
Ejemplo: Leyes de Mendel
Descripción
Se calcula la proporción de guisantes amarillos y verdes
en cada una de las plantas y se presentan en una tabla de
frecuencias.
ESTADÍSTICA DESCRIPTIVA o
ANÁLISIS EXPLORATORIO DE DATOS
14
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA
Ejemplo: Leyes de Mendel
Planta
1
2
3
4
5
6
7
8
9
10
Verdes
Amarillos
Cantidad
Prop.
Cantidad
Prop.
25
32
14
70
21
20
32
44
50
44
.69
.82
.74
.72
.62
.77
.71
.83
.78
.71
11
7
5
27
13
6
13
9
14
18
.31
.18
.26
.28
.38
.23
.29
.17
.22
.29
Totales
36
39
19
97
34
26
45
53
64
62
/10 = 0.74
15
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA
Ejemplo: Leyes de Mendel
Análisis estadístico
Se observa que en cada una de las plantas la proporción
de guisantes amarillos es próxima a 3/4.
La proporción promedio de guisantes amarillos por planta
es de 0.74.
ESTIMACIÓN
Se debe contrastar, utilizando herramientas
estadísticas si este valor se puede considerar igual a
0.75.
CONTRASTE DE HIPÓTESIS
16
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA
Población y muestra
Se entiende por población el conjunto de todos los elementos de
interés en la realización de un estudio estadístico.
En un estudio de las características antropométricas de
jóvenes aragoneses, la población es el conjunto de
alumnos entre 13 y 16 años matriculados en alguno de los
institutos o colegios de la población aragonesa.
El conjunto de mujeres españolas mayores de 18 años en
un estudio sobre la incidencia del cáncer de mama.
El conjunto de todos los árboles de una plantación en el
estudio de la eficiencia de un nuevo fertilizante.
17
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA
Población y muestra
Una muestra es un subconjunto representativo de la población,
es decir, un subconjunto que refleja las características esenciales
de la población de la cual se obtuvo.
En el estudio de las características antropométricas de
los jóvenes aragoneses, la muestra se ha obtenido
seleccionando aleatoriamente un subconjunto de colegios
e institutos y tomando medidas sobre cada uno de los
alumnos de los colegios e institutos seleccionados.
Una muestra aleatoria de árboles se obtiene
seleccionando uno al azar entre los cinco primeros y, a
continuación, uno de cada cinco.
18
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA
Cómo seleccionar una muestra aleatoria
Es importante garantizar que la muestra se ha seleccionado
aleatoriamente. De cómo seleccionar una muestra aleatoria se
encarga la teoría de muestreo.
•
•
Scheaffer, R.L.; Mendenhall, W.; Ott, L. (1986) Elementos de muestreo.
Grupo Editorial Iberoamérica (un texto sencillo con buenos comentarios
desde el punto de vista práctico)
Lohr, S. L. (2000) Muestreo: Diseño y análisis. International Thompson
Editores. (un texto de un nivel más alto que el anterior muy claro y muy
práctico)
19
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA
ESTADÍSTICA
DESCRIPTIVA
Resumen de información:
numérica y gráfica
PROBABILIDAD+INFERENCIA ESTADÍSTICA
Problema
real
esp
ec
if
i ca
do
Modelo
Conclusiones
Teoría probabilidad
no
esp
ec
ifi
ca
do
Recogida datos
Inferencia estadística
20
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
PRÁCTICA 1: INTRODUCCIÓN AL PROGRAMA
ESTADÍSTICO SPSS
En esta práctica aprenderemos a:
• Acceder al programa SPSS.
• Crear ficheros de datos.
• Abrir ficheros de datos existentes.
21
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
22
CAPÍTULO 1: ESTADÍSTICA DESCRIPTIVA
1.2 Estadística descriptiva
• Introducción.
• Unidad estadística o individuo. Caracteres y modalidades. Tipos de
variables estadísticas.
• Representación de variables.
• Medidas de una distribución de frecuencias. Medidas de posición:
media, mediana y moda. Cuantiles. Propiedades de las medidas.
• Medidas de dispersión: recorridos y varianza. El coeficiente de
variación.
• Medidas de forma: asimetría y curtosis.
• El diagrama de caja.
• Representación de variables multidimensionales.
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
23
ESTADÍSTICA DESCRIPTIVA
Introducción
La Estadística Descriptiva se encarga de acumular información,
presentarla, criticarla, analizarla y sintetizarla. Pretende descubrir
las regularidades o características existentes en un conjunto de
datos.
La Estadística Descriptiva proporciona:
• Medidas para resumir la información.
• Herramientas para presentar la información.
• Métodos para detectar valores atípicos o errores en la recogida
de la información.
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
24
ESTADÍSTICA DESCRIPTIVA
Unidad estadística o individuo
Se denomina unidad estadística o individuo a cada uno de los
componentes de la población en estudio.
En un estudio de las características antropométricas de
los jóvenes aragoneses se han considerado estudiantes
entre 13 y 16 años; éstos son los individuos de la
población
Cada uno de los árboles de una plantación es un individuo
en el estudio de la eficiencia de un nuevo fertilizante.
Cada porción de agua de un río es un individuo en el
estudio del contenido en lindano.
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
25
ESTADÍSTICA DESCRIPTIVA
Caracteres y modalidades
Cada uno de los individuos de la población puede describirse
según una o varias características que denominaremos caracteres
o variables.
De cada alumno se han recogido las siguientes
características: peso, talla, cantidad de grasa en los
pliegues cutáneos del bíceps, tríceps, subescapular,
suprailíaco, abdomen y muslo, sexo y edad.
De cada árbol se ha medido la altura, el volumen, el tipo
de suelo en el que se encuentra, el número de frutos y su
tamaño medio.
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
26
ESTADÍSTICA DESCRIPTIVA
Caracteres y modalidades
Cada una de las variables en estudio puede presentar una o varias
categorías denominadas modalidades o valores que toma la
variable.
Las modalidades de la variable sexo son hombre y mujer.
La variable edad en este estudio toma cuatro valores
distintos 13, 14, 15 y 16.
La variable altura puede tomar muchos valores distintos.
Razonablemente se espera que dichos valores estén
entre 1.50 y 2.00 m.
El rango de valores dependerá de la población en estudio.
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
27
ESTADÍSTICA DESCRIPTIVA
Tipos de variables estadísticas
Cualitativas, si sus diversas
modalidades no son asociables
a un número real.
Nominales, si sus diversas
modalidades no se pueden ordenar.
Ordinales, si sus modalidades se
pueden ordenar.
La variable sexo es una variable cualitativa nominal
El grado de satisfacción en el trato con el personal
sanitario es una variable cualitativa ordinal. Sus
modalidades podrían ser: muy satisfecho, satisfecho, poco
satisfecho.
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
28
ESTADÍSTICA DESCRIPTIVA
Tipos de variables estadísticas
Cuantitativas, si cada
modalidad tiene asociado un
número.
Discretas, si toma valores en el
conjunto de los números enteros.
Continuas, si sus valores posibles
están en un intervalo.
El número de frutos es una variable cuantitativa
discreta. Toma valores entre 0 y 100, por ejemplo.
La variable altura es cuantitativa continua. Puede tomar
cualquier valor entre, por ejemplo, 150 y 200 cm.
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
29
ESTADÍSTICA DESCRIPTIVA
Tipos de variables estadísticas
Variables
cuantitativas
continuas
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
Variable
cualitativa
nominal
Variable
cuantitativa
discreta
30
ESTADÍSTICA DESCRIPTIVA
Representación de variables estadísticas
Para la representación de las variables estadísticas se utilizan las
tablas de frecuencias y las representaciones gráficas.
Sexo
Porcentaje Porcentaje
válido
acumulado
Frecuencia Porcentaje
Válidos Chicos
775
51,6
51,6
51,6
Chicas
726
48,4
48,4
100,0
Total
1501
100,0
100,0
Chicas
Chicos
Variables cualitativas
Diagrama de sectores
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
31
ESTADÍSTICA DESCRIPTIVA
Representación de variables estadísticas
Edad
FrecuenciaPorcentaje
Válidos 13
387
25,8
14
368
24,5
15
371
24,7
16
375
25,0
Total
1501
100,0
Porcentaje Porcentaje
válido
acumulado
25,8
25,8
24,5
50,3
24,7
75,0
25,0
100,0
100,0
Diagrama de barras
Edad
30
20
10
Porcentaje
Variables cuantitativas con
muchas observaciones y pocos
valores distintos.
0
13
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
Edad
14
15
16
32
ESTADÍSTICA DESCRIPTIVA
Representación de variables estadísticas
Variables cuantitativas con muchas
observaciones y muchos valores distintos.
Peso agrupado
Porcentaje
1,6
16,3
36,7
29,3
11,3
3,7
,9
,2
,1
100,0
Valores agrupados en intervalos
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
Peso agrupado
600
500
400
300
200
Frecuencia
Válidos
Frecuencia
menor que 35
24
35-45
244
45-55
551
55-65
440
65-75
170
75-85
55
85-95
13
95-105
3
mayor que 105
1
Total
1501
Histograma
Porcentaje
acumulado
1,6
17,9
54,6
83,9
95,2
98,9
99,7
99,9
100,0
100
0
30
40
Peso agrupado
50
60
70
80
90
33
100
110
ESTADÍSTICA DESCRIPTIVA
¿Cómo se determinan las clases?
Se recomienda que el número de clases esté entre 5 y 15. Habrá
más clases cuanto mayor sea el número de observaciones.
El rango de valores considerados debe cubrir todas las
observaciones y que la primera y última clases no queden vacías.
Así, el primer intervalo tiene que contener al mínimo valor
observado y el último, al máximo.
Los intervalos pueden tener idéntica o distinta amplitud. SPSS no
contempla la posibilidad de dibujar histogramas con clases de
distinta amplitud.
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
34
ESTADÍSTICA DESCRIPTIVA
¿Cómo se determinan las clases?
El mínimo peso observado es de 29 kg y el máximo de
107.5 kg. Por comodidad, se han fijado nueve intervalos,
cuyos extremos son números enteros que van de 25 a
110 kg. El número de observaciones es 1501, lo que
permite fijar un gran número de clases.
Se han medido las concentraciones de succinato
deshidrogenasa en una muestra de células de individuos
sanos obteniéndose los siguientes resultados: 2.37, 3.45,
1.91, 4.02, 1.42, 3.78, 2.51, 3.13, 2.85, 1.98.
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
35
ESTADÍSTICA DESCRIPTIVA
¿Cómo se determinan las clases?
Concentración de sucinato
2,5
2,5
2,0
2,0
1,5
1,5
1,0
1,0
,5
Frecuencia
Frecuencia
Concentración de sucinato
0,0
1,50
2,00
2,50
3,00
3,50
4,00
Concentración de sucinato
,5
0,0
1,40
1,70
2,00
2,30
2,60
2,90
3,20
3,50
3,80
Concentración de sucinato
Si el estudio consta de muy pocas observaciones no se considerará
ni el uso de tablas ni las representación gráfica de las variables.
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
36
4,10
ESTADÍSTICA DESCRIPTIVA
Medidas de una distribución de frecuencias
Son medidas para resumir la información contenida en los datos y
cuya interpretación permite detectar ciertas regularidades en el
comportamiento de la población.
Son de tres tipos:
• Medidas de tendencia central o de posición: dan idea de en
torno a qué valores se encuentra la población
• Medidas de dispersión: miden la separación de los datos
respecto a la medida de posición.
• Medidas de forma: Estudian la simetría y el apuntamiento de la
distribución.
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
37
ESTADÍSTICA DESCRIPTIVA
Medidas de posición: media, mediana y moda
La media aritmética de la distribución es la suma de todas las
observaciones dividida por el número de individuos en la población.
Una muestra de suero sanguíneo de un individuo sano
debe contener 42 gramos de albúmina por litro. Se ha
medido en seis individuos sanos: 42.5, 41.6, 42.1, 41.9,
41.1, 42.2
La cantidad media de albúmina por litro es:
(42.5 + 41.6 + 42.1 + 41.9 + 41.1 + 42.2)/6 = 41.9 gr. por litro
La edad media de los estudiantes es:
(13·387 + 14·368 + 15·371 + 16·375)/1501 =14.5 años
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
38
ESTADÍSTICA DESCRIPTIVA
Medidas de posición: media, mediana y moda
A partir de las tablas con los datos agrupados, la media se calcula
utilizando como valores de la variable los puntos medios de los
intervalos.
El peso medio de los estudiantes es:
30·24 + 40·244 + 50·551 + 60·440 + 70·170 + 80·55 + 90·13 + 100·3 + 110·1
1501
=54.83 kilos
Observa que el cálculo de la media sólo tiene
sentido para variables cuantitativas.
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
39
ESTADÍSTICA DESCRIPTIVA
Medidas de posición: media, mediana y moda
Una vez ordenadas las observaciones de menor a mayor, la
mediana es el valor que divide a la población en dos mitades.
Una vez ordenadas las concentraciones de albúmina:
41.1, 41.6, 41.9, 42.1, 42.2, 42.5.
La mediana es: 41.9 y 42.1 gr por litro, es decir, el
50% de los individuos tiene una concentración de
albúmina menor o igual que 41.9 gr/l (ó 42.1) y el otro
50% mayor o igual.
La edad mediana de los estudiantes es 14 años. El 50%
tiene 14 años o menos (exactamente el 50.3%) y resto
más.
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
40
ESTADÍSTICA DESCRIPTIVA
Medidas de posición: media, mediana y moda
El peso mediano de los estudiantes es 53.9 kg., es decir,
el 50% de los estudiantes pesan menos de 53.9 kg. y el
resto más.
En la tabla de datos agrupados se observa que el valor
mediano debe ser una valor entre 45 y 55 kg (intervalo
mediano). En particular, se tiene que el 54.6% de los
estudiantes pesan menos de 55 kg.
Observa que el cálculo de la mediana sólo requiere que las
modalidades se puedan ordenar, por tanto, su cálculo tiene sentido
tanto para variables cuantitativas como cualitativas ordinales.
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
41
ESTADÍSTICA DESCRIPTIVA
Medidas de posición: media, mediana y moda
La moda es el valor más frecuente.
La edad más frecuente es 13 años, aunque en este
ejemplo se observa que la muestra se ha seleccionado
tratando de conseguir grupos de edad del mismo tamaño.
El peso modal está entre los 45 y 55 kilos. A este
intervalo se le denomina intervalo modal.
Cuando la variable toma muchos valores distintos la moda sólo
tiene sentido si se obtiene a partir de los datos agrupados.
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
42
ESTADÍSTICA DESCRIPTIVA
Medidas de posición: media, mediana y moda
Observa que el cálculo de la moda sólo utiliza el valor
de las frecuencias, por tanto, su cálculo tiene sentido
para cualquier tipo de variable.
En la población de estudiantes aragoneses son algo más
frecuentes los chicos que las chicas, 51.6% frente al
48.4%, aunque la diferencia es muy pequeña.
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
43
ESTADÍSTICA DESCRIPTIVA
Medidas de posición: media, mediana y moda
Peso agrupado
600
Intervalo modal
500
400
300
Frecuencia
200
100
0
30
40
50
Peso= agrupado
Mediana
53.9 kg
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
60
70
80
90
100
110
Media = 54.83 kg
44
ESTADÍSTICA DESCRIPTIVA
Medidas de posición: cuantiles
Un cuantil de orden  es el valor de la variable por debajo del
cual se encuentra el ·100% de la población.
Casos especiales de cuantiles son los percentiles, que dividen a
la población en 100 partes iguales, y los cuartiles, que dividen a
la población en 4 partes iguales.
Así, el percentil de orden 1 deja por debajo al 1% de la
población; el de orden 15, al 15% y el 80 al 80%.
El primer cuartil deja por debajo al 25% de la población; el
segundo al 50% (coincide con la mediana) y el tercero, al 75%.
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
45
ESTADÍSTICA DESCRIPTIVA
Medidas de posición: cuantiles
Estadísticos
Peso
N
Percentiles
Válidos
Perdidos
10
20
30
40
50
60
70
80
90
1501
0
42,200
45,900
48,900
51,200
53,900
56,600
59,200
62,960
68,500
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
En la población de
estudiantes aragoneses se
tiene que el 10% pesan
menos de 42.2 kg.; el 20%
menos de 45.9 kg.,...,el 50%
menos de 53.9 kg., el 70%
menos de 59.2 kg.,..., el 90%
menos de 68.5 kg. y el 10%
restante más de 68.5 kg.
46
ESTADÍSTICA DESCRIPTIVA
Medidas de posición: cuantiles
Peso agrupado
600
500
400
300
200
Frecuencia
Suma de las áreas100
de los rectángulos
0
= 10%
30
40
50
60
70
80
90
100
110
Peso
Percentil 10
=agrupado
42.2 kg
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
47
ESTADÍSTICA DESCRIPTIVA
Medidas de posición: propiedades
La media es sensible a valores extremos.
La concentración de albúmina media es 41.9 gr. por l.
Si le añadimos una observación igual a 46.5, la media
pasa a ser 42.6.
41.1
41.6
41.9 42.1
42.2
42.5
46.5
42.6
La mediana no lo es.
En el primer caso, la mediana es 41.9 gramos por litro y
en el segundo pasa a ser 42.1.
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
48
ESTADÍSTICA DESCRIPTIVA
Medidas de posición: propiedades
Tanto la media como la mediana pueden no representar bien el
comportamiento de la variable.
41.1
41.6
41.9 42.1
42.5
43.7
46.2 46.4
46.3 46.5
42.2
¿Podrías decir qué está ocurriendo con estas
observaciones?
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
49
ESTADÍSTICA DESCRIPTIVA
Medidas de dispersión: recorridos y varianza
El recorrido, rango o amplitud es la diferencia entre el mayor y
el menor valor de la variable.
Un valor pequeño del recorrido indica poca dispersión, puesto
que la variable toma valores en un intervalo pequeño. Sin
embargo, un valor grande puede indicar mucha dispersión o la
existencia de valores extremos.
La concentración de albúmina máxima observada es de
42.5 gr/l y la mínima de 41.1 gr/l siendo la media de 41.9
gr/l. El recorrido es de 42.5 - 41.1 = 1.4 gr/l indicando
poca dispersión en los datos.
41.6
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
41.1
42.1 42.5
41.9 42.2
50
ESTADÍSTICA DESCRIPTIVA
Medidas de dispersión: recorridos y varianza
En otra muestra la concentraciones de albúmina han sido
41.1, 41.6, 49.1, 42.1, 42.2, 42.5.
41.6
41.1
42.2
42.1 42.5
49.1
La media aumenta a 43.1 gr/l, afectada por el valor
máximo observado y la mediana es 42.1 gr/l, que está
menos afectada por los valores extremos.
El valor del recorrido es 49.1 - 41.1 = 8 gr/l indicando
mucha dispersión o existencia de valores extremos.
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
51
ESTADÍSTICA DESCRIPTIVA
Medidas de dispersión: recorridos y varianza
En una tercera muestra la concentraciones de albúmina
observadas han sido
41.1, 42.6, 49.1, 45.1, 47.2, 43.5.
41.1
42.6
43.5
45.1
47.2
49.1
Ahora la media es 44.8 gr/l y la mediana es 43.5 gr/l.
El valor del recorrido es 49.1 - 41.1 = 8 gr/l indicando
mucha dispersión o existencia de valores extremos.
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
52
ESTADÍSTICA DESCRIPTIVA
Medidas de dispersión: recorridos y varianza
El recorrido intercuartílico es la diferencia entre tercer y primer
cuartiles.
Un valor pequeño del recorrido intercuartílico indica poca
dispersión. Sin embargo, un valor grande puede indicar mucha
dispersión.
Como los cuartiles están poco afectados por la existencia de
valores extremos, un recorrido intercuartílico pequeño frente a un
recorrido grande indicará la existencia de valores extremos. Si
ambos son grandes, podemos asegurar que existe dispersión.
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
53
ESTADÍSTICA DESCRIPTIVA
Medidas de dispersión: recorridos y varianza
RI = 42.2 - 41.6 = 0.6 gr/l., que indica poca
dispersión. (R=1.4)
41.6
41.1
42.1 42.5
41.9 42.2
RI = 42.5 - 41.6 = 0.9 gr/l, pequeño y R=8, lo que indica la
existencia de valores extremos.
41.6
41.1
42.2
42.1 42.5
49.1
RI = 47.2 - 42.6 = 4.6 gr/l, un valor alto, y R=8 que indica
que hay dispersión.
43.5
41.1Beatriz Lacruz Casaucau
42.6 ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
45.1
47.2
54 49.1
ESTADÍSTICA DESCRIPTIVA
Medidas de dispersión: recorridos y varianza
La varianza es la media las distancias de las observaciones a la
media elevadas al cuadrado.
• Calculamos las distancias de las cantidades de albúmina
a su media 41.9 en el primer ejemplo:
41.6-41.9=-0.3
42.1-41.9=0.2
42.2-41.9=0.3
41.1
41.6
41.1-41.9=-0.8
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
41.9
41.9-41.9=0
42.5
42.1 42.2
42.5-41.9=0.6
55
ESTADÍSTICA DESCRIPTIVA
Medidas de dispersión: recorridos y varianza
• ¿Qué ocurre si sumamos las distancias?
(- 0.8) + (- 0.3) + 0 + 0.2 + 0.3 + 0.6 = 0
Al compensarse las distancias positivas con las
negativas la suma de las distancias no proporciona una
buena medida de dispersión.
La suma de las distancias de las observaciones a la
media es siempre cero, por ello, se dice que la media es
el centro de gravedad de la distribución.
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
56
ESTADÍSTICA DESCRIPTIVA
Medidas de dispersión: recorridos y varianza
• ¿Cómo se podrían medir las distancias eliminando el
efecto del signo?
(- 0.8)2 + (- 0.3)2 + 0 2 + 0.2 2 + 0.3
2
+ 0.6 2 = 1.22
• La varianza es, por tanto, 1.22/6=0.203 (gr/l)2
En la segunda muestra el valor de la varianza es 7.4
(gr/l) 2.
En la tercera muestra el valor de la varianza es también
7.4 (gr/l) 2.
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
57
ESTADÍSTICA DESCRIPTIVA
Medidas de dispersión: recorridos y varianza
El inconveniente de la varianza es que no se mide en las mismas
unidades de medida que la variable y, por tanto, es difícil de
interpretar. La solución consiste en definir la desviación típica o
desviación estándar como la raíz cuadrada de la varianza.
En la primera muestra el valor de la desviación típica es
0.45 gr/l, un valor pequeño que indica poca dispersión.
En la segunda y tercera muestras el valor de la varianza
es 2.7 gr/l, un valor alto que indica dispersión o
existencia de valores extremos.
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
58
ESTADÍSTICA DESCRIPTIVA
Medidas de dispersión: recorridos y varianza
Si la suma de los cuadrados de las distancias se dividen por n-1,
la medida resultante se denomina cuasivarianza. Y su raíz
cuadrada es la cuasidesviación típica. El interés de estas
medidas se verá en el capítulo de inferencia.
Ninguna de las tres medidas de dispersión presentadas permite,
por sí sola, determinar si la variable está dispersa o no. Se
recomienda el uso de las tres medidas simultáneamente para poder
describir esta característica de la variable.
Además, el histograma o el diagrama de barras, nos
permitirán determinar la existencia o no de dispersión y la
posible existencia de valores atípicos.
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
59
ESTADÍSTICA DESCRIPTIVA
Medidas de dispersión: recorridos y varianza
Descriptivos
Media
Mediana
Varianza
Desv. típ.
Mínimo
Máximo
Rango
Amplitud intercuartil
Estadístico
162,9651
162,7000
80,598
8,9776
133,80
193,10
59,30
11,8000
Talla
200
Frecuencia
100
0
,0
,0
,0
,0
,0
,0
,0
,0
,0
,0
,0
60
0
19
5
18
0
18
5
17
0
17
5
16
0
16
5
15
0
15
5
14
,0
Talla
0
14
5
13
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Medidas de dispersión: el coeficiente de variación
Las medidas anteriores tienen las unidades de las variables y, por
tanto, dependen de la magnitud de las mismas. Para evitar esta
dependencia se define el coeficiente de variación como el
cociente entre la desviación típica y la media.
El coeficiente de variación es adimensional y permite comparar la
dispersión de poblaciones distintas.
Sólo se define para variables con valores positivos.
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
61
ESTADÍSTICA DESCRIPTIVA
Medidas de dispersión: el coeficiente de variación
El peso de las chicas es de 52.66 kg. con una desviación
típica de 8.94 kg. y el de los chicos de 56.91 kg. con una
desviación típica de 11.91 kg. Para comparar la dispersión
entre las dos poblaciones calculamos el coeficiente de
variación:
CVChicos
11.91

 0.209
56.91
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CVChicas
8.94

 0.170
52.66
62
ESTADÍSTICA DESCRIPTIVA
Medidas de dispersión: el coeficiente de variación
Chicas
120
120
100
100
80
80
60
60
40
40
Frecuencia
Frecuencia
Chicos
20
0
5
10
0
10
95
90
85
80
75
70
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
0
65
60
55
50
45
40
35
30
5
10
0
10
95
90
85
80
75
70
65
60
55
50
45
40
35
30
Peso
20
Peso
63
ESTADÍSTICA DESCRIPTIVA
Medidas de forma: asimetría y curtosis
Para estudiar la simetría o asimetría de una distribución se
utiliza el eje que pasa por la media aritmética.
Peso agrupado
600
500
400
300
Frecuencia
200
100
0
30
40
Peso agrupado
50
60
70
80
90
100
110
Media = 54.83 kg
Una forma de medir la asimetría de una distribución de
frecuencias es mediante el coeficiente de Fisher, aunque esta
característica suele evidenciarse en su representación gráfica.
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
64
ESTADÍSTICA DESCRIPTIVA
Medidas de forma: asimetría y curtosis
Distribución
simétrica
Coef. asimetría=0
Distribución
asimétrica positiva
Coef. asimetría>0
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
Distribución
asimétrica negativa
Coef. asimetría<0
65
ESTADÍSTICA DESCRIPTIVA
Medidas de forma: asimetría y curtosis
Cantidad de grasa en el abdomen
Distribución
campaneiforme y
asimétrica positiva.
200
150
100
Frecuencia
50
Talla
0
4
10
16
22
28
34
40
200
46
Cantidad de grasa en el abdomen
0
0
0,
19
0
5,
18
0
0,
18
0
5,
17
0
0,
17
0
5,
16
0
0,
16
0
5,
15
0
0,
15
0
5,
14
Talla
0
0,
14
0
5,
13
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
100
Frecuencia
Distribución
campaneiforme
simétrica.
66
ESTADÍSTICA DESCRIPTIVA
Medidas de forma: asimetría y curtosis
Las medidas de apuntamiento o de curtosis se aplican a
distribuciones en forma de campana, es decir, unimodales,
simétricas o con ligera asimetría.
Las medidas de curtosis tratan de estudiar la distribución de
frecuencias en la zona central. La mayor o menor concentración
de frecuencias alrededor de la media dará lugar a distribuciones
más o menos apuntadas.
El apuntamiento se mide con respecto a una curva de referencia,
la curva normal, que es simétrica, tiene forma de campana, la
mayoría de los valores están alrededor de la media y los valores
alejados de la media son poco numerosos.
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
67
ESTADÍSTICA DESCRIPTIVA
Medidas de forma: asimetría y curtosis
CURVA NORMAL
Media = Mediana = Moda
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
68
ESTADÍSTICA DESCRIPTIVA
Medidas de forma: asimetría y curtosis
Talla
Cantidad de grasa en el subescapular
200
Cantidad de grasa en el tríceps
160
400
140
120
300
100
80
200
100
60
40
0
135
140
145
150
155
160
165
170
175
180
185
190
Talla
Frecuencia
Frecuencia
Frecuencia
100
0
4
6
8
10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42
Cantidad de grasa en el subescapular
Aproximadamente,
igual de apuntada
que la normal.
Mesocúrtica
(curtosis = 0)
Más apuntada que
la normal.
Leptocúrtica
(curtosis > 0)
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
20
0
4
8
12
16
20
24
28
32
36
40
Cantidad de grasa en el tríceps
Menos apuntada
que la normal.
Platicúrtica
(curtosis < 0)
69
44
ESTADÍSTICA DESCRIPTIVA
El diagrama de caja
El diagrama de caja es una representación gráfica muy útil que
combina medidas de posición y dispersión y que nos ayudará
también a detectar la existencia de valores extremos.
Valor máximo
200
696
740
768
1068
789
1308
1100
599
635
190
Extremos
entre los que
se espera
encontrar los
valores de la
variable
Cuartiles, la
caja contiene
al 50% de las
observaciones
180
170
160
150
Valor mínimo
140
917
924
130
N=
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
1501
Talla
70
ESTADÍSTICA DESCRIPTIVA
El diagrama de caja
El diagrama de caja representa el recorrido y el recorrido
intercuartílico, así como los límites entre los que se espera
encontrar a la mayor parte de las observaciones. Los valores que
quedan fuera de los límites se representan con un círculo si
quedan, relativamente cerca de lo que se considera “normal” y
con un asterisco si se pueden considerar datos atípicos.
Ante la existencia de valores extremos se debe estudiar su
procedencia: pueden ser errores de transcripción a la hora de
almacenar los datos, individuos que no pertenecen a la población
en estudio o simplemente datos atípicos.
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
71
ESTADÍSTICA DESCRIPTIVA
El diagrama de caja
50
3
48
Aparecen
valores 46
extremos
Mucha
dispersión
44
42
40
Poca
MUESTRA1
Beatriz Lacruz Casaucau ([email protected])
dispersión
Dpto. Métodos Estadísticos. Universidad de Zaragoza
N=
6
6
6
MUESTRA2
MUESTRA3
72
PRÁCTICA 2 y 3: ESTADÍSTICA DESCRIPTIVA
En esta práctica aprenderemos a:
• Construir tablas de frecuencias y representaciones gráficas.
• Recodificar las variables para poder construir tablas con los
datos agrupados.
• Calcular las medidas de posición, dispersión y forma,
interpretando los resultados.
• Detectar valores extremos.
• Analizar subgrupos.
• Eliminar casos.
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
73
ESTADÍSTICA DESCRIPTIVA
Representación de dos o más variables: Tablas
Edad
Peso
agrupado
menor que 35
35-45
45-55
55-65
65-75
75-85
85-95
95-105
mayor que 105
13
19
134
138
74
16
5
1
14
15
4
72
160
97
27
6
2
1
29
149
126
49
14
2
1
16
9
104
143
78
30
8
2
1
Tabla bidimensional de frecuencias absolutas
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
74
ESTADÍSTICA DESCRIPTIVA
Representación de dos o más variables: Tablas
Edad
Peso
agrupado
menor que 35
35-45
45-55
55-65
65-75
75-85
85-95
95-105
mayor que 105
13
% tabla
1,3%
8,9%
9,2%
4,9%
1,1%
,3%
,1%
14
% tabla
,3%
4,8%
10,7%
6,5%
1,8%
,4%
,1%
15
% tabla
,1%
1,9%
9,9%
8,4%
3,3%
,9%
,1%
,1%
16
% tabla
,6%
6,9%
9,5%
5,2%
2,0%
,5%
,1%
,1%
Tabla bidimensional de frecuencias relativas
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
75
ESTADÍSTICA DESCRIPTIVA
Representación de dos o más variables: Tablas
% de Peso agrupado
Edad
Peso
agrupado
Total
Menor que 35
35-45
45-55
55-65
65-75
75-85
85-95
95-105
Mayor que 105
13.00
79.2%
54.9%
25.0%
16.8%
9.4%
9.1%
7.7%
14.00
16.7%
29.5%
29.0%
22.0%
15.9%
10.9%
15.4%
15.00
4.2%
11.9%
27.0%
28.6%
28.8%
25.5%
15.4%
33.3%
25.8%
24.5%
24.7%
16.00
3.7%
18.9%
32.5%
45.9%
54.5%
61.5%
66.7%
100.0%
25.0%
Total
100.0%
100.0%
100.0%
100.0%
100.0%
100.0%
100.0%
100.0%
100.0%
100.0%
Tabla bidimensional de frecuencias relativas por filas
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
76
ESTADÍSTICA DESCRIPTIVA
Representación de dos o más variables: Tablas
% de Edad
Edad
Peso
agrupado
Total
Menor que 35
35-45
45-55
55-65
65-75
75-85
85-95
95-105
Mayor que 105
13.00
4.9%
34.6%
35.7%
19.1%
4.1%
1.3%
.3%
14.00
1.1%
19.6%
43.5%
26.4%
7.3%
1.6%
.5%
15.00
.3%
7.8%
40.2%
34.0%
13.2%
3.8%
.5%
.3%
100.0%
100.0%
100.0%
16.00
2.4%
27.7%
38.1%
20.8%
8.0%
2.1%
.5%
.3%
100.0%
Total
1.6%
16.3%
36.7%
29.3%
11.3%
3.7%
.9%
.2%
.1%
100.0%
Tabla bidimensional de frecuencias relativas por columnas
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
77
ESTADÍSTICA DESCRIPTIVA
Gráficos para variables cualitativas o cuantitativas agrupadas
200
500
Peso agrupado
Peso agrupado
Menor que 35
Mayor que 105
400
35-45
95-105
45-55
85-95
300
55-65
100
75-85
65-75
65-75
200
85-95
95-105
Mayor que 105
0
13.00
14.00
15.00
16.00
55-65
Frecuencia
Frecuencia
75-85
45-55
100
35-45
Menor que 35
0
13.00
Edad
14.00
15.00
16.00
Edad
Gráficos de barras bidimensional
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
78
ESTADÍSTICA DESCRIPTIVA
Representación de dos o más variables: Tablas
Económicas
Solicitudes
Admisiones
%
Letras
Solicitudes
Admisiones
%
Mujeres
1000
540
54
Mujeres
800
560
70
Hombres
1000
590
59
Hombres
300
225
75
Ingeniería
Solicitudes
Admisiones
%
Global
Solicitudes
Admisiones
%
Mujeres
200
36
18
Mujeres
2000
1136
56.8
Hombres
700
140
20
Hombres
2000
955
47.7
Paradoja de Simpson
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
79
ESTADÍSTICA DESCRIPTIVA
Representación de dos o más variables: Tablas
Edad
13
14
15
16
Sexo
Sexo
Sexo
Sexo
Chicos
Chicas
Chicos
Chicas
Chicos
Chicas
Chicos
Chicas
Recuento Recuento Recuento Recuento Recuento Recuento Recuento Recuento
Peso
menor que 35
10
9
3
1
1
agrupado 35-45
75
59
35
37
10
19
1
8
45-55
69
69
67
93
46
103
34
70
55-65
37
37
59
38
73
53
74
69
65-75
12
4
17
10
33
16
63
15
75-85
2
3
6
11
3
25
5
85-95
1
1
1
2
6
2
95-105
1
2
mayor que 105
1
Tabla tridimensional de frecuencias absolutas
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
80
ESTADÍSTICA DESCRIPTIVA
Representación de dos o más variables: Tablas
Sexo Chicos
Sexo Chicas
Edad
Peso
agrupado
menor que 35
35-45
45-55
55-65
65-75
75-85
85-95
95-105
mayor que 105
13
10
75
69
37
12
2
14
3
35
67
59
17
6
1
Edad
15
10
46
73
33
11
2
1
16
1
34
74
63
25
6
2
1
13
Peso
agrupado
menor que 35
35-45
45-55
55-65
65-75
75-85
85-95
95-105
mayor que 105
9
59
69
37
4
3
1
14
15
1
37
93
38
10
1
19
103
53
16
3
1
Tablas bidimensionales según los valores de una tercera variable
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
81
16
8
70
69
15
5
2
ESTADÍSTICA DESCRIPTIVA
Representación de dos o más variables: Diagrama de dispersión
120
120
100
100
80
80
60
60
40
40
Sexo
Peso
Peso
Chicas
20
130
140
150
160
170
180
190
200
20
Chicos
130
140
150
160
170
180
190
200
Talla
Talla
Diagrama de dispersión o nube de puntos
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
82
ESTADÍSTICA DESCRIPTIVA
Medidas de asociación
La medida de asociación lineal más simple entre dos variables
cuantitativas es la covarianza.
4
6
3
4
2
1
2
0
0
-1
-2
-2
-4
Y
Y
-3
-3
X
-2
-1
s
0
XY
1
2
 0
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
3
-4
-3
X
-2
-1
0
1
2
s XY  0
83
3
ESTADÍSTICA DESCRIPTIVA
Medidas de asociación
1
3
0
2
-1
1
-2
0
-3
-1
-4
-5
Y4
Y
-2
-3
-3
X
-2
-1
0
1
2
sXY  0
3
-6
-3
X
-2
-1
0
1
2
3
sXY  0
Por definición la covarianza entre X e Y es igual a la covarianza
entre Y y X.
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
sXY  sYX
84
ESTADÍSTICA DESCRIPTIVA
Medidas de asociación
El coeficiente de correlación lineal es:
sXY
rXY 
sX sY
• Es un valor entre -1 y 1.
• Si existe una relación lineal exacta entre X e Y, Y = aX + b, el
coeficiente de correlación valdrá 1 si a > 0 y -1, si a < 0.
• Cuanto más próximo a 1 o -1 se encuentre el coeficiente de
correlación lineal, más fuerte será la relación lineal entre las
variables. Si está próximo a 0, no existe relación lineal entre las
variables.
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
85
ESTADÍSTICA DESCRIPTIVA
Bibliografía
• Martín Pliego, F. J. (1994) Introducción a la Estadística
Económica y Empresarial. (Teoría y práctica). Editorial AC.
(Aunque es un libro dedicado a la economía y a las ciencias empresariales en lo que
se refiere a los ejemplos que utiliza, los conceptos estadísticos están claramente
ordenados y definidos.)
• Lacruz, B.; Pérez-Palomares, A.; Del Pozo, L.; SánchezValverde, B. (1999) Estadística Elemental con SPSS.
Universidad de Zaragoza. (Este libro contiene varias colecciones de datos,
la mayoría de ellas han sido analizadas desde el punto de vista de la Estadística
Descriptiva, por lo que proporciona una visión práctica de ésta.)
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
86
PRÁCTICA 4: ESTADÍSTICA DESCRIPTIVA
En esta práctica aprenderemos a:
• Construir tablas de frecuencias con dos o más variables.
• Representar nubes de puntos.
• Calcular las medidas de asociación entre dos variables: la
covarianza y el coeficiente de correlación.
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
87
CONCEPTOS ELEMENTALES DE
PROBABILIDAD
88
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 1: CONCEPTOS ELEMENTALES DE
PROBABILIDAD
1.3 Conceptos elementales de probabilidad
•
Introducción. Concepto de probabilidad. Propiedades.
•
Probabilidad condicionada. Sucesos independientes.
•
Teorema de la probabilidad total. Teorema de Bayes.
•
Variables aleatorias.
•
Distribuciones discretas de probabilidad: binomial, hipergeométrica y Poisson.
•
Distribuciones continuas de probabilidad: Normal.
•
Distribuciones multivariantes: multinomial y Normal
•
Distribuciones relacionadas con la normal: chi-cuadrado, F de Snedecor y t de
Student.
•
Otras distribuciones discretas: geométrica o de Pascal y binomial negativa.
•
Otras distribuciones continuas: lognormal, uniforme, exponencial, beta, gamma
y Weibull.
89
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Introducción
La Estadística es la rama de las matemáticas que utiliza
grandes conjuntos de datos numéricos para obtener inferencias
basadas en el cálculo de probabilidades.
El Cálculo de Probabilidades es la disciplina que permite
estudiar las posibilidades de realización de los fenómenos
aleatorios.
90
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Concepto de probabilidad
• Un experimento aleatorio es aquél en el que, con la información
que tenemos, no podemos predecir con seguridad el resultado.
• El conjunto de todos los resultados se llama espacio muestral.
• Llamaremos suceso a aquel conjunto del espacio muestral del
que se puede afirmar si ha sucedido o no, una vez realizado el
experimento.
• Los posibles resultados de un experimento aleatorio se
denominan “sucesos elementales”. La unión de sucesos
elementales da lugar a “sucesos compuestos”.
• Experimento: Sacar una carta de una baraja española
• Suceso elemental: As de copas
• Suceso compuesto: Copas
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
91
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Concepto de probabilidad
El cálculo de probabilidades se encarga de obtener las
probabilidades de sucesos compuestos a partir del conocimiento
de las probabilidades de los sucesos elementales y unas reglas de
cálculo.
Interpretación de la probabilidad: si el experimento se puede
repetir un gran número de veces
probabilidad~proporción de ocurrencia
Ejemplo: Se sacan 4 cartas de una baraja española. La
probabilidad de que las 4 sean de distinto palo es
1000/9139=0.10942
Si se realiza el experimento un número grande de veces, un 11%
de las veces (aproximadamente) las cartas serán de distintos palos
92
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Reglas del cálculo de probabilidades
• Suceso seguro (ocurre siempre) = unión de todos los posibles
resultados. Coincide con el espacio muestral.
  “Sale una carta”
• Suceso imposible (no puede ocurrir)   “Sale 13 de bastos”
• Unión de sucesos (ocurre al menos uno de ellos)
A=“Sale rey” B =“Sale copas” A  B =“Sale rey o copas”
• Intersección de sucesos (ocurren todos ellos) A=“Sale
rey” B =“Sale copas” A B =“Sale rey de copas”
• Suceso complementario o contrario. A=“Sale rey”, A
sale rey”
=“No
• A B (si ocurre A, entonces ocurre B) A=“Sale rey”B=“Sale
figura”
93
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Reglas del cálculo de probabilidades
• Notación: p(A) es la probabilidad de que ocurra el suceso A.
• La probabilidad de cualquier suceso está entre 0 y 1.
0  p(A)  1
• La probabilidad del suceso seguro es 1.
p(  )  1
• La probabilidad de que ocurra un suceso A o un suceso B,
siendo ambos excluyentes, es la suma de las probabilidades.
p(A  B)  p(A)  p(B)
si A  B  
94
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Propiedades (conclusiones de las reglas)
• Probabilidad del complementario
p( A )  1  p(A)
• Probabilidad del suceso imposible
p(  )  0
• La probabilidad de que ocurra un suceso A o un suceso B, si no
son mutuamente excluyentes, es la suma de las probabilidades de
A y B menos la probabilidad de que ocurran los dos a la vez.
p(A  B)  p(A)  p(B) - p(A  B)
A = rey, B = copas
A
B
• Si el suceso A está incluido en B entonces p(A)  p(B)
95
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Modelos de Probabilidad
Modelo clásico: número finito de resultados equiprobables
(cartas de la baraja)
casos favorables
cardinal(A )
p(A) 

cardinal(  )
casos posibles
Modelo finito: número finito de resultados (dado trucado)
p(A) 

i A
pi
Modelo geométrico: espacio muestral = figura geométrica acotada
resultados “equiprobables”
medida(A)
p(A) 
medida(  )
96
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Probabilidad condicionada
La probabilidad de un suceso A sabiendo que ha ocurrido un suceso
B, esto es, la probabilidad de A condicionado a B, es igual a la
probabilidad de que sucedan simultáneamente A y B, dividido por la
probabilidad de B.
p(A  B)
p(A B ) 
, con p B   0
p(B)
Ejemplo: Si sabemos que la carta que ha salido es una figura, ¿cuál
es la probabilidad de que sea un caballo?
p(caballo y figura)
4 / 40
1
p(caballo figura ) 


p(figura)
12 / 40 3
97
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Sucesos independientes
Dos sucesos A y B son independientes si p(A  B)  p(A)  p(B)
Es decir, si p(B)>0, son independientes si p(A B)  p(A)
el conocimiento de que ha ocurrido el suceso B no modifica
nuestras creencias sobre la posibilidad de que ocurra A.
Simetría en A y B
La dependencia de A y B no implica necesariamente relación
causa-efecto
Ejemplo: A=“sacar rey”, B=“sacar copas”
p(A B)=p(sacar rey de copas)=1/40=p(rey)·p(copas)
p(. B) cumple las reglas de la probabilidad
98
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Regla de la multiplicación (teorema de la probabilidad compuesta)
Si A 1 ,..., A k son sucesos cualesquiera (con probabilidad
positiva), la probabilidad de que ocurran todos ellos puede
ponerse como
p(A 1  ...  A k )  p(A 1 )· p(A 2 | A 1 )·
p(A 3 | A 1  A 2 )·...· p(A
k
| A 1  ...  A k -1 )
Ejemplo: Se sacan 4 cartas, ¿cuál es la probabilidad de que sean
los 4 reyes? A1=“la primera carta es rey”, A2=“la segunda carta
es rey”, A3=“la tercera carta es rey”, A4=“la cuarta carta es rey”
4 3 2 1
p(A 1  A 2  A 3  A 4 ) 

40 39 38 37
1

 0 . 000011
91390
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
99
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Probabilidad condicionada: Ejemplo
En una caja con 100 peces hay 10 que tienen una
malformación. Se escogen 2 al azar, ¿cuál es la
probabilidad de que ambos sufran malformación?
P1= el primer pez sufre malformación
P2= el segundo pez sufre malformación
9 10
p(P1  P2 )  p(P2 P1 )  p(P1 ) 
 0.0091
99 100
100
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Teorema de la probabilidad total
p(B)  p(B  A1 )  p(B  A2 )    p(B  Ak ) 
 p(B A1 )p(A1 )  p(B A2 )p(A2 )    p(B Ak )p(Ak )
A1
A2
...
Ak
k
 p(A )  1
j1
i
B
Ai  Aj  , i  j
101
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Teorema de la probabilidad total: Ejemplo
El test de alcoholemia, que realiza la policía
en la carretera, es fiable en un 80% de las
ocasiones (en los dos sentidos).
Se sabe que el 5% de los conductores
detenidos por la policía está embriagado,
¿qué proporción de conductores detenidos
dará positivo?
p( E )  0.8
p( nE )  0.8
p(E)=0.05
E
p(  )  p(   E)  p(   nE) 
p(  E )  p(E)  p(  nE )  p(nE) 
No E
Positivo
0.8  0.05  (1 - 0.8)  0.95  0.23
102
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Teorema de Bayes
p(B  Ai )

p(Ai B) 
p(B)
k
p(B Ai )p(Ai )

j1
p(B Aj )p(Aj )
Ejemplo: si un conductor ha dado positivo, ¿cuál es la
probabilidad de que esté embriagado?
p ( | E ) p ( E )
p(E |  ) 

p (  | E ) p ( E )  p (  | nE ) p ( nE )
0 . 8·0 . 05
0 . 04


 0 . 174
0 . 8·0 . 05  0 . 2 ·0 . 095
0 . 23
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
103
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Teorema de Bayes: Ejemplo
La sensibilidad del test RIA-PAP para detectar el cáncer de
próstata, es decir, la proporción de resultados positivos en
pacientes con cáncer, es de 0.7. Su especificación, esto es, la
proporción de resultados negativos en individuos sanos, es
0.94. La prevalencia de la enfermedad en varones blancos es
de 35 por 100.000. ¿Qué probabilidad tiene un paciente de
tener cáncer de próstata si el resultado del test RIA-PAP ha
sido positivo?
C = tener cáncer de próstata, p(C) = 0.00035
P = test positivo, p(P|C) = 0.7, p(no P|no C) = 0.94
p(P C)  p(C)
p(C  P)
p(C P) 


p(P)
p(P C)  p(C)  p(P C)  p(C)
0.7  0.00035
104

0.0041
Beatriz Lacruz Casaucau ([email protected])
0.7

0.00035

(1

0.94)

(1

0.00035)
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Variables aleatorias
En todo proceso de observación o experimento aleatorio se puede
definir una variable aleatoria asignando a cada resultado del
experimento un número.
Ejemplo: Lanzamiento de un dado. X= "Puntuación del dado".
Si en el experimento se miden varias características, se obtienen
varias variables aleatorias.
Ejemplo: Lanzamientos de dos dados. X="Puntuación del primer
dado",Y="Puntuación del segundo dado".
Las variables pueden tener alguna relación entre sí o, por el
contrario, ser independientes, es decir, cuando los sucesos
asociados a las mismas son sucesos independientes.
Ejemplo: P(X=2 Y=3)=1/36=P(X=2)P(Y=3) (todos sucesos de
este tipo son independientes por lo que X e Y son independientes).
105
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Variables aleatorias discretas
Las variables aleatorias discretas toman valores en un conjunto
contable.
Si en un invernadero se mezclan semillas de rosas rojas y
blancas y se sabe que el 25% de las rosas de segunda
generación son blancas, ¿cuál es la probabilidad de que
entre 400 rosas de segunda generación más de 115 sean
blancas?
106
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Variables aleatorias discretas
Una variable aleatoria discreta tiene asociada una función,
llamada de probabilidad o de masa, que asocia a cada resultado
su probabilidad.
Un paciente sufre una enfermedad que tiene dos posibles
tratamientos. Uno de ellos debe administrarse durante 15
días y al término debe elegirse si prolongarlo por 20 días
más (en un 50% de las ocasiones) o intentar el otro
tratamiento durante 30 días (en el otro 50%). Otra
posibilidad es comenzar con el segundo tratamiento y
prolongarlo durante 60 días. Este segundo tratamiento es
más económico por lo que se elige en el 60% de los casos.
¿Cómo es la distribución de probabilidad de la variable
“tiempo que dura el tratamiento de la enfermedad?”
107
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Variables aleatorias discretas: Ejemplo
X = tiempo que dura el tratamiento
X = 15 + 20 = 35, si se elige administrar el primer
tratamiento y continuar con él;
X = 15 + 30 = 45, si se elige administrar el primer
tratamiento y después cambiar; y,
X = 60,
si se elige administrar solo el segundo
tratamiento.
p(X = 60) = p(elegir el segundo tratamiento) = 0.6
p(X = 35) = p(elegir el primero y continuar) = (1 - 0.6)·0.5
p(X = 45) = p(elegir el primero y cambiar) = (1 - 0.6)·0.5
108
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Variables aleatorias discretas: ejemplo
1
X
35
p
0.2 0.2 0.6
45
60
0.6
0.2
 p(X  x )  0.2  0.2  0.6  1
i
i
35
45
60
¿Cuál es la probabilidad de que el tratamiento dure un mes y
medio o más?
p(X  45)  0.2  0.6  0.8
109
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Variables aleatorias discretas
La media o esperanza de una variable aleatoria discreta es:
k
  E[X]   xi  p(X  xi )
i1
La desviación típica de una variable aleatoria discreta es:

k
2
(x


)
 p(X  x i )
 i
i 1
El número medio de días que dura un tratamiento es
E[X]  35  0.2  45  0.2  60  0.6  52 días
con una desviación típica de 10.3 días.
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
110
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Variables aleatorias continuas
Las variables aleatorias continuas toman valores en un
conjunto infinito no numerable (un intervalo).
La distribución de probabilidad de una variable continua viene
dada a través de una función denominada función de densidad.
Propiedades de la función de densidad (se denota f) :
• Es una función positiva.
• El área encerrada bajo la función de densidad es 1.
• La función de densidad proporciona el medio para determinar la
probabilidad de que la variable aleatoria tome un valor en un
intervalo determinado.
111
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Variables aleatorias continuas
• La probabilidad de que la variable aleatoria esté entre dos
valores a y b es igual al área que encierra la función de densidad
en este intervalo.
p(a  X  b)
b
  f ( x)dx
a
f(X)
a
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
b
X
112
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Variables aleatorias continuas
La media o esperanza de una variable aleatoria continua es:

  E[X]   x  f(x)dx

La desviación típica de una variable aleatoria continua es:



(x - )2  f(x)dx
113
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Variables aleatorias continuas: Ejemplo
La vida de un virus en horas es una variable aleatoria con
función de densidad
 0
f(x)   3
 x 4
si x  1 hora
si x  1 hora
¿Cuál es el tiempo medio de vida de dicho virus? ¿Y su
desviación típica?
¿Cuál es la probabilidad de que un virus tomado al azar viva
más de cinco horas?
114
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Variables aleatorias continuas: Ejemplo
El tiempo medio de vida de dicho virus es

E[X]   x  f(x)dx  

1


3  dx
-3 
x 4 
 1.5 horas
2
x
2  x 1
y su desviación típica es 0.9 horas.
La probabilidad de que un virus tomado al azar viva más de
cinco horas es

p(X  5)   f(x)dx  
5

5

3  dx
-3 

 0.008
4
3
x
3  x 5
115
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Importancia de la esperanza
La importancia del concepto de esperanza se sigue de
las denominadas Leyes de los Grandes Números
• Si X1 , X 2 ,  , X n son variables independientes con la misma
distribución y media  entonces, para n grande
X1  X 2    X n

n
116
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Variables aleatorias continuas:
Relación entre histograma y función de densidad
600
600
600
500
500
500
400
400
400
300
300
300
200
200
200
100
100
100
0
0
3,20
X
3,97
4,75
5,52
0
6,30
3,01
X
3,78
4,56
5,33
6,11
2,91
3,49
4,07
4,65
5,23
5,82
6,40
X
El histograma tiende a una curva suave que es la función de densidad.
Como la suma de las áreas de los rectángulos del histograma es la
unidad (suma de las frecuencias relativas), el área que encierra la
función de densidad es la unidad.
117
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones de probabilidad
Algunas distribuciones específicas de probabilidad han
demostrado, empíricamente, que son modelos útiles para diversos
problemas prácticos.
Tales distribuciones presentan también un carácter teórico en el
sentido de que sus funciones de probabilidad o de densidad se
deducen matemáticamente, basándose en ciertas hipótesis que se
suponen válidas para ciertos fenómenos aleatorios.
La elección de una distribución de probabilidad para representar
un fenómeno de interés práctico debe estar motivada tanto por la
comprensión de la naturaleza del fenómeno en sí, como por la
posible verificación de la distribución seleccionada a través de la
evidencia
empírica.
Beatriz Lacruz Casaucau ([email protected])
118
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones discretas de probabilidad
Supongamos que un experimento aleatorio en el que
• En cada prueba del experimento sólo son posibles dos resultados:
la presencia de una determinada característica ‘A’ (éxito) o su
ausencia ‘no A’ (fracaso).
• El resultado obtenido en cada prueba es independiente de los
resultados obtenidos anteriormente.
• La probabilidad del suceso A es constante, la representamos
por p, y no varía de una prueba a otra. La probabilidad de ‘no
A’ es 1- p.
• El experimento consta de un número n de pruebas.
119
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones discretas de probabilidad
En la Antártida se está realizando una toma de muestras de hielo
para determinar su contenido de oxígeno. Dadas las difíciles
condiciones de muestreo, solo el 10% de las muestras extraídas
resultan válidas para el análisis. Para un experimento se necesita
disponer de 6 muestras válidas. Si se recogen 20, ¿cuál es la
probabilidad de que se pueda realizar el experimento?
• En cada muestra de hielo observamos si es válida (éxito) o no lo
es (fracaso).
• Cada muestra es observada de forma independiente.
• La probabilidad de que una muestra sea válida es p = 0.1 y de
que no sea 1 – p = 0.9.
• El experimento lo repetimos para cada una de las n = 20
muestras de hielo.
120
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones discretas de probabilidad: Binomial
La distribución binomial cuenta el número de éxitos en n
repeticiones independientes de un experimento aleatorio.
Los valores que toma la variable son: 0, 1, 2, ..., n, siendo n el
número total de observaciones.
La probabilidad de que se presente el suceso al observar un
individuo de la población es p.
La probabilidad de que se presente r veces el suceso al observar n
individuos es:
n r
pX  r     p 1  p n  r , r  0,..., n
r
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
121
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones discretas de probabilidad: Binomial
X = número de muestras válidas
n = 20
p = 0.1
p(X  6)  p(X  6)  p(X  7)    p(X  20) 
 20 
 20 
  0.16 (1  0.1)20 6      0.120 (1  0.1)20 20  0.011
6
 20 
La distribución binomial se encuentra tabulada según los valores de n
y p.
p(X  6)  1  p(X  6)  1  p(X  5)  1  0.9887  0.0113
p(X  6)  1  p(X  5)  1  CDF.BINOMIAL(5,20,0.1)  0.0113
122
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones discretas de probabilidad: Binomial
La media de la distribución binomial es:
Y su varianza:
μ  E[X]  n  p
2  Var[X]  n  p  (1 - p)
El número de muestras válidas esperado es
μ  E[X]  20  0.1  2 muestras válidas
Con una desviación típica igual a
20  0.1  0.9  1.8  1.3 muestras válidas
123
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones discretas de probabilidad: Binomial
Bi(10,0.2)
Bi(10,0.8)
Bi(10,0.5)
124
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones discretas de probabilidad: Hipergeométrica
Si en un conjunto de N unidades hay k que tienen una determinada
característica y se extrae una muestra con reemplazamiento de
tamaño n, el número de unidades en la muestra con la característica
es Bin(n,k/N) ya que en cada extracción la probabilidad de obtener
un individuo con la característica se mantiene constante y cada
extracción es independiente de las demás.
Si la muestra se extrae sin reemplazamiento, las extracciones no son
independientes (el resultado de cada una depende de las anteriores).
En esta situación se define la distribución Hipergeométrica.
125
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones discretas de probabilidad: Hipergeométrica
Sea una población de tamaño N en la que hay k unidades que
verifican una determinada característica. Se extrae una muestra
de n unidades seleccionadas sin reemplazamiento. El número de
veces que se observa la característica en la muestra sigue una
distribución hipergeométrica.
n
N
126
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones discretas de probabilidad: Hipergeométrica
La distribución hipergeométrica viene dada por:
k N  k
   

r  n-r 

p(X  r) 
,
 N
 
n
k
  E[X]  n 
N
0  r  k y 0  n-r  N-k
k  (N - k)  ( N  n)
  Var[X]  n 
N 2  ( N  1)
2
Si N es muy grande, n pequeño y k/N=p, entonces la distribución
hipergeométrica se aproxima a una Binomial(n,p)
127
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones discretas de probabilidad: Hipergeométrica
Se tiene una población de 100 muestras de hielo de las que
10 son válidas. Se seleccionan 20 para la realización de un
experimento, ¿cuál es la probabilidad de que 6 de ellos
sean válidas?
 10   100  10 

   
6   20  6 

p(X  6) 
 0.0003
 100 


 20 
El número esperado de muestras válidas en una muestra de
tamaño 20 es 2 con una desviación típica de 1.2 muestras
válidas.
128
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones discretas de probabilidad: Hipergeométrica
k  20
N  100
k  50
k  80
n  10
129
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones discretas de probabilidad: Poisson
La distribución de Poisson cuenta el número de veces que se
presenta un suceso en un intervalo de longitud uno, cuando el
promedio de ocurrencias en cada intervalo de longitud t es t,
las ocurrencias del suceso están igualmente repartidas en todo
el intervalo y son independientes de un intervalo a otro.
e -  r
p(X  r) 
r!
r  0,1,2...
donde  es una constante.
  E[X]  
2  Var[X]  
130
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones discretas de probabilidad: Poisson
Para un volumen fijo, el número de células sanguíneas rojas
es una variable aleatoria que se presenta con frecuencia
constante. Si el número medio para un volumen dado es 9
células en personas normales, ¿cuál es la probabilidad de
que una persona se encuentre dentro de una desviación
típica del valor promedio?
p( -   X     )  p(9 - 9  X  9  9 ) 
p(6  X  12)  p(X  12) - p(X  6) 
p(X  12) - p(X  5)  0.8758 - 0.1157  0.7601
131
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones discretas de probabilidad: Poisson
La distribución binomial se aproxima a la de Poisson cuando el
número de observaciones n es muy grande y la probabilidad de
que ocurra el suceso de interés p es muy pequeña, con =np. Por
esto, la ley de Poisson se denomina ley de los sucesos raros.
La distribución Poisson se encuentra tabulada según los valores de .
Número de casos de gripe en una ciudad en una semana
Número de mutaciones en una raza en un mes
Número de señales que recibe un receptor en un minuto
Número de plantas de musgo por metro cuadrado en una
ladera
132
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones discretas de probabilidad: Poisson
Mediante estudios recientes se ha determinado que la
probabilidad de morir por causa de una vacuna contra la
gripe es de 2 casos de cada 100.000 personas. Si se
administra la vacuna a 100.000 personas, ¿cuál es la
probabilidad de que mueran no más de dos personas a
causa de la vacuna?
• Se considera que el que una persona muera por efecto de
la vacuna es independiente de lo que le ocurra al resto.
• El número de personas que muere por causa de la vacuna
es una variable binomial con n=100.000 personas y
probabilidad de morir p=0.00002.
133
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones discretas de probabilidad: Poisson
 1
4
 2
 8
134
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones discretas de probabilidad: Poisson
Debido a que la probabilidad es muy pequeña y el número de
individuos sobre el que se realiza el experimento es muy
grande, se aproxima la distribución binomial por la Poisson
con
  n  p  100.000  0.00002  2
p(X  2)  p(X  0)  p(X  1)  p(X  2) 
20  e -2 21  e -2 22  e -2


 0.6767
0!
1!
2!
135
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Otras distribuciones discretas: Geométrica o de Pascal
La distribución geométrica cuenta el número de repeticiones
necesarias hasta que se presenta un éxito por primera vez en
realizaciones independientes del experimento.
.
,
2
,
1
r
La probabilidad de que se necesiten r intentos hasta que se
presente el suceso de interés, cuya probabilidad de aparecer es p,
es:
p(X  r)  (1  p)r-1 p , 
1
  E[X] 
p
..
(1 - p)
  Var[X]  2
p
2
136
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Otras distribuciones discretas: Geométrica o de Pascal
¿Cuál es la probabilidad de tener que tomar 20 muestras
de hielo hasta encontrar la primera válida?
X = número de muestras de hielo hasta encontrar la
primera válida, p=0.1
p(X  20)  (1  0.1)19  0.1  0.0135
El número medio de observaciones que se deben realizar
hasta encontrar la primera muestra válida es 10 con una
desviación típica de 9.5 intentos.
137
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Otras distribuciones discretas: Geométrica o de Pascal
p  0.3
p  0.5
p  0.7
138
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Otras distribuciones discretas: Binomial negativa
La distribución binomial negativa cuenta el número de fracasos
que se presentan antes de que se produzcan k éxitos en
realizaciones independientes del experimento.
La probabilidad de que se presenten r fracasos antes de que se
produzcan k éxitos, (donde p es la probabilidad de éxito), es:
 k  r  1 k
 p (1  p) r , r  0,1,...
p(X  r)  
 r 
k  1  p
  E[X] 
p
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
2  Var[X] 
k  (1 - p)
p2
139
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Otras distribuciones discretas: Binomial negativa
¿Cuál es la probabilidad de tener que observar 20
muestras para disponer de dos válidas?
X = número de muestras de hielo no válidas
para encontrar dos válidas, p=0.1
 2  18  1  2
 0.1  (1  0.1)18  0.0285
p(X  18)  
 18 
El número medio de muestras no válidas que se deberán
encontrar antes de conseguir dos válidas es 18 con una
desviación típica de 13.4 muestras.
140
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Otras distribuciones discretas: Binomial negativa
p  0.3
k4
p  0.5
p  0.7
141
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Otras distribuciones discretas : Ejemplo
Un biólogo desea capturar un ejemplar de una clase de
mariposa que se encuentra en un porcentaje del 15%. ¿Qué
posibilidades tiene de tener que cazar 10 mariposas de una
clase no deseada antes de encontrar un ejemplar de la
clase deseada?
p(X  11)  (1  0.15)10  0.15  0.0295
¿Y antes de conseguir 3 ejemplares de la clase deseada?
 3  10  1 
 0.153  (1  0.15)10  0.0439
p(X  10)  
 10 


Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
142
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones continuas de probabilidad: Normal o de Gauss
La distribución Normal es la distribución continua más
importante y usada. Puede tomar cualquier valor entre - y +.
Su función de densidad es

1
e
f(x) 
 2
(x  )2
2 2
donde  y  son constantes que coinciden con la media y la
desviación típica, respectivamente, y determinan la posición y la
forma de la distribución.
Esta función es simétrica, con forma de campana y alcanza su
valor máximo en .
143
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones continuas de probabilidad: Normal o de Gauss
Se encuentra tabulada la distribución normal estándar, es decir, la
distribución normal con media 0 y desviación típica 1.
N(0,1)
N(-2,1)
N(2,1)
144
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones continuas de probabilidad: Normal o de Gauss
N(0,1)
N(0,2)
145
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones continuas de probabilidad: Normal o de Gauss
p(X  2.5)  p(X  2.5)
146
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones continuas de probabilidad: Normal o de Gauss
Propiedades:
• Si X es una variable normal con media  y desviación típica ,
entonces Z  (X -  ) /  se distribuye según una normal estándar.
• Si X1 , X 2 ,  , X n son variables aleatorias independientes y
normales con media i , y desviación típica  i ,
 n
c1X1  c 2 X 2    c n X n es N  ci i ,
 i 1


c 


i 1

n
2
i
2
i
• Si X1 , X 2 ,  , X n son independientes con la misma distribución,
media  , y desviación típica  , entonces, para n grande (Teorema
central del límite)
X1  X 2    X n  N(n ,  n )
147
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones continuas de probabilidad: Normal o de Gauss
La longitud de las alas de mosca común se distribuye
normalmente con media 4.55 mm. y desviación típica 3.9 mm.
¿Cuál es la probabilidad de encontrar una mosca que tenga
una longitud de ala superior a 5 mm.? ¿E inferior a 3 mm.?
 X - 4.55 5 - 4.55 
p(X  5)  p

  p(Z  0.12) 
3.9 
 3.9
1  p(Z  0.12)  1 - 0.5478  0.4522
3 - 4.55 

p(X  3)  p Z 
  p(Z  0.4)  p(Z  0.4) 
3.9 

 1 - p(Z  0.4)  1  0.6554  0.3446
148
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones continuas de probabilidad: Normal o de Gauss
El peso en kilos de los recién nacidos de un hospital está
distribuido normalmente con media 3 kg. ¿Cuál es la
desviación típica, si el 98% de los bebés tiene un peso
comprendido entre los 2.5 y los 3.5 kilos?
X = peso en kilos de un recién nacido
3.5 - 3  
0.5  
- 0.5 
 2.5 - 3
0.98  p(2.5  X  3.5)  p
Z

 - p Z 
  p Z 
 
  
  
 
0.5  
0.5  
0.5  
0.5  
0.5 



p Z 
  p Z 
   1 - p Z 
   2  p Z 
 1
  p Z 
  
 
 
  
  



0.5  0.98  1
0.5

p Z 
 0.99 
 2.33    0.21 gr.

 
2


149
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones continuas de probabilidad: Normal o de Gauss
La distribución binomial se aproxima por la normal cuando el
número de observaciones n es grande y la probabilidad de que
ocurra el suceso de interés no está próximo ni a 0 ni a 1.

Bi(n, p)  N np, np(1  p)

En la población de mosquitos en los que el 40% están
infectados se observa una muestra de 100 mosquitos,
¿cuál es la probabilidad de que la mitad o menos estén
sanos?
Sanos = X ~ Bi100,0.6   N 100  0.6, 100  0.6  0.4
50  100  0.6 

p(X  50)  p Z 
  p(Z  -2.02)  1  0.979  0.021
100  0.6  0.4 



150
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones continuas de probabilidad: Normal o de Gauss
Bi(5,0.2)
Bi(10,0.2)
Bi(20,0.2)
Bi(30,0.2)
151
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones continuas de probabilidad: Normal o de Gauss
En un invernadero se mezclan las semillas de dos clases de
rosas: rojas y blancas. La proporción de descendientes de
segunda generación blancos puros es 25 de cada 100, ¿cuál
es la probabilidad de que entre 400 rosas de segunda
generación, más de 115 sean blancas?

X ~ Bi400,0.25   N 400  0.25, 400  0.25  0.75


115 - 400  0.25 

  p(Z  1.73)  1  p(Z  1.73)  0.0418
p(X  115)  p Z 
400  0.25  (1 - 0.25) 

¿Podrías dar un límite superior del número de rosas
blancas con una probabilidad del 80%?
k - 100
k - 100 
k - 100 



 0.85  k  107
0.2  p(X  k)  p Z 

1

p
Z




152
75
75




75
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones continuas de probabilidad: Normal o de Gauss
La distribución Poisson se aproxima por la normal cuando el
promedio  es mayor que 5.

P()  N , 
 5

  10
  30
153
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones continuas de probabilidad: Normal o de Gauss
El número de casos de cáncer de vejiga en hombres entre
35 y 40 años en un hospital es aproximadamente de 15 por
año, ¿cuál es la probabilidad de que en un año determinado
aparezcan más de 10 casos?

X ~ P15   N 15, 15

10 - 15 

p(X  10)  p Z 
  p(Z  1.29)  p(Z  1.29)  0.9015
15 

154
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones continuas de probabilidad: Normal o de Gauss
El número de piezas defectuosas en una caja de 100
unidades de un producto es 0, 1, 2 ó 3 con probabilidades
respectivas 0.3, 0.3, 0.3 y 0.1. En un total de 1000 cajas,
¿cuál es la probabilidad de que haya más de 1250 piezas
defectuosas?
Xk  Número piezas defectuosas en la caja k
  0  0.3  1 0.3  2  0.3  3  0.1  1.2
 2  (0  1.2) 2  0.3  (1  1.2) 2  0.3  (2  1.2) 2  0.3  (3  1.2) 2  0.1  0.96
S  k 1 Xk 
1000

Número total de piezas defectuosas

S ~ N 1000 , 1000  N1200,30.98 
 S  1200 1250  1200 

pS  1250   p
  pZ  1.61  0.054
30.98 
 30.98
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
155
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Otras distribuciones continuas : Lognormal
Cuando una variable aleatoria X se transforma mediante la
función logarítmica, ln X, y esta nueva variable se distribuye
según una normal, se dice que X tiene distribución lognormal.
El tamaño de elementos se suele distribuir según una distribución
lognormal.
Es útil para comparar distribuciones asimétricas con variabilidades
muy distintas.
156
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Otras distribuciones continuas: Lognormal
50
50
40
40
30
30
20
20
10
10
0
0
2
4
6
8
10
12
14
16
18
20
22
24
26
28
X
30
32
,6
,9
1,1
1,4
1,6
1,9
2,1
2,4
2,6
2,9
3,1
Ln X
157
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
3,4
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones relacionadas con la normal: Chi-cuadrado
Si Z1,...,Zn son variables aleatorias independientes e igualmente
distribuidas con distribución N(0,1), la variable
Z12  Z 22    Z n2
sigue una distribución 2 con n grados de libertad.
La distribución 2 es asimétrica y se encuentra tabulada según los
valores de n.
Es una distribución asociada al concepto de distancia, puesto que
Z  Z   Z
2
1
2
2
2
n
representa la distancia del vector (Z1, Z2 ,..., Zn ) a su media
(0,0,...,0).
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
158
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones relacionadas con la normal: Chi-cuadrado
n 2
n4
n 8
159
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones relacionadas con la normal: F de Snedecor
Cuando se compara la longitud de dos vectores aleatorios de
variables normales independientes de dimensiones n y m,
respectivamente, surge la distribución F de Snedecor con n y m
grados de libertad.
Si X=(X1,...,Xn) e Y=(Y1,...,Ym) son vectores de variables aleatorias
N(0,1), todas independientes entre sí
X 12  X 22   X n2  2n
n
n F

n ,m
Y12  Y22   Ym2
 2m
m
m
La F se encuentra tabulada según los valores de n y m.
160
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones relacionadas con la normal: F de Snedecor
F16,16
F4,2
161
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones relacionadas con la normal: t de Student
La distribución t de Student con n grados de libertad compara
una variable N(0,1) con la longitud promedio de un conjunto de n
variables independientes.
Z
 tn
2
n
n
Es una distribución simétrica, con forma de campana, con más
dispersión que la distribución normal estándar y que tiende a ésta
cuando n crece.
La t es un caso particular de la F: t n2  F1,n
Se encuentra tabulada según los valores de n.
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
162
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones relacionadas con la normal: t de Student
n 3
N(0,1)
n 1
163
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Otras distribuciones continuas: Uniforme
La distribución uniforme toma cualquier valor en un intervalo
finito, de forma que los valores se encuentran distribuidos
igualmente sobre el intervalo.
 1

f(x)  b  a
 0
a b

2
U[a, b]
si a  x  b
resto
2

(b
a)
2 
12
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
1
b-a
a
b
164
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Otras distribuciones continuas: Uniforme
La concentración de un contaminante se encuentra
distribuida uniformemente en el intervalo de 4 a 20 partes
por millón. Si se considera tóxico cuando aparecen 15 ppm o
más, ¿cuál es la probabilidad de que al tomarse una muestra
la concentración de ésta sea tóxica?
p(X  15)  
20
15
dx
x
20 - 15 5
  

 0.3125
20  4 16 15
16
16
20
165
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Otras distribuciones continuas: Exponencial
Una distribución exponencial cuenta el tiempo entre la
ocurrencia de dos sucesos consecutivos de Poisson o el tiempo
que transcurre hasta el primer suceso de Poisson.
Toma valores entre 0 y +. Suele usarse para modelar tiempos de
vida o tiempos de espera.
f(x)    e
1


 x
si x  0
1
  2

2
166
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Otras distribuciones continuas: Exponencial
La vida de un tipo de insecto se distribuye según una
exponencial con media 8 meses, ¿cuál es la probabilidad de
que un insecto cualquiera viva entre 3 y 12 meses?
12
p(3  X  12)  
3

x
8
x

8
12

e
dx  - e   0.4642
8
3
¿Cuál es la probabilidad de que un insecto que ha vivido 10
meses, viva 15 meses más?
p(X  25  X  10) p(X  25)
p(X  25 X  10) 

 0.1533
p(X  10)
p(X  10)
167
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Otras distribuciones continuas: Beta
La distribución beta sirve para modelizar magnitudes físicas
cuyos parámetros se encuentran restringidos a un intervalo de
longitud fija.
Beta(2,3) Beta(2,2)
Beta(1,1)
Beta(0.5,1)
Beta(1,0.5)
Beta(2,1)
168
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Otras distribuciones continuas: Gamma y Weibull
La distribución gamma y la Weibull sirven para modelizar
tiempos de vida. La variable gamma cuenta el tiempo
transcurrido hasta la ocurrencia del suceso de Poisson k-ésimo.
Gamma(1,1)
Gamma(2,1)
Gamma(2,2)
Weibull(1, 1)
Weibull(2, 1)
Weibull(2, 2)
169
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones multivariantes
Cuando sobre cada individuo se miden varias variables se tiene
una variable multidimensional.
Las dimensiones de una red de alcantarillado, que resuelva
los problemas de evacuación de aguas pluviales, depende de
la duración de las tormentas y de la precipitación total de
ellas para lo que se requiere la distribución conjunta de
ambas variables.
170
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones multivariantes: Multinomial
Sea un experimento que consiste en observar individuos al azar
de forma independiente y clasificarlos en uno de entre k grupos,
siendo pi la probabilidad de pertenecer al grupo i-ésimo.
La variable aleatoria X=(X1,..., Xk) donde Xi cuenta el número
de elementos en la clase i-ésima es la variable multinomial.
La distribución multinomial es la generalización multivariante
de la distribución binomial.
k
ni  n

n!
i1
p(x1  n1 , x2  n2 ,  , xk  nk ) 
p1n1  p2n2    pknk
k
n1 !n2 ! nk !
 pi  1
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
i1
171
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones multivariantes: Multinomial
En el servicio de urgencias de un hospital se atiende a los
enfermos clasificándolos en sanos, de carácter leve y de
carácter grave. Se sabe que el 70% de los pacientes que
acuden a este servicio están sanos, el 20% con
enfermedades leves y el resto graves. Si en un momento
dado entran 3 pacientes a la vez, ¿qué probabilidad hay de
que sea uno de cada tipo?
3!
p(x1  1, x 2  1, x 3  1) 
0.71  0.21  0.11  0.084
1!1!1!
172
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones multivariantes: Normal
Un vector X=(X1,..., Xk) sigue una distribución Normal
multivariante si su función de densidad es:
1
f(x1 , x2 ,  , xk ) 
e
n2
det   (2)
 12

21




 k1
12 
22



2k 
 1

-1
  ( X   )  ( X - ) 
 2

1k 
  1 , 2 ,  , k 

2k  es el vector de medias.

 

2k  es la matriz de varianzas-covarianzas.
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
173
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones multivariantes: Normal
174
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Bibliografía
• W. Feller (1991) Introducción a la Teoría de Probabilidades y
sus Aplicaciones (7ª edición), Ed. Limusa.
• S. Ross (1994) A first course in probability, Fourth Edition,
Prentice Hall.
• N. L. Johnson, S. Kotz y A. W. Kemp (1992) Univariate
Discrete Distributions, Wiley.
• N. L. Johnson, S. Kotz y N. Balakrishnan (1994 y 95,
respectivamente) Continuous univariate distributions, Vol. 1 y
2, Wiley (Estos libros proporcionan una recopilación exahustiva
de los modelos de distribuciones de probabilidad.)
175
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2:
INFERENCIA ESTADÍSTICA
176
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
2.1 Introducción a la inferencia estadística
2.2 Estimación paramétrica puntual y por intervalos
2.3 Contrastes de hipótesis paramétricas
2.4 Crítica del modelo
2.5 Contrastes de hipótesis no paramétricas para dos muestras
2.6 Análisis de tablas de contingencia
177
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Introducción a la inferencia estadística
La Inferencia Estadística:
• permite inducir características de una población a partir de las
características obtenidas de los datos de una muestra, y
• proporciona una medida del grado de confianza, medido en
términos de probabilidad, que debe atribuirse a las
características inducidas a través de los valores de la muestra.
178
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Introducción a la inferencia estadística
Los procedimientos de inferencia estadística pueden clasificarse en:

Los métodos paramétricos suponen que los datos provienen
de una distribución que se caracteriza por cierto número de
parámetros que se estiman a partir de los datos.
El número de chicos en una familia es una binomial de
parámetros n y p.

Los métodos no paramétricos suponen aspectos muy
generales de la distribución (que es continua, simétrica, etc.) y
tratan de estimar su forma o contrastar su estructura.
179
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Métodos de inferencia basados en muestras
La naturaleza de la inferencia estadística requiere una muestra
aleatoria que proporcione los medios adecuados para poder estimar
o contrastar los parámetros desconocidos.
La población de la que proviene la muestra puede consistir en:

Un conjunto infinito de posibles resultados para alguna
característica medible de interés.
La muestra aleatoria se elige repitiendo el experimento (la
medición) en las mismas condiciones hasta obtener varias
observaciones de dicha característica.
Ejemplo: El número de caras al lanzar 20 veces una moneda.
180
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Métodos de inferencia basados en muestras

Un conjunto finito de individuos de los que interesa cierta
característica cualitativa o cuantitativa.
Del conjunto de mujeres mayores de 40 años se estudia
la edad y si padecen cáncer de mama.
La muestra se puede elegir aleatoriamente de forma que:

cada elemento de la población tenga la misma
probabilidad de ser elegido, y

en cada extracción se devuelve el elemento seleccionado
a la población (muestreo con reemplazamiento o con
reposición) o se seleccionan uno tras otro sin reemplazo
(muestreo sin reemplazamiento o sin reposición) .
181
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Métodos de inferencia basados en muestras
Una muestra aleatoria simple (m.a.s.) es una muestra donde cada
observación es independiente de las demás y su distribución es la
misma que la de la población.
• Una muestra aleatoria simple corresponde a la extracción de n
individuos en una población infinita o en una población finita con
reemplazamiento y selección equiprobable.
• Si el tamaño de la población es finito pero muy grande, una
muestra tomada sin reemplazamiento se asimila a una con
reemplazamiento, con lo que puede considerarse también una
muestra aleatoria simple.
• Las muestras aleatorias simples son las más utilizadas en
estadística.
182
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Estadísticos
Una muestra aleatoria simple es una colección de variables
aleatorias independientes. Cada una tiene la misma distribución que
la característica poblacional en estudio.
Un estadístico es una cantidad numérica que se obtiene a partir de
los valores de la muestra.
Se ha realizado estudio sobre la presión sanguínea
medida en 10 mujeres entre 30 y 35 años. Los
resultados en mm Hg. son:
88, 84, 85, 80, 82, 87, 84, 86, 83, 81
La media muestral, 84 mm Hg, y la desviación típica,
2.75 mm Hg., son estadísticos.
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
183
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Distribución de un estadístico en el muestreo
Un estadístico es una variable aleatoria. La probabilidad de que un
estadístico tome un determinado valor depende de la probabilidad
de seleccionar la muestra o muestras que lo determinan.
Para determinar qué tipo de enfermedad padece un
individuo se utiliza un conjunto de 5 síntomas. El individuo
puede no padecer ninguno de los síntomas, 1, 2, 3, 4 o
todos, indistintamente.
  E(X)  2.5 síntomas
1/6
2  Var(X)  2.92
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
0
1
2
3
4
5
184
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Distribución de un estadístico en el muestreo
Paciente 1
Paciente 1
Varianza
1
2
3
4
5
0
0
0.5
1
1.5
2
2.5
1
0.5
1
1.5
2
2.5
3
2
1
1.5
2
2.5
3
3.5
3
1.5
2
2.5
3
3.5
4
4
2
2.5
3
3.5
4
4.5
4
5
2.5
3
3.5
4
4.5
5
5
Paciente 2
0
Paciente 2
Media
0
1
2
0
0
0.25
1
1
0.25
0
2
1
3
4
6.25 4
2.25
0.25
0.25 0
185
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
6.25
0.25 1
0.25 0
2.25 1
5
2.25 4
0.25 1
0.25 0
2.25 1
4
2.25 4
0.25 1
0.25 0
2.25 1
3
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Distribución de un estadístico en el muestreo
Las distribuciones de probabilidad de la media y varianza
muestrales son
0
X
0.5
1.5
1
2
2.5
3
1/36 2/36 3/36 4/36 5/36 6/36 5/36
p(X)
E(X)  2.5  
s
0
2
2
p(s )
0.25
1
2.25
3.5
4
5
4.5
4/36 3/36 2/36 1/36
2
Var( X)  1,46 
,n 2
n
4
6.25
6/36 10/36 8/36 6/36 4/36 2/36
E(m 2 )  1,46   2
Var(m 2 )  2,90
186
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
30
30
20
20
10
10
Porcentaje
Porcentaje
Distribución de un estadístico en el muestreo
0
,0
,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
4,5
5,0
MEDIA
Distribución simétrica, con
forma de campana, centrada
en el valor
=2.5
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
0
,00
,25
1,00
2,25
4,00
6,25
VARIANZA
Distribución asimétrica
cuya media es 1.46  2
187
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Distribución de la media muestral
X1  X2    Xn
X
n
Si la característica poblacional tiene media  y varianza 2, entonces
MEDIA MUESTRAL:
E(X)  μ
σ2
Var( X) 
n
Si la muestra se extrae sin reposición en una población de tamaño N
E(X)  μ
N  n σ2
Var( X) 
N 1 n
Se observa que si el tamaño de la población N es infinito o muy
grande con respecto a n, las dos situaciones son equivalentes.
188
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Distribución de la media muestral
Si la variable es normal con media  y varianza 2, entonces
  
X ~ N ,

n

La desviación típica 
n se denomina error estándar de la media.
Esta expresión permite obtener el tamaño de la muestra, fijado el
error que se desea cometer en la estimación de la media.
El error estándar disminuye al aumentar el tamaño de la muestra.
189
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Distribución de la media muestral
TEOREMA CENTRAL DEL LÍMITE
Dada una población con media  y varianza 2 finita, y se extrae de
dicha población una muestra aleatoria simple de tamaño n,
entonces la media muestral tiene una distribución con media  y
varianza 2/n, que tiende hacia la distribución normal cuando n
tiende a infinito.
X ~ N(, 
n)
Este resultado es muy importante en la práctica porque no se
requiere que la distribución de la población sea conocida.
190
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Distribución de la media muestral
Media  1,96
100
120
90
110
Media  0,51
100
80
90
70
80
60
70
50
60
40
50
40
30
30
20
20
10
10
0
0
,83
1,15
1,47
1,79
2,11
2,43
2,75
3,07
,23
Medias de muestras de tamaño 10 de una Poisson(2)
,31
,39
,47
,55
,63
,71
,79
Medias de muestras de tamaño 10 de una U(0,1)
Media  2,01
100
120
Media  0,5
100
80
80
60
60
40
40
20
20
0
0
,88
1,18
1,49
1,80
2,10
2,41
2,72
Beatriz Lacruz Casaucau ([email protected])
de muestras
de tamaño
100 de unade
Poisson(2)
Dpto. Medias
Métodos
Estadísticos.
Universidad
Zaragoza
3,02
,23
,31
,39
,47
,55
,63
Medias de muestras de tamaño 100 de una U(0,1)
,71
,79
191
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Distribución de la media muestral
Para una muestra relativamente grande, se espera que el valor de la
media muestral esté muy próximo al verdadero valor de la media
poblacional.
50
2  50
40
Error de estimación de la media
Las muestras grandes
son difíciles y caras de
conseguir. Además, en
general, el aumento en
precisión no se
compensa con el
aumento excesivo del
tamaño de la muestra.
30
  10
2
20
10
0
0
10
20
30
40
192
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
Tamaño de la muestra
50
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Distribución de la proporción muestral
Supongamos que en una población, la proporción de individuos que
presentan una determinada característica es P. Se selecciona una
muestra aleatoria simple de tamaño n, donde cada observación es 1
indicando que el individuo posee la característica, o bien 0
indicando que el individuo no la posee. En este caso, la media
muestral es:
x
p
proporción muestral
n
Donde x representa el número de veces que aparece la
característica. La media muestral representa la proporción
muestral de individuos que poseen la característica.
193
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Distribución de la proporción muestral
Puesto que x mide el número de veces que aparece una característica
en n repeticiones independientes, x tiene una distribución binomial
cuya media es n·P y cuya varianza es n·P·(1-P). Así,
E(p)  P
P(1 - P)
Var(p) 
n
son la media y la varianza de la distribución de la proporción
muestral.
Si n es grande, entonces p es una variable aleatoria normal con
media P y varianza P·(1-P)/n
194
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Distribución de la varianza muestral
VARIANZA MUESTRAL:
n -1 2
E(m2 ) 
σ
n
CUASIVARIANZA MUESTRAL
E(s2 )  σ 2
1 n
2
m2   Xi  X
n i1


1 n
2
2
s 
 Xi  X
n  1 i1


La esperanza de la cuasivarianza muestral coincide con 2.
Las distribuciones de la varianza y cuasivarianza muestrales son
asimétricas.
195
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Distribución de la cuasivarianza muestral
Paciente 2
Cuasivar.
s
0
1
2
3
4
5
0
0
0.5
2
4.5
8
12.5
1
0.5
0
0.5
2
4.5
8
2
2
0.5
0
0.5
2
4.5
3
4.5
2
0.5
0
0.5
2
4
8
4.5
2
0.5
0
0.5
5
12.5
8
4.5
2
0.5
0
E(s2 )  2.92  2
Var(s )  11,62
2
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
0
2
2
0.5
2
4.5
8
12.5
6/36 10/36 8/36 6/36 4/36 2/36
p(s )
30
20
10
Porcentaje
Paciente 1
0
,0
,5
CUASIVARIANZA
2,0
4,5
8,0
12,5
196
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Distribución de la cuasivarianza muestral
En una distribución normal,
s2
~ χ2
(n  1)
n 1
2
σ
E(s2 )  2
4
2


2
Var(s ) 
n -1
En una distribución normal, la media y la cuasivarianza muestrales
son variables aleatorias independientes.
197
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Distribución de la cuasivarianza muestral
La distribución del espesor de un material plástico es normal
con una desviación estándar de 0.01 cm. La variación en el
espesor influye en los resultados del control de calidad. Una
muestra aleatoria de 25 piezas tiene una (cuasi)desviación
estándar de 0.015 cm, ¿cuál es la probabilidad de que una
muestra presente una (cuasi)desviación típica igual o mayor
que 0.015? ¿Qué se puede concluir con respecto a la
variación de este proceso?
2
2



(n
1)
s
(n
1)
0.015

2
2
 
p(s  0.015 )  p

2
2




p(2251
(25 - 1)  0.0152
2

)

1
p(

25 1  54)  0
2
0.01
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
198
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Estimación puntual
En estadística paramétrica, un estimador puntual es un estadístico que
nos sirve para estimar el valor de un parámetro desconocido.
Algunas características
Estimador insesgado: su esperanza es el valor del parámetro.
Sesgo: diferencia entre el verdadero valor del parámetro y la
esperanza del estimador.
Error cuadrático medio: sesgo al cuadrado más la varianza del
estimador.
Estimador consistente: su error cuadrático medio tiende a 0
cuando el tamaño muestral tiende a infinito.
Estimador suficiente: utiliza toda la información que hay en la
muestra sobre el parámetro.
199
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Estimación puntual
Hay diversos métodos para la construcción de estimadores
El método de sustitución consiste en estimar los valores poblacionales
(media, varianza, mediana…) por sus correspondientes muestrales.
Ejemplo: media muestral para media poblacional es insesgado,
consistente y (en muchas ocasiones) suficiente.
m2 no es insesgado para la varianza poblacional, sí es consistente
s2 es insesgado y consistente.
200
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Estimación por intervalos
La información que proporciona un estimador puntual de un
parámetro desconocido es sólo un valor. Interesa, en general, conocer
también alguna medida de la incertidumbre de la estimación.
Una posibilidad consiste en obtener, utilizando los datos de la
muestra, dos estadísticos que representen un nivel inferior y un nivel
superior entre los que se encuentre el verdadero valor del parámetro
desconocido, de forma que el intervalo contenga dicho valor con una
cierta probabilidad o nivel de confianza.
El intervalo será aleatorio puesto que, para cada muestra los
estadísticos podrán tomar valores distintos.
201
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Estimación por intervalos
En la estimación por intervalos se consideran tanto el estimador
puntual como su distribución en el muestreo con el propósito de
determinar un intervalo que, con cierta seguridad, contendrá al
verdadero valor del parámetro.
El intervalo, llamado intervalo de confianza, permite precisar la
incertidumbre existente en la estimación.
Un intervalo de confianza para el parámetro  con nivel de
confianza 1 -  es un intervalo de la forma:
(a,b)
donde los límites a y b son estadísticos de forma que la
probabilidad de que contengan al verdadero valor de  es al menos
1 -  . Beatriz Lacruz Casaucau ([email protected])
202
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Estimación por intervalos
La interpretación de un intervalo a nivel 1 es la siguiente. Si
construimos, utilizando los estadísticos a y b, un número grande de
intervalos de confianza, al menos un 100(1)% de ellos contendrá
al verdadero valor del parámetro.
Si observamos una muestra y calculamos un intervalo de confianza
a nivel 0.95 (por ejemplo) y obtenemos los límites numéricos 2.5 y
4.1, esto no podemos interpretarlo como que “hay una probabilidad
de al menos el 95% de que el parámetro esté entre 2.5 y 4.1”, sino
en el sentido frecuentista anterior.
203
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Estimación por intervalos
Para construir el intervalo de confianza para un parámetro
desconocido se puede utilizar el método del pivote que consiste en:




encontrar una función (pivote) que dependa del parámetro
desconocido y del estadístico elegido como estimador
que no contenga cantidades desconocidas, excepto el parámetro en
cuestión, y
cuya distribución sea conocida y no dependa de parámetros
desconocidos.
Dada la distribución de dicha función elegir los valores a y b tales
que p(a    b) = 1-.
204
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Intervalos de confianza para la media de una población normal
   Si la varianza de la población es conocida, se tiene
X ~ N ,


n
X
que
~ N0,1
 n

2

2


X

p  z1α 2 
 z1α 2   1  
 n


Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
 z1 2
z1 2
205
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Intervalos de confianza para la media de una población normal
El intervalo de confianza para la media  de una variable normal
con varianza 2 conocida, con nivel de confianza 1- , es

 

, X  z1 2 
 X  z1 2
n
n

donde z1-  /2 es el valor de una variable normal estándar tal que
p(z < z1-  /2)= 1-/2.
206
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Intervalos de confianza para la media de una población normal
Para determinar el nivel de alcohol en la sangre que produce
parada respiratoria en ratas, se les inyecta cantidades de
alcohol hasta que se les produce la parada respiratoria.
El nivel de alcohol en la sangre en esta población se
distribuye según una normal de desviación típica 0.2795
mg/mL.
Se seleccionan 7 ratas al azar y se observan las siguientes
cantidades de alcohol: 9.0, 9.7, 9.4, 9.3, 9.2, 8.9 y 9.0.
La media de la muestra es 9.21 mg/mL. con un error de
estimación de 0.2795 7  0.1179
Al 95% de confianza la media de la población está entre
9.2143Beatriz
 zLacruz
 0.1179
 9.2143  1.96  0.1179  (8.9832, 9.4454)
0.975Casaucau
([email protected])
207
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Intervalos de confianza para la media de una población normal
Si la varianza de la población es desconocida, se tiene que
X

s n
X
 n
(n - 1)  s
2  (n - 1)
2

N0,1
2
n 1

n -1
~ tn-1
puesto que numerador y
denominador son
independientes.
El intervalo de confianza para la media  de una variable normal
con  desconocida, con nivel de confianza 1- , es

 X  t n 1,1-

2
s
, X  t n 1,1-
n
2
s 

n
donde tn-1,1- /2 es el valor de una variable t de Student con n-1
grados de libertad tal que p(t < tn-1,1- /2 ) = 1 - /2.
208
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Intervalos de confianza para la media de una población normal
A 9 personas que padecen neurosis de ansiedad se les mide
la presión sanguínea en mm Hg antes de tomar un fármaco
(propanol) y 4 horas después. Se calcula la diferencia de
presión Antes-Después con los siguientes resultados: +1, -1,
+20, -10, +19, +8, +6, -1, y +3.
La diferencia media es 5 mm Hg y la (cuasi)desviación típica
9.6695 mm Hg.
Si se supone que las diferencias en la presión sanguínea se
distribuyen según una normal, entonces al 95% de confianza
la diferencia media en la población estará entre
5  t91, 0.975  9.6695
9  5  2.31  3.2232  (-2.446, 12.446)
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
209
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Intervalos de confianza para la media
Los niveles de confianza más usuales dan lugar a los siguientes
percentiles:
Se observa que para muestras pequeñas de poblaciones normales con
varianza desconocida, el intervalo que resulta es más ancho que el
que resulta cuando la varianza es conocida.
210
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Intervalos de confianza para la media: Caso general
Cuando la muestra proviene de una población cualquiera, si el tamaño
de la muestra n es grande, se tiene que
X
~ N(0,1)
s n
El intervalo de confianza para la media  con  desconocida con
nivel de confianza 1- , cuando tamaño de la muestra grande, es
s
s 

, X  z1 2
 X  z1 2

n
n

donde z1-  /2 es el valor de una variable normal estándar tal que
p(z < z1-  /2)=1 - /2.
211
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Intervalos de confianza para la media: Caso general
Los errores de redondeo que se cometen al tomar un solo
dígito decimal en la medición de la concentración de una
sustancia en la sangre sigue una distribución desconocida en
[-0.05, 0.05]. Nos interesa conocer el error medio que se
comete para ver si este procedimiento tiene sesgo. Se
realizan 100 mediciones obteniéndose un error medio de
0.001 con una (cuasi)desviación típica de 0.03.
La estimación de la media es por tanto 0.001 con un error de
estimación de 0.03 100  0.003
Al 95% de confianza el error medio estará en el intervalo
0.001  1.96  0.03
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
100  (-0.005, 0.007)
212
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Intervalos de confianza para la proporción
Cuando el tamaño de la muestra es grande, la proporción muestral p
es una variable aleatoria normal con media P y varianza P·(1-P)/n
El intervalo de confianza para la proporción P con nivel de
confianza 1- , cuando el tamaño de la muestra n es grande, es

p  (1  p)
p  (1  p) 
 p  z1 2

, p  z1 2


n
n


donde z1-  /2 es el valor de la normal estándar tal que p(z < z1- /2)=
1 - /2.
213
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Intervalos de confianza para la proporción
En una medicación proporcionada a 100 pacientes con una
enfermedad cardiaca se ha observado que diez de ellos han
sufrido efectos secundarios.
La estimación del porcentaje de pacientes que sufren
efectos secundarios es, por tanto, del 10% con un error de
estimación del 3%.
0.1  (1 - 0.1) 100  0.03
Al 95% de confianza la proporción de pacientes que sufre
efectos secundarios estará en el intervalo
0.1  1.96  0.03  (0.04, 0.16)
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
214
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Intervalos de confianza. Tamaño muestral
Para un nivel de confianza dado, cuanto más grande es el tamaño
de la muestra, más pequeño es el intervalo, puesto que, al aumentar
el tamaño de la muestra, disminuye el error de estimación.
Para un tamaño de la muestra dado, cuanto más alto es el nivel de
confianza 1-, más ancho es el intervalo, puesto que la
probabilidad de que el parámetro quede fuera de los límites del
intervalo es menor.
215
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Intervalos de confianza. Tamaño muestral
Para estimar la media de una población, utilizando el intervalo
(normal) si se conoce la varianza (o se tiene una cota superior
suya), el error que se comete es  z1 2 / n con lo que si se quiere
que el error no sea mayor que E, el tamaño muestral debe ser
2
z

 1 2 
 con  conocida, estimada o acotada.
n  

E

Para estimar una proporción P, utilizando el intervalo (aprox.
normal) el error que se comete es de  z1 2 p (1  p ) / n
con lo que si se quiere que el error no sea mayor que E, el tamaño
muestral debe ser al menos n  p(1 p)z1 2 / E2
o, como no se conoce p antes de tomar
los datos,
2
 z1 2 

n  
 2E 
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
216
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Intervalos de confianza para la varianza: Poblaciones normales
Para la varianza de una población normal, se sabe que
(n1)s2
2
~ n2-1
El intervalo de confianza para la varianza 2 con nivel de
 (n  1)  s 2 (n  1)  s 2 
confianza 1- , es


, 2
2
 


n

1,1


2
n

1,

2


2
2
donde n 1, 2 y n 1,1 2 son los valores de la distribución chicuadrado con n - 1 g.l. que dejan a su izquierda una probabilidad
igual a /2 y 1-/2, respectivamente.
217
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Intervalos de confianza para la varianza: Poblaciones normales
La longitud del ala de la mosca común se distribuye según
una normal. De una muestra de 30 moscas se ha obtenido
una longitud media del ala de 4.55 mm y una desviación
estándar de 0.37 mm.
La estimación de la variabilidad de la longitud en la población
es de 0.372 = 0.137.
Al 95% de confianza la varianza de la población de moscas
comunes estará en el intervalo
 (30  1)  0.37 2 (30  1)  0.37 2   (30  1)  0.37 2 (30  1)  0.37 2 
, 

  (0.087, 0.25)
,
,
2


  302 -1, 0.975
45.7
16
 30-1, 0.025  


218
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
I.C. para la diferencia de medias. Poblaciones normales
independientes: Varianzas iguales y tamaños de la muestra n y m
Se tiene una m.a.s. de tamaño n de una normal de media 1 y varianza
2 y otra de tamaño m, independiente de la anterior, de media 1 y
varianza 2 (igual a la anterior). El intervalo de confianza para
   a nivel 1- es
1
2

1 1
1 1
 X Y  tnm2,1- 2  s   , X Y  tnm2,1- 2  s   


n
m
n
m


donde
2
2
(n

1)

s

(m

1)

s
X
Y
s2 
n  m 2
219
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
I.C. para la diferencia de medias. Poblaciones normales
independientes: Varianzas iguales y tamaños de la muestra n y m
En un grupo de enfermos que sufren esquizofrenia paranoica
se ha estudiado la edad en que se produjo el primer ataque.
Hombres: 24, 33, 23, 20, 26, 32, 35, 21 y 25.
Mujeres: 22, 34, 26, 31, 26, 35, 25, 38, 36, 22, 23 y 37.
Calcula un intervalo de confianza para la diferencia de
medias de la edad entre hombres y mujeres
Es necesario suponer que la edad en la que se produce el
primer ataque se distribuye tanto para los hombres como
para las mujeres según una normal con la misma varianza.
En otro caso, serían necesarias muestras más grandes.
220
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
I.C. para la diferencia de medias. Poblaciones normales
independientes: Varianzas iguales y tamaños de la muestra n y m
Hombres : n  9, X  26.56, sX2  29.78 Mujeres : m  12, Y  29.58, sY2  38.45
s2 
(9  1)  29.78  (12  1)  38.45
 34.8, s  34.8  5.9
9  12  2
El intervalo de confianza a nivel 0.95 será

1 1
1 1
26.5629.58 t9122,0.975 5.9  , 26.5629.58 t9122,0.975 5.9   


9
12
9
12


(8.42, 2.38)
221
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
I.C. para la diferencia de medias. Poblaciones normales
independientes: Varianzas distintas y tamaños de la muestra n y m
En el caso de que no se pueda suponer que las varianzas de las dos
poblaciones son iguales, se puede utilizar el siguiente intervalo
aproximado
2
2
2
2 

s
s
s
s
X
Y
X
Y 
 X Y  t


,


t


X
Y
g , 1- 2
g , 1- 2


n
m
n
m


donde g son los grados de libertad calculados de forma aproximada.
222
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
I.C. para la diferencia de medias. Poblaciones normales
independientes: Varianzas distintas y tamaños de la muestra n y m
Si no se puede suponer que las varianzas son iguales
Hombres : n  9, X  26.56, sX2  29.78 Mujeres : m  12, Y  29.58, sY2  38.45
el intervalo queda

29.78 38.45
29.78 38.45
26.5629.78 t18,0.975

,26.5629.78 t18,0.975




9
12
9
12


(-8.38, 2.32)
223
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
2.3 Contrastes de hipótesis paramétricos
• Introducción a los contrastes de hipótesis.
• La hipótesis nula y la hipótesis alternativa. Errores de tipo I y
de tipo II.
• La medida de discrepancia. Valor crítico y región de rechazo.
Elección del nivel de significación.
• Relación entre los contrastes de hipótesis y los intervalos de
confianza.
• Etapas del contraste.
• Contrastes de hipótesis para la media, la proporción y la
varianza poblacionales. Contrastes para la diferencia de medias
y proporciones, y para el cociente de varianzas.
224
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Introducción a los contrastes de hipótesis
Una hipótesis estadística es una conjetura sobre alguna característica
desconocida de la población de interés.
Se sabe que el tiempo medio que duerme una rata tratada
con 80 mg/kg de hexobarbital es 26 min. Se sospecha que
un tratamiento posterior con iproniácido aumenta el tiempo
de sueño. Para analizar esta hipótesis se eligen nueve ratas
tratadas con hexobarbital y se les aplica un tratamiento con
iproniácido. Su tiempo de sueño es: 25, 31, 24, 28, 29, 30,
31, 33 y 35. El tiempo medio para esta muestra es 29.6 min.
Con estos datos, ¿se puede afirmar que este tratamiento
aumenta el tiempo de sueño?
225
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Introducción a los contrastes de hipótesis
Probar una hipótesis estadística consiste en decidir si la
afirmación se encuentra apoyada por la evidencia experimental
que se obtiene de los datos que proporciona una muestra aleatoria.
Para ello, y con la información obtenida de la muestra, nos
planteamos la pregunta “¿sería razonable el tiempo medio de 29.6
obtenido en la muestra si el iproniácido no tuviera ningún
efecto?”
Si la respuesta es NO, habremos obtenido una evidencia a partir
de los datos de que el iproniácido aumenta el tiempo de sueño.
226
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
La hipótesis nula y la hipótesis alternativa
En un contraste de hipótesis intervienen:

la hipótesis nula H0 sobre la que buscamos evidencias en
contra, y
la hipótesis alternativa H1, la complementaria de H0
H0:  = 26, el tiempo medio de sueño en ratas tratadas
con hexobarbital e iproniácido es 26 minutos,
H1:   26, el tiempo de sueño es distinto en ratas
tratadas además con iproniácido

227
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
La hipótesis nula y la hipótesis alternativa
Se parte del hecho de que la hipótesis nula es cierta a menos que
los datos de la muestra proporcionen suficiente evidencia en contra.
Un contraste de hipótesis analiza si los datos observados permiten
rechazar la hipótesis nula, comprobando si éstos tienen una
probabilidad de aparecer lo suficientemente pequeña cuando es
cierta dicha hipótesis.
Se presentan las siguientes situaciones:
Rechazar H0
H0 es cierta
H0 es falsa
Aceptar H0
H0 es cierta
H0 es falsa
228
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Errores de tipo I y de tipo II
Hay, pues, dos situaciones en las que la decisión sería incorrecta:
rechazar la hipótesis nula cuando es cierta o aceptarla cuando es falsa.
El error que se comete cuando se rechaza la hipótesis nula siendo
esta cierta se denomina error de tipo I o nivel de significación.
  p(Error de tipo I)  p(rechazar H0 H0 es cierta )
El error que se comete cuando se acepta la hipótesis nula siendo
esta falsa se denomina error de tipo II.
  p(Error de tipo II)  p(aceptar H0 H0 es falsa )
Estas probabilidades son condicionales, debido a que no se puede
saber a ciencia cierta cuál es la hipótesis verdadera.
229
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
La medida de discrepancia
Para determinar si los datos observados proporcionan o no
evidencia para rechazar la hipótesis nula, se construye una medida
de discrepancia entre los datos de la muestra y la hipótesis nula.
La medida constituirá un estadístico de prueba. Para ciertos valores
de dicho estadístico, la decisión será rechazar la hipótesis nula.
H0:  = 26 = tiempo medio de sueño en ratas tratadas con
hexobarbital e iproniácido es 26 min
Medida de discrepancia: Se rechazará la hipótesis nula si el
tiempo medio que se observa en la muestra es mayor que 28.
Estadístico de prueba: El tiempo medio en la muestra de
ratas tratadas con iproniácido es 29.6 min.
230
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Valor crítico y región de rechazo
Función de densidad
de la media muestral
cuando H0 es cierta.
p(X  28   26)  
Región de rechazo
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
Valor crítico
231
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Valor crítico y región de rechazo
Si la hipótesis nula fuese realmente cierta y se tomasen varias
muestras de tamaño n, un ·100% de las veces se encontrará un
valor mayor que el dado por el valor crítico.
Por tanto, si en estas condiciones la muestra nos da un valor mayor
que el valor crítico, debe rechazarse la hipótesis nula.
El tiempo medio de sueño en la muestra de ratas tratadas
con iproniácido, 29.6 min., es un valor que se encuentra en
la región crítica, por tanto, se rechaza la hipótesis de que
sea igual al tiempo de sueño de las ratas tratadas sólo con
hexobarbital.
Discrepancias demasiado grandes tienen una probabilidad  pequeña
de ocurrir, si H0 es cierta.
232
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Valor crítico y región de rechazo
¿Por qué hemos elegido el valor 28 como valor crítico? Con este
valor 28, la probabilidad de error de tipo I es igual a 0.064.
En general, se suele trabajar en el sentido contrario; se fija de
antemano una P(error de tipo I) y se busca el valor crítico k para
obtenerla. En este caso, donde la región de rechazo es del tipo
“Rechazar H0 si la media muestral es mayor que k”, si queremos
tener una P(error de tipo I)=0.05, el valor de k sería 28.2.
Notemos que podemos hacer P(error de tipo I) tan pequeño como
queramos, pero esto implicará aumentar P(error de tipo II), por lo
que hay que mantener un compromiso entre ellos; normalmente, se
suele trabajar con niveles fijos de P(error tipo I)=0.1, 0.05 ó 0.01.
Si nos interesa disminuir ambos tipos de error, la solución es
aumentar el tamaño muestral.
233
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Valor crítico y región de rechazo
Función de densidad
de la media muestral
cuando H0 es cierta.
Función de densidad
de la media muestral
cuando H0 es falsa.
  p(aceptar H0 H0 es falsa )
  p(rechazar H0 H0 es cierta )
Valor crítico: 28 min
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
234
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Valor crítico y región de rechazo
  p(aceptar H0 H0 es falsa )
  p(rechazar H0 H0 es cierta )
Valor crítico: 30 min
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
235
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Valor crítico y región de rechazo
Cuando la discrepancia observada entre la hipótesis nula y los datos
de la muestra pertenece a la región de rechazo, se dice que se ha
producido una diferencia significativa.
La diferencia en el tiempo medio de sueño de ratas
tratadas con iproniácido, 29.6 min., y las tratadas sólo con
hexobarbital, 26 min., se considera una diferencia
significativa, según el criterio establecido.
La decisión de aceptar la hipótesis nula no implica que sea verdadera,
sólo que falta evidencia sustancial para considerarla falsa.
236
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Selección del nivel de significación


El resultado del test puede depender del nivel de significación 
prefijado.
Si el valor de la discrepancia es mayor que el valor crítico pero
está cerca de él (se rechaza la hipótesis nula), un nivel de
significación menor llevaría a la aceptación de la hipótesis nula.
Tomando como valor
crítico 30 se aceptaría
que el tiempo medio de
sueño es el mismo con los
dos tratamientos.
237
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Selección del nivel de significación

Si el tamaño de la muestra es grande y se rechaza H0, siendo el
valor de la hipótesis nula cercano al valor del estadístico que se
usa para contrastar, se recomienda estudiar la precisión en la
selección de la muestra y la naturaleza del problema.
P-valor
• Otra forma de medir la evidencia para aceptar o rechazar H0
consiste en utilizar el nivel crítico o p-valor de la muestra, que se
calcula como la probabilidad de obtener una discrepancia mayor
que la obtenida, dado que la hipótesis nula es cierta.
• Tiene la ventaja de que su cálculo no depende de la decisión
“arbitraria” del valor de .
• El p-valor coincide con el mínimo  que lleva a rechazar H0 con
mi muestra. Así, si trabajo a un nivel , rechazaré H0 si p-valor< 
238
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Introducción a los contrastes de hipótesis
p  valor  p(X  29.6   26)
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
X  29.6
239
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Etapas del contraste





Definir la hipótesis nula H0 y la hipótesis alternativa H1.
Definir la medida de discrepancia entre los datos muestrales y la
hipótesis nula.
Decidir a partir de qué valor de la discrepancia se asume que la
diferencia no puede ser debida al azar, es decir, se detectan
diferencias significativas.
Calcular el valor del estadístico a partir de los datos de la
muestra que se va a comparar con el valor dado por la hipótesis
nula.
Calcular la discrepancia y decidir.
240
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Tipos de contrastes
La hipótesis nula H0 suele ser que el parámetro es igual a un valor
concreto que se toma como referencia.
H0 :    0
La hipótesis alternativa H1 puede ser de dos tipos:


Se desconoce en qué dirección H0 puede ser falsa y se especifica
H1 como que el parámetro o vector de parámetros es distinto del
valor especificado en la hipótesis nula (contraste bilateral).
H1 :    0
El parámetro toma concretamente valores mayores o menores
que el especificado en la hipótesis nula (contraste unilateral).
H1 : θ  θ0
H1 :    0
241
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Relación entre los contrastes de hipótesis y los intervalos
de confianza
Contrastar una hipótesis nula con un determinado nivel de significación  frente a una alternativa bilateral es lo mismo que comprobar
si el valor del estadístico de prueba está dentro del intervalo de
confianza al nivel 1-  para el valor dado por la hipótesis nula.
Suponiendo que el tiempo de sueño se distribuye según una
normal de varianza 9, el intervalo de confianza para el
tiempo medio de sueño de ratas tratadas con iproniácido es
3
29.6  1.96 
 (27.64,31.56)
9
El tiempo medio teórico es 26, que no pertenece al
intervalo.
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
242
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Contraste para la media de una variable normal con 2 conocida
Hipótesis nula: H0 :    0
Estadístico de prueba:
X  0
Hipótesis alternativa: H1 :    0
Si la muestra es una m.a.s. que
 n
proviene de una normal con varianza conocida y H0 es cierta, el
estadístico de prueba se distribuye según una N(0,1).
La región de rechazo al nivel de significación  es
X  0

n  z1 2

 

i.e. X    0  z1 2 
,  0  z1 2 

n
n

donde z1- /2 es el valor de una variable normal estándar tal que p(z <
z1- /2 ) = 1 - /2.
243
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Contraste para la media de una variable normal con 2 conocida
H0 :   26
Tiempo medio ~ N(26, 3
H1 :   26
 2  0.025
 2  0.025
24
26  1.96  3
9  24.04,27.96
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
28
29.6
244
9)
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Contraste para la media de una variable normal con 2
conocida
Hipótesis nula: H0 :    0
Hipótesis alternativa: H1 :    0
La región de rechazo al nivel de significación  es:
X  0

n  z1
i.e. X   0  z1 

n
donde z1- es el valor de una variable normal estándar tal que p(z <
z1- ) = 1 - 
Si la hipótesis alternativa es H1 :    0 la región de rechazo es
X  0

n  -z1
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
i.e. X   0  z1 

n
245
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Contraste para la media de una variable normal con 2 conocida
H0 :   26
Tiempo medio ~ N(26, 3
H1 :   26
  0.05
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
27.7
29.6
246
9)
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Contraste para la media de una variable normal con 2 desconocida
Hipótesis nula: H0 :    0
Estadístico de prueba:
Hipótesis alternativa: H1 :    0
X  0
s
n
Si la muestra es una m.a.s. que
proviene de una normal con varianza desconocida y H0 es cierta, el
estadístico de prueba se distribuye según una tn-1.
La región de rechazo al nivel de significación  es
X  0
s
n  t n 1, 1 2
s
s 

,  0  t n 1, 1 2 
i.e. X    0  t n 1, 1 2 

n
n

donde tn-1,1- /2 es el valor de una variable t de Student con n-1 grados
de libertad tal que p(t < tn-1,1- /2 ) = 1 - /2.
247
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Contraste para la media de una variable normal con 2 desconocida
H0 :   26
26  2.31 
3.54
H1 :   26
 2  0.025
23.3
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
9
 (23.3, 28.7)
 2  0.025
 0  26
28.7
29.6
248
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Contraste para la media de una variable normal con 2
desconocida
Hipótesis nula: H0 :    0
Hipótesis alternativa: H1 :    0
La región de rechazo al nivel de significación  es:
X  0
s
n  t n 1, 1
s
i.e. X   0  t n 1, 1 
n
donde tn-1,1- es el valor de una variable t de Student con n-1 grados de
libertad tal que p(t < tn-1,1- ) = 1 - 
Si la hipótesis alternativa es H1 :    0 la región de rechazo es
X  0
n   t n 1, 1
s
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
s
i.e. X   0  t n 1, 1 
n
249
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Contraste para la media: Caso general
Hipótesis nula: H0 :    0
Hipótesis alternativa: H1 :    0
X  0
~ N(0,1)
Estadístico de prueba:
s n
si la muestra es m.a.s. de una distribución cualquiera con n grande y
H0 es cierta.
La región de rechazo al nivel de significación  es el intervalo
X  0
s
s 

n  z1 2 i.e. X    0  z1 2 
,  0  z1 2 

s
n
n

donde z1- /2 es el valor de una variable normal estándar tal que p(z <
z1- /2 ) = 1 - /2.
250
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Contraste para la diferencia de medias de muestras normales e
independientes: Varianzas iguales y tamaños de la muestra n y m
H0 : 1  2
H1 : 1  2
XY
Estadístico de prueba:
2
2
(n

1)

s

(m

1)

s
X
Y
s2 
n  m 2
1 1
s

n m
Si las muestras provienen de distribuciones normales y H0 es cierta, el
estadístico de prueba se distribuye según una t de Student con n+m-2.
La región de rechazo es:
X Y
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
1 1

s
n m
 t n  m  2, 1- 2
251
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Contraste para la diferencia de medias de muestras normales e
independientes: Varianzas iguales y tamaños de la muestra n y m
En un grupo de enfermos que sufren esquizofrenia paranoica
se ha estudiado la edad en que se produjo el primer ataque.
Hombres: 24, 33, 23, 20, 26, 32, 35, 21 y 25.
Mujeres: 22, 34, 26, 31, 26, 35, 25, 38, 36, 22, 23 y 37.
¿Se podría afirmar que la edad media es la misma para los
hombres que para las mujeres?
Es necesario suponer que la edad en la que se produce el
primer ataque se distribuye tanto para los hombres como
para las mujeres según una normal con la misma varianza.
En otro caso, serían necesarias muestras más grandes.
252
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Contraste para la diferencia de medias de muestras normales e
independientes: Varianzas iguales y tamaños de la muestra n y m
Se contrasta H0: 1 = 2 contra H1: 1  2.
Hombres : n  9, X  26.56, sX2  29.78 Mujeres : m  12, Y  29.58, sY2  38.45
s2 
(9  1)  29.78  (12  1)  38.45
 34.8, s  34.8  5.9
9  12  2
El valor del estadístico de prueba es:
X Y
s
1 1

n m

26.56  29.58
5 .9
1 1

9 12
 1.161
El valor t9+12-2,0.975 es 2.09. Como 1.161<2.09, no hay evidencia
para rechazar H0 a nivel del 5%. De hecho p-valor=0.26.
253
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Contraste para la diferencia de medias de muestras normales e
independientes: Varianzas iguales y tamaños de la muestra n y m
Hipótesis alternativa
Región de rechazo
H1 : 1  2
X-Y
 t n  m  2, 1- 
1 1
s

n m
H1 : 1  2
X-Y
  t n  m  2, 1- 
1 1
s

n m
254
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Contraste para la diferencia de medias de muestras normales e
independientes: Varianzas distintas y tamaños n y m
XY
Estadístico de prueba:
sX2 sY2

n
m
donde sX y sY son las
cuasivarianzas muestrales.
La región de rechazo es aproximadamente:
X Y
2
X
2
Y
s
s

n m
 t g , 1- 2
donde g son los grados de libertad calculados de forma aproximada.
255
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Contraste para la diferencia de medias de muestras independientes
Varianzas distintas y tamaños n y m
Se contrasta H0: 1 = 2 contra H1: 1  2.
Hombres : n  9, X  26.56, sX2  29.78 Mujeres : m  12, Y  29.58, sY2  38.45
El valor del estadístico es:
X Y
s 2X s 2Y

m n

26.56  29.58
29.78 38.45

9
12
 1.183
El valor t18.4,0.975 es 2.09. Como 1.183<2.1, no hay evidencia
para rechazar H0 a nivel del 5%. De hecho p-valor=0.25.
256
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Contraste para la diferencia de medias de muestras independientes
Caso general
Si las muestras provienen de distribuciones cualesquiera, pero
grandes, y H0 es cierta,
XY
Estadístico de prueba:
sX2 sY2

n
m
~ N(0,1)
La región de rechazo es:
X Y
2
X
2
Y
s
s

n m
 z 1- 2
257
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Contraste para la diferencia de medias de muestras emparejadas
D  X  Y ~ N(D , D )
H0 :  X   Y ó D  0
Estadístico de prueba:
XY
sD
n
H1 :  X   Y ó D  0
1
sD2 
n 1
n
 X  Y  X  Y
i1
i
i
2
La región de rechazo es
X Y
sD
n  t n -1, 1- 2
258
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Contraste para la diferencia de medias de muestras emparejadas
A 9 personas que padecen neurosis de ansiedad se les mide
la presión sanguínea en mm Hg antes de tomar un fármaco
(propanol) y 4 horas después. Se calcula la diferencia de
presión Antes-Después con los siguientes resultados: +1, -1,
+20, -10, +19, +8, +6, -1, y +3. La diferencia media es 5 mm
Hg y la (cuasi)desviación típica 9.6695 mm Hg.
Si se supone que las diferencias en la presión sanguínea se
distribuyen según una normal, el estadístico de prueba es
5
9  1.55
9.67
259
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Contraste para la diferencia de medias de muestras emparejadas
Si se quiere comparar contra la hipótesis alternativa de que
las medias son distintas, el valor de t9-1,0.975 es 2.31, con lo
que no se rechaza a nivel del 5%.
Si la hipótesis alternativa es que la presión media ha
disminuido, el estadístico hay que compararlo (a nivel 5%)
con t9-1,0.95 = 1. 86, con lo que se mantiene la hipótesis nula al
5% también en esta situación.
260
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Contraste para la varianza de una población normal
2
2
Hipótesis nula: H0 :    0
Estadístico de prueba:
Hipótesis alternativa: H1 :  2   02
(n - 1)  s2
 02
~  n2-1
si la muestra es una m.a.s que proviene de una normal y H0 es cierta.
La región de rechazo al nivel de significación  es
(n  1) s 2
2


n 1, 
σ 02
2
ó
(n  1) s 2
2


n 1,1- 
σ 02
2
donde los extremos inferior y superior son los valores de la chicuadrado que dejan a su izquierda una probabilidad /2 y 1-/2,
respectivamente.
261
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Contraste para la varianza de una población normal
Las regulaciones del gobierno prescriben que la dosis
estándar de un determinado preparado debería ser de 600
unidades por cm3 con una variabilidad de 10 unidades por
cm3. Se preparan 10 muestras obteniéndose una media de
592.5 unidades por cm3 con una desviación típica de 11.2
unidades por cm3. ¿Es la variabilidad obtenida en la muestra
diferente que la exigida por el gobierno?
Es necesario suponer que la dosis estándar se distribuye
según una normal de media 600 y varianza 100.
Se contrasta H0: 2 = 100 contra H1: 2  100.
262
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Contraste para la varianza de una población normal
El estadístico de prueba es:
(10  1)  11.22
10
2
 11.29
Con significación 0.05, como el estadístico de prueba está
en:
2
2
 10
,

1,0.025
10 1,0.975  (2.7, 19.03)


se acepta que no existen diferencias significativas.
263
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Contraste para la varianza de una población normal
H1 :  2   02
Se rechaza la hipótesis nula si:
(n  1)  s

2
2
0

2
n 1, 1
¿Es la variabilidad obtenida en la muestra mayor que la
exigida por el gobierno?
2
11.29 10
-1, 0.95  16.93
H1 :  2   02
Se rechaza la hipótesis nula si:
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
No se detectan diferencias
significativas.
(n  1)  s 2

2
0
  n21, 
264
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Comparación de varianzas de poblaciones normales
H0 :  X2   Y2
Estadístico de prueba:
H1 :  X2   Y2
s 2X
~ Fn 1,m 1
2
sY
si H0 es cierta
Se rechaza la hipótesis nula si:
1
s X2

2
sY F m -1, n -1, 1- 2
ó
s X2
 F n -1, m -1, 1- 2
2
sY
265
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Comparación de varianzas de poblaciones normales
H0 :  X2   Y2
Fn 1,m1
H1 :  X2   Y2
s 2X
Se rechaza H0 si: 2  Fn 1, m 1, 1-
sY
Aceptar  X2   Y2
Rechazar  X2   Y2

266
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Comparación de varianzas de poblaciones normales
H0 :  X2   Y2
H1 :  X2   Y2 Se rechaza H0 si:
2
X
2
Y
s
1

s
Fm 1,n 1, 1-
29 adultos alcohólicos que sufren hipertensión han sido
utilizados para estudiar el efecto de un antihipertensivo.
Han sido asignados aleatoriamente a un grupo tratado con un
placebo o a un grupo tratado con el medicamento.
Placebo: 105, 107, 110, 117, 124, 153, 137, 174, 109, 119, 143,
162, 91, 146 y 109.
Medicamento: 92, 96, 104, 119, 106, 100, 93, 90, 98, 109,
106, 88 y 94.
267
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Comparación de varianzas de poblaciones normales
Para contrastar el efecto del medicamento en la tensión
arterial media debemos primero determinar si las muestras
provienen de poblaciones con la misma varianza o no.
La varianza en el grupo tratado con un placebo es 579.8 y en
el grupo tratado con el medicamento es 77.7.
579.8
 7.5
77.7
7.5  2.55
F15 1,14 1, 0.95  2.55
F14 1,15 1, 0.95  2.51
por lo que se rechaza que las varianzas
son iguales (al 10%).
268
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Contraste para la proporción
Hipótesis nula:H 0 : P  p 0
Hipótesis alternativa:H1 : P  p 0
si el tamaño de la
p  p0
~ N(0,1)muestra n es grande y
Estadístico de prueba:
p 0  (1 - p 0 ) n
H0 es cierta.
La región de rechazo al nivel de significación  es
p - p0
p 0  (1 - p 0 )
n  z1 2
donde z1- /2 es el valor de una variable normal estándar tal que p(z <
z1- /2 ) = 1 - /2.
Si n es pequeño, la zona de aceptación se obtiene, fijado , por la
distribución binomial.
269
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Contraste para la diferencia de proporciones
H 0 : P1  P2
H1 : P1  P2
p1  p2
Estadístico de prueba:
1 1 
p  (1  p)    
n m
n  p1  m  p2
p
nm
Para muestras grandes, se rechaza la hipótesis nula si:
p1  p 2
1 1 
p  (1  p)    
n m
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
 z 1- 2
270
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Bibliografía
• ROBERT F. WOOLSON, (1987), Statistical Methods for the
Analysis of Biomedical Data, John Wiley and sons.
271
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
PRÁCTICA 5: ESTIMADORES, INTERVALOS DE
CONFIANZA Y CONTRASTES DE HIPÓTESIS
En esta práctica aprenderemos a:
• Calcular los estimadores de la media, la proporción y la varianza
de la población.
• Construir intervalos de confianza para la media y para la
diferencia de medias.
• Calcular los estadísticos necesarios para el contraste de hipótesis
de la media y la proporción, para la diferencia de medias y el
cociente de varianzas.
272
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
2.4 Crítica del modelo
• Introducción: La importancia de las hipótesis.
• Contrastes de normalidad.
• Influencia de los valores atípicos.
273
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Introducción: La importancia de las hipótesis
Al estimar los parámetros del modelo se ha supuesto que los datos
constituyen una muestra aleatoria de una distribución, que salvo sus
parámetros, es conocida.
Cuando se extrae una muestra de una distribución distinta de la
supuesta, el procedimiento de inferencia deja, en general, de ser
óptimo. Es decir, los estimadores no tienen por qué tener las buenas
propiedades que se les suponían.
Algunas técnicas están más influidas que otras por el fallo en las
hipótesis. Por ejemplo, el contraste de hipótesis para las medias no
está muy influido cuando falla la hipótesis de normalidad, si se
trabaja con muestras grandes. En cambio, la inferencia con respecto
a la varianza son muy dependientes de esta hipótesis.
274
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Contrastes de normalidad
GRÁFICOS


Con muestras grandes, dibujar el histograma.
Con muestras pequeñas, gráfico Q-Q.
n  41
16
14
12
Gráfico Q-Q normal de Concentración de SO2
3
2
10
1
8
0
Normal esperado
6
Frecuencia
4
2
0
10
20
30
40
50
60
70
80
90
100
Concentración de SO2
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
110
-1
-2
-3
-20
0
Valor observado
20
40
60
80
100
275
120
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Contrastes de normalidad
Para TIPO= Sano
Gráfico Q-Q normal de Concentración de sucinato
3,5
Para TIPO= Sano
1,5
2,5
1,0
2,0
,5
1,5
0,0
Normal esperado
3,0
Frecuencia
1,0
,5
0,0
1,5
2,0
2,5
3,0
3,5
4,0
Concentración de sucinato
Para TIPO= Enfermo
-,5
-1,0
-1,5
1,0
n  10
1,5
2,0
2,5
3,0
3,5
4,0
4,5
Valor observado
Gráfico Q-Q normal de Concentración de sucinato
3,5
Para TIPO= Enfermo
1,5
2,5
1,0
2,0
,5
1,5
0,0
Normal esperado
3,0
Frecuencia
1,0
,5
0,0
,5
1,0
1,5
2,0
2,5
Beatriz
Lacruz Casaucau
Concentración
de sucinato ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
3,0
-,5
-1,0
-1,5
,5
1,0
Valor observado
1,5
2,0
2,5
3,0
3,5
276
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Contrastes de normalidad
CONTRASTES

Con muestras grandes, test de Kolmogorov-Smirnov-Lilliefors.

Con muestras pequeñas, test de Shapiro-Wilk.
Se contrasta la hipótesis nula de que la muestra proviene de una
población normal.
Pruebas de normalidad
a
Concentración de SO2
Kolmogorov-Smirnov
Estadístico
gl
Sig.
,216
41
,000
Shapiro-Wilk
Estadístico
gl
,811
41
Sig.
,010**
277
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Contrastes de normalidad
Pruebas de normalidad
a
Concentración
de sucinato
Tipo de individuo
Enfermo
Sano
Kolmogorov-Smirnov
Estadístico
gl
Sig.
,193
10
,200*
,113
10
,200*
Shapiro-Wilk
Estadístico
gl
,943
10
,974
10
Sig.
,555
,916
278
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Influencia de los valores atípicos
Cuando una pequeña fracción de la muestra (entre el 1% y el 10% de
los valores) aparece como atípica, debemos preguntarnos cuáles son
las causas:

La variable que se está midiendo es razonable que tome este tipo de
valores extremos, o bien

se han cometido errores de medición o de transcripción de los
datos,

ha habido cambios en los instrumentos de medida, u
otras alteraciones en la recogida de datos.

279
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Influencia de los valores atípicos
El efecto de la existencia de valores atípicos puede ser muy grave. Por
ejemplo, el valor de la media está afectado por un valor grande que ha
aparecido en la muestra y, además, como la varianza de la muestra
también será grande, también lo será el error de estimación.
Existen dos soluciones para el tratamiento de los datos atípicos:
 Cambiar el estimador por otro que no se vea tan afectado. Por
ejemplo, usar la mediana o la media recortada en vez de la media.
O suponer que los datos provienen de una distribución más general,
que permita la existencia de estos datos.

Identificar los valores extremos, indagar las causas que los motivan
y eliminarlos, si se confirma que son realmente atípicos.
280
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
PRÁCTICA 6: CRÍTICA DEL MODELO
En esta práctica aprenderemos a:
• Representar el gráfico Q-Q para contrastar la hipótesis de
normalidad.
• Calcular los estadísticos y los p-valores de los test S-W y K-SL.
• Detectar y eliminar datos atípicos.
281
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
2.5 Contrastes no paramétricos para dos muestras
• Introducción
• Contraste para muestras independientes: U de Mann-Whitney y
Wald-Wolfowitz.
• Contrastes para muestras emparejadas: prueba de los rangos
con signo de Wilcoxon
282
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Introducción
Los contrastes no paramétricos requieren menos hipótesis sobre la
la distribución de la que proceden los datos que los paramétricos.
En estas condiciones puede parecer que sean preferidos a los
contrastes paramétricos. Pero, si se conoce la distribución de la que
provienen las observaciones, estos últimos son, en general, más
eficientes que aquellos.
Los contrastes no paramétricos que se van a estudiar en este
capítulo son comparables con los métodos paramétricos para el
contraste de medias.
283
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Introducción
Los contrastes no paramétricos son particularmente útiles cuando
las muestras son pequeñas, y/o las observaciones están medidas en
escala ordinal.
Un laboratorio está interesado en si su medicamento para la
gripe es preferido a uno de la competencia. Elige al azar 7
consumidores y les pide que den su opinión con respecto a
cada uno de los productos según una escala de 1=Poca
aceptación a 5=Mucha aceptación.
Propio
1
2
5
5
4
3
5
Competidor
2
2
1
1
3
1
2
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
284
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Prueba U de Mann-Whitney
La prueba U de Mann-Whitney contrasta la hipótesis de que dos
muestras independientes que provienen de poblaciones continuas
con la misma forma tienen la misma localización, que se mide por
el valor de la mediana.
La hipótesis alternativa es que las medianas son distintas, es decir,
la localización es distinta. Esto es, se supone que las dos muestras
provienen de distribuciones continuas con la misma forma, pero
una de ellas está trasladada hacia la derecha o hacia la izquierda de
la otra.
285
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Prueba U de Mann-Whitney
Un investigador ha estudiado las respuestas a la glucosa
oral en pacientes con la enfermedad de Huntington y en un
grupo de control.
Los datos correspondientes al porcentaje de glucosa son:
Pacientes: 85, 89, 86, 91, 77, 93, 100, 82, 92, 86 y 86.
Controles: 83, 73, 65, 65, 90, 77, 78, 97, 85 y 75.
286
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Prueba U de Mann-Whitney
Si las dos muestras provienen de la misma población, las
observaciones de una y otra se hallarán bien mezcladas. En otro
caso, cabe esperar que las observaciones de una y otra muestras se
encuentren juntas en los extremos.
287
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Prueba U de Mann-Whitney
La prueba consiste en:

Ordenar de menor a mayor las observaciones de las dos muestras
combinadas.

Asignar a cada observación un número de orden. En caso de
empate, se asigna el promedio de los números de orden de las
observaciones empatadas.
C C C C C P C P C C
P
P P P P C P P P C
P
65 65 73 75 77 77 78 82 83 85 85 86 86 86 89 90 91 92 93 97 100
1.5 1.5 3 4 5.55.5 7 8 9 10.5 10.5 13 13 13 15 16 17 18 19 20 21
288
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Prueba U de Mann-Whitney

Sumar los números de orden de las observaciones de las dos
muestras y dividir por el número de elementos en cada muestra
(rango promedio) .
Pacientes: (5.5+8+10.5+13+13+13+15+17+18+19+21)/11=13.9,
Controles: (1.5+1.5+3+4+5.5+7+9+10.5+16+20)/10=7.8.
Si una de las muestras está más a la derecha que la otra, el rango
promedio de sus observaciones será mayor que el de la otra
muestra.
289
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Prueba U de Mann-Whitney

Construir el estadístico que permita determinar cuando una de las
sumas es suficientemente grande o suficientemente pequeña.
Rangos
GLUCOSA
Tipo de individuo
Paciente
Caso
Total
N
11
10
21
Rango
promedio
13,91
7,80
Suma de
rangos
153,00
78,00
Estadísticos de contrasteb
U de Mann-Whitney
W de Wilcoxon
Z
Sig. asintót. (bilateral)
Sig. exacta [2*(Sig. unilateral)]
GLUCOSA
23,000
78,000
-2,259
,024
,024a
a. No corregidos para los empates.
b. Variable de agrupación: Tipo de individuo
290
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Prueba de Wilcoxon
La prueba de rangos con signo de Wilcoxon contrasta la hipótesis
de que dos muestras emparejadas provienen de poblaciones con la
misma distribución.
De un conjunto de 8 pacientes que sufren anemia crónica se
ha calculado el índice de riesgo de padecer una enfermedad
coronaria antes y después de un tratamiento.
Después 56 44 55 40 62 46 49 41
Antes 109 57 53 57 68 72 51 65
291
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Prueba de Wilcoxon
La prueba consiste en:

Calcular las diferencias y ordenarlas de menor a mayor sin
importar el signo. Si alguna diferencia es 0, se elimina del
estudio.

Asignar a cada diferencia su número de orden con el signo
correspondiente. Si hay empates, se asigna la media de los
números de orden.
(+)2 (-)2 (-)6 (-)13 (-)17 (-)24 (-)26 (-)53
1.5 -1.5
-3
-4
-5
-6
-7
-8
292
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Prueba de Wilcoxon

Sumar los números de orden positivos y los negativos, por
separado.
S+=1.5, S-=-34.5
Si las muestras provienen de la misma población, se espera
encontrar el mismo número de rangos con signo positivo que con
signo negativo. Por tanto, se espera que, en magnitud, ambas sumas
sean aproximadamente iguales.

Construir el estadístico que permita determinar cuando las sumas
se pueden considerar iguales.
293
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Prueba de Wilcoxon
Rangos
N
DESPUES - ANTES Rangos negativos
Rangos positivos
Empates
Total
7a
1b
0c
8
Rango
promedio
4,93
1,50
Suma de
rangos
34,50
1,50
a. DESPUES < ANTES
b. DESPUES > ANTES
c. ANTES = DESPUES
Estadísticos de contrasteb
Z
Sig. asintót. (bilateral)
DESPUES - ANTES
-2,313a
,021
a. Basado en los rangos positivos.
b. Prueba de los rangos con signo de Wilcoxon
294
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Bibliografía
• WAYNE W. DANIEL, (1990), Applied Nonparametric
Statistics (2ª Ed.), The Duxbury Advanced Series in Statistics
and Decision Sciences. PWS-KENT Publishing Company.
• SHESKIN, D. J. (2000), Handbook of Parametric and
Nonparametric Statistical Procedures, (2ª Ed.), Chapman and
Hall/CRC.
295
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
PRÁCTICA 7: CONTRASTES NO PARAMÉTRICOS
En esta práctica aprenderemos a:
• Aplicar contrastes no paramétricos.
• Elegir si aplicar un contraste paramétrico o uno no paramétrico.
296
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
2.6 Análisis de tablas de contingencia
• Test de la chi-cuadrado
297
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Test de la chi-cuadrado
El test de la chi-cuadrado permite analizar si existe alguna relación
entre dos características diferentes en las que una población ha sido
clasificada, donde cada una de ellas se encuentra dividida en varias
categorías.
¿Existe relación entre ser fumador y desarrollar cáncer de
pulmón?
Las dos características se representan en una tabla de frecuencias,
denominada tabla de contingencia.
298
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Test de la chi-cuadrado
¿Existe relación entre sufrir una enfermedad crónica y el
sexo?
Tabla de contingencia SEXO * ¿Sufre enfermedad crónica?
Recuento
SEXO
Total
Hombre
Mujer
¿Sufre enfermedad crónica?
Sí
No
19
77
33
61
52
138
Total
96
94
190
H0: Las variables son independientes  pij = pi pj, i,j
H1: Las variables son dependientes  pij  pi pj
El estadístico del test compara las frecuencias observadas con las
esperadas bajo la hipótesis de independencia.
299
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Test de la chi-cuadrado
h
k

i1 i1
Observadasi  Esperadasi 
2
Esperadasi
ninj 

n 

h k  ij
n 

 
ninj
i1 i1
2
n grande

χ 2h1 k 1 
n
donde h y k son el número de categorías de cada una de las variables.
Región crítica

300
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Test de la chi-cuadrado
Tabla de contingencia SEXO * ¿Sufre enfermedad crónica?
Recuento
SEXO
Hombre
Mujer
Total
2
¿Sufre enfermedad crónica?
Sí
No
19
77
33
61
52
138
2
Total
96
94
190
2
2
52  96  
96  138  
52  94  
138  94 


  61 
  33 
  77 
 19 
190  
190  
190  
190 

 5.604



52  96
96  138
52  94
138  94
190
190
190
190
(2-1)(2-1),0.95 =3.84 y el p-valor asociado de 0.018.
Al 95% de confianza se rechaza que las variables sean
independientes.
301
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Test de la chi-cuadrado
En un estudio sobre el número de veces que un paciente ha
sufrido estrés en un periodo de 40 años y su influencia en el
tipo de enfermedad psiquiátrica que padece se han obtenido
los siguientes datos
Tabla de contingencia Tipo de enfermedad * Número de veces que ha sufrido estrés
Recuento
Tipo de enfermedad
Esquizofrenia
Desórdenes afectivos
Total
0
23
7
30
Número de veces que ha sufrido estrés
1
2
3
4
5
6
39
46
21
21
13
9
10
28
42
75
34
15
49
74
63
96
47
24
7
2
3
5
El p-valor asociado al estadístico de prueba es 0.00. Se
rechaza la hipótesis de que las variables sean
independientes.
302
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
Total
174
214
388
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Test de la chi-cuadrado
En el test de la chi-cuadrado las frecuencias de la tabla se comparan
con las frecuencias esperadas, calculadas bajo la hipótesis de que las
variables son independientes.

Las frecuencias esperadas deben ser mayores que 1 en todas las
celdas y no más del 20% de las celdas deben tener valores
esperados menores que 5.

En caso de no cumplirse se recomienda utilizar el test exacto de
Fisher, si la tabla es 22; o, combinar categorías, en otro caso.

Se recomienda, además, utilizar muestras mayores que 30.
303
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
PRÁCTICA 8: ANÁLISIS DE TABLAS DE
CONTINGENCIA
En esta práctica aprenderemos a:
• Construir tablas de contingencia.
• Aplicar el contraste chi-cuadrado para la independencia.
• Otros contrastes.
304
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 3:
ANÁLISIS DE LA VARIANZA
305
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
3.1 Introducción al diseño de experimentos
3.2 Análisis de la varianza de un factor: El modelo de efectos
fijos
3.3 Contrastes no paramétricos para varias muestras
independientes
3.4 Otros diseños experimentales
306
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
Introducción al diseño de experimentos
El objetivo de un experimento es estudiar el efecto que sobre


la variable de interés, llamada respuesta o variable dependiente,
tienen la o las variables que pueden influir en la variabilidad de
la respuesta, llamados factores o variables independientes.
Se dispone de cinco medios para el cultivo de la vacuna
B.C.G. y se desea saber si, en conjunto, los medios son
equivalentes entre sí o, por el contrario, unos favorecen más
la aparición de colonias que otros.
La variable respuesta es el número de colonias y el factor es
el tipo de cultivo .
307
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
Introducción al diseño de experimentos
Un nivel o tratamiento del factor es un valor o condición de éste
bajo el cual se medirá la respuesta.
Se consideran cinco tipos de cultivo o cinco niveles o
tratamientos.
Se supone que la variable respuesta es continua o puede tomar
muchos valores distintos y que los factores se fijan durante el
experimento a ciertos niveles determinados.
Todos los factores externos distintos de los considerados que
puedan influir en la respuesta deben eliminarse o controlarse.
No existe ninguna característica distinta de la que define el
tipo de cultivo que afecte al crecimiento.
308
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
Introducción al diseño de experimentos
Se sospecha que, en los pacientes con úlcera péptica que han
seguido un tratamiento, el tiempo que tarda en reaparecer
la sintomatología ulcerosa está relacionado con el tiempo que
tarda el paciente en responder al tratamiento.
Se somete a un conjunto de pacientes con úlcera péptica al
tratamiento, siendo todos ellos fumadores, y cada dos
semanas, se comprueba si la sintomatología ulcerosa
persiste o ha desaparecido.
Una vez desaparecida, el paciente sigue sometido a
revisiones mensuales para comprobar el tiempo que tarda en
reaparecer.
309
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
Introducción al diseño de experimentos
Teniendo en cuenta que, en la mayoría de los casos, los
síntomas han desaparecido al cabo de ocho semanas, se
descartarán todos los pacientes en los que, pasadas ocho
semanas, la enfermedad aún persiste.
Antes de comenzar el tratamiento algunos pacientes han
decidido dejar de fumar, por lo que se sospecha que en la
reaparición de los síntomas, además del tiempo de respuesta
al tratamiento, puede influir el efecto del abandono del
tabaco.
310
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
Introducción al diseño de experimentos
Respuesta: Tiempo que tardan en reaparecer los síntomas
Factores: El paciente ha dejado de fumar y tiempo que ha
tardado en responder al tratamiento
Niveles del primer factor: Ha dejado de fumar-No ha
dejado de fumar
Niveles del segundo factor: 2, 4, 6 y 8 semanas
Se asume que no existe ningún otro factor importante que
influya en el tiempo que tardan en reaparecer los síntomas.
311
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
Introducción al diseño de experimentos
Los individuos en estudio deben estar asignados aleatoriamente a
cada uno de los niveles de los factores. El proceso aleatorio protege
contra el sesgo sistemático y tiende a neutralizar los efectos de
todos aquellos factores externos que no se encuentran bajo el
control del experimentador.
Los niveles de los factores pueden fijarse a priori, dando lugar a un
modelo de efectos fijos, o pueden seleccionarse aleatoriamente
entre el conjunto de posibles niveles, dando lugar a un modelo de
efectos aleatorios. En el caso en el que se fijen unos factores y se
seleccionen aleatoriamente otros, aparece el denominado modelo
mixto.
312
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
Introducción al diseño de experimentos
Existen tres caminos para eliminar el efecto de una variable:
mantenerla fija durante toda la realización del experimento,
 reorganizar la estructura del experimento de manera que las
comparaciones de interés se efectúen para distintos valores fijos
de dicha variable, lo que supone eliminar estadísticamente su
efecto, y
 aleatorizar su aparición en los niveles o tratamientos.
Los dos primeros caminos se utilizan para variables controladas por
el experimentador. El tercero se reserva para eliminar el efecto de
variables fuera de control y de poca influencia esperada, cuyos
efectos se englobarán dentro del error experimental.

313
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
Introducción al diseño de experimentos
Un laboratorio quiere comparar el efecto de dos
fertilizantes para lo cual dispone de un terreno dividido en
parcelas sembradas de alfalfa, ¿cómo debe asignar las
parcelas al tratamiento?
314
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
Introducción al diseño de experimentos
¿Depende la fertilidad del suelo de su ubicación?
¿Depende el grado de humedad de su ubicación?
¿Tienen todas las parcelas el mismo microclima?
¿Podría esta selección sistemática dar lugar a
dos grupos sistemáticamente diferentes?
¿En qué aspectos debería cambiar el experimento si las
parcelas estuvieran sembradas con cultivos diferentes?
315
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
3.2 Análisis de la varianza de un factor: El modelo de efectos
fijos
•
Introducción
•
Descomposición de la variabilidad de la respuesta
•
Análisis de las diferencias entre medias
•
Consideraciones finales
316
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
Introducción
El análisis de la varianza consiste en descomponer la variabilidad
de una magnitud en sus posibles causas.
En el análisis de la varianza de un factor con efectos fijos se parte
de un conjunto de observaciones clasificadas según un factor cuyos
niveles han sido fijados por el experimentador.
El objetivo del estudio es comprobar si existen diferencias entre los
grupos definidos por el factor.
¿Son todos los medios de cultivo equivalentes entre sí o, por
el contrario, unos favorecen más la aparición de colonias que
otros?
317
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
Introducción
Para cada nivel del factor se obtienen varias réplicas con el
propósito de medir el error experimental.
Se han inseminado, a partir de una misma suspensión de
B.C.G., 10 tubos por cada medio de cultivo.
El número de colonias en cada réplica de cada cultivo son:
Cultivo 1: 10, 12, 8, 10, 6, 13, 9, 10, 8 y 9.
Cultivo 2: 11, 18, 12, 15, 13, 8, 15, 16, 9 y 13.
Cultivo 3: 7, 14, 10, 11, 9, 10, 9, 11, 7 y 9.
Cultivo 4: 12, 9, 11, 10, 7, 8, 13, 14, 10 y 11.
Cultivo 5: 7, 6, 10, 7, 7, 5, 6, 7, 9 y 6.
318
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
Introducción
La hipótesis nula es H0: 1=2=...=k = siendo k el número de
niveles del factor considerado.
La hipótesis alternativa es H1: No todas las medias son iguales.
Nivel 1
Nivel 2
Nivel 3
H0
Nivel 1
Nivel 2
Nivel 3
H1
319
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
Introducción
Las hipótesis sobre los datos son:

Las k muestras provienen de una población normal con la misma
varianza 2.

Las k muestras son independientes.
Las técnicas a usar se denominan ANOVA, usando las siglas en
inglés de (ANalysis Of VAriance) o ADEVA, usando las siglas en
español de (Analisis DE la VArianza)
El método consiste en descomponer la variabilidad de la respuesta
en dos componentes, una debida al factor y otra dentro del factor.
320
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
Introducción
NOTACIÓN
Yij
es la j-ésima observación correspondiente al nivel o tratamiento i
Y11=10 es la primera observación en el cultivo 1
Y..
es el estimador de la media poblacional 
Estadísticos
Número de colonias
N
Válidos
Media
Varianza
50
9,94
8,38
321
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
Introducción
NOTACIÓN
Yi
es el estimador de la media poblacional en el nivel o tratamiento
i-ésimo
Estadísticos
Número de colonias
1
Media
9,50
Tipo de cultivo
2
3
4
Media
13,00
Media
9,70
Media
10,50
5
Media
7,00
322
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
Introducción
Los datos recogidos deben tener el siguiente aspecto:
Observaciones
Factor
Media
Nivel 1
Y11
Y12

Y1n
Y 1
Nivel 2
Y21
Y22

Y2n
Y 2
Yk1
Yk2

Ykn
Yk
...
Nivel k
323
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
Descomposición de la variabilidad de la respuesta
 Y
k
n
ij
i 1 j1
k

k
n


 Y..   Yij  Y i  Y i  Y.. 
2
n
i 1 j1
k
2
n
 Y  Y    Y
i1 j1
ij
i
2
i
i1 j1
 Y..
k
n
   Y  Y 
2
i1 j1
ij
i
2
n
k
 Y
i
 Y..
i1
donde k es el número de niveles o tratamientos considerados y n el
número de observaciones efectuadas dentro de cada tratamiento.
Observa que el doble producto no aparece porque es nulo.
324
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza

2
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
Descomposición de la variabilidad de la respuesta
SUMAS DE CUADRADOS
SCT 
SCE 
k
n
 Y  Y 
i1 j1
k
ij
2
..
n
 Y  Y 
i1 j1
SCF  n 
k
 Y
i1
ij
i  Y ..
2
i

2
es la variabilidad total.
es la variabilidad dentro del tratamiento, llamada
variabilidad no explicada o residual. Cuanto más
grande sea, mayor es la variación que puede
atribuirse a un error aleatorio.
es la variabilidad debida al factor, entre
tratamientos o variabilidad explicada. Si todas las
muestras provienen de la misma población SCF=0.
Cuanto más grande sea, mayor es la diferencia
entre los tratamientos.
325
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
Descomposición de la variabilidad de la respuesta
La estimación de la varianza dentro de cada nivel o tratamiento es:
 Y  Y 
n
i
ij
j1
2
n 1
y el promedio de estas varianzas es un estimador insesgado de la
varianza poblacional 2.
 Y  Y   Y  Y 
n
CME 
1

k i1
k
j1
ij
n 1
i
k
2

n
i1 j1
ij
i
2
k  (n  1)
326
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
Descomposición de la variabilidad de la respuesta
La estimación de la varianza dentro de cada tipo de cultivo
es:
Estadísticos
Número de colonias
1
2
Tipo de cultivo
3
Varianza
4,06
Varianza
9,78
Varianza
4,23
4
5
Varianza
4,72
Varianza
2,22
1
CME  (4.06  9.78  4.23  4.72  2.22)  5.002
5
327
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
Descomposición de la variabilidad de la respuesta
Como se parte de la hipótesis de que las muestras provienen de
poblaciones con idéntica varianza 2 y la varianza de la media es
2/n; si se supone que la hipótesis nula es cierta, es decir, que las
medias de las poblaciones son iguales, entonces la varianza de las
medias de cada muestra
 Y
k
i
i1
 Y..

2
k 1
es un estimador insesgado de 2/n y, por tanto, CMF 
es también un estimador insesgado de 2.
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
k

n   Yi  Y..
i1
k 1
328

2
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
Descomposición de la variabilidad de la respuesta
La varianza de las medias es:
(9.5 - 9.94)2  (13.0 - 9.94)2  (9.7 - 9.94)2  (10.5 - 9.94)2  (7.0 - 9.94)2 (9.5 - 9.94) 2
 4.643
5 -1
CMF  10  4.643  46.43
En cambio, si la hipótesis nula es falsa,entonces CMF es un estimador
sesgado y mayor que CME. Y, cuanto mayor sea la diferencia entre
las medias de los tratamientos y la media global, mayor será CMF.
CMF
 k21
Además,
 2
~ Fk 1,k(n-1)
CME  k(n-1)
329
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
Descomposición de la variabilidad de la respuesta
CMF 46.43

 9.3
CME 5.002
que ha de compararse con el valor de la F5-1, 5·(10-1) = F4, 45
Al 95% de confianza F4, 45 = 2.59.
Como 9.3 es mayor que 2.59, se rechaza la hipótesis nula de
que todos los cultivos se comporten del mismo modo.
Al 99% de confianza F4, 45 = 5.6, obteniéndose la misma
conclusión.
330
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
Tabla ANOVA
Fuente de
variación
Factor
Grados de
libertad
Suma de
cuadrados
n
k
 Y
i  Y ..
Cuadrados
medios
k

2
k-1
i1
i1
Error
 Y  Y 
i1 j1
k
Total
n
ij
i
n
2
 Y  Y 
i1 j1
ij
..
2
k·(n-1)

2
k 1
CMF
CME
 Y  Y 
k
k

n   Yi  Y..
F
n
i1 j1
ij
i
2
k  (n  1)
k·n-1
331
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
Tabla ANOVA
ANOVA
Número de colonias
Inter-grupos
Intra-grupos
Total
Suma de
cuadrados
185,720
225,100
410,820
gl
4
45
49
Media
cuadrática
46,430
5,002
F
9,282
Sig.
,000
332
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
Análisis de las diferencias entre medias
Si se rechaza la hipótesis nula de que las medias son iguales para
todos los grupos, será interesante determinar entre qué parejas existen
diferencias significativas.
Un posible método consistiría en contrastar todas las posibles parejas
dos a dos con los contrastes para la diferencia de medias de dos
muestras independientes vistas en el capítulo 2. Pero, si cada contraste
se realiza con un nivel de significación del 5%, ¿cuál es el nivel de
significación para el conjunto de comparaciones?
En el caso más simple en el que se consideran tres niveles, cuando se
compara el primero con el segundo y el segundo con el tercero, ¿cuál
es la probabilidad de que uno o los dos rechacen la hipótesis nula
cuando es verdadera?
333
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
Análisis de las diferencias entre medias
Existen diversos procedimientos para resolver este problema. Entre
otros:
• la prueba de Bonferroni y
• el método de Scheffé.
PRUEBA DE BONFERRONI
Se realiza cada contraste individual al nivel /número de contrastes,
de forma que se garantiza que el contraste conjunto se realiza al nivel
al menos 1-.
Es un prueba apropiada cuando se trata de comparar pocas parejas de
medias.
334
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
Análisis de las diferencias entre medias
MÉTODO DE SCHEFFÉ DE COMPARACIONES MÚLTIPLES
Se realizan los contrastes individuales de forma que la región de
confianza depende del número de niveles del factor y del número de
observaciones y no del número de contrastes que se desee realizar.
335
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
Consideraciones finales
• Las muestras en cada grupo pueden tener tamaños diferentes.
• Aunque una hipótesis de partida ha sido que las muestras
provengan de poblaciones normales, el análisis de la varianza es
una técnica robusta frente a desviaciones de normalidad y, por
tanto, válida para pequeñas desviaciones.
• La otra hipótesis de partida es que las muestras provengan de
poblaciones con la misma varianza. Si las varianzas son muy
diferentes, pero los tamaños de la muestra son iguales o muy
parecidos, el contraste es igualmente exacto. En cambio, si los
tamaños de las muestras son muy diferentes, las diferencias entre
las varianzas pueden ser graves.
336
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
Consideraciones finales
• Si se considera que los datos provienen de distribuciones normales,
se puede contrastar la igualdad de varianzas antes de efectuar el
análisis de la varianza. Dado que el contraste para la igualdad de
varianzas que proporciona SPSS es robusto con respecto a la
hipótesis de normalidad, se puede contrastar incluso cuando los
datos muestren ligera falta de normalidad.
• En el caso de que falle la hipótesis de igualdad de varianzas (se dice
que los datos presentan heterocedasticidad), los datos pueden
transformarse para conseguir homocedasticidad (veáse, por
ejemplo, Peña, Vol. 2, pág. 59, 1999) o aplicar contrastes
específicos de ANOVA que no suponen homocedasticidad (SPSS).
• Es necesario asegurarse de que la falta de normalidad o
heterocedasticidad no es debida a la existencia de datos atípicos.
337
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
Pruebas no paramétricas para varias muestras independientes
La prueba de Kruskal-Wallis para dos muestras independientes es la
análoga no paramétrica del análisis de varianza de un factor y una
extensión de la prueba paramétrica U de Mann-Whitney para dos
muestras independientes.
Contrasta la hipótesis nula de que las muestras provienen de la misma
población contra la hipótesis alternativa de las distribuciones
presentan diferencias en cuanto a su localización.
338
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
Bibliografía
DUNN, O. J. y CLARK, V. A. (1987)
Applied Statistics: Analysis of Variance and Regression, (2ª Ed.),
John Wiley and Sons.
339
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
PRÁCTICA 9: ANÁLISIS DE LA VARIANZA
En esta práctica aprenderemos a:
• Aplicar el test del análisis de la varianza para un factor de
efectos fijos.
• Aplicar los contrastes a posteriori de igualdad de medias dos a
dos cuando se rechaza la hipótesis nula de que todas la medias
son iguales.
• Aplicar el contraste no paramétrico de Kruskal-Wallis para
varias muestras independientes.
340
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4:
ANÁLISIS DE LA REGRESIÓN
341
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
4.1 Introducción
4.2 El modelo de regresión simple
4.3 El modelo lineal general
4.4 Diagnosis y validación del modelo lineal
4.5 Extensiones del modelo de regresión
342
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Introducción
Los modelos estadísticos que explican la dependencia de una
variable respecto de una o varias variables se denominan modelos
de regresión.
La variable que se desea explicar se denomina variable respuesta,
endógena, dependiente o explicada (Y) y las variables que aportan
la información se denominan variables predictoras, exógenas,
independientes o explicativas (X1, X2,...,Xk).
El interés recae en determinar una función matemática sencilla que
describa, de forma razonable, el comportamiento de la variable
respuesta, dados los valores de las variables explicativas, por
ejemplo: Y ~ 0 + 1 X1 + 2 X2 +... + k Xk
343
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Introducción
Cuando el conocimiento de una variable determina totalmente el
valor de la otra se dice que existe una relación funcional entre
ambas.
Si un objeto se mueve a una velocidad constante de 20
metros por segundo, conocido el tiempo que lleva en
movimiento se puede determinar con exactitud el espacio
que ha recorrido mediante la función
Espacio = Velocidad  Tiempo,
siendo la velocidad igual a 20m/s.
Por el contrario, si el conocimiento de una variable no aporta
información sobre el valor de la otra, se dice que son variables
independientes.
344
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Introducción
Existe un tipo de relación intermedia que se da cuando el
conocimiento de una variable permite determinar con cierto grado
de exactitud el valor de la otra. Se dice, entonces, que existe una
relación estadística o estocástica entre las variables.
Los modelos de regresión analizan este tipo de relaciones.
¿Cuál es la presión sanguínea esperada en un animal para un
determinado nivel de concentración en la sangre de un
medicamento?
¿Se puede determinar la polución anual media en una ciudad
conocidas la medias anuales de la temperatura, la velocidad
del viento y la precipitación?
345
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Introducción
Los objetivos del análisis de la regresión son:

Obtener un modelo que explique el comportamiento conjunto de
dos o más variables
La relación entre la polución anual media en una ciudad y la
medias anuales de la temperatura (T), la velocidad del viento
(V) y la precipitación (P) viene explicada por la ecuación
Polución ~ 130.2 - 1.9 · T - 1.7 · V + 0.6 · P

Evaluar la importancia relativa de una de las variables
independientes y analizar su efecto en la variable dependiente
Si la temperatura aumenta un grado, la polución disminuye
1.9 microgramos por centímetro cúbico.
346
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Introducción

Predecir los valores de la variable respuesta para valores
conocidos de las variables independientes.
Para una ciudad cuyos valores anuales medios de la
temperatura, velocidad del viento y precipitación son 50º
Fahrenheit, 6 millas por hora y 7 pulgadas, respectivamente,
la polución esperada es:
130.2 - 1.9 · 50 - 1.7 · 6 + 0.6 · 7 = 29.2 gr. por cm3
347
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
4.1 El modelo de regresión simple
•
Introducción
•
Hipótesis del modelo
•
Estimación de los parámetros
•
Inferencias respecto a los parámetros
•
Coeficiente de determinación y coeficiente de correlación lineal
•
Análisis de los residuos
•
Predicción
•
Comentarios finales
348
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Introducción
En el modelo de regresión lineal simple se considera que existe una
única variable que explica el comportamiento de la variable
respuesta y que dicho comportamiento puede representarse
mediante una recta.
300
200
100
VIRUS
La representación gráfica de la
variable respuesta (Virus) sobre
la variable explicativa (Tiempo)
ayuda a determinar si la relación
entre ambas es lineal o de otro
tipo.
0
0
TIEMPO
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
10
20
30
40
50
349
60
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Introducción
En algunas ocasiones la
representación gráfica nos sugerirá
otro tipo de funciones o ninguna en
particular.
240
220
200
180
160
140
120
100
100
80
0
10
20
30
40
50
60
80
TIEMPO
60
Concentración de SO2
VIRUS
120
40
20
0
0
1000
Población en miles
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
2000
3000
4000
350
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Introducción
Si estamos dispuestos a admitir que la relación entre las variables es
lineal, el siguiente paso es encontrar la ecuación de la recta (Y=aX+b)
que mejor se ajusta al conjunto de observaciones disponible. Dicha
recta es la que más cerca pasa de todos los puntos a la vez para lo cual
es necesario determinar el criterio que representa la distancia.
Y=0.5·X+0.5
Y
Y
Y=aX+b
y
3
2
1
n=2
1
3
X
Y=eX+f
y
1
y
2
Y=cX+d
x
1
x x
2 3
X
351
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Introducción
Y
Y
X
X
352
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Hipótesis del modelo
En el modelo de regresión lineal simple se considera que todos los
factores que influyen en el comportamiento de la variable respuesta
Y pueden dividirse en dos grupos:

el primero contiene a la variable explicativa X, y

el segundo es una perturbación aleatoria.
Por tanto:
yi   0  1  x i   i , i  1,...,n
donde xi son valores de la variable X conocidos (fijos, no aleatorios),
yi representa la variable respuesta dado el valor xi (yi son variables
aleatorias observables)
i son los errores del modelo (variables aleatorias NO observables) y
0 y 1 son parámetros desconocidos, que se desean estimar.
353
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Hipótesis del modelo
Se desea estudiar el número de virus en un cultivo al cabo
del tiempo (en horas).
Se ha dejado actuar el cultivo durante 6 horas y se ha
medido el número de virus cada hora. Así, tenemos xi=i,
i=1,…6.
Yi=número de virus al cabo de i horas.
(yi no es un número fijo, ya que no observaremos siempre el
mismo número de virus)
354
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Hipótesis del modelo
1.- E[i]=0 i=1,..,n.
2.- Var[i]= 2 , i=1,..,n. La varianza de los errores es
constante. Esta propiedad se denomina homocedasticidad.
3.- Los errores i son variables aleatorias independientes y
normalmente distribuidas.
Las condiciones sobre los errores son equivalentes a:
1.- La esperanza de la respuesta depende linealmente de X
E[yi ]  0  1  xi
2.- La varianza de la respuesta es constante Var[yi ]  2
3.- yi son variables aleatorias independientes y normalmente
distribuidas.
355
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Interpretación de los coeficientes
El parámetro 0 representa la respuesta media cuando xi=0 (si
este valor tiene sentido)
1 representa el incremento medio que experimenta la variable
explicada o respuesta cuando la variable X aumenta en una
unidad.
Al estudiar el número de virus en un cultivo al cabo del
tiempo (en horas), el parámetro 0 representa el número de
virus que hay al inicio del experimento.
El parámetro 1 representa el incremento del número medio
de virus que aparecen al cabo de una hora.
356
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Estimación de los parámetros
Para estimar los parámetros se utiliza el criterio de los mínimos
cuadrados que consiste en minimizar la suma de los cuadrados de
las distancias entre los valores observados de la variable respuesta
y los valores sobre la recta. Es decir, encontrar ˆ0 , ˆ1 que
minimicen la suma de los cuadrados de los errores:

n
i 1

y i  ˆ0  ˆ1  x i

2
Se obtienen los siguientes estimadores:
sXY
̂1  2
sX
̂0  y 
sXY
x
2
sX
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
La obtención de los estimadores con este
método no requiere ninguna hipótesis. Sin
embargo, si se desea que sus propiedades
sean buenas hemos de imponer las hipótesis
357
mencionadas.
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Estimación de los parámetros
Por tanto, la ecuación del modelo es de la forma
sXY
Y  y  2  X  x 
sX
que se denomina recta de regresión de Y sobre X.
Si se asume que los errores son variables aleatorias normales, se
tiene que
2
2 

2


x



ˆ 0 ~ N 0 , 1   
ˆ ~ N  ,



1
 sX2  
 1 n  s2 

n


X 


358
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Estimación de los parámetros

Valores ajustados yi  ( ˆ0  ˆ1  x i )
Residuos:

e  yi  yi  yi  ( ˆ0  ˆ1  x i )
i
Error cometido en cada
observación
Además, un estimador insesgado de la varianza 2 es la varianza
residual
 y  ˆ
n
sR2 
i1
i
ˆ
0  1  xi
n -2
 e
n
2

i1
2
i
n -2
359
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Inferencias respecto a los parámetros
Y
yi
ŷi
y i  yˆ i
yi  y
yˆi y
y
xi
X
360
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Estimación de los parámetros
n
Se tiene:
2
e
i
i 1
~  n2 2
2
Además, un pivote para construir intervalos de βˆ1  β1
~ tn  2
confianza para la pendiente es:
sR ( n  s X )
Así, los intervalos de confianza para los parámetros son
ˆ t

1
1   2,n -2
sR
n  sX
ˆ 0  t1- 2,n-2

2
sR
x
1 2
sX
n
361
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Inferencias respecto a los parámetros
El contraste de la hipótesis nula H0 : 1  0 contra la hipótesis
alternativa H1 : 1  0 equivale a contrastar la falta de relación lineal
entre las variables.
̂1
El estadístico de prueba es
que se distribuye según una
sR ( n  sX )
t de Student con n-2 grados de libertad, si la hipótesis nula es cierta.
El contraste más habitual para el parámetro 0 es H0 : 0  
contra H1 : 0   . El estadístico de prueba también se distribuye según
t con n-2 grados de libertad, si la hipótesis nula es cierta.
362
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Inferencias respecto a los parámetros
Para estudiar la pérdida de agua del escarabajo Tribolium
confusum se han mantenido nueve grupos de 25 escarabajos
en nueve medios con diferente humedad relativa y se ha
medido la pérdida de peso después de seis días de ayuno.
El objetivo es establecer si la relación entre el nivel de
humedad y la pérdida de peso pueden ser explicadas
mediante una ecuación lineal.
La humedad relativa es una variable controlada por el
experimentador, por tanto se busca una ecuación de la
forma:
Pérdida de peso = 0 + 1·Humedad relativa.
363
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Inferencias respecto a los parámetros
10
La nube de puntos muestra que una
relación lineal es razonable y
además, que la pérdida de peso
disminuye al aumentar el porcentaje
de humedad relativa.
9
8
7
Pérdida de peso
6
5
4
3
-20
0
20
40
60
80
100
Porcentaje de humedad relativa
Coeficientesa
Coeficientes no
estandarizados
Modelo
1
(Constante)
Porcentaje de
humedad relativa
B
8,704
Error típ.
,192
-5,32E-02
,003
a. Variable dependiente: Pérdida de peso
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
Coeficientes
estandarizados
Beta
-,987
t
45,437
Sig.
,000
-16,346
,000
Intervalo de confianza
para B al 95%
Límite
Límite
inferior
superior
8,251
9,157
-,061
-,046
364
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Inferencias respecto a los parámetros
La ecuación de la recta de regresión es
Pérdida de peso = 8.704 - 0.053·Humedad relativa.
Al 95% de confianza se acepta que existe una relación lineal
entre las variables consideradas, puesto que el p-valor
asociado al coeficiente 1 es menor que 0.05.
Al 95% de confianza se espera que valor de 1 esté entre
-0.061 y -0.046 y el de 0 entre 8.251 y 9.157. Es decir, si la
humedad relativa es del 0%, la pérdida de peso esperada
está entre de 8.251 y 9.157 mg. Si la humedad relativa
aumenta en un 1%, el peso esperado disminuye entre 0.046 y
0.061 mg.
365
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Descomposición de la variabilidad total

n
VT   yi  y
i1

2
es la variabilidad total
n
2
VNE yi  yˆ i  es la variabilidad no
explicada o residual
i1
n
VE  
i1

yˆ i  y

2
es la variabilidad explicada por la regresión
n
n
n
 yi  y    yi  ŷi    ŷi  y 
2
i 1
2
i 1
VT
=
VNE
2
i 1
+
VE
366
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Inferencias respecto a los parámetros
La hipótesis de que existe una relación lineal entre Y y X debería
aceptarse cuando la variación explicada por la recta de regresión (VE)
sea muy parecida a la total (VT) (es decir, la regresión es capaz de
explicar una gran parte de la incertidumbre de los datos) o
equivalentemente, cuando VE sea grande en comparación con VNE.
Se tiene que, bajo la hipótesis de normalidad,
VE 1
2
VE
VT
VE
VNE
2
2
2

 2 ~ F1,n-2
~ n 1
~ 1
~ n  2
2
2
2
VNE
n
2
sR



2
VE  23.514
VNE  0.616
VT  23.514  0.616  24.130
VE
23.514
23.514


 267.183
2
sR 0.616 (9  2) 0.088
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
F1,9 2; 0.95  5.59
367
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Inferencias respecto a los parámetros
ANOVAb
Modelo
1
Regresión
Residual
Total
Suma de
cuadrados
23,514
,616
24,131
gl
1
7
8
Media
cuadrática
23,514
8,801E-02
F
267,183
Sig.
,000a
a. Variables predictoras: (Constante), Porcentaje de humedad relativa
b. Variable dependiente: Pérdida de peso
Además, en regresión lineal simple el valor del estadístico t del
contraste H0 : 1=0 al cuadrado coincide con el estadístico F.
t2 = 16.3462 =267.192
368
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Coeficiente de determinación y coeficiente de correlación lineal
Se define el coeficiente de determinación del modelo como la
proporción de variabilidad total de la variable respuesta Y explicada
por la variable X.

n
R2 
VE

VT
i1
n
yˆ i  y

2
 y  y 
i1
2
i
Es una medida de la bondad del ajuste que toma valores entre 0 y 1.
Si el ajuste lineal es perfecto, es decir, yˆ i  yi , entonces R2=1.
Si no existe ajuste lineal entre las variables, entonces yˆ i  y y R2=0.
369
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Coeficiente de determinación y coeficiente de correlación lineal
Además, el coeficiente de determinación coincide con el cuadrado
del coeficiente de correlación lineal
2
sXY
2
2
R r  2 2
sX  sY
Resumen del modelob
Modelo
1
R
R cuadrado
a
,987
,974
R cuadrado
corregida
,971
Error típ. de la
estimación
,2967
a. Variables predictoras: (Constante), Porcentaje de humedad
relativa
b. Variable dependiente: Pérdida de peso
El porcentaje de humedad
relativa explica el 97.4%
de la variabilidad de la
pérdida de peso.
370
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Análisis de los residuos
Todos los resultados obtenidos para el análisis de la regresión se han
basado en un conjunto de hipótesis sobre los residuos.
Un valor alto de R2 o test de la t significativo no son suficientes para
asegurar la bondad del ajuste.
Aunque el método utilizado para la obtención de los estimadores es
robusto cuando se detectan pequeñas desviaciones de las hipótesis de
partida, desviaciones grandes pueden distorsionar las conclusiones.
El análisis de los residuos puede ayudar a detectar dichas violaciones
del modelo.
371
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
11
10
10
9
9
8
8
7
7
6
6
5
5
4
Y2
Y1
Análisis de los residuos
4
2
4
6
8
10
12
14
3
16
2
14
14
12
12
10
10
8
8
6
6
4
2
6
8
10
12
14
16
8
10
12
14
16
18
20
X2
Y4
Y3
X1
4
4
6
8
10
12
14
X3
16
4
6
X4
372
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Análisis de los residuos
Resumen del modelob
Modelo
1
R
R cuadrado
a
,816
,667
R cuadrado
corregida
,629
Error típ. de la
estimación
1,2366
a. Variables predictoras: (Constante), X1
b. Variable dependiente: Y1
El valor de R2, la tabla del
análisis de la varianza, los
estimadores de los
ANOVAb
coeficientes y los
test de la t para los
coeficientes son
Modelo
1
Regresión
Residual
Total
Suma de
cuadrados
27,510
13,763
41,273
gl
1
9
10
Media
cuadrática
27,510
1,529
F
17,990
Sig.
,002a
a. Variables predictoras: (Constante), X1
b. Variable dependiente: Y1
Coeficientesa
Modelo
1
(Constante)
X1
Coeficientes no
estandarizados
B
Error típ.
3,000
1,125
,500
,118
Coeficient
es
estandari
zados
Beta
,816
t
2,667
4,241
a. Variable dependiente: Y1
Sig.
,026
,002
idénticos para los
cuatro conjuntos de
datos.
373
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Análisis de los residuos
El análisis de los residuos consiste en determinar:
• Si su distribución es aproximadamente normal.
• Si su variabilidad es constante y son independientes.
• Si presentan evidencia de una relación no lineal entre las variables.
• Si existen observaciones atípicas o heterogéneas.
Para contrastar la normalidad de los residuos, se utilizan las
representaciones gráficas y los contrastes vistos en el capítulo 2.
La heterodasticidad (varianza no constante) puede detectarse con el
gráfico de los residuos en función de los valores predichos.
374
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Análisis de los residuos
Este gráfico permite detectar una posible relación no lineal entre las
variables y la existencia de valores atípicos.
Variable dependiente: Pérdida de peso
Se espera que los residuos:
• se encuentren entre los
valores -2 y 2,
• estén aleatoriamente
distribuidos alrededor del 0,
y
• que no muestren ningún
patrón.
2,0
1,5
Regresión Residuo tipificado
1,0
,5
0,0
-,5
-1,0
-1,5
-2,0
-1,5
-1,0
-,5
0,0
,5
1,0
Regresión Valor pronosticado tipificado
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
1,5
2,0
375
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Análisis de los residuos
Variable dependiente: Y1
Variable dependiente: Y2
2,0
1,5
1,5
1,0
,5
Regresión Residuo tipificado
Regresión Residuo tipificado
1,0
,5
0,0
-,5
-1,0
-1,5
-2,0
-2,0
-1,5
-1,0
-,5
0,0
,5
1,0
1,5
2,0
0,0
-,5
-1,0
-1,5
-2,0
-2,0
Regresión Valor pronosticado tipificado
-1,5
-1,0
-,5
0,0
,5
Variable dependiente: Y3
Datos atípicos
Regresión Residuo tipificado
1,0
1
0
-1
-1,0
-,5
0,0
2,0
Observaciones
influyentes
1,5
2
-1,5
1,5
Variable dependiente: Y4
2,0
-2,0
1,0
Regresión Valor pronosticado tipificado
3
Regresión Residuo tipificado
Falta de
linealidad
,5
1,0
1,5
Regresión Valor pronosticado tipificado
2,0
,5
0,0
-,5
-1,0
-1,5
-,5
0,0
,5
1,0
1,5
2,0
2,5
3,0
3,5
Regresión Valor pronosticado tipificado
376
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Predicción
Cuando el modelo obtenido explica bien el comportamiento de las
dos variables consideradas, la ecuación sirve para predecir la
respuesta esperada para otros valores conocidos de la variable
explicativa.
10
Pérdida de peso =
8.704 - 0.053·100 = 3.404mg
9
8
7.644
7
6
Pérdida de peso
¿Cuál es la pérdida de peso
esperada si el porcentaje de
humedad relativa es del
100%?
5
4
3
-20
0
20
40
Porcentaje de humedad relativa
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
60
80
377
100
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Predicción
Para predecir hay que tener en cuenta que:

el ajuste represente bien el comportamiento conjunto de las dos
variables.

los valores de la variable independiente deben sustituirse en las
mismas unidades de medida en las que se ha obtenido el ajuste.

los valores para los que se desea predecir deben estar próximos a
los utilizados para estimar el modelo.

sólo se puede predecir la variable respuesta conocida la variable
explicativa y no en el otro sentido.
378
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Comentarios finales
En resumen, la metodología para construir un modelo de regresión
consiste en:
 Representar gráficamente las observaciones para obtener una
idea intuitiva de la relación entre las variables.

Estimar los parámetros del modelo.

Construir intervalos de confianza para los parámetros y
contrastar la hipótesis de linealidad.

Contrastar las hipótesis de partida mediante el análisis de los
residuos. Si se detectan problemas, replantear el modelo.
379
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Comentarios finales
Para la interpretación del modelo regresión es importante tener en
cuenta que:
 Una alta correlación entre dos variables no implica causalidad. A
veces, es debida a la existencia de una tercera variable que actúa
sobre Y y X moviéndolas en la misma dirección.
 La falta de relación significativa no implica ausencia de relación.
Puede ser debida a una relación no lineal o a que el rango de
variación de la variable X sea pequeño y el error experimental
alto.
 Si los datos provienen de un experimento es posible evitar el
efecto de variables no incluidas en el modelo mediante
aleatorización. Además, si se controlan los valores de la variable
explicativa es posible observar relaciones causa-efecto.
380
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
PRÁCTICA 10 : ANÁLISIS DE LA REGRESIÓN:
ANÁLISIS GRÁFICO
En esta práctica aprenderemos a:
• Dibujar nubes de puntos.
• Dibujar una recta, una parábola o una cúbica sobre la nube de
puntos.
• Obtener el valor del coeficiente de determinación general.
381
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
PRÁCTICA 11 : ANÁLISIS DE LA REGRESIÓN:
REGRESIÓN SIMPLE
En esta práctica aprenderemos a:
• Obtener la ecuación de la recta de regresión y los intervalos de
confianza asociados a los parámetros.
• Obtener el test t para la significatividad de los parámetros.
• Calcular el test F del análisis de la varianza.
• Calcular el coeficiente de determinación lineal.
• Representar y analizar gráficamente los residuos.
382
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
4.3 El modelo lineal general
•
Introducción
•
Hipótesis básicas
•
Estimación de los parámetros
•
Contrastes para los parámetros
•
El coeficiente de determinación y el coeficiente de correlación
lineal
•
Métodos de selección de variables explicativas
383
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Introducción
El modelo general de regresión es la extensión para k variables
explicativas del modelo de regresión simple para una.
Cada observación de la variable respuesta puede representarse en
función de los valores de las variables explicativas mediante la
ecuación: y      x    x      x  
i
0
1
1i
2
2i
k
ki
i
donde y y  son variables aleatorias, x1, x2,..., xk son variables fijas
con valores conocidos y 0, 1,...,k son los parámetros del modelo.
384
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Hipótesis básicas
Los errores deben verificar las mismas propiedades que en el caso
de regresión simple:




su media es 0,
su varianza es constante,
son independientes entre sí, y
su distribución es normal.
El valor de 0 es el valor medio de la respuesta cuando todas las
variables explicativas son iguales a 0. El valor de j es el cambio
medio en la respuesta cuando Xj aumenta en una unidad y el resto
de las variables permanecen fijas.
385
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Hipótesis básicas
Además, se asume que:



para cualquier conjunto de valores de las variables explicativas que
caen dentro del rango de observación, la ecuación lineal
proporciona una aproximación razonable de la verdadera relación
entre las variables,
el número de observaciones es mayor que el número de variables
explicativas incluidas en el modelo, es decir, mayor que el número
de parámetros, y
las variables explicativas tienen valores conocidos, están medidas
sin error y son linealmente independientes entre sí.
386
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Estimación de los parámetros
En un estudio sobre la relación entre el crecimiento y la
composición mineral del follaje de alerces japoneses, se
plantaron una serie de árboles en suelo de diferentes tipos.
Se seleccionaron 26 árboles. Para cada uno de ellos se midió
la altura en centímetros y la concentración de nitrógeno (N),
fósforo (F), potasio (P) y cenizas residuales (C) en los nudos
de un vástago en partes por millón.
Si se asume una relación lineal entre las variables, la
ecuación que se desea estimar es
Alturai = 0 + 1·Ni + 2·Fi + 3·Pi + 4·Ci + i
387
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Estimación de los parámetros
Para estimar los parámetros se utiliza el criterio de los mínimos
cuadrados, que consiste en encontrar ˆ0 , ˆ1 ,  , ˆk que minimicen:

n
i 1

y i  ˆ0  ˆ1  x1i    ˆk  x ki

2
Coeficientesa
Coeficientes no
estandarizados
Modelo
1
(Constante)
Nitrógeno
Fósforo
Potasio
Cenizas residuales
B
-185,330
97,764
256,975
126,573
40,277
Error típ.
36,298
24,572
169,905
46,429
36,615
Intervalo de confianza para
B al 95%
Límite
superior
Límite inferior
-260,816
-109,844
46,664
148,864
-96,363
610,312
30,019
223,127
-35,867
116,421
Altura = -185.330 +
97.764·N +
256.975·F +
126.573·P + 40.277·C
a. Variable dependiente: Altura en cm
388
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Estimación de los parámetros
Así como en regresión
lineal simple, el modelo
se representa mediante
una recta, en regresión
lineal múltiple con dos
variables el modelo se
representa mediante un
plano y con tres o más
variables con un
hiperplano.
389
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Contrastes para los parámetros
El primer contraste que se plantea es:
H 0 : 1   2     k  0
frente a
H1 : algún  i  0
Es decir, la hipótesis nula es que ninguna variable explicativa
influye en la respuesta (no existe relación lineal) frente a la
alternativa de que al menos una de las variables es influyente.
390
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Contrastes para los parámetros
Como en regresión simple, la variabilidad total de la respuesta
puede descomponerse como suma de la variabilidad recogida por
el modelo más la variabilidad residual por lo que, si todos los
parámetros son simultáneamente iguales a 0, tenemos
VE k
~ Fk,n-k -1
2
sR
donde k es el número de variables explicativas en el modelo y
n
s 
2
R

i1
ei2
n -k -1
es la varianza residual.
391
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Contraste para los parámetros
ANOVAb
Modelo
1
Regresión
Residual
Total
Suma de
cuadrados
197832,430
30121,916
227954,346
gl
4
21
25
Media
cuadrática
49458,107
1434,377
F
34,481
Sig.
,000a
a. Variables predictoras: (Constante), Cenizas residuales, Nitrógeno , Potasio,
Fósforo
b. Variable dependiente: Altura en cm
Se rechaza la hipótesis nula H0 : 1 = 2 = 3 = 4 =0, esto es,
que alguna de las variables consideradas explica la altura de
los árboles. Al menos una de ellas influye en la respuesta.
392
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Contrastes para los parámetros
Sobre cada parámetro asociado a una variable independiente se
realiza el contraste j = 0, que implica que la variable Xj no afecta a
la respuesta y no debería aparecer en la ecuación.
Para cada parámetro el estadístico de prueba se distribuye según
una t de Student con n-k-1 grados de libertad.
Coeficientesa
Coeficientes no
estandarizados
Modelo
1
(Constante)
Nitrógeno
Fósforo
Potasio
Cenizas residuales
B
-185,330
97,764
256,975
126,573
40,277
Error típ.
36,298
24,572
169,905
46,429
36,615
Coeficientes
estandarizados
Beta
,436
,188
,330
,137
t
-5,106
3,979
1,512
2,726
1,100
Sig.
,000
,001
,145
,013
,284
a. Variable dependiente: Altura en cm
393
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Contrastes para los parámetros
CONTRASTE
CONJUNTO
Significativo
CONTRASTES INDIVIDUALES
Todos
significativos
Verificar las
hipótesis
Algunos
significativos
Ninguno
significativo
Eliminar variables
Multicolinealidad
394
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Coeficiente de determinación y coeficiente de correlación lineal
Se define el coeficiente de determinación múltiple R2 como la
proporción de variabilidad total de la variable respuesta Y explicada
por las variables independientes X1, X2,..., Xk.
Su raíz cuadrada se denomina coeficiente de correlación múltiple.
Hay que tener en cuenta que:

R2 no sirve por sí solo para comparar la eficacia de distintas
regresiones puesto que, siempre aumenta al introducir nuevas
variables, aunque su efecto no sea significativo.

Si el modelo contiene muchos parámetros y la muestra es
pequeña, R2 será alto.
395
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Coeficiente de determinación y coeficiente de correlación lineal
Para poder comparar la bondad de modelos con distinto número de
variables explicativas, se utiliza el coeficiente de determinación
corregido por los grados de libertad.
sR2
R corregido  1  2
sY
2
Resumen del modelob
Modelo
1
R
R cuadrado
a
,932
,868
R cuadrado
corregida
,843
Error típ. de la
estimación
37,87
a. Variables predictoras: (Constante), Cenizas residuales,
Nitrógeno , Potasio, Fósforo
b. Variable dependiente: Altura en cm
396
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Métodos de selección de variables
Cuando tenemos muchos potenciales predictores (es decir, k es
grande) es difícil determinar cuáles deben estar en el modelo de
regresión ya que muchas de ellas pueden tener relación con Y
(coeficiente de correlación entre las variables X y la variable Y
significativo) y las variables tener mucha relación entre sí.
Si se ajusta el modelo con todas las X saldrán muchos coeficientes
no significativos y no está claro la forma de proceder para quedarse
con el mejor subconjunto de las variables X para explicar Y.
Hay métodos iterativos implementados en los programas de
ordenador que utilizan criterios de R cuadrado, R cuadrado ajustado
o errores de predicción para obtener un buen subconjunto de las X.
397
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Métodos de selección de variables
Se suele trabajar de 3 formas alternativas:
• Selección hacia delante (forward): se parte con un modelo sin
ninguna X y en cada iteración se introduce la variable X más
importante que no esté en el modelo hasta que de las que quedan
fuera ninguna aporta nada significativo.
• Selección hacia atrás (backward): se parte con un modelo con
todas las potenciales variables explicativas X y en cada iteración se
quita la menos importante, hasta que todas las que quedan en el
modelo son importantes.
• Selección paso a paso (stepwise): mezcla de los anteriores donde
en un paso se introduce una variable y en el siguiente se saca otra.
Ha de entenderse que estos métodos son una ayuda pero no siempre
proporcionan el mejor modelo, que ha de basarse en el
conocimiento
del problema, el chequeo de las hipótesis, etc.
Beatriz Lacruz Casaucau ([email protected])
398
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
4.4 Diagnosis y validación del modelo de regresión múltiple
•
Introducción
•
Análisis de los residuos
•
La hipótesis de normalidad
•
Heterocedasticidad
•
Multicolinealidad
•
Observaciones influyentes y observaciones atípicas
•
Autocorrelación
•
Error de especificación
399
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Introducción
El fallo de algunas de las hipótesis necesarias para la construcción
del modelo afectará a sus propiedades.
Los problemas frecuentes son:






Falta de normalidad.
Heterocedasticidad: la varianza de los residuos no es constante.
Multicolinealidad: las variables explicativas son muy dependientes
entre sí.
Existencia de valores extremos que influyen en la estimación.
Autocorrelación: los residuos no son independientes.
Error de especificación: la relación entre las variables no es
lineal, faltan o sobran variables en el modelo.
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
400
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Análisis de los residuos
Para comenzar esta fase, debemos tener un modelo ajustado en el
que las variables incluidas sean significativas.
Los residuos aportan información sobre si se cumplen las hipótesis
de linealidad, normalidad, homocedasticidad e independencia y
permiten detectar observaciones influyentes y/o atípicas.
 El histograma y el gráfico P-P (Q-Q) para comprobar la hipótesis
de normalidad y detectar valores atípicos.
Gráfico P-P normal de regresión Residuo tipificado
Histograma
Variable dependiente: Altura en cm
Variable dependiente: Altura en cm
1,00
12
10
,75
6
Frecuencia
4
Desv. típ. = ,92
2
Media = 0,00
N = 26,00
0
-1,28
-,65
-,02
,62
1,25
1,88
Regresión Residuo tipificado
Prob acum esperada
8
,50
,25
0,00
0,00
,25
,50
,75
1,00
Prob acum observada
401
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Análisis de los residuos
El gráfico de los residuos sobre los valores predichos para
detectar falta de linealidad, heterocedasticidad y valores atípicos.
Gráfico de dispersión
Variable dependiente: Altura en cm
3
2
Regresión Residuo tipificado

1
0
-1
-2
-2
-1
0
1
2
3
Los residuos se
encuentran
aleatoriamente
distribuidos alrededor del
cero, no muestran ningún
patrón ni la existencia de
valores atípicos.
Regresión Valor pronosticado tipificado
402
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Análisis de los residuos
2,0
10
1,5
1,0
0
,5
0,0
-10
Residuos
Residuos
-,5
-20
20
30
40
50
60
70
-1,0
-1,5
,5
1,0
1,5
2,0
2,5
3,0
3,5
X
X
Heterocedasticidad
Falta de linealidad
403
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
4,0
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Análisis de los residuos

Los gráficos de residuos parciales sobre cada una de las variables
explicativas ayudan a comprobar la importancia de cada variable
en el modelo y a identificar si la falta de linealidad o
heterocedasticidad, en su caso, es debida a alguna variable
explicativa.
El gráfico de residuos parcial de la variable Xj muestra el diagrama
de dispersión de la variable Y frente a Xj una vez quitada la
influencia de las demás variables explicativas.
Si el gráfico muestra relación, esa variable aporta información para
el conocimiento de la respuesta.
404
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Análisis de los residuos
Gráfico de regresión parcial
Gráfico de regresión parcial
Variable dependiente: Altura en cm
Variable dependiente: Altura en cm
80
80
60
60
40
20
0
0
-20
-20
-40
Altura en cm
Altura en cm
La altura
aumenta al
aumentar las
cantidades
de nitrógeno
y potasio.
40
20
-60
-80
-100
-,6
-,4
-,2
-,0
,2
,4
,6
-40
-60
-80
-,1
0,0
,1
Nitrógeno
Fósforo
Gráfico de regresión parcial
Gráfico de regresión parcial
Variable dependiente: Altura en cm
,2
Variable dependiente: Altura en cm
200
100
80
60
100
40
20
Altura en cm
Altura en cm
0
0
-100
-,3
-,2
-,1
-,0
,1
Potasio
,2
,3
,4
-20
-40
-60
-80
-,3
-,2
-,1
-,0
,1
,2
,3
,4
,5
Las
cantidades
de fósforo y
cenizas
residuales no
parecen
aportar
mucha
información.
Cenizas residuales
405
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
La hipótesis de normalidad
La hipótesis de normalidad es necesaria para realizar contrastes de
significación y obtener intervalos de confianza para los parámetros.
La ligera falta de normalidad hace que los resultados de los
contrastes sean sólo aproximados y las estimaciones de los
parámetros poco eficientes, con lo que no se extraerá la máxima
información posible de la muestra.
Si la desviación de la normalidad es importante, entonces muchas de
las propiedades (en particular los tests de hipótesis y los intervalos)
dejan de ser válidos.
406
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
La hipótesis de normalidad
La falta de normalidad puede ser debida a:

La presencia de unas pocas observaciones atípicas o una
distribución fuertemente asimétrica.
 Observaciones heterogéneas que producen una distribución más
apuntada que la normal y que pueden ser debidas a una mala
especificación del modelo.
Las soluciones al problema de falta de normalidad son:
 Transformar los datos.
 Plantear un modelo con distribución de los errores distinta de la
normal (modelos lineales generalizados).
407
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Heterocedasticidad
La heterocedasticidad es el fallo en la hipótesis de que la varianza
de los residuos sea constante.
Los estimadores serán insesgados, pero dejarán de ser eficientes.
Los errores de estimación no son válidos y los contrastes dejan de
ser aplicables.
Los gráficos de los residuos sobre los valores predichos o los
gráficos de residuos parciales permiten detectar el problema.
Las posibles soluciones son:


transformar las variables, o
aplicar la técnica de mínimos cuadrados ponderados.
408
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Multicolinealidad
Las estimaciones de los parámetros asociados a las variables
relacionadas serán poco precisas y muy dependientes entre sí. Por
tanto, pequeñas modificaciones en la muestra o en el modelo,
afectarán mucho a los valores de los estimadores y a sus varianzas.
Además, en ocasiones se pueden obtener estimaciones de los
parámetros con signo cambiado.
Correlaciones altas entre parejas de variables explicativas son
signo de multicolinealidad, puesto que muestran un alto grado de
asociación entre las variables dos a dos. Pero si una de ellas es
función de dos o más de las otras, no será detectado por el
coeficiente de correlación lineal. Existen otros estadísticos para
determinar la colinealidad en este caso.
409
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Multicolinealidad
Correlaciones
Nitrógeno
Nitrógeno
Fósforo
Potasio
Cenizas residuales
Correlación de Pearson
Sig. (bilateral)
N
Correlación de Pearson
Sig. (bilateral)
N
Correlación de Pearson
Sig. (bilateral)
N
Correlación de Pearson
Sig. (bilateral)
N
,602**
,001
26
,546**
,004
26
,651**
,000
26
**. La correlación es significativa al nivel 0,01 (bilateral).
Fósforo
,704**
,000
26
,671**
,000
26
Potasio
,671**
,000
26
Cenizas
residuales
La matriz de
correlaciones
muestra valores
altos y
significativamente
no nulos para todas
las parejas de
variables.
Si en la ecuación de regresión se incluyen, por ejemplo, el
fósforo y el potasio, parte de la variación explicada por una
de ellas en un ajuste con una sola de las variables, será
explicada por la otra cuando se incluyan las dos.
410
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Multicolinealidad
R cuadrado
Constante Nitrógeno Fósforo
Coeficiente -185.330
Error
Cenizas
256.975 126.573
40.277
(24.572) (196.905) (46.429) (36.615)
Coeficiente -193.070
Error
107.797
304.235 143.129
(22.925) (165.167) (44.131)
Coeficiente -180.868
Error
97.764
Potasio
123.264
188.685
(22.414)
(38.404)
corregida
0.843
0.841
0.825
Los errores de
estimación de los
parámetros aumentan
al aumentar el
número de variables
incluidas en el
modelo.
Las estimaciones son dependientes entre sí porque los
valores de los coeficientes cambian mucho según las
variables que se hayan incluido.
411
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Multicolinealidad
Nitrógeno
Fósforo
Potasio
Cenizas residuales
Altura en cm
Las variables
explicativas son
muy dependientes
dos a dos, por
tanto existe el
problema de
multicolinealidad
al menos de este
orden.
412
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Multicolinealidad
¿Se necesitan las cuatro
variables independientes
para explicar la altura de
los árboles?
¿Se detectan valores
atípicos?
413
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Multicolinealidad
Las variables explicativas
son muy dependientes.
Observa que la cantidad
de cenizas residuales
aumenta al aumentar las
cantidades del resto de
componentes.
414
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Observaciones influyentes y observaciones atípicas
Una observación influyente puede determinar por sí sola el modelo
y no tiene por qué ser atípica.
Cuando se utilizan varias variables
explicativas es más difícil detectar estos
valores.
El gráfico de los residuos sobre los valores
predichos no sirve para detectar valores
influyentes, porque sus residuos serán
pequeños, aunque sí valores atípicos.
14
12
10
8
Y4
6
4
6
8
10
12
14
16
18
20
X4
Para detectar valores influyentes pueden utilizarse medidas de
influencia como la distancia de Cook.
415
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Autocorrelación
La dependencia entre los residuos del modelo es un problema
frecuente cuando se estudian variables que evolucionan en el
tiempo (y en el espacio: geoestadística).
Los efectos de la dependencia son estimadores y predicciones
ineficientes, y contrastes no válidos.
Para identificar el problema se utiliza el gráfico de los residuos
sobre el tiempo para identificar autocorrelación de primer orden y
el análisis de series temporales para modelos más complejos.
416
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Autocorrelación
El contenido de hierro en las escorias producidas por los
altos hornos pueden determinarse mediante un test
químico o estimarse mediante un test magnético más
barato y rápido de aplicar. El objetivo es estudiar si los
resultados del test químico pueden predecirse a partir de
los obtenidos con el test magnético y la naturaleza de la
relación entre estas dos cantidades. Las observaciones se
muestran en el orden en el que han sido recogidas ¿tiene
esto algún efecto?
417
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Autocorrelación
2
El gráfico de los residuos
respecto del instante en el
que ha sido tomada la
observación muestra un
patrón de autocorrelación
negativa, por lo que se
confirma que el tiempo influye
en la medición.
1
Standardized Residual
0
-1
-2
0
10
20
30
40
50
60
tiempo
418
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Error de especificación
Se comete error de especificación cuando los errores del modelo no
tienen esperanza nula, es decir, se establece una relación errónea de
la respuesta en función de las variables explicativas:



Incluir variables irrelevantes (aumenta el error de estimación y la
posibilidad de multicolinealidad).
Excluir variables relevantes (estimadores sesgados, contrastes no
adecuados, residuos con malas propiedades).
Error en la transformación de las variables.
Afecta al sesgo de los estimadores, al error de estimación, a los
contrastes sobre los parámetros y a los residuos.
La estructura de los residuos cambiará al excluir variables relevantes
y cuando no se elige la transformación adecuada.
419
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN

4.5 Extensiones del modelo de regresión
Regresión con variables explicativas cualitativas.

El análisis de la covarianza para analizar la posible interacción
entre variables cualitativas y cuantitativas de un modelo de
regresión.

Regresión con variable respuesta cualitativa: Modelo logístico o
modelo Logit y modelo Probit que se utilizan, por ejemplo, para
ajustar la relación entre la dosis administrada de un medicamento y
la respuesta al tratamiento y para estimar las dosis que inducen
niveles específicos de respuesta.

Modelos polinómicos.

Regresión no lineal.
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
420
CAPÍTULO 3: ANÁLISIS DE LA REGRESIÓN
Bibliografía
• SAMPRIT CHATTERJEE, ALI S. HADI y BERTRAM PRICE
(2000), Regression Analysis by example(3ª Ed.), John Wiley and
Sons.
421
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
PRÁCTICA 12 : ANÁLISIS DE LA REGRESIÓN:
REGRESIÓN MÚLTIPLE
En esta práctica aprenderemos a:
• Obtener la ecuación de la recta de regresión y los intervalos de
confianza asociados a los parámetros.
• Obtener el test t para la significatividad de los parámetros.
• Calcular el test F del análisis de la varianza.
• Calcular el coeficiente de determinación lineal.
• Representar y analizar gráficamente los residuos.
422
Beatriz Lacruz Casaucau ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza
Descargar