Subido por lachoblack

Universidad del Valle Pruebas de Bondad

Anuncio
Universidad del Valle
De Guatemala
Campus Sur
Facultad de Ingeniería
Estadística Avanzada, Diseños Experimentales
Pruebas de Bondad de Ajuste
Julio César Ortiz Hernández
Carné: 131373
Fecha de Entrega: 04 de septiembre de 2016
Índice
Contenido
Índice ..................................................................................................................................... 2
Introducción ......................................................................................................................... 3
Objetivos ............................................................................................................................... 4
Objetivo General .............................................................................................................. 4
Objetivos Específicos ....................................................................................................... 4
Pruebas de Bondad de Ajuste ............................................................................................ 5
Frecuencias Esperadas Iguales ...................................................................................... 5
Ejemplo.......................................................................................................................... 5
Frecuencias Esperadas Desiguales ................................................................................ 8
Ejemplo.......................................................................................................................... 8
Limitaciones de JI cuadrada ......................................................................................... 10
Ejemplo........................................................................................................................ 11
Prueba de hipótesis de que la distribución de datos proviene de una Población
Normal ............................................................................................................................ 13
Ejemplo........................................................................................................................ 13
Conclusiones ...................................................................................................................... 15
Recomendación .................................................................................................................. 16
E-Grafía ............................................................................................................................... 17
Introducción
La bondad de ajuste de un modelo estadístico describe lo bien que se ajusta un
conjunto de observaciones. Las medidas de bondad en general resumen la
discrepancia entre los valores observados y los que valores esperados en el modelo
de estudio.
Tales medidas se pueden emplear en el contraste de hipótesis, e.g. el test de
normalidad de los residuos, comprobar si dos muestras se obtienen a partir de dos
distribuciones idénticas (de Kolmogorov-Smirnov), o si las frecuencias siguen una
distribución específica (ji cuadrado).
Objetivos
Objetivo General
-
Determinar la distribución de probabilidad que puede moldear un conjunto
de datos de muestra.
Objetivos Específicos
-
Aplicar las pruebas de bondad de ajuste de JI cuadrada para determinar
cuándo un conjunto de datos sigue una distribución teórica.
-
Saber cuáles son las limitaciones de JI cuadrada antes de llevar a cabo algún
problema.
-
Aplicar bien las pruebas de hipótesis cuando la distribución de datos
proviene de una población normal.
Pruebas de Bondad de Ajuste
Frecuencias Esperadas Iguales
La prueba de bondad de ajuste se dice que es una de las pruebas no paramétricas
más utilizadas. Esta prueba se puede usar para datos de cualquier nivel. Este tipo
de pruebas se utilizan para ver que tan bien se ajusta un conjunto de datos
observados a un conjunto de datos esperados.
Si no hay una diferencia significativa entre las frecuencias observadas y las
frecuencias esperadas, se supondría que las frecuencias observadas fueran iguales
o aproximadamente iguales. En este caso cualquier diferencia observada entre el
conjunto de frecuencias observadas y esperadas, podría atribuirse al muestreo o a
la casualidad.
Ejemplo.
El Sr. Juventino Rosas tiene una empresa dedicada a hacer tarjetas coleccionables
con temas deportivos y quiere iniciar una nueva serie de tarjetas de jugadores de la
liga mexicana de fútbol. Un problema es qué jugadores elegir para ponerlos en las
nuevas ediciones de tarjetas. El fin de semana pasado puso un stand en las afueras
del Estadio Azteca y tuvo las siguientes ventas:
Jugador
Quiqin Fonseca
Cuauhtemoc Blanco
El Bofo Buatista
Oswaldo Sanchez
Rafael Marquez
El Chelo Delgado
Total
Tarjetas Vendidas
13
33
14
7
36
17
120
Número Esperado
20
20
20
20
20
20
120
Con base en esta información, ¿se puede concluir que se vende el mismo número
de tarjetas de cada jugador?
Si no hay una diferencia significativa entre las frecuencias observadas y las
frecuencias esperadas, se supondría que las frecuencias observadas fueran iguales
o aproximadamente iguales. Es decir, se esperaría vender el mismo número de
tarjetas del Quiquín o del Chelo. En este caso cualquier diferencia observada entre
el conjunto de frecuencias observadas y esperadas, podría atribuirse al muestreo o
a la casualidad.
Como hay 120 tarjetas en la muestra, esperaríamos que a cada jugador le
correspondieran 20 tarjetas. Sin embargo un examen del conjunto de frecuencias
observadas indica que las tarjetas de Oswaldo Sánchez se vendieron muy poco,
mientras que las de Rafa Márquez se vendieron mucho. ¿Se debe esta diferencia de
ventas a la casualidad, o podríamos concluir que hay preferencia por las tarjetas de
algún jugador?
Paso 1
H0: fo = fe
H1: fo ≠ fe
Paso 2
α = 0.05
Paso 3
La estadística de prueba adecuada es ji cuadrada que se designa por χ2.
Con k –1 grados de libertad, donde:
k = número de categorías
fo = frecuencia observada en una categoría determinada
fe = frecuencia esperada en una categoría determinada
Para realizar el cálculo de χ2 se siguen los siguientes tres (sub) pasos:
- Columna 1: Determinar las diferencias entre fo y fe. La suma de estas
diferencias es cero.
- Columna 2: Elevar al cuadrado cada una de las diferencias observadas
entre fo y fe. Esto es (fo - fe)2
- Columna 3: Dividir los resultados de la columna 2 entre la frecuencia
esperada y sumar estos valores. La suma es el valor de χ2.
Jugador
Quiqin Fonseca
Cuauhtemoc Blanco
El Bofo Buatista
Oswaldo Sanchez
Rafael Marquez
El Chelo Delgado
Total
Tarjetas Vendidas
13
33
14
7
36
17
120
Número Esperado
20
20
20
20
20
20
120
(fo - fe)
(fo - fe)2
(fo - fe)2 / fe
-7
13
-6
-13
16
-3
0
49
169
36
169
266
9
2.45
8.45
1.8
8.45
12.8
0.45
x2 = 34.4
Paso 4
Al igual que la distribución t, la distribución χ2 es en realidad una familia de
distribuciones, cada distribución de la familia cambia de acuerdo al número de
grados de libertad.
Como ya dijimos, el número de grados de libertad en este tipo de problemas, se
calcula por k –1. Dado que hay 6 categorías o jugadores k –1 = 6 – 1 = 5 grados de
libertad.
Luego entonces, buscando en las tablas de χ2, encontramos que el valor crítico para
5 grados de libertad con α = 0.05 es 11.070. Que se encuentra localizando 5 grados
de libertad en el margen izquierdo y moviéndose horizontalmente hasta la
columna marcada con 0.05.
De esta manera, la regla de decisión es: No rechazar H0 si el valor que se encuentre
para χ2 es menor que 11.070. Si el valor calculado es igual o mayor al valor crítico,
se rechaza H0 y se acepta H1
Paso 5
Dado que el valor que se encontró para χ2 fue de 34.40, se rechaza la hipótesis nula
y se acepta la hipótesis de investigación.
En otras palabras, la diferencia entre las frecuencias observadas y esperadas no se
debe a la casualidad, sino que estas diferencias son lo suficientemente grandes
para considerarlas significativas. Así concluimos que es muy improbable que todas
las tarjetas se vendan en la misma cantidad.
Frecuencias Esperadas Desiguales
La prueba de ji cuadrada se puede usar cuando las frecuencias esperadas no son
iguales. Es decir en el caso de que existan una diferencia entre una frecuencia
observada y una frecuencia esperada.
Ejemplo.
Un estudio nacional sobre el número de veces que fue hospitalizado un enfermo de
la tercera edad durante un lapso de dos años reveló que 40% ingresó sólo una vez,
20% dos veces, 14% tres, 10% cuatro, 8% cinco, 6% seis y 2% siete.
Un estudio del municipio de Tlalnepantla quiere comparar la experiencia del esta
demarcación con las cifras nacionales. De este modo se toma una muestra de 400
enfermos de la tercera edad y se determina cuántas veces fueron hospitalizados,
las frecuencias observadas se presentan en la siguiente tabla:
Número de hospitalizaciones
1
2
3
4
5
6
7
Número de enfermos de la tercera edad
(fo)
165
79
50
44
32
20
10
400
Obviamente el número de frecuencias locales no se puede comparar con los
porcentajes nacionales, sería como comparar peras con manzanas; pero los
porcentajes nacionales se pueden convertir en frecuencias esperadas. Como ya se
mencionó, a nivel nacional 40% de los enfermos de la tercera edad que necesitaron
hospitalización en dos años, la necesitaron sólo una vez, así que si no hubiera
diferencia entre las cifras de Tlalnepantla y las nacionales, entonces 40% de los
cuatrocientos muestreados habrían sido hospitalizados sólo una vez durante este
período, 20% de los 400 muestreados habrían sido hospitalizados dos veces y así
sucesivamente. Es decir, se esperaría que la frecuencia de hospitalizaciones en
Tlalnepantla coincidiera con la frecuencia observada a nivel nacional. En la
siguiente tabla se muestran las frecuencias observadas y las esperadas.
Número de hospitalizaciones
Número de enfermos de la
tercera edad (fo)
Número esperado de
hospitalizaciones
(fe)
165
79
50
44
32
20
10
400
160 = 40% X 400
80 = 20% X 400
56 = 14% X 400
40 = 10% X 400
32 = 8% X 400
24 = 6% X 400
8 = 2% X 400
400
1
2
3
4
5
6
7
Paso 1
H0: fo = fe No hay diferencia entre la experiencia local y la experiencia nacional
H1: fo ≠ fe Sí hay diferencia entre la experiencia local y la experiencia nacional
Paso 2
α = 0.05
Paso 3
La estadística de prueba adecuada es ji cuadrada que se designa por χ2.
Con k –1 grados de libertad.
Número de hospitalizaciones
fo
fe
(fo - fe)
(fo - fe)2
(fo - fe)2/fe
1
2
3
4
5
6
7
Total
165
79
50
44
32
20
10
120
160
80
56
40
32
24
8
120
5
-1
-6
4
0
-4
2
0
25
1
36
16
0
16
4
0.156
0.013
0.643
0.4
0
0.667
0.5
2.378
χ2 =
Paso 4
El valor crítico se encuentra utilizando la tabla de la distribución de ji cuadrada,
considerando k – 1 grados de libertad; es decir 7 – 1 = 6 grados de libertad y un
nivel de significancia de 0.05. De esta manera el valor crítico es 12.592.
La regla de decisión es entonces: No rechazar H0 si el valor que se encuentre para
χ2 es menor que 12.592. Si el valor calculado es igual o mayor al valor crítico, se
rechaza H0 y se acepta H1
Paso 5
Dado que el valor que se encontró para χ2 fue de 2.378, no se rechaza la hipótesis
nula.
En otras palabras, el municipio de Tlalnepantla podrá concluir que la situación del
municipio respecto a la hospitalización de enfermos de la tercera edad es la misma
que en otras partes del país.
Limitaciones de JI cuadrada
Cuando en una celda o en algunas se tiene una frecuencia esperada demasiado
pequeña La ji cuadrada nos llevara a determinaciones equivocas. Esto puede
ocurrir porque las frecuencias esperadas aparecen en el denominador de la
fórmula, y al dividir entre un número muy pequeño se obtiene un cociente muy
grande. Existen dos reglas generales en relación con las celdas con frecuencias muy
pequeñas:
a) Si sólo hay dos celdas (tablas de 2 X 2), la frecuencia esperada en cada celda
debe ser de 5 o más. De otro modo no se puede utilizar la ji cuadrada.
b) Si hay más de dos celdas, no se debe utilizar la ji cuadrada cuando más del
20% de las celdas tienen una frecuencia esperada menor a 5.
Ejemplo.
El Centro de Readaptación Social (CERESO) de la ciudad de Tamaulipas, quiere
investigar si es diferente la readaptación a la vida civil de un hombre liberado de
prisión, si regresa a vivir en su lugar de origen, o si se va vivir a otro lado. Dicho
de otra forma, ¿existe alguna relación entre la readaptación a la vida civil y el lugar
de residencia después de haber sido liberado de prisión?
Paso 1
H0: No hay relación entre la readaptación a la vida civil y el lugar en donde vive el
individuo después de haber sido liberado de prisión.
H1: Hay relación entre la readaptación a la vida civil y el lugar en donde vive el
individuo después de haber sido liberado de prisión.
Paso 2
α = 0.01
Los psicólogos del CERESO de Tamaulipas entrevistaron a una muestra aleatoria
de 200 prisioneros ya liberados, y con base en los resultados, clasificaron su
readaptación como excelente, buena, regular e insatisfactoria. En la siguiente tabla
se muestran los resultados obtenidos para esta muestra.
Readaptación a la vida civil
Residencia después de liberado de prisión
Lugar de origen
Otro lugar
Total
Excelente
Buena
Regular
Insatisfactoria
27
13
40
35
15
50
33
37
60
25
25
50
Paso 3
La estadística de prueba adecuada es ji cuadrada que se designa por χ2
Para conocer las frecuencias observadas se utiliza la siguiente fórmula:
Utilizando esta fórmula se obtiene el siguiente cuadro:
Readaptación a la vida civil
Residencia
después de
liberado de
prisión
Excelente
Lugar de
origen
Otro lugar
Total
Buena
Regular
Insatisfactoria
Total
fo
fe
fo
fe
fo
fe
fo
fe
fo
fe
27
24
35
30
33
36
25
30
120
120
13
40
16
40
15
50
20
50
27
60
24
60
25
50
20
50
80
200
80
200
Sustituyendo la fórmula para el cálculo de ji cuadrada y comenzando por la celda
superior izquierda, tenemos:
(27-24)2
ji cuadrada =
(35-30)2
+
24
(33-36)2
+
30
(25-30)2
+
36
(13-16)2
+
30
(15-20)2
+
16
(27-24)2
+
20
24
χ2 = 5.729
Paso 4
El valor crítico se encuentra utilizando la tabla de la distribución de ji cuadrada.
Para conocer los grados de libertad se utiliza la siguiente fórmula:
gl = (número de renglones – 1) (número de columnas – 1)
gl = (r –1) (c –1)
(25-20)
+
20
En este problema:
gl = (2 – 1) (4 – 1)
gl = 3
El nivel de significancia, como ya se determinó es α = 0.01. Luego entonces,
buscando en las tablas de la distribución de ji cuadrada, se obtiene el valor crítico
de 11.345.
La regla de decisión es entonces: No rechazar H0 si el valor que se encuentre para
χ2 es menor que 11.345. Si el valor calculado es igual o mayor al valor crítico, se
rechaza H0 y se acepta H1
Paso 5
Dado que el valor que se encontró para χ2 fue de 5.729, no se rechaza la hipótesis
nula.
En otras palabras, concluimos que no hay relación entre la readaptación a la vida
civil y el lugar donde residan los prisioneros después de ser liberados.
Prueba de hipótesis de que la distribución de datos proviene de una
Población Normal
Ejemplo.
Durante mucho tiempo, un fabricante de aparatos de televisión a tenido 40% de
sus ventas en aparatos de pantallas pequeñas (de menos de 1 pulgadas), 40% de
tamaño mediano (de 14 a 19 pulgadas) y el 20% en la categoría de pantalla grande
(de 21 pulgadas y más). Para fijar los programas adecuados de producción para el
mes siguiente, se torna una muestra aleatoria de 100 ventas durante el periodo y se
encuentra que 55 de los aparatos eran pequeños, 35 medianos y 10 grandes. En
seguida, se prueba la hipótesis nula de que el patrón histórico de ventas sigue
siendo igual, utilizando el nivel de significancia de 1%.
Prueba de Hipótesis
H0 : Los porcentajes de compras de aparatos de televisión de pantalla pequeña,
mediana y grande son 40%, 40% y 20% respectivamente.
H1: el patrón actual de ventas de televisores es diferente del patrón histórico
planteado en H0.
Regla de Decisión
gl 0 k - m - 1 = 3-0-1 = 2
X2 Crítica (gl = 2, = 0.01) = 9.21
La X2 calculada (en la tabla 12.2 se encuentran las frecuencias observadas y
esperadas) es:
Análisis Final
La estadística ji - cuadrada calculada de 11.25 es mayor que el valor crítico de 9.21.
Por ello, se rechaza la hipótesis nula a un nivel de significancia de 1%.
Comparando las frecuencias observadas y esperadas de la tabla 12.2, se encuentra
que el cambio principal consiste en que se venden más aparatos pequeños y menos
grandes, con cierta reducción en las ventas de los aparatos de tamaño mediano.
Conclusiones
-
El control estadístico de las pruebas de bondad de ajuste de JI cuadrada,
sabemos que tomar en cuenta para reconocer si sigue una distribución
teórica o no.
-
Reconociendo con éxito las limitaciones que posee JI cuadrada, tomando en
cuenta que si no sabemos las limitaciones esto nos llevará a datos
equivocados.
-
Las pruebas de hipótesis son bien aplicadas al momento de que las
distribuciones provienen de una población normal.
Recomendación
-
Estimular la búsqueda y selección crítica de información proveniente de
diferentes soportes, la evaluación y validación, el procesamiento, la
jerarquización, la crítica y la interpretación de la misma impuesta en los
trabajos realizados por los estudiantes de la facultad de ingeniería en la
Universidad del Valle de Guatemala.
E-Grafía
-
https://es.wikipedia.org/wiki/Bondad_de_ajuste
-
www.geocities.ws/andres_sandoval_hernandez/Estadistica/Tema_11/Te
ma_11.doc
-
http://esthela-mary.blogspot.com/2008/01/capitulo-vii.html
-
www.uoc.edu/in3/emath/docs/Chi_cuadrado.pdf
-
www.ub.edu/aplica_infor/spss/cap3-3.htm
-
www.medwave.cl/link.cgi/Medwave/Series/MBE04/5266
Descargar