Subido por ANDRE ALEXANDER TORRES VALDIVIA

Tema 11

Anuncio
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H
Estadística II
5. PRUEBAS DE CHI CUADRADA
5.1. Características de la distribución
En los capítulos anteriores, se ha trabajado mayormente con datos que eran de la
escala de intervalo o de razón, como pesos, ingresos o edades. En estas pruebas
hemos tenido el supuesto de que los datos provienen de distribuciones normales.
En este tema veremos cómo se desarrollan pruebas de hipótesis para datos de
escala ordinal o nominal, en las que no se necesita hacer ningún supuesto acerca
de la forma de la distribución de la población de la que provienen los datos.
Este tipo de pruebas se conocen con el nombre de pruebas no paramétricas o
pruebas de distribución libre. Esto quiere decir que se realizan a partir de datos
nominales u ordinales y que las pruebas están libres de supuestos acerca de la
forma de la distribución de la población.
5.2. Pruebas de bondad y ajuste (de homogeneidad)
La prueba de bondad y ajuste es una de las pruebas no paramétricas más
utilizadas. Esta prueba se puede usar para datos de cualquier nivel. Este tipo de
pruebas se utilizan para ver que tan bien se ajusta un conjunto de datos
observados a un conjunto de datos esperados.
En el primer ejemplo corresponde a frecuencias igualmente esperadas o de
frecuencias homogéneas.
Ejercicio
El Sr. Juventino Rosas tiene una empresa dedicada a hacer tarjetas
coleccionables con temas deportivos y quiere iniciar una nueva serie de tarjetas de
jugadores de la liga mexicana de fútbol. Un problema es qué jugadores elegir para
ponerlos en las nuevas ediciones de tarjetas. El fin de semana pasado puso un
stand en las afueras del Estadio Azteca y tuvo las siguientes ventas:
1
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H
Jugador
Quiquín Fonseca
Cuauhtémoc Blanco
El Bofo Bautista
Oswaldo Sánchez
Rafael Márquez
El Chelo Delgado
TOTAL
Tarjetas vendidas
Número esperado
13
33
14
7
36
17
20
20
20
20
20
20
120
120
Con base en esta información, ¿se puede concluir que se vende el mismo número
de tarjetas de cada jugador?
Si no hay una diferencia significativa entre las frecuencias observadas y las
frecuencias esperadas, se supondría que las frecuencias observadas fueran
iguales o aproximadamente iguales. Es decir, se esperaría vender el mismo
número de tarjetas del Quiquín o del Chelo. En este caso cualquier diferencia
observada entre el conjunto de frecuencias observadas y esperadas, podría
atribuirse al muestreo o a la casualidad.
Como hay 120 tarjetas en la muestra, esperaríamos que a cada jugador le
correspondieran 20 tarjetas. Sin embargo un examen del conjunto de frecuencias
observadas indica que las tarjetas de Oswaldo Sánchez se vendieron muy poco,
mientras que las de Rafa Márquez se vendieron mucho. ¿Se debe esta diferencia
de ventas a la casualidad, o podríamos concluir que hay preferencia por las
tarjetas de algún jugador?
Paso 1
H0: fo = fe
H1: fo ≠ fe
Paso 2
α = 0.05
Paso 3
La estadística de prueba adecuada es ji cuadrada que se designa por χ2
2
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H
Con k –1 grados de libertad, donde:
k = número de categorías
fo = frecuencia observada en una categoría determinada
fe = frecuencia esperada en una categoría determinada
Para realizar el cálculo de χ2 se siguen los siguientes tres (sub) pasos:
Columna 1: Determinar las diferencias entre fo y fe. La suma de estas diferencias
es cero.
Columna 2: Elevar al cuadrado cada una de las diferencias observadas entre fo y
fe. Esto es (fo - fe)2
Columna 3: Dividir los resultados de la columna 2 entre la frecuencia esperada y
sumar estos valores. La suma es el valor de χ2.
(3)
Jugador
Tarjetas
vendidas
Número
esperado
(1)
(2)
(fo - fe)
(fo - fe)2
(fo - fe)2
fe
Quiquín Fonseca
Cuauhtémoc Blanco
El Bofo Bautista
Oswaldo Sánchez
Rafael Márquez
El Chelo Delgado
13
33
14
7
36
17
20
20
20
20
20
20
-7
13
-6
-13
16
-3
49
169
36
169
256
9
2.45
8.45
1.8
8.45
12.8
0.45
TOTAL
120
120
0
χ2 =
34.4
Paso 4
Al igual que la distribución t, la distribución χ2 es en realidad una familia de
distribuciones, cada distribución de la familia cambia de acuerdo al número de
grados de libertad.
3
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H
Como ya dijimos, el número de grados de libertad en este tipo de problemas, se
calcula por k –1. Dado que hay 6 categorías o jugadores k –1 = 6 – 1 = 5 grados
de libertad.
Luego entonces, buscando en las tablas de χ2, encontramos que el valor crítico
para 5 grados de libertad con α = 0.05 es 11.070. Que se encuentra localizando 5
grados de libertad en el margen izquierdo y moviéndose horizontalmente hasta la
columna marcada con 0.05.
De esta manera, la regla de decisión es: No rechazar H0 si el valor que se
encuentre para χ2 es menor que 11.070. Si el valor calculado es igual o mayor al
valor crítico, se rechaza H0 y se acepta H1
Paso 5
Dado que el valor que se encontró para χ2 fue de 34.40, se rechaza la hipótesis
nula y se acepta la hipótesis de investigación.
En otras palabras, la diferencia entre las frecuencias observadas y esperadas no
se debe a la casualidad, sino que estas diferencias son lo suficientemente grandes
para considerarlas significativas. Así concluimos que es muy improbable que todas
las tarjetas se vendan en la misma cantidad.
5.3. Pruebas de bondad y ajuste: frecuencias desigualmente esperadas
(de independencia)
En los ejercicios anteriores se esperaba que la frecuencia de todas las variables
fuera igual, como el caso de las tarjetas deportivas, dónde se esperaba que se
vendieran igual número de tarjetas de cada jugador. La prueba de ji cuadrada
también se puede usar cuando las frecuencias esperadas no son iguales.
El siguiente ejemplo ilustra el caso de las frecuencias desiguales y también
proporciona un uso práctico de esta herramienta estadística, encontrar si una
experiencia local difiera de una experiencia nacional.
Ejercicio
Un estudio nacional sobre el número de veces que fue hospitalizado un enfermo
de la tercera edad durante un lapso de dos años reveló que 40% ingresó sólo una
vez, 20% dos veces, 14% tres, 10% cuatro, 8% cinco, 6% seis y 2% siete.
4
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H
Un estudio del municipio de Tlalnepantla quiere comparar la experiencia del esta
demarcación con las cifras nacionales. De este modo se toma una muestra de 400
enfermos de la tercera edad y se determina cuántas veces fueron hospitalizados,
las frecuencias observadas se presentan en la siguiente tabla:
Número de
hospitalizaciones
1
2
3
4
5
6
7
Número de enfermos
de la tercera edad
(fo)
165
79
50
44
32
20
10
400
Obviamente el número de frecuencias locales no se puede compara con los
porcentajes nacionales, sería como comparar peras con manzanas; pero los
porcentajes nacionales se pueden convertir en frecuencias esperadas. Como ya
se mencionó, a nivel nacional 40% de los enfermos de la tercera edad que
necesitaron hospitalización en dos años, la necesitaron sólo una vez, así que si no
hubiera diferencia entre las cifras de Tlalnepantla y las nacionales, entonces 40%
de los cuatrocientos muestreados habrían sido hospitalizados sólo una vez
durante este período, 20% de los 400 muestreados habrían sido hospitalizados
dos veces y así sucesivamente. Es decir, se esperaría que la frecuencia de
hospitalizaciones en Tlalnepantla coincidiera con la frecuencia observada a nivel
nacional. En la siguiente tabla se muestran las frecuencias observadas y las
esperadas.
Número de
hospitalizaciones
1
2
3
4
5
6
7
Número observado de
hospitalizaciones
(fo)
165
79
50
44
32
20
10
400
Número esperado de
hospitalizaciones
(fe)
160 = 40% X 400
80 = 20% X 400
56 = 14% X 400
40 = 10% X 400
32 = 8% X 400
24 = 6% X 400
8 = 2% X 400
400
Una vez determinadas las frecuencias esperadas, se procede a plantear las
hipótesis.
5
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H
Paso 1
H0: fo = fe No hay diferencia entre la experiencia local y la experiencia nacional
H1: fo ≠ fe Sí hay diferencia entre la experiencia local y la experiencia nacional
Paso 2
α = 0.05
Paso 3
La estadística de prueba adecuada es ji cuadrada que se designa por χ2
Con k –1 grados de libertad
Número de
hospitalizaciones
fo
fe
(fo - fe)
(fo - fe)2
(fo - fe)2
fe
1
2
3
4
5
6
7
165
79
50
44
32
20
10
160
80
56
40
32
24
8
5
-1
-6
4
0
-4
2
25
1
36
16
0
16
4
0.156
0.013
0.643
0.400
0.000
0.667
0.500
TOTAL
120
120
0
χ2 =
2.378
Paso 4
El valor crítico se encuentra utilizando la tabla de la distribución de ji cuadrada,
considerando k – 1 grados de libertad; es decir 7 – 1 = 6 grados de libertad y un
nivel de significancia de 0.05. De esta manera el valor crítico es 12.592.
La regla de decisión es entonces: No rechazar H0 si el valor que se encuentre para
χ2 es menor que 12.592. Si el valor calculado es igual o mayor al valor crítico, se
rechaza H0 y se acepta H1
6
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H
Paso 5
Dado que el valor que se encontró para χ2 fue de 2.378, no se rechaza la hipótesis
nula.
En otras palabras, el municipio de Tlalnepantla podrá concluir que la situación del
municipio respecto a la hospitalización de enfermos de la tercera edad es la
misma que en otras partes del país.
Limitaciones de la ji cuadrada
La ji cuadrada puede llevara conclusiones erróneas cuando en una celda (o en
varias) se tiene una frecuencia esperada demasiado pequeña. Esto puede ocurrir
porque las frecuencia esperadas aparecen en el denominador de la fórmula, y al
dividir entre un número muy pequeño se obtiene un cociente muy grande. Existen
dos reglas generales en relación con las celdas con frecuencias muy pequeñas:
a) Si sólo hay dos celdas (tablas de 2 X 2), la frecuencia esperada en cada
celda debe ser de 5 o más. De otro modo no se puede utilizar la ji
cuadrada.
b) Si hay más de dos celdas, no se debe utilizar la ji cuadrada cuando más del
20% de las celdas tienen una frecuencia esperada menor a 5.
5.4. Análisis de cuadros de contingencia
En las pruebas de bondad y ajuste que vimos anteriormente, se analizaba
únicamente una variable y un rasgo. Sin embargo, la prueba de ji cuadrada
también se puede utilizar cuando se analizan dos rasgos a ala vez. En estos
casos, se utiliza para saber si existe alguna relación entre estos dos rasgos.
Ejercicio
El Centro de Readaptación Social (CERESO) de la ciudad de Tamaulipas, quiere
investigar si es diferente la readaptación a la vida civil de un hombre liberado de
prisión, si regresa a vivir en su lugar de origen, o si se va vivir a otro lado. Dicho de
otra forma, ¿existe alguna relación entre la readaptación a la vida civil y el lugar de
residencia después de haber sido liberado de prisión?
7
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H
Paso 1
H0: No hay relación entre la readaptación a la vida civil y el lugar en donde vive el
individuo después de haber sido liberado de prisión.
H1: Hay relación entre la readaptación a la vida civil y el lugar en donde vive el
individuo después de haber sido liberado de prisión.
Paso 2
α = 0.01
Los psicólogos del CERESO de Tamaulipas entrevistaron a una muestra aleatoria
de 200 prisioneros ya liberados, y con base en los resultados, clasificaron su
readaptación como excelente, buena, regular e insatisfactoria. En la siguiente
tabla se muestran los resultados obtenidos para esta muestra.
Readaptación a la vida civil
Residencia
después de
liberado de
prisión
Lugar de origen
Otro lugar
Total
Excelente
Buena
Regular
Insatisfactoria
27
13
40
35
15
50
33
37
60
25
25
50
Paso 3
La estadística de prueba adecuada es ji cuadrada que se designa por χ2
Para conocer las frecuencias observadas se utiliza la siguiente fórmula:
8
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H
Utilizando esta fórmula se obtiene el siguiente cuadro:
Readaptación a la vida civil
Residencia
después de
liberado de
prisión
Excelente
Buena
Regular
Insatisfactoria
Total
fo
fe
fo
fe
fo
fe
fo
fe
fo
fe
Lugar de
origen
Otro lugar
27
24
35
30
33
36
25
30
120
120
13
16
15
20
27
24
25
20
80
80
Total
40
40
50
50
60
60
50
50
200
200
Sustituyendo la fórmula para el cálculo de ji cuadrada y comenzando por la celda
superior izquierda, tenemos:
ji cuadrada =
(27-24)2
(35-30)2
(33-36)2
(25-30)2
(13-16)2
(15-20)2
(27-24)2
(25-20)
+
+
+
+
+
+
+
24
30
36
30
16
20
24
20
χ2 = 5.729
Paso 4
El valor crítico se encuentra utilizando la tabla de la distribución de ji cuadrada.
Para conocer los grados de libertad se utiliza la siguiente fórmula:
gl = (número de renglones – 1) (número de columnas – 1)
gl = (r –1) (c –1)
En este problema:
gl = (2 – 1) (4 – 1)
gl = 3
El nivel de significancia, como ya se determinó es α = 0.01. Luego entonces,
buscando en las tablas de la distribución de ji cuadrada, se obtiene el valor crítico
de 11.345.
9
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H
La regla de decisión es entonces: No rechazar H0 si el valor que se encuentre para
χ2 es menor que 11.345. Si el valor calculado es igual o mayor al valor crítico, se
rechaza H0 y se acepta H1
Paso 5
Dado que el valor que se encontró para χ2 fue de 5.729, no se rechaza la hipótesis
nula.
En otras palabras, concluios que no hay relación entre la readaptación a la vida
civil y el lugar donde residan los prisioneros después de ser liberados.
5.5. Pruebas para la varianza
Otro de los usos de la ji cuadrada es elaborar inferencias acerca de una varianza
poblacional. A continuación se expone un ejemplo:
Una compañía productora de alambrón va a surtir a una compañía que produce
micro-alambre para soldadura. Para aceptar a sus proveedores, la empresa
compradora tiene las siguientes políticas de calidad con respecto al alambrón.
-
resistencia a la tensión de 50 kg/mm2
-
desviación estándar máxima de 5 kg/mm2 (varianza de 25)
El proveedor cuenta con tres plantas de producción en diferentes plazas de la
república, los gastos de embarque que se erogarían por las tres plantas son
similares.
Dado que este es un proyecto de gran envergadura, el director de la empresa
compradora quiere saber con un nivel de significancia de 0.05, cuál de las tres
plantas cubriría mejor los requerimientos establecidos en sus políticas de compra,
a fin de hacer una correcta selección de la planta que les surtirá. Para tal efecto,
se toman muestras en las tres plantas y, después de realizar una serie de
pruebas, se encuentra lo siguiente:
a) Planta Norte.
Número de muestras = 10
Varianza (s2) = 26
Resistencia media a la tensión = 50 kg/mm2
10
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H
Se desea saber si la varianza es significativamente mayor que la requerida.
b) Planta Sur.
Número de muestras = 15
Desviación estándar (s) = 3 kg/mm2
Resistencia media a la tensión = 50 kg/mm2
Se desea saber si la varianza es significativamente menor que la requerida.
c) Planta Centro.
Número de muestras = 9
Desviación estándar (s) = 5.1 kg/mm2
Resistencia media a la tensión = 50 kg/mm2
Se desea saber si la varianza es significativamente diferente que la requerida.
Paso 1, inciso a)
H0: δ20 ≤ 25
H1: δ20 > 25
Paso 2, inciso a)
α = 0.05
Paso 3, inciso a)
La estadística de prueba adecuada es ji cuadrada que se designa por χ2
χ2 = [(10 – 1) 26]
25
χ2 = 9.36
11
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H
Paso 4, inciso a)
El valor crítico se encuentra utilizando la tabla de la distribución de ji cuadrada.
Para conocer los grados de libertad se utiliza la siguiente fórmula:
gl = n –1
gl = 10 – 1
gl = 9
El nivel de significancia, como ya se determinó es α = 0.05. Luego entonces,
buscando en las tablas de la distribución de ji cuadrada, se obtiene el valor crítico
de 16.919.
La regla de decisión es entonces: No rechazar H0 si el valor que se encuentre para
χ2 es menor que 16.919. Si el valor calculado es igual o mayor al valor crítico, se
rechaza H0 y se acepta H1
Paso 5, inciso a)
Dado que el valor que se encontró para χ2 fue de 9.36, no se rechaza la hipótesis
nula.
En otras palabras, con un nivel de significancia de 0.05 se puede asegurar que la
varianza en la resistencia a la tensión de la producción de la planta norte es igual
o menor de 25; es decir, se encuentra dentro de los límites requeridos.
Paso 1, inciso b)
H0: δ20 ≥ 25
H1: δ20 < 25
Paso 2, inciso b)
α = 0.05
Paso 3, inciso b)
La estadística de prueba adecuada es ji cuadrada que se designa por χ2
12
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H
χ2 = [(15 – 1) 32]
25
χ2 = 5.040
Paso 4, inciso b)
El valor crítico se encuentra utilizando la tabla de la distribución de ji cuadrada.
Para conocer los grados de libertad se utiliza la siguiente fórmula:
gl = n –1
gl = 15 – 1
gl = 14
El nivel de significancia, como ya se determinó es α = 0.05.
En este caso, como la región de rechazo se encuentra en la cola izquierda, para
encontrar el valor crítico se resta de 1 el valor de α. Así:
(1 – α )
(1 – 0.05) = 0.95
Luego entonces, buscando en las tablas de la distribución de ji cuadrada, se
obtiene el valor crítico de 6.570.
La regla de decisión es entonces: No rechazar H0 si el valor que se encuentre para
χ2 es mayor que 6.570. Si el valor calculado es igual o menor al valor crítico, se
rechaza H0 y se acepta H1
Paso 5, inciso b)
Dado que el valor que se encontró para χ2 fue de 5.040, se rechaza la hipótesis
nula.
13
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H
En otras palabras, con un nivel de significancia de 0.05 se puede asegurar que la
varianza en la resistencia a la tensión de la producción de la planta norte es
significativamente menor de 25; es decir, se encuentra, incluso por debajo de los
límites requeridos.
Paso 1, inciso c)
H0: δ20 = 25
H1: δ20 ≠ 25
Paso 2, inciso c)
α = 0.05
Paso 3, inciso c)
La estadística de prueba adecuada es ji cuadrada que se designa por χ2
χ2 = [(9 – 1) 5.12]
25
χ2 = 8.3
Paso 4, inciso c)
El valor crítico se encuentra utilizando la tabla de la distribución de ji cuadrada.
Para conocer los grados de libertad se utiliza la siguiente fórmula:
gl = n –1
gl = 9 – 1
gl = 8
El nivel de significancia, como ya se determinó es α = 0.05.
14
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H
En este caso, como la región de rechazo se encuentra en ambas colas, los valores
críticos se encuentran en dos sub-pasos:
1) Para encontrar el valor crítico de la izquierda se resta de 1 el valor de
α.dividido entre 2. Así:
(1 – α / 2 )
(1 – 0.05 / 2) = 0.975
Luego entonces, buscando en las tablas de la distribución de ji cuadrada, se
obtiene el valor crítico de 2.179.
2) Para encontrar el valor crítico de la derecha, el valor de alfa se divide entre
dos. Así:
(α / 2 )
(0.05 / 2) = 0.025
Luego entonces, buscando en las tablas de la distribución de ji cuadrada, se
obtiene el valor crítico de 17.534.
La regla de decisión es entonces: No rechazar H0 si el valor que se encuentre para
χ2 es mayor que 2.179 y menor que 17.534. Si el valor calculado no cae en este
rango, se rechaza H0 y se acepta H1
Paso 5, inciso c)
Dado que el valor que se encontró para χ2 fue de 8.3, no se rechaza la hipótesis
nula.
En otras palabras, con un nivel de significancia de 0.05 se puede asegurar que la
varianza en la resistencia a la tensión de la producción de la planta norte es igual
25; es decir, se encuentra dentro de los límites requeridos.
Decisión General
Se concluye después del análisis de la producción de las tres plantas, que las tres
producciones están cumpliendo actualmente con las especificaciones de la fábrica
de micro-alambre y, por tanto, es factible que se surta desde los tres puntos y así
asegurar ampliamente la capacidad de abastecimiento.
15
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H
Por otro lado, la producción de la planta Sur, tiene una mayor calidad (dado que su
varianza es significativamente menor a los estándares requeridos). Por ello sería
conveniente realizar un estudio de su capacidad de producción a fin de explorar la
posibilidad de surtir todas las necesidades a partir únicamente de esta planta.
16
Descargar