Página 1 U IVERSIDAD DE LOS A DES

Anuncio
UIVERSIDAD DE LOS ADES
FACULTAD DE CIECIAS FORESTALES Y AMBIETALES
ESCUELA DE GEOGRAFÍA
ESTADISTICA 21
Prof. Argenis Mora
Unidad II: La distribucion ji cuadrada (χ2). Características y Aplicaciones sobre
variables cualitativas. Pruebas de hipótesis de bondad de ajustes y Análisis de Tablas
de contingencia.
I.- CARACTERISTICAS DE LA DISTRIBUCIÓ JI-CUADRADA
En estadística, la distribución ji-cuadrado, también denominada ji-cuadrado de Pearson,
es una distribución de probabilidad continua con un parámetro k que representa los grados
de libertad de la variable aleatoria que se describe a continuación:
donde Zi son variables de distribución normal, de media cero y varianza uno.
Esta distribución se expresa habitualmente
Donde el subíndice k de
, es le número de sumandos, se denomina grados de libertad de
la distribución. Se suele usar la denominada prueba ji-cuadrado como test de independencia
y como test de bondad de ajuste.
La Distribución ji-cuadrado, tiene por función de densidad
Donde el parámetro k de
, se denomina grados de libertad de la distribución.
La Distribución ji-cuadrado no tiene sentido para valores negativos de la ji-cuadrada,
como se puede ver en la figura 1. Téngase en cuenta que para k = 1 y 2 la función de
densidad para un valor ji-cuadrado = 0, se hace infinito:
Página 1
Para el resto de los valores de k, para un ji cuadrado = 0, la densidad de probabilidad vale
0.3
0.1
0.2
k=2
k=4
k=8
k=16
k=32
0.0
Densidad de Probabilidad
0.4
0.5
0.
0
10
20
30
χ
40
50
2
FIGURA 1. Distribución Jí-Cuadrada para diferentes valores de k o grados de
libertad.
Página 2
II.- USO DE LA TABLA DE CUATILES
En la tabla de distribución ji-cuadrado (Al final de esta guía) se pueden encontrar algunos
cuantiles o valores tabulados de la distribución para diferentes grados de libertad (k). Para
calcular la probabilidad de que una variable distribuida como una jí-cuadrado con k grados
de libertad sea mayor o igual a un cierto valor se procede de la siguiente forma:
Se busca en la tabla la fila que corresponde a los grados de libertad de la distribución y
dentro de esa fila se localiza (de manera exacta o aproximada) el valor jí cuadrada. Luego
se lee la probabilidad buscada mirando el encabezamiento de la columna correspondiente.
Por ejemplo, si X se distribuye como una χ2 con 5 grados de libertad entonces:
p( X ≥ 9,24) = 0,10
Como ejercicio de uso de la tabla encontrar:
a) p( X ≥ 6,26) si X se distribuye como una χ2 con 15 grados de libertad.
III.- APLICACIÓ DE LA JI- CUADRADA E PRUEBAS DE BODAD DE
AJUSTE
En cualquier área del conocimiento, es muy común encontrar situaciones donde los datos
recogidos son observaciones de variables categóricas cuyos niveles o categorías son
empleados en la discriminación o identificación de las unidades muestrales en estudio. En
esta sección se pretende introducir el análisis de datos categóricos, el cual sólo se
restringirá a la presentación del análisis de tablas de contingencia.
Una variable categórica es una característica para la cual la escala de medida consiste de un
conjunto de categorías. En esta situación, los datos se presentan como frecuencias de
observaciones que ocurren en la misma categoría.
Análisis de Tablas de contingencia con un criterio de clasificación
Para explicar mejor este tipo de análisis, recordemos el ejemplo del número de accidentes
registrados en una ciudad en particular. En ella, se registraron un total de 50 accidentes y
fueron clasificados por UN CRITERIO de clasificación, es decir, TIPOS DE
ACCIDENTES cuyas categorías son: Arrollamiento, Colisión y Objeto fijo; es decir, en
tres categorías. En el siguiente cuadro se resumen los datos a través de las frecuencias
observadas.
Página 3
Tipos de
Accidentes
FO
(frecuencia observada)
Arrollamiento (A)
12
Colisión (C)
15
Objeto Fijo (OF)
23
Total Observados
50
En el caso de que se dispusiera de alguna hipótesis sobre la distribución de la variable
categórica Tipo de accidentes, estos resultados podrían utilizarse para someterla a prueba.
Por ejemplo, si se especifica que la proporción de accidentes es igual entre cada categoría,
se tendrían las siguientes:
Tipos de
Accidentes
Proporción
Esperada en cada
categoría
Arrollamiento (A)
0,333
Colisión (C)
0,333
Objeto Fijo (OF)
0,333
Total
1,00
podría ser de interés probar si las frecuencias observadas son estadísticamente iguales a las
frecuencias esperadas por esta hipótesis establecidas por las proporciones. Este tipo de
análisis se conoce como prueba de bondad de ajuste. La prueba de bondad de ajuste
radica en la comparación de las frecuencias observadas con aquellas frecuencias
esperadas (porla hipótesis nula) mediante un estadístico conveniente. Cuando se realiza
una prueba de bondad de ajuste, se establece como hipótesis nula que las frecuencias
observadas (FO1 , FO2 ,...., FOc) son iguales a las frecuencias esperadas (FE1, FE2,..., FEc).
Para la construcción del estadístico se estiman las frecuencias esperadas cuando la
Hipótesis Nula es cierta. En el ejemplo de los tipos de accidentes, se considera como
Página 4
hipótesis nula que la proporción de accidentes registrados son iguales entre Arrollamiento,
Colisión y Objeto fijo. Lo cual supone:
Ho : P1 = P2 = P3 = 0,333, es decir
Ho: Los tipos de accidentes registraron igual
proporción de ocurrencia. En porcentaje se leería en un 33,3 % igual para cada categoría
de accidente. Por tanto, las frecuencias esperadas (FE) se calcularían multiplicando la
proporción planteada en la hipótesis nula (en este ejemplo, P = 0,333) por el número total
de frecuencias observadas (en este ejemplo, FO total = 50).
Tipos de
Accidentes
FO
FE
(frecuencia observada) (Frecuencia Esperada)
Arrollamiento (A)
12
16,7
Colisión (C)
15
16,7
Objeto Fijo (OF)
23
16,7
FE =P*FO total
FE = 0,333*50 = 16,7
Nótese que la suma de las frecuencias esperadas debe ser igual al total de frecuencias
observadas: 16,7 + 16,7 + 16,7 = 50,1 ≈ 50. Por tanto, se esperaría bajo la hipótesis nula
que el número de accidentes sea de 16,7 en cada categoría. La Prueba estadística usada en
esta situación se basa en la distribución ji cuadrada y se describe a continuación
χc
( FO i − FE i ) 2
=∑
=
FE i
i =1
C
2
( FOc − FE c ) 2
( FO1 − FE 1 ) 2 ( FO 2 − FE 2 ) 2 ( FO 3 − FE 3 ) 2
+
+
+ .... +
FE 1
FE 2
FE 3
FE c
Nótese que si tenemos una tabla o cuadro con “c” categorías debemos obtener “c”
diferencias al cuadrado de FO con FE. En nuestro ejemplo, tendríamos tres sumatorias
como se muestra a continuación.
Página 5
( FO i − FE i ) 2
=
FE i
i =1
C
χc = ∑
2
( 12 − 16 ,7 ) 2 ( 15 − 16 ,7 ) 2 ( 23 − 16 ,7 ) 2 22 ,09 2 ,89 39 ,69
+
+
= 3 ,87
+
+
=
16 ,7
16 ,7
16 ,7
16 ,7 16 ,7 16 ,7
Bajo Ho,
χc2 se distribuye como una variable ji-cuadrado con k grados de libertad. Así sí
realizamos la prueba de hipótesis al 10 % de significancia, debemos comparar el valor χ2
calculado con un valor χ2 tabulado con k = c – 1 grados de libertad; es decir, tenemos tres
categorías (c = 1), por tanto los grados de libertad serán k = 3-1 = 2 grados de libertad. En
la tabla buscamos ese valor en la columna de probabilidad de cola derecha de 0,1 y así
notamos que el valor tabulado es 4.61; la decisión se toma de la siguiente manera:
Sí χ2 calculado es mayor que el valor tabulado entonces se rechaza Ho. En nuestro
0.5
ejemplo
0.3
0.2
Región
Aceptación
de Ho
0.0
0.1
Densidad de Probabilidad
0.4
Región
rechazo de Ho
0
2
3.87
4
4.61
χ
6
8
10
2
Aquí se verifica que el valor calculado es menor al valor 4.61 de la tabla por lo que se
acepta la hipótesis nula en la cual estadísticamente podemos afirmar que la proporción de
accidentes fue igual entre categorías.
Página 6
IV.- PRUEBA χ PARA TABLAS DE COTIGECIAS DE F FILAS POR C
COLUMAS (DOS VÍAS DE CLASIFICACIÓ)
2
Ahora ampliaremos el análisis de tablas en las cuales se tenga DOS CRITERIOS de
clasificación cruzados entre sí. En la siguiente tabla se presenta ahora las frecuencias
observadas o registradas del total de 50 accidentes pero esta vez clasificados en dos
variables categóricas: TIPO DE ACCIDENTES junto con ESTADO DEL CONDUCTOR;
Los datos se presentan a continuación:
Estado del Conductor
Tipos de
Accidentes
Ebrio
Sobrio
Sub-totales
Arrollamiento (A)
2
10
12
Colisión (C)
8
7
15
Objeto Fijo (OF)
17
6
23
27
23
Gran total= 50
Sub-totales
La tabla anterior se denomina tabla de contingencia o de doble entrada. En esta situación se
tienen las “F” categorías de una variable cualitativa “cruzada” con las “C” categorías de
otra variable cualitativa. Aquí se tienen 3 categorías para TIPO DE ACCIDENTES y 2 para
ESTADO DEL CONDUCTOR lo que representa una tabla del tipo 3 filas por 2 columnas,
como consecuencia se tienen un total de 6 frecuencias observadas ubicados en “celdas”.
La hipótesis nula que se plantea es que NO existe relación entre las categorías de una
variable (Filas) con las categorías de la otra variable (columnas), es decir, son
independientes; y como hipótesis alternativa que SÍ existe relación entre ellas (Son
dependientes). En términos simbólicos se describirían las hipótesis así:
Ho: FOij = FEij , Las frecuencias observadas son independientes de las dos variables
categóricas
Página 7
Ha: FOij ≠ FEij , Las frecuencias observadas son dependientes de las dos variables
categóricas
La prueba ji-cuadrada se calcula a partir de las frecuencias observadas en el estudio y las
frecuencias que se esperaría sí las variables son independientes:
F
χc = ∑
2
i =1
C
∑
( FOij − FE ij ) 2
FE ij
j =1
Esta doble sumatoria implica que dentro de cada celda o en cada fila i junto con la columna
j se debe restar la frecuencia observada con la frecuencia esperada y elevarla al cuadrado,
para luego ser dividida por dicha frecuencia esperada. El valor esperado o frecuencia
esperada en cada celda se obtiene a través de:
FE ij =
ni * n j
T
Donde ni es el subtotal para la fila i (frecuencia observada para la fila entera) y nj es el
subtotal para la columna j (frecuencia observada para la columna entera), y T es el total de
frecuencias observadas. Para nuestro ejemplo queremos encontrar el valor o frecuencia
esperada en la celda correspondiente a la fila 1 (Arrollamiento) y columna 1 (Ebrio),
tendremos
FE 11 =
12 * 27
= 6 ,5
50
FE 12 =
12 * 23
= 5 ,5
50
Luego para la celda 1,2
y así sucesivamente para cada una de las celdas correspondientes, un total de Frecuencias
esperadas (6 celdas).
FE 21 =
15 * 27
= 8 ,1
50
FE 22 =
15 * 23
= 6 ,9
50
FE 31 =
23 * 27
= 12 ,4
50
Página 8
FE 32 =
23 * 23
= 10 ,6
50
A continuación se tiene de nuevo la tabal de contingencia pero esta vez en cada celda juntos
las frecuencias observadas y entre paréntesis la frecuencia esperada
Estado del Conductor
Tipos de
Accidentes
Ebrio
Sobrio
Sub-totales
Arrollamiento (A)
2 (6,5)
10(5,5)
12
Colisión (C)
8 (8,1)
7 (6,9)
15
Objeto Fijo (OF)
17 (12,4)
6 (10,6)
23
27
23
Gran total= 50
Sub-totales
Nótese que la suma de las frecuencias esperadas deben sumar el número total de
frecuencias observadas: 6,5 + 5,5 + 8,1 + 6,9 + 12,4 + 10,6 ≈ 50. Así mismo, si las
diferencias entre las frecuencias observadas y las esperadas son pequeñas uno esperaría que
el valor del estadístico ji cuadrado será también pequeño. El cálculo del estadístico vendrá
dado por:
χ
2
c
( 2 − 96 , 5 ) 2
( 10 − 5 , 5 ) 2
( 8 − 8 ,1 ) 2
+
+
+
=
6 ,5
5 ,5
8 ,1
( 7 − 6 ,9 ) 2
( 17 − 12 , 4 ) 2
( 6 − 10 ,6 ) 2
+
+
6 ,9
12 , 4
10 ,6
χc = 10,41
2
Para probar la significancia en esta prueba, el valor del ji cuadrado calculado se compara
con un valor tabulado con k = (c-1)*(f-1) grados de libertad, donde c y f corresponden al
Página 9
número de columnas y filas, respectivamente. En nuestro ejemplo se tiene (3-1)*(2-1) = 2
grados de libertad y con un nivel de significancia del 0,05 el valor tabulado es 5,99. Como
χ 2 calculado es mayor al χ 2 tabulado, se concluye que el número de accidentes registrados
depende del tipo de accidente y la condición del conductor. Por cierto, la proporción de
accidentes cuyos conductores involucrados estaban ebrios y el tipo de accidente es con un
objeto fijo fue:
P31 =
17
= 0 ,34 ,
50
es decir, un 34 % del registro de los accidentes fue dado por esta condición.
Página 10
TABLA 1. Valores tabulados o cuantiles de la distribución Ji cuadrada para áreas de
probabilidades de cola derecha.
Probabilidades de cola derecha
grados
libertad
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
35
40
45
50
60
70
80
90
100
0.995
0.00
0.01
0.07
0.21
0.41
0.68
0.99
1.34
1.73
2.16
2.60
3.07
3.57
4.07
4.60
5.14
5.70
6.26
6.84
7.43
8.03
8.64
9.26
9.89
10.52
11.16
11.81
12.46
13.12
13.79
17.19
20.71
24.31
27.99
35.53
43.28
51.17
59.20
67.33
0.99
0.00
0.02
0.11
0.30
0.55
0.87
1.24
1.65
2.09
2.56
3.05
3.57
4.11
4.66
5.23
5.81
6.41
7.01
7.63
8.26
8.90
9.54
10.20
10.86
11.52
12.20
12.88
13.56
14.26
14.95
18.51
22.16
25.90
29.71
37.48
45.44
53.54
61.75
70.06
0.975
0.00
0.05
0.22
0.48
0.83
1.24
1.69
2.18
2.70
3.25
3.82
4.40
5.01
5.63
6.26
6.91
7.56
8.23
8.91
9.59
10.28
10.98
11.69
12.40
13.12
13.84
14.57
15.31
16.05
16.79
20.57
24.43
28.37
32.36
40.48
48.76
57.15
65.65
74.22
0.95
0.00
0.10
0.35
0.71
1.15
1.64
2.17
2.73
3.33
3.94
4.57
5.23
5.89
6.57
7.26
7.96
8.67
9.39
10.12
10.85
11.59
12.34
13.09
13.85
14.61
15.38
16.15
16.93
17.71
18.49
22.47
26.51
30.61
34.76
43.19
51.74
60.39
69.13
77.93
0.9
0.02
0.21
0.58
1.06
1.61
2.20
2.83
3.49
4.17
4.87
5.58
6.30
7.04
7.79
8.55
9.31
10.09
10.86
11.65
12.44
13.24
14.04
14.85
15.66
16.47
17.29
18.11
18.94
19.77
20.60
24.80
29.05
33.35
37.69
46.46
55.33
64.28
73.29
82.36
0.1
2.71
4.61
6.25
7.78
9.24
10.64
12.02
13.36
14.68
15.99
17.28
18.55
19.81
21.06
22.31
23.54
24.77
25.99
27.20
28.41
29.62
30.81
32.01
33.20
34.38
35.56
36.74
37.92
39.09
40.26
46.06
51.81
57.51
63.17
74.40
85.53
96.58
107.57
118.50
0.05
3.84
5.99
7.81
9.49
11.07
12.59
14.07
15.51
16.92
18.31
19.68
21.03
22.36
23.68
25.00
26.30
27.59
28.87
30.14
31.41
32.67
33.92
35.17
36.42
37.65
38.89
40.11
41.34
42.56
43.77
49.80
55.76
61.66
67.50
79.08
90.53
101.88
113.15
124.34
0.025
5.02
7.38
9.35
11.14
12.83
14.45
16.01
17.53
19.02
20.48
21.92
23.34
24.74
26.12
27.49
28.85
30.19
31.53
32.85
34.17
35.48
36.78
38.08
39.36
40.65
41.92
43.19
44.46
45.72
46.98
53.20
59.34
65.41
71.42
83.30
95.02
106.63
118.14
129.56
0.01
6.63
9.21
11.34
13.28
15.09
16.81
18.48
20.09
21.67
23.21
24.72
26.22
27.69
29.14
30.58
32.00
33.41
34.81
36.19
37.57
38.93
40.29
41.64
42.98
44.31
45.64
46.96
48.28
49.59
50.89
57.34
63.69
69.96
76.15
88.38
100.43
112.33
124.12
135.81
0.005
7.88
10.60
12.84
14.86
16.75
18.55
20.28
21.95
23.59
25.19
26.76
28.30
29.82
31.32
32.80
34.27
35.72
37.16
38.58
40.00
41.40
42.80
44.18
45.56
46.93
48.29
49.64
50.99
52.34
53.67
60.27
66.77
73.17
79.49
91.95
104.21
116.32
128.30
140.17
Página 11
Descargar