PRUEBA DEL SIGNO - Universidad Nacional Abierta

Anuncio
UNIVERSIDAD NACIONAL ABIERTA
CENTRO LOCAL METROPOLITANO
LICENCIATURA EN MATEMÁTICA
MENCIÓN PROBABILIDAD Y ESTADÍSTICA
U NA
ESTUDIO DE MÉTODOS NO PARAMÉTRICOS
Informe de pasantías presentado como requisito para optar al título de
Licenciado en Matemática Mención Probabilidad y Estadística
Autor: Frank Rodríguez
Tutor: MSc. América Vera
Caracas, Marzo de 2008
LISTA DE ILUSTRACIONES
GRÁFICOS
Pag.
Figura I.2.2.1. Distribución con tres niveles de significancia distintos en
donde se muestra la región de aceptación y rechazo
5
Figura I.3.1. Curvas de función de potencia de una prueba de dos colas
con nivel de significancia α = 0.05 con diferentes tamaños de muestras
7
Figura I.5.1. El área sombreada muestra la región de rechazo de una prueba
de dos colas
13
Figura I.5.2. El área sombreada muestra la región de rechazo de una prueba
de cola derecha o superior.
13
Figura I.5.3. El área sombreada muestra la región de rechazo de una prueba
de cola izquierda o inferior
13
Figura II.6.1. Región derechazo para la prueba de corridas (rachas)
34
Figura II.6.2. Distribución de n 1 elementos S en y 1 celdas
35
Gráfica III.7.1. Distribución muestral de R
74
Gráfica III.7.2. Distribución de probabilidad de R
74
Gráfica III.7.3. Muestra la brillantez en función del tiempo
77
TABLAS
Tabla I.1.1. Resumen de probabilidades según el tipo de error
4
Tabla I.4.4.1. Temperatura en centígrados y Fahrenheit
11
Tabla I.4.5.1. Resumen de los cuatro niveles de representación
12
Tabla II.2.1. Hipótesis alternativa y región de rechazo para la hipótesis
nula μ = μ 0
22
iii
Tabla II.2.2.1. Hipótesis alternativa y región de rechazo para la hipótesis
nula μ X = μ Y
24
Tabla II.4.1. Hipótesis alternativa y región de rechazo para la hipótesis
nula μ A = μ B
29
Tabla III.1.1. Observaciones y diferencias de mediciones de la resistencia
a la compresión de probetas preparadas para el ensayo
44
Tabla III.1.2. Observaciones y diferencias de las cantidades de monóxido
de carbono (CO) emitidas contenidas en al aire
47
Tabla III.1.3. Observaciones y diferencias de las calificaciones del examen
con mediana 66 y 75 de los casos a) y b) respectivamente
49
Tabla III.2.1. Número de rechazos ocurridos antes y después de la aplicación
del nuevo saborizante en las compotas
51
Tabla III.2.2. Número de rechazos ocurridos antes y después de la aplicación
del saborizante indicando el signo de su diferencia
52
Tabla III.2.3. Número de piezas defectuosas producidas por máquina
53
Tabla III.2.4. Número de tuercas defectuosas por máquina y signo
de la diferencia
54
Tabla III.3.1. Medición de resistencia
56
Tabla III.4.1. Pesos en libras antes y después de aplicar la dieta a 16
personas
57
Tabla III.4.2. Pesos en libras antes y después de aplicarla dieta a 16
personas con los rangos asignados
59
Tabla III.4.3. Datos pareados y sus diferencias para el ejemplo III.4.2
61
Tabla III.5.1. Resistencia de cable según su aleación
62
Tabla III.5.2. Asignación de rango a las resistencias
62
iv
Tabla III.5.3. Rangos asociados de la tabla III.5.2
63
Tabla III.5.4. Datos del papel tamaño carta con sus rangos y sus sumas
de rango
65
Tabla III.5.5. Asignaciones de rangos a las calificaciones
66
Tabla III.6.1. Calificaciones de examen final obtenida por tres grupos
con tres métodos distintos
67
Tabla III.6.2. Número de unidades producidas por las máquinas A, B, C,
D, E
68
Tabla III.6.3. Asignación de rango a los valores y su sumatoria
69
Tabla III.6.4. Datos del ejemplo III.6.3
70
Tabla III.7.1 Secuencia-corridas
73
Tabla III.7.2. Tabla (R,f) consecuencia de la tabla III.7.1
74
Tabla III.8.1. Estatura de 12 padres y sus hijos mayores
78
Tabla III.8.2. Los valores de la tabla III.8.1 sustituidos por sus rangos
79
Tabla III.8.3. Diferencia en rangos y su cuadrado
79
Tabla III.8.4. Compara nivel académico con el nivel profesional 10 años
después de graduados y la diferencia de rangos
80
Tabla III.8.5. Compara nivel académico con el nivel profesional 10 años
después de graduados y la diferencia de rangos
81
Tabla III.8.6. Horas de estudios por estudiante y las calificaciones
que obtuvieron en el examen de matemáticas
82
Tabla III.8.7. Indicación de rangos por variables y sus diferencias
83
Tabla III.9.1. Frecuencias acumulativas observadas y relativas
86
Tabla III.9.2. Frecuencias acumulativas observadas relativas, frecuencias
acumulativas relativas esperadas y desviaciones absolutas
87
v
Tabla IV.1.Conversión de valores paramétricos a rangos no paramétricos
93
Tabla # 1. Distribución de Probabilidades Binomiales
98
Tabla # 2. Distribución normal estándar
103
Tabla # 3. Prueba de rangos con signos de Wilcoxon. Valores críticos de T
104
Tabla # 4. Prueba U de Mann-Whitney. Valores críticos de U
105
Tabla # 5. Valores de χ α2 ,υ
107
Tabla # 6. Rachas o corridas. Valores críticos de R
108
Tabla # 7. Valores críticos del coeficiente de correlación de rangos de Spearman110
Tabla # 8. Valores críticos de D para la prueba de bondad de ajuste
de Kolmogorov-Smirnov
111
vi
RESUMEN
El objeto del siguiente trabajo de grado es hacer una descripción, mostrando
varias de las aplicaciones, de algunos de los métodos no paramétricos de más fácil uso
por su sencillez para el análisis y el cálculo, tales como: la prueba del signo, la prueba U
de Mann-Whitney, la prueba H de Kruskal- Wallis, la prueba de corridas o rachas, la
prueba del coeficiente de correlación de rangos de Spearman y la prueba de
Kolmogorov-Smirnov. Se hace una revisión de algunas de las escalas de medición
mostrando sus propiedades y aplicaciones, recopilando luego sus ecuaciones y después
de mostrar como se aplican estas técnicas, se hace una discusión donde se fija posición
acerca de las ventajas y desventajas de estos métodos y su comparación, en los casos
posibles, con los métodos paramétricos (que son los métodos tradicionalmente usados).
En ningún momento se pretendió hacer un estudio exhaustivo de estos métodos ni en su
fundamento teórico ni en lo referente a sus aplicaciones. Se recopiló un conjunto de
tablas, que se encuentra en los apéndices, y son solo las necesarias para manejar los
ejemplos aquí tratados. Sin embargo, existe un grupo más amplio de estas tablas en
algunos de los libros que se indican en la bibliografía. En el campo de aplicación de
estas técnicas, en algunos casos, se llega a usar la escala nominal o clasificatoria, muy
conveniente para las aplicaciones de Psicólogos, Sociólogos y aquellos que estudian las
preferencias de los consumidores, cosa que difícilmente pueda hacerse con los métodos
paramétricos.
Palabras claves: prueba, Mann-Whitney, Kruskal- Wallis, Spearman, KolmogorovSmirnov, corridas o rachas, rango, no paramétrico.
vii
ÍNDICE
Pág.
Introducción
1
CAPÍTULO I
2
Prueba estadística y prueba de hipótesis
2
I.1 Elementos de una prueba estadística
2
I.2 Nivel de significancia de una prueba
4
I.2.1 Selección
4
I.2.2 Interpretación
4
I.3 Función de potencia de una prueba de hipótesis
6
I.4 Escalas de medición
8
I.4.1 Introducción
8
I.4.2 Escala nominal o clasificatoria
8
I.4.3 Escala ordinal o de rango
9
I.4.4 Escala de intervalo
10
I.4.5 Escala de proporción
11
I.5 Teoría de decisión
12
CAPÍTULO II
14
Las pruebas y su teoría
14
II.1 Prueba del signo. Breve historia
14
II.1.1 Prueba del signo de una sola muestra
14
II.1.2 Prueba del signo para muestras en pares. Experimentos de pares
comparados
17
II.1.2.1 Caso de dos muestras
17
II.1.2.2 Modelo general de desplazamiento
18
viii
II.1.2.3 Prueba de los signos para un experimento de pares comparados
II.2 Prueba de Wilcoxon
II.2.1 Prueba de rangos para una sola muestra. Intervalos con signos
18
20
20
II.2.2 Prueba de rangos con signos de Wilcoxon para un experimento
de pares comparados
23
II.3 Prueba de suma de rangos de Wilcoxon. Muestras aleatorias independientes 26
II.4 Prueba U de Mann-Whitney. Muestras aleatorias independientes
26
II.5 Prueba H de Kruskal- Wallis
32
II.6 Prueba de corridas (rachas) de una sola muestra
34
II.7 Coeficiente de correlación de rangos de Spearman
38
II.8 Prueba de Kolmogorov-Smirnov
41
CAPÍTULO III
43
Las pruebas y sus aplicaciones
43
III.1 Aplicaciones de la prueba del signo de una sola muestra
43
III.2 Aplicaciones de la prueba del signo para muestras de pares comparados
50
III.3 Aplicaciones para la prueba de rangos con signos de Wilcoxon para
un experimento de una sola muestra
55
III.4 Aplicaciones para la prueba de rangos con signos de Wilcoxon para
un experimento de pares comparados
57
III.5 Aplicaciones para la prueba U de Mann-Whitney
61
III.6 Aplicaciones de la prueba H de Kruskal- Wallis
67
III.7 Aplicaciones de la prueba de corridas (rachas) de una sola muestra
71
III.8 Aplicaciones del coeficiente de correlación de rangos de Spearman
78
III.9 Aplicaciones de la prueba de Kolmogorov-Smirnov
84
CAPÍTULO IV
89
ix
Análisis, conclusiones y recomendaciones
89
IV.1 Pruebas estadísticas paramétricas y no paramétricas
89
IV.2 Ventajas de los métodos no paramétricos
92
IV.3 Desventajas de los métodos no paramétricos
93
IV.4 Recomendaciones
94
APÉNDICE A
95
Teorema central del límite
95
APÉNDICE B
98
Tabla # 1. Distribución de probabilidades binomiales
98
Tabla # 2. Distribución normal estándar
103
Tabla # 3 Valores críticos de T (Wilcoxon)
104
Tabla # 4 Valores críticos de U (Mann-Whitney)
105
Tabla # 5 Valores de χ α2 ,ν
107
Tabla # 6. Valores críticos de R (rachas o corridas)
108
Tabla # 7. Valores críticos del coeficiente de correlación de
rangos de Spearman
110
Tabla # 8. Valores críticos de D (Kolmogorov-Smirnov)
111
REFERENCIA BIBLIOGRÁFICA
112
1
INTRODUCCIÓN
Cada vez es más frecuente el uso de métodos no paramétricos para el
análisis estadístico entre profesionales y estudiantes de diferentes áreas del
conocimiento, entre otras, las ciencias sociales, medicina, ingeniería y aquellas que
estudian las preferencias del consumidor. Esto ha motivado la elaboración del presente
trabajo. Las pruebas estadísticas no paramétricas forman, hoy día, un conjunto amplio
con muchos métodos de inferencia disponible, y debido a su importancia y lo poco
conocidas se presenta un estudio, introductorio, que describe los métodos de Pruebas:
de signo, Wilcoxon, U de Mann-Whitney, H de Kruskal-Wallis, de corridas, correlación
de rangos y de Kolmogorov-Smirnov mostrando, en forma clara, las aplicaciones en que
son de utilidad estos métodos.
En ningún momento se pretende abordar el tema bajo estudio de manera
exhaustiva, se hace una recopilación bibliográfica considerando el fundamento teórico y
aplicaciones de los métodos mencionados arriba, y presentamos una comparación con
los métodos clásicos, en donde es posible.
2
CAPÍTULO I
PRUEBA ESTADÍSTICA Y PRUEBA DE HIPÓTESIS
I.1
ELEMENTOS DE UNA PRUEBA ESTADÍSTICA
En una prueba estadística todo se inicia con una suposición que hacemos de
un valor hipotético de la población, cosa que se puede determinar, por ejemplo, en
forma intuitiva o producto de la experiencia que tenemos sobre un parámetro de algún
evento, que en particular creemos que tiene una determinada población.
Uno de los objetivos de una prueba estadística es el de probar una hipótesis
relacionada con los valores de uno o más parámetros poblacionales. Una vez planteado
el problema, formulamos una hipótesis de investigación respecto a los parámetros que
queremos sustentar y después de seleccionar la hipótesis, se recogen los datos empíricos
que dan información directa acerca de la aceptabilidad de ésta, la cual es llamada
hipótesis nula y se denota mediante H 0 . Este término, hipótesis nula, surgió de las
primeras aplicaciones agrícolas y médicas de la estadística, teniendo como fin el probar
la efectividad de un nuevo fertilizante o una nueva medicina, la hipótesis que se probaba
era que no tuvo efecto, es decir, no hubo diferencia entre las muestras tratadas y no
tratadas.
Cuando nos referimos a un parámetro cualquiera de la población, por
ejemplo θ, el símbolo θ 0 se usará en los planteamientos de este tipo de problemas para
representar el valor hipotético del parámetro poblacional que corresponde a la hipótesis
nula.
La decisión acerca del significado de los datos, una vez procesado, puede
conducir a la confirmación, revisión o rechazo de la hipótesis y, con ella, la teoría que la
originó.
La hipótesis alternativa, que se denota por H 1 , es la hipótesis que se acepta
si se rechaza H 0 y que queremos comprobar con base en la información de la muestra.
3
Por definición una hipótesis estadística es una afirmación o conjetura de la
distribución de una o más variables aleatorias. Y cuando específica por completo la
distribución, recibe el nombre de hipótesis simple; si no, se conoce como hipótesis
compuesta.
Las partes esenciales de una prueba estadística son el estadístico de prueba
y una región de rechazo asociada. El estadístico de prueba, como un estimador, es una
función de las mediciones de la muestra que sirve de fundamento para las tomas de
decisiones estadísticas. La región de rechazo, denotada por RR, especifica los valores
del estadístico de prueba para los que la hipótesis nula se rechaza a favor de la hipótesis
alternativa. Si en una muestra el valor calculado del estadístico de prueba está en la
región RR, rechazamos la hipótesis nula H 0 y aceptamos la hipótesis alternativa H 1 . Si
el valor del estadístico de prueba no cae en la región de rechazo RR, aceptamos H 0 1.
Un problema importante es encontrar una buena región de rechazo para una
prueba estadística y en cualquier región de rechazo fija se pueden cometer dos tipos de
errores al tomar una decisión. Podemos decidirnos a favor de H 1 cuando H 0 es
verdadera o lo que es lo mismo rechazar H 0 cuando es verdadera, este error se
denomina del tipo I con probabilidad α denominada nivel de significancia de la prueba,
o podemos decidirnos a favor de H 0 cuando H 1 es verdadera lo que equivale a rechazar
H 1 cuando es verdadera; este error se denomina del tipo II con probabilidad β . Así
estas probabilidades proporcionan una manera práctica de medir la bondad de una
prueba y podríamos resumirlas
de la siguiente manera según se muestra en la
tabla # I.1.1
1
Aceptar es asegurar que la hipótesis Ho es verdadera 100% y esto no es así. En la mayoría de los textos
que tratan el tema se usa esta expresión como una abreviación que no es más que un abuso del lenguaje.
Todos aclaran, y así también lo hacemos aquí, que lo que se quiere decir es que no se tiene suficientes
elementos de juicio desde el punto de vista estadístico como para rechazarla; siendo ésta la forma más
adecuada o completa. En esta monografía se hace también de las dos formas y es bueno que se tenga
presente para no crear confusión.
4
Tipo de error
Probabilidad de rechazar la
hipótesis cuando es verdadera:
P(RHCEV) 1
I
P(RH 0 CEV) = α
P(RH 1 CEV) = β
II
Tabla # I.1.1. Resumen de probabilidades según el tipo de error.
I.2 NIVEL DE SIGNIFICANCIA DE UNA PRUEBA
I.2.1 SELECCIÓN
El cuestionar o no el valor calculado del estadístico de una muestra no es el
propósito de la prueba de hipótesis, sino hacer un juicio con respecto a la diferencia
entre el valor de ese estadístico de muestra y un parámetro hipotético de la población.
Una vez establecida la hipótesis nula y la alternativa, entonces, todo consiste en decidir
qué criterio utilizar para decidir si aceptar o rechazar la hipótesis nula.
I.2.2 INTERPRETACIÓN
No existe un nivel de significancia único universal para probar hipótesis. En
algunos casos, se utiliza un nivel de significancia de 5%. Algunos resultados de
investigaciones publicados a menudo prueban hipótesis al nivel de significancia de 1%.
Es posible probar una hipótesis a cualquier nivel de significancia. Pero es bueno
recordar que la elección del estándar mínimo para una probabilidad aceptable, o el nivel
de significancia, es también el riesgo que se asume al rechazar una hipótesis nula
cuando es cierta. Mientras más alto sea el nivel de significancia que se utilice para
probar una hipótesis, mayor será la probabilidad de rechazar una hipótesis nula cuando
sea cierta.
Al examinar este concepto, nos referimos a la figura # I.2.2.1 en la que se ha
ilustrado una prueba de hipótesis con H 0 : μ = μ 0 y H 1 : μ ≠ μ 0 a tres niveles de
1
Probabilidad de Rechazar la Hipótesis Cuando Es Verdadera se abrevia como P(RHCEV). Obsérvese
que las palabras que se inician con mayúscula son las únicas que se incluyen en el paréntesis.
5
significancia diferentes: 0.01, 0.1, y 0.50. En ella se puede observar la distribución
muestral, la región de aceptación de la hipótesis nula (en blanco) y su región de rechazo
(sombreada).
Figura # I.2.2.1. Distribución con tres niveles de significancia distintos en
donde se muestra la región de aceptación y de rechazo.
También se ubica en ella la misma muestra x en cada una de las distribuciones en donde
puede verse que tanto en a) como en b) aceptaríamos la hipótesis nula de que la media
de población es igual al valor hipotético. Pero observe que en la parte c) de la misma
figura, rechazaríamos la misma hipótesis nula que con la condición anterior se aceptó,
pues nuestro nivel de significancia de 0.50 en esa parte es tan alto que raramente
aceptaríamos dicha hipótesis cuando no sea cierta, pero, al mismo tiempo la
rechazaríamos cuando es cierta.
6
Observemos que cuando ampliamos RR para obtener una nueva región de
rechazo RR*; es decir, RR ⊂ RR*, la prueba con la región de rechazo RR* nos llevará a
rechazar H 0 con más frecuencia. Si α * y α denotan las probabilidades de los errores
tipo I (niveles de las pruebas) cuando utilizamos RR* y RR como regiones de rechazo,
respectivamente, entonces, como RR ⊂ RR*,
α * = P( el estadístico de la prueba está en RR* cuando H 0 es verdadera)
≥ P( el estadístico de la prueba está en RR cuando H 0 es verdadera) = α .
De la misma manera, si usamos la región de rechazo ampliada RR*, el
procedimiento de la prueba nos llevará a aceptar H 0 con menor frecuencia. Si β * y β
denotan las probabilidades de los errores tipo II para las pruebas con regiones de
rechazo RR* y RR, respectivamente, entonces
β * = P( el estadístico de la prueba no está en RR* cuando H 1 es verdadera)
≤ P( el estadístico de la prueba no está en RR cuando H 1 es verdadera) = β .
Estas relaciones permiten notar que si se modifica la región de rechazo para
incrementar α , β disminuye. De la misma manera, si el cambio en la región de
rechazo da como resultado que α disminuya, β se incrementa. Por lo tanto, α y β
están relacionados de manera inversa. Para poder reducir los valores de
α o β
debemos obtener más información respecto a la verdadera naturaleza de la población
incrementando el tamaño de la muestra. En casi todas las muestras estadisticas, si α se
mantiene fijo con un valor suficientemente menor, β disminuye a medida que aumenta
el tamaño de la muestra.
I.3 FUNCIÓN DE POTENCIA DE UNA PRUEBA DE HIPÓTESIS
La bondad de una prueba de hipótesis se mide mediante las probabilidades
de cometer errores de tipo I y II, éstos están identificados con α y β , respectivamente,
7
Figura # I.3.1. Curvas de función de potencia de una prueba de dos colas con nivel de
significancia α = 0.05 con diferentes tamaños de muestras.
donde α se elige con anterioridad, y determina la localización de la región de rechazo.
Un método que presenta una mayor utilidad para evaluar el desempeño de una prueba
recibe el nombre de función de potencia de una prueba de una hipótesis estadística H 0
contra una hipótesis alternativa H 1 y está dada por
⎧α (θ )
fp (θ ) = ⎨
⎩1 − β (θ )
para valores de θ supuestos con H o
para valores de θ supuestos con H 1
La figura # I.3.1 muestra las curvas típicas fp para la prueba de H 0 : θ = θ 0 (hipótesis
simple) frente a la hipótesis alternativa H 1 : θ ≠ θ 0 (hipótesis compuesta) a medida que
el tamaño de la muestra (n) se incrementa, de modo que la función potencia aumenta al
crecer el tamaño de n. Esto en algunos casos de la práctica no siempre es posible pues
el investigador puede estar estudiando un caso muy raro de enfermedad, por ejemplo, en
la que n solo se dispondrá en valores pequeños. En la figura se ilustra el incremento de
la potencia de una prueba de dos colas de la media que se produce con muestras de
8
tamaño cada vez mayor, siendo n sucesivamente igual a 4, 10, 20, 50 y 100. Estas
muestras se tomaron de poblaciones normales con varianza σ 2 .
Es importante tener en cuenta que cuando los supuestos que constituyen el
modelo estadístico para una prueba no han sido en verdad satisfechos, o cuando la
medida carece de la fuerza requerida, es difícil, si no imposible, medir la potencia de la
prueba.
I.4
I.4.1
ESCALAS DE MEDICIÓN
INTRODUCCIÓN
Los investigadores principiantes y aún los más experimentados que usan la
estadística como herramienta, encuentran dificultades en muchos casos, para decidir
cual de las pruebas estadísticas es la más adecuada para analizar un conjunto de datos.
Las áreas en las que se aplica la estadística para el análisis de datos son muy amplias y
diversas, pues abarca desde las ciencias básicas, pasando por las ciencias médicas y las
tecnológicas, hasta llegar a las ciencias sociales y las que estudian las preferencias del
consumidor. La selección de la prueba estadística necesaria para el caso, depende de
varios factores, y uno de ellos es la escala con la que se están midiendo los datos que se
analizarán, pues no es igual procesar una variable que identifica el peso de un artículo
que la profesión del usuario de un producto. La medición es el proceso de asignar
números a objetos u observaciones. En seguida describiremos los cuatro métodos de
medición usados comúnmente: nominal, ordinal, de intervalo y de proporción.
I.4.2
ESCALA NOMINAL O CLASIFICATORIA
Es aquella escala en donde los números o símbolos se usan con el fin de
distinguir entre sí los grupos a que pertenecen varios objetos, personas o características
representando un nivel elemental de medición pues simplemente los clasifica. Cada uno
de estos grupos debe ser mutuamente excluyente y la única relación implicada es la de
9
equivalencia ( = ) la cual es reflexiva (x = x ∀ x), simétrica (x = y ⇒ y = x ∀ x,y) y
transitiva (si x = y e y = z ⇒ x = z ∀ x,y,z) .
Ejemplos. Cuando un médico psiquiátrico examina a sus pacientes y los agrupa por
diagnóstico como esquizofrénico, paranoico, maníaco-depresivo o psiconeurótico se
vale de un símbolo para representar la clase de personas a que pertenece ese individuo;
por tanto se emplea la escala nominal.
Los números de los uniformes de los futbolistas y de los policías también
ejemplifican el empleo de números en escala nominal.
También la asignación de placas automovilísticas conforma otro ejemplo de
esta escala, pues en algunos países los números y letras de las placas indican el lugar
donde reside cada propietario del automóvil, y tenemos que cada subclase de la escala
nominal consta de un grupo de entidades: todos los propietarios que residen en el
mismo lugar. La asignación de los números debe ser tal que el mismo número (o letra)
se dé a todas las personas que residen en el mismo lugar y que diferentes números (o
letras) se den a personas que residen en lugares diferentes. Esto es, el número o la letra
de la placa debe indicar claramente a qué conjunto de las subclases que se excluyen
mutuamente pertenece el propietario. Observe que en éste ejemplo como en los
anteriores, la diferencia entre dos valores cualesquiera de una escala para una prueba
estadística no paramétrica carece de sentido y la frecuencia es un ejemplo de estadístico
utilizado en este tipo de escala.
I.4.3
ESCALA ORDINAL O DE RANGO
Se llama escala ordinal a toda escala nominal en la que se sostenga la
relación >, que significa mayor que, entre todos los pares de clases de modo que surja
un rango ordenado completo. Este orden cumple con las relaciones de equivalencia ( = )
y la de mayor que ( > ), es irreflexiva ( ∀ x, x no es > x), asimétrica ( ∀ x,y x > y ⇒ y no
es > x) y transitiva ( ∀ x,y,z x > y e y > z ⇒ x > y).
10
Ejemplos. En el sistema educativo de un país podría medirse el nivel de conocimientos,
o grado de preparación, alcanzado por los estudiantes en las diferentes materias según
las notas por ellos obtenidas. En la escala del 1 al 20 cada una de las notas representa
una clase. La relación de equivalencia (=) se mantiene entre los miembros de la misma
clase y la relación mayor que (>), entre cualquier pareja de clases.
El sistema de grados en el ejército es también un ejemplo de una escala
ordinal. El sargento > el cabo > el soldado raso cumple con la relación mayor que, la
misma es irreflexiva: es decir el cabo no es mayor que el cabo; y es asimétrica: el cabo
es mayor que el soldado raso entonces el soldado raso no es mayor que el cabo y
transitiva: como el sargento es mayor que el cabo y éste a su vez mayor que el soldado
raso entonces el sargento es mayor que el soldado raso. Aquí también se mantiene la
relación de equivalencia (=) entre elementos de la misma clase, ya que es reflexiva,
simétrica y transitiva.
Como puede verse por medio de estos ejemplos la diferencia entre valores
en esta escala no representa información con valor aunque sí la posición que las
diferentes clases tienen en ella.
Existen varios estadísticos que usan este tipo de escala para pruebas
estadísticas no paramétricas, uno de ellos es el coeficiente de correlación de Spearman
que será tratado más adelante.
I.4.4 ESCALA DE INTERVALO
Se define así aquella escala en la que se especifica las relaciones de
equivalencia y de mayor que, junto con la proporción de dos intervalos cualesquiera. En
esta escala el punto cero y la unidad de medida son arbitrarios.
Ejemplo. Un ejemplo típico de medición de una variable en esta escala, es la
temperatura cuando se mide en grados Fahrenheit o en grados centígrados, pues éstas
como es ya conocido, no son escalas absolutas, sino relativas. Sabemos que la
11
diferencia entre 30º C y 35º C es la misma que entre 45º C y 50º C y si se dice que un
líquido se encuentra a 0º C, no significa que no tiene temperatura.
En la tabla # I.4.4.1 que se muestra seguidamente se tabula la misma
temperatura en ambas escalas
Centígrados 0
Fahrenheit
10 30 100
32 50 86 212
Tabla # I.4.4.1. Temperatura en centígrados y Fahrenheit.
Calculamos ahora la proporción de la diferencia en cada escala: centígrados
y Fahrenheit
30 − 10
=2
10 − 0
86 − 50
= 2 . Las lecturas comparables en ambas escalas, como se ven
50 − 32
producto del cálculo, dan como resultado la misma proporción: 2. Esta escala es de tipo
cuantitativo y resulta apropiada para pruebas estadísticas paramétricas y no
paramétricas.
I.4.5
ESCALA DE PROPORCIÓN
Se llaman así a las escalas que además de tener todas las características de
una escala de intervalo tienen un punto cero real en su origen. En ella, la proporción de
un punto a otro cualquiera de la escala es independiente de la unidad de medida. Los
números que se asocian con esta escala son números con verdadero cero y cualquier
prueba estadística, ya sea paramétrica o no paramétrica, puede usarse.
Ejemplo. Medimos la masa o el peso en una escala de proporción. La escala en onzas y
libras tiene un verdadero punto cero. Lo mismo sucede con las escalas en gramos,
amperios y voltajes. La proporción entre dos pesos cualesquiera es independiente de la
unidad de medida. Por ejemplo, si determinamos los pesos de dos objetos diferentes no
12
sólo en libras sino también en gramos, encontramos que la razón de los dos pesos en
libras es idéntica a la razón de los dos pesos en gramos.
La tabla # I.4.5.1 contiene un resumen sobre los cuatro métodos de
medición comentados anteriormente.
Escala
Relaciones definidas.
Pruebas estadísticas apropiadas.
Nominal
1- Equivalencia( = )
Pruebas estadísticas
no paramétricas
Pruebas estadísticas
no paramétricas
Pruebas estadísticas
paramétricas y
no paramétricas
Ordinal o de rango
1- Equivalencia( = )
2- Mayor que( > )
Intervalo
1- Equivalencia( = )
2- Mayor que ( > )
3- Proporción conocida
de un intervalo a
cualquier otro.
Pruebas estadísticas
Proporción
1- Equivalencia( = )
paramétricas y
2- Mayor que( > )
3- Proporción conocida no paramétricas
de un intervalo a
cualquier otro.
4- Proporción conocida
de un valor de la
escala a cualquier
otro.
Tabla # I.4.5.1. Resumen de los cuatro niveles de representación.
I.5
TEORIA DE DECISIÓN
El razonamiento en que se apoya este proceso de decisión es muy simple. Se
trata de establecer un criterio para decidir si aceptar o rechazar la hipótesis nula. Si es
muy pequeña la probabilidad asociada con la ocurrencia conforme a la hipótesis nula de
un valor particular en la distribución muestral, decimos que dicha hipótesis es falsa.
Esto es, cuando la probabilidad asociada con un valor observado de una prueba
estadística es igual o menor que el valor previamente determinado de α , concluimos
que H 0 es falsa. El valor observado es llamado significativo. La hipótesis en prueba,
H 0 , se rechaza siempre que ocurra un resultado significativo. Por tanto, se llama valor
significativo a aquel cuya probabilidad asociada de ocurrencia de acuerdo con H 0 es
13
igual o menor que α . Obsérvese que las figuras # I.5.1, # I.5.2., y # I.5.3 muestran las
diferentes regiones de rechazo o aceptación de la hipótesis nula de una prueba para el
caso de dos y una cola, siendo esta última de cola derecha o de cola izquierda según
corresponda.
Figura # I.5.1. El área sombreada muestra la región de rechazo de una prueba de dos
colas.
Figura # I.5.2. El área sombreada muestra la región de rechazo de una prueba de cola
derecha o superior.
Figura # I.5.3. El área sombreada muestra la región de rechazo de una prueba de cola
izquierda o inferior
14
CAPÍTULO ІI
LAS PRUEBAS Y SU TEORÍA
II.1
PRUEBA DEL SIGNO. BREVE HISTORIA
Es una de las pruebas no paramétricas más simples y la más antigua de
todas, pues está reportada en la literatura desde 1710 por John Arbuthnott, quien hizo
uso de este procedimiento, por primera vez, para demostrar que la proporción de
varones
nacidos
en
Londres
en
un
determinado
período
de
tiempo
era
significativamente mayor que la proporción de mujeres. Se basa en los signos que
generan la diferencia de comparar los datos en una población con respecto a su media,
mediana o con respecto a otros datos tomados de la misma población, presentándose así
dos casos, el de una muestra sencilla (una sola muestra) y el de una muestra en pares.
II.1.1
PRUEBA DEL SIGNO DE UNA SOLA MUESTRA
Si cada vez que se vaya a realizar una experiencia aleatoria, fijamos nuestra
atención ante un suceso A, de probabilidad no nula P(A) = p, podemos definir
trivialmente una variable aleatoria Y , dicotómica, tomando valores en {0,1} , que recibe
el nombre de variable de Bernoulli de parámetro p, B(p):
Y = 1 si tiene lugar el evento A
Y = 0 si no tiene lugar el evento A
cuya función de densidad se puede expresar en la forma:
f ( y ) = P(Y = y ) = p y (1 − p )1− y ,
y = 0,1
Si realizamos n ensayos o repeticiones independientes, es decir, en idénticas
condiciones, y siempre centrados en el suceso A, la variable X que cuenta el número de
veces que ha tenido lugar el suceso A define el modelo binomial B (x,n,p) que tiene por
funciones de densidad y distribución la siguiente estructura:
⎛n⎞
f (x) = P (X= x ) = ⎜⎜ ⎟⎟ p x (1 − p ) n − x ; x = 0,1,...., n
⎝ x⎠
15
t
t
⎛n⎞
FX (t ) = P ( X ≤ t ) = ∑ f (k ) = ∑ ⎜⎜ ⎟⎟ p k (1 − p) n − k
k =0
k =0 ⎝ k ⎠
Cuando muestreamos una población simétrica continua en donde se hace
insostenible la suposición de que se muestrea una población normal, se puede aplicar la
prueba del signo de una sola muestra, en donde el suceso A aparece como resultado de
la diferencia de cada uno de los datos con la media y la probabilidad de obtener un valor
de la muestra que sea mayor que la media o que sea menor que la media son ambas ½.
Y si no se puede suponer que la población es simétrica, se usa la misma técnica pero
aplicada a la hipótesis nula μ~ = μ~0 , donde μ~ es la mediana de la población.
Para probar la hipótesis nula H 0 : μ = μ 0 contra una alternativa apropiada
sobre la base de una muestra aleatoria de tamaño n, se sustituye cada valor de la muestra
que exceda a μ 0 por un signo más y cada valor de la muestra menor que μ 0 con un
signo menos, y después se prueba la hipótesis nula de que el número de signos más es el
valor de una variable aleatoria que tiene una distribución binomial con los parámetros
n y p = 1/2. Por lo tanto, la alternativa bilateral H 1 : μ ≠ μ 0 se transforma en p ≠ 1 2 y
las alternativas unilaterales μ < μ 0 y μ > μ 0 se convierte en p < 1/2 y p > 1/2
respectivamente. Si un valor de la muestra es igual a μ 0 , simplemente se desecha.
Sea
( X 1 , X 2 ,....., X n )
n
variables
independientes y además denotamos, para todo
aleatorias
i = 1,2,…,n;
reales
contínuas
e
ψ i = ψ ( X i - μ0 ) ,
con μ 0 conocido, donde
ψ ( xi ) = 1 si xi > 0
ψ ( xi ) = 0 si xi < 0
Entonces sea T(ψ 1 ,…,ψ n ) un estadístico basado sobre los ψ i . Los estadísticos
ψ 1 ,…,ψ n son independientes y siguen una distribución de Bernoulli. En efecto como
los X i son independientes, los ψ i lo son también. En particular si
16
n
T( X 1 , X 2 ,....., X n ) =
∑X
i =1
i
y μ 0 es la mediana común de los X i , se tiene el siguiente
estadístico, denotado por S.
S = T(ψ 1 ,…,ψ n ) =
n
∑ψ i =
i =1
n
∑ψ ( X
i =1
i
- μ 0 ) = “número de diferencias X i - μ 0
estrictamente positivas”
El estadístico a calcular es:
S = nº de casos en los que X i - μ 0 > o ∀i = 1,2,....., n
y tiene una distribución binomial B (s,n,1/2), donde n es el número de diferencias
X i - μ 0 no nulas ya que el estadístico obliga a la conversión de los valores a signos.
Para ejecutar una prueba del signo de una sola muestra cuando la muestra es
muy pequeña, nos referimos directamente a la tabla # 1 de probabilidades binomiales
del apéndice B; cuando la muestra es grande ( np > 5 y nq > 5 ), podemos utilizar la
distribución normal representada en la tabla # 2 del mismo apéndice como
aproximación a la distribución binomial. Una demostración general de este concepto
puede verse en el apéndice A.
La prueba del signo de una sola muestra se resume de la siguiente manera:
Sea p = ½
Hipótesis nula -------------------------H 0 : μ = μ 0
Hipótesis alternativa----------------- H 1 : μ ≠ μ 0 o ( μ < μ 0 o μ > μ 0 )
Estadístico de prueba ----------------S = nº de casos en los que X i - μ 0 > o ∀i = 1,....., n
Región de rechazo--------------------si H 1 : μ ≠ μ 0 , se rechaza H 0 para los valores más
grandes y más pequeños de S; si H 1 : μ < μ 0 , se
rechaza H 0 para los valores más pequeños de S;
si H 1 : μ > μ 0 , se rechaza H 0 para los valores más
grandes de S.
17
II.1.2 PRUEBA DEL SIGNO PARA MUESTRAS EN PARES. EXPERIMENTOS
DE PARES COMPARADOS
II.1.2.1 CASO DE DOS MUESTRAS
Las pruebas estadísticas de dos muestras se usan cuando el investigador
desea establecer la diferencia entre dos tratamientos o si un tratamiento es mejor que
otro. El tratamiento puede ser cualquiera de una gran variedad de condiciones:
inyección de una droga, adiestramiento, propaganda, separación de la familia,
modificación quirúrgica, cambio en las condiciones del alojamiento, integración
intergrupal, cambios del clima, introducción de un nuevo elemento en la economía, etc.
En cada caso, el grupo que ha sufrido el tratamiento es comparado con el que no lo ha
experimentado o que ha sufrido un tratamiento diferente.
En semejante comparaciones de dos grupos, algunas veces se observan
diferencias significativas que no son resultado del tratamiento. Por ejemplo para
comparar dos métodos de enseñanza, un investigador hace que un grupo de estudiantes
aprenda con uno de los métodos y un grupo diferente aprenda con el otro. Ahora bien, si
uno de los grupos tiene estudiantes más capaces o más motivados, la ejecución de los
dos grupos puede no reflejar exactamente la relativa efectividad de los dos métodos de
enseñanza, porque otras variables están creando diferencias en la ejecución.
Una manera de vencer la dificultad impuesta por diferencias extrañas entre
los grupos es usar dos muestras relacionadas o comparables en la investigación. Esto es,
uno puede “igualar”, relacionar o hacer comparables de otra manera las dos muestras
estudiadas, cosa que puede lograrse cuando cada sujeto es su propio control o con
parejas de sujetos en las que se asignan los miembros de cada pareja a las dos
condiciones. Cuando un sujeto sirve como su propio control está expuesto a ambos
tratamientos en diferentes ocasiones. Cuando se usa el método de pares, se trata de
seleccionar, dentro de lo posible, en cada pareja de sujetos, aquellos que sean los más
18
semejantes, con respecto a cualquier variable extraña que pudiera influir el resultado de
la investigación. En el ejemplo mencionado anteriormente, el método de pares requería
que fueran seleccionadas numerosas parejas de estudiantes, cada una compuesta por
dos estudiantes de capacidad y motivación fundamentalmente iguales. Un miembro de
cada pareja, escogido al azar, sería asignado a uno de los métodos de enseñanza y su
“compañero” al otro.
II.1.2.2
MODELO GENERAL DE DESPLAZAMIENTO
Un problema que comúnmente se presenta a los experimentadores es el
de obtener observaciones de dos poblaciones con el fin de probar si estas poseen la
misma distribución. Por ejemplo, si se toman muestras aleatorias independientes en
donde X 1 , X 2 ,..., X n1 y Y1 , Y2 ,..., Yn2 tienen distribuciones F(x) y G(y) respectivamente y
queremos probar si las dos poblaciones tienen la misma distribución, es decir,
H 0 : F(z) = G(z) frente a H 1 : F(z) ≠ G(z), para las que las formas de estas distribuciones
no están determinadas. Obsérvese que H 1 es una hipótesis muy amplia. Muchas veces el
experimentador querrá analizar la hipótesis alternativa más específica que indica que Y1
posee la misma distribución que X 1 , desplazada una cantidad indeterminada θ. Así se
tiene que G(y) = P( Y1 ≤ y) = P( X 1 ≤ y – θ) = F(y - θ) para algún valor desconocido θ;
es decir, las distribuciones tienen diferentes localizaciones.
II.1.2.3 PRUEBA DE LOS SIGNOS PARA UN EXPERIMENTO DE PARES
COMPARADOS
Aquí contamos con una tabla formada de n pares de observaciones de la
forma ( X i , Yi ), y queremos probar la hipótesis que afirma que la distribución de los
valores de X es la misma que la distribución de los valores de Y frente a la hipótesis
alternativa que sostiene que la distribución tiene diferente localización. Con base en la
19
hipótesis nula que indica que X i y Yi provienen de las mismas distribuciones de
probabilidad continua, la probabilidad de que Di = X i - Yi sea positiva es igual a 1/2 (la
misma probabilidad de que Di sea negativa). Sea S la cantidad total de diferencias
positivas. De esta manera, si los valores de las variables X i y Yi poseen la misma
distribución, S poseerá una distribución binomial con p = 1/2, y la región de rechazo
para una prueba basada en S podrá obtenerse mediante la distribución de probabilidad
binomial. La prueba de los signos en este caso se resume de la siguiente manera.
Prueba de los signos para un experimento de pares comparados
Sea p = P(X >Y).
Hipótesis nula…..…………… H 0 : p = ½
Hipótesis alternativa..…………H 1 : p > ½ o (p < ½ o p ≠ ½)
Estadístico de prueba…........... S = número de diferencias positivas, donde Di = X i - Yi
Región de rechazo……............ si H 1 : p > ½, se rechaza H 0 para los valores más
grandes de S; si H 1 : p < ½ , se rechaza H 0 para los
valores más pequeños de S; si H 1 : p ≠ ½, se rechaza
H 0 para valores muy grandes o muy pequeños de S.
Supuestos…………………… los pares ( X i , Yi ) se eligen de forma aleatoria e
independiente.
Prueba de los signos para experimentos de pares comparados
con muestras
grandes ( np > 5 y nq > 5 ).
Hipótesis nula:
H 0 : p = 0.5 (No hay preferencia por algún tratamiento).
Hipótesis alternativa:
H 1 : p ≠ 0.5
Estadístico de prueba:
Z=
X −μ
σ
=
para una prueba de dos colas.
S −n/2
(1 / 2) n
20
Región de rechazo:
H 0 se rechaza si z ≥ z α / 2 o si z ≤ - z α / 2 , donde z α / 2 se
obtiene de la tabla # 2 del apéndice B referente a la
distribución normal.
II.2
II.2.1
PRUEBA DE WILCOXON
PRUEBA DE RANGOS PARA UNA SOLA MUESTRA. INTERVALOS
CON SIGNOS
Como se vio en secciones anteriores, la prueba del signo en sus dos versiones
es muy fácil de realizar, pues sin importar la distribución que siguen las observaciones,
sólo utilizamos los signos de las diferencias entre éstas y μ 0 o entre las parejas
comparadas, siendo los signos + y – las direcciones de las diferencias producto de las
transformaciones realizadas, desperdiciándose por tanto, toda la información contenida
en la magnitud de estas diferencias. La prueba de Wilcoxon para intervalos con signo,
hace un mejor aprovechamiento de la información contenida en las observaciones, ya
que toma en cuenta, además de los signos, las magnitudes de las diferencias por medio
de los rangos a que son asignados.
Sean ( Z 1 ,…, Z n ) una muestra aleatoria de la variable aleatoria continua Z y
( Z (1) ,…, Z (n ) ) la muestra ordenada asociada. Se llama rango Ri de la variable aleatoria
Z i al número de variables aleatorias Z i menores o iguales a Z i , 1 ≤ i ≤ n . Luego el
n
rango se determinará mediante la fórmula Ri = ∑ (1 − ψ ( X j − X i )) , donde ψ es como
j =1
se definió en la sección II.1.1, teniéndose en particular que Z (1) < Z ( 2 ) < Z ( 3) < .... < Z ( n )
y Ri es tal que Z i = Z ( Ri ) , siendo sus valores extremos Z (1) = min( Z 1 ,…, Z n )
y
Z (n ) = máx( Z 1 ,…, Z n ).
En esta prueba se ordenan por rango los valores absolutos de las diferencias
en relación con sus signos: asignamos el rango 1 a la menor de las diferencias en valor
21
absoluto, el rango 2 a la segunda diferencia más pequeña en valor absoluto, y así
sucesivamente. Cuando varias de las diferencias sean las mismas, si fuera el caso de las
que corresponderían a 3, 4 y 5, cada una tomaría como rango el valor promedio de las
tres, en este caso, 4, seria el rango asignado a cada una de las diferencias iguales, y a la
siguiente diferencia en valor absoluto más grande se le asignaría el rango 5.
Calcularíamos ahora la suma de los rangos para las diferencias negativas T − y las
sumas de los rangos para las diferencias positivas T + .En el caso de una prueba de dos
colas utilizamos T, la más pequeña de estas dos cantidades, como estadístico de prueba
para probar la hipótesis nula que afirma que las dos poblaciones son idénticas. Cuanto
más pequeño sea el valor de T, mayor el peso de la evidencia que favorece el rechazo de
la hipótesis nula. Por consiguiente, rechazaremos la hipótesis nula si T es menor o igual
a algún valor T α .
La hipótesis nula permite que para cada rango, las probabilidades de que se
le asigne una diferencia positiva o una negativa son ambas ½. Podemos escribir el
estadístico como
T + = 1. X 1 + 2. X 2 + . . . . . . + nX n , donde X 1 , X 2 ,. . . .y
X n son variables
aleatorias independientes que tienen la distribución de Bernoulli con p = ½. Como el
valor esperado y varianza de las
X i son E( X i ) = 0.1/2 +1.1/2 = 1/2 y
Var( X i ) = 1/2 .(1 – 1/2 ) = 1/4 para i = 1, 2, 3, ……,n , y tomando en cuenta las
siguientes propiedades
E ( a1 X 1 + a 2 X 2 + ....... + a n X n ) = a1 E ( X 1 ) + . . . + a n E ( X n ) y
Var( a1 X 1 + a 2 X 2 + ....... + a n X n ) = a12Var ( X 1 ) + . . . + a n2 Var ( X n ) ,
se deduce que
E (T + ) = 1.1/2 + 2.1/2 + . . . + n.1/2 =
1 + 2 + ... + n
2
y aplicando el método de inducción completa, se tiene que E ( T + ) =
n(n + 1)
,
4
22
y que
Var(T + ) = 1 2 .1/4 + 2 2 .1/4 +. . .+n 2 .1/4 =
1 + 2 + ... + n
4
y aplicando de nuevo el método anterior, se llega a que
Var(T + ) =
n(n + 1)(2n + 1)
24
La probabilidad de que T sea menor o igual a algún valor T α está calculado
para una combinación de tamaños muestrales y valores de T α . Estas probabilidades, se
pueden utilizar para determinar la región de rechazo de la prueba que se basa en T.
Cualquiera sea la hipótesis alternativa, podemos basar todas las pruebas de
la hipótesis nula μ = μ 0 en la distribución de T, debiendo sólo tener cuidado de utilizar
la estadística correcta y el valor crítico correcto de T, como se muestra en la tabla II.2.1
Hipótesis Rechace la hipótesis
alternativa nula si:
μ ≠ μ0
T ≤ Tα
μ > μ0
T − ≤ T 2α
μ < μ0
T + ≤ T 2α
Tabla II.2.1. Hipótesis alternativa y región de rechazo para la hipótesis nula μ = μ 0 .
donde, como se indica, el nivel de significancia es α en cada prueba. Los valores
críticos de T, que son tales que T α es el valor más grande para el cual P(T ≤ T α ) no es
mayor que α , se dan en la tabla 3 del apéndice B. Obsérvese que los mismos valores
críticos sirven para pruebas en diferentes niveles de significancia, dependiendo de que
la hipótesis alternativa sea unilateral o bilateral.
23
II.2.2
PRUEBA DE RANGOS CON SIGNOS DE WILCOXON PARA UN
EXPERIMENTO DE PARES COMPARADOS
En este caso, al igual que la prueba del signo de pares comparados,
contamos también con n observaciones pareadas ( X i , Yi ) y Di = X i - Yi . Nos interesa
probar la hipótesis de que los valores de X e Y tienen la misma distribución frente a la
hipótesis alternativa que sostiene que la localización de las distribuciones es diferente.
En la hipótesis nula no hay diferencia en las distribuciones de los valores de X e Y ,
esperaríamos que la mitad de las diferencias de los pares fuera negativa y la otra mitad
positiva, o sea, que el número esperado de las diferencias negativas fuera de valor n/2.
Para realizar la prueba de Wilconxon calculamos las diferencias ( Di ) de
cada uno de los n pares eliminando las diferencias nulas y se asignan los rangos como
en la sección anterior.
Para detectar la hipótesis alternativa unilateral que afirma que la
distribución de los valores de X
están desplazados a la derecha de los valores de Y
empleamos la suma de rangos T − de las diferencias negativas, y rechazamos la hipótesis
nula para los valores
T − ≤ T 2α . Si queremos detectar un desplazamiento de la
distribución de los valores de Y a la derecha de los valores de X , empleamos la suma
de rangos T + de las diferencias positivas como estadístico de la prueba, y rechazamos
los valores T + ≤ T 2α .
El resumen de las hipótesis alternativas, para el caso de dos muestras,
basada en la prueba de la hipótesis nula μ X = μ Y , es como se muestra en la tabla II
2.2.1 donde hay que tener presente los mismos detalles de la sección anterior y manejar
la tabla con los mismos criterios indicados allí. A continuación se resume la prueba que
se basa en T, la cual se conoce como prueba de rangos con signo de Wilconxon.
24
Hipótesis Rechace la hipótesis
alternativa nula si:
T ≤ Tα
μ X ≠ μY
μ X > μY
T − ≤ T 2α
μ X < μY
T + ≤ T 2α
Tabla II.2.2.1.Hipótesis alternativa y región de rechazo para la hipótesis nula μ X = μ Y
Prueba de rangos con signo de Wilcoxon para un experimento de pares
comparados.
Hipótesis nula
H0:
las distribuciones de población para los valores de X e Y
son idénticas.
Hipótesis alternativa H 1 :
las dos distribuciones de población tienen diferentes
localizaciones (dos colas); o la distribución de población
para los valores de X ( Y ) está desplazada a la derecha de
la distribución para los valores de Y ( X ) (una cola).
Estadístico de la prueba:
1.
Para una prueba de dos colas utilice T = mín(T + , T − ), donde T + es la suma de
los rangos de las diferencias positivas y T − es igual a la suma de los rangos de las
diferencias negativas.
2.
En una prueba de una cola utilice la suma T − (T + ) de los rangos de las
diferencias negativas (positivas) cuando la distribución de los valores de X ( Y ) están
desplazados a la derecha de los valores de Y ( X ).
Región de rechazo:
1.
Para una prueba de dos colas rechace H 0 si T ≤ T α donde T α es el valor crítico
para la prueba bilateral que se proporciona en la tabla 3 del apéndice B.
2.
En una prueba de una cola rechace H 0 si T − (T + ) ≤ T 2α donde T 2α es el valor
crítico para la prueba unilateral.
25
Prueba de rangos con signos de Wilcoxon con muestra grandes para un
experimento de pares comparados.
Hipótesis nula
H0:
las distribuciones de población para los valores de X e Y
son idénticas.
Hipótesis alternativa H 1 :
las dos distribuciones de población tienen diferente
localización (prueba de dos colas); o la distribución de
población para los valores de X está desplazada a la
derecha (o izquierda) de la distribución de los valores de
Y (pruebas de una cola).
Estadístico de prueba:
Z=
X −μ
σ
=
T + − [n(n +1) / 4]
n(n +1)(2n +1) / 24
, T = T + ya que T +
o T − tendrá aproximadamente una distribución normal
cuando la hipótesis nula sea verdadera y n sea grande.
Región de rechazo:
rechace H 0 si z ≥ z α / 2 o z ≤ - z α / 2 , en una prueba de dos
colas.
Para detectar un desplazamiento en las distribuciones de
valores de X a la derecha de los valores de Y, rechace H 0
cuando z ≥ z α . Y para detectar un desplazamiento en la
dirección opuesta rechace H 0 si z ≤ - z α .
26
II.3
PRUEBA DE SUMA DE RANGOS DE WILCOXON. MUESTRAS
ALEATORIAS INDEPENDIENTES
En el año de 1945 Wilcoxon propuso una prueba estadística para comparar
dos poblaciones basadas en muestras aleatorias independientes. Suponga que elegimos
muestras aleatorias independientes de n 1 y n 2 observaciones, cada una de ellas tomadas
de dos poblaciones; representemos a las muestras con A y B. La idea de Wilcoxon fue
combinar las n 1 + n 2 = n observaciones y ordenarlas por orden de magnitud, de la uno
(la más pequeña) a la n (la más grande). Los empates se manejan igual que como se
indicó antes. Si las observaciones se obtienen de poblaciones idénticas, las sumas de
rangos para las muestra deberían ser más o menos proporcionales a los tamaños de las
muestras n 1 y n 2 . Por ejemplo, si n 1 y n 2 son iguales, esperamos que las sumas de los
rangos sean aproximadamente iguales. Pero si las observaciones de la muestra A, por
ejemplo, tienden a ser mayores que las observaciones de la muestra B, las observaciones
de la muestra A tenderán a recibir los rangos más altos, y la suma de rangos que le
pertenece será mayor que la suma de rangos esperada. Por consiguiente, teniendo
muestras de igual tamaño, si una prueba de rangos es muy grande y, en consecuencia, la
otra es muy pequeña, esta podría indicar una diferencia importante entre las dos
poblaciones desde el punto de vista estadístico.
II.4
PRUEBA U DE MANN-WHITNEY. MUESTRAS ALEATORIAS
INDEPENDIENTES
Mann y Whitney propusieron en 1947 una prueba estadística equivalente a
la de Wilcoxon que también incluye las sumas de los rangos de dos muestras, la cual
consiste en ordenar las (n 1 + n 2 ) observaciones de acuerdo con su magnitud y contar el
número de observaciones de la muestra A, por ejemplo, que preceden a cada
observación de la B, así resulta el estadístico U que es la suma de estas enumeraciones.
27
Sean ( X 1 ,…,X m ) y (Y 1 ,…,Y n ) dos muestras aleatorias A y B de las
variables continuas X e Y. Se llama muestra combinada a la muestra de tamaño
N = n + m igual a (X 1 ,…,X m , Y 1 ,…,Y n ) = (Z 1 ,…,Z m ,Z m +1 ,…,Z N ). Entonces sea
R = (R 1 ,…,R m ,R m +1 ,…,R N ) el vector de los rangos asociados a la muestra combinada,
aquí Q = (R 1 ,…,R m ) y S = (R m +1 ,…,R N ) son los vectores de los rangos de los X y los Y
m
en la muestra combinada y se tiene
∑ Ri +
i =1
N
∑ Rj =
j = m +1
N
∑k
=
k =1
N ( N + 1)
.
2
m
Consideremos los estadísticos T 1 , T 2 , T 3 y T 4 tales que T 1 (Z 1 ,…,Z N ) =
N
T 2 ( Z 1 ,…,Z N ) =
T 3 ( Z 1 ,…,Z N ) =
j = m +1
m
T 4 ( Z 1 ,…,Z N ) =
m
∑Z j ,
n
∑∑ψ (Y
i =1 j =1
j
n
∑∑ψ ( X
i =1 j =1
i
∑Z
i =1
i
− Yj )
− Xi)
m
Entonces los estadísticos W y W’ tales que W = T 1 (R 1 ,…,R N ) =
∑R
i
i =1
= suma de los
N
rangos de las X i en la muestra combinada y W’ = T 2 (R 1 ,…,R N ) =
∑R
j = m +1
j
= suma de los
rangos de las Y i en la muestra combinada, son no paramétricos llamados de Wilcoxon
para dos muestra.
Luego los estadísticos T 3 y T 4 son los de Mann-Whitney
m
U = MW = T 3 (Z 1 ,…,Z N ) =
n
∑∑ψ ( X
i =1 j =1
m
U’ = MW’ = T 4 (Z 1 ,…,Z N ) =
i
− Yj )
n
∑∑ψ (Y
i =1 j =1
j
− Xi) ,
entonces
n
∑ψ ( X
j =1
i
- Y j ) = número de valores de j tal que Y j < X i para un i, i = 1,…,m, fijado
n
Luego si m i = número de X menor o igual a X i se tiene: ∑ψ ( X i - X j ) = R i - m i
j =1
28
m
Entonces U A = MW =
m
m
∑ ( Ri - m i ) = ∑ Ri - ∑ mi =
i =1
i =1
i =1
m
m
m
∑ Ri - ∑ i =
i =1
∑R
i =1
i =1
N
Cambiando m por n se obtiene inmediatamente U B = MW’ =
∑R
j = m +1
j
-
i
-
m(m + 1)
2
n(n + 1)
2
Haciendo n 1 = m y n 2 = n, las fórmulas para el estadístico U quedarían así:
MW = U A = R 1 - n 1 (n 1 +1)/2
MW’= U B = R 2 - n 2 (n 2 +1)/2
donde
n 1 = número de observaciones de la muestra A
n 2 = número de observaciones de la muestra B
U A + U B = n1n 2
R 1 = suma de rangos para la muestra A
R 2 = suma de rangos para la muestra B
Como se puede ver en las fórmulas de U A y U B , U A es pequeño cuando
R 1 es grande, un caso que puede presentarse cuando la distribución de población de las
mediciones de A se encuentra desplazada a la derecha de las mediciones de B. Por
consiguiente, para efectuar una prueba de dos colas con el fin de detectar un
desplazamiento en la distribución de A a la derecha de la distribución de B, es necesario
rechazar la hipótesis nula que afirma que no hay diferencia en las distribuciones de
población si U A es menor que algún valor específico U α . Es decir, rechazamos H 0
para valores pequeños de U A . De manera similar, para llevar a cabo una prueba de una
cola con el fin de detectar un desplazamiento de la distribución B a la derecha de la
distribución A, se rechazaría H 0 si U B es menor que algún valor específico U 2 α .
La tabla 4 del apéndice B proporciona la probabilidad de que un valor
observado de U sea menor que un valor específico U α . Para llevar a cabo una prueba
de dos colas, es decir, para detectar un desplazamiento en las distribuciones
29
poblacionales para las mediciones A y B en cualquier dirección, convenimos en utilizar
siempre U, el menor de U A o U B o sea U = mín(U A , U B ) como estadístico de prueba y
rechazar H 0 para U < U α . El valor de α para la prueba de una cola es el doble del de
una prueba de dos colas tal como se muestra en la siguiente tabla # II.4.1.
Hipótesis Rechace la
alternativa hipótesis nula si:
U≤ Uα
μ A ≠ μB
μ A > μB
U B ≤ U 2α
μ A < μB
U A ≤ U 2α
Tabla # II.4.1.Hipótesis alternativa y región de rechazo para la hipótesis nula μ A = μ B
Una prueba para muestras grandes simplificada (n 1 > 8 y n 2 > 8) se puede
obtener utilizando el estadístico Z de la distribución normal. Si las distribuciones de
población son idénticas, el estadístico U posee los siguientes valores esperados y de
varianza cuando U = U A (o U = U B ):
E(U A ) =
n1 n 2
2
y Var(U A ) =
n1 n2 (n1 + n2 + 1)
12
La prueba U de Mann – Whitney se resume de la siguiente forma
Hipótesis nula:
H 0 : Las distribuciones de frecuencias relativas de
población para A y B son idénticas.
Hipótesis alternativa:
H 1 : Las dos distribuciones de frecuencias relativas de
población están desplazadas respecto a sus
localizaciones relativas (prueba de dos colas); o
H 1 : La distribución de frecuencias relativas
de
población para A está desplazada a la derecha de
30
la distribución de frecuencias relativa para la
población B
Estadístico de prueba:
(prueba de una cola).
Para una prueba de dos colas, utilice U, el más
pequeño de
U A = R 1 - n 1 (n 1 +1)/2 y U B = R 2 - n 2 (n 2 +1)/2
donde R 1 y R 2 constituyen las sumas de rangos
para las muestras A y B, respectivamente. Para
una prueba de una cola utilice U A o U B según
sea el caso. Tabla II.4.1.
Región de rechazo:
1. Para una prueba de dos colas y un valor dado de
α
rechace H 0 si U ≤ U α ,
donde
P(U ≤ U α ) = α (Nota: observe que U α es el
valor por el que P(U ≤ U α ) = α )
2. Para una prueba de una cola y un valor dado de
α , rechace H 0 si U A ( U B ) ≤ U 2α , donde
P(U A ( U B ) ≤ U 2α ) = 2 α .
Supuestos:
Las muestras se han seleccionado aleatoria e
independientemente de
sus
respectivas
poblaciones. Los empates en las observaciones
se pueden manejar promediando los rangos que
se hubieran asignado a las
observaciones
empatadas y asignando este promedio a cada
observación. Por consiguiente, si hay
observaciones empatadas, debido a que
tres
se
les asignaron los rangos 3, 4 y 5, les asignaremos
el rango 4 a las tres.
31
En el caso de muestras grandes la prueba U se resume como sigue:
Hipótesis nula:
H 0 : Las distribuciones de frecuencias relativas de
población
Hipótesis alternativa
para A y B
son
idénticas.
H 1 : Las dos distribuciones de frecuencias relativas
de población no son idénticas (prueba de dos
colas); o
H 1 : La distribución de frecuencias relativas
de
población para A está desplazada a la derecha (o
izquierda) de la distribución de frecuencias
relativa para la población B
U = U A (U B )
Estadístico de prueba:
Región de rechazo:
Z=
(prueba de una cola).
U − (n1 n2 / 2)
(n1 n2 )(n1 + n2 + 1) / 12
Rechace H 0 si z > z α o z < -z α en el caso de una
2
2
prueba de dos colas. En una prueba de una cola
coloque todos los valores de α en una de las colas
de la distribución z. Para detectar un desplazamiento
de la distribución de las observaciones A a la
derecha de distribución de las observaciones B
rechace H 0 cuando z < - z α . Para detectar un
desplazamiento en la dirección contraria rechace H 0
cuando z > z α . Los valores tabulados de z se
encuentran en la tabla 2 del apéndice B que es la
distribución normal.
32
II.5 PRUEBA H DE KRUSKAL-WALLIS
La prueba de Kruskal-Wallis o prueba H es una generalización para k
muestras de la prueba U. El procedimiento de Kruskal-Wallis no requiere supuestos
respecto a la forma real de las distribuciones de probabilidad. Supondremos que las
muestras aleatorias independientes se tomaron de k poblaciones que difieren sólo en
cuanto a su localización y no necesitamos suponer que estas poblaciones poseen
distribuciones normales. Generalizamos, utilizando tamaños de muestras diferentes y
representaremos con n i en el caso de i = 1,2,…,k el tamaño de la muestra tomada de la
i-ésima población. Aquí también se combinan las n 1 + n 2 + … + n k = n observaciones
y se ordena de 1, la más pequeña, a n , la más grande. Los empates se manejan igual que
antes. Sea R i la suma de los rangos de las observaciones obtenidas de la población i, y
sea Ri = R i /n i el promedio correspondiente de los rangos. Si R es igual al promedio
total de los rangos, consideramos el equivalente para los rangos de la suma de los
cuadrados para los tratamientos, que se calcula utilizando los rangos, en lugar de los
k
valores reales de las mediciones:
V=
∑n
i =1
i
( Ri - R ) 2 .
Si la hipótesis es verdadera y las poblaciones no difieren en cuanto a su localización,
esperaríamos que los valores de Ri fueran aproximadamente iguales y que el valor que
se obtiene de V fuera relativamente pequeño. Si la hipótesis alternativa es verdadera,
espiraríamos que este hecho se reflejara en las diferencias entre los valores de las Ri , lo
cual daría como resultado un valor grande para V. Como R = (suma de los primeros n
enteros) / n = [n(n + 1) / 2] / n
n +1
=
; de esta manera, V =
2
k
∑n ( R
i
i =1
i
-
n +1 2
) .
2
En lugar de concentrarse en V, Kruskal y Wallis consideraron el estadístico
12V
12
H=
, que puede escribirse como H =
n(n + 1)
n(n + 1)
k
2
Ri
-3(n+1).
∑
i =1 ni
33
La hipótesis nula afirma que la igualdad de las poblaciones se rechaza a favor de la
hipótesis alternativa que plantea que las poblaciones difieren en cuanto a su localización
si el valor de H es grande. En consecuencia, la prueba de nivel α correspondiente exige
el rechazo de la hipótesis nula en favor de la hipótesis alternativa si H > h( α ), donde
h( α ) satisface la relación.
La prueba, además de suponer que la variable en estudio tiene como base
una distribución continua, requiere, por lo menos, una medida ordinal de la variable.
La distribución de H para cualesquiera valores de k y n 1 , n 2 , … , n k se
puede determinar calculando el valor de H para cada una de las n! permutaciones, con la
misma probabilidad, de los rangos de las n observaciones.
Kruskal y Wallis demostraron que, si los n i valores son grandes, la
distribución nula de H se puede aproximar mediante una distribución ji-cuadrada con
k-1 grados de libertad. Esta aproximación, por lo general, se considera adecuada si cada
uno de los n i es mayor o igual a 5.
Resumen de la prueba de Kruskal-Wallis basada en H para comparar k
distribuciones de población.
Hipótesis nula…………
H 0: Las k distribuciones de población son idénticas.
Hipótesis alternativa…..……H 1 : Por lo menos dos de las distribuciones de población
difieren en cuanto a posición.
Estadístico de la prueba…… H =
12
n(n + 1)
k
2
Ri
-3(n+1), donde
∑
i =1 ni
n i = número de mediciones en la muestra tomada
de la población i
R i = suma de los rangos para la muestra i, en la que
el rango de cada medición se calcula de acuerdo
con su tamaño relativo en el conjunto total de
34
n = n1 + n 2 + … + n k
combinando
observaciones formadas
los datos
de
las
k
muestras.
Región de rechazo……………. Rechace H 0 si H > χ α2 con k-1 grados de libertad.
Supuestos……………………… Las k muestras se extraen de forma aleatoria e
independiente.
Hay cinco o más mediciones en cada muestra.
II.6
PRUEBA DE CORRIDAS ( RACHAS) DE UNA SOLA MUESTRA
Esta prueba se aplica en el estudio de una serie de eventos en la que cada
elemento de la serie puede dar origen a dos resultados, éxito (S) o fracaso (F). Si
consideramos un proceso de fabricación en el que al hacer el control de calidad a cada
artículo, se produce una serie, como por ejemplo, S S S S S F F S S S F F F S S S S S S
S, en la que se ha hecho la observación de 20 artículos consecutivos, donde (S) denota
cuando el articulo es no defectuoso y (F) a los defectuoso y deseamos saber si este
agrupamiento que se muestra en la serie implica que no hay aleatoriedad en el proceso,
y por consiguiente, hay falta de control.
Una cantidad muy pequeña o muy grande de corridas (subsucesión máxima
de elementos iguales) en una serie constituye una señal de no aleatoriedad. Llamamos R
el número de corridas en una serie y es el estadístico de la prueba, y sea R ≤ k 1 y
R ≥ k 2 la región de rechazo.
|------|------|------//-----|--------------------------------------------|------//------|------|------|-----|
2
3
4
k1
Región de rechazo
Número de rachas
k2
m
Región de rechazo
Fig.II.6.1.Región de rechazo para la prueba de corridas (rachas).
35
Para determinar la distribución de probabilidad de R, supongamos que la
serie completa contiene n 1 elementos S y n 2 elementos F, lo cual da como resultado Y 1
corridas de elementos S y Y 2 corridas de elementos F, donde Y 1 + Y 2 = R. Por
consiguiente dado Y 1 , Y 2 es necesariamente igual a Y 1 , (Y 1 -1) o (Y 1 +1). Sea m el
número máximo de posibles corridas. Observe que m = 2n 1 si n 1 = n 2 y que m = 2n 1 + 1
si
n 1 < n 2 . Supondremos que todo ordenamiento distinguible de los n 1 + n 2 elementos
de la serie constituye un evento simple del experimento y que los puntos muestrales son
equiprobables. Así nos queda como siguiente paso, contar el número de puntos
muestrales que implica R corridas.
En la serie están dados n1 elementos indistinguibles S y n2 elementos
indistinguibles F, éstos generan el número total de ordenamientos distinguibles dado
⎛ n + n2 ⎞
1
⎟⎟ y, por consiguiente, la probabilidad por punto muestral es de
por ⎜⎜ 1
.
+
n
n
n
⎛
⎞
2
1
⎠
⎝
⎜⎜ 1
⎟⎟
n
1
⎝
⎠
|S|SSSS|SS…|SS|SSS|S|
Fig.II.6.2. Distribución de n 1 elementos S en y 1 celdas.
El número de formas para obtener y 1 corridas de elementos S es igual al número de
ordenamientos distinguibles de n 1 elementos indistinguibles en y 1 celdas, ninguna de
las cuales esta vacía, como se indica en la figura # II.6.2. Esta cantidad es igual al
número de formas para distribuir las (y 1 -1) barras internas idénticas en los (n 1 -1)
espacios entre los elementos S. En consecuencia, es igual al número de formas para
seleccionar (y 1 -1) espacios para las barras afuera de los (n 1 -1) espacios disponibles; es
⎛ n − 1⎞
decir ⎜⎜ 1 ⎟⎟
⎝ y1 − 1⎠
36
El número de formas para observar y 1 corridas de elementos S y y 2 corridas
⎛ n − 1⎞ ⎛ n − 1⎞
⎟⎟
de elementos F, se obtiene con el producto ⎜⎜ 1 ⎟⎟ ⎜⎜ 2
⎝ y1 − 1⎠ ⎝ y 2 − 1⎠
Esta expresión proporciona el número de puntos muestrales en el evento “y 1 corridas de
elementos S y y 2 corridas de elementos F”. Si multiplicamos este número por la
probabilidad de cada punto muestral, obtenemos la probabilidad de y 1 corridas de
elementos S y y 2 corridas de elementos F, exactamente:
⎛ n1 − 1 ⎞⎛ n 2 − 1 ⎞
⎜⎜
⎟⎜
⎟
y1 − 1⎟⎠⎜⎝ y 2 − 1⎟⎠
⎝
p(y 1 , y 2 ) =
⎛ n1 + n 2 ⎞
⎜⎜
⎟⎟
⎝ n1 ⎠
Entonces, P(R = r) es igual a la suma de p(y 1 ,y 2 ) que recorre todos los
valores de y 1 y y 2 , los cuales satisfacen la relación (y 1 + y 2 ) = r.
Para ilustrar la aplicación de esta fórmula, el evento R = 4 podría ocurrir
cuando y 1 = 2 y y 2 = 2, ya sea que el elemento S o F inicie las sucesiones. Por lo tanto,
P(R = 4) = 2P(Y 1 = 2, Y 2 = 2). Por otra parte, R = 5 podría ocurrir cuando y 1 = 2 y y 2 = 3,
o cuando y 1 = 3 y y 2 = 2, y estas ocurrencias son mutuamente excluyentes. De manera
que P(R = 5) = P(Y 1 = 3, Y 2 = 2) + P(Y 1 = 2, Y 2 = 3).
EJEMPLO # II.6.1
Suponga que una sucesión consta de n 1 = 5 elementos S y n 2 = 3
elementos F. Calcule P(R ≤ 3).
SOLUCIÓN
Podrían ocurrir tres corridas cuando y 1 = 2 y y 2 = 1, o cuando y 1 = 1 y
y 2 = 2. Por consiguiente,
37
P(R = 3) = P(Y 1 = 2, Y 2 = 1) + P(Y 1 = 1, Y 2 = 2)
⎛ 4 ⎞⎛ 2 ⎞
⎜⎜ ⎟⎟ ⎜⎜ ⎟⎟
1 0
= ⎝ ⎠⎝ ⎠ +
⎛8⎞
⎜⎜ ⎟⎟
⎝5⎠
⎛ 4 ⎞⎛ 2 ⎞
⎜⎜ ⎟⎟ ⎜⎜ ⎟⎟
⎝ 0 ⎠ ⎝ 1 ⎠ = 4 + 2 = 0 . 107 .
56 56
⎛8⎞
⎜⎜ ⎟⎟
⎝5⎠
En seguida, requerimos que P(R ≤ 3) = P(R = 2) + P(R = 3). En consecuencia,
⎛ 4 ⎞⎛ 2 ⎞
⎜⎜ ⎟⎟⎜⎜ ⎟⎟
0 0
3
P(R = 2) = 2P(Y 1 = 1, Y 2 = 1) = 2 ⎝ ⎠⎝ ⎠ =
= 0.036.
84
⎛8⎞
⎜⎜ ⎟⎟
⎝ 5⎠
Por lo tanto, la probabilidad de tres o menos corridas es de 0.107 + 0.036 = 0.143
Cuando n 1 y n 2 son pequeños, suelen realizarse pruebas de aleatoriedad con respecto a R
mediante el uso de tablas especiales, como la tabla # 6 del apéndice B. Rechazamos la
hipótesis nula de aleatoriedad en el nivel de significancia α si R ≤ r’ α
o bien
2
R ≥ r α donde r’ α es el valor más grande para el cual P( R ≤ r’ α ) no es mayor que
2
2
2
y r α es el valor más pequeño para el cual P( R ≥ r α ) no es mayor que
2
2
α
α
2
.
2
El resumen de esta prueba es como se muestra:
Hipótesis nula…………………… H 0: Hay
aleatoriedad
Hipótesis alternativa……………. H 1 : No
hay aleatoriedad
Estadístico de la prueba……….. R = número
Región de rechazo……………... Se
de
corridas
en
el
en el
en
una
proceso
proceso
prueba
rechaza la hipótesis nula si R ≤ k 1 = r’ α y
2
R ≥ k2 = rα
2
38
Como en el caso de otros estadísticos de prueba no paramétricos analizados
anteriormente, la distribución de probabilidad para R tiende a la normalidad conforme
n 1 y n 2 crecen. La aproximación es buena cuando n 1 y n 2 son mayores que 10. Así que
podemos utilizar el estadístico Z como estadístico de prueba para una muestra grande.
En consecuencia,
Z=
R − μR
σR
y μR =
2n1 n 2
+ 1 con
n1 + n 2
σ R2 =
2n1 n2 (2n1 n2 − n1 − n 2 )
(n1 + n2 ) 2 (n1 + n 2 − 1)
representan el valor esperado y la varianza de R, respectivamente. La región de rechazo
para una prueba de dos colas con α = 0.05 es z ≥ 1.96. Si α es la probabilidad que se
busca de cometer un error tipo I, en el caso de una prueba de cola superior, rechazamos
la hipótesis nula si z > z α (en el caso de una prueba de cola inferior rechazamos H 0
si z < - z α ).
II.7
COEFICIENTE DE CORRELACIÓN DE RANGOS DE SPEARMAN
Con frecuencia, en el análisis de correlación, la información no esta
disponible en forma de valores numéricos, pero si podemos asignar clasificaciones a los
elementos de cada una de dos variables que estamos estudiando, entonces puede
calcularse un coeficiente de correlación de rango. Esta es una medida de la correlación
que existe entre los dos conjuntos de rangos, una medida del grado de asociación entre
las variables que no podríamos calcular de otra manera. También este método simplifica
el proceso de cálculo a partir de un conjunto de datos muy grande para cada una de las
dos variables, ya que calcula una medida de asociación basada en los rangos de las
observaciones y no en los valores numéricos de los datos. Esta medición se le conoce
como el coeficiente de correlación de rango de Spearman, en honor al estadístico que lo
desarrolló a principios del siglo pasado y fue la primera de todas las estadísticas basadas
en rangos.
39
Para un conjunto dado de datos ordenados en parejas {( xi , y i ); i = 1,2,..., n},
este se obtiene ordenando por rango las x entre si mismas y también las y; cuando hay
coincidencias de rango, se procede como se hizo en caso del estadístico de MannWhitney.
Se parte de la fórmula de Pearson
n
∑ (x
r=
i =1
n
∑ (x
i =1
i
i
− x )( y i − y )
− x)
n
2
S xy
=
∑(y
i =1
i
− y)
S xx S yy
2
,
y como las x y las y son rangos, entonces r = r s ; la suma de los n enteros 1, 2, . . ., n, es
n
∑x
i =1
i
=
2
i
=
n
∑x
i =1
n(n + 1)
, y la suma de sus cuadrados, 1 2 , 2 2 , . . . , n 2
2
n(n + 1)(2n + 1)
. Por consiguiente,
6
n
n
n
S xx = ∑ ( xi − x ) = ∑ x −
2
i =1
i =1
2
i
(∑ xi ) 2
i =1
n
n(n + 1)(2n + 1) n(n + 1) 2 n 3 − n
=
=
,
−
4
12
6
y similarmente
n3 − n
S yy =
.
12
Ahora
d=x–y
d 2 = ( x – y) 2 = x 2 − 2 xy + y 2
n
n
n
n
i =1
i =1
i =1
i =1
∑ d i2 = ∑ xi2 + ∑ yi2 − 2∑ xi yi
n
∑d
i =1
2
i
= S xx + S yy − 2S xy
Pero la fórmula establece que
r=
S xy
S xx S yy
= rs
es
40
cuando las observaciones están en forma de rango. Por consiguiente,
n
n
∑d
i =1
2
i
S xx + S yy − ∑ d i2
= S xx + S yy -2 r s
S xx S yy , y r s =
i =1
2 S xx S yy
,
sustituyendo se tiene
rs=
n3 − n n3 − n n 2
+
− ∑ di
12
12
i =1
2 (
n3 − n n3 − n
)(
)
12
12
n
2
2(n 3 − n) n 2
2
d
6
− ∑ di
d i2
∑
∑
i
12
i =1
=
= 1 − i =31
= 1 − i3=1
3
2(n − n)
n −n
n −n
12
6
que se podrá usar cuando no hay empates en x o y, o si el número de empates es
pequeño en comparación con el número de pares de datos. Así el error cometido al
emplear esta fórmula será pequeño.
Cuando es el caso en que el número de empates es grande hay que usar el
factor T =
t3 − t
para ajustar la fórmula. En este caso se tendrá
12
n
S xx + S yy − ∑ d i2
rs=
i =1
2 S xx S yy
,
donde
S xx =
n3 − n
− ∑ Tx
12
y S yy =
n3 − n
− ∑ Ty
12
Resumen de la prueba de correlación de rangos de Spearman
Hipótesis nula:
H 0 : No
hay relación entre
los
pares de rangos.
Hipótesis alternativa:
H 1 : Hay relación entre los pares de rangos (prueba de dos
colas) o,
H 1 : La correlación entre los pares de rangos es positiva
(o negativa) (prueba de una cola).
Estadístico de la prueba:
rs =
n
⎛ n ⎞⎛ n ⎞
n∑ xi y i − ⎜ ∑ xi ⎟⎜ ∑ y i ⎟
i =1
⎝ i =1 ⎠⎝ i =1 ⎠
⎡ n 2 ⎛ n ⎞
⎢ n∑ x i − ⎜ ∑ xi ⎟
⎝ i =1 ⎠
⎢⎣ i =1
2
⎤⎡ n 2 ⎛ n
⎞
⎥ ⎢n∑ y i − ⎜ ∑ y i ⎟
⎝ i =1 ⎠
⎥⎦ ⎢⎣ i =1
n
2
⎤
⎥
⎥⎦
= 1−
6∑ d i2
i =1
n3 − n
41
donde x i y y i representan los rangos del i-ésimo par de
observaciones.
Región de rechazo:
En una prueba de dos colas, rechace
H 0 si r s ≥ r0 o
r s ≤ − r0 , donde r0 figura en la tabla # 7 del apéndice B.
Duplique la probabilidad tabulada para obtener el valor de α
para la prueba de dos colas. En una prueba de una cola,
rechace H 0 si r s ≥ r0 (para una prueba de cola superior) o
r s ≤ − r0 (para una prueba de cola inferior). El valor de α
para una prueba de una cola figura en la misma tabla 7 del
apéndice B.
II.8
PRUEBA DE KOLMOGOROV-SMIRNOV
La prueba de Kolmogorov-Smirnov, bautizada así en honor de los
estadísticos A. N. Kolmogorov y N. V. Smirnov quienes la desarrollaron, se trata de un
método no paramétrico sencillo para probar si existe una diferencia significativa entre
una distribución de frecuencia observada y otra de frecuencia teórica. La prueba K-S es,
por consiguiente, otra medida de la bondad de ajuste de una distribución de frecuencia
teórica, como lo es la prueba ji-cuadrada. Sin embargo, la prueba K-S tiene varias
ventajas sobre la prueba χ 2 : es una prueba más poderosa, y es más fácil de utilizar,
puesto que no requiere que los datos se agrupen de alguna manera.
La estadística K-S, D n , es particularmente útil para juzgar que tan cerca está
la distribución de frecuencia observada de la distribución de frecuencia esperada,
porque la distribución de probabilidad de D n depende del tamaño de la muestra n, pero
es independiente de la distribución de frecuencia esperada (D n es un estadístico de
“distribución libre”)
42
El estadístico a calcular es D n = sup Fn − F , donde n, es el total de
muestras tomadas, F n la distribución de frecuencias observadas y, F la distribución
teórica.
La formulación de hipótesis es de la siguiente manera:
Hipótesis nula…………H 0 : Una distribución F es una buena descripción del patrón de
uso.
Hipótesis alternativa…..H 1 : Una distribución F no es una buena descripción del patrón
de uso
Estadístico de prueba….D n = sup Fn − F
Región de rechazo……. α , es el nivel de significancia para probar estas hipótesis
Una prueba K-S siempre debe ser una prueba de un extremo.
43
CAPÍTULO III
LAS PRUEBAS Y SUS APLICACIONES
III.1 APLICACIONES DE LA PRUEBA
DEL SIGNO DE UNA SOLA
MUESTRA
Su aplicación abarca la mayoría de las áreas de conocimiento ya que se
hace relativamente frecuente encontrarse con variables dicotómicas o dicotomizadas, es
decir, con variables categóricas que solo toman dos valores: acierto-error, a favor-en
contra, tratados-no tratados, recuperados-no recuperados, etc. Podemos llamar, de forma
genérica, éxito y fracaso a los niveles de una variable de este tipo. Algunas de sus
aplicaciones se muestran en los ejemplos que siguen:
EJEMPLO # III.1.1
En el listado que sigue se muestra un conjunto de mediciones tomadas en un
laboratorio de ensayos del IMME 1, estas representan la resistencia a la compresión
reportada en unidades de libra-fuerza por pulgadas cuadradas (psi), de un total de 20
probetas cilíndricas preparadas con una mezcla de concreto especial, en la que se espera
una resistencia media a la compresión de 160 psi. Pruébese esta hipótesis en el nivel de
significancia del 5% contra la alternativa μ > 160 psi.
163 165 160 189 161 171 158 151 169 162
163 139 172 165 148 166 172 163 187 173
SOLUCIÓN
1.- H 0 : μ = 160
H 1 : μ > 160
1
IMME es el Instituto de Materiales y Modelos Estructurales de la Universidad Central de Venezuela que
cuenta con laboratorios y personal especializado para la prueba de morteros que serán usados en
edificaciones y puentes.
44
2.- Rechazamos la hipótesis nula si S ≥ k .05 , donde S es el número de signos positivos
n
y
k .05
es el entero más pequeño para el cual
∑ B ( s ; n, p
s = kα
B ( s ; n, p 0 ) =
0
) ≤ α
y
n! 1
p 0s (1 − p 0 ) n − s , ∀s = 0,1,..., n es la probabilidad de lograr s
s! (n − s )!
aciertos en n ensayos binomiales cuando p = p 0 . El tamaño de esta región crítica, está
por lo tanto, lo más próximo posible a α sin excederlo.
3.- Sustituyendo cada valor mayor que 160 por un signo positivo, cada valor menor
que 160 por un signo negativo y desechando el valor que sea igual a 160, se obtiene la
siguiente tabla # III.1.1
Observación Resistencia
a la
compresión
xi
1
163
Signo de
la
diferencia
x i -160
+
observación
11
Resistencia
a la
compresión
xi
163
Signo de
la
diferencia
x i -160
+
2
165
+
12
139
-
3
160
0
13
172
+
4
189
+
14
165
+
5
161
+
15
148
-
6
171
+
16
166
+
7
158
-
17
172
+
8
151
-
18
163
+
9
169
+
19
187
+
10
162
+
20
173
+
Tabla # III.1.1. Tabla de observaciones y diferencias de mediciones de la resistencia a la
compresión de probetas preparadas para el ensayo.
Nº de signos positivos (+)- - - - - - - - - - - - 15
Nº de signos negativos (- )- - - - - - - - - - - - 4
45
de manera que n =19 y s = 15. De la tabla # 1 apéndice B de probabilidades
binomiales se determina el valor de k .05 para n =19. Siendo que los valores de
B ( s , n ,1/2) son:
B (19,19,1/2) = 0.0000
B (18,19,1/2) = 0.0000
19
B (17,19,1/2) = 0.0003
,
∑ B(s,19,1 / 2) = 0.0003
s =17
19
B (16,19,1/2) = 0.0018
,
∑ B(s,19,1 / 2) = 0.0021
s =16
19
B (15,19,1/2) = 0.0074
,
∑ B(s,19,1 / 2) = 0.0095
s =15
19
B (14,19,1/2) = 0.0222
,
∑ B(s,19,1 / 2) = 0.0317 < 0.05
s =14
19
B (13,19,1/2) = 0.0518
,
∑ B(s,19,1 / 2) = 0.0835 > 0.05
s =13
obteniéndose
por lo tanto que k .05 = 14 es el menor entero para el cual
19
∑ B( y,19,1 / 2) = 0.0317 < 0.05
y =14
4.-
Como s = 15 es mayor que k .05 = 14, se debe rechazar la hipótesis nula y se
concluye que estadísticamente la resistencia media a la compresión de las probetas es
mayor de 160 psi.
EJEMPLO # III.1.2
Yubirí Ortega, Ministra del Poder Popular para el Ambiente, está pensando
que por el tiempo que lleva la descentralización de empresas del área metropolitana de
Caracas, es hora de retirar los filtros instalados hace 6 años con el fin de limpiar el aire
en la ciudad. En tal sentido ha nombrado una comisión técnica para que tome una serie
46
de mediciones con equipo especial, y así determinar si el contenido de gases como el
CO (monóxido de carbono) ha bajado a 21.5 ppm o menos, ya que este nivel no
representa riesgo para la salud, o si por el contrario se mantiene por encima de este
valor. Los datos que siguen, expresados en ppm (partes por millón), son las mediciones
de monóxido de carbono en diferentes puntos de la ciudad:
17 15 20 29 19 18 22 25 27 9 24 20 17 6 24 14 15 23 24 26
19 23 28 19 16 22 24 17 20 13 19 10 23 18 31 13 20 17 24 14
Se quiere probar la hipótesis nula μ = 21.5 contra la hipótesis alternativa
μ > 21.5 en el nivel de significancia α = 0.01 utilizando, en este caso, la aproximación
a la distribución normal por ser n = 40 un número grande. Ver el apéndice A para mayor
información.
SOLUCIÓN
1.- H 0 : μ = 21.5
H 1 : μ > 21.5
2.- La mitad del área debajo de la curva de una función de densidad normal es 0,5, que
al restarle 0,01 se obtiene la diferencia 0,49, valor de probabilidad que corresponde
según la tabla normal a z = 2.33, esto nos permite fijar el intervalo de rechazo de la
hipótesis nula así: z > z.01 = 2.33, donde z =
( s ± 1 2) − np
np (1 − p)
, p=
1
y S es el número de
2
signos positivos (+). Como la variable S para la distribución binomial es discreta,
mientras que la de una distribución normal es contínua, se hace una corrección por
continuidad (por ejemplo, 3 caras es en realidad un valor entre 2.5 y 3.5 caras).
47
Signo de la observación
diferencia
x i -21.5
21
19
Signo de la
diferencia
x i -21.5
-
22
23
+
-
23
28
+
29
+
24
19
-
5
19
-
25
16
-
6
18
-
26
22
+
7
22
+
27
24
+
8
25
+
28
17
-
9
27
+
29
20
-
10
9
-
30
13
-
11
24
+
31
19
-
12
20
-
32
10
-
13
17
-
33
23
+
14
6
-
34
18
-
15
24
+
35
31
+
16
14
-
36
13
-
17
15
-
37
20
-
18
23
+
38
17
-
19
24
+
39
24
+
20
26
+
40
14
-
observación
Cantidad de
CO
1
17
2
15
-
3
20
4
Cantidad de
CO
Tabla # III.1.2. Tabla de observaciones y diferencias de las cantidades de monóxido de
carbono (CO) contenidas en el aire.
Esto equivale a disminuir S en 0,5 si S > np y a incrementar S en 0,5 si S < np.
48
Como
n = 40
y
s
=
16,
se
obtiene
np (1 − p ) = 40(0.5)(0.5) = 3.16 y, por lo tanto, z =
1
np = 40. = 20 ,
2
(16 + 1 2) − 20
= −1.11
3.16
3.- Ya que z = −1.11 es menor que z = 2.33 , no se puede rechazar la hipótesis nula.
La Ministra tiene razón, se pueden retirar los filtros.
EJEMPLO # III.1.3
Un examen de la materia Cálculo I en la Universidad Nacional Abierta fue
aplicado en todos los estados del país. Del conjunto de datos se tomó una muestra
compuesta por 40 calificaciones las cuales se muestran seguidamente:
71 67 55 64 82 66 74 58 79 61 78 46 84 93 72 54 78 86 48 52
67 95 70 43 70 73 57 64 60 83 73 40 78 70 64 86 76 62 95 66 .
Pruebe la hipótesis, al nivel 0.05 de significancia, de que la mediana
de las
calificaciones de todos los participantes en el examen es a) 66 b) 75
SOLUCIÓN
a) Al restar 66 de todas las entradas dadas anteriormente y al mantener solo los signos
asociados, resulta la tabla #III.1.3 donde se ve que hay 23 signos más (+) ,15 signos
menos (-) y dos ceros. Al descartar los 2 ceros, la muestra consiste de 38 signos: 23 + y
15 -.Con el uso de una prueba bilateral de la distribución normal, con probabilidades
0.025 en cada cola y tomando en cuenta las características antes nombradas de esta
función de densidad, tenemos: 0,5 - 0.025 = 0,475, luego buscamos en la tabla normal
(Tabla # 2 del apéndice B) y
49
Observación
Calificación
71
Signo de la
diferencia
x i -66/ x i -75
+/-
21
67
2
67
+/-
22
95
+/+
3
55
-/-
23
70
+/-
4
64
-/-
24
43
-/-
5
82
+/+
25
70
+/-
6
66
0/-
26
73
+/-
7
74
+/-
27
57
-/-
8
58
-/-
28
64
-/-
9
79
+/+
29
60
-/-
10
61
-/-
30
83
+/+
11
78
+/+
31
73
+/-
12
46
-/-
32
40
-/-
13
84
+/+
33
78
+/+
14
93
+/+
34
70
+/-
15
72
+/-
35
64
-/-
16
54
-/-
36
86
+/+
17
78
+/+
37
76
+/+
18
86
+/+
38
62
-/-
19
48
-/-
39
95
+/+
20
52
-/-
40
66
0/-
Observación
Calificación
1
Signo de la
diferencia
x i -66/ x i -75
+/-
Tabla # III.1.3. Tabla de observaciones y diferencias de las calificaciones del examen
con mediana 66 y 75 de los casos a) y b) respectivamente.
50
encontramos que este valor corresponde a z = 1,96 lo que permite adoptar la regla de
decisión de la siguiente forma: aceptar la hipótesis si -1.96 ≤ z ≤ 1.96. De otra manera,
rechazar la hipótesis.
s − np
Como z =
npq
=
(23 − 0.5) − (38)(0.5)
(38)(0.5)(0.5)
= 1.14
se acepta la hipótesis de que la mediana es 66, al nivel 0.05.
b) Para este caso aplicamos el mismo procedimiento que se usó en la parte a) sólo que
ahora restamos 75 de todas las calificaciones, los resultados se muestran en la misma
tabla # III.1.3 donde, como se puede observar, hay 13 signos + y 27 signos -.
Dado que z =
(13 + 0.5) − (40)(0.5)
(40)(0.5)(0.5)
= -2.06, se rechaza la hipótesis de que la mediana
es 75 al nivel 0.05 ya que este valor de z queda fuera del intervalo de aceptación.
III.2 APLICACIONES DE LA PRUEBA DEL SIGNO PARA MUESTRA DE
PARES COMPARADOS
Se aplica a aquellos casos en donde el investigador requiere probar la
hipótesis que afirma que la distribución de los valores de X es la misma que la
distribución de los valores de Y frente a la hipótesis alternativa que sostiene que las
distribuciones tienen diferente localización. Algunas de las muy variadas situaciones en
la que se usa este método se muestran seguidamente.
EJEMPLO # III.2.1
Alimentos El Gordito produce compotas en 12 sabores diferentes. Y con el
fin de mejorar las ganancias, su gerente general quiere disminuir costos de producción
utilizando un tipo de saborizante artificial, el cual ha sido desarrollado por el laboratorio
de química de la compañía, siendo éste una sustancia mucho más económica que la que
actualmente se utiliza. En este sentido realizó una prueba piloto, para saber cual será la
51
tendencia en el consumo de este alimento entre los niños menores de 2 años, una vez
que, en todos sus productos, aplique el nuevo tipo de saborizante. En la tabla # III.2.1 se
muestran los resultados antes y después de la aplicación del nuevo saborizante:
Observación Antes Después
1
3
1
2
5
2
3
2
0
4
3
2
5
3
2
6
3
0
7
0
2
8
4
3
9
1
3
10
6
4
11
4
1
12
1
0
Tabla # III.2.1.Número de rechazos ocurridos antes y después de la aplicación del nuevo
saborizante en las compotas.
Utilice la prueba del signo de muestra en pares para probar la hipótesis nula
de que el nuevo saborizante no es efectivo en α = 0.05 .
SOLUCIÓN
1. H 0 :
μ1 = μ 2
H1:
μ1 > μ 2
52
2. Rechace la hipótesis nula si s ≥ κ .05 , donde s es el número de signos más
(diferencias positivas) y κ .05 es el entero más pequeño para el cual
n
∑ B ( s ; n, p
s = kα
0
) ≤α .
3. Sustituyendo cada par de valores por el signo de su diferencia, se obtiene
Observación Antes Después Signo de la
diferencia
1
3
1
+
2
5
2
+
3
2
0
+
4
3
2
+
5
3
2
+
6
3
0
+
7
0
2
-
8
4
3
+
9
1
3
-
10
6
4
+
11
4
1
+
12
1
0
+
Tabla # III.2.2. Número de rechazos ocurridos antes y después de la aplicación del
saborizante indicando el signo de su diferencia.
de manera que n = 12 y s = 10.
De la tabla # 1 apéndice B de probabilidades binomiales se tiene que
B (12,12,1/2) = 0.0002
12
B (11,12,1/2) = 0.0029
,
∑ B(s,12,1 / 2) = 0.0031 < 0.05
s =11
12
B (10,12,1/2) = 0.0161
,
∑ B(s,12,1 / 2) = 0.0192 < 0.05
s =10
53
12
B (9,12,1/2) = 0.0537
,
∑ B(s,12,1 / 2) = 0.0729 > 0.05
s =9
obteniéndose que κ .05 = 10 para n = 12.
4.
Como s = 10 es igual a κ .05 = 10, se debe rechazar la hipótesis nula y se
concluye que el nuevo saborizante es efectivo en el aumento de la demanda.
EJEMPLO # III.2.2
La cooperativa TECAS (técnicos asociados) ha comprado recientemente dos
tornos de control, tipo alfa-numérico, para la fabricación de un tipo especial de pieza
automotriz utilizada en el ensamblaje de los vehículos Tiuna de versión civil.
Día
1
2
3
4
5
6
7
8
9
10 11 12
Máquina I
47 56 54 49 36 48 51 38 61 49 56 52
Máquina II 71 63 45 64 50 55 42 46 53 57 75 60
Tabla # III.2.3.Número de piezas defectuosas producidas por máquina
El torno I es de refabricación argentina y el II es de fabricación china. Se tomó la
producción durante 12 días consecutivos de los tornos y en la tabla # III.2.3 se muestra
el número de piezas defectuosas producidas por las máquinas, y se supone que estos
tienen la misma producción diaria. Contraste la hipótesis Ho de que no existe diferencia
entre los tornos I y II, con la hipótesis alternativa de que sí hay diferencia al nivel 0.05
de significancia.
SOLUCIÓN
Primero hallamos los signos de la tabla III.2.3 y los mostramos como sigue
en la tabla # III.2.4
54
Día
1
Máquina I
47 56 54 49 36 48 51 38 61 49 56 52
Máquina II
71 63 45 64 50 55 42 46 53 57 75 60
Signo de la diferencia
2
-
3
-
4
+
-
5
-
6
-
7
+
8
-
9
+
10 11 12
-
-
-
Tabla # III.2.4.Número de piezas defectuosas por máquina y signo de la diferencia
1. H 0 :
μ1 = μ 2
H1:
μ1 ≠ μ 2
2. Dado que H 1 es la hipótesis de que hay una diferencia entre las máquinas y no la
hipótesis de que la máquina I es mejor que la máquina II, entonces se utiliza un
contraste bilateral. Luego se suman las probabilidades de cualquiera de las colas, hasta
que la suma exceda 0.025 y se rechazará la hipótesis nula si s ≤ k .'025 o s ≥ k .025 , donde
s es el número de signos más, k .'025 es el entero más grande para el cual
k.'025
∑ B(s,12,1 / 2) ≤ 0.025
s =0
y
k .025
es
el
entero
más
pequeño
para
el
cual
12
∑ B(s,12,1 / 2) ≤ 0.025
s =k.025
De la tabla observamos que n = 12 y s = 3, con estos datos nos vamos a la
tabla # 1del apéndice B y obtenemos
B(12,12,1 / 2) = 0.0002
12
∑ B(s,12,1 / 2) = 0.0002 < 0.025
s =12
B(11,12,1 / 2) = 0.0029
12
∑ B(s,12,1 / 2) = 0.0029 + 0.0002 = .00031 < 0.025
s =11
B(10,12,1 / 2) = 0.0161
12
∑ B(s,12,1 / 2) = 0.0161 + 0.0031 = .00192 < 0.025
s =10
B(9,12,1 / 2) = 0.0537
12
∑ B(s,12,1 / 2) = 0.0537 + 0.0031 = 0.0729 > 0.025
s =9
55
Lo que nos permite obtener k .025 = 10 y por simetría k 0' .025 = 2, que al comparar en el
intervalo de rechazo se encuentra que s = 3 > k 0' .025 = 2 lo que nos permite afirmar que
no es posible rechazar H 0 al nivel 0.05 y se debe concluir que no hay diferencia entre
las máquinas a este nivel.
III.3
APLICACIONES PARA PRUEBA DE RANGOS CON SIGNOS DE
WILCOXON PARA UN EXPERIMENTO DE UNA SOLA MUESTRA
Se puede emplear en lugar de la prueba del signo en el caso de una muestra
como se ve seguidamente.
EJEMPLO # III.3.1
Cooperativa El Resistor se encarga de la fabricación de resistencias eléctricas
para equipos electrónicos en películas de carbón con bajo coeficiente térmico. Se toma
una muestra de 15 mediciones en el proceso de fabricación con el fin de chequear si el
valor medio de la muestra es 98.5 Ω . Las mediciones son las siguientes:
97.5, 95.2, 97.3, 96.0, 96.8, 100.3, 97.4, 95.3, 93.2, 99.1, 96.1, 97.6, 98.2, 98.5, 94.9.
Utilice una prueba de rangos con signos en el nivel de significancia 0.05 para
confirmarlo o rechazarlo.
SOLUCIÓN
1. H 0 : μ = 98.5
H 1 : μ ≠ 98.5
2. Rechace la hipótesis nula si T ≤ T α , donde T α debe tomarse de la tabla # 3 del
apéndice B en relación con el valor de n apropiado y el nivel de significancia.
3. Restando 98.5 de cada valor y ordenando las diferencias por rango sin tomar en
cuenta el signo, se obtiene la tabla # III.3.1.
56
Observación Medición Diferencia Rango
1
97.5
-1.0
4
2
95.2
-3.3
12
3
97.3
-1.2
6
4
96.0
-2.5
10
5
96.8
-1.7
7
6
100.3
1.8
8
7
97.4
-1.1
5
8
95.3
-3.2
11
9
93.2
-5.3
14
10
99.1
0.6
2
11
96.1
-2.4
9
12
97.6
-0.9
3
13
98.2
-0.3
1
14
98.5
0.0
15
94.9
-3.6
13
Tabla III.3.1.Medición de resistencia
Así obtenemos T − = 4+12+6+10+7+5+11+14+9+3+1+13=95,
T + = 8+2 = 10 y T = 10. De la tabla # 3 del apéndice B se tiene que T .05 = 21 para
n = 14 1.
4. Como T = 10 es menor que T .05 = 21, se debe rechazar la hipótesis nula; el valor
medio de resistencia dado no es 98.5.
1
En este caso n=14 pues la medición 98.5 no tiene diferencia percibida y por tanto se elimina.
57
III.4
APLICACIONES PARA LA PRUEBA DE RANGOS CON SIGNOS DE
WILCOXON PARA UN EXPERIMENTO DE PARES COMPARADOS
Se puede emplear esta prueba en lugar de la del signo en pares comparados
EJEMPLO # III.4.1
En el caserío el Charco, Municipio Salas, Estado Bolívar, se aplica un plan
piloto de reducción de peso para personas obesas por medio del programa Barrio
Adentro. Se piensa que este problema es una consecuencia de los hábitos
Observación
Antes
Después
1
147.0
137.9
2
183.5
176.2
3
232.1
219.0
4
161.6
163.8
5
197.5
193.5
6
206.3
201.4
7
177.0
180.6
8
215.4
203.2
9
147.7
149.0
10
208.1
195.4
11
166.8
158.5
12
131.9
134.4
13
150.3
149.3
14
197.2
189.1
15
159.8
159.1
16
171.7
173.2
Tabla # III.4.1. Pesos en libras antes y después de aplicar la dieta a 16 personas.
58
alimenticios de los habitantes del sector, ya que previamente se practicó el respectivo
examen tiroideo resultando el estudio negativo para todos los casos de la muestra
tomada. La tabla # III.4.1, que más adelante se muestra, consigna los pesos en libras
para todos los casos, antes y después de aplicado el programa, de 16 personas que
siguieron la dieta reductora de peso durante cuatro semanas. En este ensayo se le dio
libertad a los participantes de comer cualquier cosa en el desayuno que fuera rica en
grasa y carbohidratos, pero no ayunar, y el almuerzo y la cena sólo lo que indicaba el
programa para cada día en el horario establecido.
Utilice la prueba de rangos con signo para demostrar en el nivel de
significancia 0.05, si la dieta es efectiva para bajar de peso.
SOLUCIÓN
1. H 0 :
μ1 = μ 2
H1:
μ1 > μ 2
2. Las diferencias entre las parejas respectiva son 9.1, 7.3, 13.1, -2.2, 4.0, 4.9, -3.6,
12.2,-1.3, 12.7, 8.3, -2.5, 1.0, 8.1, 0.7, -1.5, si se ordenan por rango sus valores
absoluto, se tiene que las diferencias positivas ocupan los rangos 13, 10, 16, 8,9,14, 15,
12, 2, 11 y 1. En la tabla #III.4.2 se muestra la asignación de rangos.
Por consiguiente,
T + = 13+10+16+8+9+14+15+12+2+11+1 = 111
T − = 5 + 7 + 3 + 6 + 4 = 25
T = min(111, 25) = 25
3. De la tabla #3 del apéndice B se obtiene T
2 (.05 )
=T
.01
= 36 para n = 16.
4. Como T − = 25 < T2α = 36 , se debe rechazar la hipótesis nula; concluimos que la
dieta es, en realidad, efectiva para bajar de peso.
59
Observación
Antes
Después
Diferencia
Rango
1
147.0
137.9
9.1
13
2
183.5
176.2
7.3
10
3
232.1
219.0
13.1
16
4
161.6
163.8
-2.2
5
5
197.5
193.5
4.0
8
6
206.3
201.4
4.9
9
7
177.0
180.6
-3.6
7
8
215.4
203.2
12.2
14
9
147.7
149.0
-1.3
3
10
208.1
195.4
12.7
15
11
166.8
158.5
8.3
12
12
131.9
134.4
-2.5
6
13
150.3
149.3
1.0
2
14
197.2
189.1
8.1
11
15
159.8
159.1
0.7
1
16
171.7
173.2
-1.5
4
Tabla # III.4.2. Pesos en libras antes y después de aplicar la dieta a 16 personas
con los rangos asignados.
EJEMPLO # III.4.2.
Resolveremos el mismo caso tratado en el ejemplo # III.4.1 pero ahora
usando la aproximación a la distribución normal por ser n ≥ 15.
SOLUCIÓN.
1. H 0 :
μ1 = μ 2
60
H1:
μ1 > μ 2
2. Aproximamos con la normal por ser n = 16.
3. Rechace la hipótesis nula si z ≥ z .05 = 1.645, donde Z =
T + − E (T + )
Var (T + )
T + = 13+10+16+8+9+14+15+12+2+11+1 = 111
Puesto que E(T + ) =
Z=
111 − 68
347
(16)(17)(33)
(16)(17)
= 374, se obtiene
= 68 y Var.(T + ) =
24
4
= 2.22
3. Ya que z = 2.22 es mayor que z .05 = 1.645, se debe rechazar la hipótesis nula;
concluimos que desde el punto de vista estadístico no hay suficientes elementos de
juicio para aceptar la hipótesis nula. La dieta es, en realidad, efectiva para bajar de peso.
EJEMPLO # III.4.3.
Realice la prueba de hipótesis que afirma que no hay diferencias en las
distribuciones de población de la densidad de la torta de casabe en un experimento de
pares comparados que incluye 6 tortas horneadas al nivel de significancia de 10%; en
cada par se utilizan dos preparados, A y B, uno por cada torta.
SOLUCIÓN
La tabla # III.4.3 muestra los datos originales y las diferencias en la densidad (en onzas
por pulgada cúbica) para los seis pares de tortas.
Como en el caso de otras pruebas no paramétricas, la hipótesis nula por
probar sostiene que las dos distribuciones de frecuencias de población en las densidades
de las tortas son idénticas, mientras que la alternativa, que implica una prueba de dos
colas, afirma que las distribuciones tienen diferente localización.
61
Diferencia, Diferencia Rango de la
absoluta
diferencia absoluta
A-B
0.135 0.129
0.006
0.006
3
A
B
0.102 0.120
-0.018
0.018
5
0.108 0.112
-0.004
0.004
1.5
0.141 0.152
-0.011
0.011
4
0.131 0.135
-0.004
0.004
1.5
0.144 0.163
-0.019
0.019
6
Tabla # III.4.3. Datos pareados y sus diferencias para el ejemplo # III.4.2
De acuerdo con la tabla # 3 del apéndice B, el valor crítico de T para una
prueba de dos colas, α = 0.10, es T .10 = 2. Por consiguiente, rechazaremos H 0 si T ≤ 2.
Puesto que solo hay una diferencia positiva, cuyo rango es 3, T + = 3 y
T − = 18, y, por tanto, T = 3. El valor observado de T rebasa su valor crítico; de manera
que no hay suficiente evidencia para concluir que las dos distribuciones de frecuencia
de población en las densidades de las tortas de casabe son diferentes. No podemos
rechazar H 0 para α = 0.10.
III.5 APLICACIONES PARA LA PRUEBA U DE MANN- WHITNEY
Es una de las pruebas no paramétricas más poderosas y constituye la
alternativa más útil ante la prueba paramétrica t cuando el investigador desea evitar las
suposiciones que ésta exige o si la medición en la investigación es más vaga que la
escala de intervalo.
EJEMPLO # III.5.1
En la tabla siguiente se muestra las resistencias de cables hechos con dos
aleaciones diferentes, A y B. En esta tabla se tienen dos muestras: 8 cables de la aleación
62
A y 10 cables de la aleación B. Se busca decidir si existe o no una diferencia entre las
muestras o, de manera equivalente, si proviene o no de la misma población.
Aleación B
Alineación A
18.3 16.4 22.7 17.8 12.6
14.1
20.5
10.7
18.9 25.3 16.1 24.2 15.9
19.6
12.9
15.2
11.8
14.7
Tabla # III.5.1. Resistencia del cable según su aleación
SOLUCIÓN
1.
Combinando los 18 valores muestrales en orden, desde el más pequeño al más
grande, se obtiene la primera y tercera columna; si se enumera del 1 al 18, como se
observa en la segunda y cuarta columna, se indicará el rango de cada uno.
Resistencia Rango Resistencia Rango
del cable
del cable
10.7
1
16.4
10
11.8
2
17.8
11
12.6
3
18.3
12
12.9
4
18.9
13
14.1
5
19.6
14
14.7
6
20.5
15
15.2
7
22.7
16
15.9
8
24.2
17
16.1
9
25.3
18
Tabla # III.5.2. Asignación de rango a las resistencias
63
2.
Para calcular la suma de los rangos de cada muestra, se escribe la tabla
ordenando los rangos por tipo de aleación.
Aleación B
Aleación A
Resistencia del
Resistencia del
cable
Rango cable
Rango
18.3
12 12.6
3
16.4
10
14.1
5
22.7
16
20.5
15
17.8
11
10.7
1
18.9
13
15.9
8
25.3
18
19.6
14
16.1
9
12.9
4
24.2
17
15.2
7
Suma 106 11.8
2
14.7
6
Suma 65
Tabla # III.5.3. Rangos asociados de la tabla # III.5.2.
3.
La muestra de la aleación A tiene el menor tamaño, siendo n 1 = 8 y n 2 =10. Las
sumas correspondientes de los rangos son R 1 = 106 y R 2 = 65. Entonces,
U = mín(U A , U B ) .
Luego,
U A = R 1 - n 1 (n 1 +1)/2 = 106 -
(8)(9)
= 70 y
2
U B = R2 − n 2 (n 2 + 1) 2 = 65 − 10(11) 2 = 65 − 55 = 10
Entonces tenemos,
U = mín(70,10) = 10
64
Dado que la hipótesis H 0 que se está probando afirma que no hay diferencia entre las
aleaciones, se requiere de una prueba bilateral. Para el nivel 0.05 de significancia,
n1 = 8 y n 2 = 10 se obtiene de la tabla # 4 del apéndice B que U .05 = 17 . Como U = 10
es menor que U .05 =17 se rechaza la hipótesis nula. Se concluye que estadísticamente si
hay diferencia entre las aleaciones al nivel 0.05 de significancia.
EJEMPLO # III.5.2
En la empresa INVEPAL, productora de papel para oficina, se efectuó el
siguiente experimento: se agrega una sustancia química al tradicional papel tamaño
carta, con densidad de 75g/m2, que se usa para fotocopiadoras. Se quiere comparar la
resistencia de los tipos de papel, con y sin el químico, para ver si ésta aumenta y
mejorar así la calidad del mismo. A tal fin se tomaron diez trozos de cada clase de
papel, elegidos aleatoriamente de la producción, y dieron como resultado las mediciones
de resistencia que se muestran en la tabla # III.4.3. Compruebe la hipótesis que afirma
que no hay diferencia en las distribuciones de las resistencias de las dos clases de papel
frente a la hipótesis alternativa que afirma que el papel tratado con la sustancia química
tiende a ser más resistente en el nivel de significancia de 0.05.
SOLUCIÓN
Como α = 0.05 podemos determinar U 2α consultando la tabla 4 del
apéndice B, que corresponde a n1 = n 2 = 10 y 2 α = 0.10. De donde se obtiene U 2α = 27.
Por consiguiente, rechazaremos la hipótesis nula si U ≤ 27.
Ahora calculamos U A y U B ,
U A = R 1 - n 1 (n 1 +1)/2 = 85.5- 55 = 30.5 y U B = R2 − n 2 (n 2 + 1) 2 = 124.5 – 55 = 69.5,
U = mín(30.5, 69.5) = 30.5
65
Rango
2
Papel tratado
B(Kgf)
1.49
1.43
12
1.37
7.5
1.35
6
1.67
20
1.51
17
1.50
16
1.39
9
1.31
5
1.17
1
1.29
3.5
1.48
14
1.52
18
1.42
11
1.37
7.5
1.29
3.5
1.44
13
1.40
10
1.53
19
Papel normal
A(Kgf)
1.21
Rango
R1 = 85.5
15
R2 = 124.5
Tabla # III.5.4. Datos del papel tamaño carta con sus rangos y
sus sumas de rango.
Como se observa, U no es menor que U 2α = 27. Por tanto, no podemos rechazar la
hipótesis nula. En el nivel de significancia de α = 0.05 no hay suficiente evidencia que
indique que el papel tratado es más resistente que el papel normal.
EJEMPLO # III.5.3
Un profesor imparte dos clases de gramática de la lengua española: una
diurna con 9 estudiantes y una nocturna con 12 estudiantes. En un examen final,
realizados al mismo tiempo para todos los estudiantes, las clases recibieron las
calificaciones como se muestra. Clase diurna: 73 87 79 75 82 66 95 75 70. Clase
nocturna: 86 81 84 88 90 85 84 92 83 91 53 84.
66
SOLUCIÓN
1. La tabla III.5.5 muestra el orden de las calificaciones y los rangos. Obsérvese que el
rango para las dos calificaciones de 75 es 0.5(5+6) = 5.5, mientras que el rango para las
tres calificaciones de 84 es 1/3(11+12+13) = 12
2. La suma de rangos es como se muestra:
Clase diurna = 73,
Clase nocturna = 158
R 1 = 73, R 2 = 158, n 1 = 9 y n 2 =12. Por lo tanto
U A = R 1 - n 1 (n 1 +1)/2 = 73 – 9(10) 2 = 73 – 45 = 28
3. μU = n 1 n 2 /2 =
Por lo tanto Z =
(9)(12)
= 54;
2
U A − μU
σU
=
σ U2 = n 1 n 2 ( n 1 +n 2 +1)/12=
(9)(12)(22)
= 198
12
28 − 54
= −1.85
14.07
Como se desea contrastar la hipótesis H 1 de que las clases son diferentes, con la
hipótesis H 0 de que no hay diferencia al nivel 0.10, entonces se requiere de un
Calificación Rango Calificación Rango Calificación Rango
53
1
81
8
86
15
66
2
82
9
87
16
70
3
83
10
88
17
73
4
84
12
90
18
75
5.5
84
12
91
19
75
5.5
84
12
92
20
79
7
85
14
95
21
Tabla III.5.5.Asignaciones de rangos a las calificaciones
contraste bilateral. Refiriéndose a esto se tiene la regla de decisión:
67
Aceptar H 0 si z ≤ 1.645.
Rechazar H 0 si z > 1.645.
Dado que el valor real de z = -1.85 < -1.645, se rechaza H 0 y se concluye que la clase
matutina es diferente a la vespertina al nivel 0.10.
III.6 APLICACIONES DE LA PRUEBA H DE KRUSKAL-WALLIS
Se aplica en todos aquellos casos en donde se requiere saber, teniendo más
de dos muestras independientes, si éstas provienen de poblaciones diferentes. Los
siguientes son ejemplos típicos de sus aplicaciones.
EJEMPLO # III.6.1
Las siguientes cifras son las calificaciones del examen final obtenidas por
muestras de tres grupos de estudiantes a quienes se les enseñó el idioma inglés a través
de tres métodos distintos (instrucción en el aula y laboratorio de idiomas, solo
instrucción en el aula y estudio autodidacta en el laboratorio de idiomas):
Primer método
94 88 91 74 87 97
Segundo método 85 82 79 84 61 72 80
Tercer método
89 67 72 76 69
Tabla # III.6.1.Calificaciones de examen final obtenida por tres grupos
de estudiantes con tres métodos distintos.
Utilice la prueba H en el nivel de significancia 0.05 para probar la hipótesis
nula de que los tres métodos son igualmente efectivos.
68
SOLUCIÓN
1. H 0 : μ1 = μ 2 = μ 3
H1:
μ1 , μ 2 y μ 3 no son iguales
2. Rechace la hipótesis nula si H ≥ 5.991 , donde 5.991 es el valor de χ .205, 2
3. Ordenando
las
calificaciones
por
rango
de
1
a
18,
se
tiene
que
R 1 = 6 + 13 + 14 + 16 + 17 + 18 = 84, R 2 = 1 + 4.5 + 8 + 9 +10 + 11 + 12 = 55.5 y
R 3 = 2 + 3 + 4.5 + 7 +15 = 31.5, donde hay una coincidencia y a las calificaciones se
les asigna a cada una el rango 4.5. Mediante la sustitución de los valores de R 1 , R 2 y R 3
junto con n 1 = 6, n 2 = 7, n 3 = 5 y n = 18 en la fórmula de H, se obtiene
H=
12 ⎛ 84 2 55.5 2 31.5 2
⎜
+
+
(18)(19) ⎜⎝ 6
7
5
⎞
⎟⎟ − 3.19 = 6.67
⎠
4. Como H = 6.67 es mayor que χ .205, 2 = 5.991, se debe rechazar la
hipótesis nula; se concluye que los tres métodos no son igualmente efectivo.
EJEMPLO # III.6.2
La cooperativa KyM, productora de tornillos auto-roscante cabeza pan,
desea comprar una de 5 máquinas: A, B, C, D o E. En un experimento, diseñado para
determinar si existe una diferencia en el desempeño de las máquinas por tiempos
A
68 72 77 42 53
B
72 53 63 53 48
C
60 82 64 75 72
D
48 61 57 64 50
E
64 65 70 68 53
Tabla # III.6.2. Número de unidades producidas por las
máquinas A, B, C, D, E
69
iguales, se tomaron un conjunto de cinco mediciones por máquina, y en la tabla
siguiente se muestra el número de unidades producidas por cada máquina. Pruebe la
hipótesis de que no hay diferencia entre las máquinas a los niveles a) 0.05 y b) 0.01 de
significancia.
SOLUCIÓN
Como hay cinco muestras (A, B, C, D, E), k = 5, cada muestra consiste de
cinco valores, se tiene n 1 = n 2 = n 3 = n 4 = n 5 = 5 y n = n 1 + n 2 + n 3 + n 4 + n 5 = 25. Al
arreglar todos los valores en orden creciente de magnitud y al asignar rangos apropiados
a los empates, se escribe la tabla en la siguiente forma:
∑R
A
17.5
21
24
1
6.5
70
B
21
6.5 12
6.5
2.5 48.5
C
10
25
14
23
21
93
D
2.5
11
9
14
4
40.5
E
14
16
19 17.5 6.5
73
Tabla # III.6.3. Asignación de rango a los valores y su sumatoria
Donde en la columna de la derecha se muestra la suma de los rangos: R 1 = 70,
R 2 = 48.5, R 3 = 93, R 4 = 40.5, R 5 = 73. Por lo tanto
2
12
k Rj
H=
− 3(n + 1) =
∑
n(n + 1) j =1 n j
=
12 ⎡ 70 2 48.5 2 93 2 40 2 73 2 ⎤
+
+
+
+
⎢
⎥ − 3.26 = 6.44
25(26) ⎣ 5
5
5
5
5 ⎦
Para k-1 grados de libertad,
70
a) al nivel 0.05 de significancia, y de la tabla # 5 del apéndice B se obtiene el valor
χ .205, 4 = 9.49. Dado que 6.44 < 9.49, no se puede rechazar la hipótesis de que no
hay diferencia entre las máquinas al nivel 0.05.
b) al nivel 0.01 de significancia χ .201, 4 = 13.28 y dado que 6.44 < 13.28 no se puede
rechazar H 0 al nivel 0.01.
EJEMPLO # III.6.3
En una gran planta de artículos electrónicos, se seleccionan muestras
independientes de tres líneas de ensamblaje. Se analiza en cada línea la cantidad de
Línea 1
Artículos
defectuosos
6
5
Línea 2
Artículos
defectuosos
34
25
Línea 3
Artículos
defectuosos
13
36
27
28
19
35
26
3
2
42
30
19
15
17
13
13
9.5
4
3
11
8
40
29
29
20
30
21
31
22
0
1
15
11
9
7
7
6
16
12
32
23
33
24
25
17
39
28
18
14
5
4
27
18
24
16
Rango
R 1 = 120
Rango
R 2 = 210.5
Rango
9.5
R 3 = 134.5
Tabla # III.6.4. Datos del ejemplo # III.6.3
artículos defectuosos
producidos en 10 horas de trabajo seleccionadas al azar.
¿Proporcionan los datos de la tabla # 6.3 suficiente evidencia para concluir que las
71
distribuciones de probabilidad del número de artículos defectuosos producidos por hora
difieren en cuanto a localización en dos de las líneas por lo menos? Utilice un nivel de
significancia 0.05.
SOLUCIÓN
En este caso n 1 = 10 = n 2 = n 3 y n = 30. Por tanto,
H=
12 ⎡ (120) 2 (210.5) 2 (134.5) 2 ⎤
+
+
⎢
⎥ − 3(31) = 6.097.
30(31) ⎣ 10
10
10 ⎦
Como los valores de las n i son mayores o iguales a 5, podemos utilizar la aproximación
para la distribución nula de H y rechazar la hipótesis nula de que las posiciones son
iguales si H > χ α2 tiene k - 1 = 2 grados de libertad. Para determinar que χ .205, 2 = 5.991
consultamos la tabla # 5 del apéndice B. Por consiguiente, rechazamos la hipótesis nula
en el nivel de significancia de α = 0.05 y concluimos que, por lo menos, una de las tres
líneas tiende a producir una mayor cantidad de artículos defectuosos que las demás.
De acuerdo con la tabla # 5 del apéndice B, el valor calculado de H = 6.097
nos lleva a rechazar la hipótesis nula si α = 0.05 .
III.7
APLICACIONES DE LA PRUEBA DE CORRIDAS DE UNA SOLA
MUESTRA
Las prueba de corridas, como ya se dijo, es una prueba no paramétrica y es
capaz de manejar variables cuantitativas y cualitativas de tipo dicotómico. La utilidad
de esta prueba, abarca diferentes campos de la actividad humana y puede servir desde
para probar la aleatoriedad: de las encuestas aplicadas por los entrevistadores, de las
fallas de la maquinaria en la producción, de las cantidades compradas o vendidas, de las
faltas de los empleados, hasta para controlar la calidad de la producción. Veamos
algunos ejemplos:
72
EJEMPLO # III.7.
El gobierno bolivariano puso en circulación una nueva moneda nacional
denominada Bolívar Fuerte. El profesor Miguel LeClanché del departamento de
matemáticas UNA hizo, en la clase de probabilidad, 30 lanzamientos de una de las
monedas obteniendo la siguiente secuencia de caras (C) y de cruces (X):
C X X C X C C C X C C X X C X C X C C X C X X C XC C X C X
Pruebe si la secuencia obtenida por el profesor es aleatoria al nivel 0.05 de significancia.
SOLUCIÓN
1. H 0 : La disposición es aleatoria
H 1 : La disposición no es aleatoria.
2. Como n1 > 10 y n 2 > 10 se puede usar la aproximación normal. Rechace la hipótesis
nula si z ≤ − 2.575 o z ≥ 2.575, donde z =
R ±1 2 − μR
σR
3. Existen n 1 = 16 caras y n 2 = 14 cruces en la muestra de lanzamiento y como el
número de corridas es 22, entonces se tiene que
μR =
2n1 n 2
2(16)(14)
+1 =
+ 1 = 15.93
n1 + n 2
16 + 14
σ R2 =
2n1 n2 (2n1 n 2 − n1 − n2 )
(n1 + n 2 ) 2 (n1 + n2 − 1)
=
2(16)(14)[2(16)(14) − 16 − 14]
(16 + 14) 2 (16 + 14 − 1)
=
7.175,
⇒
σ R = 2.679.
La medición z correspondiente a R = 22 corridas es, por lo tanto,
z=
(22 − 0.5) − 15.93
= 2.08
2.679
Ahora para una prueba bilateral al nivel 0.05 de significancia, se aceptaría la hipótesis
H 0 de aleatoriedad si -1.96 ≤ z ≤ 1.96 ; de otra manera, se rechazaría. Como el valor
calculado de z es 2 > 1.96, se concluye que los lanzamientos no son aleatorios al nivel
73
0.05. La prueba indica que hay demasiadas corridas, lo que demuestra un patrón cíclico
en los lanzamientos.
EJEMPLO # III.7.2
a) Forme todas las secuencias posibles consistentes de tres a y dos b y dé el número de
corridas, R, correspondiente a cada secuencia.
b) Obtenga la distribución muestral de R y su gráfica.
c) Determine la distribución de probabilidad de R y su gráfica.
SOLUCIÓN
a) El número de secuencias posibles consistentes de tres a y dos b es
⎛ n1 + n 2 ⎞ ⎛ 5 ⎞
5!
⎜⎜
⎟⎟ = ⎜⎜ ⎟⎟ =
= 10
⎝ n1 ⎠ ⎝ 2 ⎠ 2! 3!
Estas secuencias se muestran en la tabla siguiente junto con el número de corridas
correspondientes a cada secuencia.
b)La distribución muestral de R está dada en la tabla (R,f) mostrada obtenida a partir de
la tabla de secuencia-corridas
Secuencia Corridas (R) Secuencia Corridas (R)
aaabb
2
abaab
4
aabab
4
bbaaa
2
aabba
3
babaa
4
ababa
5
baaab
3
abbaa
3
baaba
4
Tabla # III.7.1 Secuencia-corridas
74
R
f
2
2
3
3
4
4
5
1
Tabla # III.7.2. Tabla (R,f) consecuencia de la tabla # III.7.1
Gráfica # III.7.1. Distribución muestral de R
Gráfica # III.7.2. Distribución de probabilidad de R
75
a)La distribución de probabilidad de R graficada, se obtiene a partir de la tabla (R,f)
al dividir cada frecuencia entre la frecuencia total 2+3+4+1=10. Por ejemplo,
P r {R = 5} =
1
= 0.1
10
EJEMPLO # III.7.3
Calcule a) la media y b) la varianza del número de corridas en el ejemplo
anterior directamente de los resultados.
SOLUCIÓN
a) De la tabla secuencia-corridas se tiene
μR =
2 + 4 + 3 + 5 + 3 + 4 + 2 + 4 + 3 + 4 17
=
10
5
b) Usando el método de datos agrupados para calcular la varianza, de la tabla (R,f):
σ R2 =
∑ f (R − μ
∑f
R
)2
=
17 2 ⎤ 21
17 2
17 2
17 2
1 ⎡
.
) =
−
+
−
+
−
+
−
)
(
5
)
4
(
4
)
3
(
3
2
(
2
5 ⎥⎦ 25
5
5
5
10 ⎢⎣
EJEMPLO # III.7.4
Una comisión formada por técnicos de la misión árbol, está revisando los
araguaneyes que se plantaron hace muchos años a lo largo de la carretera nacional
Caracas-Guarenas, dicha comisión obtuvo la siguiente disposición de árboles sanos (S)
y enfermos (E) después de una inspección:
SSSSEEESSSSSSSEESSEEEE
Pruebe en el nivel de significancia 0.05 si esta disposición puede considerarse aleatoria
SOLUCIÓN
1. H 0 : La disposición es aleatoria
H 1 : La disposición no es aleatoria.
76
2. Como n 1 = 13 y n 2 = 9, rechace la hipótesis nula si R ≤ 6 o R ≥ 17 , donde 6 y 17 son
los valores correspondientes de r’ .025 y r .025 tomados de la tabla.
3. R = 6 por inspección de los datos.
4. Ya que R = 6 es menor que o igual a 6, se debe rechazar la hipótesis nula; la
disposición de araguaneyes sanos y enfermos no es aleatoria. Parece que los árboles
enfermos están agrupados en conjuntos.
Una segunda aplicación de la prueba de corridas consiste en detectar la no
aleatoriedad de una sucesión de medidas cuantitativas a través del tiempo. Estas
sucesiones, conocidas como series temporales, se presentan en muchos campos. Por
ejemplo, la medida de una característica de calidad de un producto industrial, de la
presión sanguínea de un ser humano y del precio de una acción en el mercado de valores
varían con el tiempo. El alejamiento de la aleatoriedad en una serie, causada por las
tendencias o periodicidades, se puede detectar analizando las desviaciones de las
mediciones de la serie temporal de sus promedios. Las desviaciones negativas y
positivas se pueden representar con S y F, respectivamente, y entonces se puede probar
la no aleatoriedad de esta sucesión temporal de desviaciones. Ilustramos este hecho con
un ejemplo.
EJEMPLO # III.7.5.
En una gran planta productora de papel se tienen procesos de producción
continua para la elaboración de éste producto. El personal de control de calidad toma
una vez cada hora la medida de la brillantez Y del papel, y los resultados, una vez
graficados, se distribuyen como se indica en la figura # III.7.2.
77
Figura # III.7.3. Muestra la brillantez en función del tiempo.
El promedio y de las 16 mediciones muestrales aparecen en la figura.
Obsérvese las desviaciones respecto a y . ¿Indican estos datos una falta de aleatoriedad
y, por consiguiente, sugieren que hay periodicidad y por tanto falta de control en el
proceso?
SOLUCIÓN
La sucesión de desviaciones negativas (S) y positivas (F), es como se indica
a continuación
S S S S FF F S F F S F S S S S
1. H 0 : La disposición es aleatoria
H 1 : La disposición no es aleatoria
2. Como n 1 = 10 y n 2 = 6, rechace la hipótesis nula si R ≤ 4 o R ≥ 13
3. R = 7 por inspección de los datos.
4. Ya que R = 7 es mayor que 4 y menor que 13 se debe aceptar la hipótesis de
aleatoriedad. En consecuencia, no existe suficiente evidencia que indique que no hay
aleatoriedad en la sucesión de medidas de brillantez.
78
III.8
APLICACIONES DEL COEFICIENTE DE CORRELACIÓN
DE
RANGOS DE SPEARMAN.
Su aplicación abarca todas aquellas áreas del conocimiento en donde se
requiere conocer el grado de relación o asociación lineal entre dos variables y requiere
que ambas variables sean medidas por lo menos en una escala ordinal, de manera que
los objetos o individuos en estudio puedan colocarse en dos series ordenadas. Veamos
algunos ejemplos.
EJEMPLO # III.8.1
La misión Barrio Adentro hace visitas médicas, casa por casa, para la
detección temprana de los problemas de salubridad que presenta la colectividad. Y en
este sentido, se aplicó un plan piloto en el barrio La Comunidad de Guarenas, el cual
comenzó con la toma de una muestra de 12 padres y sus hijos mayores, tal como se
indica en la tabla # III.8.1. ¿Existe relación en la estatura de los padres y los hijos?
Estatura del padre (pulg.) 65 63 67 64 68 62 70 66 68 67 69 71
Estatura del hijo (pulg.)
68 66 68 65 69 66 68 65 71 67 68 70
Tabla III.8.1. Estatura de 12 padres y sus hijos mayores
SOLUCIÓN
Arregladas en orden creciente de magnitud, las estaturas de los padres son
62 63 64 65 66
67
67
68 68
69
70 71
Como el sexto y séptimo lugares en este ordenamiento representa la misma estatura (67
pulg.), se asigna un rango medio
1
(6 + 7) = 6.5 para estos lugares. De manera similar,
2
al octavo y noveno lugares se le coloca el rango
estaturas de los padres se asignan a los rangos
1
(8 + 9) = 8.5 . Por lo tanto, las
2
79
1 2 3 4 5 6.5 6.5 8.5 8.5 10 11 12
De manera similar, ordenadas en orden creciente de magnitud, las estaturas de los hijos
son
65 65 66 66 67 68 68 68 68 69 70 71
Y como el sexto, séptimo, octavo y noveno lugares representan la misma estatura (68
pulg.), se les asigna el rango medio
1
(6 + 7 + 8 + 9) =7.5 a estos lugares. Por lo tanto,
4
las estaturas de los hijos corresponden a los rangos
1.5 1.5 3.5 3.5 5 7.5 7.5 7.5 7.5 10 11 12
Usando las correspondencias se puede sustituir la tabla III.8.1 con la tabla III.8.2
Rango del padre 4
Rango del hijo
2
6.5 3
8.5 1
7.5 3.5 7.5 1.5 10
11
5
8.5 6.5 10
3.5 7.5 1.5 12
5
12
7.5 11
Tabla III.8.2. Los valores de la tabla III.8.1 sustituidos por sus rangos
La tabla II.8.3 muestra la diferencia en rangos, D, y los cálculos de D 2 y
∑D
2
, de
donde
r s = 1-
-1.5
6∑ D 2
n(n − 1)
2
-1.0
= 1-
1.5
6(72.50)
= 0.7465
12(12 2 − 1)
D
-3.5
-1.5
-2.5
3.5
3.5
-3.5
1.5
2.5
1.0
D2
12.25 2.25 1.00 2.25 2.25 6.25 12.25 12.25 12.25 2.25 6.25 1.00
Tabla III.8.3. Diferencia en rangos y su cuadrado.
Se concluye que existe una relación entre la estatura de los padres y la de los hijos en la
población.
Ahora haremos el cálculo tomando en cuenta las repeticiones.
∑D
2
=72.5
80
S xx =
23 − 2 23 − 2
n3 − n
12 3 − 12
− ∑ Tx =
−(
+
) = 143 – 0.5 – 0.5 = 142
12
12
12
12
S yy =
23 − 2 23 − 2 43 − 4
n3 − n
12 3 − 12
− ∑ Ty =
−(
+
) ⇒
+
12
12
12
12
12
S yy =143 – 0.5 - 0.5 - 5.0 = 137
n
S xx + S yy − ∑ d i2
rs=
i =1
2 S xx S yy
=
142 + 137 − 72.5
2 (142)(137)
=
206.5
= 0.7403
278.9552
Obsérvese que la diferencia de los dos valores de r s es muy pequeña y esto es debido a
que los empates, por ser muy pocos, casi no influyen.
EJEMPLO # III.8.2
En
la tabla siguiente se enumera cinco personas y compara el rango
académico que obtuvieron en la universidad con el nivel que han obtenido en cierta
compañía 10 años después de su graduación. El valor de 5 representa el rango más alto
del grupo; el 1 es el más bajo.
Estudiante Rango
Rango en la compañía Diferencia
universitario 10 años después
rangos d
Juan
4
4
0
d2
Margarita
3
3
0
0
Odilón
1
1
0
0
Esteban
2
2
0
0
Luisa
5
5
0
0
0
Tabla III.8.4. Compara nivel académico con el nivel profesional 10 años
después de graduados y la diferencia de rangos
81
Usando la información de la tabla # III.8.4, podemos calcular un coeficiente
de correlación de rango entre éxito de la universidad y nivel en la compañía logrado 10
n
6∑ d i
años después. Sustituyendo, se tiene r s = 1-
i =1
2
2
n( n − 1
=
0
6(0)
= 1−
=1
120
5(25 − 1)
Este coeficiente de correlación de rango 1 muestra una tendencia perfecta entre las dos
variables. Esto verifica el hecho de que los rangos universitarios y de la compañía para
cada persona fueran idénticos.
EJEMPLO # III.8.3
La tabla muestra una relación similar a la anterior, se enumera cinco
personas y se compara el rango académico, calcule el coeficiente de correlación
Estudiante Rango
Rango en la Diferencia entre Diferencia
universitario compañía
los dos rangos cuadrada
María
5
1
4
16
David
1
5
-4
16
José
3
3
0
0
Carlota
2
4
-2
4
Ana
4
2
2
4
Tabla # III.8.5. Compara nivel académico con el nivel profesional 10 años después de
graduados y la diferencia de rangos
Sustituyendo en la ecuación
r s = 1-
6∑ d 2
n(n − 1)
2
= 1−
240
6(40)
= 1−
= 1 − 2 = −1 ,
120
5(25 − 1)
Este valor (-1) representa una correlación inversa perfecta, indicando que la gente que
más destacó en la universidad terminó en los menores rangos de una organización.
82
EJEMPLO # III.8.4
Las siguientes cifras mostradas en la tabla II.8.5 son las horas de estudio de
10 alumnos para presentar un examen final de matemáticas y las calificaciones que
obtuvieron:
Calificaciones
Número de
horas de estudio
y
x
8
56
5
44
11
79
13
72
10
70
5
54
18
94
15
85
2
33
8
65
Tabla III.8.6. Horas de estudios por estudiante y las calificaciones que
obtuvieron en el examen final de matemáticas.
Calcule el valor de r s y pruebe en el nivel de significancia 0.01 si el valor obtenido del
coeficiente de correlación de rango es significativo. Resuelva también utilizando la
aproximación normal.
SOLUCIÓN
Ordenando por rango las x y las y, se obtiene la siguiente tabla
83
Rango Rango d
d2
de x
de y
6.5
7
-0.5 0.25
8.5
9
-0.5 0.25
4
3
1.0
1.00
3
4
1.0
1.00
5
5
0.0
0.00
8.5
8
0.5
0.25
1
1
0.0
0.00
2
2
0.0
0.00
10
10
0.0
0.00
6.5
6
0.5
0.25
∑d
2
= 3.00
Tabla III.8.7. Indicación de rangos por variables y sus diferencias
y la sustitución en la fórmula de r s produce el resultado
r s = 1-
6(3)
= 0.98
10(10 2 − 1)
Para valores de n pequeños (n ≤ 10 ), la prueba de la hipótesis nula de no correlación, en
realidad la prueba de la hipótesis nula de que las x y las y se ajustan al azar, se pueden
basar en tabla # 7 del apéndice B. No obstante la mayoría de las veces nos valemos de
que la distribución de r s puede obtenerse en forma muy aproximada con una
distribución normal, teniendo en cuenta que con la hipótesis nula de no correlación, la
media es
E(r s ) = 0 y la varianza Var(r s ) =
1
.
n −1
Para la segunda parte tomando en cuenta que r s = 0.98, hacemos el análisis de la
siguiente manera
84
1. H 0 :
no hay correlación
H1:
sí hay correlación.
2. Rechace la hipótesis nula si z ≤ −2.575 o z ≥ 2.575 , donde z = r s
n −1
3. Al sustituir n = 10 y r s = 0.98, se obtiene z = 0.98 10 − 1 = 2.94
4. Como z = 2.94 es mayor que 2.575, debe rechazarse la hipótesis nula; se concluye
que existe una relación real (positiva) entre el tiempo de estudio y las calificaciones.
III.9 APLICACIONES DE LA PRUEBA DE KOLMOGOROV-SMIRNOV
Se aplica en todas aquellas áreas del conocimiento en donde se requiera
saber, como ya se dijo, si existe una diferencia significativa entre una distribución de
frecuencia observada y otra de frecuencia teórica. Véase el siguiente ejemplo.
EJEMPLO # III.9.1
Una central telefónica de la empresa nacional CANTV ubicada en la ciudad
de Caracas, ha estado llevando un registro automático del número de “transmisores” (un
tipo de equipo automático que se utiliza en las centrales telefónicas) usados en un
instante dado. Las observaciones se hicieron en 3 754 ocasiones distintas. Para
propósitos de planeación de inversión de capital, el funcionario de presupuesto de esta
compañía piensa que el patrón de uso sigue una distribución de Poisson con una media
de 8.5. Se desea probar esta hipótesis al nivel de significancia de 0.01.
La tabla # III.9.1 enumera las frecuencias observadas y las transforma en
frecuencias acumulativas observadas relativas.
Formulamos nuestra hipótesis de la siguiente manera:
Hipótesis nula.
H 0 : Una distribución de Poisson con λ = 8.5 es una buena descripción
del patrón de uso.
85
Hipótesis alternativa.
H 1 : Una distribución de Poisson con λ = 8.5 no es una buena
descripción del patrón de uso.
α = 0.01 nivel de significancia para probar esta hipótesis
Ahora podemos utilizar la fórmula de Poisson, P(x) =
λ x .e − λ
x!
, para calcular
las frecuencias esperadas (F e ). Al comparar estas frecuencias esperadas con nuestras
frecuencias observadas (F o ), podemos examinar el alcance de la diferencia entre ellas:
la desviación absoluta, Fe − F0 . En la tabla III.9.2 enumeramos las frecuencias
acumulativas observadas para x = 0 a 22.
Para calcular el estadístico K-S para este problema, simplemente se elije D n , la
desviación absoluta máxima de F e , desde F 0 .
D n = sup Fe − F0
En este problema, D n = 0.2582 en x = 9.
Una prueba K-S siempre debe ser una prueba de un extremo. Los valores
críticos para D n se han tabulado y pueden encontrase en la tabla 8 apéndice B del
apéndice. Si buscamos en la fila de n = 3 754 (el tamaño de la muestra) y la columna
para un nivel de significancia de 0.01, encontramos que el valor crítico de D n debe
calcularse usando la fórmula: 1.63
n = 1.63
3754 = 0.0266
86
Número Frecuencia Frecuencia Frecuencia
ocupado observada acumulativa acumulativa
observada
observada
relativa
0
0
0
0.0000
1
5
5
0.0013
2
14
19
0.0051
3
24
43
0.0115
4
57
100
0.0266
5
111
211
0.0562
6
197
408
0.1087
7
278
686
0.1827
8
378
1064
0.2834
9
418
1482
0.3948
10
461
1943
0.5176
11
433
2376
0.6329
12
413
2789
0.7429
13
358
3147
0.8383
14
219
3366
0.8966
15
145
3511
0.9353
16
109
3620
0.9643
17
57
3677
0.9795
18
43
3720
0.9909
19
16
3736
0.9952
20
7
3743
0.9971
21
8
3751
0.9992
22
3
3754
1,0000
Tabla III.9.1. Frecuencias acumulativas observadas y relativas
87
Número
ocupado
0
Frecuencia Frecuencia Frecuencia Frecuencia
Fe − F0
observada acumulativa acumulativa acumulativa
Desviación
esperada
observada
observada
absoluta
relativa
0
0
0.0000
0.0002
0.0002
1
5
5
0.0013
0.0019
0.0006
2
14
19
0.0051
0.0093
0.0042
3
24
43
0.0115
0.0301
0.0186
4
57
100
0.0266
0.0744
0.0478
5
111
211
0.0562
0.1496
0.0934
6
197
408
0.1087
0.2562
0.1475
7
278
686
0.1827
0.3856
0.2029
8
378
1064
0.2834
0.5231
0.2397
9
418
1482
0.3948
0.6530
0.2582
10
461
1943
0.5176
0.7634
0.2458
11
433
2376
0.6329
0.8487
0.2158
12
413
2789
0.7429
0.9091
0.1662
13
358
3147
0.8383
0.9486
0.1103
14
219
3366
0.8966
0.9726
0.0760
15
145
3511
0.9353
0.9862
0.0509
16
109
3620
0.9643
0.9934
0.0291
17
57
3677
0.9795
0.9970
0.0175
18
43
3720
0.9909
0.9987
0.0078
19
16
3736
0.9952
0.9995
0.0043
20
7
3743
0.9971
0.9998
0.0027
21
8
3751
0.9992
0.9999
0.0007
22
3
3754
1.0000
1.0000
0.0000
Tabla III.9.2 Frecuencias acumulativas observadas relativas, frecuencias acumulativas
relativas esperadas y desviaciones absolutas.
88
El siguiente paso es comparar el valor calculado de D n con el valor crítico
de D n que se encuentra en la tabla. Si el valor de la tabla para el nivel de significancia
elegido es mayor que el valor calculado de
D n , entonces aceptaremos la hipótesis
nula. Obviamente, 0.0266 < 0.2582, así que rechazamos H 0 y llegamos a la conclusión
de que una distribución de Poisson con una media de 8.5 no es una buena descripción
del patrón de uso del transmisor en la central telefónica de la ciudad.
89
CAPÍTULO IV
ANÁLISIS, CONCLUSIONES Y RECOMENDACIONES
IV.1 PRUEBAS ESTADÍSTICAS PARAMÉTRICAS Y NO PARAMÉTRICAS
Una prueba estadística paramétrica es aquella cuyo modelo específica
ciertas condiciones acerca de los parámetros de la población de la que se obtuvo la
muestra investigada, que no se prueban ordinariamente, sino que se supone que se
mantienen. La significación de los resultados de una prueba paramétrica depende de la
validez de estas suposiciones. Las pruebas paramétricas también requieren que los datos
analizados sean producto de una medición que por lo menos tenga la fuerza de una
escala de intervalo.
Una prueba estadística no paramétrica es aquella cuyo modelo no especifica
las condiciones de los parámetros de la población de la que se sacó la muestra. Hay
algunas suposiciones que se asocian con la mayoría de las pruebas estadísticas no
paramétricas: observaciones independiente y variable continua; pero estas suposiciones
son pocas comparadas con las asociadas con las pruebas paramétricas. Además, las no
paramétricas no requieren mediciones tan fuertes; la mayoría de las pruebas no
paramétricas se aplican a datos de una escala ordinal, y algunas a los de una escala
nominal.
Las pruebas estadísticas no paramétricas expuestas en capítulos anteriores
representan sólo un número reducido de los muchos métodos estadísticos no
paramétricos de inferencia disponibles. Los libros de texto de la bibliografía contienen
un conjunto de procedimientos no paramétricos más amplio, así como una mayor
variedad de ejemplos resueltos. Existen procedimientos de estimación no paramétricos,
entre otras cosas, para estimar parámetros de localización y resolver problemas de
inferencia relacionados con el modelo lineal.
Señalamos que los procedimientos estadísticos no paramétricos son
especialmente útiles en particular cuando las observaciones experimentales se pueden
90
ordenar, pero no se pueden medir en una escala numérica, así es el caso de la escala
nominal o clasificatoria. Los procedimientos estadísticos paramétricos difícilmente se
pueden aplicar a este tipo de datos. Por consiguiente, cualquier procedimiento de
inferencia que desee usarse en este respecto debe basarse en métodos no paramétricos.
Otra aplicación de los métodos estadísticos no paramétricos tiene que ver
con la prueba de hipótesis relacionada con poblaciones de datos cuantitativos cuando
existe la incertidumbre en lo que se refiere al cumplimiento de ciertos supuestos
respecto a la forma de las distribuciones de población. ¿Cuán útiles son los métodos no
paramétricos en estos casos? Los métodos estadísticos no paramétricos permiten llevar a
cabo el trabajo con rapidez y a menudo facilitan la toma inmediata de una decisión en el
momento de probar hipótesis. Cuando las condiciones experimentales se alejan en
forma sustancial de los supuestos fundamentales que sustentan las pruebas paramétricas,
las medidas de respuesta a menudo se pueden transformar para rectificar algunas
condiciones, pero con frecuencia esto da como resultado que la respuesta transformada
ya no sea útil, desde el punto de vista práctico, y que el análisis de los datos
transformados ya no responda a los objetivos del experimentador. La aplicación de
métodos no paramétricos con frecuencia evita esta dificultad. Muchos métodos no
paramétricos son casi tan eficaces como sus equivalentes paramétricos cuando los
supuestos detrás de los procedimientos paramétricos son verdaderos; además, como se
señaló, los métodos no paramétricos podrían ser más eficaces cuando los supuestos no
se satisfacen. Estos argumentos sugieren que las técnicas no paramétricas desempeñan
un papel muy útil en la metodología estadística.
En el caso de dos muestras comparadas, por ejemplo, la técnica paramétrica
usual para analizar datos provenientes de dos muestras de este tipo es aplicar una prueba
t a la diferencia de las observaciones. Esta diferencia puede obtenerse de los dos valores
de los miembros de cada pareja igualada o de los dos valores de cada sujeto bajo las dos
condiciones. La prueba t supone que estas diferencias de las observaciones están
91
distribuidos normal e independientemente en la población de la cual se tomó la muestra,
y requiere que sea medido en una escala de intervalo.
En numerosos casos, la prueba t es inaplicable. El investigador puede
encontrar que a) los supuestos y requerimientos de la prueba t son poco realistas para
sus datos; b) prefiere evitar hacer los supuestos o probar los requerimientos para dar
mayor generalidad a sus conclusiones; c) las diferencias entre las parejas igualadas están
representadas de tal forma que se puede decir qué miembro de cualquier pareja es
mayor que el otro, pero no se puede decir en cuánto), o d) sus valores son simplemente
clasificatorios: los miembros de cada pareja igualada pueden responder del mismo
modo o de maneras enteramente diferentes que no tienen orden ni relación cuantitativa.
En estos casos, el investigador pude escoger una prueba estadística no paramétrica para
dos muestras comparadas. Además de que son adecuadas para los casos mencionados
antes, estas pruebas tienen la ventaja adicional que no requieren una misma población
de la que provengan todas las parejas.
En el caso de la prueba H de Kruskal-Wallis esta es una versión no
paramétrica de ANOVA (análisis de varianza), esta última, parte de la suposición de
que cada una de las muestras es tomada de una población normal y cada una de tales
poblaciones tiene la misma varianza, σ 2 . Sin embargo, si los tamaños de muestras son
lo suficientemente grande, lo cual podría ser costoso, no necesitamos la suposición de
normalidad. Esta prueba H requiere por lo menos una medición ordinal de la variable.
La prueba de una muestra de Kolmogorov-Smirnov trata las observaciones
individuales separadamente y, así, a diferencia de la prueba χ 2 para una muestra, no
pierde necesariamente información al combinar categorías. Cuando las muestras son
pequeñas las categorías adyacentes deben combinarse antes de que χ 2 pueda calcularse
apropiadamente. La prueba χ 2 es definitivamente menos poderosa que la prueba de
Kolmogorov-Smirnov. Además, para muestras muy pequeñas, la prueba χ 2 no es
aplicable en modo alguno; sin embargo, la de Kolmogorov-Smirnov sí lo es. Estos
92
hechos sugieren que la prueba de Kolmogorov-Smirnov puede en todos los casos ser
más poderosa que su alternativa, la prueba χ 2 .
La prueba de rachas de una muestra se refiere a la aleatoriedad de la
ocurrencia temporal o sucesión de las medidas en una muestra. Ningún principio
general acerca de la eficiencia general de las pruebas de aleatoriedad basado en las
rachas es significativo; en este caso la cuestión de eficiencia tiene significado solamente
en el contexto de un problema específico.
La correlación de rangos es útil, entre otros casos, cuando los datos están
distribuidos anormalmente y tienen la ventaja de poderse aplicar en los que la
información no está disponible en forma de valores numéricos. También cuando hay en
esta información una o varias observaciones extremas en los datos originales, el
coeficiente de correlación puede que no sea una buena descripción de la asociación que
existe entre dos variables. Sin embargo, las observaciones extremas en una prueba de
correlación de rango nunca producirán una gran diferencia de rango.
En conclusión podemos señalar las siguientes ventajas y desventajas de los
métodos no paramétricos.
IV.2 VENTAJAS DE LOS MÉTODOS NO PARAMÉTRICOS
Los métodos no paramétricos tienen un número de ventajas claras sobre los
métodos paramétricos:
1. A menudo se les llama de “distribución libre” pues uno de sus principales méritos es
que no suponen que los datos que se están analizando se hayan sacado de una población
distribuida de una forma específica, por ejemplo, de una población distribuida
normalmente.
2. Generalmente, son más fáciles de efectuar y comprender. La mayoría de las pruebas
no paramétricas no demandan el tipo de laboriosos cálculos a menudo requeridos, por
ejemplo para calcular una desviación estándar. Una prueba no paramétrica nos puede
93
pedir reemplazar valores numéricos con el orden en el que esos valores aparecen en una
lista, como se ha hecho en la tabla IV.1.
Obviamente, tratar computacionalmente con 1, 2, 3, 4 y 5 cuesta menos
esfuerzo que trabajar con 13.33, 76.50, 101.79, 113.45 y 189.42. Muchos creen que la
sencillez de cálculo permite a los investigadores en general dedicar más tiempo a la
reflexión y formulación cuidadosa de sus problemas de investigación y a la recolección
de datos precisos y pertinentes.
3. Algunas veces ni siquiera se requiere del ordenamiento o clasificación formal. A
menudo, lo único que podemos hacer es describir un resultado como “mejor” que otro.
Cuando éste es el caso, o cuando nuestras mediciones no son tan exactas como es
necesario para las pruebas paramétricas, podemos usar métodos no paramétricos.
Valor paramétrico
113.45 189.42 76.5 13.33 101.79
Valor no paramétrico 4
5
2
1
3
Tabla IV.1.Conversión de valores paramétricos a rangos no paramétricos.
4. Otro conveniente de estas pruebas es su utilidad con muestras pequeñas, o tan
pequeñas como por ejemplo n = 6, lo cual es una ventaja para el investigador que recoge
datos de un estudio piloto y para aquel cuyas muestras deben ser pequeñas por su misma
naturaleza (por ejemplo, muestras de personas con una forma rara de enfermedad
mental).
IV.3 DESVENTAJAS DE LOS MÉTODOS NO PARAMÉTRICOS
1. Ignoran una cierta cantidad de información. Hemos mostrado como los valores 1, 2,
3, 4 y 5 pueden reemplazar a los números 13.33, 76.5, 101.79, 113.45, y 189.42. Sin
embargo, si representamos “189.42” por “5”, perdemos información que está contenida
en el valor de 189.42. Observe que en nuestro ordenamiento de los valores 13.33, 76.5,
101.79, 113.45 y 189.42, el valor 189.42 puede convertirse en 1.189.42 y seguir siendo
94
el quinto o mayor valor de la lista. Pero si esta lista es un conjunto de datos, podemos
aprender más
sabiendo que el valor más alto es 1189.42 ó 189.42 de lo que
aprenderíamos al representar ambos números mediante el valor 5.
2. A menudo no son tan eficientes o “agudas” como las pruebas paramétricas. La
estimación de un intervalo al nivel de confianza de 95% usando una prueba no
paramétrica puede ser el doble de tamaño que la estimación al utilizar una prueba
paramétrica. Cuando usamos pruebas no paramétricas, efectuamos un trueque:
perdemos agudeza al estimar intervalos, pero ganamos la habilidad de usar menos
información y calcular más rápidamente.
IV.4 RECOMENDACIONES
Aunque como se ha podido ver, la mayor parte del cálculo que se usa en
estas pruebas es bastante sencillo, y pensando en la gran difusión que tiene hoy día la
computadora, ya que en casi cualquier parte hay una, sería adecuado, como un posterior
estudio del tema tratado, hacer un análisis sobre el tipo de programas disponibles en el
mercado para el procesamiento de datos con métodos no paramétricos, y hacer la
respectiva comparación con los tradicionales programas que usan los métodos
paramétricos. Las pruebas que los tienen disponibles y sus alcances puede motivar a
investigadores, estudiantes e interesados en general a escoger algunas de las
herramientas que ofrecen los métodos no paramétricos.
También vemos como necesario, para desarrollar en un posterior estudio, la
evaluación de pruebas estadísticas por medio de las funciones de potencia, ya que estas
desempeñan un papel muy importante, pues nos da las probabilidades de rechazar la
hipótesis nula para diversos valores del parámetro. Hacer un estudio más profundo
sobre dichas funciones, permitiría evaluar los méritos de un criterio de prueba y hacer
las comparaciones en los diferentes métodos con mayor precisión que como se hizo
aquí.
95
APÉNDICE A
DEMOSTRACIÓN DEL TEOREMA DEL LÍMITE CENTRAL
Esbozaremos una demostración del teorema del límite central para el caso
en el que existen las funciones generadoras de momentos de las variables aleatorias de
la muestra. Esta demostración depende de un resultado fundamental de la teoría de
probabilidades que no se probará, pero que se enuncia en el siguiente teorema A-1
TEOREMA A-1
Si Yn y Y son variables aleatorias con funciones generadoras de momentos
mn (t ) y m(t ) , respectivamente. Si
lím mn (t ) = m(t ) cuando n → ∞
para toda t real, entonces la función de distribución de Yn converge a la función de
distribución Y conforme n → ∞.
TEOREMA A-2: TEOREMA CENTRAL DEL LÍMITE
Sean
Y1 , Y2 ,..., Yn variables
aleatorias
independientes
idénticamente
distribuidas con E( Yi ) = μ y Var( Yi ) = σ 2 < ∞ . Definamos,
Un =
n(
Y −μ
σ
) donde Y =
1 n
∑ Yi
n i =1
Entonces, la función de distribución U n converge a la función de distribución normal
estándar conforme n → ∞.
96
DEMOSTRACIÓN
Partamos del hecho de que μ k′ denota el k-ésimo momento de una variable
aleatoria, W, entonces la función generadora de momentos de W se puede expresar de la
siguiente manera: mW (t ) = E (e tW ) = 1 + tμ1′ +
t2
t3
μ 2′ + μ 3′ + ...
2
3!
Definamos la variable aleatoria Z i mediante
Zi =
Yi − μ
σ
.
Advierta que E ( Z i ) = 0 y Var ( Z i ) = 1 . Por consiguiente, los primeros dos momentos
de Z i son 0 y 1, respectivamente, y la función generadora de momentos de Z i se puede
expresar de la manera siguiente:
mZi = 1 +
t2 t3
+ E ( Z i3 ) + ...
2 3!
Además,
n
Un = n(
Y −μ
σ
1
)=
n
∑Y
(
i =1
i
− nμ
σ
)=
1
n
n
∑Z .
i =1
i
Como las variables aleatorias Yi son independientes, se deduce que las variables
aleatorias Z i son independientes para i = 1, 2, . . . ,n.
Téngase en cuenta que la función generadora de momentos de la suma de
las variables aleatorias independientes es el producto de sus funciones generadoras de
momentos individuales. Por lo tanto,
n
⎡
t ⎤
t2
t3
+
k + ...) n
mn (t ) = ⎢mZ ( )⎥ = (1 +
32
n
2
n
3
!
n ⎦
⎣
donde k = E ( Z i3 ).
Ahora tomamos el límite de mn conforme n → ∞. Una forma de evaluar el límite es
considerar el logaritmo natural de mn (t ) , donde
97
ln(mn (t )) = n ln(1 +
t2
t3
+
k + ...)
2n 3!n 3 2
Una expansión en serie estándar de ln(1+x) es
ln( 1 + x) = x −
Si
x2 x3 x4
+
−
+ ...
3
3
4
t2
t 3k
x = ( + 3 2 + ...)
2n 6n
tenemos
ln(mn ) = n ln(1 + x) = n( x −
⎡ t2
⎤
1 t2
x2
t 3k
t 3k
+ ...) = ⎢( + 3 2 + ...) − ( + 3 2 + ...) 2 + ...⎥
2
2 2n 6n
⎣ 2n 6n
⎦
Donde los términos sucesivos de la expansión incluyen x 3 , x 4 y así sucesivamente. Si
multiplicamos por n, vemos que el primer término t 2 2 no incluye a n, mientras que los
demás términos la incluyen elevada a una potencia positiva en el denominador. Por lo
tanto, podemos demostrar que
lím ln(mn (t )) =
t2
cuando n → ∞
2
o
lím (mn (t )) = e t
2
2
cuando n → ∞
es la función generadora de momentos para una variable aleatoria normal estándar. Si
aplicamos el teorema A-1, concluimos que U n posee una función de distribución que
converge a la función de distribución de la variable aleatoria normal estándar.
98
APÉNDICE B
TABLA # 1
Distribución de Probabilidades Binomiales
n
1
2
3
4
5
6
7
8
9
9
s
0
1
0
1
2
0
1
2
3
0
1
2
3
4
0
1
2
3
4
5
0
1
2
3
4
5
6
0
1
2
3
4
5
6
7
0
1
2
3
4
5
6
7
8
0
1
2
3
4
5
.05
.9500
.0500
.9025
.0950
.0025
.8574
.1354
.0071
.0001
.8145
.1715
.0135
.0005
.0000
.7738
.2036
.0214
.0011
.0000
.0000
.7351
.2321
.0305
.0021
.0001
.0000
.0000
.6983
.2573
.0406
.0036
.0002
.0000
.0000
.0000
.6634
.2793
.0515
.0054
.0004
.0000
.0000
.0000
.0000
.6302
.2985
.0629
.0077
.0006
.0000
.10
.9000
.1000
.8100
.1800
.0100
.7290
.2430
.0270
.0010
.6561
.2916
.0486
.0036
.0001
.5905
.3280
.0729
.0081
.0004
.0000
.5314
.3543
.0984
.0146
.0012
.0001
.0000
.4783
.3720
.1240
.0230
.0026
.0002
.0000
.0000
.4305
.3826
.1488
.0331
.0046
.0004
.0000
.0000
.0000
.3874
.3874
.1722
.0446
.0074
.0008
.15
.8500
.1500
.7225
.2550
.0225
.6141
.3251
.0574
.0034
.5220
.3685
.0975
.0115
.0005
.4437
.3915
.1382
.0244
.0022
.0001
.3771
.3993
.1762
.0415
.0055
.0004
.0000
.3206
.3960
.2097
.0617
.0109
.0012
.0001
.0000
.2725
.3847
.2376
.0839
.0185
.0026
.0002
.0000
.0000
.2316
.3679
.2597
.1069
.0283
.0050
.20
.8000
.2000
.6400
.3200
.0400
.5120
.3840
.0960
.0080
.4096
.4096
.1536
.0256
.0016
.3277
.4096
.2048
.0512
.0064
.0003
.2621
.3932
.2458
.0819
.0154
.0015
.0001
.2097
.3670
.2753
.1147
.0287
.0043
.0004
.0000
.1678
.3355
.2936
.1468
.0459
.0092
.0011
.0001
.0000
.1342
.3020
.3020
.1762
.0661
.0165
.25
.7500
.2500
.5625
.3750
.0625
.4219
.4219
.1406
.0156
.3164
.4219
.2109
.0469
.0039
.2373
.3955
.2637
.0879
.0146
.0010
.1780
.3560
.2966
.1318
.0330
.0044
.0002
.1335
.3115
.3115
.1730
.0577
.0115
.0013
.0001
.1001
.2670
.3115
.2076
.0865
.0231
.0038
.0004
.0000
.0751
.2253
.3003
.2336
.1168
.0389
.30
.7000
.3000
.4900
.4200
.0900
.3430
.4410
.1890
.0270
.2401
.4116
.2646
.0756
.0081
.1681
.3602
.3087
.1323
.0284
.0024
.1176
.3025
.3241
.1852
.0595
.0102
.0007
.0824
.2471
.3177
.2269
.0972
.0250
.0036
.0002
.0576
.1977
.2965
.2541
.1361
.0467
.0100
.0012
.0001
.0404
.1556
.2668
.2668
.1715
.0735
.35
.6500
.3500
.4225
.4550
.1225
.2746
.4436
.2389
.0429
.1785
.3845
.3105
.1115
.0150
.1160
.3124
.3364
.1811
.0488
.0053
.0754
.2437
.3280
.2355
.0951
.0205
.0018
.0490
.1848
.2985
.2679
.1442
.0466
.0084
.0006
.0319
.1373
.2587
.2786
.1875
.0808
.0217
.0033
.0002
.0207
.1004
.2162
.2716
.2194
.1181
.40
.6000
.4000
.3600
.4800
.1600
.2160
.4320
.2880
.0640
.1296
.3456
.3456
.1536
.0256
.0778
.2592
.3456
.2304
.0768
.0102
.0467
.1866
.3110
.2765
.1382
.0369
.0041
.0280
.1306
.2613
.2903
.1935
.0774
.0172
.0016
.0168
.0896
.2090
.2787
.2322
.1239
.0413
.0079
.0007
.0101
.0605
.1612
.2508
.2508
.1672
.45
.5500
.4500
.3025
.4950
.2025
.1664
.4084
.3341
.0911
.0915
.2995
.3675
.2005
.0410
.0503
.2059
.3369
.2757
.1128
.0185
.0277
.1359
.2780
.3032
.1861
.0609
.0083
.0152
.0872
.2140
.2918
.2388
.1172
.0320
.0037
.0084
.0548
.1569
.2568
.2627
.1719
.0703
.0164
.0017
.0046
.0339
.1110
.2119
.2600
.2128
.50
.5000
.5000
.2500
.5000
.2500
.1250
.3750
.3750
.1250
.0625
.2500
.3750
.2500
.0625
.0312
.1562
.3125
.3125
.1562
.0312
.0156
.0938
.2344
.3125
.2344
.0938
.0156
.0078
.0547
.1641
.2734
.2734
.1641
.0547
.0078
.0039
.0312
.1094
.2188
.2734
.2188
.1094
.0312
.0039
.0020
.0176
.0703
.1641
.2461
.2461
99
10
11
12
12
13
13
14
6
7
8
9
0
1
2
3
4
5
6
7
8
9
10
0
1
2
3
4
5
6
7
8
9
10
11
0
1
2
3
4
5
6
7
8
9
10
11
12
0
1
2
3
4
5
6
7
8
9
10
11
12
13
0
.0000
.0000
.0000
.0000
.5987
.3151
.0746
.0105
.0010
.0001
.0000
.0000
.0000
.0000
.0000
.5688
.3293
.0867
.0137
.0014
.0001
.0000
.0000
.0000
.0000
.0000
.0000
.5404
.3413
.0988
.0173
.0021
.0002
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.5133
.3512
.1109
.0214
.0028
.0003
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.4877
.0001
.0000
.0000
.0000
.3487
.3874
.1937
.0574
.0112
.0015
.0001
.0000
.0000
.0000
.0000
.3138
.3835
.2131
.0710
.0158
.0025
.0003
.0000
.0000
.0000
.0000
.0000
.2824
.3766
.2301
.0852
.0213
.0038
.0005
.0000
.0000
.0000
.0000
.0000
.0000
.2542
.3672
.0448
.0997
.0277
.0055
.0008
.0001
.0000
.0000
.0000
.0000
.0000
.0000
.2288
.0006
.0000
.0000
.0000
.1969
.3474
.1759
.1298
.0401
.0085
.0012
.0001
.0000
.0000
.0000
.1673
.3248
.2866
.1517
.0536
.0132
.0023
.0003
.0000
.0000
.0000
.0000
.1422
.3012
.2924
.1720
.0683
.0193
.0040
.0006
.0001
.0000
.0000
.0000
.0000
.1209
.2774
.2937
.1900
.0838
.0266
.0063
.0011
.0001
.0000
.0000
.0000
.0000
.0000
.1028
.0028
.0003
.0000
.0000
.1074
.2684
.3020
.2013
.0881
.0264
.0055
.0008
.0001
.0000
.0000
.0859
.2362
.2953
.2215
.1107
.0388
.0097
.0017
.0002
.0000
.0000
.0000
.0687
.2062
.2835
.2362
.1329
.0532
.0155
.0033
.0005
.0001
.0000
.0000
.0000
.0550
.1787
.2680
.2457
.1535
.0691
.0230
.0058
.0011
.0001
.0000
.0000
.0000
.0000
.0440
.0087
.0012
.0001
.0000
.0563
.1877
.2816
.2503
.1460
.0584
.0162
.0031
.0004
.0000
.0000
.0422
.1549
.2581
.2581
.1721
.0803
.0268
.0064
.0011
.0001
.0000
.0000
.0317
.1267
.2323
.2581
.1936
.1032
.0401
.0115
.0024
.0004
.0000
.0000
.0000
.0238
.1029
.2059
.2517
.2097
.1258
.0559
.0186
.0047
.0009
.0001
.0000
.0000
.0000
.0178
.0210
.0039
.0004
.0000
.0282
.1211
.2335
.2668
.2001
.1029
.0368
.0090
.0014
.0001
.0000
.0198
.0932
.1998
.2568
.2201
.1321
.0566
.0173
.0037
.0005
.0000
.0000
.0138
.0712
.1678
.2397
.2311
.1585
.0792
.0291
.0078
.0015
.0002
.0000
.0000
.0097
.0540
.1388
.2181
.2337
.1803
.1030
.0442
.0142
.0034
.0006
.0001
.0000
.0000
.0068
.0424
.0098
.0013
.0001
.0135
.0725
.1757
.2522
.2377
.1536
.0689
.0212
.0043
.0005
.0000
.0088
.0518
.1395
.2254
.2428
.1830
.0985
.0379
.0102
.0018
.0002
.0000
.0057
.0368
.1088
.1954
.2367
.2039
.1281
.0591
.0199
.0048
.0008
.0001
.0000
.0037
.0259
.0836
.1651
.2222
.2154
.1546
.0833
.0336
.0101
.0022
.0003
.0000
.0000
.0024
.0743
.0212
.0035
.0003
.0060
.0403
.1209
.2150
.2508
.2007
.1115
.0425
.0106
.0016
.0001
.0036
.0266
.0887
.1774
.2365
.2207
.1471
.0701
.0234
.0052
.0007
.0000
.0022
.0174
.0639
.1419
.2128
.2270
.1766
.1009
.0420
.0125
.0025
.0003
.0000
.0013
.0113
.0453
.1107
.1845
.2214
.1968
.1312
.0656
.0243
.0065
.0012
.0001
.0000
.0008
.1160
.0407
.0083
.0008
.0025
.0207
.0763
.1665
.2384
.2340
.1596
.0746
.0229
.0042
.0003
.0014
.0125
.0513
.1259
.2060
.2360
.1931
.1128
.0462
.0126
.0021
.0002
.0008
.0075
.0339
.0923
.1700
.2225
.2124
.1489
.0762
.0277
.0068
.0010
.0001
.0004
.0045
.0220
.0660
.1350
.1989
.2169
.1775
.1089
.0495
.0162
.0036
.0005
.0000
.0002
.1641
.0703
.0176
.0020
.0010
.0098
.0439
.1172
.2051
.2461
.2051
.1172
.0439
.0098
.0010
.0005
.0054
.0269
.0806
.1611
.2256
.2256
.1611
.0806
.0269
.0054
.0005
.0002
.0029
.0161
.0537
.1208
.1934
.2256
.1934
.1208
.0537
.0161
.0029
.0002
.0001
.0016
.0095
.0349
.0873
.1571
.2095
.2095
.1571
.0873
.0349
.0095
.0016
.0001
.0001
100
15
16
16
17
1
2
3
4
5
6
7
8
9
10
11
12
13
14
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
0
1
2
3
4
5
6
7
.3593
.1229
.0259
.0037
.0004
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.4633
.3658
.1348
.0307
.0049
.0006
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.4401
.3706
.1463
.0359
.0061
.0008
.0001
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.4181
.3741
.1575
.0415
.0076
.0010
.0001
.0000
.3559
.2570
.1142
.0349
.0078
.0013
.0002
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.2059
.3432
.2669
.1285
.0428
.0105
.0019
.0003
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.1853
.3294
.2745
.1423
.0514
.0137
.0028
.0004
.0001
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.1668
.3150
.2800
.1556
.0605
.0175
.0039
.0007
.2539
.2912
.2056
.0998
.0352
.0093
.0019
.0003
.0000
.0000
.0000
.0000
.0000
.0000
.0874
.2312
.2856
.2184
.1156
.0449
.0132
.0030
.0005
.0001
.0000
.0000
.0000
.0000
.0000
.0000
.0743
.2097
.2775
.2285
.1311
.0555
.0180
.0045
.0009
.0001
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0631
.1893
.2673
.2359
.1457
.0668
.0236
.0065
.1539
.2501
.2501
.1720
.0860
.0322
.0092
.0020
.0003
.0000
.0000
.0000
.0000
.0000
.0352
.1319
.2309
.2501
.1876
.1032
.0430
.0138
.0035
.0007
.0001
.0000
.0000
.0000
.0000
.0000
.0281
.1126
.2111
.2463
.2001
.1201
.0550
.0197
.0055
.0012
.0002
.0000
.0000
.0000
.0000
.0000
.0000
.0225
.0957
.1914
.2393
.2093
.1361
.0680
.0267
.0832
.1802
.2402
.2202
.1468
.0734
.0280
.0082
.0018
.0003
.0000
.0000
.0000
.0000
.0134
.0668
.1559
.2252
.2252
.1651
.0917
.0393
.0131
.0034
.0007
.0001
.0000
.0000
.0000
.0000
.0100
.0535
.1336
.2079
.2252
.1802
.1101
.0524
.0197
.0058
.0014
.0002
.0000
.0000
.0000
.0000
.0000
.0075
.0426
.1136
.1893
.2209
.1914
.1276
.0668
.0407
.1134
.1943
.2290
.1963
.1262
.0618
.0232
.0066
.0014
.0002
.0000
.0000
.0000
.0047
.0305
.0916
.1700
.2186
.2061
.1472
.0811
.0348
.0116
.0030
.0006
.0001
.0000
.0000
.0000
.0033
.0228
.0732
.1465
.2040
.2099
.1649
.1010
.0487
.0185
.0056
.0013
.0002
.0000
.0000
.0000
.0000
.0023
.0169
.0581
.1245
.1868
.2081
.1784
.1201
.0181
.0634
.1366
.2022
.2178
.1759
.1082
.0510
.0183
.0049
.0010
.0001
.0000
.0000
.0016
.0126
.0476
.1110
.1792
.2123
.1906
.1319
.0710
.0298
.0096
.0024
.0004
.0001
.0000
.0000
.0010
.0087
.0353
.0888
.1553
.2008
.1682
.1524
.0923
.0442
.0167
.0040
.0011
.0002
.0000
.0000
.0000
.0007
.0060
.0260
.0701
.1320
.1849
.1991
.1685
.0073
.0317
.0845
.1549
.2066
.2066
.1574
.0918
.0408
.0136
.0033
.0005
.0001
.0000
.0005
.0047
.0219
.0634
.1268
.1859
.2066
.1771
.1181
.0612
.0245
.0074
.0016
.0003
.0000
.0000
.0003
.0030
.0150
.0468
.1014
.1623
.1983
.1889
.1417
.0840
.0392
.0142
.0040
.0008
.0001
.0000
.0000
.0002
.0019
.0102
.0341
.0796
.1379
.1839
.1927
.0027
.0141
.0462
.1040
.1701
.2088
.1952
.1398
.0762
.0312
.0093
.0019
.0002
.0000
.0001
.0016
.0090
.0318
.0780
.1404
.1914
.2013
.1647
.1048
.0515
.0191
.0052
.0010
.0001
.0000
.0001
.0009
.0056
.0215
.0572
.1123
.1684
.1969
.1812
.1318
.0755
.0337
.0115
.0029
.0005
.0001
.0000
.0000
.0005
.0035
.0144
.0411
.0875
.1432
.1841
.0009
.0056
.0222
.0611
.1222
.1833
.2095
.1833
.1222
.0611
.0222
.0056
.0009
.0001
.0000
.0005
.0032
.0139
.0417
.0916
.1527
.1964
.1964
.1527
.0916
.0417
.0139
.0032
.0005
.0000
.0000
.0002
.0018
.0085
.0278
.0667
.1222
.1746
.1964
.1746
.1222
.0667
.0278
.0085
.0018
.0002
.0000
.0000
.0001
.0010
.0052
.0182
.0472
.0944
.1484
101
18
19
19
20
8
9
10
11
12
13
14
15
16
17
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
0
1
2
3
4
5
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.3972
.3763
.1683
.0473
.0093
.0014
.0002
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.3774
.3774
.1787
.0533
.0112
.0018
.0002
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.3585
.3774
.1887
.0596
.0133
.0022
.0001
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.1501
.3002
.2835
.1680
.0700
.0218
.0052
.0010
.0002
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.1351
.2852
.2852
.1796
.0798
.0266
.0069
.0014
.0002
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.1216
.2702
.2852
.1901
.0898
.0319
.0014
.0003
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0536
.1704
.2556
.2400
.1592
.0787
.0301
.0091
.0022
.0004
.0001
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0456
.1529
.2428
.2428
.1714
.0907
.0374
.0122
.0032
.0007
.0001
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0388
.1368
.2293
.2428
.1821
.1028
.0084
.0021
.0004
.0001
.0000
.0000
.0000
.0000
.0000
.0000
.0180
.0811
.1723
.2297
.2153
.1507
.0816
.0350
.0120
.0033
.0008
.0001
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0144
.0685
.1540
.2182
.2182
.1636
.0955
.0443
.0166
.0051
.0013
.0003
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0115
.0576
.1369
.2054
.2182
.1746
.0279
.0093
.0025
.0005
.0001
.0000
.0000
.0000
.0000
.0000
.0056
.0338
.0958
.1704
.2130
.1988
.1436
.0820
.0376
.0139
.0042
.0010
.0002
.0000
.0000
.0000
.0000
.0000
.0000
.0042
.0268
.0803
.1517
.2023
.2023
.1574
.0974
.0487
.0198
.0066
.0018
.0004
.0001
.0000
.0000
.0000
.0000
.0000
.0000
.0032
.0211
.0669
.1339
.1897
.2023
.0644
.0276
.0095
.0026
.0006
.0001
.0000
.0000
.0000
.0000
.0016
.0126
.0458
.1046
.1681
.2017
.1873
.1376
.0811
.0386
.0149
.0046
.0012
.0002
.0000
.0000
.0000
.0000
.0000
.0011
.0093
.0358
.0869
.1491
.1916
.1916
.1525
.0981
.0514
.0220
.0077
.0022
.0005
.0001
.0000
.0000
.0000
.0000
.0000
.0008
.0068
.0278
.0716
.1304
.1789
.1134
.0611
.0263
.0090
.0024
.0005
.0001
.0000
.0000
.0000
.0004
.0042
.0190
.0547
.1104
.1664
.1941
.1792
.1327
.0794
.0385
.0151
.0047
.0012
.0002
.0000
.0000
.0000
.0000
.0003
.0029
.0138
.0422
.0909
.1468
.1844
.1844
.1489
.0980
.0528
.0233
.0083
.0024
.0006
.0001
.0000
.0000
.0000
.0000
.0002
.0020
.0100
.0323
.0738
.1272
.1606
.1070
.0571
.0242
.0081
.0021
.0004
.0001
.0000
.0000
.0001
.0012
.0069
.0246
.0614
.1146
.1655
.1892
.1734
.1284
.0771
.0374
.0145
.0045
.0011
.0002
.0000
.0000
.0000
.0001
.0008
.0046
.0175
.0467
.0933
.1451
.1797
.1797
.1464
.0976
.0532
.0237
.0085
.0024
.0005
.0001
.0000
.0000
.0000
.0000
.0005
.0031
.0123
.0350
.0746
.1883
.1540
.1008
.0525
.0215
.0068
.0016
.0003
.0000
.0000
.0000
.0003
.0022
.0095
.0291
.0666
.1181
.1657
.1864
.1694
.1248
.0742
.0354
.0134
.0039
.0009
.0001
.0000
.0000
.0000
.0002
.0013
.0062
.0203
.0497
.0949
.1443
.1771
.1771
.1449
.0970
.0529
.0233
.0082
.0022
.0005
.0001
.0000
.0000
.0000
.0001
.0008
.0040
.0139
.0365
.1855
.1855
.1484
.0944
.0472
.0182
.0052
.0010
.0001
.0000
.0000
.0001
.0006
.0031
.0117
.0327
.0708
.1214
.1669
.1855
.1669
.1214
.0708
.0327
.0117
.0031
.0006
.0001
.0000
.0000
.0000
.0003
.0018
.0074
.0222
.0518
.0961
.1442
.1762
.1762
.1442
.0961
.0518
.0222
.0074
.0018
.0003
.0000
.0000
.0000
.0000
.0002
.0011
.0046
.0148
102
6 .0003 .0089 .0454 .1091 .1686 .1916 .1712 .1244 .0746 .0370
7 .0000 .0020 .0160 .0545 .1124 .1643 .1844 .1659 .1221 .0739
8 .0000 .0004 .0046 .0222 .0609 .1144 .1614 .1797 .1623 .1201
9 .0000 .0001 .0011 .0074 .0271 .0654 .1158 .1597 .1771 .1602
10 .0000 .0000 .0002 .0002 .0099 .0308 .0686 .1171 .1593 .1762
11 .0000 .0000 .0000 .0005 .0030 .0120 .0336 .0710 .1185 .1602
12 .0000 .0000 .0000 .0001 .0008 .0039 .0136 .0355 .0727 .1201
13 .0000 .0000 .0000 .0000 .0002 .0010 .0045 .0146 .0366 .0739
14 .0000 .0000 .0000 .0000 .0000 .0002 .0012 .0049 .0150 .0370
15 .0000 .0000 .0000 .0000 .0000 .0000 .0003 .0013 .0049 .0148
16 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0003 .0013 .0046
17 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0002 .0011
18 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0002
19 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000
20 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000
Basada en tables of the Binomial Probabilitiy Distribution, National Bureau of
Standards Applied Mathematics Serie nº 6 Washington, D.C.:US. Goberment printing
Office,1950.
103
TABLA # 2
Distribución normal estándar
z
.00
.01
.02
.03
.04
.05
.06
.07
.08
.09
0.0 .0000 .0040 .0080 .0120 .0160 .0199 .0239 .0279 .0319 .0359
0.1 .0398 .0438 .0478 .0517 .0557 .0596 .0636 .0675 .0714 .0753
0.2 .0793 .0832 .0871 .0910 .0948 .0987 .1026 .1064 .1103 .1141
0.3 .1179 .1217 .1255 .1293 .1331 .1368 .1406 .1443 .1480 .1517
0.4 .1554 .1591 .1628 .1664 .1700 .1736 .1772 .1808 .1844 .1879
0.5 .1915 .1950 .1985 .2019 .2054 .2088 .2123 .2157 .2190 .2224
0.6 .2257 .2291 .2324 .2357 .2389 .2422 .2454 .2486 .2517 .2549
0.7 .2580 .2611 .2642 .2673 .2704 .2734 .2764 .2794 .2823 .2852
0.8 .2881 .2910 .2939 .2967 .2995 .3023 .3051 .3078 .3106 .3133
0.9 .3159 .3186 .3212 .3238 .3264 .3289 .3315 .3340 .3365 .3389
1.0 .3413 .3438 .3461 .3485 .3508 .3531 .3554 .3577 .3599 .3621
1.1 .3643 .3665 .3686 .3708 .3729 .3749 .3770 .3790 .3810 .3830
1.2 .3849 .3869 .3888 .3907 .3925 .3944 .3962 .3980 .3997 .4015
1.3 .4032 .4049 .4066 .4082 .4099 .4115 .4131 .4147 .4162 .4177
1.4 .4192 .4207 .4222 .4236 .4251 .4265 .4279 .4292 .4306 .4319
1.5 .4332 .4345 .4357 .4370 .4382 .4394 .4406 .4418 .4429 .4441
1.6 .4452 .4463 .4474 .4484 .4495 .4505 .4515 .4525 .4535 .4545
1.7 .4554 .4564 .4573 .4582 .4591 .4599 .4608 .4616 .4625 .4633
1.8 .4641 .4649 .4656 .4664 .4671 .4678 .4686 .4693 .4699 .4706
1.9 .4713 .4719 .4726 .4732 .4738 .4744 .4750 .4756 .4761 .4767
2.0 .4772 .4778 .4783 .4788 .4793 .4798 .4803 .4808 .4812 .4817
2.1 .4821 .4826 .4830 .4834 .4838 .4842 .4846 .4850 .4854 .4857
2.2 .4861 .4864 .4868 .4871 .4875 .4878 .4881 .4884 .4887 .4890
2.3 .4893 .4896 .4898 .4901 .4904 .4906 .4909 .4911 .4913 .4916
2.4 .4918 .4920 .4922 .4925 .4927 .4929 .4931 .4932 .4934 .4936
2.5 .4938 .4940 .4941 .4943 .4945 .4946 .4948 .4949 .4951 .4952
2.6 .4953 .4955 .4956 .4957 .4959 .4960 .4961 .4962 .4963 .4964
2.7 .4965 .4966 .4967 .4968 .4969 .4970 .4971 .4972 .4973 .4974
2.8 .4974 .4975 .4976 .4977 .4977 .4978 .4979 .4979 .4980 .4981
2.9 .4981 .4982 .4982 .4983 .4984 .4984 .4985 .4985 .4986 .4986
3.0 .4987 .4987 .4987 .4988 .4988 .4989 .4989 .4989 .4990 .4990
Asimismo, para z = 4.0, 5.0 y 6.0, las probabilidades son 0.49997, 0.4999997 y
0.499999999.
Tomada de Robert D. Mason, Essentials of Statistics. 1976, pág.307.
104
TABLA # 3
Prueba de rangos con signos de Wilcoxon
Valores críticos de T
n
T .10
T .05
T .02
T .01
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
1
2
4
6
8
11
14
17
21
26
30
36
41
47
54
60
68
75
83
92
101
1
2
4
6
8
11
14
17
21
25
30
35
40
46
52
59
66
73
81
90
0
2
3
5
7
10
13
16
20
24
28
33
38
43
49
56
62
69
77
0
2
3
5
7
10
13
16
19
23
28
32
37
43
49
55
61
68
De F. Wilcoxon y R.A. Wilcox, Some Rapid Aproxímate Statiscal Procedures,
American Cyanamid Company, Pearl River, M.Y., 1964.
105
TABLA # 4
Prueba U de Mann-Whitney
Valores críticos de U
Valores de U .10
n2
n1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
2 3 4
5
6
7
8
9
10 11 12 13 14 15
0
0
1
2
2
3
4
4
5
5
6
7
7
0
1
2
4
5
6
8
9
11
12
13
15
16
18
0
2
3
5
7
8
10
12
14
16
17
19
21
23
0
2
4
6
8
11
13
15
17
19
21
24
26
28
1
3
5
8
10
13
15
18
20
23
26
28
31
33
1
4
6
9
12
15
18
21
24
27
3
33
36
39
1
4
7
11
14
17
20
24
27
31
34
37
41
44
5
6
7
8
9
10 11 12 13 14 15
1
0
0
0
1
1
1
1
2
2
3
3
0
1
2
3
4
5
6
7
8
9
10
11
12
1
5
8
12
16
19
23
27
31
34
38
42
46
50
2
5
9
13
17
21
26
30
34
38
42
47
51
55
2
6
10
15
19
24
28
33
37
42
47
51
56
61
3
7
11
16
21
26
31
36
41
46
51
56
61
66
3
7
12
18
23
28
33
39
44
50
55
61
66
72
Valores de U .05
n2
2 3 4
n1 1
2
3
4
0
5
0 1
6
1 2
7
1 3
8
0 2 4
9
0 2 4
10
0 3 5
11
0 3 6
12
1 4 7
13
1 4 8
14
1 5 9
15
1 5 10
Tomada de D.B.
Energy.
0
0 1 1 2
1 2 3 4
2 3 5 6
3 5 6 8
5 6 8 10
6 8 10 13
7 10 12 15
8 11 14 17
9 13 16 19
11 14 18 22
12 16 20 24
13 17 22 26
14 19 24 29
Owen, Handbook
0 0 0 1 1 1 1
2 3 3 4 4 5 5
4 5 6 7 8 9 10
7 8 9 11 12 13 14
10 11 13 14 16 17 19
12 14 16 18 20 22 24
15 17 19 22 24 26 29
17 20 23 26 28 31 34
20 23 26 29 30 36 39
23 26 30 33 37 40 44
26 29 33 27 41 45 49
28 30 37 41 45 50 54
31 36 40 45 50 55 59
34 39 44 49 54 59 64
of Statistical Tables, 1962, U.S. Department of
106
Continuación
Valores de U .02
n2
n1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
2 3 4 5
0
0
1
1
1
2
0 2
0 2
0 3
0
1
1
2
3
3
4
5
5
6
7
0
1
2
3
4
5
6
7
8
9
10
11
6
7
8
9
10 11 12 13 14 15
1
3
6
8
11
13
16
19
22
24
27
30
33
1
4
7
9
12
15
18
22
25
28
31
34
37
2
5
8
11
14
17
21
24
28
31
35
38
42
0
2
5
9
12
16
20
23
27
31
35
39
43
47
0
2
6
10
13
17
22
26
30
34
38
43
47
51
1
2
3
4
6
7
8
9
11
12
13
15
0
1
3
4
6
7
9
11
12
14
16
17
19
0
2
4
6
7
9
11
13
15
17
20
22
24
1
3
5
7
9
11
14
16
18
21
23
26
28
7
8
9
10 11 12 13 14 15
0
1
3
4
6
7
9
10
12
13
15
16
1
2
4
6
7
9
11
13
15
17
18
20
0
1
3
5
7
9
11
13
16
18
20
22
24
0
2
4
6
9
11
13
16
18
21
24
26
29
Valores de U .01
n2
n1
3
4
5
6
7
8
9
10
11
12
13
14
15
3 4 5 6
0
0
0
1
1
1
2
0
0
1
1
2
2
3
3
4
5
0
1
1
2
3
4
5
6
7
7
8
0
1
2
3
4
5
6
7
9
10
11
12
0
2
5
7
10
13
16
18
21
24
27
30
33
1
3
6
9
12
15
18
21
24
27
31
34
37
1
3
7
10
13
17
20
24
27
31
34
38
42
1
4
7
11
15
18
22
26
30
34
38
42
46
2
5
8
12
16
20
24
29
33
37
42
46
51
0
3
7
11
15
18
24
28
33
37
42
47
51
56
107
TABLA # 5
Valores de χ α2 ,υ
ν
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
α =.995
.0000393
.0100
.0717
.207
.412
.676
.989
1.344
1.735
2.156
2.603
3.074
3.565
4.075
4.601
5.142
5.697
6.265
6.844
7.434
8.034
8.643
9.260
9.886
10.520
11.160
11.808
12.461
13.121
13.787
α =.99
.0000157
.0201
.115
.297
.554
.872
1.239
1.646
2.088
2.558
3.053
3.571
4.107
4.660
5.229
5.812
6.408
7.015
7.633
8.260
8.897
9.542
10.196
10.856
11.524
12.198
12.879
13.565
14.256
14.953
α =.975
.000982
.0506
.216
.484
.831
1.237
1.690
2.180
2.700
3.247
3.816
4.404
5.009
5.629
6.262
6.908
7.564
8.231
8.907
9.591
10.283
10.982
11.689
12.401
13.120
13.844
14.573
15.308
16.047
16.791
α =.95
.00393
.0103
.352
.711
1.145
1.635
2.167
2.733
3.325
3.940
4.575
5.226
5.892
6.571
7.261
7.962
8.672
9.390
10.117
10.851
11.591
12.338
13.091
13.848
14.611
15.379
16.151
16.928
17.708
18.493
α =.05
3.841
5.991
7.815
9.488
11.070
12.592
14.067
15.507
16.919
18.307
19.675
21.026
22.362
23.685
24.996
26.296
27.587
28.869
30.144
31.410
32.671
33.924
35.172
36.415
37.652
38.885
40.113
41.337
42557
43.773
α =.025
5.024
7.378
9.348
11.143
12.832
14.449
16.013
17.535
19.023
20.483
21.920
23.337
24.736
26.119
27.488
28.845
30.191
31.526
32.852
34.170
35.479
36.781
38.076
39.364
40.646
41.923
43.194
44.461
45.722
46.979
α =.01
6.635
9.210
11.345
13.277
15.086
16.812
18.475
20.090
21.666
23.209
24.725
26.217
27.688
29.141
30.578
32.000
33.409
34.805
36.191
37.566
38.932
40.289
41.638
42.980
44.314
45.642
46.963
48.278
49.588
50.892
α =.005
7.879
10.597
12838
14.860
16.750
18.542
20.278
21.955
23.589
25.188
26.757
28.300
29.819
31.319
32.801
34.267
35.718
37.156
38.582
39.997
41.401
42.796
44.181
45.558
46.928
48.290
49.645
50.993
52.336
53.672
Basada en la tabla 8 de Biometrika Tables for Statisticians, Vol. 1, Cambridge
University Press, 1954.
108
TABLA # 6
Rachas o corridas
Valores críticos de R
n2 2
n1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
3
2
2
2
2
2
2
2
2
2
3
2
2
2
2
4
5
6
2
2
2
3
3
3
3
3
3
3
3
2
2
3
3
3
3
3
4
4
4
4
4
2
2
3
3
3
3
4
4
4
4
5
5
5
Valores de r’ .025
7 8 9 10 11 12 13 14 15
2 2 2 2
2 2 2
2 2 2 2 2 3
2 3 3
3 3 3 3 3 3
3 3 3
3 4 4 4 4 4
3 3 4
4 4 4 5 5 5
3 4 4
5 5 5 5 5 6
4 4 5
5 5 6 6 6 6
4 5 5
5 6 6 6 7 7
5 5 5
6 6 7 7 7 7
5 5 6
6 7 7 7 8 8
5 6 6
7 7 7 8 8 8
5 6 6
7 7 8 8 9 9
5 6 7
7 8 8 9 9 9
6 6 7
7 8 8 9 9 10
Valores de r .025
n1
n2
4
5
6
7
8
9
10
11
12
13
14
15
4
5
6
9
9
9
10
10
11
11
9
10
11
12
12
13
13
13
13
7
8
11
12
13
13
14
14
14
14
15
15
15
11
12
13
14
14
15
15
16
16
16
16
9
10 11 12
13
14
15
13 13 13 13
14 14 14 14
14 15 15 16
15 16 16 16
16 16 17 17
16 17 17 18
16 17 18 19
17 18 19 19
17 18 19 20
18 18 19 20
15
16
17
18
19
19
20
20
21
15
16
17
18
19
20
20
21
22
15
16
18
18
19
20
21
22
22
Tomada de F. S. Swed y C. Eisenhart, “Tables for testing randomness of grouping
in a sequence of alternatives”, Ánnals of Mathematical Statistics, Vol. 14.
109
Continuación
Valores de r' .005
n1 n2
3
4
5
6
7
8
9
10
11
12
13
14
15
3
2
2
2
2
4
2
2
2
2
2
2
2
3
5
6
7
8
9
2
2
2
2
3
3
3
3
3
3
2
2
2
3
3
3
3
3
3
4
4
2
2
3
3
3
3
4
4
4
4
4
2
2
3
3
3
3
4
4
4
5
5
5
2
2
3
3
3
4
4
5
5
5
5
6
10 11
2
3
3
3
4
4
5
5
5
5
6
6
12 13
2
2
2 2
2
3
3
3
3 3
3
4 4
4
4 4 5
5 5
5
5 5
5
5
6
6
6 6 6
6 6 7
6 7
7
7 7 7
14
2
2
3
4
4
5
5
6
6
7
7
7
8
15
2
3
3
4
4
5
6
6
7
7
7
8
8
Valores de r .005
n1 n 2
5
6
7
8
9
10
11
12
13
14
15
5
11
6
11
12
13
13
7
8
13
13
14
15
15
15
13
14
15
15
16
16
17
17
17
9
10
11
12
13
14
15
15
15
16
17
17
18
18
18
19
15
16
17
17
18
19
19
19
20
15
16
17
18
19
19
20
20
21
17
18
19
19
20
21
21
22
17
18
19
20
21
21
22
22
17
18
19
20
21
22
23
23
19
20
21
22
22
23
24
110
TABLA # 7
Valores críticos del coeficiente de correlación de rangos de Spearman
n α =0.05 α = 0.025 α =0.01 α =0.005
5 0.900
__
__
_
6 0.829
0.886
0.943
—
7 0.714
0.786
0.893
—
8 0.643
0.738
0.833
0.881
9 0.600
0.683
0.783
0.833
10 0.564
0.648
0.745
0.794
11 0.523
0.623
0.736
0.818
12 0.497
0.591
0.703
0.780
13 0.475
0.566
0.673
0.745
14 0.457
0.545
0.646
0.716
15 0.441
0.525
0.623
0.689
16 0.425
0.507
0.601
0.666
17 0.412
0.490
0.582
0.645
18 0.399
0.476
0.564
0.625
19 0.388
0.462
0.549
0.608
20 0.377
0.450
0.534
0.591
21 0.368
0.438
0.521
0.576
22 0.359
0.428
0.508
0.562
23 0.351
0.418
0.496
0.549
24 0.343
0.409
0.485
0.537
25 0.336
0.400
0.475
0.526
26 0.329
0.392
0.465
0.515
27 0.323
0.385
0.456
0.505
28 0.317
0.377
0.448
0.496
29 0.311
0.370
0.440
0.487
30 0.305
0.364
0.432
0.478
Tomada de E. G. Olds, "Distribution of Sums of Squares of Rank Differences for Small
Samples", Annals of Mathematical Statistics, vol 9. 1938.
111
TABLA # 8
Valores críticos de D para la prueba de bondad de ajuste de Kolmogorov-Smirnov.
Nivel de significancia para D = máx Fe − Fo
Tamaño de
muestra, n
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
25
30
35
más de 35
0.20
0.15
0.10
0.05
0.01
0.900
0.684
0.565
0.494
.0446
0.410
0.381
0.358
0.339
0.322
0.307
0.295
0.284
0.274
0.266
0.258
0.250
0.244
0.237
0.231
0.21
0.19
0.18
1.07/ n
0.925
0.726
0.597
0.525
0.474
0.436
0.405
0.381
0.360
0.342
0.326
0.313
0.302
0.292
0.283
0.274
0.266
0.259
0.252
0.246
0.22
0.20
0.19
1.14/ n
0.950
0.776
0.642
0.564
0.510
0.470
0.438
0.411
0.388
0.368
0.352
0.338
0.325
0.314
0.304
0.295
0.286
0.278
0.272
0.264
0.24
0.22
0.21
1.22/ n
0.975
0.842
0.708
0.624
0.565
0.521
0.486
0.457
0.432
0.410
0.391
0.375
0.361
0.349
0.338
0.328
0.318
0.309
0.301
0.294
0.27
0.24
0.23
1.36/ n
0.995
0.929
0.828
0.733
0.669
0.618
0.577
0.543
0.514
0.490
0.468
0.450
0.433
0.418
0.404
0.392
0.381
0.371
0.363
0.356
0.32
0.29
0.27
1.63/ n
Nota: Los valores de D dados en la tabla son valores críticos asociados con valores
elegidos de n. Cualquier valor de D mayor o igual al valor de la tabla es significativo en
el nivel de significancia indicado.
Tomada de F. J. Massey, Jr., “The Kolmogorov-Smirnov test for goodness of it”, J. Am.
Stat. Assoc. 46:68-78, 1951.
112
REFERENCIA BIBLIOGRÁFICA.
Conover, W.J.(1999) “Practical Nonparametric Statistic”, 3ra ed, John Wiley, New
York.
Noether, G, E(1976) “Introduction To Statistics: A Nonparametric Approach” 2nd ed.
Boston: Houghton Mifflin Company.
Siegel, S.(1988) “Nonparametric Statistics for the Behavioral Sciences”. New York.
McGraw-Hill.
Gibbons, J. D.(1971) “ Nonparametric Statistical Inference”. New York.McGraw-Hill.
Daniel, W, W.(1990) “ Applied Nonparametric Statistics”, 2da ed. PSW-Kent, Boston, .
Hajek, J, A.(1969) “ A Course in Nonparametric Statistics”, Holdel-Day, San
Francisco, .
Savage, I. R.(1953) “ Bibliography of Nonparametrics Statistics and Related Topics”,
Journal of the American Statistical Association, mem 48, pp. 844-906
Kruskal, W. H. and W. A Wallis (1952) “Use of Ranks in One-Criterion Variance
Analysis”, Journal of the American Statistical Association, mem. 47, pp. 583-621.
Kendall, M. G. and A. Stuart,(1979) “ The Advanced Theory of Statistics”. 4a ed. Vol.
2.Hafner Press, New York.
Friedman, M.(1937). “The use of ranks to avoid the assumption of normality implicit in
the analysis of variance”, Journal of the American Statistical Association, num.32,
pp.675-05.
Lehmann, E. L(1975). “Nonparametrics: statistical methods based on ranks”, San
Francisco, Holden_Day.
Pratt, J.W(1981) “ Concepts of nonparametric theory”. New York, Springer_Verlag.
Wald, A. y J. Wolfowitz, “On a Test Whether Two Samples Are from the Same
Population”, Annals of Mathematical Statistics, núm.2, 1940, pp. 147-62.
Descargar