universidad nacional abierta ya distancia escuela de

Anuncio
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERÍA
UNIDAD DE CIENCIAS BÁSICAS
JEAMMY JULIETH SIERRA HERNÁNDEZ
(Director Nacional de Curso)
100403 – INFERENCIA ESTADÍSTICA
Vol. 2
IBAGUÉ
FEBRERO 2014
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
COMITE DIRECTIVO
Jaime Alberto Leal Afanador
Rector
Constanza Abadía García
Vicerrectora Académica y de Investigación
Gloria Herrera
Vicerrector de Medios y mediaciones Pedagógicos
Maribel Córdoba Guerrero
Secretaria General
Inferencia Estadística
Tercera Versión
Actualización por Jeammy Julieth Sierra Hernández
Autores Primera Edición:
Jorge Rondon
Danis Brito
Copyright
Universidad Nacional Abierta y a Distancia
ISBN
2012
Unidad de Ciencias Básicas UNAD
2
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
3
CAMPOS DE
Básica CRÉDITOS: 2 TRABAJO INDEPENDIENTE: 72
TIPO
DE
CURSO
Teórico CÓDIGO:100403 ACOMPAÑAMIENTO
TUTORIAL: 24
FORMACIÓN
Horas
Horas
OBJETIVO GENERAL:
Que el estudiante comprenda, aplique y desarrolle la teoría y las técnicas de la
inferencia estadística en diversos campos de su saber formativo, y que dicha
aplicación se convierta en una herramienta de uso matemático para la toma de
decisiones sobre hipótesis cuantitativas de datos, basado en la información
extraída de una muestra.
OBJETIVOS ESPECÍFICOS:
 Que el estudiante identifique las técnicas y procedimientos que se
deben emplear para que las muestras sean representativas de la población
que se pretende estudiar, de forma que los errores en la determinación de
los parámetros de la población objeto de estudio sean mínimos.
 Que el estudiante comprenda el comportamiento de una población a
partir del análisis metódico de una muestra aleatoria de la misma, y que
entienda que la inferencia inductiva de los parámetros estadísticos que
estime sobre dicha muestra, conlleva un error, el cual es posible de ser
cuantificado.
 Conocer los criterios técnicos que hay que tener en cuenta antes
de seleccionar un tamaño de muestra.
 Identificar el tipo de muestreo de acuerdo a los objetivos del estudio.
 Diferenciar y analizar las ventajas y desventajas de la estimación
por intervalos de confianza y las pruebas de hipótesis.
 Determinar la prueba o técnica apropiada a aplicar en las diferentes
pruebas de hipótesis paramétricas y No paramétricas.
COMPETENCIA GENERAL DE APRENDIZAJE:
Identificar un procedimiento adecuado para seleccionar de una población una
parte de ella, con el fin de obtener resultados confiables y poder generalizar los
resultados obtenidos a toda la población.
Determinar los estadísticos necesarios para el análisis y solución de situaciones
que implican conjuntos de datos de su disciplina de formación, por medio del
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
4
conocimiento de la teoría elemental del muestreo y de las distribuciones
muestrales.
Plantear y desarrollar el proceso de la inferencia estadística para resolver
problemas concretos de investigación en el ámbito de otras disciplinas.
Aplicar apropiadamente los resultados teóricos y metodológicos de la inferencia
estadística de estimación y prueba de hipótesis en el marco de la modelación.
Habilidad para planear una investigación, diseño de instrumentos, definición de
variables, recolección de la información, resumen y presentación de los datos.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
5
UNIDADES DIDÁCTICAS
UNIDAD DOS: ......................................................................................................................................6
PRUEBA DE HIPÓTESIS, ANÁLISIS DE VARIANZAS Y ESTADÍSTICAS NO PARAMÉTRICAS ....................6
CAPITULO CUATRO: PRUEBAS DE HIPÓTESIS .................................................................................. 7
Conceptos Básicos ....................................................................................................................... 8
Pruebas para la Media y la Diferencia de medias con grandes muestras................................. 14
Pruebas para la proporción y la Diferencia de proporciones (siempre con grandes muestras).
................................................................................................................................................... 26
Pruebas para la media y la diferencia de medias (muestras pequeñas)................................... 34
Pruebas para la varianza ........................................................................................................... 44
CAPITULO CINCO: ANÁLISIS DE VARIANZA................................................................................... 47
Generalidades ........................................................................................................................... 49
Análisis de Varianza de un Factor ............................................................................................. 50
Comparación Múltiple de Medias (Pruebas “a Posteriori”) ...................................................... 60
Análisis de varianza con dos factores (diseño de bloques aleatorizados). ............................... 61
Análisis de varianza de dos factores con interacción. (Diseño factorial). ................................. 66
CAPITULO SEIS: PRUEBAS NO PARAMETRICAS ............................................................................. 80
Generalidades ........................................................................................................................... 82
Prueba de Bondad de Ajuste de Ji-cuadrado
..................................................................... 83
Prueba de Kolmogorov-Smirnov ............................................................................................... 87
Prueba de Wilcoxon .................................................................................................................. 89
Prueba de Mann-Whitney para muestras independiente y prueba de Kruskal-Wallis para
comparar k muestras independientes ...................................................................................... 90
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
UNIDAD DOS:
PRUEBA DE HIPÓTESIS, ANÁLISIS DE VARIANZAS Y
ESTADÍSTICAS NO PARAMÉTRICAS
6
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
7
CAPITULO CUATRO: PRUEBAS DE HIPÓTESIS
Introducción
En casos relacionados con situaciones especiales en las cuales se desea
comprobar la efectividad de estándares preestablecidos, la técnica de prueba de
hipótesis resultaba bastante apropiada, por cuanto permite comprobar con
bastante certeza el grado de acierto en la fijación de éstos.
Una hipótesis estadística se define como un supuesto hecho sobre algún
parámetro de la población. Por ejemplo, los siguientes enunciados podrían ser
tomados como hipótesis:
-
El ingreso promedio de los trabajadores de la fábrica es de $X.
El rendimiento promedio de los empleados de dos fábricas es
diferente.
El promedio de duración de las bombillas es de 1.000 horas.
El promedio de duración de las llantas es de 100.000 kilómetros.
-
Ya se ha recabado en muchas ocasiones, que el objetivo es tomar muestras
para extraer alguna conclusión o inferencia sobre la población y que el único
objetivo de examinar muestras, es que las poblaciones suelen ser demasiado
grandes y costosas de estudiar.
Objetivo general.
Contrastar la validez de una hipótesis o conjetura que se haya planteado en
relación con una situación determinada de la empresa, analizando errores
estadísticos posibles en las pruebas de hipótesis
Objetivos específicos.






Examinar que se entiende por hipótesis y qué por prueba de hipótesis.
Describir los pasos que se siguen para demostrar una hipótesis.
Describir los errores estadísticos que se pueden presentar.
Realizar pruebas en relación con una y dos medias poblacionales, con una
y dos colas.
Realizar pruebas con una y dos proporciones poblacionales.
Realizar pruebas de hipótesis para datos que se encuentran en una escala
nominal u ordinal con aplicación de la distribución chi cuadrado.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
8
Conceptos Básicos
16. DECISIONES ESTADÍSTICAS
En la práctica, con frecuencia se tienen que tomar decisiones acerca de una
población con base en información muestral.
A tales decisiones se les llama decisiones estadísticas. Por ejemplo, tal vez se
tenga que decidir, con base en datos muestrales, si determinado suero es
realmente eficaz en la curación de una enfermedad, si un método educativo es
mejor que otro, o bien si una moneda está alterada o no.
16.1. Hipótesis
Hipótesis estadísticas: Cuando se trata de tomar una decisión es útil hacer
suposiciones o proposiciones (o conjeturas) acerca de la población de que se
trata. Muchos problemas de ingeniería, ciencia, y administración, requieren que se
tome una decisión entre aceptar o rechazar una proposición sobre algún
parámetro. A estas suposiciones, que pueden ser o no ciertas, se les llama
hipótesis estadísticas. Estas hipótesis estadísticas son por lo general afirmaciones
acerca de las distribuciones de probabilidad de las poblaciones.
Este es uno de los aspectos más útiles de la inferencia estadística, puesto que
muchos tipos de problemas de toma de decisiones, pruebas o experimentos en el
mundo de la ingeniería, pueden formularse como problemas de prueba de
hipótesis. Consultado en la Web de ITC (s.f).
Otras definiciones
“Una hipótesis estadística es una afirmación para verificar acerca de las
características de una o más poblaciones”. Alvarado, J. & Obagi, J. (2008)
“Una hipótesis estadística es una aseveración o conjetura acerca de la distribución
de la población, afirmación que generalmente está asociada a un subconjunto del
espacio del parámetro correspondiente al modelo probabilístico que representa
la citada población”. Mayorga, J. (2004, p. 189)
Una hipótesis estadística es un enunciado provisional referente a uno o más
parámetros de una población o grupo de poblaciones. En el proceso de
estadística inferencial hay dos tipos de hipótesis:
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
9
1. Hipótesis nula, designada mediante Ho y se lee “H subcero”. La letra H
significa hipótesis y el subíndice cero indica “no hay diferencia”. Por lo
general en la hipótesis nula se plantea en términos de “no hay cambio”, “no
hay diferencia”, se plantea con el objetivo de aceptarla o rechazarla.
2. Hipótesis alternativa, describe lo que se considerará si se rechaza la
hipótesis nula. A menudo también se le denomina hipótesis de investigación,
y se designa por H1, que se lee “h subuno”
Otras definiciones
Hipótesis Nula: Es la conjetura inicial, es la suposición que se hace sobre la
base de la experiencia del pasado, el conocimiento a priori y las necesidades
empresariales, es, en un comienzo la respuesta más lógica al problema que
se ha planteado; es el valor que se asumiría como cierto de no poderse hacer
la investigación. La aseveración se enuncia después de la abreviatura
y
Mayorga, J. (2004, p. 189).
Hipótesis Alternativa: A toda hipótesis que difiera de la hipótesis dada se le
llama hipótesis alternativa. Por ejemplo, si una hipótesis es p = 0.5, la
hipótesis alternativa puede ser
. La hipótesis
alternativa a la hipótesis nula se denota H1. Murray, R. ()
16.2. Prueba de hipótesis
Prueba de hipótesis: Según Mayorga, prueba de hipótesis es una de las
acepciones más comunes, al igual que Contraste de hipótesis o Docimacia, para
lo que él prefiere llamar, como justifica en su libro, “juzgamiento de hipótesis”, que
define como, “el proceso que culmina con una decisión de rechazar o de no
rechazar una hipótesis con base en la información de una muestra aleatoria
de una población para la cual se ha asumido un modelo probabilístico
)”.
cuya función de densidad es (
Si se supone que una hipótesis es verdadera, pero se encuentra que los
resultados que se observan en una muestra aleatoria difieren marcadamente de
los resultados esperados de acuerdo con la hipótesis (es decir, esperados con
base sólo en la casualidad, empleando la teoría del muestreo), entonces se dice
que las diferencias observadas son significativas y se estará inclinado a rechazar
la hipótesis (o por lo menos a no aceptarla de acuerdo con la evidencia obtenida).
Murray, R. ()
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
10
Una Prueba de hipótesis es el proceso para determinar si las muestras
observadas difieren significativamente de los resultados esperados, ayudando
así a decidir si se acepta o se rechaza la hipótesis.

Pasos en una prueba de hipótesis
La prueba de hipótesis consiste en aplicar técnicas estadísticas que
permitan aceptar o rechazar una hipótesis. Este procedimiento se conoce como
contraste de hipótesis. Las pruebas de hipótesis utilizan un procedimiento
de cinco pasos, los cuales se mencionan a continuación:
1. Plantear las hipótesis nula y alternativa. Definiendo la lateralidad de la
prueba.
2. Determinar el nivel de significancia. (valores aceptables de error I y II)
3. Estimar el valor estadístico de prueba. (a partir de la muestra)
4. Establecer la regla de decisión. (al comparar el valor crítico o teórico con el
de prueba)
5. Tomar la decisión.
PRUEBAS DE
HIPÓTESIS
Muestras Grandes
(Z-normal)
Muestras pequeñas n<30
(T-student)
*Meias
*Diferencia de Medias
*Medias
*Proporciones
*Diferencia de Proporciones
*Diferencia de Medias
Varianza
Gráfico 1. Pruebas de Hipótesis
16.3. Tipos de error.
La hipótesis nula y alternativa son entonces aseveraciones sobre la población
que compiten entre sí, en el siguiente sentido: ó la hipótesis nula (Ho) es
verdadera, o lo es la hipótesis alternativa (H1), pero no ambas. En el caso ideal,
el procedimiento de prueba de hipótesis debe conducir a la aceptación de Ho
cuando sea verdadera y al rechazo de H1. Desafortunadamente no siempre es
posible puesto que como las pruebas de hipótesis se basan en la información de
la muestra, se debe considerar la posibilidad de cometer errores. La siguiente
tabla muestra los dos tipos de errores que se pueden cometer:
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
11
Tabla No.1 Tipos de errores
DECISIÓN SOBRE Ho
VERDADERA
FALSA
Aceptar H0
Correcta
Rechazar H0
Error tipo I  
Nivel de significancia
1   
Error tipo II
 
Correcta 1   
Potencia de la prueba
Cuando se tiene una hipótesis esta puede ser verdadera o falsa y la decisión que
se toma en la prueba es aceptar o rechazar la hipótesis. Si la decisión que se
toma está de acuerdo con la realidad no se cometen errores, en este caso las
dos buenas decisiones son: aceptar la hipótesis nula cuando es cierta o rechazar
la hipótesis nula cuando es falsa.
Pero cuando la decisión no está de acuerdo con la realidad se pueden comete r
dos tipos de errores vistos anteriormente: rechazar la hipótesis nula cuando en
realidad es cierta, llamado error tipo I representado por alfa (  ); aceptar la
hipótesis nula cuando en realidad es falso, llamado error tipo II representado por
beta (  ), llamados también nivel de significancia. El procedimiento utilizado
consiste en limitarlos a un nivel preestablecido pequeño, generalmente 0.01 ó
0.05. Este planteamiento se le denomina la potencia de la prueba y se
representa así:
Probabilidad de cometer el error tipo I
 Probabilidad de rechazar Ho cuando es verdadera.
Probabilidad de NO cometer el error tipo I
(1 -  ) Probabilidad de acertar la Ho cuando es verdadera.
Probabilidad de cometer el error tipo II
 Probabilidad de aceptar Ho cuando es falsa.
Probabilidad de NO cometer el error tipo II
(1 -  ) Probabilidad de rechazar Ho cuando es falsa.
Toda prueba de hipótesis determina una región de rechazo de la hipótesis
llamada región crítica, la cual depende del tipo de hipótesis que se pruebe y se
determina utilizando un nivel de significancia   .
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
12
16.4. El Nivel mínimo o de rechazo.
Al establecer una prueba de hipótesis una de las formas de llegar a una
conclusión es a través de la comparación del valor crítico (o teórico) con el de
prueba. Otra forma de poder tomar una decisión es, usar
en lugar del valor
crítico, es decir, observar la probabilidad de rechazar Ho cuando es verdadera
(error tipo I), o como afirma Alvarado, J.A y Otros (2008), responder a la pregunta:
¿cuál es el riesgo que debo correr para poder rechazar Ho? Si ese riesgo es
grande, no se puede rechazar Ho; si es pequeño se rechaza Ho.
El p-valor
El mínimo de rechazo recibe también el nombre de “valor p” en el cual Ho sería
rechazado. Si el p-valor es menor que el nivel de significancia, la hipótesis nula se
rechaza. Lo puede encontrar en algunos textos como p-value en inglés. Más
adelante puede verse un ejemplo dónde se utiliza el p-value para rechazar la
hipótesis nula.
En una prueba de hipótesis unilateral derecha, no se puede rechazar la
hipótesis nula Ho, si el estadístico de prueba (o calculado) es menor o igual
que el teórico (tabulado). O lo mismo es, se rechaza la hipótesis nula cuando
el valor calculado es mayor que el tabulado
Una prueba de hipótesis es significativa si el p-value es menor que el nivel de
significación, es decir:
𝑆𝑖 𝑝 − 𝑣𝑎𝑙𝑢𝑒 < 𝛼
𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑙𝑎 𝑃𝑟𝑢𝑒𝑏𝑎 𝑒𝑠 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑎
16.5. Lateralidad de las pruebas
Dependiendo del planteamiento de la hipótesis alternativa (H1) se distingue dos
tipos de pruebas:
 Pruebas bilaterales.
 Pruebas unilaterales
Prueba Bilateral: El investigador desea comprobar la hipótesis de un cambio en
el parámetro. El nivel de significancia se divide en dos y existen dos regiones de
rechazo.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
13
Prueba de hipótesis:
𝐻
𝑃𝑎𝑟á𝑚𝑒𝑡𝑟𝑜
𝑥
𝐻
𝑃𝑎𝑟á𝑚𝑒𝑡𝑟𝑜
𝑥
Prueba Unilateral Derecha: El investigador desea comprobar la hipótesis de un
aumento en el parámetro, en este caso el nivel de significancia se carga todo
hacia el lado derecho, para definir las regiones de aceptación y de rechazo
Prueba de hipótesis:
𝐻
𝑃𝑎𝑟á𝑚𝑒𝑡𝑟𝑜 ≤ 𝑥
𝐻
𝑃𝑎𝑟á𝑚𝑒𝑡𝑟𝑜
𝑥
Prueba Unilateral Izquierda: El investigador desea comprobar la hipótesis de una
disminución en el parámetro, en este caso el nivel de significancia se carga todo
hacia el lado izquierdo, para definir las regiones de aceptación y de rechazo.
Prueba de hipótesis:
𝑃𝑎𝑟á𝑚𝑒𝑡𝑟𝑜 ≥ 𝑥
𝐻
𝑃𝑎𝑟á𝑚𝑒𝑡𝑟𝑜 < 𝑥
Ho
Verdadera)
Probabilidad
𝐻
1
/2 
/2 
valor crítico
Región de rechazo
Valor crítico
Región de aceptación
Gráfico No. 1. Prueba bilateral (o a dos colas)
Región de rechazo
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
14
Probabilidad
Ho
(Verdadera)

1
Valor crítico
Región de rechazo
Región de aceptación
Probabilidad
Gráfico No. 2. Prueba unilateral izquierda (inferior)
Ho
(verdadera)
1

Valor crítico
Región de aceptación
Región de rechazo
Gráfico No. 3. Prueba unilateral derecha (superior)
Pruebas para la Media y la Diferencia de medias con grandes
muestras.
17.
Prueba para la media y diferencia de medias (Muestras grandes
( ≥ )
En las pruebas para la media de población de muestra grande se distingue dos
situaciones:
 Conocida la desviación estándar de la población.
 Desconocida la desviación estándar de la población.
17.1. Prueba para la media (conocida la desviación estándar poblacional).
Cuando se tiene la oportunidad de conocer
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
17.1.1.
15
Prueba bilateral (para la media)
El procedimiento de prueba de hipótesis para pruebas bilaterales a cerca de la
media de una población, cuando se considera el caso de muestra grande ≥
en que el teorema del límite central permite suponer que la media de la
distribución muestral de medias se puede aproximar a una distribución normal de
probabilidad, y la desviación estándar de la población es conocida, sigue la
siguiente forma general:
 Muestra grande ( ≥ )
 Planteamiento de hipótesis:
H 0 :   0
H1 :    0
 Estadístico de prueba para desviación estándar poblacional   conocida:
̅−
√
Ecuación No.1
 Regla de rechazo a un nivel de significancia  :
Rechazar H0 si z  -Z o si Z  Z
2
2
Ejemplo
La empresa coca cola ha establecido como política general para su producción en
pequeña escala, un promedio (  ) de llenado para sus envases de 200
centímetros cúbicos con una desviación estándar (  ) de 16 centímetros cúbicos.
Dado que recientemente se han contratado y diseñado nuevos métodos de
producción, utilizando un nivel de significancia del 0.01, se desea probar la
hipótesis, que el promedio de llenado sigue siendo de 200 centímetros cúbicos.
Para tal efecto se tomó una muestra de 100 envases llenos, los cuales mostraron
una media de llenado de 203.5 centímetros cúbicos.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
16
Paso 1: Planteamiento de hipótesis


Planteamiento de la hipótesis nula: la media poblacional es 200
Planteamiento de la hipótesis alternativa: La media poblacional es
diferente a 200. Estas hipótesis se expresan como sigue:
Esta es una prueba de dos colas, debido a que la hipótesis alternativa (
) es
planteada en palabras de diferencia, es decir, la hipótesis no indica si la media
es mayor o menor que 200.
Paso 2: Nivel de significancia 𝜶
El nivel de significancia es de 0.01 que es el alfa ( ), la probabilidad de
cometer el error de tipo uno, es decir la probabilidad de rechazar la hipótesis
siendo verdadera. Para éste tipo de problema se utiliza la distribución normal
estandarizada en Z.

En los intervalos de confianza el alfa siempre se divide en
dos, para distribuirlo en las dos colas, en las pruebas de
hipótesis el alfa sólo se divide, si la prueba es a dos colas
Paso 3: Estadístico de prueba (o calculado)
El valor estadístico de prueba para este tipo de problema es utilizando la
distribución normal estandarizada en Z:
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
17
Paso 4: Estadístico teórico (o tabulado) y regla de decisión
La formulación de la regla de decisión consiste en hallar el valor crítico de Z
con una prueba de dos colas. En la tabla de la normal estándar (descargar
tabla) se identifica el valor de Z correspondiente a una probabilidad igual
1−𝛼 2 1−
99 . El valor más cercano a 0,995 es 0.995059 que
corresponde a un valor de Z igual a 2.58, que es el valor crítico para la prueba
de hipótesis. Dado que es una prueba de dos colas, se tendrán dos valores
críticos, tal como se indica en el siguiente gráfico:
Gráfico No. 4. Prueba bilateral (a dos colas)
La regla de decisión es aceptar la hipótesis nula (Ho), puesto que el valor
estadístico de prueba (2.19) ha caído en la zona de aceptación de dicha
hipótesis
Prueba de
hipótesis para la
media (Bilateral)
Paso 5: Tomar la Decisión
Se concluye que el llenado de los envases cumple con las políticas generales de
la empresa, y la diferencia de promedios se atribuye a variaciones aleatorias.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
17.1.2.
18
Prueba unilateral (para la media)
Con anterioridad de dijo que la hipótesis alternativa indica una dirección ya sea
“mayor que” o “menor que”, la prueba es de una cola. El procedimiento para
demostrar la hipótesis es por lo general igual a la prueba de dos colas, excepto
que el valor crítico es diferente. Ahora se modificará la hipótesis alternativa del
problema anterior, sobre el llenado de los envases de una factoría de coca cola,
pues se sospecha que el promedio de llenado está por encima de lo que la
empresa determina (por eso en la hipótesis alterna se plantea una relación mayor
que).
Paso 1: Planteamiento de hipótesis
H 0 :   200
H1 :   200
Paso 2: Nivel de significancia 𝜶
Igual al ejemplo anterior.
Paso 3: Estadístico de prueba (o calculado)
Igual al ejemplo anterior.
Paso 4: Estadístico teórico (o tabulado) y regla de decisión
El valor crítico cambia. En la tabla de la distribución normal se identifica el valor
de Z correspondiente a una probabilidad igual 0,99. El valor más cercano a 0,99
corresponde a un valor de Z igual a 2.33, que es el valor crítico para la prueba de
hipótesis. Dado que es una prueba de una cola, se tendrá el valor crítico, tal como
se indica en la siguiente gráfica:
Prueba de
hipótesis para la
media (unilateral)
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
19
Gráfico No. 5. Prueba unilateral derecha (superior)
Paso 5: Tomar la Decisión
Igual, puesto que el valor estadístico de prueba está ubicado en la zona de
aceptación de la hipótesis nula, es decir, se está diciendo que el promedio de
llenado es de 200, tal como está planteada la hipótesis nula.
17.2. Prueba para
poblacional).
la
media
(desconocida
la
desviación
estándar
En la mayoría de los casos se desconoce la desviación estándar de la población
, la cual debe calcularse en estudios previos o se estima utilizando la desviación
estándar de la muestra (s). En estos casos se utiliza la desviación estándar de la
muestra, quedando la fórmula para el estadístico de prueba así:
̅−
√
Ecuación No.2
Ejemplo
Una cadena grande de almacenes expide su propia tarjeta de crédito y Ud. desea
saber si los saldos promedios por créditos de los clientes son mayores que 400
unidades monetarias. El nivel de significancia se fija en 0.05. Una revisión
aleatoria de 172 clientes, reveló que el promedio por crédito de los clientes es de
407 unidades monetarias y la desviación estándar de la muestra es de 38
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
20
unidades monetarias. ¿Concluye UD. que la media poblacional es mayor que 400
unidades monetarias?
Paso 1: Planteamiento de hipótesis
H 0 :   400
H1 :   400
Dado que la hipótesis alternativa se enuncia “mayor que”, se aplica una cola a la
derecha, y como la muestra es grande (n >= 30), se aplica la distribución normal
estandarizada en Z.
Paso 2: Nivel de significancia 𝜶
El nivel de significancia se fija en 0.05
Paso 3: Estadístico de prueba (o calculado)
Z
X   407  400

 2.42
S
38
n
172
Probabilidad
Paso 4: Estadístico teórico (o tabulado) y regla de decisión
Ho (verdadera)
1-  =0,95
 = 0,05
200
|1,645
Región de aceptación
Unidades
monetarias de
crédito
Escala Z
|2.42
Región de rechazo
Gráfico No. 6. Prueba unilateral derecha (superior)
El valor crítico es 1.645 y la ubicación del estadístico de prueba se encuentra en la
zona de rechazo de la hipótesis nula, por lo tanto se acepta la hipótesis
alternativa.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
21
Paso 5: Tomar la Decisión
La decisión a tomar por Ud. es que el promedio de los créditos es mayor que 400
unidades monetarias con un grado de confianza del 95%.
17.3. Prueba para la diferencia de medias (desconocida la desviación
estándar poblacional).
En la mayor parte de los casos no se conoce la varianza o desviación estándar
real de ninguna población. En general la única información que es posible obtener
se relaciona con las medias muestrales ̅̅̅ y ̅̅̅, las varianzas muestrales
y
y las desviaciones estándar de las muestras
y . Si se hacen las suposiciones
que las muestras se obtienen de manera aleatoria e independiente a partir de las
poblaciones respectivas que tiene una distribución normal y que las varianzas
poblacionales son iguales, es decir,
, se puede utilizar una prueba de
distribución normal de varianzas combinadas para determinar si existe una
diferencia significativa entre las dos poblaciones.
Recordemos que para diferencias de medias se utiliza el siguiente estadístico de
prueba:
̅̅̅̅ ̅̅̅̅
( ̅
̅ ) (
2
√ 1
1
)
2
2
2
Ecuación No.3
Ejemplo
Una obra de construcción requiere un gran número de bloques de concreto. Dos
empresas abastecedoras A y B licitan para su adjudicación, y dentro del pliego de
condiciones se estipula que la resistencia mínima es de 1.000 unidades métricas a
la resistencia, y el contrato se adjudicará a la empresa que mayor resistencia
presente su producto.
Paso 1: Planteamiento de hipótesis
Se plantea la hipótesis nula (Ho) que no existe diferencia entre las resistencias
medias a la compresión de los bloques de concreto. La hipótesis alternativa se
plantea en términos que hay alguna diferencia significativa entre las dos
resistencias medias a la compresión. Simbólicamente se expresa así:
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
22
H0 :  A  B
H1 :  A   B
Dado que la hipótesis alternativa no indica una dirección específica, la prueba es
de dos colas
Paso 2: Nivel de significancia 𝜶
Se elige un nivel de significancia de 0.01. Esto equivale a cometer un error de tipo
I. Se usará una distribución normal estandarizada en Z, razón por la cual se debe
seleccionar una muestra que al menos contenga como mínimo 30 unidades de
bloque, cada una de las empresas licitantes.
Paso 3: Estadístico de prueba (o calculado)
El estadístico de prueba a aplicar está dado por la siguiente fórmula:
̅ − ̅
2
2
2
2
√ 1
1
Ecuación No.4
Suponga que Ud. Seleccionó una muestra de cada una de las empresas licitantes
y determinó la resistencia a la compresión, con los siguientes resultados:
Tabla No.2 Resultados de muestra
Licitante A
Licitante B
= 1.070
X = 1.020
X
n = 81
n = 64
S = 63
S = 57
El valor del estadístico de prueba es:
Z
X1  X 2
2
1
2
2
S
S

n1 n2

1.070  1.020
63
2
81
57
2

64

50
 5.01
9.98827
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
23
Paso 4: Estadístico teórico (o tabulado) y regla de decisión
Recuérdese que se seleccionó un nivel de significancia del 0.01 y se utilizará una
prueba de dos colas. Los valores críticos y zonas de aceptación para las hipótesis
se presentan en la siguiente figura:
Probabilidad
Ho (Verdadera)
0.01/2= 0.005
0.01/2=0.005
Resistencia ladrillos
valor crítico -2.58|
Región de rechazo
|2.58
Región de aceptación
|5.01
Región de rechazo
Gráfico No. 7. Prueba bilateral (o a dos colas)
Paso 5: Tomar la Decisión
El valor Z calculado queda en el área de rechazo de la hipótesis nula, por lo tanto se
concluye que la media poblacional de la resistencia a la compresión es diferente en las
dos empresas y la diferencia no se debe al azar del muestreo, con un grado de confianza
del 99%.
17.4. Prueba para la diferencia de medias (Muestras independientes
desviación estándar poblacional conocida).
̅̅̅̅ ̅̅̅̅
( ̅1 −̅2 )−( 1 − 2 )
2
2
√ 1 2
1
2
Ecuación No.5
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA

Si −
<
Recuerde que
<
24
entonces No se rechaza
es el estadístico de prueba (o calculado)
Ejemplo
Un constructor está considerando dos lugares alternativos (dos comunidades)
para construir un centro comercial. Como los ingresos de los hogares de la
comunidad son una consideración importante en ésta selección, desea probar que
el ingreso promedio de la primera comunidad excede al promedio de la segunda
comunidad en cuando menos $1.500 diarios. Con la información de un censo
realizado el año anterior sabe que la desviación estándar del ingreso diario de la
primera comunidad es de $1.800 y la de la segunda es de $2.400
Para una muestra aleatoria de 30 hogares de la primera comunidad, encuentra
que el ingreso diario promedio es de $35.500 y con una muestra de 40 hogares de
la segunda comunidad el ingreso promedio diario es de $34.600. Pruebe la
hipótesis con un nivel de confianza del 95 por ciento.
Paso 1: Planteamiento de hipótesis
−
−
≥1
<1
Paso 2: Nivel de significancia 𝜶
Recordemos que el nivel de confianza es 95%
Es decir 1 −
9 eso indica que:
Paso 3: Estadístico de prueba (o calculado)
El tamaño de las muestras es grande y las varianzas poblacionales son conocidas,
por consiguiente la estadística de trabajo a utilizar la ecuación 5.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
25
Tabla No.3 Resultados de las comunidades
Comunidad 1
Comunidad 2
̅̅̅̅
̅̅̅
2
(
̅ − ̅
2
√ 1
1
2
2
2
)−1
−
√1
2
2
−1 19
2
Paso 4: Estadístico teórico (o tabulado) y regla de decisión
Para un nivel de confianza del 95 %, ya que es una prueba de unilateral izquierda,
lo que se busca es el valor crítico que deja por encima un 95% de área, por tanto
es lógico pensar que el valor será un Z negativo, en la tabla de la distribución
normal se tiene un valor de Z de -1,64 (estadístico teórico o tabulado). Como
puede observarse en el gráfico No.8, el estadístico de prueba se ubica en la zona
de aceptación de la hipótesis nula.
Probabilidad
Ho
(Verdadera)
= 0.05
Valor crítico -1.64|
Región de rechazo
-1.195|
Región de aceptación
Gráfico No. 8. Prueba unilateral izquierda (cola inferior)
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
26
Paso 5: Tomar la Decisión
Por lo tanto, con una confiabilidad del 95 por ciento, la diferencia entre el ingreso
promedio por hogar en las dos comunidades es mayor a $1.500 diarios.

En una prueba de hipótesis la confiabilidad significa la probabilidad
de no rechazar la hipótesis nula que es cierta, porque el nivel de
confianza es la probabilidad que el estadístico de prueba se
encuentre en la zona de aceptación.
Pruebas para la proporción y la Diferencia de proporciones
(siempre con grandes muestras).
18.
Prueba de hipótesis para proporciones.
Se entiende por proporción, la porción relativa o porcentaje que expresa la parte
de la población o muestra que tiene un atributo particular de interés como el
resultado comparativo de contar algo, Se cuenta el número de partes defectuosas;
se cuenta el número de votantes por la preferencia de un candidato. Así la prueba
de proporción implica niveles nominales de medida.
18.1. Prueba para una proporción
Para demostrar una proporción muestral se requiere cumplir con ciertos principios
binomiales, tales como:
1.
2.
Los datos recolectados son el resultado de un conteo.
El resultado de un experimento se clasifica en una de las dos
categorías mutuamente excluyentes: un éxito o un fracaso.
3.
La probabilidad de éxito se mantiene constante.
4.
Los intentos para realizar cada experimento son independientes.
5.
El tamaño de la muestra debe ser tan grande para que se dé la
siguiente condición: (n)(p)>5 y (n)(1-p)>5
Para realizar una prueba de hipótesis a fin de evaluar la magnitud de la diferencia
entre la proporción muestral
p  y la proporción poblacional (P), se puede usar el
siguiente estadístico de prueba:
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
27
PP
P(1  P)
n
Z
Ecuación No.6
Dónde:
P
es la proporción muestral.
P
es la proporción poblacional.
n
es el tamaño de la muestra.
De otra manera, en lugar de examinar la proporción de éxitos en una muestra
como en el caso anterior, es posible estudiar el número de éxitos en una muestra,
para determinar el número de éxitos esperados o hipotéticos en la población, se
utiliza el siguiente estadístico de prueba:
Z
X  n  p 
n  p q 
Ecuación No.7
Dónde:
X
P
es el número de éxitos en la muestra.
es la proporción hipotética de éxitos.
Ejemplo
Suponga que para que lo elijan a Ud. como alcalde, es necesario que logre al
menos el 80% de los votos del barrio donde vive. Dado su interés decide hacer
una encuesta en el barrio con una muestra de 2.000 personas, para ver la
posibilidad y 1.550 dieron respuesta favorable por sus aspiraciones. Pruebe la
hipótesis de favorabilidad, con un nivel de significancia del 0.05.
Antes de realizar el procedimiento de los cinco pasos, veamos si cumple la
condición de:
(n)(p)>5
(2.000)(0.8)>5 1.600>5
Cierto
(n)(1-p)>5
(2.000)(0.2)>5 400>5
Cierto
Paso 1: Planteamiento de hipótesis
La hipótesis nula se plantea diciendo que Ud. sí tiene el 80% de favorabilidad de
voto en su barrio y la hipótesis alternativa en que no alcanza a tener este
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
28
porcentaje de favorabilidad de voto. Simbólicamente se expresa como sigue:
Ho : P  0.80
H1 : P  0.80
Paso 2: Nivel de significancia 𝜶
La distribución de probabilidad a utilizar es la normal estandarizada en Z, con un
nivel de significancia del 5%, con una cola a la izquierda.
Paso 3: Estadístico de prueba (o calculado)
Z
PP
P(1  P)
n
Dónde:
P
es la proporción muestral.
P
es la proporción poblacional.
n
es el tamaño de la muestra.
P(1  P)
 P
n
Es el error estándar de la proporción poblacional.
Reemplazando los diferentes valores en la ecuación se tiene:
Z
PP

P(1  P)
n
1.550
 0.80
0.775  0.80
 0.025
2.000


 2.80
0.0089443
0.80(1  0.80)
0.00008
2.000
Paso 4: Estadístico teórico (o tabulado) y regla de decisión
La regla de decisión se toma sobra la base de un valor critico calculado a partir de
la tabla de distribución Z, con un área de 0.4500 (0.5000-0.0500)
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
29
Gráfico No. 9. Prueba unilateral izquierda (cola inferior)
Paso 5: Tomar la Decisión
Como el valor Z (-2080) está en la región de rechazo de la hipótesis nula,
entonces se acepta la hipótesis alternativa y se concluye la favorabilidad de voto
es menos al 80%.
Ejemplo
Probar al nivel de significancia del 0.01 la aseveración que el 55% de las familias
que planean adquirir una residencia en Melgar desea su ubicación en un
condominio. Para su estudio Ud. toma una muestra aleatoria de 400 familias que
planean comprar una residencia en Melgar, de las cuales 228 familias desean en
un condominio.
Paso 1: Planteamiento de hipótesis
La hipótesis nula se plantea diciendo que el 55% de las familias desean adquirir
residencia en un condominio en Melgar.
Ho : P  0.55
H1 : P  0.55
Paso 2: Nivel de significancia 𝜶
La distribución de probabilidad a utilizar es la normal estandarizada en Z, con un
nivel de significancia del 1%, con dos colas.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
30
Paso 3: Estadístico de prueba (o calculado)
Z
PP

P(1  P)
n
 0.55
0.02
400

 0.80
0.55(1  0.55) 0.0248747
400
280
Paso 4: Estadístico teórico (o tabulado) y regla de decisión
La regla de decisión se toma sobre la base del siguiente gráfico:
Gráfico No. 10. Prueba Bilateral (a dos colas)
Paso 5: Tomar la Decisión
La hipótesis nula que la proporción verdadera es del 55% no es rechazada a un
nivel de significancia del 1%, concluyendo que el 55% de las familias planean
adquirir residencia vacacional en Melgar lo desean en un condominio.
18.2. Prueba para diferencias entre dos proporciones
Se presenta a continuación un ejemplo donde se emplea la prueba de proporción
para dos poblaciones, utilizando el siguiente estadístico de prueba:
Z
( P1  P2 )  P1  P2 
PC (1  PC ) PC (1  PC )

n1
n2
Ecuación No.8
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
31
Dónde:
n1 Es la cantidad seleccionada en una muestra.
n2 Es la cantidad seleccionada en la otra muestra.
PC 
X1  X 2
Es la media ponderada de las proporciones muestrales.
n1  n2
X1
Es la cantidad de éxitos de la primera muestra.
X2
Es la cantidad de éxitos de la segunda muestra.
P1 yP2 Proporción de éxitos de la población uno y dos respectivamente.
Ejemplo
Una fábrica de perfumes ha desarrollado un nuevo producto. Varias pruebas de
comparación indican que el perfume tiene un buen potencial en el mercado. Sin
embargo el departamento de mercadotecnia y publicidad quieren planear una
estrategia de manera que el producto llegue e impresione al sector más grande
posible del público comprador. Una de las preguntas es si prefiera el perfume una
proporción mayor de mujeres jóvenes o una proporción mayor de mujeres
maduras. Por tanto, existen dos poblaciones: una que consta de mujeres jóvenes
y otra de damas maduras. Se usó una prueba estándar de aroma. Se
seleccionaron aleatoriamente damas y se les pidió que olieran varios perfumes,
incluyendo el que suelen usar, y por supuesto el nuevo perfume. La persona que
realiza la prueba es la única que conoce el nombre de los perfumes. Cada mujer
selecciona el perfume que le agrada más.
Paso 1: Planteamiento de hipótesis
La hipótesis nula se plantea diciendo que no hay diferencia entre la proporción de
mujeres jóvenes y maduras que prefieren el nuevo perfume. La hipótesis
alternativa se plantea que las dos proporciones no son iguales.
Ho : P1  P2
H1 : P1  P2
Se designa P subuno como la proporción de mujeres jóvenes y P subdos como la
proporción de mujeres maduras.
Paso 2: Nivel de significancia 𝜶
Se decidió un nivel de significancia del 0.05.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
32
Paso 3: Estadístico de prueba (o calculado)
Los planes son tomar una muestra al azar de 100 mujeres jóvenes designada por
n subuno y una muestra de 200 mujeres mayores designada como n subdos. Los
resultados una vez hecha el experimento dio los siguientes resultados: de las 100
mujeres jóvenes 20 eligieron el nuevo perfume, designando este valor como X
subuno; y de las 200 mujeres maduras 100 prefirieron el nuevo perfume,
designando este valor como X subdos.
La proporción ponderada, da como resultado:
PC 
X1  X 2
20  100 120


 0.40
n1  n2
100  200 300
Z
P1  P2
PC (1  PC ) PC (1  PC )

n1
n2

20
 100
 0.30
100
200

 5.0
0.06
0.40(1  0.40) 0.40(1  0.40)

100
200
Paso 4: Estadístico teórico (o tabulado) y regla de decisión
Los valores críticos para un nivel de significancia del 5% son –1.96 y +1.96. Igual
que en los otros casos, la siguiente grafica establece la regla de decisión:
Gráfico No. 11. Prueba Bilateral (a dos colas)
Paso 5: Tomar la Decisión
El valor de Z calculado de –5.0 se encuentra en el área de rechazo de la hipótesis
nula. Por tanto, la hipótesis que las proporciones son iguales se rechaza a un nivel
del 5% de significancia.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
33
Ejemplo
Dos lotes de frutas conformados cada uno por 250 unidades son tratados y
almacenados en iguales condiciones salvo que el lote No 1 está a temperatura
ligeramente inferior que el lote No 2. Pasado un tiempo se encuentra que el lote
No 1 hay 225 frutas sanas y en el lote No 2 hay 200 sanas. Probar la hipótesis que
la temperatura más baja favorece la conservación de las frutas al nivel de
significación de 0.05.
Paso 1: Planteamiento de hipótesis
Ho : P1  P2
H1 : P1  P2
Paso 2: Nivel de significancia 𝜶
Utilizando la distribución de probabilidad normal con ensayo unilateral a la derecha
con un nivel significativo de 0.05, el valor critico es de 1.645.
Paso 3: Estadístico de prueba (o calculado)
Z 
P1  P2
PC (1  PC ) PC (1  PC )

n1
n2
PC 

0.90  0.80
0.10

 3.13
0.0319
(0.85)(0.15) (0.85)(0.15)

250
250
X 1  X 2 225  200

 0.85
n1  n2
250  250
Paso 4: Estadístico teórico (o tabulado) y regla de decisión
Gráfico No. 12. Prueba unilateral superior (cola derecha)
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
34
Paso 5: Tomar la Decisión
Como 3.12>1.645 se rechaza la hipótesis nula y se acepta la hipótesis alternativa.
La temperatura más baja favorece la conservación de las frutas.
Pruebas para la media y la diferencia de medias (muestras
pequeñas).
19.
Pruebas de hipótesis para pequeñas muestras.
Ahora veamos el caso en que las muestras son pequeñas, n  30 , pero donde la
distribución muestral del estadístico de prueba se puede aproximar a una
distribución t student. Dicha aproximación es posible cuando los valores
subyacentes de la población son casi normalmente distribuidos, y cuando
intervienen poblaciones donde las desviaciones estándar, aunque desconocidas,
se sabe que son iguales. Habiendo estudiado pruebas para muestras grandes con
todo detalle, podemos restringirnos a ejemplos en donde se aplique este tipo de
distribución.
19.1. Prueba para media (pequeña muestra)
Si también es razonable suponer que la población tiene una distribución normal de
probabilidad, con la distribución t se puede hacer inferencia a cerca del valor de la
media de la población.
Ejemplo
Una compañía de seguros revela que en promedio la investigación por demandas
en accidentes y todos los trámites tiene un costo promedio de 60 unidades
monetarias. Este costo se considera exagerado comparado con el de otras
compañías del mismo tipo. A fin de evaluar el costo se seleccionó una muestra
aleatoria de 26 demandas recientes y se realizó el estudio de costos. Se concluyó
que el costo promedio es de 57 unidades monetaria con una desviación estándar
de 10 unidades monetarias. Con un nivel de significancia del 0.01 se puede decir
que ¿el estudio reveló un costo menor al establecido por la empresa?
Paso 1: Planteamiento de hipótesis
La hipótesis nula se plantea en el sentido que el costo promedio es de 60
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
35
unidades monetarias. La hipótesis alternativa que el costo es menor a 60 unidades
monetarias. Esto se expresa en la siguiente forma:
H 0 :   60
H 1 :   60
La prueba es de una cola a la izquierda, según el planteamiento de la hipótesis
alternativa.
Paso 2: Nivel de significancia 𝜶
Se usa un nivel de significancia del 0.01 con una distribución “t”, en consideración
a que la muestra en menor a 30, es decir, es una pequeña muestra.
Paso 3: Estadístico de prueba (o calculado)
Utilizando los datos de la muestra, se utiliza la siguiente fórmula como estadístico
de prueba:
t
X   57  60

 1.530
S
10
n
26
Paso 4: Estadístico teórico (o tabulado) y regla de decisión
Los valores críticos para la distribución “t” se encuentran en la tabla
correspondiente (anexo D), con 25 grados de libertad (26 – 1), prueba de una cola
a un nivel de significancia de 0.01, correspondiendo un valor crítico de 2.485. En el
siguiente figura se indica el presente planteamiento:
Gráfico No. 13. Prueba unilateral superior (cola derecha)
Paso 5: Tomar la Decisión
Puesto que –1.53 se encuentra en la región de aceptación de la hipótesis nula a
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
36
un nivel del 1% de significancia, se concluye que los costos para los tramites de
seguros de accidente no se han disminuido y se mantiene a un nivel promedio de
costo de 60 unidades monetarias.
Ejemplo
Una empresa produce elementos con un promedio de 43 mm de largo. Un ajuste
en las máquinas de producción supone que dicho estándar ha cambiado. Se
quiere probar ésta hipótesis con un nivel de significancia del 0.02.
Para afrontar el problema Ud. selecciona una muestra aleatoria de 12 elementos y
procede a medir su largor con los siguientes resultados:
Tabla No. 4. Selección muestra aleatoria
Elemento 1
2
3
4
5
6
7
8
9
10
11
12
Medida
39
42
45
43
40
39
41
40
42
43
42
42
Plantea sus hipótesis:
H 0 :   43
H1 :   43
Paso 1: Planteamiento de hipótesis
Como hipótesis nula que no se ha producido un cambio en las dimensiones del
producto. Como hipótesis alternativa que se ha producido un cambio en las
características internas del producto debido a los ajustes en las máquinas.
Paso 2: Nivel de significancia 𝜶
Se dispone a probar la hipótesis con un nivel de significancia del 0.02, utilizando la
distribución “t” porque es una pequeña muestra, con 11 grados de libertad
aplicando el principio de (n- 1) y cálculo para dos colas puesto que la hipótesis
alternativa está planteada desde el punto de vista de “diferente”.
Paso 3: Estadístico de prueba (o calculado)
El estadístico de prueba a utilizar es el siguiente:
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
t
37
X 
S
n
Procede al cálculo de la media y la desviación estándar muestral:
X
X 
n
 X  X 
2
498

 41.5
12
S
n 1

35
 1.78
11
Con la información anterior, aplica la fórmula del estadístico de prueba:
t
X   41.5  43.0

 2.92
S
1.78
n
12
Paso 4: Estadístico teórico (o tabulado) y regla de decisión
Para aplicar la regla de decisión, muestra en el siguiente gráfico el planteamiento
anterior:
Gráfico No. 14. Prueba Bilateral (a dos colas)
Paso 5: Tomar la Decisión
La hipótesis nula que la media poblacional es 43 mm se rechaza a un nivel de
significancia del 0.02 y se acepta la hipótesis alternativa, concluyendo que los
ajustes en las máquinas sí causaron un cambió en la calidad de control en el
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
38
largor de los diferentes elementos que se producen.
Anteriormente se analizó ampliamente la prueba de hipótesis para cuando las
muestra son pequeñas, es decir, el tamaño de la muestra es menor a 30. A
continuación se propone un ejercicio de aplicación, para que Ud. los desarrolle
atendiendo las sugerencias dadas.
19.2. Prueba para dos medias muestrales (pequeña muestra)
Una prueba que utiliza la distribución t también puede aplicarse para comparar dos
medias muestrales que tienen las siguientes características:
1.
2.
3.
4.
5.
Las poblaciones deben de distribuirse normalmente.
Las poblaciones deben de ser independientes.
Las varianzas de las poblaciones deben de ser iguales.
Las muestras tienen menos de 30 observaciones.
Las desviaciones estándar de las poblaciones no se conocen .
Cuando se está frente a estas características, el estadístico de prueba a utilizar es
el siguiente:
t
( X 1  X 2 )  1   2 
 S12 n1  1  S 22 n2  1  1 1 

  
n1  n2  2

  n1 n2 
Ecuación No.9
Dónde:
X1 y X 2
Las medias de las muestras
n1 yn2 Los tamaños de las muestras
S12 yS 22 Las varianzas de las muestras
G.L.
Grados de libertas, igual a = n1  n2  2
Ejemplo
Se ha propuesto realizar un examen de estadística a dos grupos de estudiantes,
con el propósito de saber si los grupos tienen similares conocimientos sobre
pruebas de hipótesis. Para ello Ud. seleccionó el grupo A compuesto de 5
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
39
estudiantes de educación a distancia y el grupo B compuesto por 6 estudiantes de
educación presencial, y los sometió a la prueba, dando como resultado los
siguientes tiempos en minutos:
Tabla No. 5. Prueba para dos grupos
Educación a distancia
2
Educación presencial
3
4
7
9
5
3
8
2
4
3
Probar con un nivel de significancia del 0.10 si existe alguna diferencia de
habilidad en los conocimientos de los dos grupos.
Paso 1: Planteamiento de hipótesis
Las hipótesis las plantea en los siguientes términos:
Ho : 1   2
H1 : 1   2
La hipótesis nula consistente en que los dos grupos no tienen alguna diferencia en
la habilidad de conocimiento, y la hipótesis alternativa en que existe diferencia
entre los grupos sobre la habilidad en la aplicación de los conocimientos.
Paso 2: Nivel de significancia 𝜶
Prueba la hipótesis con un nivel de significancia del 10%, utilizando la distribución
t student porque las muestras son menores que 30, con 9 grados de libertad (5+6
– 2) y prueba de dos colas porque la hipótesis alternativa está planteada en
función de “diferente”.
Paso 3: Estadístico de prueba (o calculado)
Para el cálculo del estadístico de prueba se requiere estimar las medias de los
grupos y sus varianzas, los cuales se presentan en el siguiente cuadro:
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
40
Tabla No.6. Resultados para los grupos de estudiantes
t 
Grupo estudiantes a distancia
Grupo presencial
Media = 4
Media = 5
Varianza = 8.5
Varianza = 4.4
Muestra = 5
Muestra = 6
X1  X 2
S


2
1
n1  1  S n2
2
2
n1  n2  2
 1   1
1 



n2 
  n1

45
1
 8.55  1  4.46  1   1

5  6 
562



 0.6620
Paso 4: Estadístico teórico (o tabulado) y regla de decisión
Gráfico No. 15. Prueba Bilateral (a dos colas). Diferencia de dos medias
Paso 5: Tomar la Decisión
La decisión es no rechazar la hipótesis nula debido a que el valor del estadístico
de prueba –06620 ha caído en la zona de aceptación de dicha hipótesis,
concluyendo que no existe diferencia en la habilidad de aplicación de
conocimientos entre los estudiantes a distancia y los estudiantes de presencial,
con un nivel de significancia del 10%.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
41
19.3. Prueba de hipótesis para observaciones pareadas o relacionadas
La característica principal para aplicar este tipo de prueba, es que las muestras
sean dependientes y el tamaño de cada muestra sea inferior a 30 elementos
seleccionados.
Ejemplo
Un grupo de alumnos registra un índice de puntuación en estadística, que se
considera muy bajo para aceptarlos al siguiente nivel. Proceden a tomar un curso
de nivelación, obteniendo los siguientes registros antes y después del curso. Con
un nivel de significancia del 0.05 probar si el curso de nivelación mejoró las
condiciones del grupo.
Antes
128
105
119
140
98
123
127
115
122
145
Después 135
110
131
142
105
130
131
110
125
149
En estas condiciones hay un par de índices de eficiencia para cada miembro del
grupo, antes y después del curso,; éste conjunto de pares es lo que se denomina
muestra por pares. La prueba de hipótesis que se realiza para determinar si hay
diferencia entre los índices antes y después del curso de nivelación, es lo que
denomina prueba de diferencia por pares. Obsérvese que las dos muestras, una
antes y una después, dependen entre sí, debido a que los mismos alumnos están
en ambas pruebas, por tanto son dependientes.
La muestra está constituida por la diferencia entre los registros de puntuación
antes y después del programa. Así, la media de las diferencias entre los registros
de rendimiento, se designa mediante  d . Se presenta a continuación el
procedimiento de la prueba:
Paso 1: Planteamiento de hipótesis
Ho :  d  0
H1 :  d  0
La hipótesis nula plantea que no hay diferencia de eficiencia después del curso. La
hipótesis alternativa plantea que el programa de nivelación mejoró el nivel de los
estudiantes.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
42
Paso 2: Nivel de significancia 𝜶
Se usa un nivel de significancia del 5%, la muestra seleccionada es de 10
estudiantes considerada pequeña muestra, la distribución de probabilidad a utilizar
es la “t” student, con n – 1 grados de libertad.
Paso 3: Estadístico de prueba (o calculado)
El estadístico de prueba a utilizar es:
t
d
Sd
n
Ecuación No.10
Dónde:
d : es la media de la diferencia entre las observaciones por pares.
S d : es la desviación estándar de las diferencias entre las
observaciones por
pares.
n: es el número de observaciones por pares.
G.L: son los grados de libertad (n –1)
Para determinar el cálculo del estadístico de prueba se requiere conocer la media
de las diferencias y su desviación estándar, para lo cual procedemos a su cálculo
utilizando el siguiente cuadro:
Tabla No. 7. Calculo estadístico sobre diferencia de medias
Muestra
1
2
3
4
5
6
7
8
9
10
Sumas
Registro
antes
128
105
119
140
98
123
127
115
122
145
Registro
después
135
110
131
142
105
130
131
110
125
149
Diferencia
d
7
5
12
2
7
7
4
-5
3
4
46
Diferencia al
cuadrado
49
25
144
4
49
49
16
25
9
16
386
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
d
43
 d  46  4.60
n
10
 d
 d  n
2
2
Sd 
n 1

386 
462
10
10  1
 4.40
Aplicando la fórmula, se obtiene:
t
d
4.6

 3.30
Sd
4.4
n
10
Paso 4: Estadístico teórico (o tabulado) y regla de decisión
El valor crítico de t para esta prueba de una cola a la derecha, es 1.833 que se
obtiene en la tabla de la distribución “t” (anexo D), ubicando en la columna de la
izquierda 9 grados de libertad y recorriendo a la derecha hasta la columna de una
cola con 0.05 nivel de significancia. En la siguiente gráfica se indica lo expuesto:
Gráfico No. 16. Prueba unilateral superior (cola derecha). Prueba de hipótesis por pares
Paso 5: Tomar la Decisión
Como el valor t (3.30) está en la región de rechazo de la hipótesis nula, entonces
se acepta la hipótesis alternativa y se concluye que el programa de adiestramiento
para los alumnos fue eficaz para aumenta su eficiencia.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
44
Pruebas para la varianza
20.
Pruebas de hipótesis para la varianza
Como su nombre lo indica, consiste en comparar tres o más medias de una
muestra para identificar su homogeneidad o variabilidad. esta técnica estadística,
normalmente es utilizada para analizar resultados en la investigación con diseños
experimentales y cuasi-experimentales; muchas veces necesitamos comparar dos
o más distribuciones que corresponden a variaciones de una misma variable
dependiente, afectada por una o más variables independientes.
Comparación de dos varianzas poblacionales
Su utilidad radica en determinar si una población normal tiene más variación que
otra población que se considera también normal. Como ejemplo se pueden
mencionar, si dos máquinas dedicadas a producir cierto artículo de precisión
pueden ser confiables en el control de calidad, es decir, el producto tiene el mismo
largor, el mismo diámetro y las variaciones presentadas son similares.
Ejemplo
La tasa media de rendimiento de dos tipos de acciones se puede apreciar en el
siguiente cuadro, se desea saber si el rendimiento promedio es diferente a un nivel
de significancia del 0.10.
Tabla No. 8. Tasa de rendimiento de las acciones
Acciones
Rendimiento
promedio
Desviación
estándar
Tamaño de la
muestra
Tipo A
56
12
7
Tipo B
58
5
8
Paso 1: Planteamiento de hipótesis
Ho :  12   22
H1 :  12   22
La variación de los rendimientos promedios de las acciones es igual como la
hipótesis nula. La variación de los rendimientos de las acciones es diferente como
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
45
hipótesis alternativa.
Paso 2: Nivel de significancia 𝜶
Se selecciona un nivel de significancia de 0.01 utilizando la distribución F.
Paso 3: Estadístico de prueba (o calculado)
El valor del estadístico de prueba sigue una distribución F, con la siguiente
relación:
S12 122
F  2  2  5.76
S2
5
Se acostumbra a colocar el mayor valor en el numerador, de tal forma que la
relación siempre será por lo menos igual a uno.
Paso 4: Estadístico teórico (o tabulado) y regla de decisión
El valor crítico se obtiene del Anexo F, para lo cual se reproduce una parte de la
tabla. Debido a que utiliza una prueba de dos colas, el nivel de significancia para
cada cola será de:
  0.10  0.05
.
2
2
Grados de libertad para el numerador: n – 1 = 7-1 = 6
Grados de libertad para el denominador: n – 1 = 8 – 1 = 7
Para encontrar el valor crítico, se incorpora parte de la tabla F:
Tabla No. 9. Grados libertad numerador denominador
GRADOS LIBERTAD NUMERADOR
G.L
5
6
7
8
Denominador
1
2
3
4
5
6
7
8
9
10
230
19.3
9.01
6.26
5.05
4.39
3.97
3.69
3.48
3.33
234
19.3
8.94
6.16
4.95
4.28
3.87
3.58
3.37
3.22
2.7
19.4
8.89
6.09
4.88
4.21
3.79
3.50
3.29
3.14
239
19.4
8.85
6.04
4.82
4.15
3.73
3.44
3.23
3.07
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
46
Paso 5: Tomar la Decisión
Dado que el valor de la distribución F (5.76) se encuentra a la derecha del valor
crítico (3.87), se acepta la hipótesis alternativa y se concluye que los rendimientos
promedios de las acciones son diferentes.
Ejercicios propuestos
A continuación se proponen dos ejercicios para que los desarrolle aplicando las
sugerencias propuestas:
1. Se lanza una moneda 200 veces y se obtienen 105 caras. Si el nivel de
significancia es de 1% probar la hipótesis que la probabilidad de caras es de ½
contra la hipótesis:
a.
b.
c.
Que es mayor de ½.
Que es menor de ½.
Que es diferente de ½.
Sugerencia: En este caso utilice las propiedades de la distribución binomial donde:
 
  np  200 1 2  100

n p q   2001 2 1 2   7.07
Z
X  n  p 
n  p q 
2. Un fabricante de un empaque para harinas garantiza que tiene una efectividad
de 95% en la protección contra la humedad durante un período de 6 meses. Se
observó una muestra de 100 paquetes encontrándose resultados positivos en
85 paquetes. Comprobar si la afirmación del fabricante es verdadera con un
nivel de significancia de 0.05.
Sugerencia: Utilizar prueba de una proporción.
3. Un fabricante de pastas alimenticias sostiene que el contenido medio de
proteínas del producto es de 10.7. Un análisis de una muestra de 8 paquetes
dio como resultado un contenido medio de 10% con una desviación de 1. ¿Se
puede aceptar como verdadera la afirmación del fabricante a un nivel de 0.01?
Sugerencia:
Utilizar el siguiente estadístico de prueba: t 
X 
S
n
Un ensayo unilateral con cola a la izquierda con un nivel significativo de 0.01 el
valor crítico con 7 grados de libertad es igual a –3.0
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
47
CAPITULO CINCO: ANÁLISIS DE VARIANZA
Introducción.
En esta unidad se prosigue con el análisis de pruebas de hipótesis. Recuerde que
en capítulo anterior se examinó la teoría general de la prueba de hipótesis y se
describió el caso en el que fue seleccionada una muestra grande a partir de la
población. Se empleó la distribución Z como base para determinar si es razonable
concluir que una media calculada a partir de una muestra, proviene de una
población hipotética. Además se probó si dos medias muestrales provienen de
poblaciones iguales. También se efectuaron pruebas de una y dos muestras para
relaciones proporcionales utilizando la distribución normal como entidad
estadística de prueba. Se utilizó la distribución t como entidad estadística de
prueba para muestras pequeñas (con menos de 30 observaciones)
Cuando se desea conocer la homogeneidad que existe entre tres o más medias
muestrales, se procede a determinar la variabilidad entre esas medias, técnica que
se conoce como “análisis de varianza”. Es decir, cuando productos o individuos
son sometidos a tratamientos determinados para ver cómo éstos influyen en
resultados o comportamientos, lo más aconsejable es utilizar la técnica de análisis
de varianza.
El objetivo del análisis de varianza es determinar cuáles son las variables
independientes de importancia en un estudio, y en qué forma interactúan y afectan
la respuesta.
El Análisis de varianza en el
siguiente forma.
presente capitulo se encuentra dividido de la
ANALISIS DE
VARANIZA
De un Factor
De dos Factores
Con interacción
Gráfico No. 17. ANOVA
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
48
Objetivo general.
Reconocer la importancia principios en que se basa y campos de aplicación de la
técnica de Análisis de Varianza.
Objetivos específicos.
 Comprender la noción general del análisis de varianza.
 Realizar una prueba de hipótesis para determinar si dos varianzas
muestrales provienen de poblaciones iguales.
 Probar e interpretar hipótesis aplicando el análisis simple de varianza.
 Establecer y organizar datos en una tabla de ANOVA de una y de dos
direcciones.
 Plantear, probar e interpretar hipótesis de análisis de varianza de dos
factores de diseño de bloque aleatorizado.
 Plantear, probar e interpretar hipótesis de análisis de varianza de dos
factores con interacción o diseño de factorial.
 Definir los términos tratamientos y bloques.
 Dar a conocer el manejo de la herramienta de Análisis de varianza en
Excel.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
49
Generalidades
Como su nombre lo indica, el ANALISIS DE VARIANZA, se utiliza para probar
hipótesis sobre la igualdad de tres o más medias poblacionales. Al comparar las
varianzas muestrales, es posible sacar una conclusión o inferencia sobre los
valores relativos de las medias poblacionales.
21.
Comparación de más de dos poblaciones
Del análisis de varianza, podemos decir que esta técnica estadística normalmente
es utilizada para analizar resultados en la investigación con diseños
experimentales y cuasi-experimentales; muchas veces necesitamos comparar dos
o más distribuciones que corresponden a variaciones de una misma variable
dependiente, afectada por una o más variables independientes.
El análisis de varianza estudia la relación entre una variable cualitativa (o variable
independiente) con más de dos categorías y una variable cuantitativa (o variable
dependiente).
Ejemplo
Un agrónomo desea estudiar el rendimiento (en libras) de cuatro variedades
diferentes de calabacitas.
La variable cualitativa es el factor de este experimento, que en este caso es la
variedad de calabacita, los niveles son cada una de las cuatro variedades. Y la
variable cuantitativa es el rendimiento (en libras).

El factor corresponde a la variable cualitativa y los niveles a las
categorías de esa variable
El análisis de varianza tiene como objetivo identificar, si hay evidencia de una
diferencia significativa entre los niveles, basados en las medias muestrales.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
50
21.1. Variabilidad producto de factores controlables e incontrolables
Teóricamente es posible dividir la variabilidad del resultado de un experimento en
dos partes: la originada por factores o tratamientos que influyen directamente en el
resultado del experimento, y la producida por el resto de factores desconocidos o
no controlables, que se conoce con el nombre de error experimental. En el
ejemplo anterior los factores desconocidos pueden ser: la humedad, la
temperatura y plagas entre otros.
21.2. Tipos de modelos
 Modelo de efectos fijos: Un modelo de análisis de varianza es de efectos
fijos cuando los resultados obtenidos sólo son válidos para esos determinados
niveles del factor estudiado y lo que ocurra a otros niveles del factor puede ser
diferente.
 Modelo de efectos aleatorios: Un modelo de análisis de varianza es de
efectos aleatorios cuando los resultados obtenidos son válidos para cualquier
nivel del factor estudiado.
 Modelo replicado: Un modelo es replicado si el experimento se repite varias
veces para cada nivel del factor; en caso contrario se dice que el modelo es
por unidad de casilla.
21.3. Supuestos Del Análisis De Varianza
 Para cada población la variable de respuesta está normalmente distribuida.
 La varianza de la variable respuesta es la misma para todas las
poblaciones.
 Las observaciones deben ser independientes.
Análisis de Varianza de un Factor
El análisis de varianza simple se presenta cuando se tiene un solo factor
estudiado en sus distintos niveles que influyen sobre una variable respuesta que
mide el resultado del experimento, y el resto de los factores conforman el error
experimental influyendo sobre la variable respuesta de manera no controlable. El
factor se presenta con j niveles, y dentro de cada nivel se analiza una serie de
observaciones del experimento en control (unidades experimentales) y su efecto
sobre la variable respuesta, es decir, para cada nivel se repite el experimento
varias veces (replicación).
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
51
El análisis de varianza descompone la variabilidad del resultado de un
experimento en componentes independientes (variación total descompuesta en
variaciones particulares).
Ejemplo
Se puede considerar los rendimientos de un mismo cultivo en parcelas diferentes,
que aunque labradas en las mismas condiciones, producen cosechas que son
distintas. La variabilidad de rendimientos es producida por factores o tratamientos
controlables (abono, riego, etc.), donde cada factor o tratamiento puede presentar
diferentes niveles (diferentes cantidades o calidades de abono, distinta intensidad
de riego); también puede ser producida por otros factores o tratamientos no
controlables (humedad relativa, clima, plagas, etc.).
Tabla No. 10. Observaciones
Nivel1
X11
X21
.
.
.
Xi1
por cada nivel
Nivel 2
X12
X22
.
.
.
Xi2
…
Nivel j
X1j
X2j
.
.
.
Xij
X ij : Observación i-ésima de la variable respuesta relativa al j-ésimo nivel de
factor.
En el ejemplo anterior, X ij es el rendimiento obtenido (variable respuesta) bajo el
nivel j del factor (abono) en la observación i-ésima (Para cada nivel j de factor se
repite el cálculo de rendimiento
veces para recoger el efecto del error
experimental).
: Tamaño de la muestra para cada nivel (categorías de la variable cualitativa)
En esta sección se considera el análisis de varianza de un solo factor, en el cual
solo interviene en el experimento un solo tipo de tratamiento. Cuando se desea
contrastar las hipótesis sobre la diferencia global entre tres o más medias de
población, se aplica la distribución de probabilidad F encontrando en cociente de
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
52
dos varianzas calculadas a partir de los datos experimentales. El modelo lineal en
que se basa el método de análisis de varianza de un solo factor es:
X iJ    i   ij
Ecuación No.11
Dónde:
Es la i-ésima observación del j-ésimo nivel experimental.
La media de todas las observaciones de todas las poblaciones j del tratamiento. Es
una constante.
Efecto del tratamiento en la población j. Son variables aleatorias independientes.
Error aleatorio asociado a la i-ésima observación del factor de la población j
El efecto  i del tratamiento o factor es la diferencia entre la gran media y la media
 J de la población en tratamiento J, esto es:
i   J   .
Ecuación No.12
Por consiguiente, si hay J tratamientos en un experimento, la suma de todos los J
efectos de los tratamientos debe ser igual a cero:
J
J
J
J 1
J 1
J 1
 i    J       J  J  0
Ecuación No.13
El último término  iK refleja la variabilidad dentro de cada una de las poblaciones
en tratamiento, y su presencia se atribuye al proceso aleatorio, y se interpreta
como lo resultante de la diferencia entre el resultado observado y la media de la
población del tratamiento:
 iJ  X ij   j
Ecuación No.14
El valor esperado o la esperanza de  ij es igual a cero.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
53
El modelo se basa en las siguientes suposiciones:
 Admite que los errores aleatorios  ij tienen una distribución normal
para cada población en tratamiento J.
 Admite que los errores  iJ se distribuyen independientemente tanto
entre poblaciones en tratamiento como dentro de ellas.
 Acepta que la varianza  2 del error permanece constante para cada
una de las poblaciones.
Hipótesis del ANOVA de un factor.
El análisis de varianza se usa para probar la igualdad de K medias poblacionales
y la forma general del planteamiento de las hipótesis es:
Dónde:  j = Media de la j-ésima población.
La media general de las muestra, está representada por X , y es la suma de todas
las observaciones divida entre la cantidad total de las mismas, expresada de la
siguiente forma:
Media General:
K
X
nj
 X
j 1 i 1
ij
nt
Ecuación No.15
Dónde: nt  n1  n2  ...  nK
Si el tamaño de cada muestra es n, nT  kn , la ecuación de la media general se
reduce a:
K
X
nj
 X ij
j 1 i 1
nt
K

nj

K
X ij
j 1 i 1
n
K

X
j 1
j
K
Ecuación No.16
En otras palabras, cuando los tamaños de muestra son iguales, la media general
muestral es justamente el promedio de las medias de las K muestras.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
54
Si supone que se ha tomado una muestra aleatoria simple de tamaño n j de cada
una de las K poblaciones, se tiene:
X ij  es la i-ésima observación del grupo, nivel j.
n j  es el número de observaciones del grupo, nivel j.
n
es el total del número de observaciones en todos los grupos combinados.
K  Es el número total de grupos, niveles del factor de interés.
X j  Media de la muestra del j - ésimo tratamiento.
Pasos para la Realizar un análisis de varianza.
1. Establecer la hipótesis nula y alterna.


2. Establecer el nivel de significancia α
3. Realizar el ANOVA
4. Calcular el valor F o el valor crítico correspondiente al nivel de confianza
fijado con los grados de libertad.
5. Hallar el estadístico de prueba
6. Tomar la decisión teniendo en cuenta que:
A
Rechaza H0 si  Valor crítico
B
Gráfico No. 18. Distribución F.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
55
Ejemplo 1
Suponga que una empresa tiene tres dependencias diferentes en donde produce
tubos de iluminación, y desea verificar el control de calidad en cuanto a duración
se refiere de las bombillas, y para ello toma una muestra de 6 unidades de cada
factoría y las somete a desgaste hasta que dejan de iluminar con los siguientes
resultados en horas:
Tabla No. 11. Observaciones
por cada nivel
Observación Planta 1 Planta 2 Planta 3 Total
1
85
71
59
2
75
75
64
3
82
73
62
4
76
74
69
5
71
69
75
6
85
82
67
79
74
66
73
X
J
34
20
32
5.83
4.47
5.66
6
6
6
18
474
444
396
1314
2
J
S
SJ
nJ
n
X
J !
iJ
La media general es igual a:
3
X
X
J 1
nJ
J

79  74  66 219

 73
18
3
Se observa que se obtienen las medias para cada tratamiento (79, 74 y 66) y una
media general (73). Para llevar a cabo la prueba de la igualdad de las medias de
la población, se subdivide la variación total en dos mediciones:
 Diferencia entre los grupos.
 Diferencia dentro de los grupos.
La varianza de la muestra total se particiona en la varianza dentro de las plantas y
la varianza entre las plantas, tal como se indica en el siguiente gráfico:
Variación
Total (VT)
=
Gráfico No. 18. Distribución F.
Variación Dentro
del Grupo (VDG)
+
Variación Entre
Grupo (VEG)
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
 Variación total (VT)
k
n

VT   X ij  X
j 1 i 1
X

3
J 1
i 1

2
Ecuación No.17
6
VT  
56
ij
X
  85  73  75  73  ...  71  73  75  73  ... 
2
2
2
2
2
59  732  64  732  946
 Variación dentro del grupo (VDG)
k

n
VDG   X ij X j

2
j 1 i 1
Ecuación No.18
85  79  75  79  ...  71  742  75  742  ... 
VDG  
2
2
j 1 I 1 59  66   64  66   ....  430
3
2
6
2
 Variación entre grupos (VEG)
K

VEG   n j X j  X
j 1
3

VEG   n6 X  X
J 1

2
Ecuación No.19
  679  73  674  73  666  73  516
2
2
2
2
Se debe comprobar que la variación total sea igual a la sumatoria de la variación
entre y dentro de los grupos.
Puesto que K es el total de niveles comparados, existen (K-1) grados de libertad
asociados con la suma de cuadrados entre los grupos, niveles o tratamientos.
Como cada uno de los K niveles contribuye con ( n j  1 ) grados de libertad, existen
(n–k) grados de libertad asociados con la suma de cuadrados dentro de los
grupos.
Si cada suma de cuadrados se divide entre sus grados de libertad asociados, se
obtienen tras varianzas o términos cuadráticos medios, como se indica en el
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
57
siguiente cuadro:
Tabla No. 12. Componentes del análisis de varianza
Variación
Entre tratamiento
Suma cuadrados
K
n
j 1
Dentro o error
j
k
n
 X
k
X
j
 X
j 1 i 1
Total
X
X j

X

ij
2
2
n
j 1 i 1

2
ij
Grados libertad
(K-1)
Cuadrado medio
(n-K)
VDT
B
n  k 
(n-1)
VT
n  1
Distribución F
VET
A
K 1
A
B
Los resultados para el problema de análisis es el siguiente:
Tabla No. 13. Resultados del análisis de varianza
Variación
Suma cuadrados
Entre
tratamiento
516
Grados
libertad
(K-1)= 2
Dentro o error
430
(n-K)=15
Total
946
(n-1)=17
Cuadrado
medio
Distribución
F
516
 258.00
2
430
 28.67
15
258
 8.99
28.67
En la Tabla de Distribución F se determina el correspondiente valor crítico para el
numerador (k-1= 3-1=2) y el denominador (n-K = 18-3=15), con una probabilidad
de error tipo 1 o un nivel de significancia del 5%, que corresponde a F0.05  3.68 ,
significando que si se tuviera que seleccionar un valor al azar de una distribución F
con 2 grados de libertad en el numerador y 15 en el denominador, sólo el 5% de
las veces se obtendría un valor mayor que 3.68. Además la teoría del análisis del
varianza indica que si es cierta la hipótesis nula, la relación entre los cuadrados
medios entre y dentro de los tratamientos sería un valor dentro de esa distribución,
tal que se rechaza si, el valor de dicha relación es mayor que el valor crítico:
El valor de la relación es superior al valor crítico, por tal razón se rechaza la
hipótesis nula consistente en que las medias poblacionales sean iguales.
Rechaza H0 si
A
 Valor crítico
B
Para el caso la relación es igual a 8.99 mayor que el valor crítico 3.68, entonces se
tienen pruebas suficientes para rechazar la hipótesis nula consistente en que las
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
58
medias de las tres poblaciones son iguales. En otras palabras el análisis de
varianza apoya la conclusión que las medias para la duración de las bombillas es
diferente en las tres plantas.
El gráfico para dicho planteamiento es el siguiente:
Gráfico No. 19. Distribución F.
Ejemplo: Análisis de varianza
Suponga que dispone de un conjunto de árboles clasificados por altura (en
metros) y por especie, según los siguientes datos:
Tabla No. 14. Altura de árboles según especies
Especie
Altura
Especie
Altura
Especie
Altura
A
8.52
B
8.52
A
8.13
B
6.45
A
6.43
E
7.17
C
7.41
A
6.21
A
8.40
A
7.15
E
7.07
C
8.87
B
8.73
B
8.83
A
6.12
D
7.55
B
8.53
B
8.91
E
6.54
D
7.84
C
8.81
D
7.74
C
8.59
D
7.40
C
8.65
C
7.41
B
8.19
C
8.81
B
8.94
B
8.56
Para ajustar la información a un modelo de análisis de varianza, se considera
como variable respuesta la altura de los árboles en metros, y como único factor la
variable cualitativa especie con cinco niveles (A, B, C, D, E). Dado que se tiene un
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
59
modelo de un solo factor, se desea probar si las variadas especies de árboles
tienen igual o diferente promedio de altura con un nivel de significancia del 1%.
Primero se estiman las medias para cada una de las especies y la media total,
conforme al siguiente cuadro:
Tabla No. 15. Registro de estadísticos para diferentes especies
Especie A Especie B Especie C Especie D Especie E Total
8.52
7.15
6.43
6.21
8.13
6.12
Sumas
Promedio
Observaciones
6.45
8.73
8.52
8.83
8.53
8.94
8.40
8.91
8.19
8.56
84.06
8.406
10
42.56
7.093
6
7.41
8.65
8.81
8.59
8.87
8.81
7.55
7.74
7.84
7.41
7.40
6.54
7.07
7.17
51.14
8.523
6
37.94
7.588
5
20.78
6.926
3
236.48
7.707
30
Gran media =
nj
5
X
 X
ij
j 1 i 1

nt
8.52  7.15  ...  6.45  8.76  ...  7.41  8.65  ...  .... 236.48

 7.882666
30
30
Variación total (VT) =
 X
k
j 1 i 1
  8.52  7.88  ...  6.12  7.88  ...  7.07  7.88  7.17  7.88
2
n
X
ij
2
2
2
2
 24.0741867
Variación dentro del grupo (VDG) =
 X
k
n
j 1 i 1
X j
ij

2
 8.52  7.09  ...  6.45  8.406  ...  7.41  8.523  ....  7.17  6.926
 11.9584533
2
2
2
2
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
60
Variación entre grupos (VEG) =
K
n
j 1
j
X
j
X
  7.093  7.88  8.406  7.88  ....  6.926  7.88
2
2
2
2
 12.1157333
Para calcular el estadístico de prueba perteneciente a la distribución F , se resume
en el siguiente cuadro:
Tabla No. 16. Cálculos del cuadro de análisis de varianza
Variación
Entre tratamiento
Dentro o error
Total
Suma cuadrados
12.1157333
11.9584533
24.0741867
Grados libertad
(K-1)= 4
(n-K)=25
(n-1)=29
Cuadrado medio
3.0289
0.4783
Distribución F
6.332
En la tabla “F” determina el correspondiente valor crítico para el numerador (k-1=
5-1=4) y el denominador (n-K = 30-5=25), con una probabilidad de error tipo 1 o un
nivel de significancia del 1%, que corresponde a F0.01  4.18 . Para el caso la
relación es igual a 6.332 mayor que el valor crítico 4.18, entonces se tienen
pruebas suficientes para rechazar la hipótesis nula consistente en que las medias
de las cinco variedades de árboles son iguales. En otras palabras el análisis de
varianza apoya la conclusión que las medias para la altura de las diferentes
especies de árboles es diferente.
Comparación Múltiple de Medias (Pruebas “a Posteriori”)
Las pruebas "a posteriori" son un conjunto de pruebas para probar todas las
posibles medias que podría ser diferente al rechazar la hipótesis.
Existen varias, (Duncan, Newman-Keuls, LSD): todas ellas muy parecidas. Usan el
rango (diferencia entre medias) de todos los pares de muestras como estadístico y
dicho rango debe superar un cierto valor llamado mínimo rango significativo para
considerar la diferencia significativa.
La principal diferencia con respecto a la t-student radica en que usan MSE como
estimador de la varianza, es decir un estimador basado en todas las muestras.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
61
Análisis de varianza con dos factores (diseño de bloques
aleatorizados).
Con frecuencia interesa analizar los efectos de dos tipos de factores o
tratamientos. Suponga que un experimento incluye dos tipos de factores: el uno
llamado C (lo que sugiere columna) consistente en K tratamientos diferentes, y el
otro, denominado F (lo que sugiere fila) consistente en J tratamientos diferentes.
Se admite que respecto al j-ésimo tratamiento de F y el K-ésimo tratamiento de C,
existen cuatro componentes así:
X ijK    i   j   ijk
Ecuación No.20
Dónde:
−
La varianza total de la muestra se particiona en la varianza entre las filas, varianza
entre columnas, varianzas entre la j x k, y las varianzas del error aleatorio. Para
este modelo, los cálculos del análisis de la varianza para las sumas de los
cuadrados son idénticos a los realizados en el modelo de un solo factor, tan solo
que se calculan variaciones para el factor de fila, de columna y para el error
aleatorio. De manera análoga, los grados de libertad y los cuadrados medios son
los mismos. A continuación se indica el cuadro resumen para el análisis de
varianza de dos factores:
Tabla No. 17. Análisis de varianza para dos factores
Fuente de
variación
Entre los grupos
o columnas (j)
Suma de los cuadrados, SC
Entre los bloques
o filas (i)
VEF  c   X i.  X 

i 11
Error de
muestreo, E
VE   X ij  X . j  X i.  X
Total, T
VT    X ij  X 

j 1 i 1 
C
VEC  r   X . j  X 

j 1 
r
c
r
j 1 i 1
2
2

c
r
2

2
Grados
de Media
Libertad, gl
MC
cuadrática, Relación F
c 1
MCA 
VEC
c 1
F
MCA
MCE
r 1
MCB 
VEF
r 1
F
MCB
MCE
MCE 
VE
r  1c  1
r  1c  1
rc  1
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
62
La definición de los términos del cuadro son los siguientes:
X ij  Valor del bloque i - ésimo para el tratamiento del grupo i - ésimo.
X i  La media de todos los valores en el bloque i.
X j  La media de todos los valores para el tratamiento del grupo j.
c
r
 X
j 1 i 1
ij
 X  La sumatoria de los valores de todos los bloques y de todos los grupos,
equivalent e al gran total.
r  El número de bloques.
c  El número de grupos.
n  Número total de observacio nes.
Para contrastar los efectos de los factores en el modelo, se construye un
estadístico que se compara los cuadrados medios, que bajo la hipótesis nula sigue
una distribución F.
Ejemplo
Suponga que existen cuatro parcelas diferentes las cuales son sometidas
sucesivamente a seis tipos de insumos y se piensa que la producción es afectada
por el tipo de insumo y mantenimiento a que es sometida. Se desea probar los
diferentes tratamientos afectan la producción por parcela, y la producción es la
siguiente:
Tabla No. 19. Rendimientos en kilos por parcela
Tratamiento
RENDIMIENTO EL KILOS
Parcela 1
Parcela 2
Parcela 3
Parcela 4
Total
Medias
A
B
C
D
E
F
70
77
76
80
84
78
61
75
67
63
66
68
82
88
90
96
92
98
74
76
80
76
84
86
287
316
313
315
326
330
71.75
79.00
78.25
78.75
81.50
82.50
Totales
Medias
465
77.50
400
66.67
546
91.00
476
79.33
1.887
78.625
Los totales por grupo (parcelas) y sus correspondientes promedios, los totales y
los promedios por tratamientos o bloques (insumo y manteniendo), así como la
gran media se indican en el cuadro.
Además de las estadísticas representadas en el cuadro, se tiene:
r  6;
c  4;
n  rc  24
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
c
X
63
r
 X
j 1 i 1
ij
rc
1.887
 78,625
24

Para determinar los resultados del experimento de diseños de bloques
aleatorizados con fines ilustrativos, se hacen los siguientes cálculos:
 Variación Total de Cuadrados:
c

r
VT   X ij  X
j 1 i 1

2
 70  78,625  77  78,625  ...  86  78,625  2.295,63
2
2
2
 Variación entre grupos o columnas:
C

VEC  r  X . j  X
j 1

2
Ecuación No.21


 6 77.5  78,625  66.67  78,625  ...  79.33  78,625  1.787,46

2
2
2
Variación entre bloques o filas:
r

VEF  c X i.  X
i 11


2
Ecuación No.22

VEF  4 71.75  78,625  79  78,625  ...  82.5  78,625  238,38
2
2
2
 Variación del error de muestreo:
c
r

VE   X ij  X . j  X i.  X
j 1 i 1
Ecuación No.23

2
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
64
VE  70  77.5  71.75  78,625 
2
77  77.50  79.00  78,6252 

.
.
 86 - 79.33 - 82.50  78,625
 244.79
2
Los medios o promedios cuadráticos, se calculan así:
MCA 
VEC 1.787,46

 595,82
c 1
4 1
MCB 
VEF 283.38

 56,676
r 1
6 1
MCE 
VE
224.79
224.79


 14,986
r  1c  1 6  14  1
15
Los cálculos anteriores se pueden resumir en el siguiente cuadro:
Tabla No. 20. Resultados del análisis de varianza para dos factores
Fuente
Suma
de Grados
Cuadrado
cuadrados
libertad
(varianza)
Entre grupos
1.787.46
VEC 
1.787.46
4-1=3
3
 595,820
Entre
Bloques
283.38
6-1=5
224.79
(6-1)(4-1)=15
2.295.63
(6)(4)-1=23
Error
Total
VEF 
283.38
5
 56,676
224.79
15
 14,986
VE 
medio
F
595.82
14,986
 39,758
56,676
F 
14,986
 3,782
F 
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
65
Además de los registros anteriores, en las tablas ANOVA de los diferentes
paquetes de software estadísticos, incluyen el p-valor que consiste en la
probabilidad de obtener un estadístico F igual o mayor a la obtenida dado que la
hipótesis nula sea verdadera, es decir, si el p- valor es menor que el nivel
especificado de significancia  , la hipótesis nula es rechazada. Para nuestro caso
se utiliza la información contenida en el cuadro anterior.
Si se desea probar las diferencias entre los rendimientos de las parcelas con un
nivel de significancia del 5%, la regla de decisión consiste en rechazar la hipótesis
nula H o : 1  2  3  4  si el valor F calculado es mayor que 3.29 (Ver tabla F
con 3 grados de libertad en el numerador y 15 grados en el denominador). Para el
caso F = 39,758 es mayor que el valor crítico 3.29, entonces se rechaza la
hipótesis nula y se llega a la conclusión que existe evidencia de una diferencia
entre la producción promedio de las diferentes parcelas, como se puede apreciar
en el siguiente gráfico:
Gráfico No. 20. Región de aceptación de hipótesis
Como una verificación de la efectividad de la utilización de insumos, se puede
probar la diferencia de efectividad de los diferentes insumos aplicados. La regla de
decisión utilizando un nivel de significancia del 5%, sería la de rechazar la
hipótesis nula H o : 1  2  3  4  5  6  si el valor F calculado excede a
2.90 (Ver anexo F con 5 grados de libertad en el numerados y 15 grados en el
denominador). Para el caso el valor F = 3,782 es mayor al valor crítico, lo que se
concluye que la utilización de los diferentes insumos, produce diferencia
significativa entre los promedios de producción para las parcelas, y que la
conformación de dichos bloques es ventajosa para reducir el error experimental,
situación que se presenta en el siguiente gráfico:
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
66
Gráfico No. 21. Región de aceptación de hipótesis
Análisis de varianza de dos factores con interacción. (Diseño
factorial).
Se ha visto hasta ahora el análisis de varianza de una dirección o el modelo de
diseño completamente aleatorizado, después el modelo de diseño de bloque
aleatorizado, y en la presente sección el análisis de varianza de dos factores con
interacción.
Con el propósito de desarrollar el procedimiento de la prueba F, se define a
continuación los siguientes términos:
X ijk  Valor de la k - ésima observació n del nivel i del factor A t del nivel j del factor B.
X ij  Suma de los valores de la celda ij (las observacio nes del nivel i del factor A y del nivel j del factor B.
X i..  Suma de los valores de la hilera i del factor A.
X.j.  Suma de los valores de la columna j del factor B.
GT  Gran total de todos los valores en todas las hileras y columnas.
r  Número de niveles del factor A.
c  Número de niveles del factor B.
n '  Número de valores(replicas) para cada celda.
n  Número total de observacio nes del experiment o (con n  r.c.n '
Con fines ilustrativos se hacen planteamientos tanto conceptuales como de
cálculos para la descomposición de la variación total necesaria para el desarrollo
del procedimiento de la prueba F. Debido a la gran cantidad de cálculos se
recomienda que dicho proceso sea llevado por el paquete de software analizado
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
67
más adelante.
Tabla resumen para el análisis de varianzas de dos vías con más de una
observación por célula se resume en el siguiente cuadro:
Tabla No. 21. Resumen de análisis de varianza de dos vías
Fuente de
variación
Entre grupos
de tratamiento
A
Entre grupos
de
tratamiento, B
Interacción
entre factores
A y B.
Suma de los cuadrados,
SC
2
r
X 2 GT 
VEGA   i..' 
rcn'
i 1 cn
X .2j .
j 1
rn'
r
c
VEAB  
i 1 j 1
c
X .2j .
j 1
rn'

Error
de
muestreo, E
c
VEGB  
r

n'
rcn'
r

i 1
X i2..
cn '
rcn'
r
c
VE   X ijk2  
i 1 j 01 k 1
Total, T
X ij2
GT 2
r
c
Media
MC
c 1
VEGA
r 1
BEGB
MCB 
c 1
VEABI
MCC 
r  1c  1
r 1
cuadrática,
MCA 
r  1c  1
Relación F
MCA
MCE
MCB
F
MCE
MCI
F
MCE
F
GT 2
n'
c

Grados
de
libertad, gl
n'
i 1 j 1
VT   X ijk2 
i 1 J 1 K 1
X ij2.
n
'
GT 2


rc n'  1
MCE 
VE
rcn'  1
rcn'  1
rcn'
Ejemplo
Para ilustrar el modelo factorial de dos factores, suponga que UD como dueño y
propietario de una cadena de supermercados está interesado en saber el efecto
de la colocación de los estantes en la venta de un producto. Para ello estudia 4
posibles lugares distintos donde colocar los estantes: Colocación normal entre el
pasillo(A), colocación ingreso del pasillo (B), colocación a la entrada del pasillo con
impulsadora (C) y colocación normal con propaganda (D). Se toman ventas
aleatorias en las jornadas de la mañana, tarde y noche y los resultados de las
ventas semanales se resumen en la siguiente tabla:
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
Tabla No. 22. Colocación de productos en un estantes durante jornadas
JORNADA
COLOCACIÓN ESTANTE
A
B
45
56
50
63
57
69
65
78
70
75
78
82
365
423
60.83
70.50
Mañana
Tarde
Noche
Totales
Medias
C
65
71
73
80
82
89
460
76.67
D
48
53
60
57
71
75
364
60.67
Totales
451
Medias
56,375
539
67,375
622
77,750
1.612
67,167
Se tiene la siguiente información:
r 3
c4
X 1..  451
n'  2
X 3..  622
X 2..  539
X .1.  365
X 11.  95
X 21.  122
X 31.  148
X .2.  423
X 12.  119
X 22.  147
X 31.  157
X .3.  460
X 13.  136
X 23.  153
X 33.  171
X .4.  364
X 14.  101
X 24.  117
X 34.  146
GT  1.612
r
n'
c
 X
i 1 j 1 k 1
2
ijk
 452  502  ...  752  111.550
X i2.. 4512  5392  6222

 110.100,75

'
42
i 1 cn
r
c
X .2j .
 rn
'
j 1
r
c

i 1 j 1
GT 2
rcn'
3652  4232  4602  3642
 109.375
32

X ij2.
n'


952  1192  ...  1462
 111.292
2
1.6122
 108.272.66
342
68
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
Variación Total de Cuadrados:
r
c
n'
VT   X ijk2 
i 1 J 1 K 1
GT 2
rcn'
 111.550  108.272.66  3.277.34
Variación entre grupos del tratamiento A:
X i2.. GT 
VEGA   ' 
 110.100.75  108.272.66  1.828.09
rcn'
i 1 cn
2
r
Variación entre grupos del tratamiento B:
c
X .2j .
j 1
rn'
VEGB  

GT 2
rcn'
 109.375  108.272.66  1.102.34
Variación entre los factores A y B:
r
c
VEAB  
i 1 j 1
X ij2
n'
r

i 1
X i2.. c X . j . GT 


cn ' j 1 rn'
rcn'
2
2
 111.292 - 110.100.75 - 109.375  108.272.66  88.91
Variación del error de muestreo:
r
c
n'
VT   X ijk2 
i 1 J 1 K 1
GT 2
rcn'
 111.550  111.292  258
Para el cálculo de las varianzas se utilizan las siguientes relaciones:
MCA 
VEGA 1.828.09

 914.045
r 1
3 1
MCB 
BEGB 1.102.34

 367.447
c 1
4 1
69
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
MCC 
VEABI
88.91

 14,818
r  1c  1 3  14  1
MCE 
VE
258

 21.5
'
rc n  1 342  1

70

Los cálculos anteriores se resumen en el siguiente cuadro:
Tabla No. 23. Resumen de análisis de varianza de dos vías
Fuente de variación
Suma de los
cuadrados, SC
Grados de libertad,
gl
Media
cuadrática, MC
Relación
F
Entre grupos de
tratamiento A
1.828.09
3 1  2
914.045
42.51
Entre grupos de
tratamiento, B
1.102.34
4 1  3
367.447
17.09
Interacción entre
factores A y B.
88.91
14.818
0.69
Error de muestreo, E
Total, T
258
3.277.34
3  14  1  6
342  1  12
342  1  23
21.5
Si utiliza un nivel de significancia del 0.05 y se prueba la diferencia entre las
ventas en las diferentes jornadas (mañana, tarde, noche), la regla de decisión es
la rechazar la hipótesis nula ( H 0 : 1  2  ...  r ) si el valor calculado para F
(42.51) es mayor que 3.49 (observar tabla F para 2 grados de libertad en el
numerador y 12 grados de libertad en el denominador); se rechaza la hipótesis
nula y se llega a la conclusión que existe evidencia que entre las diferentes
jornadas las ventas en promedio son diferentes.
Así mismo si utiliza un nivel de significancia de 0.05 para probar si existe alguna
diferencia entre la ubicación de los estantes, la regla de decisión es rechazar la
hipótesis nula ( H 0 : 1  2  ...  c ), si el valor calculado F (17.09) es mayor que
3.49 (observar tabla F para 3 grados de libertad en el numerador y 12 grados de
libertad en el denominador); se rechaza la hipótesis nula y se concluye que existe
una diferencia entre los promedios de ventas para la colocación de los diferentes
estantes en el almacén.
Finalmente se puede probar si existe algún efecto de interacción entre el factor A
(ventas en las diferentes jornadas) y el factor B (colocación de los estantes).
Utilizando un nivel de significancia del 5%, la regla de decisión es rechazar la
hipótesis nula ( ABij  0, para todo i y j ), si el valor calculado F (0.69) es mayor que
3.0 (observar tabla F para 6 grados de libertad en el numerador y 12 grados de
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
71
libertad en el denominador); no se rechaza la hipótesis nula y se concluye que no
existe evidencia de un efecto de interacción entre las jornadas del día y la
colocación de los estantes.
INTERPRETACIÓN DE LOS EFECTOS DE LA INTERACCIÓN
Se ha realizado hasta ahora las pruebas para la significación del factor A, del
factor B y de la interacción, corresponde entender en mejor forma el concepto de
interacción, si se grafica las medias, empleando la siguiente fórmula:
X ij 
X ij
n'
95
 47.5
2
119

2
136

2
101

 50.5
2
122
2
147

2
153

2
117

2
148
 74.0
2
157

 78.5
2
171

 85.5
2
146

 73.0
2
X 11. 
X 21. 
 61.0
X 31. 
X 12.
X 22.
 73.5
X 32.
 76.5
X 33.
 58.5
X 34.
X 13.
X 14.
X 23.
X 24.
Se procede a graficar las ventas semanales promedio de cada jornada y de cada
colocación de la estantería, como se indica a continuación:
Gráfico No. 22. Ventas de producto en tres jornadas
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
72
Las cuatro líneas representan las colocaciones de las estanterías aparecen
apuntando casi representando en la misma dirección, lo que significa que la
diferencia en las ventas entre las cuatro colocaciones de los estantes es
virtualmente la misma para las ventas de las diferentes jornadas. En otras
palabras, no existe interacción entre los dos factores (jornada y estantería), como
claramente se evidenció en la prueba F vista anteriormente.
¿Cuál es la interpretación si se presenta el efecto de interacción? En tal situación,
algunos niveles del factor A responden mejor con ciertos niveles del factor B; por
ejemplo, suponga que algunas colocaciones en los estantes fueran mejor para las
jornadas. Si este fuera el caso, las líneas de la figura no estarían apuntando en la
misma dirección que las hace casi paralelas y el efecto de interacción sería
estadísticamente significativo, y por consiguiente, las diferencias entre las
diferentes localizaciones de estantes no serían las mismas para las diferentes
jornadas.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
73
EJERCICIOS COMPLEMENTARIOS
1.
Un inspector de un distrito escolar quiere estudiar el ausentismo de los
profesores de diversos grados escolares. Se seleccionaron muestras aleatorias de
profesores en escuelas primarias, secundarias, y preparatorias, y el número de
días de ausencia el año anterior fue como sigue:
Primaria
7
4
10
6
5
Secundaria
13
14
9
8
7
10
Preparatoria
7
2
6
9
9
Con un nivel de significancia de .025, determine si hay una diferencia en el
ausentismo entre los diversos grados.
2.
El propietario de una distribuidora de combustible pretende investigar la
rapidez con la cual le pagan sus facturas en tres áreas suburbanas. Se
seleccionaron muestras de clientes en cada zona y se registró el número de días
entre la entrega y el pago de la factura, con los siguientes resultados:
Área 1
8
18
14
20
12
14
15
16
Área 2
10
16
28
25
7
17
Área 3
32
8
16
27
17
20
19
21
20
Con un nivel de significancia de .025, determine si hay una diferencia en la
rapidez con que pagan las facturas en estas tres áreas.
3.
Un agrónomo desea estudiar el rendimiento (en libras) de cuatro variedades
diferentes de calabacitas. Se dividió una parcela en 16 lotes y se asignaron cuatro
lotes al azar a cada variedad. Los resultados del experimento (en libras) fueron
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
Calabacita
redonda
86
74
88
76
Calabacita
común
40
48
54
46
Calabaza
alargada
30
36
42
34
74
Calabacita
rayada
48
54
42
56
Con un nivel de significancia de .01, determine si hay una diferencia en el
rendimiento de las diferentes variedades de calabacitas.
4.
Un distribuidor de automóviles nuevos quiere estudiar la cantidad de dinero
aplicado a la compra de equipo opcional en automóviles de tamaño grande. Se
seleccionó una muestra de 20 compras. Los sujetos se dividieron en las siguientes
clasificaciones por edades: 18-24, 25-29, 30-39, 40-59, 60 y más. La cantidad de
equipo opcional comprado (en miles de pesos) se organizó en grupos de edad
como sigue:
18-24
6.31
4.27
5.75
25-29
7.64
5.36
3.85
6.24
Edad
30-39
8.37
9.26
10.16
6.48
7.86
40-59
11.23
10.64
8.32
9.00
7.53
60 y más
6.74
7.36
5.12
Con un nivel de significancia de .05, determine si hay una diferencia en la
cantidad de dinero aplicado a la compra de equipo opcional en automóviles
nuevos entre los diferentes grupos de edad.
5.
Los alumnos de la clase de mercadotecnia calificaron el desempeño del
profesor como excelente, bueno, malo y pésimo. Las calificaciones que dieron los
estudiantes al profesor fueron comparadas con sus calificaciones finales del curso
de mercadotecnia. Lógicamente, se pensaría que en general, los estudiantes que
calificaron al profesor con excelente tendrían una calificación final mucho más alta
que los que lo calificaron como bueno, malo o pésimo. Esto supondría también
que quienes calificaron al docente como pésimo obtendrían las calificaciones mas
bajas. Se seleccionaron muestras de calificaciones finales de los alumnos por
cada tipo de calificación dada al maestro.
Excelente
94
90
85
80
Calificaciones finales de la clase de Mercadotecnia
Bueno
Malo
75
70
68
73
77
76
83
78
88
80
Pésimo
68
70
72
65
74
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
68
65
75
65
Se pretende determinar si hay una diferencia estadística entre la calificación
promedio obtenida por los estudiantes de acuerdo a la calificación otorgada al
maestro. Utilice un nivel de significancia de .01
6.
En un esfuerzo por determinar la más efectiva manera de enseñar
principios de seguridad a un grupo de empleados de una compañía, cuatro
diferentes métodos fueron tratados. Veinte empleados fueron asignados
aleatoriamente a cuatro grupos. El primer grupo recibió instrucción programada en
folletos y trabajaron a lo largo del curso a su propio paso. El segundo grupo
atendió lecturas. El tercer grupo observó presentaciones en televisión, y el cuarto
fue dividido en pequeños grupos de discusión. Al final de las sesiones, una prueba
fue aplicada a los cuatro grupos. Los resultados fueron:
Instrucción
programada
6
7
6
5
6
Calificaciones
Lecturas
Televisión
8
5
8
6
8
7
9
6
8
5
Grupos de
discussion
8
5
6
6
5
Pruebe en el nivel de significancia de .05 si hay o no diferencia entre las cuatro
medias.
7.
Una revista para consumidores está interesada en saber si existe o no
alguna diferencia en la duración promedio de cuatro marcas diferentes de pilas
para radios de transistores. Se probó una muestra aleatoria de cuatro pilas de
cada marca, con los siguientes resultados (en horas):
Marca 1
12
15
18
10
Marca 2
14
17
12
19
Marca 3
21
19
20
23
Marca 4
14
21
25
20
Con un nivel de significancia de .05, pruebe si hay alguna diferencia en la
duración promedio de estas cuatro marcas de pilas para radios de transistores
8.
Un psicólogo industrial querría determinar el efecto del consumo de
bebidas alcohólicas sobre la capacidad mecanográfica de un grupo de secretarias.
Se asignaron en forma aleatoria cinco secretarias a cada uno de los tres niveles
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
76
de consumo y a cada una de las tres diferentes bebidas. Se dieron a cada
secretaria las mismas instrucciones para mecanografiar la misma página. Se
registró el número de errores cometido por cada secretaria con los siguientes
resultados
1 onza
Tequila Brandy
2
3
5
4
3
4
6
5
4
5
Ron
4
4
4
4
4
Consumo de alcohol
2 onzas
Tequila Brandy Ron
7
5
9
5
6
4
6
4
8
3
4
2
9
7
11
Tequila
10
6
10
12
12
3 onzas
Brandy
8
7
8
13
10
Ron
12
5
12
11
12
Con un nivel de significancia de .01, pruebe las siguientes hipótesis:

Es diferente la cantidad de errores dependiendo de la cantidad de bebida.

Es diferente la cantidad de errores dependiendo del tipo de bebida.

Es diferente la cantidad de errores dependiendo de la interacción de las
dos variables.
9.
El gerente de menudeo de una cadena de tiendas desea determinar si la
ubicación del producto tiene o no algún efecto sobre la venta de juguetes de
peluche en forma de animales. Se van a considerar tres ubicaciones diferentes en
el pasillo: frente, centro y atrás. Se seleccionó una muestra de 18 tiendas y se hizo
una asignación aleatoria en seis tiendas para cada ubicación en el pasillo. Los
juguetes estaban presentados en cuatro figuras de animales diferentes. Al final de
un periodo de prueba de una semana las ventas de los productos fueron como
sigue:
osos
86
72
54
40
50
62
frente
perros
gatos
81
76
77
82
49
44
45
50
45
40
67
72
león
71
87
39
55
35
77
osos
20
32
24
18
14
16
centro
perros
gatos
16
19
36
32
20
23
22
18
10
13
20
16
león
24
29
28
15
18
13
osos
46
28
60
22
28
40
Atrás
Perros
gatos
51
56
24
20
65
68
18
16
33
34
36
36
Con un nivel de significancia de .01 pruebe las siguientes hipótesis:



Las ventas en las diferentes ubicaciones del pasillo son diferentes
Las ventas de las diferentes figuras de animales son diferentes
Las ventas son diferentes debido a la interacción de las dos variables.
león
56
21
66
19
30
41
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
77
10.
El departamento de nutrición de cierta universidad lleva a cabo un estudio
para determinar si hay diferencia o no en el contenido de ácido ascórbico entre
tres diferentes marcas de concentrado de jugo de naranja. Se hacen cuatro
pruebas de los tres tipos de concentrado de jugo de naranja que fue congelado
durante tres periodos de tiempo diferentes (en días). Los resultados, en
miligramos de ácido ascórbico por litro, son los siguientes:
MARCA
0
RICA
BUENA
BARATA
52.6
49.8
56.0
49.6
52.5
51.8
54.2
46.5
48.0
48.4
52.0
53.6
TIEMPO ( DÍAS )
3
49.4
49.2
42.8
53.2
48.8
44.0
44.0
42.4
48.0
47.0
48.2
49.6
7
42.7
40.4
49.2
42.0
48.5
45.2
48.8
47.6
44.0
43.2
43.3
47.6
Utilice un nivel de significancia de .05 para probar la hipótesis de que:

Los contenidos de ácido ascórbico por marca de jugo son diferentes

Los contenidos de ácido ascórbico por tiempo de congelamiento son
diferentes

Los contenidos de ácido ascórbico son diferentes debido a la interacción de
las dos variables.
11. Se estudia el comportamiento de tres camadas de ratas bajo dos condiciones
ambientales en una prueba de laberinto. Las calificaciones de error para las 48
ratas se registran a continuación:
Camada
Brillante
Mezclada
Lenta
Ambiente
28
12
36
83
101
94
Libre
22
25
23
10
33
41
14
76
33
122
56
83
36
86
22
58
35
23
72
48
60
89
136
120
Restringido
25
32
91
31
35
83
126
110
38
64
153
128
93
19
99
118
87
140
Utilice un nivel de significancia de .05 para probar la hipótesis de que:

Las calificaciones de error para las camadas son diferentes

Las calificaciones de error para los ambientes son diferentes
Las calificaciones de error son diferentes debido a la interacción de las dos
variables
12.
Considere la combinación de dos factores en la eliminación de mugre en
cargas estándar de lavandería. El primer factor es la marca del detergente, X, Y o
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
78
Z. El segundo factor es la temperatura del agua, caliente o tibia. El experimento se
replica seis veces. La respuesta es el porcentaje de eliminación de mugre. Los
datos son los siguientes:
Marca
X
Y
Z
Temperatura
85
78
90
92
85
87
Caliente
88
75
78
92
60
88
80
72
76
76
70
68
82
75
86
88
76
55
Caliente
83
75
88
76
74
57
85
73
76
77
78
54
Utilice un nivel de significancia de .05 para probar la hipótesis de que:



Los porcentajes de eliminación de mugre son diferentes dependiendo del
detergente.
Los porcentajes de eliminación de mugre son diferentes dependiendo de la
temperatura.
Los porcentajes de eliminación de mugre son diferentes debido a la
interacción de las dos variables.
13.
Los puntajes obtenidos en una prueba de rendimiento motor hecha a dos
grupos de estudiantes que participan en deportes universitarios, el primer grupo
está formado por estudiantes que practicaron deporte en la preparatoria, mientras
que el segundo está formado por estudiantes que no practicaron deporte en la
preparatoria. Los puntajes obtenidos por ambos grupos son los siguientes:
GRUPO 1
GIMNASIA
FUTBOL
55
56
59
40
63
59
58
70
50
52
52
43
69
28
77
37
60
51
GRUPO 2
FUTBOL
GIMNASIA
55
58
86
48
56
58
65
54
32
51
55
42
79
45
45
32
Utilice un nivel de significancia de .01 para probar la hipótesis de que:



El rendimiento motor es diferente dependiendo del grupo
El rendimiento motor es diferente dependiendo del deporte
El rendimiento motor es diferente debido a la interacción de las dos variables.
14. La asociación de egresados de la escuela “Mao Meno”, sospecha que sus
miembros reciben en promedio un sueldo inferior al ingreso de los egresados de la
escuela “Much A. Money”. Para comprobarlo se obtuvieron muestras de
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
79
egresados de ambas escuelas. La información que se obtuvo fue la siguiente: (en
miles de pesos)
MAO MENO
CRIMINOLOGÍA
PSICOLOGÍA
5.0
3.2
5.5
3.5
4.5
4.5
3.5
8.2
7.5
6.6
MUCH A. MONEY
PSICOLOGÍA
CRIMINOLOGÍA
7.5
5.5
5.5
3.5
4.5
9.5
8.5
3.4
6.8
3.2
Utilice un nivel de significancia de .01 para probar la hipótesis de que:



El ingreso es diferente dependiendo de la escuela
El ingreso es diferente dependiendo de la carrera
El ingreso es diferente debido a la interacción de las dos variables.
15.
En una secundaria se formaron al azar dos grupos de estudiantes,
formados por alumnos de todos los grados. En un grupo se utilizó un nuevo
método de enseñanza. En el otro se utilizaron los métodos tradicionales. Las
calificaciones al final del curso fueron las siguientes:
MÉTODO TRADICIONAL
PRIMERO SEGUNDO TERCERO
8
9
8.5
6.5
10
10
7
8
9
8
7
8.5
6
7.5
8
8
8
8
MÉTODO NUEVO
PRIMERO SEGUNDO TERCERO
7.5
8
8
8.5
7
10
7.5
5
10
8
8
9
9
7
8.5
7.5
9
9
Utilice un nivel de significancia de .025 para probar la hipótesis de que:



Las calificaciones son diferentes dependiendo del método
Las calificaciones son diferentes dependiendo del grado
Las calificaciones son diferentes debido a la interacción de las dos variable
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
80
CAPITULO SEIS: PRUEBAS NO PARAMETRICAS
Introducción
Uno de los problemas más difíciles para el principiante y para el investigador
experimentado, es decidir cuál de las pruebas estadísticas es la más adecuada
para analizar un conjunto de datos. La aplicación de la estadística en el análisis de
datos es muy amplia y las áreas en las que se aplica son diversas, desde las
ciencias exactas hasta las ciencias sociales. La selección de la prueba estadística
necesaria para el caso, depende de varios factores, en primer lugar se debe saber
cuál es la escala con la que se están midiendo los datos que se analizarán, pues
no se puede aplicar la misma prueba estadística para el caso en que la variable de
interés sea el peso de un producto que cuando lo es la profesión del usuario de un
producto.
Queremos introducir en este parte la noción de pruebas no paramétricas como
aquellas que no presuponen una distribución de probabilidad para los datos, por
ello se conocen también como de distribución libre. En la mayor parte de ellas los
resultados estadísticos se derivan únicamente a partir de procedimientos de
ordenación y recuento, por lo que su base lógica es de fácil comprensión. Cuando
trabajamos con muestras pequeñas (n < 10) en las que se desconoce si es válido
suponer la normalidad de los datos, conviene utilizar pruebas no paramétricas, al
menos para corroborar los resultados obtenidos a partir de la utilización de la
teoría basada en la normal.
En estas técnicas, solamente se necesitan conocimientos elementales de
matemáticas, pues los métodos son relativamente más sencillos que en las
pruebas paramétricas. En estas pruebas, también se tienen supuestos, pero son
pocos y no tienen que ver con la naturaleza de la distribución de la población, por
lo que a estas técnicas también se les conoce como de libre distribución.
En general el único supuesto que se debe cumplir en la mayoría de las pruebas no
paramétricas para confiar en ellas, es que la muestra haya sido seleccionada en
forma probabilística.
Las pruebas que se mencionarán son las que se podrían necesitar con mayor
frecuencia, se mencionarán sus principales características y aplicaciones.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
81
Objetivo general.
Contrastar la validez de hipótesis o conjetura sobre la relación entre variables y
sobre las distribuciones de probabilidad teórica que adoptan dichas variables, sin
sujetarse a los condicionamientos de la validez de supuestos paramétricos.
Objetivos específicos.





Examinar que se entiende por hipótesis y por prueba de hipótesis No
paramétricas.
Realizar pruebas No paramétricas para una variable y para datos pareados
Realizar pruebas sobre la bondad de ajustes de variables a distribuciones
de probabilidad teórica de carácter cuantitativas.
Realizar pruebas de hipótesis para datos que se encuentran en una escala
nominal u ordinal con aplicación de la distribución chi- cuadrado.
Realizar pruebas sobre la relación entre dos y más variables poblacionales.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
82
Generalidades
Las pruebas de hipótesis hacen inferencias respecto a los parámetros de la
población, como la media. Estas pruebas paramétricas utilizan la estadística
paramétrica de muestras que provinieron de la población que se está probando.
Para formular estas pruebas, se hace suposiciones restrictivas sobre las
poblaciones de las que se extraen las muestras. Por ejemplo: se suponía que las
muestras eran grandes o que provenían de poblaciones normalmente distribuidas.
Pero las poblaciones no siempre son normales.
Los estadísticos han desarrollado técnicas útiles que no hacen suposiciones
restrictivas respecto a la forma de las distribuciones de las poblaciones. Éstas se
conocen como pruebas sin distribución, o pruebas no paramétricas. Las hipótesis
de una probabilidad no paramétrica se refieren a algo distinto del valor de un
parámetro de población
Pruebas no paramétricas son procedimientos estadísticos que pueden
utilizarse para contrastar hipótesis cuando no son posibles lo supuestos
respecto a los parámetros o a las distribuciones poblacionales.
Ventajas de los métodos no paramétricos.
1. No requieren que hagamos la suposición de que una población está
distribuida en forma de curva normal u otra forma específica.
2. Generalmente, son más fáciles de efectuar y comprender.
3. Algunas veces, ni siquiera se requiere el ordenamiento o clasificación formal.
Desventajas de los métodos no paramétricos.
1. Ignoran una cierta cantidad de información
2. A menudo, no son tan eficientes como las pruebas paramétricas. Cuando
usamos pruebas no paramétricas, efectuamos un trueque: perdemos
agudeza al estimar intervalos, pero ganamos la habilidad de usar menos
información y calcular más rápidamente.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
83
Prueba de Bondad de Ajuste de Ji-cuadrado
La pruebas de Bondad de Ajuste ji-cuadrado ( ) tiene como objetivo verificar si
los datos de una muestra se asocian a una distribución teórica, para variables
cuantitativas discretas y continuas.
A continuación se establece la prueba χ 2 para bondad de ajuste. Supóngase que
al realizar un experimento aleatorio n veces, se presentan los resultados
con frecuencias observadas
y de acuerdo con las leyes
de las probabilidades, se espera que estos resultados se presenten con
frecuencias
.
Una medida de las diferencias entre las frecuencias observadas y las esperadas
está dada por el estadístico  2 definido por:
∑
(
−
)
Ecuación No.24
= Frecuencias Observadas
= Frecuencias Esperadas
K= Número de observaciones
Si las frecuencias observadas coinciden o se aproximan mucho a las esperadas,
el valor estadístico
tiende a cero. Por el contrario, si las frecuencias
observadas difieren significativamente de las esperadas, el valor del estadístico
será positivo y tan grande cuantos mayores sean las diferencias entre las
frecuencias. Bajo estas condiciones se tiene que la región de rechazo es sólo la
región derecha (cola derecha o unilateral superior), cuando la hipótesis son las
siguientes:
: Los datos provienen de una muestra al azar de una población
distribuida de acuerdo a un modelo teórico.
: Los datos no provienen de una población distribuida de acuerdo al
modelo teórico.
En una prueba de hipótesis usando Ji-cuadrado las frecuencias esperadas se
calculan suponiendo que La hipótesis nula es cierta
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
84
El estadístico de prueba se puede expresar, para fines de cálculo, como:
∑
(
−
)
∑
−
Ecuación No.25
Con k – r grados de libertad.
k: es el número de eventos o categorías
r : es el número de restricciones
(r ≥ 1 es siempre es una restricción, ya que
∑
∑
, y cada parámetro que se estima con la información de la
muestra es otra restricción más).
En ocasiones, las frecuencias esperadas dan resultados menores que 1, y los
investigadores frecuentemente hacen notar en la literatura que el estadístico no
se distribuye como
si las frecuencias esperadas son pequeñas. Por lo tanto
≥ 1 Si, en la práctica resultaran una o varias
< 1 se juntan las categorías.
El estadístico teórico es el valor de la Ji-cuadrado con k-r grados de libertad al
nivel de significancia dado.
El estadígrafo de prueba Ji cuadrado fue propuesto en 1900 por Karl Pearson,
como una función de los cuadrados de las desviaciones entre las frecuencias
observadas y sus respectivos valores esperados, ponderados por el recíproco
de sus valores esperados. La demostración matemática está fuera del alcance
de este curso, basta saber que se puede demostrar que el estadígrafo Ji
cuadrado, en el muestreo repetitivo sigue una distribución que se puede
aproximar con una distribución de probabilidad de la variable aleatoria Ji
cuadrado, para n grande (n ≥ 50) y si las frecuencias esperadas para las k
categorías son iguales o mayores a 5. UNCUYO (s.f.)
Esta prueba de hipótesis utiliza un procedimiento de cinco pasos, los cuales se
presentan a continuación:





Plantear las hipótesis nula y alternativa.
Determinar el nivel de significancia.
Estimar el valor estadístico de prueba.
Establecer la regla de decisión.
Tomar la decisión.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
85
Ejemplo. Distribución de Poisson
El administrador de un hospital ha estado estudiando el número de urgencias que
llega a un hospital por día y sospecha que estas se distribuyen según un modelo
de Poisson. También ha determinado que el número medio de urgencias por día
es de 3.
Para determinar si efectivamente el número de urgencias por día que llegan al
hospital siguen la distribución de Poisson, se tomó una muestra al azar de 90 días
de los archivos del hospital. Los datos se resumen en la siguiente tabla.
Tabla No. 23. Número de urgencias que llegan por día al hospital.
Número de Número de días
urgencias
por día
0
1
2
3
4
5
6
7
8
9
10 o mas
5
14
15
23
16
9
3
3
1
1
0
90
¿Apoyan estos datos la sospecha del administrador? Use
= 0.05.
Paso 1: Plantear la hipótesis
nula y alternativa
: Los datos se distribuyen según el modelo de Poisson.
Los datos no están distribuidos según el modelo de Poisson.
Paso 2: Determinar el nivel de significancia.
.
= 0.05.
Paso 3: Estimar el estadístico de prueba.
Cálculos con
y la tabla de la distribución Poisson, determinamos las
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
86
probabilidades de Poisson para x= 0, 1, 2,…., 9; y para
≥ 1 ; restamos de 1 la
suma de las probabilidades anteriores. Para obtener las frecuencias esperadas
multiplicamos las probabilidades por n=90. Véase en la tabla No.24.
Podemos ver que
< en las tres últimas categorías, por lo tanto debemos
unirlas quedando 9 categorías, así k=10; r=1 ya que el valor de , fue dado.
El valor calculado de la Ji-cuadrada es:
∑
−9
9
−9
Tabla No. 24 Frecuencias esperadas.
0
1
2
3
4
5
6
7
8
9
10 o mas
5
14
15
23
16
9
3
3
1
1
0
90
( )
0,050
0,149
0,224
0,224
0,168
0,101
0,050
0,022
0,008
0,003
0,001
1,000
4,481
13,443
20,164
20,164
15,123
9,074
4,537
1,944
0,729
0,243
0,099
90
Paso 4: Establecer la Decisión
Valor Critico: El valor de la ji-cuadrada teórica para 8 (k-r=9-1) grados de
grados de libertad, a un nivel de significancia de 0.05 es 15.507
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
87
Paso 5: Toma de la Decisión
Como el valor del estadístico de prueba no cae en la región de rechazo y es
menor que el estadístico teórico concluimos, por tanto, que el número de
urgencias que llegan por día al hospital sigue una distribución de Poisson con
Prueba de Kolmogorov-Smirnov
La única premisa que se necesita es que las mediciones se encuentren al menos
en una escala de intervalo. Se necesita que la medición considerada sea
básicamente continua. Además dicha prueba es aplicable cualquiera sea el
tamaño de la muestra.
La prueba Kolmogorov-Smirnov Compara las funciones de distribución teórica y
empírica (sólo válido para variables continuas).
Características de la prueba
La prueba de K-S de una muestra es una hipótesis de bondad de ajuste. Esto es,
se interesa en el grado de acuerdo entre la distribución de un conjunto de valores
de la muestra y alguna distribución teórica específica. Determina si
razonablemente puede pensarse que las mediciones muéstrales provengan de
una población que tenga esa distribución teórica. En la prueba se compara la
distribución de frecuencia acumulativa de la distribución teórica con la distribución
de frecuencia acumulativa observada. Se determina el punto en el que estas dos
distribuciones muestran la mayor divergencia.
Se trata de un método no paramétrico sencillo para probar si existe una diferencia
significativa entre una distribución de frecuencia observada y otra frecuencia teórica. Es
otra medida de la bondad de ajuste de una distribución de frecuencia teórica.
Se basa en la comparación de distribuciones acumuladas: la distribución acumulada de
los datos observados y la distribución acumulada teórica correspondiente al modelo
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
88
elegido.
Hipótesis
Ho: La distribución observada se ajusta a la distribución teórica.
F(x) = Ft(x) para todo x.
H1: La distribución observada no se ajusta a la distribución teórica.
Ft(x): es la función teórica. Esta puede ser por ejemplo la función normal con cierta
media y varianzas conocidas.
Estadístico de prueba
D = máxima
Sn(x): es la función de distribución empírica.
Tiene varias ventajas: es una prueba poderosa y fácil de utilizar, puesto que no
requiere que los datos se agrupen de determinada manera.
Es particularmente útil para juzgar qué tan cerca está la distribución de
frecuencias observada de la distribución de frecuencias esperada, porque la
distribución de probabilidad Dn depende del tamaño de muestra n, pero es
independiente de la distribución de frecuencia esperada (Dn es una estadística de
distribución libre).
Para calcular la estadística K-S, simplemente se elige Dn (la desviación absoluta
máxima entre las frecuencias observadas y teóricas).
Una prueba K-S siempre debe ser una prueba de un extremo.
Luego se busca el valor crítico en la tabla, para las n observaciones, considerando
el nivel de significancia adoptado.
Si el valor de la tabla es mayor que el valor de Dn, entonces aceptaremos la
hipótesis nula.
SUGERENCIAS:



La prueba de Kolmogorov puede usarse con muestras muy pequeñas, en
donde no se pueden aplicar otras pruebas paramétricas.
Podemos usar la prueba de Kolmogorov para verificar la suposición de
normalidad subyacente en todo análisis de inferencia.
Si bien constituye una prueba de implementación sencilla, tenga en cuenta que
carga con las desventajas de los métodos no paramétricos en general, en el
sentido de producir resultados menos precisos que los procedimientos
convencionales.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA

89
Cuando trabaje con muestras pequeñas, recuerde usar la frecuencia cumulada
experimental.
Prueba de Wilcoxon
29.1. Wilcoxon de los rangos con signo
Esta prueba nos permite comparar nuestros datos con una mediana teórica.
Llamemos M0 a la mediana frente a la que vamos a contrastar nuestros datos, y
sea X1, X2 .. Xn los valores observados. Se calcula las diferencias X1-M0, X2-M0,
..., Xn-M0. Si la hipótesis nula fuera cierta estas diferencias se distribuirían de
forma simétrica en torno a cero.
Para efectuar esta prueba se calculan las diferencias en valor absoluto |Xi-M0| y se
ordenan de menor a mayor, asignándoles su rango (número de orden). Si hubiera
dos o más diferencias con igual valor (empates), se les asigna el rango medio (es
decir que si tenemos un empate en las posiciones 2 y 3 se les asigna el valor 2.5 a
ambas). Ahora calculamos R+ la suma de todos los rangos de las diferencias
positivas, aquellas en las que Xi es mayor que M0 y R- la suma de todos los
rangos correspondientes a las diferencias negativas. Si la hipótesis nula es cierta,
ambos estadísticos deberán ser parecidos, mientras que si nuestros datos tienen a
ser más altos que la mediana M0, se reflejará en un valor mayor de R+, y al
contrario si son más bajos. Se trata de contrastar si la menor de las sumas de
rangos es excesivamente pequeña para ser atribuida al azar, o, lo que es
equivalente, si la mayor de las dos sumas de rangos es excesivamente grande.
29.2. Wilcoxon para contrastar datos pareados
El mismo razonamiento lo podemos aplicar cuando tenemos una muestra de
parejas de valores, por ejemplo antes y después del tratamiento, que podemos
denominar (X1,Y1), (X2,Y2), ... ,(Xn,Yn). De la misma forma, ahora calcularemos
las diferencias X1-Y1, X2-Y2, ... , Xn-Yn y las ordenaremos en valor absoluto,
asignándoles el rango correspondiente. Calculamos R+ la suma de rangos
positivos (cuando Xi es mayor que Yi), y la suma de rangos negativos R-. Ahora la
hipótesis nula es que esas diferencias proceden de una distribución simétrica en
torno a cero y si fuera cierta los valores de R+ y R- serán parecidos.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
90
Prueba de Mann-Whitney para muestras independiente y prueba
de Kruskal-Wallis para comparar k muestras independientes
30.1. Prueba de Mann-Whitney para muestras independientes
La prueba de Mann-Whitney puede utilizarse para probar la hipótesis nula de que
las medianas de dos poblaciones son iguales. Se supone que las dos poblaciones
tienen la misma forma y dispersión, porque tales diferencias también podrían
conducir al rechazo de la hipótesis nula. Es necesario que los valores de las dos
muestras aleatorias independientes estén al menos en la escala ordinal.
Las dos muestras se combinan en un conjunto ordenado, en el que cada valor
muestral se identifica según el grupo muestral original. Los valores se clasifican
entonces de menor a mayor, asignando el rango 1 al menor valor muestral
observado. En caso de valores iguales, se les asigna el rango medio. Si la
hipótesis nula es cierta, el promedio de los rangos de cada grupo muestral debería
ser aproximadamente igual.
30.2. Prueba de Kruskal-Wallis para comparar k muestras independientes (o
Prueba H de suma de rangos)
Cuando se tiene interés o necesidad de probar una hipótesis nula en la que se
afirma que k tratamientos son iguales o que k muestras aleatorias independientes
provienen de poblaciones idénticas, siendo k > 2, la prueba estadística que se
realizaría dentro de la estadística paramétrica sería el análisis de varianza de un
sentido y para la prueba se utilizaría la distribución F; sin embargo, cuando la
escala es ordinal o se desconfía del supuesto de que las muestras provienen de
poblaciones con forma de distribución normal, se puede utilizar esta prueba para
muestras independientes. La hipótesis alternativa sería que al menos dos
poblaciones tienen una distribución diferente.
La prueba de Kruskal-Wallis sirve para probar la hipótesis nula de que varias
poblaciones tienen las mismas medianas. Así, es el equivalente no paramétrico
del diseño completamente aleatorizado de un factor de análisis de varianza. Se
supone que las diversas poblaciones tienen la misma forma y dispersión para que
la hipótesis anterior sea aplicable, ya que diferencias en forma o dispersión
podrían también conducir al rechazo de la hipótesis nula. Es necesario que los
valores de las diversas muestras aleatorias independientes estén al menos en la
escala ordinal.
Las varias muestras son vistas primeramente como un conjunto de valores, y cada
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
91
valor de este grupo combinado se clasifica de menor a mayor. En caso de valores
iguales, se les asigna el rango medio. Si la hipótesis nula es cierta, el promedio de
los rangos de cada grupo muestral debería ser más o menos igual.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
92
Ejercicios propuestos
1. Cinco antiguos pacientes son seleccionados aleatoriamente del ala A de un
hospital y cuatro pacientes son seccionados del ala B. Los pacientes estuvieron
los siguientes números de días:
Ala A
Ala B
13
10
4
9
2
7
10
8
6
Se debe efectuar una prueba U de Mann-Whitney para determinar si existe
diferencia significativa entre la duración de las estancias en el hospital para las
dos alas. ¿Cuál es la clasificación para la estancia de 13 días en el Ala A?
R/ta: 9 días
2. Elija la muestra con la mayor suma de rangos si los elementos son
clasificados de mayor a menor:
Muestra A: 1
Muestra B: 5
Muestra C: 9
3
1
4
9
8
2
R/ta: 16
3. En una partida de Rol se lanza 200 veces un dado de cuatro caras
obteniéndose 60 veces el número 1, 45 veces el número 2, 38 veces el número
3 y 57 veces el número 4. Se puede aceptar, a un nivel de confianza del 95%,
que estos resultados corresponden a un dado homogéneo.
R/ta: Se acepta de la hipótesis que los resultados corresponden a un dado
homogéneo
4. En una encuesta preelectoral realizada a 500 personas se obtuvo la
siguiente distribución en función de sus edades y de su intención de
voto:
Partido
A
B
C
D
Edad
18 – 35
10
15
45
30
35 – 50
40
70
60
30
50 o más
60
90
35
15
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
93
A un nivel de confianza del 90% ¿Puede afirmarse que la intención de
voto es independiente de la edad?
R/ta: Se rechaza la hipótesis de independencia de las variables
5. Los tiempos de respuesta de 9 sujetos en una tarea de reconocimiento de
palabras, previamente presentadas, han sido los siguientes:
115, 98, 123, 109, 112, 87, 118, 104, 116
A un nivel de confianza del 95% ¿Son compatibles estos resultados con la
hipótesis de que el tiempo de reacción en esta tarea sigue una distribución
Normal de media 110 y desviación típica 10?
R/ta: Se acepta la hipótesis de normalidad de la variable.
Autoevaluación
1.
Los miembros de un equipo ciclista se dividen al azar en tres grupos
que entrenan con métodos diferentes. El primer grupo realiza largos recorridos
a ritmo pausado, el segundo grupo realiza series cortas de alta intensidad y el
tercero trabaja en el gimnasio con pesas y se ejercita en el pedaleo de alta
frecuencia. Después de un mes de entrenamiento se realiza un test de
rendimiento consistente en un recorrido cronometrado de 9 Km. Los tiempos
empleados fueron los siguientes:
Método I
15
16
14
15
17
Método II Método III
14
13
15
16
14
13
12
11
14
11
A un nivel de confianza del 95% ¿Puede considerarse que los tres métodos
producen resultados equivalentes? O por el contrario ¿Hay algún método
superior a los demás?
Solución:
E estadístico de contraste vale: F = 13,4/ 1,43 = 9,37
El valor de la F teórica con 2 y 12 grados de libertad, a un nivel de confianza
del 95% es 3,89. Por consiguiente se rechaza la hipótesis nula y se concluye
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
94
que los tres métodos de entrenamiento producen diferencias significativas.
(Tomado de problemas de análisis de datos Tema 14 Análisis de varianzas: José
María Salinas)
Test No Parámetro
2.
En una partida de Rol se lanza 200 veces un dado de cuatro caras
obteniéndose 60 veces el número 1, 45 veces el número 2, 38 veces el número
3 y 57 veces el número 4. Se puede aceptar, a un nivel de confianza del 95%,
que estos resultados corresponden a un dado homogéneo.
Solución:
Paso 1: La hipótesis nula será que el dado es homogéneo, esto implica que la
distribución de los números es uniforme, es decir que los cuatro números
tienen una probabilidad de aparecer de 0,25.
Paso 2: La hipótesis alternativa será que la distribución no es
uniforme.
Paso 3: Como la variable es discreta utilizaremos el test Ji-cuadrado de
bondad de ajuste a una distribución.
Paso 4: En la tabla siguiente se han realizado todos los cálculos
necesarios, obteniéndose el valor 4,36 para el estadístico de contraste.
xi
np i)2/np i
1
2
3
4
200
ni
pi
Np i
ni-np i
(ni-np i)2
60
45
38
57
0,25
0,25
0,25
0,25
50
50
50
50
10
-5
-12
7
100
25
144
49
(ni2
0,5
2,88
0,98
4,36
Paso 5: Como el estadístico tenía 4 sumandos, buscamos en las tablas de la
Ji- cuadrado con 3 grados de libertad el valor que deja por debajo una
probabilidad de 0,95 y obtenemos que el valor crítico es 7,81.
Como el valor del estadístico es inferior al valor crítico, aceptamos la
hipótesis nula. Estos resultados son compatibles con el hecho de que el
dado sea homogéneo.
3.
En una encuesta preelectoral realizada a 500 personas se obtuvo la
siguiente distribución en función de sus edades y de su intención de voto:
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
Partido
A
B
C
D
18 - 35
10
15
45
30
35 - 50
40
70
60
30
50 o más
60
90
35
15
A un nivel de confianza del 90% ¿Puede afirmarse que la intención de voto es
independiente de la edad?
Solución:
1º La hipótesis nula es que las dos variables son independientes.
2º La hipótesis alternativa es que hay relación entre ambas variables.
3º Se trata de un contraste de independencia entre dos variables, por
consiguiente el estadístico de contraste a utilizar es el estadístico Jicuadrado para tablas de contingencia.
4º Las tablas siguientes presentan los cálculos del estadístico:
Edad
Partido 18 – 35 35 – 50 50 o más
40
60
A B C 10
15
70
90
D
45
60
35
30
30
15
100
200
200
110
175
140
75
500
A partir de las frecuencias marginales de la tabla anterior, se obtienen las
frecuencias esperadas que aparecen a continuación:
Edad
Partido 18 – 35
A
22
B
35
C
28
D
15
35 – 50
44
70
56
30
50 o más
44
70
56
30
Por consiguiente las discrepancias entre frecuencias empíricas y frecuencias
esperadas son:
95
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
Los cuadrados de las discrepancias son:
Partido
A
B
C
D
Edad
18 – 35 35 – 50
144
16
400
0
289
16
225
0
50 o más
256
400
441
225
Dividiendo por las frecuencias esperadas se obtiene:
Edad
Partido 18 – 35 35 – 50 50 o más
A
6,55
0,36
5,82
B C
11,43
0
5,71
10,32
0,29
7,88
D
15
0
7,5
43,30
0,65
26,91 70,86
Sumando, se obtiene el valor del estadístico 70,86.
5º Como la edad presenta tres intervalos y los partidos son cuatro, el
estadístico tendrá (3 - 1)·(4 -1 ) =
6.
Buscamos en las tablas de la
distribución Ji-cuadrado con 6 grados de libertad el valor de la variable que
deja por debajo una probabilidad de 0,9 encontramos que el valor crítico es
10,64.
6º Como el valor del estadístico es mayor que el valor crítico rechazamos la
hipótesis nula de que ambas variables son independientes.
7º La edad cambia la intención de voto.
96
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
97
4.
Los tiempos de respuesta de 9 sujetos en una tarea de reconocimiento
de palabras, previamente presentadas, han sido los siguientes:
115, 98, 123, 109, 112, 87, 118, 104, 116
A un nivel de confianza del 95% ¿Son compatibles estos resultados con la
hipótesis de que el tiempo de reacción en esta tarea sigue una distribución
Normal de media 110 y desviación típica 10?
Solución:
1º La hipótesis nula es que los datos proceden de una Normal (110, 10).
2º La hipótesis alternativa es que no siguen esa distribución Normal.
3º Como la variable es continua, y la hipótesis nula específica totalmente la
distribución utilizaremos el test de Kolmogoroff-Smirnoff, cuyo estadístico de
contraste es:
max | Fn (xi ) - Mn(xi) |
4º los cálculos del estadístico se especifican en la siguiente tabla:
xi
zi
87
-2,3
Fn
0,0107
Mn
0,1111
|Fn -Mn | 0,1004
98
-1,2
0,1151
0,2222
0,1071
104
-0,6
0,2743
0,3333
0,059
109
-0,1
0,4602
0,4444
0,0158
112
0,2
0,5793
0,5556
0,0237
115
0,5
0,6915
0,6667
0,0248
116
0,6
0,7257
0,7778
0,0521
118
0,8
0,7881
0,8889
0,1008
123
1,3
0,9032
1
0,0968
5º Buscando en las tablas del test Kolmogoroff-Smirnoff para n = 9 el valor
crítico para
un nivel de confianza del 95% se obtiene 0,43001.
6º Como el valor del estadístico 0,1071 es menor que el valor crítico se acepta
la
hipótesis nula.
7º A un nivel de confianza del 95% no hay evidencia en contra de que el
tiempo de reacción siga una distribución N(110, 10). (Tomado de
problemas de análisis de datos Tema 14 Análisis de varianzas: José
María Salinas)
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
98
REFERENTES
Alvarado, J. A., Obagi, J.J. (2008). Fundamentos de Inferencia Estadística.
Pontificia Universidad Javeriana. Bogotá. D.C. Colombia. Extraído el 18 de
octubre
de
2012
de
http://books.google.com.co/books?id=3uhUqvF0_84C&printsec=frontcover&
dq=inferencia&source=bl&ots=DC7Ajfx6Os&sig=pOn4JMXwSC0qd0FmDBl
poMGQLkg&hl=es&sa=X&ei=_2qAUKmEJaqG0QHT6YGwBw&ved=0CD0Q
6AEwAw
Juárez, F., Villatoro, J. A. y López, E. K. (2002). Apuntes de Estadística Inferencial.
México, D. F.: Instituto Nacional de Psiquiatría Ramón de la Fuente.
Extraído
el
10
de
enero
de
2012
de:
http://rincondepaco.com.mx/Apuntes/Inferencial.pdf
Mayorga, J. (2004). Inferencia Estadística. Universidad Nacional de Colombia.
Bogotá. D. C. Colombia. Extraído el 18 de octubre de 2012 de
http://books.google.com.co/books?id=bmCV6r_pQQUC&printsec=frontcover
&dq=inferencia&source=bl&ots=KM2dtf_GYn&sig=vFmWR0tlvVlMGVrNUK
n9MKRlr_I&hl=es&sa=X&ei=G2mAUK6qLIeo8gTa_oCwAw&redir_esc=y#v=
onepage&q=prueba%20de%20hip%C3%B3tesis&f=false
Universidad de UNCUYO. Inferencia Estadística. Facultad de Ciencias
Agropecuarias.
Argentina.
En
línea
en:
http://campus.fca.uncu.edu.ar:8010/pluginfile.php/17879/mod_resource/cont
ent/1/Tema%2012-JI%20CUADRADO2013.pdf
Web del Instituto Tecnológica De Chihuahua curso Estadística 1 ITC (s. f).
Extraído
el
18
de
octubre
de
2012
de:
http://www.itch.edu.mx/academic/industrial/estadistica1/cap02.html.
Descargar