Subido por Dr. Temístocles Muñoz López

Inferencia Estadística, diseños experimentales y modelos de regresión

Anuncio
Inferencia Estadística,
Diseño de Experimentos y
Modelos de Regresión

Juan Vilar
Catedrático de Estadística e I.O. de la UDC
Web personal:
http://dm.udc.es/profesores/juanvilar
E-mail:
[email protected]
Esta web contiene material didáctico para el estudio de un segundo curso de
Estadística.
Trata los siguientes temas:



Conceptos básicos de Inferencia Estadística.
Modelos de Diseños de Experimentos.
Modelos de Regresión Lineal, simple y múltiple.
INDICE
Capítulos de la asignatura
Resúmenes de los capítulos
Prácticas y problemas
Datos de los problemas
Cuestiones y práctica propuesta
Exámenes
Bibliografía
Tablas estadísticas
Gran parte del material de esta página (la teoría, algunos problemas
resueltos y resúmenes) pueden encontrarse en el texto
"Modelos Estadísticos Aplicados"
Juan M. Vilar Fernández, Junio, 2006.
Publicaciones de la UDC, monografía 101. Segunda Edición.
ISBN: 84-9749-196-3.
www.udc.es/publicaciones
Las prácticas, problemas (resueltos y propuestos), los cuestionarios exámenes y la práctica propuesta se pueden bajar en diferentes documentos
con formato *.pdf o en formato *.ps.
Los datos de las prácticas y problemas se pueden bajar en ficheros con
formato ascii, SPSS y Statgraphics.
Para
el estudio de un primer curso de Estadística (teoría y problemas) puede
utilizarse el texto
"Introducción a la Estadística y sus
Aplicaciones"
R. Cao, M. Francisco, S. Naya, M. Presedo, M. Vázquez,
J.A. Vilar y J.M. Vilar.
Editorial Pirámide, 2001.
En este texto se estudian con detalle lo conceptos básicos de
Inferencia Estadística y los contrastes no paramétricos.
Capítulo 1
Conceptos básicos de Inferencia Estadística.
1.1 Objetivos de la Inferencia Estadística.
1.2 Inferencia Estadística. Conceptos básicos.
1.3 Contraste o test de hipótesis. Definiciones.
1.3.1 Definiciones básicas.
1.3.2 Pasos a seguir en la realización de un
contraste de hipótesis.
1.3.3 Tipos de Error en un contraste de
hipótesis.
1.3.4 Nivel crítico y región crítica.
1.3.5 Potencia de un contraste.
1.3.6 Algunos contrastes paramétricos
importantes.
William Sealey Gosset, matemático inglés nacido
en Canterbury el 13 de Junio de 1876 y fallecido
en Beaconsfield el 16 de Octubre de 1937.
[Siguiente] [Arriba]
1.1 Objetivos de la Inferencia Estadística.
El objetivo de la Estadística es medir y modelar la variabilidad del proceso
mediante un modelo probabilístico.
Para modelar la variabilidad de una variable aleatoria si sólo se dispone del
conocimiento de una muestra de la misma se sigue el siguiente modo de actuación:
1. Planteamiento del problema.
2. Selección de la muestra (Muestreo estadístico), en algunos estudios la
muestra se obtiene por simulación (Simulación Estadística)
3. Estudio descriptivo de la muestra, analítico y gráfico (Estadística
Descriptiva).
4. En base al conocimiento de los modelos probabilísticos más utilizados y
teniendo en cuenta el planteamiento del problema y el estudio descriptivo
previo, elegir un modelo de probabilidad (Teoría de la Probabilidad).
5. Estimar los parámetros del modelo supuesto a partir de las observaciones
muestrales utilizando los métodos de Inferencia Estadística: estimación
puntual, estimación por intervalos de confianza y contrastes de hipótesis
paramétricos.
6. Chequear que el modelo de probabilidad ajustado a los datos es adecuado y
que se verifican las hipótesis supuestas en el estudio, por ejemplo, que las
observaciones muestrales son independientes, que no existen observaciones
erróneas,...,etc. Para ello se utilizan los métodos de Inferencia no
Paramétrica.
7. Si se acepta que el modelo ajustado es adecuado se puede utilizar para
obtener resultados y conclusiones sobre la variable en estudio. En caso
contrario, se debe reformular el modelo de probabilidad y repetir el proceso
desde el paso 4.
Si se obtiene más información se puede mejorar el conocimiento de la variabilidad
de la variable de interés. Puede hacerse por los siguientes medios:
Mejorar la estimación de los parámetros del modelo, utilizando métodos
estadísticos más eficaces.
Aumentando el tamaño muestral.
Reducir la variabilidad controlando la variabilidad sistemática que puede ser
debida a factores que influyen en la variable en estudio o controlando otras
variables relacionadas con la variable de interés y que explican en mayor o menor
medida su comportamiento. Para ello es necesario disponer de información
adicional a la de la propia variable de interés, y tener datos de los factores y/o
variables explicativas que influyen en ella.
Este texto se estudian los modelos estadísticos que estudian una variable utilizando
su relación con otras variables y/o factores. En particular se estudiarán los dos
modelos estadísticos más importantes y utilizados en la práctica,
El Diseño de Experimentos, que estudia la variabilidad de la variable de interés
controlando los factores que pueden influir en la misma.
Los Modelos de Regresión, que estudian la variabilidad de la variable de interés
teniendo en cuenta la relación funcional de la misma con otras variables
explicativas.
[Siguiente] [Arriba]
[Siguiente] [Anterior] [Arriba]
1.2 Inferencia Estadística. Conceptos básicos.
Puede definirse la Inferencia Estadística como
“El conjunto de métodos estadísticos que permiten deducir (inferir)
como se distribuye la población en estudio o las relaciones estocásticas
entre varias variables de interés a partir de la información que
proporciona una muestra”.
Para que un método de inferencia estadística proporcione buenos resultados debe
de:
Basarse en una técnica estadístico-matemática adecuada al problema y
suficientemente validada.
Utilizar una muestra que realmente sea representativa de la población y de un
tamaño suficiente.
Conceptos básicos que se utilizarán en este texto son los siguientes:
Población: es un conjunto homogéneo de individuos sobre los que se estudia una
o varias características que son, de alguna forma, observables.
Muestra: es un subconjunto de la población. El número de elementos de la
muestra se denomina tamaño muestral.
Muestreo aleatorio simple: es aquel en el que todos los individuos de la
población tienen la misma probabilidad de ser elegidos.
Muestra aleatoria simple, de una variable aleatoria X, con distribución F, de
tamaño n, es un conjunto de n variables aleatorias X1,X2,...,Xn, independientes e
igualmente distribuídas (i.i.d.) con distribución F.
Espacio muestral: es el conjunto de muestras posibles que pueden obtenerse al
seleccionar una muestra aleatoria, de tamaño n, de una cierta población.
Parámetro: es cualquier característica medible de la función de distribución de la
variable en estudio (media, varianza,..).
Estadístico: es una función de la muestra T
. Por tanto, es una
variable aleatoria que tiene una función de distribución que se denomina
distribución en el muestreo de T. Los estadísticos independientes del parámetro
a estimar se denominan estimadores.
Propiedades de los estimadores.
Sea n = n
un estimador del parámetro . Propiedades del
estimador son las siguientes
1. Estimador centrado o insesgado, tiene sesgo cero,
2. Estimador asintóticamente centrado o insesgado, verifica
3. Error Cuadrático Medio de
, es
n
4. Estimador consistente en media cuadrática, verifica
por tanto
5. La precisión o eficacia del estimador
n
es
Si el estimador es insesgado
6. Estimador de la media poblacional, se utiliza la media muestral definida
por
(1.1)
7. Si X sigue una distribución N
, se verifica que
(1.2)
8. Estimador de la varianza poblacional, se utiliza la cuasivarianza muestral
definida por
(1.3)
9. Si X sigue una distribución N
, se verifica que
(1.4)
10. Dado que normalmente la varianza poblacional se desconoce y es necesario
estimarla, es de interés el siguiente resultado
(1.5)
11.
[Siguiente] [Anterior] [Arriba]
[Anterior] [Arriba]
1.3 Contraste o test de hipótesis. Definiciones.
1.3.1 Definiciones básicas.
Un contraste o test de hipótesis es una técnica de Inferencia Estadística que
permite comprobar si la información que proporciona una muestra observada
concuerda (o no) con la hipótesis estadística formulada sobre el modelo de
probabilidad en estudio y, por tanto, se puede aceptar (o no) la hipótesis
formulada.
Una hipótesis estadística es cualquier conjetura sobre una o varias características
de interés de un modelo de probabilidad.
Una hipótesis estadística puede ser:
Paramétrica: es una afirmación sobre los valores de los parámetros poblacionales
desconocidos. Las hipótesis paramétricas se clasifican en
Simple: si la hipótesis asigna valores únicos a los parámetros ( = 1'5, = 10,
= Y ,...).
X
Compuesta: si la hipótesis asigna un rango de valores a los parámetros
poblacionales desconocidos ( > 1'5, 5 < < 10, X < Y ,...).
No Paramétrica: es una afirmación sobre alguna característica estadística de la
población en estudio. Por ejemplo, las observaciones son independientes, la
distribución de la variable en estudio es normal, la distribución es simétrica,...
La hipótesis que se contrasta se denomina hipótesis nula y, normalmente, se
denota por H0. Si se rechaza la hipótesis nula es porque se asume como correcta una
hipótesis complementaria que se denomina hipótesis alternativa y se denota por
H1.
1.3.2 Pasos a seguir en la realización de un contraste de hipótesis.
Al realizar cualquier contraste de hipótesis estadístico se deben seguir las
siguientes etapas:
1. Plantear el contraste de hipótesis, definiendo la hipótesis nula (H0, hipótesis
que se desea contrastar), y la hipótesis alternativa (H1, cualquier forma de
negación de la hipótesis nula ).
2. Definir una medida de discrepancia entre la información que proporciona la
muestra ( ) y la hipótesis H0. Esta medida de discrepancia
(1.6)
3. se denomina estadístico del contraste y será cualquier función de los datos
muestrales
y de la información de la hipótesis nula
.
La medida de discrepancia debe seguir una distribución conocida cuando H0
sea cierta, de forma que se pueda distinguir entre:
una discrepancia grande, la que tiene una probabilidad muy pequeña de ocurrir
cuando H0 es cierto.
una discrepancia pequeña, la que tiene una probabilidad grande de ocurrir cuando
H0 es cierta.
4. Decidir que valores de d se consideran muy grandes, cuando H0 es cierto,
para que sean atribuibles al azar. Ésto es, decidir que discrepancias se
consideran inadmisibles cuando H0 es correcto, lo que equivale a indicar el
valor del nivel de significación, que se denota por .
5. Tomar la muestra ( ), calcular el valor del estadistico asociado a la
muestra (valor crítico del contraste) y analizar:
Si es pequeño (pertenece a la región de aceptación), entonces se acepta la
hipótesis H0.
Si es grande (pertenece a la región de rechazo), entonces se rechaza la
hipótesis H0.
1.3.3 Tipos de Error en un contraste de hipótesis.
Al realizar un contraste se puede cometer uno de los dos errores siguientes:
Error tipo I, se rechaza la hipótesis nula H0 cuando es cierta.
Error tipo II, se acepta la hipótesis nula H0 cuando es falsa.
Situación real:
H0 es cierta H0 es falsa
Decisión:
ACEPTAR
CORRECTO ERROR II
H0
RECHAZAR
H0
ERROR I
CORRECTO
Tabla 1.1: Situaciones posibles en un contraste de hipótesis.
Debe tenerse en cuenta que sólo se puede cometer uno de los dos tipos de error y,
en la mayoría de las situaciones, se desea controlar controlar la probabilidad de
cometer un error de tipo I.
Se denomina nivel de significación de un contraste a la probabilidad de cometer
un error tipo I, se denota por y, por tanto,
(1.7)
Fijar el nivel de significación equivale a decidir de antemano la probabilidad
máxima que se está dispuesto a asumir de rechazar la hipótesis nula cuando es
cierta. El nivel de significación lo elige el experimentador y tiene por ello la
ventaja de tomarlo tan pequeño como desee (normalmente se toma = 0'05, 0'01 o
0'001).
La selección de un nivel de significación conduce a dividir en dos regiones el
conjunto de posibles valores del estadístico de contraste:
La región de Rechazo, con probabilidad , bajo H0.
La región de Aceptación, con probabilidad 1 - ,bajo H0.
f. densidad de D
0,4
D/H_0
0,3
D/H_1
0,2
E_ii
0,1
E_i
0
-4
-2
0
R. Aceptación
2
1.65
Figura 1.1. Tipos de errores. Contraste unilateral, P
4
6
R.Rechazo
= 0'05, P
= 0'36,
Si el estadístico de contraste toma un valor perteneciente a la región de
aceptación, entonces no existen evidencias suficientes para rechazar la hipótesis
nula con un nivel de significación
y el contraste se dice que estadísticamente no
es significativo. Si, por el contrario, el estadístico cae en la región de rechazo
entonces se asume que los datos no son compatibles con la hipótesis nula y se
rechaza a un nivel de significación . En este supuesto se dice que el contraste es
estadísticamente significativo.
Por tanto, resolver un contraste estadístico es calcular la región de aceptación y
la región de rechazo y actuar según la siguiente regla de decisión:
Se obtiene la muestra
contraste .
=
y se calcula el estadístico del
(1.8)
Según la forma de la región de rechazo, un contraste de hipótesis, paramétrico o
no, se denomina
Contraste unilateral o contraste de una cola es el contraste de hipótesis cuya
región de rechazo está formada por una cola de la distribución del estadístico de
contraste, bajo H0.
Contraste bilateral o contraste de dos colas es el contraste de hipótesis cuya
región de rechazo está formada por las dos colas de la distribución del estadístico
de contraste, bajo H0.
Figura 1.2. Contraste bilateral. H0 : = 0, H1 :
0.
Figura 1.3. Contraste unilateral H0 : > 0, H1 : < 0.
Ejemplo 1.1. Test de hipótesis estadística.
“La distribución del tamaño en Kb de los ficheros que resultan al digitalizar
imágenes con un determinado programa puede suponerse normal. El programa ha
sido mejorado en su última versión (versión B) hasta el punto de que quienes lo
comercializan garantizan una disminución en el tamaño medio de los ficheros
resultantes superior a 6 Kb con respecto a la versión anterior (versión A).
La nueva versión B se envió a probar a un centro de investigación privado que
utiliza la versión A. Las últimas 550 imágenes recibidas se digitalizaron con la nueva
versión B, obteniéndose que los tamaños de los ficheros resultantes presentaron una
media xB = 63'9 y una cuasivarianza B2 = 105'063. Cuando se comprobó que las 550
imágenes anteriores a éstas, digitalizadas con la versión antigua A, habían
proporcionado las siguientes medidas xA = 70'8 y A2 = 96'04, el centro no consideró
realista la diferencia anunciada por el proveedor y devolvieron el producto.
Los proveedores enviaron entonces un representante comercial y éste convenció
a los responsables del centro para la realización de una nueva prueba. Las 25
imágenes que había en ese momento en el laboratorio se digitalizaron con las dos
versiones del programa A y B. Finalmente se calcularon las diferencias en Kb de los
ficheros obtenidos con cada versión
resultando
5'210
9'607 12'442 11'248
10'785 -2'368
9'762
9'776
8'683 10'783
10'830 12'836 11'487 12'964
5'371
7'343
0'615 12'406
6'151
9'917
5'722
4'693
8'480
8'151
4'048
Estos resultados hicieron cambiar de idea a los responsables del centro y
adquirieron la nueva versión B.
Analizar ambas experiencias.
¿Cómo es posible que con tan sólo 25 datos se haya cambiado de opinión si la
experiencia primera se realizó en base a un tamaño de muestra 22 veces superior?”
Solución:
Se siguen los siguientes pasos
Paso 1: Especificar las hipótesis nula (H0) y alternativa (H1).
Sea A la esperanza de la distribución de los tamaños de los ficheros una vez
digitalizadas las imágenes con la versión A del programa y B la
correspondiente a la versión B actualizada. Se desea investigar si es
razonable asumir la afirmación del proveedor. El contraste a realizar es
(1.9)
Se supone que se verifican las siguientes hipótesis:
Las observaciones siguen una distribución normal.
Las observaciones son independientes.
Las dos muestras tienen igual varianza.
Se contrasta la tercera hipótesis de igualdad de las varianzas de las dos
muestras.
(1.10)
Fijado = 0'05, se calcula el estadístico del contraste
Este valor 2 no pertenece a la región de rechazo especificada para el
contraste de varianzas de dos muestras independientes que viene dado por
Por tanto se acepta la hipótesis de igualdad de las varianzas de las dos
muestras.
5
F_549,549
4
3
2
0'95
1
0'025
0'025
0
0,6
0,7
0,8
1
1,1
1,2
1,3
1'09
R. Rechazo
0'83 0,9
1'17 R. Rechazo
R. Aceptación
Figura 1.4. Contraste de igualdad de varianzas.
Paso 2: Se elige un estadístico de contraste apropiado: d1 = d1(H0, ). En este
problema una buena elección es la siguiente.
(1.11)
Si H0 es cierto, entonces
(1.12)
T
2
es un estimador del parámetro
A
2
=
B
2
=
, que viene dado por
2
(1.13)
Paso 3: Se fija el nivel de significación , esto es, la probabilidad de error de
tipo I. En este ejemplo se utiliza = 0'05.
Paso 4: Se calculan las regiones de rechazo y de aceptación del contraste,
teniendo en cuenta si el contraste es unilateral o bilateral.
En el ejemplo el contraste es unilateral y teniendo en cuenta
de rechazo para = 0'05 es
la región
(1.14)
0,4
t_1098
0,3
0,2
0'95
0,1
0'05
0
-4
-3
-2
-1
0
R. Aceptación 1'48
1
1'64
2
3
4
R. Rechazo
Figura 1.5. Contraste de igualdad de medias. Primer estudio.
Paso 5: Se obtiene la muestra y utilizando el estadístico de contraste d1 dado
en
se obtiene el valor crítico = (X1, ,Xn).
En el ejemplo en estudio, en primer lugar se calcula la estimación de la
varianza
Ahora el valor crítico del contraste C1 es
El nivel crítico asociado del contraste es 0'0683 (ver siguiente sección).
Paso 6: Se concluye si el test es estadísticamente significativo o no al nivel
de significación según que el valor crítico pertenezca a la región de rechazo
o a la región de aceptación, respectivamente.
Como 1 = 1'488 no pertenece a la región de rechazo dada en
se acepta
la hipótesis nula. Por consiguiente los datos muestrales no avalan que el
tamaño medio de los ficheros disminuye en más de 6 Kb como afirman los
vendedores del nuevo programa.
Tal y como se resolvió el problema hay un parámetro que no se controla, el error de
tipo II, ya que se desconoce la probabilidad de aceptar la hipótesis nula cuando es
falsa.
Si, simultáneamente, se desea controlar la probabilidad de error de tipo I
y la
probabilidad de error de tipo II ( ( 1)) se debe especificar el tamaño muestral que
se está dispuesto a asumir. Ésto es, si se quiere controlar el porcentaje de veces
que se detecta la hipótesis alternativa (que se denota = 1) cuando es cierta, que
en términos de probabilidad se denota por
es necesario calcular el tamaño muestral n adecuado para garantizar que ambas
probabilidades de error sean las fijadas.
Obviamente existe una relación entre los tres parámetros (n, y ( )), conocidos
dos de ellos se puede obtener el tercero:
n, tamaño muestral,
, probabilidad de error de tipo I,
( ), probabilidad de error de tipo II.
En este ejemplo puede suponerse que existe independencia entre las observaciones
muestrales y que no hay relación entre los dos grupos de 550 imágenes digitalizadas
por cada una de las dos versiones del programa. Por tanto se trata de dos muestras
independientes.
En la segunda experiencia que se propone los datos se han tomado apareados ya
que se han ejecutado las dos versiones del programa sobre las mismas imágenes,
primero la versión A y después la B. Por tanto hay independencia entre las
observaciones de cada muestra pero no entre las observaciones de una muestra
respecto a la otra. Para resolver el problema en este segundo contexto y evitar el
problema de dependencia, se trabaja con la variable diferencia del tamaño del
fichero al digitalizar la imagen con la versión A del programa y el tamaño del
fichero al utilizar la versión B
. Se calculan las 25 diferencias entre
los tamaños de los ficheros resultantes y se obtiene una muestra única. De la que se
obtiene
El contraste es ahora
(1.15)
El estadístico del contraste es
(1.16)
Bajo las hipótesis supuestas se verifica que la distribución de d3, cuando H0 es
cierta, es una distribución t
(1.17)
Para = 0'05 se obtiene la siguiente región de rechazo
Utilizando
Este valor
se obtiene el siguiente valor crítico
3
pertenece a la región de rechazo y se rechaza H0.
Obsérvese que también se rechazaría H0 con = 0'01 (de hecho el nivel crítico es
0 003). La decisión de rechazo parece clara y con garantías, en contradicción con la
decisión de la primera experiencia.
'
0,4
t_24
0,3
0,2
0'95
0,1
0'05
0'003
0
-4
-3
-2
-1
R. Aceptación
0
11'71 2
3 4
2'97
R. Rechazo
Figura 1.6. Contraste sobre la media. Datos apareados.
¿Por qué esta diferencia en la respuesta?
Viene motivada por la alta variabilidad de las variables del primer experimento
XA y XB. Con el muestreo apareado la variabilidad ha disminuido considerablemente,
la varianza de la variable diferencia Z es considerablemente inferior a la varianza
de XA y XB. La disminución tan fuerte en la variabilidad está motivada en la
existencia de una alta correlación positiva entre las variables XA y XB, ya que las
imágenes que al digitalizarlas con una versión generan ficheros grandes (pequeños)
también producirán ficheros grandes (pequeños) al ser digitalizadas con la otra
versión.
1.3.4 Nivel crítico y región crítica.
Si el contraste de hipótesis se va estudiar con una única muestra y no de forma
repetida y sistemática, se puede utilizar una filosofía alternativa y más informativa
que se basa en los conceptos de nivel crítico y región crítica.
Se denomina nivel crítico o p-valor a la probabilidad p de obtener una
discrepancia con H0 mayor o igual que el valor crítico cuando H0 es correcto.
(1.9)
La región crítica es el conjunto de valores para los cuales d es mayor o igual
que el valor crítico d .
Por tanto,
Comentarios:
1. El nivel crítico sólo puede calcularse una vez tomada la muestra,
obteniéndose niveles críticos distintos para cada muestra.
2. El nivel crítico p puede interpretarse como un nivel mínimo de
significación en el sentido de que niveles de significación iguales o
superiores al p - valor llevarán a rechazar la hipótesis nula.
Por tanto, cuanto menor sea el p - valor mayor es el grado de
incompatibilidad de la muestra con H0, lo que lleva a rechazar H0.
3. El cálculo del nivel crítico no proporciona de modo sistemático una
decisión entre H0 y H1.
4. En las Figuras 1.7 (y 1.8) pueden verse representados el nivel crítico y la
región crítica en un contraste unilateral (y bilateral) acerca de la media,
bajo la hipótesis de normalidad.
Figura 1.7. Nivel crítico. Contraste unilateral sobre la media con
= 0'84.
0,4
p-valor=2*0'20
0,3
0,2
0,1
0'20
0'20
0
-3
-2
R. Crítica
-1
-0'84
0
1
0'84
2
3
R. Crítica
Figura 1.8. Nivel crítico. Contraste bilateral sobre la media con = 0'84.
1.3.5 Potencia de un contraste.
Para medir la bondad de un contraste de hipótesis se utiliza el concepto de
potencia del contraste. Considérese que se está estudiando un contraste de
hipótesis acerca del parámetro , siendo la hipótesis nula
frente a la hipótesis alternativa
Se denomina potencia al nivel del estadístico de contraste d a la función que
asigna a cada valor del parámetro la probabilidad de rechazar H0 cuando es
correcto.
Esto es,
donde
(1.10)
Comentarios:
1. Al grafo de la potencia se lo denomina curva de potencia. En algunos
textos se trabaja con la función curva característica de operación
definida por
(1.11)
2. Si denotamos por a la probabilidad de error de tipo I, se verifica que
Cuanto más lejana se encuentra la alternativa H1 de H0 menor es la
probabilidad de incurrir en un error tipo II ( ) y, por consiguiente, la
potencia tomará valores más próximos a 1.
3. Si la potencia en la hipótesis alternativa es siempre muy próxima a 1
entonces se dice que el estadístico de contraste es muy potente para
contrastar H0 ya que en ese caso las muestras serán, con alta
probabilidad, incompatibles con H0 cuando H1 sea cierta.
Por tanto puede interpretarse la potencia de un contraste como su sensibilidad
o capacidad para detectar una hipótesis alternativa.
1. Fijado un nivel de significación , un contraste d1 se dice más potente
que otro d2 para contrastar la hipótesis nula H0 si
(1.12)
2. En la Figura 1.9. se representa la función de potencia del contraste H0 :
= 0 frente a la alternativa H1 :
0 (contraste bilateral), bajo la
hipótesis de normalidad, con = 0'10 y tamaño muestral n = 100.
En la Figura 1.10. se representa la función de potencia del contraste H0 :
< 0 frente a la alternativa H1 : > 0 (contraste unilateral), bajo la
hipótesis de normalidad, con = 0'10 y tamaño muestral n = 100.
Figura 1.9. Función de Potencia. Contraste bilateral acerca de la media.
Figura 1.10. Función de Potencia. Contraste unilateral acerca de la media.
1.3.6 Algunos contrastes paramétricos importantes.
Se exponen en esta sección algunos de los estadísticos de contraste más
importantes para contrastar hipótesis nulas del tipo H0 : = 0, siendo un
parámetro desconocido y de cuyo valor depende la distribución de una variable
de interés X.
Contrastes sobre la media. A partir de una muestra
extraída de
una población X normal con media y varianza 2 desconocidas, se desea
contrastar la hipótesis nula
El estadístico de contraste es
(1.13)
donde es la desviación típica muestral corregida
. Si H0 es cierto
Contrastes sobre la varianza. Sea la muestra aleatoria simple
extraída de una población X normal con varianza 2, se desea contrastar
El estadístico de contraste es
(1.14)
Si H0 es cierto
Contrastes sobre la igualdad de varianzas. Sean dos muestras aleatorias simples
e
obtenidas de dos poblaciones X e Y, con
distribuciones respectivas
N
yN
.
Se desea contrastar
El estadístico de contraste es
(1.15)
Si H0 es cierto
Contrastes sobre la diferencia de medias, muestras independientes e igualdad
de varianzas. Sean dos muestras aleatorias simples
e
obtenidas de dos poblaciones X e Y, con distribuciones N
N
. Por tanto se supone que
2
X
=
Y
2
=
. Se desea contrastar
2
y
El estadístico de contraste es
(1.16)
siendo
(1.17)
un estimador insesgado eficiente de la varianza que se calcula a partir de la
información que proporcionan ambas muestras.
Si H0 es cierto se verifica que
Contrastes sobre la diferencia de medias, muestras independientes y varianzas
desiguales. Sean dos muestras aleatorias simples
e
obtenidas de dos poblaciones X e Y, con distribuciones respectivas
N
yN
,y se supone que
2
X
Y
2.
Se desea contrastar
El estadístico de contraste que se utiliza es
(1.18)
Si H0 es cierto se verifica que
siendo g = n + m - 2 + , con un término de corrección (ver Cao y otros (2001)).
Contrastes sobre la diferencia de medias, muestreo apareado. En este caso las
dos muestras aleatorias simples tienen igual tamaño muestral
e
y son obtenidas al realizar dos observaciones Xi e Y i sobre el
mismo individuo, el i-ésimo. Por la naturaleza del muestreo apareado las dos
muestras son dependientes. Para eliminar este problema se estudia la variable
diferencia Z = Y - X, por tanto, a partir de las dos muestras iniciales se calcula la
muestra de diferencias
, Zi = Xi - Yi . Para contrastar la hipótesis
Se utiliza el siguiente estadístico de contraste
(1.19)
Si H0 es cierto
[Anterior] [Arriba]
[Anterior] [Arriba]
1.3 Contraste o test de hipótesis. Definiciones.
1.3.1 Definiciones básicas.
Un contraste o test de hipótesis es una técnica de Inferencia Estadística que
permite comprobar si la información que proporciona una muestra observada
concuerda (o no) con la hipótesis estadística formulada sobre el modelo de
probabilidad en estudio y, por tanto, se puede aceptar (o no) la hipótesis
formulada.
Una hipótesis estadística es cualquier conjetura sobre una o varias características
de interés de un modelo de probabilidad.
Una hipótesis estadística puede ser:
Paramétrica: es una afirmación sobre los valores de los parámetros poblacionales
desconocidos. Las hipótesis paramétricas se clasifican en
Simple: si la hipótesis asigna valores únicos a los parámetros ( = 1'5, = 10,
= Y ,...).
X
Compuesta: si la hipótesis asigna un rango de valores a los parámetros
poblacionales desconocidos ( > 1'5, 5 < < 10, X < Y ,...).
No Paramétrica: es una afirmación sobre alguna característica estadística de la
población en estudio. Por ejemplo, las observaciones son independientes, la
distribución de la variable en estudio es normal, la distribución es simétrica,...
La hipótesis que se contrasta se denomina hipótesis nula y, normalmente, se
denota por H0. Si se rechaza la hipótesis nula es porque se asume como correcta una
hipótesis complementaria que se denomina hipótesis alternativa y se denota por
H1.
1.3.2 Pasos a seguir en la realización de un contraste de hipótesis.
Al realizar cualquier contraste de hipótesis estadístico se deben seguir las
siguientes etapas:
1. Plantear el contraste de hipótesis, definiendo la hipótesis nula (H0, hipótesis
que se desea contrastar), y la hipótesis alternativa (H1, cualquier forma de
negación de la hipótesis nula ).
2. Definir una medida de discrepancia entre la información que proporciona la
muestra ( ) y la hipótesis H0. Esta medida de discrepancia
(1.6)
3. se denomina estadístico del contraste y será cualquier función de los datos
muestrales
y de la información de la hipótesis nula
.
La medida de discrepancia debe seguir una distribución conocida cuando H0
sea cierta, de forma que se pueda distinguir entre:
una discrepancia grande, la que tiene una probabilidad muy pequeña de ocurrir
cuando H0 es cierto.
una discrepancia pequeña, la que tiene una probabilidad grande de ocurrir cuando
H0 es cierta.
4. Decidir que valores de d se consideran muy grandes, cuando H0 es cierto,
para que sean atribuibles al azar. Ésto es, decidir que discrepancias se
consideran inadmisibles cuando H0 es correcto, lo que equivale a indicar el
valor del nivel de significación, que se denota por .
5. Tomar la muestra ( ), calcular el valor del estadistico asociado a la
muestra (valor crítico del contraste) y analizar:
Si es pequeño (pertenece a la región de aceptación), entonces se acepta la
hipótesis H0.
Si es grande (pertenece a la región de rechazo), entonces se rechaza la
hipótesis H0.
1.3.3 Tipos de Error en un contraste de hipótesis.
Al realizar un contraste se puede cometer uno de los dos errores siguientes:
Error tipo I, se rechaza la hipótesis nula H0 cuando es cierta.
Error tipo II, se acepta la hipótesis nula H0 cuando es falsa.
Situación real:
H0 es cierta H0 es falsa
Decisión:
ACEPTAR
CORRECTO ERROR II
H0
RECHAZAR
H0
ERROR I
CORRECTO
Tabla 1.1: Situaciones posibles en un contraste de hipótesis.
Debe tenerse en cuenta que sólo se puede cometer uno de los dos tipos de error y,
en la mayoría de las situaciones, se desea controlar controlar la probabilidad de
cometer un error de tipo I.
Se denomina nivel de significación de un contraste a la probabilidad de cometer
un error tipo I, se denota por y, por tanto,
(1.7)
Fijar el nivel de significación equivale a decidir de antemano la probabilidad
máxima que se está dispuesto a asumir de rechazar la hipótesis nula cuando es
cierta. El nivel de significación lo elige el experimentador y tiene por ello la
ventaja de tomarlo tan pequeño como desee (normalmente se toma = 0'05, 0'01 o
0'001).
La selección de un nivel de significación conduce a dividir en dos regiones el
conjunto de posibles valores del estadístico de contraste:
La región de Rechazo, con probabilidad , bajo H0.
La región de Aceptación, con probabilidad 1 - ,bajo H0.
f. densidad de D
0,4
D/H_0
0,3
D/H_1
0,2
E_ii
0,1
E_i
0
-4
-2
0
R. Aceptación
2
1.65
4
6
R.Rechazo
Figura 1.1. Tipos de errores. Contraste unilateral, P
= 0'05, P
= 0'36,
Si el estadístico de contraste toma un valor perteneciente a la región de
aceptación, entonces no existen evidencias suficientes para rechazar la hipótesis
nula con un nivel de significación
y el contraste se dice que estadísticamente no
es significativo. Si, por el contrario, el estadístico cae en la región de rechazo
entonces se asume que los datos no son compatibles con la hipótesis nula y se
rechaza a un nivel de significación . En este supuesto se dice que el contraste es
estadísticamente significativo.
Por tanto, resolver un contraste estadístico es calcular la región de aceptación y
la región de rechazo y actuar según la siguiente regla de decisión:
Se obtiene la muestra
contraste .
=
y se calcula el estadístico del
(1.8)
Según la forma de la región de rechazo, un contraste de hipótesis, paramétrico o
no, se denomina
Contraste unilateral o contraste de una cola es el contraste de hipótesis cuya
región de rechazo está formada por una cola de la distribución del estadístico de
contraste, bajo H0.
Contraste bilateral o contraste de dos colas es el contraste de hipótesis cuya
región de rechazo está formada por las dos colas de la distribución del estadístico
de contraste, bajo H0.
Figura 1.2. Contraste bilateral. H0 : = 0, H1 :
0.
Figura 1.3. Contraste unilateral H0 : > 0, H1 : < 0.
Ejemplo 1.1. Test de hipótesis estadística.
“La distribución del tamaño en Kb de los ficheros que resultan al digitalizar
imágenes con un determinado programa puede suponerse normal. El programa ha
sido mejorado en su última versión (versión B) hasta el punto de que quienes lo
comercializan garantizan una disminución en el tamaño medio de los ficheros
resultantes superior a 6 Kb con respecto a la versión anterior (versión A).
La nueva versión B se envió a probar a un centro de investigación privado que
utiliza la versión A. Las últimas 550 imágenes recibidas se digitalizaron con la nueva
versión B, obteniéndose que los tamaños de los ficheros resultantes presentaron una
media xB = 63'9 y una cuasivarianza B2 = 105'063. Cuando se comprobó que las 550
imágenes anteriores a éstas, digitalizadas con la versión antigua A, habían
proporcionado las siguientes medidas xA = 70'8 y A2 = 96'04, el centro no consideró
realista la diferencia anunciada por el proveedor y devolvieron el producto.
Los proveedores enviaron entonces un representante comercial y éste convenció
a los responsables del centro para la realización de una nueva prueba. Las 25
imágenes que había en ese momento en el laboratorio se digitalizaron con las dos
versiones del programa A y B. Finalmente se calcularon las diferencias en Kb de los
ficheros obtenidos con cada versión
resultando
5'210
9'607 12'442 11'248
10'785 -2'368
9'762
8'683 10'783
10'830 12'836 11'487 12'964
7'343
0'615 12'406
9'776
6'151
5'371
9'917
5'722
4'693
4'048
8'480
8'151
Estos resultados hicieron cambiar de idea a los responsables del centro y
adquirieron la nueva versión B.
Analizar ambas experiencias.
¿Cómo es posible que con tan sólo 25 datos se haya cambiado de opinión si la
experiencia primera se realizó en base a un tamaño de muestra 22 veces superior?”
Solución:
Se siguen los siguientes pasos
Paso 1: Especificar las hipótesis nula (H0) y alternativa (H1).
Sea A la esperanza de la distribución de los tamaños de los ficheros una vez
digitalizadas las imágenes con la versión A del programa y B la
correspondiente a la versión B actualizada. Se desea investigar si es
razonable asumir la afirmación del proveedor. El contraste a realizar es
(1.9)
Se supone que se verifican las siguientes hipótesis:
Las observaciones siguen una distribución normal.
Las observaciones son independientes.
Las dos muestras tienen igual varianza.
Se contrasta la tercera hipótesis de igualdad de las varianzas de las dos
muestras.
(1.10)
Fijado = 0'05, se calcula el estadístico del contraste
Este valor 2 no pertenece a la región de rechazo especificada para el
contraste de varianzas de dos muestras independientes que viene dado por
Por tanto se acepta la hipótesis de igualdad de las varianzas de las dos
muestras.
5
F_549,549
4
3
2
0'95
1
0'025
0'025
0
0,6
0,7
0,8
1
1,1
1,2
1,3
1'09
R. Rechazo
0'83 0,9
1'17 R. Rechazo
R. Aceptación
Figura 1.4. Contraste de igualdad de varianzas.
Paso 2: Se elige un estadístico de contraste apropiado: d1 = d1(H0, ). En este
problema una buena elección es la siguiente.
(1.11)
Si H0 es cierto, entonces
(1.12)
T
2
es un estimador del parámetro
A
2
=
B
2
=
, que viene dado por
2
(1.13)
Paso 3: Se fija el nivel de significación , esto es, la probabilidad de error de
tipo I. En este ejemplo se utiliza = 0'05.
Paso 4: Se calculan las regiones de rechazo y de aceptación del contraste,
teniendo en cuenta si el contraste es unilateral o bilateral.
En el ejemplo el contraste es unilateral y teniendo en cuenta
de rechazo para = 0'05 es
la región
(1.14)
0,4
t_1098
0,3
0,2
0'95
0,1
0'05
0
-4
-3
-2
-1
0
R. Aceptación 1'48
1
1'64
2
3
4
R. Rechazo
Figura 1.5. Contraste de igualdad de medias. Primer estudio.
Paso 5: Se obtiene la muestra y utilizando el estadístico de contraste d1 dado
en
se obtiene el valor crítico = (X1, ,Xn).
En el ejemplo en estudio, en primer lugar se calcula la estimación de la
varianza
Ahora el valor crítico del contraste C1 es
El nivel crítico asociado del contraste es 0'0683 (ver siguiente sección).
Paso 6: Se concluye si el test es estadísticamente significativo o no al nivel
de significación según que el valor crítico pertenezca a la región de rechazo
o a la región de aceptación, respectivamente.
Como 1 = 1'488 no pertenece a la región de rechazo dada en
se acepta
la hipótesis nula. Por consiguiente los datos muestrales no avalan que el
tamaño medio de los ficheros disminuye en más de 6 Kb como afirman los
vendedores del nuevo programa.
Tal y como se resolvió el problema hay un parámetro que no se controla, el error de
tipo II, ya que se desconoce la probabilidad de aceptar la hipótesis nula cuando es
falsa.
Si, simultáneamente, se desea controlar la probabilidad de error de tipo I
y la
probabilidad de error de tipo II ( ( 1)) se debe especificar el tamaño muestral que
se está dispuesto a asumir. Ésto es, si se quiere controlar el porcentaje de veces
que se detecta la hipótesis alternativa (que se denota = 1) cuando es cierta, que
en términos de probabilidad se denota por
es necesario calcular el tamaño muestral n adecuado para garantizar que ambas
probabilidades de error sean las fijadas.
Obviamente existe una relación entre los tres parámetros (n, y ( )), conocidos
dos de ellos se puede obtener el tercero:
n, tamaño muestral,
, probabilidad de error de tipo I,
( ), probabilidad de error de tipo II.
En este ejemplo puede suponerse que existe independencia entre las observaciones
muestrales y que no hay relación entre los dos grupos de 550 imágenes digitalizadas
por cada una de las dos versiones del programa. Por tanto se trata de dos muestras
independientes.
En la segunda experiencia que se propone los datos se han tomado apareados ya
que se han ejecutado las dos versiones del programa sobre las mismas imágenes,
primero la versión A y después la B. Por tanto hay independencia entre las
observaciones de cada muestra pero no entre las observaciones de una muestra
respecto a la otra. Para resolver el problema en este segundo contexto y evitar el
problema de dependencia, se trabaja con la variable diferencia del tamaño del
fichero al digitalizar la imagen con la versión A del programa y el tamaño del
fichero al utilizar la versión B
. Se calculan las 25 diferencias entre
los tamaños de los ficheros resultantes y se obtiene una muestra única. De la que se
obtiene
El contraste es ahora
(1.15)
El estadístico del contraste es
(1.16)
Bajo las hipótesis supuestas se verifica que la distribución de d3, cuando H0 es
cierta, es una distribución t
(1.17)
Para = 0'05 se obtiene la siguiente región de rechazo
Utilizando
Este valor
se obtiene el siguiente valor crítico
3
pertenece a la región de rechazo y se rechaza H0.
Obsérvese que también se rechazaría H0 con = 0'01 (de hecho el nivel crítico es
0'003). La decisión de rechazo parece clara y con garantías, en contradicción con la
decisión de la primera experiencia.
0,4
t_24
0,3
0,2
0'95
0,1
0'05
0'003
0
-4
-3
-2
-1
R. Aceptación
0
11'71 2
3
4
2'97
R. Rechazo
Figura 1.6. Contraste sobre la media. Datos apareados.
¿Por qué esta diferencia en la respuesta?
Viene motivada por la alta variabilidad de las variables del primer experimento
XA y XB. Con el muestreo apareado la variabilidad ha disminuido considerablemente,
la varianza de la variable diferencia Z es considerablemente inferior a la varianza
de XA y XB. La disminución tan fuerte en la variabilidad está motivada en la
existencia de una alta correlación positiva entre las variables XA y XB, ya que las
imágenes que al digitalizarlas con una versión generan ficheros grandes (pequeños)
también producirán ficheros grandes (pequeños) al ser digitalizadas con la otra
versión.
1.3.4 Nivel crítico y región crítica.
Si el contraste de hipótesis se va estudiar con una única muestra y no de forma
repetida y sistemática, se puede utilizar una filosofía alternativa y más informativa
que se basa en los conceptos de nivel crítico y región crítica.
Se denomina nivel crítico o p-valor a la probabilidad p de obtener una
discrepancia con H0 mayor o igual que el valor crítico cuando H0 es correcto.
(1.9)
La región crítica es el conjunto de valores para los cuales d es mayor o igual
que el valor crítico d .
Por tanto,
Comentarios:
1. El nivel crítico sólo puede calcularse una vez tomada la muestra,
obteniéndose niveles críticos distintos para cada muestra.
2. El nivel crítico p puede interpretarse como un nivel mínimo de
significación en el sentido de que niveles de significación iguales o
superiores al p - valor llevarán a rechazar la hipótesis nula.
Por tanto, cuanto menor sea el p - valor mayor es el grado de
incompatibilidad de la muestra con H0, lo que lleva a rechazar H0.
3. El cálculo del nivel crítico no proporciona de modo sistemático una
decisión entre H0 y H1.
4. En las Figuras 1.7 (y 1.8) pueden verse representados el nivel crítico y la
región crítica en un contraste unilateral (y bilateral) acerca de la media,
bajo la hipótesis de normalidad.
Figura 1.7. Nivel crítico. Contraste unilateral sobre la media con
= 0'84.
0,4
p-valor=2*0'20
0,3
0,2
0,1
0'20
0'20
0
-3
-2
R. Crítica
-1
-0'84
0
1
0'84
2
3
R. Crítica
Figura 1.8. Nivel crítico. Contraste bilateral sobre la media con = 0'84.
1.3.5 Potencia de un contraste.
Para medir la bondad de un contraste de hipótesis se utiliza el concepto de
potencia del contraste. Considérese que se está estudiando un contraste de
hipótesis acerca del parámetro , siendo la hipótesis nula
frente a la hipótesis alternativa
Se denomina potencia al nivel del estadístico de contraste d a la función que
asigna a cada valor del parámetro la probabilidad de rechazar H0 cuando es
correcto.
Esto es,
donde
(1.10)
Comentarios:
1. Al grafo de la potencia se lo denomina curva de potencia. En algunos
textos se trabaja con la función curva característica de operación
definida por
(1.11)
2. Si denotamos por a la probabilidad de error de tipo I, se verifica que
Cuanto más lejana se encuentra la alternativa H1 de H0 menor es la
probabilidad de incurrir en un error tipo II ( ) y, por consiguiente, la
potencia tomará valores más próximos a 1.
3. Si la potencia en la hipótesis alternativa es siempre muy próxima a 1
entonces se dice que el estadístico de contraste es muy potente para
contrastar H0 ya que en ese caso las muestras serán, con alta
probabilidad, incompatibles con H0 cuando H1 sea cierta.
Por tanto puede interpretarse la potencia de un contraste como su sensibilidad
o capacidad para detectar una hipótesis alternativa.
1. Fijado un nivel de significación , un contraste d1 se dice más potente
que otro d2 para contrastar la hipótesis nula H0 si
(1.12)
2. En la Figura 1.9. se representa la función de potencia del contraste H0 :
= 0 frente a la alternativa H1 :
0 (contraste bilateral), bajo la
hipótesis de normalidad, con = 0'10 y tamaño muestral n = 100.
En la Figura 1.10. se representa la función de potencia del contraste H0 :
< 0 frente a la alternativa H1 : > 0 (contraste unilateral), bajo la
hipótesis de normalidad, con = 0'10 y tamaño muestral n = 100.
Figura 1.9. Función de Potencia. Contraste bilateral acerca de la media.
Figura 1.10. Función de Potencia. Contraste unilateral acerca de la media.
1.3.6 Algunos contrastes paramétricos importantes.
Se exponen en esta sección algunos de los estadísticos de contraste más
importantes para contrastar hipótesis nulas del tipo H0 : = 0, siendo un
parámetro desconocido y de cuyo valor depende la distribución de una variable
de interés X.
Contrastes sobre la media. A partir de una muestra
extraída de
2
una población X normal con media y varianza desconocidas, se desea
contrastar la hipótesis nula
El estadístico de contraste es
(1.13)
donde es la desviación típica muestral corregida
. Si H0 es cierto
Contrastes sobre la varianza. Sea la muestra aleatoria simple
extraída de una población X normal con varianza 2, se desea contrastar
El estadístico de contraste es
(1.14)
Si H0 es cierto
Contrastes sobre la igualdad de varianzas. Sean dos muestras aleatorias simples
e
obtenidas de dos poblaciones X e Y, con
distribuciones respectivas
N
yN
.
Se desea contrastar
El estadístico de contraste es
(1.15)
Si H0 es cierto
Contrastes sobre la diferencia de medias, muestras independientes e igualdad
de varianzas. Sean dos muestras aleatorias simples
e
obtenidas de dos poblaciones X e Y, con distribuciones N
N
. Por tanto se supone que
2
X
=
Y
2
=
. Se desea contrastar
2
y
El estadístico de contraste es
(1.16)
siendo
(1.17)
un estimador insesgado eficiente de la varianza que se calcula a partir de la
información que proporcionan ambas muestras.
Si H0 es cierto se verifica que
Contrastes sobre la diferencia de medias, muestras independientes y varianzas
desiguales. Sean dos muestras aleatorias simples
e
obtenidas de dos poblaciones X e Y, con distribuciones respectivas
N
yN
,y se supone que
2
X
Y
2.
Se desea contrastar
El estadístico de contraste que se utiliza es
(1.18)
Si H0 es cierto se verifica que
siendo g = n + m - 2 + , con un término de corrección (ver Cao y otros (2001)).
Contrastes sobre la diferencia de medias, muestreo apareado. En este caso las
dos muestras aleatorias simples tienen igual tamaño muestral
e
y son obtenidas al realizar dos observaciones Xi e Y i sobre el
mismo individuo, el i-ésimo. Por la naturaleza del muestreo apareado las dos
muestras son dependientes. Para eliminar este problema se estudia la variable
diferencia Z = Y - X, por tanto, a partir de las dos muestras iniciales se calcula la
muestra de diferencias
, Zi = Xi - Yi . Para contrastar la hipótesis
Se utiliza el siguiente estadístico de contraste
(1.19)
Si H0 es cierto
[Anterior] [Arriba]
[Anterior] [Arriba]
1.3 Contraste o test de hipótesis. Definiciones.
1.3.1 Definiciones básicas.
Un contraste o test de hipótesis es una técnica de Inferencia Estadística que
permite comprobar si la información que proporciona una muestra observada
concuerda (o no) con la hipótesis estadística formulada sobre el modelo de
probabilidad en estudio y, por tanto, se puede aceptar (o no) la hipótesis
formulada.
Una hipótesis estadística es cualquier conjetura sobre una o varias características
de interés de un modelo de probabilidad.
Una hipótesis estadística puede ser:
Paramétrica: es una afirmación sobre los valores de los parámetros poblacionales
desconocidos. Las hipótesis paramétricas se clasifican en
Simple: si la hipótesis asigna valores únicos a los parámetros ( = 1'5, = 10,
= Y ,...).
X
Compuesta: si la hipótesis asigna un rango de valores a los parámetros
poblacionales desconocidos ( > 1'5, 5 < < 10, X < Y ,...).
No Paramétrica: es una afirmación sobre alguna característica estadística de la
población en estudio. Por ejemplo, las observaciones son independientes, la
distribución de la variable en estudio es normal, la distribución es simétrica,...
La hipótesis que se contrasta se denomina hipótesis nula y, normalmente, se
denota por H0. Si se rechaza la hipótesis nula es porque se asume como correcta una
hipótesis complementaria que se denomina hipótesis alternativa y se denota por
H1.
1.3.2 Pasos a seguir en la realización de un contraste de hipótesis.
Al realizar cualquier contraste de hipótesis estadístico se deben seguir las
siguientes etapas:
1. Plantear el contraste de hipótesis, definiendo la hipótesis nula (H0, hipótesis
que se desea contrastar), y la hipótesis alternativa (H1, cualquier forma de
negación de la hipótesis nula ).
2. Definir una medida de discrepancia entre la información que proporciona la
muestra ( ) y la hipótesis H0. Esta medida de discrepancia
(1.6)
3. se denomina estadístico del contraste y será cualquier función de los datos
muestrales
y de la información de la hipótesis nula
.
La medida de discrepancia debe seguir una distribución conocida cuando H0
sea cierta, de forma que se pueda distinguir entre:
una discrepancia grande, la que tiene una probabilidad muy pequeña de ocurrir
cuando H0 es cierto.
una discrepancia pequeña, la que tiene una probabilidad grande de ocurrir cuando
H0 es cierta.
4. Decidir que valores de d se consideran muy grandes, cuando H0 es cierto,
para que sean atribuibles al azar. Ésto es, decidir que discrepancias se
consideran inadmisibles cuando H0 es correcto, lo que equivale a indicar el
valor del nivel de significación, que se denota por .
5. Tomar la muestra ( ), calcular el valor del estadistico asociado a la
muestra (valor crítico del contraste) y analizar:
Si es pequeño (pertenece a la región de aceptación), entonces se acepta la
hipótesis H0.
Si es grande (pertenece a la región de rechazo), entonces se rechaza la
hipótesis H0.
1.3.3 Tipos de Error en un contraste de hipótesis.
Al realizar un contraste se puede cometer uno de los dos errores siguientes:
Error tipo I, se rechaza la hipótesis nula H0 cuando es cierta.
Error tipo II, se acepta la hipótesis nula H0 cuando es falsa.
Situación real:
H0 es cierta H0 es falsa
Decisión:
ACEPTAR
CORRECTO ERROR II
H0
RECHAZAR
H0
ERROR I
CORRECTO
Tabla 1.1: Situaciones posibles en un contraste de hipótesis.
Debe tenerse en cuenta que sólo se puede cometer uno de los dos tipos de error y,
en la mayoría de las situaciones, se desea controlar controlar la probabilidad de
cometer un error de tipo I.
Se denomina nivel de significación de un contraste a la probabilidad de cometer
un error tipo I, se denota por y, por tanto,
(1.7)
Fijar el nivel de significación equivale a decidir de antemano la probabilidad
máxima que se está dispuesto a asumir de rechazar la hipótesis nula cuando es
cierta. El nivel de significación lo elige el experimentador y tiene por ello la
ventaja de tomarlo tan pequeño como desee (normalmente se toma = 0'05, 0'01 o
0'001).
La selección de un nivel de significación conduce a dividir en dos regiones el
conjunto de posibles valores del estadístico de contraste:
La región de Rechazo, con probabilidad , bajo H0.
La región de Aceptación, con probabilidad 1 - ,bajo H0.
f. densidad de D
0,4
D/H_0
0,3
D/H_1
0,2
E_ii
0,1
E_i
0
-4
-2
0
R. Aceptación
2
1.65
4
6
R.Rechazo
Figura 1.1. Tipos de errores. Contraste unilateral, P
= 0'05, P
= 0'36,
Si el estadístico de contraste toma un valor perteneciente a la región de
aceptación, entonces no existen evidencias suficientes para rechazar la hipótesis
nula con un nivel de significación
y el contraste se dice que estadísticamente no
es significativo. Si, por el contrario, el estadístico cae en la región de rechazo
entonces se asume que los datos no son compatibles con la hipótesis nula y se
rechaza a un nivel de significación . En este supuesto se dice que el contraste es
estadísticamente significativo.
Por tanto, resolver un contraste estadístico es calcular la región de aceptación y
la región de rechazo y actuar según la siguiente regla de decisión:
Se obtiene la muestra
contraste .
=
y se calcula el estadístico del
(1.8)
Según la forma de la región de rechazo, un contraste de hipótesis, paramétrico o
no, se denomina
Contraste unilateral o contraste de una cola es el contraste de hipótesis cuya
región de rechazo está formada por una cola de la distribución del estadístico de
contraste, bajo H0.
Contraste bilateral o contraste de dos colas es el contraste de hipótesis cuya
región de rechazo está formada por las dos colas de la distribución del estadístico
de contraste, bajo H0.
Figura 1.2. Contraste bilateral. H0 : = 0, H1 :
0.
Figura 1.3. Contraste unilateral H0 : > 0, H1 : < 0.
Ejemplo 1.1. Test de hipótesis estadística.
“La distribución del tamaño en Kb de los ficheros que resultan al digitalizar
imágenes con un determinado programa puede suponerse normal. El programa ha
sido mejorado en su última versión (versión B) hasta el punto de que quienes lo
comercializan garantizan una disminución en el tamaño medio de los ficheros
resultantes superior a 6 Kb con respecto a la versión anterior (versión A).
La nueva versión B se envió a probar a un centro de investigación privado que
utiliza la versión A. Las últimas 550 imágenes recibidas se digitalizaron con la nueva
versión B, obteniéndose que los tamaños de los ficheros resultantes presentaron una
media xB = 63'9 y una cuasivarianza B2 = 105'063. Cuando se comprobó que las 550
imágenes anteriores a éstas, digitalizadas con la versión antigua A, habían
proporcionado las siguientes medidas xA = 70'8 y A2 = 96'04, el centro no consideró
realista la diferencia anunciada por el proveedor y devolvieron el producto.
Los proveedores enviaron entonces un representante comercial y éste convenció
a los responsables del centro para la realización de una nueva prueba. Las 25
imágenes que había en ese momento en el laboratorio se digitalizaron con las dos
versiones del programa A y B. Finalmente se calcularon las diferencias en Kb de los
ficheros obtenidos con cada versión
resultando
5'210
9'607 12'442 11'248
10'785 -2'368
9'762
8'683 10'783
10'830 12'836 11'487 12'964
7'343
0'615 12'406
9'776
6'151
5'371
9'917
5'722
4'693
4'048
8'480
8'151
Estos resultados hicieron cambiar de idea a los responsables del centro y
adquirieron la nueva versión B.
Analizar ambas experiencias.
¿Cómo es posible que con tan sólo 25 datos se haya cambiado de opinión si la
experiencia primera se realizó en base a un tamaño de muestra 22 veces superior?”
Solución:
Se siguen los siguientes pasos
Paso 1: Especificar las hipótesis nula (H0) y alternativa (H1).
Sea A la esperanza de la distribución de los tamaños de los ficheros una vez
digitalizadas las imágenes con la versión A del programa y B la
correspondiente a la versión B actualizada. Se desea investigar si es
razonable asumir la afirmación del proveedor. El contraste a realizar es
(1.9)
Se supone que se verifican las siguientes hipótesis:
Las observaciones siguen una distribución normal.
Las observaciones son independientes.
Las dos muestras tienen igual varianza.
Se contrasta la tercera hipótesis de igualdad de las varianzas de las dos
muestras.
(1.10)
Fijado = 0'05, se calcula el estadístico del contraste
Este valor 2 no pertenece a la región de rechazo especificada para el
contraste de varianzas de dos muestras independientes que viene dado por
Por tanto se acepta la hipótesis de igualdad de las varianzas de las dos
muestras.
5
F_549,549
4
3
2
0'95
1
0'025
0'025
0
0,6
0,7
0,8
1
1,1
1,2
1,3
1'09
R. Rechazo
0'83 0,9
1'17 R. Rechazo
R. Aceptación
Figura 1.4. Contraste de igualdad de varianzas.
Paso 2: Se elige un estadístico de contraste apropiado: d1 = d1(H0, ). En este
problema una buena elección es la siguiente.
(1.11)
Si H0 es cierto, entonces
(1.12)
T
2
es un estimador del parámetro
A
2
=
B
2
=
, que viene dado por
2
(1.13)
Paso 3: Se fija el nivel de significación , esto es, la probabilidad de error de
tipo I. En este ejemplo se utiliza = 0'05.
Paso 4: Se calculan las regiones de rechazo y de aceptación del contraste,
teniendo en cuenta si el contraste es unilateral o bilateral.
En el ejemplo el contraste es unilateral y teniendo en cuenta
de rechazo para = 0'05 es
la región
(1.14)
0,4
t_1098
0,3
0,2
0'95
0,1
0'05
0
-4
-3
-2
-1
0
R. Aceptación 1'48
1
1'64
2
3
4
R. Rechazo
Figura 1.5. Contraste de igualdad de medias. Primer estudio.
Paso 5: Se obtiene la muestra y utilizando el estadístico de contraste d1 dado
en
se obtiene el valor crítico = (X1, ,Xn).
En el ejemplo en estudio, en primer lugar se calcula la estimación de la
varianza
Ahora el valor crítico del contraste C1 es
El nivel crítico asociado del contraste es 0'0683 (ver siguiente sección).
Paso 6: Se concluye si el test es estadísticamente significativo o no al nivel
de significación según que el valor crítico pertenezca a la región de rechazo
o a la región de aceptación, respectivamente.
Como 1 = 1'488 no pertenece a la región de rechazo dada en
se acepta
la hipótesis nula. Por consiguiente los datos muestrales no avalan que el
tamaño medio de los ficheros disminuye en más de 6 Kb como afirman los
vendedores del nuevo programa.
Tal y como se resolvió el problema hay un parámetro que no se controla, el error de
tipo II, ya que se desconoce la probabilidad de aceptar la hipótesis nula cuando es
falsa.
Si, simultáneamente, se desea controlar la probabilidad de error de tipo I
y la
probabilidad de error de tipo II ( ( 1)) se debe especificar el tamaño muestral que
se está dispuesto a asumir. Ésto es, si se quiere controlar el porcentaje de veces
que se detecta la hipótesis alternativa (que se denota = 1) cuando es cierta, que
en términos de probabilidad se denota por
es necesario calcular el tamaño muestral n adecuado para garantizar que ambas
probabilidades de error sean las fijadas.
Obviamente existe una relación entre los tres parámetros (n, y ( )), conocidos
dos de ellos se puede obtener el tercero:
n, tamaño muestral,
, probabilidad de error de tipo I,
( ), probabilidad de error de tipo II.
En este ejemplo puede suponerse que existe independencia entre las observaciones
muestrales y que no hay relación entre los dos grupos de 550 imágenes digitalizadas
por cada una de las dos versiones del programa. Por tanto se trata de dos muestras
independientes.
En la segunda experiencia que se propone los datos se han tomado apareados ya
que se han ejecutado las dos versiones del programa sobre las mismas imágenes,
primero la versión A y después la B. Por tanto hay independencia entre las
observaciones de cada muestra pero no entre las observaciones de una muestra
respecto a la otra. Para resolver el problema en este segundo contexto y evitar el
problema de dependencia, se trabaja con la variable diferencia del tamaño del
fichero al digitalizar la imagen con la versión A del programa y el tamaño del
fichero al utilizar la versión B
. Se calculan las 25 diferencias entre
los tamaños de los ficheros resultantes y se obtiene una muestra única. De la que se
obtiene
El contraste es ahora
(1.15)
El estadístico del contraste es
(1.16)
Bajo las hipótesis supuestas se verifica que la distribución de d3, cuando H0 es
cierta, es una distribución t
(1.17)
Para = 0'05 se obtiene la siguiente región de rechazo
Utilizando
se obtiene el siguiente valor crítico
Este valor
3
pertenece a la región de rechazo y se rechaza H0.
Obsérvese que también se rechazaría H0 con = 0'01 (de hecho el nivel crítico es
0'003). La decisión de rechazo parece clara y con garantías, en contradicción con la
decisión de la primera experiencia.
0,4
t_24
0,3
0,2
0'95
0,1
0'05
0'003
0
-4
-3
-2
-1
R. Aceptación
0
11'71 2
3
4
2'97
R. Rechazo
Figura 1.6. Contraste sobre la media. Datos apareados.
¿Por qué esta diferencia en la respuesta?
Viene motivada por la alta variabilidad de las variables del primer experimento
XA y XB. Con el muestreo apareado la variabilidad ha disminuido considerablemente,
la varianza de la variable diferencia Z es considerablemente inferior a la varianza
de XA y XB. La disminución tan fuerte en la variabilidad está motivada en la
existencia de una alta correlación positiva entre las variables XA y XB, ya que las
imágenes que al digitalizarlas con una versión generan ficheros grandes (pequeños)
también producirán ficheros grandes (pequeños) al ser digitalizadas con la otra
versión.
1.3.4 Nivel crítico y región crítica.
Si el contraste de hipótesis se va estudiar con una única muestra y no de forma
repetida y sistemática, se puede utilizar una filosofía alternativa y más informativa
que se basa en los conceptos de nivel crítico y región crítica.
Se denomina nivel crítico o p-valor a la probabilidad p de obtener una
discrepancia con H0 mayor o igual que el valor crítico cuando H0 es correcto.
(1.9)
La región crítica es el conjunto de valores para los cuales d es mayor o igual
que el valor crítico d .
Por tanto,
Comentarios:
1. El nivel crítico sólo puede calcularse una vez tomada la muestra,
obteniéndose niveles críticos distintos para cada muestra.
2. El nivel crítico p puede interpretarse como un nivel mínimo de
significación en el sentido de que niveles de significación iguales o
superiores al p - valor llevarán a rechazar la hipótesis nula.
Por tanto, cuanto menor sea el p - valor mayor es el grado de
incompatibilidad de la muestra con H0, lo que lleva a rechazar H0.
3. El cálculo del nivel crítico no proporciona de modo sistemático una
decisión entre H0 y H1.
4. En las Figuras 1.7 (y 1.8) pueden verse representados el nivel crítico y la
región crítica en un contraste unilateral (y bilateral) acerca de la media,
bajo la hipótesis de normalidad.
Figura 1.7. Nivel crítico. Contraste unilateral sobre la media con
0,4
p-valor=2*0'20
0,3
0,2
0,1
0'20
0'20
0
-3
-2
R. Crítica
-1
-0'84
0
1
0'84
2
3
R. Crítica
= 0'84.
Figura 1.8. Nivel crítico. Contraste bilateral sobre la media con = 0'84.
1.3.5 Potencia de un contraste.
Para medir la bondad de un contraste de hipótesis se utiliza el concepto de
potencia del contraste. Considérese que se está estudiando un contraste de
hipótesis acerca del parámetro , siendo la hipótesis nula
frente a la hipótesis alternativa
Se denomina potencia al nivel del estadístico de contraste d a la función que
asigna a cada valor del parámetro la probabilidad de rechazar H0 cuando es
correcto.
Esto es,
donde
(1.10)
Comentarios:
1. Al grafo de la potencia se lo denomina curva de potencia. En algunos
textos se trabaja con la función curva característica de operación
definida por
(1.11)
2. Si denotamos por a la probabilidad de error de tipo I, se verifica que
Cuanto más lejana se encuentra la alternativa H1 de H0 menor es la
probabilidad de incurrir en un error tipo II ( ) y, por consiguiente, la
potencia tomará valores más próximos a 1.
3. Si la potencia en la hipótesis alternativa es siempre muy próxima a 1
entonces se dice que el estadístico de contraste es muy potente para
contrastar H0 ya que en ese caso las muestras serán, con alta
probabilidad, incompatibles con H0 cuando H1 sea cierta.
Por tanto puede interpretarse la potencia de un contraste como su sensibilidad
o capacidad para detectar una hipótesis alternativa.
1. Fijado un nivel de significación , un contraste d1 se dice más potente
que otro d2 para contrastar la hipótesis nula H0 si
(1.12)
2. En la Figura 1.9. se representa la función de potencia del contraste H0 :
= 0 frente a la alternativa H1 :
0 (contraste bilateral), bajo la
hipótesis de normalidad, con = 0'10 y tamaño muestral n = 100.
En la Figura 1.10. se representa la función de potencia del contraste H0 :
< 0 frente a la alternativa H1 : > 0 (contraste unilateral), bajo la
hipótesis de normalidad, con = 0'10 y tamaño muestral n = 100.
Figura 1.9. Función de Potencia. Contraste bilateral acerca de la media.
Figura 1.10. Función de Potencia. Contraste unilateral acerca de la media.
1.3.6 Algunos contrastes paramétricos importantes.
Se exponen en esta sección algunos de los estadísticos de contraste más
importantes para contrastar hipótesis nulas del tipo H0 : = 0, siendo un
parámetro desconocido y de cuyo valor depende la distribución de una variable
de interés X.
Contrastes sobre la media. A partir de una muestra
extraída de
una población X normal con media y varianza 2 desconocidas, se desea
contrastar la hipótesis nula
El estadístico de contraste es
(1.13)
donde es la desviación típica muestral corregida
. Si H0 es cierto
Contrastes sobre la varianza. Sea la muestra aleatoria simple
extraída de una población X normal con varianza 2, se desea contrastar
El estadístico de contraste es
(1.14)
Si H0 es cierto
Contrastes sobre la igualdad de varianzas. Sean dos muestras aleatorias simples
e
obtenidas de dos poblaciones X e Y, con
distribuciones respectivas
N
Se desea contrastar
El estadístico de contraste es
yN
.
(1.15)
Si H0 es cierto
Contrastes sobre la diferencia de medias, muestras independientes e igualdad
de varianzas. Sean dos muestras aleatorias simples
e
obtenidas de dos poblaciones X e Y, con distribuciones N
N
. Por tanto se supone que
2
X
=
Y
2
=
y
. Se desea contrastar
2
El estadístico de contraste es
(1.16)
siendo
(1.17)
un estimador insesgado eficiente de la varianza que se calcula a partir de la
información que proporcionan ambas muestras.
Si H0 es cierto se verifica que
Contrastes sobre la diferencia de medias, muestras independientes y varianzas
desiguales. Sean dos muestras aleatorias simples
e
obtenidas de dos poblaciones X e Y, con distribuciones respectivas
N
yN
,y se supone que
2
X
Y
2.
Se desea contrastar
El estadístico de contraste que se utiliza es
(1.18)
Si H0 es cierto se verifica que
siendo g = n + m - 2 + , con un término de corrección (ver Cao y otros (2001)).
Contrastes sobre la diferencia de medias, muestreo apareado. En este caso las
dos muestras aleatorias simples tienen igual tamaño muestral
e
y son obtenidas al realizar dos observaciones Xi e Y i sobre el
mismo individuo, el i-ésimo. Por la naturaleza del muestreo apareado las dos
muestras son dependientes. Para eliminar este problema se estudia la variable
diferencia Z = Y - X, por tanto, a partir de las dos muestras iniciales se calcula la
muestra de diferencias
, Zi = Xi - Yi . Para contrastar la hipótesis
Se utiliza el siguiente estadístico de contraste
(1.19)
Si H0 es cierto
[Anterior] [Arriba]
Capítulo 2
Principios básicos del diseño de experimentos.
2.1 Introducción.
2.2 Tipos de variabilidad.
2.3 Planificación de un experimento.
2.4 Resumen de los principales conceptos.
2.5 Principios básicos del diseño de
experimentos.
2.6 Algunos diseños experimentales clásicos
2.6.1 Diseño completamente aleatorizados.
2.6.2 Diseño en bloques o con un factor bloque.
2.6.3 Diseños con dos o más factores bloque.
2.6.4 Diseños con dos o más factores.
2.6.5 Diseños factoriales a dos niveles.
Sir Ronald Aylmer Fisher, matemático inglés
nacido en Londres el 17 de Febrero de 1890 y
fallecido en Adelaida, Australia, el 29 de Julio de
1962.
[Siguiente] [Arriba]
2.1 Introducción.
Los modelos de “Diseño de experimentos” son modelos estadísticos clásicos cuyo
objetivo es averiguar si unos determinados factores influyen en la variable de
interés y, si existe influencia de algún factor, cuantificarla. Ejemplos donde habría
que utilizar estos modelos son los siguientes:
En el rendimiento de un determinado tipo de máquinas (unidades producidas por
día) se desea estudiar la influencia del trabajador que la maneja y la marca de la
máquina.
Se quiere estudiar la influencia del tipo de pila eléctrica y de la marca en la
duración de las pilas.
Una compañía telefónica está interesada en conocer la influencia de varios
factores en la variable de interés “la duración de una llamada telefónica”. Los
factores que se consideran son los siguientes: hora a la que se produce la
llamada; día de la semana en que se realiza la llamada; zona de la ciudad desde
la que se hace la llamada; sexo del que realiza la llamada; tipo de teléfono
(público o privado) desde el que se realiza la llamada.
Una compañía de software está interesada en estudiar la variable “porcentaje
que se comprime un fichero al utilizar un programa que comprime ficheros”
teniendo en cuenta el tipo de programa utilizado y el tipo de fichero que se
comprime.
Se quiere estudiar el rendimiento de los alumnos en una asignatura y, para ello,
se desean controlar diferentes factores: profesor que imparte la asignatura;
método de enseñanza; sexo del alumno.
La metodología del diseño de experimentos se basa en la experimentación. Es
conocido que si se repite un experimento, en condiciones indistinguibles, los
resultados presentan variabilidad que puede ser grande o pequeña. Si la
experimentación se realiza en un laboratorio donde la mayoría de las causas de
variabilidad están muy controladas, el error experimental será pequeño y habrá
poca variación en los resultados del experimento. Pero si se experimenta en
procesos industriales, administrativos, ... la variabilidad es grande en la mayoría
de los casos.
El objetivo del diseño de experimentos es estudiar si utilizar un determinado
tratamiento produce una mejora en el proceso o no. Para ello se debe experimentar
utilizando el tratamiento y no utilizándolo. Si la variabilidad experimental es
grande, sólo se detectará la influencia del uso del tratamiento cuando éste
produzca grandes cambios en relación con el error de observación.
La metodología del Diseño de Experimentos estudia cómo variar las condiciones
habituales de realización de un proceso empírico para aumentar la probabilidad de
detectar cambios significativos en la respuesta, de esta forma se obtiene un mayor
conocimiento del comportamiento del proceso de interés.
Para que la metodología de diseño de experimentos sea eficaz es fundamental
que el experimento esté bien diseñado.
Un experimento se realiza por alguno de los siguientes motivos:
* Determinar las principales causas de variación en la respuesta.
* Encontrar las condiciones experimentales con las que se consigue un valor
extremo en la variable de interés o respuesta.
* Comparar las respuestas en diferentes niveles de observación de variables
controladas.
* Obtener un modelo estadístico-matemático que permita hacer predicciones de
respuestas futuras.
La utilización de los modelos de diseño de experimentos se basa en la
experimentación y en el análisis de los resultados que se obtienen en un
experimento bien planificado. En muy pocas ocasiones es posible utilizar estos
métodos a partir de datos disponibles o datos históricos, aunque también se puede
aprender de los estudios realizados a partir de datos recogidos por observación, de
forma aleatoria y no planificada. En el análisis estadístico de datos históricos se
pueden cometer diferentes errores, los más comunes son los siguientes:
— Inconsistencia de los datos. Los procesos cambian con el tiempo, se
producen cambios en el personal (cambios de personas, mejoras del personal
por procesos de aprendizaje, motivación, ...), cambios en las máquinas
(reposiciones, reparaciones, envejecimiento, ...). Estos cambios tienen
influencia en los datos recogidos, lo que hace que los datos históricos sean
poco fiables, sobre todo si se han recogido en un amplio espacio de tiempo.
— Variables con fuerte correlación. Puede ocurrir que en el proceso existan
dos o más variables altamente correlacionadas que pueden llevar a
situaciones confusas. Por ejemplo, en el proceso hay dos variables X1 y X2
fuertemente correlacionadas que influyen en la respuesta, pero si en los
datos que se tiene aumenta al mismo tiempo el valor de las dos variables no
es posible distinguir si la influencia es debida a una u otra o a ambas
variables (confusión de los efectos). Otra situación problemática se presenta
si solo se dispone de datos de una variable (por ejemplo de X1 y no de X2), lo
que puede llevar a pensar que la variable influyente es la X1 cuando, en
realidad, la variable influyente es la X2 (variable oculta).
— El rango de las variables controladas es limitado. Si el rango de una de las
variables importantes e influyentes en el proceso es pequeño, no se puede
saber su influencia fuera de ese rango y puede quedar oculta su relación con
la variable de interés o lo cambios que se producen en la relación fuera del
rango observado. Esto suele ocurrir cuando se utilizan los datos recogidos al
trabajar el proceso en condiciones normales y no se experimenta (cambiando
las condiciones de funcionamiento) para observar el comportamiento del
proceso en situaciones nuevas.
[Siguiente] [Arriba]
2.2 Tipos de variabilidad.
Uno de los principales objetivos de los modelos estadísticos y, en particular, de los
modelos de diseño de experimentos, es controlar la variabilidad de un proceso
estocástico que puede tener diferente origen. De hecho, los resultados de cualquier
experimento están sometidos a tres tipos de variabilidad cuyas características son
las siguientes:
— Variabilidad sistemática y planificada.
Esta variabilidad viene originada por la posible dispersión de los resultados
debida a diferencias sistemáticas entre las distintas condiciones
experimentales impuestas en el diseño por expreso deseo del
experimentador. Es el tipo de variabilidad que se intenta identificar con el
diseño estadístico.
Cuando este tipo de variabilidad está presente y tiene un tamaño
importante, se espera que las respuestas tiendan a agruparse formando
grupos (clusters).
Es deseable que exista esta variabilidad y que sea identificada y cuantificada
por el modelo.
— Variabilidad típica de la naturaleza del problema y del experimento.
Es la variabilidad debida al ruido aleatorio. Este término incluye, entre
otros, a la componente de variabilidad no planificada denominada error de
medida. Es una variabilidad impredecible e inevitable.
Esta variablidad es la causante de que si en un laboratorio se toman medidas
repetidas de un mismo objeto ocurra que, en muchos casos, la segunda
medida no sea igual a la primera y, más aún, no se puede predecir sin error
el valor de la tercera. Sin embargo, bajo el aparente caos, existe un patrón
regular de comportamiento en esas medidas: todas ellas tenderán a fluctuar
en torno a un valor central y siguiendo un modelo de probabilidad que será
importante estimar.
Esta variabilidad es inevitable pero, si el experimento ha sido bien
planificado, es posible estimar (medir) su valor, lo que es de gran
importancia para obtener conclusiones y poder hacer predicciones.
Es una variabilidad que va a estar siempre presente pero que es tolerable.
— Variabilidad sistemática y no planificada.
Esta variabilidad produce una variación sistemática en los resultados y es
debida a causas desconocidas y no planificadas. En otras palabras, los
resultados están siendo sesgados sistemáticamente por causas desconocidas.
La presencia de esta variabilidad supone la principal causa de conclusiones
erróneas y estudios incorrectos al ajustar un modelo estadístico.
Como se estudiará posteriormente, existen dos estrategias básicas para
tratar de evitar la presencia de este tipo de varibilidad: la aleatorización y la
técnica de bloques.
Este tipo de variabilidad debe de intentar evitarse y su presencia lleva a
conclusiones erróneas.
[Siguiente] [Anterior] [Arriba]
2.3 Planificación de un experimento.
La experimentación forma parte natural de la mayoría de las investigaciones
científicas e industriales, en muchas de las cuales, los resultados del proceso de
interés se ven afectados por la presencia de distintos factores, cuya influencia
puede estar oculta por la variabilidad de los resultados muestrales. Es fundamental
conocer los factores que influyen realmente y estimar esta influencia. Para
conseguir ésto es necesario experimentar, variar las condiciones que afectan a las
unidades experimentales y observar la variable respuesta. Del análisis y estudio de
la información recogida se obtienen las conclusiones.
La forma tradicional que se utilizaba en la experimentación, para el estudio de
estos problemas, se basaba en estudiar los factores uno a uno, ésto es, variar los
niveles de un factor permaneciendo fijos los demás. Esta metodología presenta
grandes inconvenientes:
* Es necesario un gran número de pruebas.
* Las conclusiones obtenidas en el estudio de cada factor tiene un campo de
validez muy restringido.
* No es posible estudiar la existencia de interacción entre los factores.
* Es inviable, en muchos casos, por problemas de tiempo o costo.
Las técnicas de diseño de experimentos se basan en estudiar simultaneamente
los efectos de todos los factores de interés, son más eficaces y proporcionan
mejores resultados con un menor coste.
A continuación se enumeran las etapas que deben seguirse para una correcta
planificación de un diseño experimental, etapas que deben ser ejecutadas de forma
secuencial. También se introducen algunos conceptos básicos en el estudio de los
modelos de diseño de experimentos.
Las etapas a seguir en el desarrollo de un problema de diseño de experimentos
son las siguientes:
1. Definir los objetivos del experimento.
2. Identificar todas las posibles fuentes de variación, incluyendo:
— factores tratamiento y sus niveles,
— unidades experimentales,
— factores nuisance (molestos): factores bloque, factores ruido y
covariables.
3. Elegir una regla de asignación de las unidades experimentales a las
condiciones de estudio (tratamientos).
4. Especificar las medidas con que se trabajará (la respuesta), el procedimiento
experimental y anticiparse a las posibles dificultades.
5. Ejecutar un experimento piloto.
6. Especificar el modelo.
7. Esquematizar los pasos del análisis.
8. Determinar el tamaño muestral.
9. Revisar las decisiones anteriores. Modificarlas si se considera necesario.
Los pasos del listado anterior no son independientes y en un determinado momento
puede ser necesario volver atrás y modificar decisiones tomadas en algún paso
previo.
A continuación se hace una breve descripción de las decisiones que hay que
tomar en cada uno de los pasos enumerados. Sólo después de haber tomado estas
decisiones se procederá a realizar el experimento.
1.- Definir los objetivos del experimento.
Se debe hacer una lista completa de las preguntas concretas a las que debe dar
respuesta el experimento. Es importante indicar solamente cuestiones
fundamentales ya que tratar de abordar problemas colaterales pueden complicar
innecesariamente el experimento.
Una vez elaborada la lista de objetivos, puede ser útil esquematizar el tipo de
conclusiones que se espera obtener en el posterior análisis de datos.
Normalmente la lista de objetivos es refinada a medida que se van ejecutando
las etapas del diseño de experimentos.
2.- Identificar todas las posibles fuentes de variación.
Una fuente de variación es cualquier “cosa” que pueda generar variabilidad en
la respuesta. Es recomendable hacer una lista de todas las posibles fuentes de
variación del problema, distinguiendo aquellas que, a priori, generarán una mayor
variabilidad. Se distinguen dos tipos:
- Factores tratamiento: son aquellas fuentes cuyo efecto sobre la respuesta es
de particular interés para el experimentador.
- Factores “nuisance”: son aquellas fuentes que no son de interés directo pero
que se contemplan en el diseño para reducir la variabilidad no planificada.
A continuación se precisan más estos importantes conceptos.
(i) Factores y sus niveles.
Se denomina factor tratamiento a cualquier variable de interés para el
experimentador cuyo posible efecto sobre la respuesta se quiere estudiar.
Los niveles de un factor tratamiento son los tipos o grados específicos del factor
que se tendrán en cuenta en la realización del experimento.
Los factores tratamiento pueden ser cualitativos o cuantitativos.
Ejemplos de factores cualitativos y sus niveles respectivos son los siguientes:
— proveedor (diferentes proveedores de una materia prima),
— tipo de máquina (diferentes tipos o marcas de máquinas),
— trabajador (los trabajadores encargados de hacer una tarea),
— tipo de procesador (los procesadores de los que se quiere comparar su
velocidad de ejecución),
— un aditivo químico (diferentes tipos de aditivos químicos),
— el sexo (hombre y mujer),
— un método de enseñanza (un número determinado de métodos de enseñanza
cuyos resultados se quieren comparar).
Ejemplos de factores cuantitativos son los siguientes:
— tamaño de memoria (diferentes tamaños de memoria de ordenadores),
— droga (distintas cantidades de la droga),
— la temperatura (conjuntos de temperaturas seleccionadas en unos rangos de
interés).
Debe tenerse en cuenta que en el tratamiento matemático de los modelos de
diseño de experimento los factores cuantitativos son tratados como cualitativos y
sus niveles son elegidos equiespaciados o se codifican. Por lo general, un factor no
suele tener más de cuatro niveles.
Cuando en un experimento se trabaja con más de un factor, se denomina:
Tratamiento a cada una de las combinaciones de niveles de los distintos
factores.
Observación es una medida en las condiciones determinadas por uno de los
tratamientos.
Experimento factorial es el diseño de experimentos en que existen
observaciones de todos los posibles tratamientos.
(ii) Unidades experimentales.
Son el material donde evaluar la variable respuesta y al que se le aplican los
distintos niveles de los factores tratamiento.
Ejemplos de unidades experimentales son:
— en informática, ordenadores, páginas web, buscadores de internet,
— en agricultura, parcelas de tierra,
— en medicina, individuos humanos u animales,
— en industria, lotes de material, trabajadores, máquinas.
Cuando un experimento se ejecuta sobre un período de tiempo de modo que las
observaciones se recogen secuencialmente en instantes de tiempo determinados,
entonces los propios instantes de tiempo pueden considerarse unidades
experimentales.
Es muy importante que las unidades experimentales sean representativas de la
población sobre la que se han fijado los objetivos del estudio. Por ejemplo, si se
utilizan los estudiantes universitarios de un país como unidades experimentales, las
conclusiones del experimento no son extrapolables a toda la población adulta del
país.
(iii) Factores “nuisance”: bloques, factores ruido y covariables.
En cualquier experimento, además de los factores tratamiento cuyo efecto sobre
la respuesta se quiere evaluar, también influyen otros factores, de escaso interés
en el estudio, pero cuya influencia sobre la respuesta puede aumentar
significativamente la variabilidad no planificada. Con el fin de controlar esta
influencia pueden incluirse en el diseño nuevos factores que, atendiendo a su
naturaleza, pueden ser de diversos tipos.
Factor bloque. En algunos casos el factor nuisance puede ser fijado en distintos
niveles, de modo que es posible controlar su efecto a esos niveles. Entonces la
forma de actuar es mantener constante el nivel del factor para un grupo de
unidades experimentales, se cambia a otro nivel para otro grupo y así
sucesivamente. Estos factores se denominan factores de bloqueo (factores-bloque)
y las unidades experimentales evaluadas en un mismo nivel del bloqueo se dice que
pertenecen al mismo bloque. Incluso cuando el factor nuisance no es medible, a
veces es posible agrupar las unidades experimentales en bloques de unidades
similares: parcelas de tierra contiguas o períodos de tiempo próximos
probablemente conduzcan a unidades experimentales más parecidas que parcelas o
períodos distantes.
Desde un punto de vista matemático el tratamiento que se hace de los factoresbloque es el mismo que el de los factores-tratamiento en los que no hay
interacción, pero su concepto dentro del modelo de diseño de experimentos es
diferente. Un factor-tratamiento es un factor en el que se está interesado en
conocer su influencia en la variable respuesta y un factor-bloque es un factor en el
que no se está interesado en conocer su influencia pero se incorpora al diseño del
experimento para disminuir la variabilidad residuas del modelo.
Covariable. Si el factor nuisance es una propiedad cuantitativa de las unidades
experimentales que puede ser medida antes de realizar el experimento (el tamaño
de un fichero informático, la presión sanguínea de un paciente en un experimento
médico o la acidez de una parcela de tierra en un experimento agrícola). El factor
se denomina covariable y juega un papel importante en el análisis estadístico.
Ruido. Si el experimentador está interesado en la variabilidad de la respuesta
cuando se modifican las condiciones experimentales, entonces los factores nuisance
son incluidos deliberadamente en el experimento y no se aisla su efecto por medio
de bloques. Se habla entonces de factores ruido.
En resumen, las posibles fuentes de variación de un experimento son:
Fuente
Debida a las condiciones de interés
Tipo
Planificada y sistemática
(Factores tratamiento)
Debida al resto de condiciones controladas
(Factores “nuisance”)
Planificada y sistemática
Debida a condiciones no controladas
No planificada, pero ¿sistemática?
(error de medida, material experimental, ... )
3.- Elegir una regla de asignación de las unidades experimentales a las
condiciones de estudio (“tratamientos”).
La regla de asignación o diseño experimental especifica que unidades
experimentales se observarán bajo cada tratamiento. Hay diferentes posibilidades:
— diseño factorial o no,
— anidamiento,
— asignación al azar en determinados niveles de observación,
— el orden de asignación, etc.
En la práctica, existen una serie de diseños estándar que se utilizan en la
mayoría de los casos.
4.- Especificar las medidas que se realizarán (la “respuesta”), el procedimiento
experimental y anticiparse a las posibles dificultades.
Variable respuesta o variable de interés. Los datos que se recogen en un
experimento son medidas de una variable denominada variable respuesta o variable
de interés.
Es importante precisar de antemano cuál es la variable respuesta y en qué
unidades se mide. Naturalmente, la respuesta está condicionada por los objetivos
del experimento. Por ejemplo, si se desea detectar una diferencia de 0'05 gramos
en la respuesta de dos tratamientos no es apropiado tomar medidas con una
precisión próxima al gramo.
A menudo aparecen dificultades imprevistas en la toma de datos. Es conveniente
anticiparse a estos imprevistos pensando detenidamente en los problemas que se
pueden presentar o ejecutando un pequeño experimento piloto (etapa 5). Enumerar
estos problemas permite en ocasiones descubrir nuevas fuentes de variación o
simplificar el procedimiento experimental antes de comenzar.
También se debe especificar con claridad la forma en que se realizarán las
mediciones: instrumentos de medida, tiempo en el que se harán las mediciones,
etc.
5.- Ejecutar un experimento piloto.
Un experimento piloto es un experimento que utiliza un número pequeño de
observaciones. El objetivo de su ejecución es ayudar a completar y chequear la lista
de acciones a realizar. Las ventajas que proporciona la realización de un pequeño
experimento piloto son las siguientes:
— permite practicar la técnica experimental elegida e identificar problemas no
esperados en el proceso de recogida de datos,
— si el expeerimento piloto tiene un tamaño suficientemente grande puede
ayudar a seleccionar un modelo adecuado al experimento principal,
— los errores experimentales observados en el experimento piloto pueden
ayudar a calcular el número de observaciones que se precisan en el experimento
principal.
6.- Especificar el modelo.
El modelo matemático especificado debe indicar la relación que se supone que
existe entre la variable respuesta y las principales fuentes de variación
identificadas en el paso 2. Es fundamental que el modelo elegido se ajuste a la
realidad con la mayor precisión posible.
El modelo más habitual es el modelo lineal:
En este modelo la respuesta viene dada por una combinación lineal de términos
que representan las principales fuentes de variación planificada más un término
residual debido a las fuentes de variación no planificada. Los modelos que se
estudian en este texto se ajustan a esta forma general. El experimento piloto puede
ayudar a comprobar si el modelo se ajusta razonablemente bien a la realidad.
Los modelos de diseño de experimentos, según sean los factores incluídos en el
mismo, se pueden clasificar en: modelo de efectos fijos, modelo de efectos
aleatorios y modelos mixtos. A continuación se precisan estas definiciones.
Factor de efectos fijos es un factor en el que los niveles han sido seleccionados
por el experimentador. Es apropiado cuando el interés se centra en comparar el
efecto sobre la respuesta de esos niveles específicos.
Ejemplo: un empresario está interesado en comparar el rendimiento de tres
máquinas del mismo tipo que tiene en su empresa.
Factor de efectos aleatorios es un factor del que sólo se incluyen en el
experimento una muestra aleatoria simple de todos los posibles niveles del mismo.
Evidentemente se utilizan estos factores cuando tienen un número muy grande de
niveles y no es razonable o posible trabajar con todos ellos. En este caso se está
interesado en examinar la variabilidad de la respuesta debida a la población entera
de niveles del factor.
Ejemplo: una cadena de hipermercados que tiene en plantilla 300 trabajadores
de caja está interesada en estudiar la influencia del factor trabajador en la variable
“tiempo en el cobro a un cliente”.
Modelo de efectos fijos es un modelo en el que todos los factores son factores
de efectos fijos.
Modelo de efectos aleatorios es un modelo en el que todos los factores son
factores de efectos aleatorios.
Modelo mixto es un modelo en el que hay factores de efectos fijos y factores de
efectos aleatorios.
7.- Esquematizar los pasos del análisis estadístico.
El análisis estadístico a realizar depende de:
— los objetivos indicados en el paso 1,
— el diseño seleccionado en el paso 3,
— el modelo asociado que se especificó en el paso 5.
Se deben esquematizar los pasos del análisis a realizar que deben incluir:
— estimaciones que hay que calcular,
— contrastes a realizar,
— intervalos de confianza que se calcularán
— diagnosis y crítica del grado de ajuste del modelo a la realidad.
8.- Determinar el tamaño muestral.
Calcular el número de observaciones que se deben tomar para alcanzar los
objetivos del experimento.
Existen, dependiendo del modelo, algunas fórmulas para determinar este
tamaño. Todas ellas sin embargo requieren el conocimiento del tamaño de la
variabilidad no planificada (no sistemática y sistemática, si es el caso) y estimarlo a
priori no es fácil, siendo aconsejable sobreestimarla. Normalmente se estima a
partir del experimento piloto y en base a experiencias previas en trabajos con
diseños experimentales semejantes.
9.- Revisar las decisiones anteriores. Modificar si es necesario.
De todas las etapas enumeradas, el proceso de recogida de datos suele ser la
tarea que mayor tiempo consume, pero es importante realizar una planificación
previa, detallando los pasos anteriores, lo que garantizará que los datos sean
utilizados de la forma más eficiente posible.
Es fundamental tener en cuenta que
“Ningún método de análisis estadístico, por sofisticado que sea, permite extraer
conclusiones correctas en un diseño de experimentos mal planificado”.
Recíprocamente, debe quedar claro que el análisis estadístico es una etapa más
que está completamente integrado en el proceso de planificación.
“El análisis estadístico no es un segundo paso independiente de la tarea de
planificación. Es necesario comprender la totalidad de objetivos propuestos antes
de comenzar con el análisis. Si no se hace así, tratar que el experimento responda a
otras cuestiones a posteriori puede ser (lo será casi siempre) imposible”.
Pero no sólo los objetivos están presentes al inicio del análisis sino también la
técnica experimental empleada. Una regla de oro en la experimentación y que debe
utilizarse es la siguiente:
“No invertir nunca todo el presupuesto en un primer conjunto de experimentos y
utilizar en su diseño toda la información previa disponible”.
Finalmente indicar que todas las personas que trabajan en el experimento se
deben implicar en el mismo, esto es:
“Toda persona implicada en la ejecución del experimento y en la recolección de los
datos debe ser informada con precisión de la estrategia experimental diseñada”.
[Siguiente] [Anterior] [Arriba]
2.4 Resumen de los pricipales conceptos.
En esta sección se hace un resumen de la terminología común utilizada en la teoría
de los modelos de diseño de experimentos:
Unidad experimental: son los objetos, individuos, intervalos de espacio o tiempo
sobre los que se experimenta.
Variable de interés o respuesta: es la variable que se desea estudiar y controlar
su variabilidad.
Factor: son las variables independientes que pueden influir en la variabilidad de
la variable de interés.
Factor tratamiento: es un factor del que interesa conocer su influencia en la
respuesta.
Factor bloque: es un factor en el que no se está interesado en conocer su
influencia en la respuesta pero se supone que ésta existe y se quiere controlar
para disminuir la variabilidad residual.
Niveles: cada uno de los resultados de un factor. Según sean elegidos por el
experimentador o elegidos al azar de una amplia población se denominan factores
de efectos fijos o factores de efectos aleatorios.
Tratamiento: es una combinación específica de los niveles de los factores en
estudio. Son, por tanto, las condiciones experimentales que se desean comparar
en el experimento. En un diseño con un único factor son los distintos niveles del
factor y en un diseño con varios factores son las distintas combinaciones de
niveles de los factores.
Observación experimental: es cada medición de la variable respuesta.
Tamaño del Experimento: es el número total de observaciones recogidas en el
diseño.
Interacción de factores: existe interacción entre dos factores FI y FJ si el efecto
de algún nivel de FI cambia al cambiar de nivel en FJ. Esta definición puede
hacerse de forma simétrica y se puede generalizar a interacciones de orden tres o
superior.
Ortogonalidad de factores: dos factores FI y FJ con I y J niveles, respectivamente,
son ortogonales si en cada nivel i de FI el número de observaciones de los J
niveles de FJ están en las mismas proporciones. Esta propiedad permite separar
los efectos simples de los factores en estudio.
Diseño equilibrado o balanceado: es el diseño en el que todos los tratamientos
son asignados a un número igual de unidades experimentales.
[Siguiente] [Anterior] [Arriba]
[Siguiente] [Anterior] [Arriba]
2.5 Principios básicos en el diseño de experimentos.
Al planificar un experimento hay tres tres principios básicos que se deben tener
siempre en cuenta:
— El principio de aleatorización.
— El bloqueo.
— La factorización del diseño.
Los dos primeros (aleatorizar y bloquear) son estrategias eficientes para asignar
los tratamientos a las unidades experimentales sin preocuparse de qué tratamientos
considerar. Por el contrario, la factorización del diseño define una estrategia
eficiente para elegir los tratamientos sin considerar en absoluto como asignarlos
después a las unidades experimentales.
Aleatorizar
“Aleatorizar todos los factores no controlados por el experimentador en el diseño
experimental y que puden influir en los resultados serán asignados al azar a las
unidades experimentales”.
Ventajas de aleatorizar los factores no controlados:
• Transforma la variabilidad sistemática no planificada en variabilidad no
planificada o ruido aleatorio. Dicho de otra forma, aleatorizar previene contra la
introducción de sesgos en el experimento.
• Evita la dependencia entre observaciones al aleatorizar los instantes de
recogida muestral.
• Valida muchos de los procedimientos estadísticos más comunes.
Bloquear
“Se deben dividir o particionar las unidades experimentales en grupos llamados
bloques de modo que las observaciones realizadas en cada bloque se realicen bajo
condiciones experimentales lo más parecidas posibles.
A diferencia de lo que ocurre con los factores tratamiento, el experimentador no
está interesado en investigar las posibles diferencias de la respuesta entre los
niveles de los factores bloque”.
Bloquear es una buena estrategia siempre y cuando sea posible dividir las
unidades experimentales en grupos de unidades similares.
La ventaja de bloquear un factor que se supone que tienen una clara influencia
en la respuesta pero en el que no se está interesado, es la siguiente:
• Convierte la variabilidad sistemática no planificada en variabilidad sistemática
planificada.
Con el siguiente ejemplo se trata de indicar la diferencia entre las estrategias
de aleatorizar y de bloquear en un experimento.
Ejemplo 2.1.
Se desea investigar las posibles diferencias en la producción de dos máquinas,
cada una de las cuales debe ser manejada por un operario.
En el planteamiento de este problema la variable respuesta es “la producción de
una máquina (en un día)”, el factor-tratamiento en el que se está interesado es el
“tipo de máquina” que tiene dos niveles y un factor nuisance es el “operario que
maneja la máquina”. En el diseño del experimento para realizar el estudio se
pueden utilizar dos estrategias para controlar el factor “operario que maneja la
máquina”.
Aleatorizar: se seleccionan al azar dos grupos de operarios y se asigna al azar
cada grupo de operarios a cada una de las dos máquinas. Finalmente se evalúa la
producción de las mismas.
Bloquear: se introduce el factor-bloque “operario”. Se elige un único grupo de
operarios y todos ellos utilizan las dos máquinas.
¿Qué consideraciones se deben tener en cuenta al utilizar estas dos estrategias?
¿Qué estrategia es mejor?
La factorización del diseño.
“Un diseño factorial es una estrategia experimental que consiste en cruzar los
niveles de todos los factores tratamiento en todas las combinaciones posibles”.
Ventajas de utilizar los diseños factoriales:
• Permiten detectar la existencia de efectos interacción entre los diferentes
factores tratamiento.
• Es una estrategia más eficiente que la estrategia clásica de examinar la
influencia de un factor manteniendo constantes el resto de los factores.
[Siguiente] [Anterior] [Arriba]
[Anterior] [Arriba]
2.6 Algunos diseños experimentales clásicos.
Un diseño experimental es una regla que determina la asignación de las unidades
experimentales a los tratamientos. Aunque los experimentos difieren unos de otros
en muchos aspectos, existen diseños estándar que se utilizan con mucha frecuencia.
Algunos de los más utilizados son los siguientes:
2.6.1 Diseño completamente aleatorizado.
El experimentador asigna las unidades experimentales a los tratamientos al azar. La
única restricción es el número de observaciones que se toman en cada tratamiento.
De hecho si ni es el número de observaciones en el i-ésimo tratamiento, i = 1,...,I,
entonces, los valores n1,n2,...,nI determinan por completo las propiedades
estadísticas del diseño. Naturalmente, este tipo de diseño se utiliza en
experimentos que no incluyen factores bloque.
El modelo matemático de este diseño tiene la forma:
2.6.2 Diseño en bloques o con un factor bloque.
En este diseño el experimentador agrupa las unidades experimentales en bloques, a
continuación determina la distribución de los tratamientos en cada bloque y, por
último, asigna al azar las unidades experimentales a los tratamientos dentro de
cada bloque.
En el análisis estadístico de un diseño en bloques, éstos se tratan como los
niveles de un único factor de bloqueo, aunque en realidad puedan venir definidos
por la combinación de niveles de más de un factor nuisance.
El modelo matemático de este diseño es:
El diseño en bloques más simple es el denominado diseño en bloques
completos, en el que cada tratamiento se observa el mismo número de veces en
cada bloque.
El diseño en bloques completos con una única observación por cada tratamiento
se denomina diseño en bloques completamente aleatorizado o, simplemente,
diseño en bloques aleatorizado.
Cuando el tamaño del bloque es inferior al número de tratamientos no es posible
observar la totalidad de tratamientos en cada bloque y se habla entonces de diseño
en bloques incompletos.
2.6.3 Diseños con dos o más factores bloque.
En ocasiones hay dos (o más) fuentes de variación lo suficientemente importantes
como para ser designadas factores de bloqueo. En tal caso, ambos factores bloque
pueden ser cruzados o anidados.
Los factores bloque están cruzados cuando existen unidades experimentales en
todas las combinaciones posibles de los niveles de los factores bloques.
Diseño con factores bloque cruzados. También denominado diseño filacolumna, se caracteriza porque existen unidades experimentales en todas las
celdas (intersecciones de fila y columna).
El modelo matemático de este diseño es:
Los factores bloque están anidados si cada nivel particular de uno de los
factores bloque ocurre en un único nivel del otro factor bloque.
Diseño con factores bloque anidados o jerarquizados. Dos factores bloque se
dicen anidados cuando observaciones pertenecientes a dos niveles distintos de un
factor bloque están automáticamente en dos niveles distintos del segundo factor
bloque.
En la siguiente tabla puede observarse la diferencia entre ambos tipos de
bloqueo.
Bloques Cruzados
Bloques Anidados
Bloque 1
Bloqu
e2
Bloque 1
1
2
3
1
1
*
*
*
1
*
2
*
*
*
2
*
3
*
*
*
3
*
Bloqu
e2
2
4
*
5
*
6
*
3
7
*
8
*
9
*
Tabla 2.1: Plan esquemático de experimentos con dos factores bloque
2.6.4 Diseños con dos o más factores.
En algunas ocasiones se está interesado en estudiar la influencia de dos (o más)
factores tratamiento, para ello se hace un diseño de filas por columnas. En este
modelo es importante estudiar la posible interacción entre los dos factores. Si en
cada casilla se tiene una única observación no es posible estudiar la interacción
entre los dos factores, para hacerlo hay que replicar el modelo, esto es, obtener k
observaciones en cada casilla, donde k es el número de réplicas.
El modelo matemático de este diseño es:
Generalizar los diseños completos a más de dos factores es relativamente
sencillo desde un punto de vista matemático, pero en su aspecto práctico tiene el
inconveniente de que al aumentar el número de factores aumenta muy rápidamente
el número de observaciones necesario para estimar el modelo. En la práctica es
muy raro utilizar diseños completos con más de factores.
Un camino alternativo es utilizar fracciones factoriales que son diseños en los
que se supone que muchas de las interacciones son nulas, esto permite estudiar el
efecto de un número elevado de factores con un número relativamente pequeño de
pruebas. Por ejemplo, el diseño en cuadrado latino, en el que se supone que todas
las interacciones son nulas, permite estudiar tres factores de k niveles con solo k2
observaciones. Si se utilizase el diseño equilibrado completo se necesitan k3
observaciones.
2.6.5 Diseños factoriales a dos niveles.
En el estudio sobre la mejora de procesos industriales (control de calidad) es usual
trabajar en problemas en los que hay muchos factores que pueden influir en la
variable de interés. La utilización de experimentos completos en estos problemas
tiene el gran inconveniente de necesitar un número elevado de observaciones,
además puede ser una estrategia ineficaz porque, por lo general, muchos de los
factores en estudio no son influyentes y mucha información recogida no es
relevante. En este caso una estrategia mejor es utilizar una técnica secuencial
donde se comienza por trabajar con unos pocos factores y según los resultados que
se obtienen se eligen los factores a estudiar en la segunda etapa.
Los diseños factoriales 2k son diseños en los que se trabaja con k factores,
todos ellos con dos niveles (se suelen denotar + y -). Estos diseños son adecuados
para tratar el tipo de problemas descritos porque permiten trabajar con un número
elevado de factores y son válidos para estrategias secuenciales.
Si k es grande, el número de observaciones que necesita un diseño factorial 2k es
muy grande (n = 2k). Por este motivo, las fracciones factoriales 2k-p son muy
utilizadas, éstas son diseños con k factores a dos niveles, que mantienen la
propiedad de ortogonalidad de los factores y donde se suponen nulas las
interacciones de orden alto (se confunden con los efectos simples) por lo que para
su estudio solo se necesitan 2k-p observaciones (cuanto mayor sea p menor número
de observaciones se necesita pero mayor confusión de efectos se supone).
En los últimos años Taguchi ha propuesto la utilización de fracciones factoriales
con factores a tres niveles en problemas de control de calidad industrial.
[Anterior] [Arriba]
Capítulo 3
Diseños con una fuente de variación.
3.1 Introducción.
3.2 Modelo matemático del diseño completamente
aleatorizado.
3.3 Estimación de los parámetros.
3.3.1 Estimadores por máxima-verosimilitud.
3.3.2 Estimadores por mínimo-cuadráticos.
3.3.3 Estimación puntual de la varianza.
3.4 Análisis de la varianza de una vía.
3.4.1 Idea general.
3.4.2 Descomposición de la variabilidad.
3.5 Inferencia de los parámetros del modelo.
3.5.1 Intervalos de confianza de los parámetros.
3.5.2 Concepto de contraste.
3.5.3 Contrastes múltiples.
3.6 Análisis de un caso de diseño con un factor fijo
3.7 Efectos aleatorios.
3.7.1 El modelo matemático de un factor aleatorio.
3.7.2 Contraste de varianza nula de los efectos
tratamiento.
3.7.3 Análisis de un caso de diseño con un factor
aleatorio.
Henry Scheffé, matemático estadounidense nacido
en Nueva York el 11 de Abril de 1907 y fallecido en
Berkeley, California (USA), el 5 de Julio de 1977.
[Siguiente] [Arriba]
3.1 Introducción.
Como ya se indicó en el capítulo previo el diseño de experimentos estudia la forma
de realizar comparaciones lo más homogéneas posibles que permitan detectar
cambios en el proceso de interés e identificar los factores influyentes.
En este contexto el problema más sencillo que se puede presentar es el de
detectar la influencia de un factor que tiene dos niveles en una variable de interés
(diseño de experimentos con un factor a dos niveles). Este problema es
exactamente el mismo que el problema de comparar las medias de dos poblaciones.
Problema que bajo la hipótesis de normalidad de las poblaciones se resuelve por el
contraste de la t. La generalización de este problema es contrastar la igualdad de
las medias de los I niveles de un factor, esto es, estudiar la influencia de un factor
con I niveles en la variable de interés.
Para resolver este problema se utiliza la técnica del Análisis DE la VArianza: ADEVA
(en inglés, ANalysis Of VAriance: ANOVA) introducida por R. A. Fisher en los años
treinta. El análisis de la varianza es la herramienta fundamental para el estudio de
una variable de interés a partir de observaciones que dependen de varios factores.
El ANOVA es la herramienta básica para el análisis de los modelos
estadísticos de Diseño de Experimentos y Regresión Lineal, porque
permite descomponer la variablidad de un experimento en
componentes independientes que pueden asignarse a diferentes
causas.
En este capítulo se estudia el diseño de experimentos más simple: el diseño
completamente aleatorizado. Este modelo de diseño tiene un único factor con I
niveles y las unidades experimentales se asignan al azar a los tratamientos. En este
modelo los tratamientos son los niveles del factor y no se incluyen factores bloque.
Un procedimiento sencillo para aleatorizar un diseño completamente
aleatorizado es el siguiente: se denota
ni: el número de observaciones que recibirán el i-ésimo tratamiento,
I: el número total de tratamientos,
n=
I
i = 1 ni
: el número total de observaciones.
Se codifican los tratamientos de 1 a I y se etiquetan las unidades experimentales
de 1 a n. Se siguen los siguientes pasos:
Paso 1:
Crear una columna con n1 unos, n2 doses,...., nI I’es; los valores de esta
columna representan a los tratamientos.
Paso 2:
Crear una segunda columna con n números aleatorios (uniformes en [0,1])
con dígitos suficientes para evitar empates.
Paso 3:
Reordenar simultánemente ambas columnas de modo que los números
aleatorios se ordenen en forma ascendente. De esta forma se consigue que
las etiquetas de los tratamientos estén en orden aleatorio.
Paso 4:
Asignar la unidad experimental t al tratamiento cuya etiqueta esté en la fila
t.
[Siguiente] [Arriba]
[Siguiente] [Anterior] [Arriba]
3.2 Modelo matemático del diseño completamente aleatorizado.
Se denota
Yit : la variable aleatoria que representa el valor de la respuesta en la tésima observación del i-ésimo tratamiento. En adelante se utilizará la
notación Y it para referise a la variable e yit para referirse a una observación
concreta.
i: la respuesta real del i-ésimo tratamiento. Es decir, a la respuesta que se
obtendría siempre con el i-ésimo tratamiento si se ejecutase el experimento
en, exactamente, las mismas condiciones.
it : la variable aleatoria que representa la distancia de la t-ésima
observación del i-ésimo tratamiento a su valor real. Por tanto it agrupa la
contribución de las fuentes de variación menores y no planificadas. Esta
variable se denomina error o error experimental.
Para cada t = 1,...,ni, i = 1,...,I, el modelo matemático del diseño es:
(3.1)
Si en este modelo se denota
se obtiene la siguiente forma alternativa del modelo
(3.2)
es una constante que representa la respuesta media de la variable Y, y i
representa la variación (positiva o negativa) de la media del nivel i respecto a la
media de la respuesta: i = i - . Los parámetros i se llaman efectos.
Examinar las diferencias entre niveles equivale a examinar las diferencias entre los
parámetros i en el modelo (1.1 ) o entre los parámetros i en el modelo (1.2 ):
Si se utiliza el segundo modelo, se exige la condición:
(3.3)
Si hay el mismo número de datos en cada nivel
condición es
, esta
(3.4)
El modelo (3.1) es un modelo lineal. En su estudio se suponen las siguientes
hipótesis:
1. La varianza es de la respuesta es constante (homocedasticidad),
equivalentemente, V ar
=
, j = 1,...,ni, i = 1,...,I.
2
2. La distribución de la respuesta es normal,
equivalentemente,
ij
~N
, j = 1,...,ni, i = 1,...,I.
3. Las observaciones Y ij son independientes. Bajo las hipótesis de normalidad,
esto equivale a que Cov(Y ij,Y kh) = 0, si i k o j h.
En función de los errores esta hipótesis es “los ij son independientes”, que
bajo normalidad, equivale a que Cov
= 0, si i k o j h.
En resumen,
El siguiente ejemplo ayuda a entender el modelo de diseño de experimentos
completamente aleatorizado.
Ejemplo 3.1.
“Una empresa desea estudiar la productividad media por hora en el montaje de
un mecanismo electrónico en las tres fábricas que tiene: FA, FB y FC. Para ello se
ha tomado una muestra de la productividad por hora en cada fábrica. La recogida
de datos se ha aleatorizado y nada presupone que existan factores con influencia en
los resultados obtenidos.” (Este ejemplo se desarrolla en la sección 3.6.)
Planteamiento del problema.
Se está interesado en saber si en la “variable de interés” influye el “factor” en
estudio. Esto es, se quiere contrastar si la media de la productividad de montaje es
la misma en las tres fábricas.
Variable de interés: productividad media por hora en el montaje de un mecanismo
electrónico.
Factor: fábrica en la que se realiza el montaje. El factor en estudio tiene
tres niveles: FA, FB, FC.
Hipótesis del estudio:
• Las tres muestras son muestras aleatorias simples de las correspondientes
poblaciones.
• La productividad de las tres fábricas siguen una distribución normal.
• La productividad de las tres fábricas tienen la misma varianza.
[Siguiente] [Anterior] [Arriba]
[Siguiente] [Anterior] [Arriba]
3.3 Estimación de los parámetros.
En el modelo matemático (3.1) hay I + 1 parámetros a estimar:
Análogamente, en el modelo (3.2) hay I + 1 parámetros a estimar:
el parámetro
I
se deduce de la condición (3.3).
Los parámetros del modelo se estiman por el método de máxima-verosimilitud
que bajo la hipótesis de normalidad es equivalente a obtenerlos por el método de
mínimos cuadrados.
3.3.1 Estimadores por máxima-verosimilitud.
De la hipótesis de normalidad se sigue que
i,j
La función de verosimilitud es
Tomando logaritmos neperianos se obtiene la función soporte
para obtener el máximo de la función L
y se iguala a cero, de donde se obtienen
proporciona los siguientes estimadores:
se deriva la misma respecto a
ecuaciones, cuya resolución
i
y
2
(3.5)
(3.6)
donde si2 es la varianza de los resultados del nivel i,
En la práctica el estimador
MV
2
no se suele utilizar porque es sesgado
3.3.2 Estimadores por mínimo-cuadráticos.
Un método alternativo de estimación de los parámetros es el método de estimación
mínimo cuadrática, que consiste en seleccionar como estimadores los valores de los
parámetros que minimizan la suma de los cuadrados de los errores. Esto es, se trata
de seleccionar valores 1,..., I que minimicen la siguiente función de I variables:
por tanto se quiere calcular
,...,
1
I
tales que
El problema de minimización anterior conduce a un sistema de I ecuaciones
(denominadas ecuaciones normales) cuyas soluciones únicas son para cada i = +
i,
(3.7)
Por tanto, los estimadores que se utilizarán son los siguientes
(3.8)
Si se utiliza el modelo (3.2), los estimadores son
(3.9)
(3.10)
La bondad de los estimadores mínimo-cuadráticos la establece un resultado clave
en los problemas de modelización lineal estadística, el Teorema de Gauss-Markov,
según el cual,
“Para todo modelo lineal con errores normales, independientes y varianza común
2
, los estimadores mínimo-cuadráticos son únicos, insesgados y de varianza
mínima”.
En base a las hipótesis del modelo es fácil deducir que la distribución de los
estimadores dados (3.8) es la siguiente
(3.11)
3.3.3 Estimación puntual de la varianza.
En cualquier modelo estadístico, se denomina residuo a la diferencia entre un valor
observado y el valor previsto por el modelo. Esto es,
(3.12)
En el modelo actual, para todo j = 1,...,ni e i = 1,...,I se tiene:
(3.13)
con
i
los estimadores mínimo-cuadráticos dados (3.8).
En el modelo de diseño de experimentos completamente aleatorizado hay n =
residuos eij. Existen las siguientes I relaciones entre ellos
I
i = 1 ni
Por ello se dice que los residuos del modelo tienen n - I grados de libertad.
A partir de los residuos se obtiene la suma de residuos al cuadrado, suma de
cuadrados residual o variabilidad no explicada (scR), dada por
(3.14)
El valor concreto scR es una realización particular de la variable aleatoria SCR
(el resultado que se obtiene a partir de la muestra seleccionada)
El valor concreto scR es una realización particular de la variable aleatoria SCR.
Esta variable es,
Un sencillo cálculo algebraico permite obtener la relación:
con
i
2
la varianza muestral corregida del i-ésimo tratamiento,
Como
de SCR es:
i
2
es un estimador insesgado de la varianza del error
Por tanto, un estimador insesgado de
2
es:
, el valor esperado
2
(3.15)
que se denomina, indistintamente, varianza residual o error cuadrático medio o
varianza dentro de los tratamientos.
De las hipótesis del modelo se deduce que
(3.16)
Intervalos de confianza para los parámetros del modelo.
A partir de la distribución dada en (3.16) se puede calcular un intervalo de
confianza al (1 - ) para la varianza 2 del modelo. Este intervalo viene dado por:
(3.17)
donde n-I2 es un número que verifica que P
= , siendo una
variable aleatoria con distribución chi-cuadrado con n - I grados de libertad.
El intervalo dado en (3.17 ) no es simétrico. En algunos casos también se utiliza
el siguiente intervalo de confianza
Los intervalos de confianza de i se obtienen a partir de la distribución dada en
(3.11 ). Dado que se desconoce el parámetro 2, de (3.11 ) y (3.16 ) se deduce que
(3.18)
Que permite calcular el siguiente intervalo de confianza simétrico de
i
al (1 - )
(3.19)
donde tn-I es un número que verifica que P
aleatoria con distribución t con n - I grados de libertad.
= , siendo una variable
[Siguiente] [Anterior] [Arriba]
[Siguiente] [Anterior] [Arriba]
3.4 Análisis de la varianza de una vía.
3.4.1 Idea general.
El problema básico es contrastar la hipótesis nula de que el factor no influye en la
variable de interés,
o equivalentemente
frente a la alternativa de que el factor si influye. Esto es, existen diferencias entre
los valores medios de los distintos tratamientos,
La idea básica del test análisis de la varianza es comparar:
* la suma de cuadrados residual bajo el modelo matemático cuando H1 es
cierto, (modelo completo),
* con la suma de cuadrados residual del modelo que resulta cuando H0 es
cierto (modelo reducido).
Es decir:
Si H0 es cierto, el único parámetro de medias es que se estima por
Por tanto, la suma de cuadrados residual del modelo reducido (H0) es:
Se verifica que
Si H0 es falsa y al menos dos efectos tratamiento difieren, la suma de
cuadrados residual scR bajo el modelo completo es considerablemente
más pequeña que la suma de cuadrados residual del modelo reducido
scR0. Por el contrario, si H0 es cierta ambas serán muy similares.
La cantidad
se denomina indistintamente variabilidad explicada o suma de cuadrados entre
tratamientos o suma de cuadrados explicada (por diferencias entre
tratamientos).
El valor scT es grande si se rechaza H0, pero no se puede utilizar como medida de
discrepancia del contraste porque es dimensionada (tiene las unidades de Y ). Por
ello se utiliza como estadístico del contraste el cociente entre scT y scR.
Si scT es grande en relación a scR se rechaza H0.
3.4.2 Descomposición de la variabilidad.
Teniendo en cuenta que:
elevando al cuadrado se obtiene
este resultado es debido a que se anulan los dobles productos que aparecen al
elevar al cuadrado. Los grados de libertad de estos términos son:
• n - 1 es el número de grados de libertad de scG, porque hay n
observaciones relacionadas por la ecuación
I
i=1
n
j =1 i
= 0.
• I - 1 es el número de grados de libertad de scT, porque hay I efectos de los
tratamientos relacionados por la ecuación i = 1Ini
= i = 1Ini i = 0.
• n - I es el número de grados de libertad de scR, porque hay n residuos
relacionados por las ecuaciones
I
i=1
n
j=1 i
=
I
i=1
n
j = 1 ieij
= 0, i = 1,...,I.
Dividiendo las sumas de cuadrados por los correspondientes grados de libertad se
obtienen tres estimaciones distintas de 2:
Si H0 (las medias son iguales) es cierta, se verifica que
Por tanto,
(3.20)
Utilizando (3.20), como estadístico del contraste puede utilizarse
Se rechaza H0 al nivel de significación si
Comentarios.
1. Si el test F resulta significativo (se rechaza H0, por tanto, el factor es
influyente) se deberá estudiar entre qué tratamientos existen diferencias
significativas.
2. Una medida relativa de la variabilidad explicada por el factor es el
coeficiente de determinación, definido como
(3.21)
3. Si de desea aumentar la precisión del contraste, puede hacerse de dos
formas:
a. Reducir 2 (el error experimental) introduciendo nuevos factores.
b. Aumentar el tamaño muestral en cada grupo.
4. En algunos textos se utiliza la siguiente notación: scG = V T (Variabilidad
Total), scT = V E (Variabilidad Explicada), scR = V NE (Variabilidad No
Explicada).
5. En general, sea cierta o no la hipótesis nula, se verifica que
siendo
(3.22)
CUADRO DEL ANÁLISIS DE LA VARIANZA
— UNA VÍA – FACTOR FIJO –
Fuente de
Suma de
Variación
Cuadrados
g.l.
I n
i=1 i
2
I-1
I
i=1
n
2
j = 1 ieit
2
scmR =
scR =
Residual
E(SCM)
scmT =
scT =
Tratamientos
scm
n-I
+ Q( i)
scG =
Global
I
i=1
n
j =1 i
Rechazar H0 :
i
=
2
j
n-1
i,j en base al p-valor
Coeficiente de Determinación: R2 =
Cuadro 1.1: Cuadro del análisis de la varianza para un diseño completamente
aleatorizado de efectos fijos.
[Siguiente] [Anterior] [Arriba]
[Siguiente] [Anterior] [Arriba]
3.5 Inferencia de los parámetros del modelo.
3.5.1 Intervalos de confianza de los parámetros.
Se consideran dos situaciones:
Se acepta H0.
Si se acepta la no influencia del factor los datos provienen de una única muestra
homogénea y los parámetros y 2 se estiman según las técnicas clásicas.
(3.21)
(3.22)
Se rechaza H0.
Si se supone que el factor influye, entonces los parámetros del modelo son:
y 2. Los estimadores son
,...,
1
I
Los intervalos de confianza se calculan a partir de las siguientes distribuciones:
Para
i
= +
i
que permite obtener el siguiente intervalo de confianza a un nivel 1 - (dado en
(3.19 ))
Para la varianza
2
se utiliza el estadístico pivote (dado en (3.16 ))
de donde se deduce el siguiente intervalo de confianza dado en (3.17 ).
Diferencia entre dos medias.
Si se rechaza la hipótesis nula es porque existen medias de tratamientos
diferentes y es importante calcular un intervalo de confianza para el parámetro =
j, i,j = 1,...,I. Este intervalo se deduce fácilmente del siguiente
i j, con i
estadístico pivote
(3.25)
que proporciona el siguiente intervalo de confianza a un nivel 1 -
3.5.2 Concepto de contraste.
Lo expuesto en el apartado anterior puede generalizarse. Para ello se introduce el
siguiente concepto:
“ Se denomina contraste, , a cualquier combinación lineal de los efectos de
los tratamientos
En un diseño completamente aleatorizado todo contraste es estimable y su
estimador mínimo-cuadrático es
Por la normalidad e independencia de las observaciones, se obtiene la distribución
de
(3.26)
En muchos casos es útil representar un contraste por la lista de sus coeficientes.
Esto es, el contraste se puede representar por cualquiera de las dos formas
equivalentes siguientes:
Contrastes importantes sobre los que es interesante hacer inferencia son los
siguientes:
• Comparar tratamientos a pares (“pairwise”).
Son contrastes del tipo: = i - j, donde el vector de coeficientes es un 1
en el i-ésimo lugar, un -1 en el j-ésimo lugar y un 0 en el resto.
Por ejemplo, = [0,0,1,0,...,0,-1,0] sería el contraste
3
-
. Existen m =
I-1
(I 2) contrastes de comparaciones por pares
Es decir, estimar contrastes del tipo: = i - j, donde el vector de
coeficientes es 1 en el i-éximo lugar, un -1 en el j-ésimo lugar y un 0 en el
resto.
Por ejemplo, =[0,0,1,0,...,0,-1,0] sería el contraste
contrastes de comparaciones por pares.
3
-
I-1.
Existen m =
• Tratamientos frente a control.
Un subconjunto de contrastes del grupo anterior muy particular es el formado por
los I - 1 contrastes 1 - I ([1,0,...,0,-1]), 2 - I ([0,1,...,0,-1]), ... , I-1 - I ([0,0,...,1,1]). El objetivo es comparar el efecto de cada uno de los tratamientos con un
tratamiento concreto, que se suele denominar control.
• Diferencias de medias de grupos.
Si los niveles de los factores tratamiento se dividen de un modo natural en dos o
más grupos, puede ser interesante comparar el efecto medio de un grupo con los
efectos medios de otros grupos.
Por ejemplo, supóngase que se desea comparar el efecto del color del papel de
examen en los resultados finales de éste. Se ha probado con dos tonos claros:
blanco y amarillo (niveles 1 y 2 del factor) y con tres tonos más fuertes: azul, verde
y rosa (niveles 3, 4 y 5). El siguiente contraste:
permite observar diferencias entre la influencia del papel claro (grupo 1) con
respecto a la del papel oscuro (grupo 2).
• Tendencias
Cuando los niveles del factor tratamiento son cuantitativos y tienen un orden
natural, el experimentador podría estar interesado en saber si la respuesta
crece o decrece con un incremento del nivel o, más aún, si esa tendencia se
mantiene o no constante. Se habla entonces de contrastes de tendencia.
Por ejemplo, supóngase que hay I = 5 niveles de un factor son equiespaciados y
con igual tamaño muestral en cada grupo. Suponiendo α = α1 = α2 = α3 = α4 = α5 el
siguiente contraste indica una tendencia lineal en los niveles
En el mismo contexto, una tendencia cuadrática viene dada por el contraste
En general, si = i = 1Ibi i es el estimador mínimo cuadrático de un contraste
individual = i = 1Ibi i, con i = 1Ibi = 0. Entonces, de (3.2 6) se deduce que un
intervalo de confianza para , al nivel 1 - , viene dado por:
(3.27)
donde g.l. representa los grados de libertad con que se ha estimado la varianza del
error.
En el modelo del diseño completamente aleatorizado al estimar
varianza residual, R2, con n - I grados de libertad, se obtiene
por la
2
(3.28)
Análogamente, utilizando la distribución del contraste =
.26), se pueden realizar test de hipótesis del tipo
I
i = 1 bi
, dada en (3
i
(3.29)
3.5.3 Contrastes múltiples.
Si el test de la F de la tabla ANOVA indica rechazo de la hipótesis nula de igualdad
de las medias de los niveles, es importante establecer la hipótesis alternativa
adecuada y, para ello, son de gran utilidad los contrastes múltiples. En ocasiones se
quiere realizar un número muy grande de comparaciones, de modo que la
probabilidad de que alguna comparación individual resulte significativa puede ser
erróneamente muy grande.
Si se quieren resolver todas las pruebas de hipótesis siguientes:
Existen m = =
pruebas (por ejemplo, si I = 6 entonces m = 15). Al
resolverlas una a una, con nivel , se denomina Aij al suceso:
Entonces:
Sea el suceso: A = rechazar erróneamente alguna H0ij =
m
ij Aij.
¿Cuál es la probabilidad de A?
Suponiendo que los Aij fuesen independientes (obviamente no lo son):
Si = 0'05 y m = 15, entonces P(A) = 1 - 0'9515 = 1 - 0'46 = 0'54.
Por tanto, la probabilidad de concluir erróneamente que algún par de
tratamientos son significativamente distintos es mayor que 0'54.
Hay distintos métodos para abordar el problema de la resolución de pruebas de
hipótesis simultáneas (es decir, garantizando para todos ellas un nivel de
significación predeterminado). Unos han sido desarrollados con carácter general y
otros orientados a problemas concretos como puede ser la comparación de distintos
tratamientos con un tratamiento control.
A continuación se exponen dos métodos de resolución de contrastes múltiples.
Método de Bonferroni.
Se basa en calcular un nivel de significación, *, para cada una de las m pruebas
de hipótesis que garantice un nivel de significación concreto para todas las
pruebas de hipótesis simultáneas ( es por tanto el nivel de significación global).
Supóngase que se tienen I niveles y m pruebas de hipótesis individuales. Sean los
sucesos:
Ak : “aceptar la hipótesis nula del contraste k-ésimo cuando ésta es cierta”.
A : “rechazar erróneamente la hipótesis nula de uno o más contrastes”.
¿Qué * habrá que utilizar en cada prueba de hipótesis individual para garantizar
que P(A) no es mayor que ?
(3.29)
Por tanto, para el modelo matemático de un diseño completamente aleatorizado, el
método de Bonferroni consiste en resolver cada prueba de hipótesis individual
conforme al siguiente criterio:
m
j
Dado un conjunto de m contrastes
j = 1 , rechazar la hipótesis H0 :
I j
i = 1 bi i = 0, a un nivel de significación global no superior a , siempre que
(3.30)
Ventajas y desventajas de este procedimiento son las siguientes:
• Si m es muy grande,
puede aproximar por:
donde z
será tan pequeño que tn-I
es el valor de una normal estandar tal que P
no viene en las tablas. Se
= .
• Es método es excesivamente conservador y sólo resulta más potente que otros
procedimientos cuando m es muy pequeño.
• Es válido para cualquier tipo de diseño.
Método de Scheffé.
El método de Bonferroni presenta serios inconvenientes, en particular, si m es
muy grande la mínima diferencia significativa al nivel global para cada prueba es
excesivamente grande.
Por el contrario, el método de Scheffé proporciona una mínima diferencia
significativa que no depende del número de pruebas m a realizar.
El valor crítico de Scheffé es
I
de modo que, para cualquier contraste individual
i = 1 bi i se rechaza la
hipótesis H0 : i = 1Ibi i = 0, a un nivel de significación global no superior a ,
siempre que
(3.31)
Sobre el método de Scheffé conviene saber que
• Sólo depende de I y de n, pero no de m.
• Es especialmente adecuado cuando se precisen comparar otros contrastes además
de las comparaciones a pares.
• Si m es muy grande, resulta más potente (y por ello más recomendable) que el
método de Bonferroni.
• Es válido para cualquier tipo de diseño.
• El F-test del ANOVA resulta significativo al nivel si al menos una de las infinitas
pruebas de hipótesis simultáneas de Scheffé lo es.
Otros métodos de contrastes múltiples son los siguientes:
— Método de Tukey para todas las comparaciones a pares.
— Método de Dunnett para comparaciones entre tratamientos y control.
— LSD (Least Significative Difference) de Fisher.
— Test de rango múltiple de Duncan.
— Test de Newman y Keuls.
— Test de Hsu (es muy útil para comparar cada tratamiento con el mejor).
[Siguiente] [Anterior] [Arriba]
[Siguiente] [Anterior] [Arriba]
3.6 Análisis de un caso de diseño con un factor fijo.
En esta sección se analiza con detalle un problema de un diseño de experimentos
completamente aleatorizado. El enunciado del problema es el dado en el Ejemplo
3.1.
Ejemplo 3.1.
“Una empresa desea estudiar la productividad media por hora en el montaje de
un mecanismo electrónico en las tres fábricas que tiene: FA, FB y FC. Para ello se
han recogido los datos que aparecen en la tabla. La recogida de datos se ha
aleatorizado y nada presupone que existan factores con influencia en los resultados
obtenidos.”
Factor: Fábrica
Y : Product/hora
FA
FB
FC
4'5
4'4
4'7
4'8
5'1
4'6
4'1
3'7
4'3
4'3
4'7
4'5
4'4
4'9
4'6
4'6
4'2
4'6
4'3
4'8
4'4
5'2
4'2
4'6
4'3
4'7
4'9
3'8
4'5
4'7
4'1
4'3
4'2
4'2
3'8
4'3
4'9
3'8
4'2
4'0
4'5
4'6
4'9
4'7
5'1
4'8
4'0
4'1
4'2
4'2
4'6
3'6
3'9
4'2
Número datos
Media
Desviación Típica
16
A
.
= 4'43
sY/A = 0'338
..
= 4'419
Estimación de los parámetros.
Se obtienen las siguientes estimaciones
Teniedo en cuenta el modelo ajustado
20
B.
= 4'56
sY/B = 0'423
sY = 0'371
18
C.
= 4'25
sY/C = 0'270
Las medias en cada una de las fábricas son:
Intervalos de confianza.
Un intervalo de confianza al 95% para la media de la fábrica A es
Un intervalo de confianza al 95% para la varianza
2
es
Tabla ANOVA del modelo
Tabla ANOVA
Fuentes de
variación
Suma de
cuadrados
Grados de
libertad
Varianzas
Entre fábricas
(scT)
0'9141
2
0'4570
Residual (scR)
6'3673
51
0'1248
Total (scG)
6'3673
53
0'1373
Para contrastar la hipótesis nula de que “el factor fábrica no influye en la variable
productividad”: H0
A = B = C =
El estadístico del contraste es
La tabla de la F proporciona un p - valor = 0'0327. Por tanto se rechaza la
influencia del factor fábrica para = 0'05 y se acepta para = 0'01. Ver la Figura 3.1.
Figura 3.1. p-valor del contraste.
El coeficiente de determinación es
El factor explica el 12’55% de la variabilidad total.
Intervalo de confianza para la diferencia de medias.
Se calcula un intervalo de confianza al 90% para la diferecia de medias entre la
productividad de la fábrica B y la de la fábrica C
.
Utilizando el estadístico dado en (3.25 ) se obtiene
A partir de este estadístico pivote (con distribución t) se puede hacer el
siguiente test de hipótesis
Utilizando los resultados anteriores se obtiene
El p - valor = 0'0047 y se rechaza claramente la igualdad de medias de las
fábricas B y C.
Comparando las medias de los niveles dos a dos se obtienen los siguientes grupos
homogéneos:
• Fábrica A y Fábrica B.
• Fábrica A y Fábrica C.
[Siguiente] [Anterior] [Arriba]
[Anterior] [Arriba]
3.7 Efectos aleatorios.
En lo expuesto en este capítulo se supone que el factor tratamiento del modelo de
diseño completamente aleatorizado es de efectos fijos, esto es, los niveles del
factor son seleccionados específicamente por el experimentador ya que el interés
del experimento se centra en conocer los efectos sobre la respuesta de estos
niveles particulares. En este caso los efectos del factor
son “constantes”
desconocidas (parámetros). Los modelos conteniendo únicamente efectos fijos se
denominan también modelos de efectos fijos.
En muchas situaciones el experimentador tiene interés en un factor con un
número elevado de “posibles niveles” y para realizar el experimento es necesario
seleccionar una muestra de ellos al azar. En este caso el factor es de efectos
aleatorios y, en el modelo matemático del diseño los factores son variables
aleatorias idénticamente distribuidas según la distribución de la población de
niveles. Los modelos con factores de efectos aleatorios se denominan modelos de
efectos aleatorios. En estos modelos el interés radica en medir la variabilidad
existente en la totalidad de los efectos de la población de niveles. El objetivo es
distinto del caso de efectos fijos y, por consiguiente, la planificación y análisis
difiere en ambos modelos.
Hay modelos de diseños de experimentos con factores fijos y factores aleatorios
que se denominan modelos mixtos.
En esta sección se estudia el modelo de diseño completamente aleatorizado con
el factor de efectos aleatorios. Se supone que la población de niveles es infinita o
lo suficientemente grande como para ser considerada como tal, en caso contrario es
necesario aplicar correcciones para poblaciones finitas en la formulación
matemática del modelo.
Ejemplo 3.2.
Una marca de coches está interesada en controlar la variabilidad en el consumo
de los coches que fabrica de un determinado modelo y para ello somete a un
número de coches a una prueba que consiste en que los coches hagan un recorrido
predeterminado y se calcule el consumo realizado. Las causas más probables de
esta variabilidad son dos: los coches utilizados (no todos tienen el mismo consumo)
y los conductores que hacen la prueba.
Pueden considerarse dos situaciones:
[1] Los conductores que participan en el experimento son personal de la
empresa acostumbrado a realizar este tipo de pruebas y se cree que su influencia es
casi nula, de modo que casi con total seguridad el problema radica en las unidades
de coche fabricadas que se están provando. El factor tratamiento es “los coches” y
los niveles son todos los coches fabricados y que se podrían fabricar en el futuro.
Teóricamente esta población de niveles es infinita y se puede suponer que los
coches elegidos entre los últimos fabricados son una muestra aleatoria de todas los
fabricados. El efecto del coche sobre el consumo es un efecto aleatorio y se modela
mediante una variable aleatoria.
[2] Se sabe que hay muy pocas diferencias entre los coches fabricados o están
son mínimas, y se supone que su influencia en el consumo es prácticamente nula.
Por otra parte, la fábrica de coches ha querido hacer una prueba de consumo de
carácter realista y ha elegido como conductores para hacer la prueba a personas de
la ciudad donde está ubicada con la única condición de que tengan el carnet de
conducir. Por tanto cabe esperar que el origen de la variabilidad debe encontrarse
en los conductores. La ciudad es relativamente grande y el número de conductores
es elevado, por este motivo los operarios seleccionados para hacer la prueba son
una pequeña muestra de todos los conductores de la ciudad. Asumido que el grupo
seleccionado es representativo de la población, éste puede considerarse una
muestra aleatoria de la población total de conductores. De nuevo el factor
“conductor” es un factor de efectos aleatorios y se debe utilizar un diseño de una
vía completamente aleatorizado. En su planificación, habrá que seleccionar al azar
una muestra de tamaño I de la población de niveles del factor tratamiento aleatorio
y, a continuación, asignar al azar las unidades experimentales a los I niveles
seleccionados. Aquí, para conseguir una potencia específica en las pruebas de
hipótesis, hay que determinar con antelación el valor apropiado de I, además del
tamaño muestral de cada nivel.
3.7.1 El modelo matemático de un factor aleatorio.
Para un diseño completamente aleatorizado con I niveles seleccionados al azar de
un factor tratamiento T, el modelo de un factor aleatorio es
(3.32)
para i = 1,...,I, j = 1,...,ni. Las Ti son variables aleatorias i.i.d. con distribución N(0,
2
), y los ij son variables aleatorias i.i.d. con distribución N(0, 2). Siendo las i y los
mutuamente independientes.
ij
Comparando el modelo de efectos aleatorios con el modelo de efectos fijos, se
observa que la forma de ambos modelos y las hipótesis sobre el error son
exactamente iguales. La única diferencia está en la modelización del efecto
tratamiento. Dado que el i-ésimo nivel del factor tratamiento observado en el
experimento ha sido seleccionado aleatoriamente de una población infinita, su
efecto observado es el resultado de la variable aleatoria i. La media de la
población de los efectos del tratamiento es la constante y, por tanto, se justifica
que la media de las i sea cero. El parámetro de interés es ahora 2. Su
importancia es fundamental: si todos los efectos de la totalidad de niveles del factor
tratamiento son iguales, entonces 2 = 0. Si, por el contrario, existen niveles con
efectos muy diferentes, entonces 2 es grande.
La independencia entre i y ij implica que el factor tratamiento no tiene
incidencia sobre cualquier fuente de variación que haya sido englobada en el error.
Comparando el modelo de efectos fijos y efectos aleatorios, se tiene:
Efectos Fijos
Efectos Aleatorios
Modelo
yij = +
I
i=1
i
i
+
yij = +
ij
=0
i
i
+
ij
N
Los efectos son parámetros desconocidos variables aleatorias
Influyen en
la respuesta media
Objetivo
Los niveles
estimar
estimar
i
son predeterminados
El contraste
H0 :
i
en la variabilidad
2
se eligen al azar
= 0, i
H0 :
2
=0
En el modelo con factor aleatorio se tiene:
(3.33)
ya que por la independencia de
i
y
ij
, la Cov
= 0.
Por tanto
(3.34)
Los dos términos de la varianza de Y ij:
varianza.
2
y
2
se denominan componentes de la
Al contrario que en el modelo de efectos fijos, las observaciones pertenecientes
a un mismo tratamiento son correladas:
Estimación de
.
2
Por la similitud entre los modelos de una vía de efectos aleatorios y de efectos
fijos y realizando un sencillo cálculo matemático puede probarse que la varianza
residual residual
obtenida en (3.15) para el modelo de efectos fijos también
es un estimador insesgado de 2 en el modelo de efectos aleatorios.
(3.35
)
Estimación de
2
.
Se puede utilizar scmT para obtener un estimador de
matemático permite obtener
. Un sencillo desarrollo
2
(3.36)
Si todos los ni son iguales (ni = r, para todo i), entonces n = Ir y c = r. Por tanto,
(3.37)
De lo anterior se deduce que SCMT es un estimador insesgado de c
2
).
Y de (3.35) y (3.36) se deduce que
2
+
2
(no de
(3.38)
Finalmente, de (3.33), (3.35) y (3.38) se deduce que un estimador insesgado de la
varianza de Y, Y 2, es
(3.39)
En resumen
donde c = (1 /n - I)
; si ni = r para todo i, entonces c = r.
3.7.2 Contraste de igualdad de los efectos tratamiento.
En el modelo de efectos aleatorios tiene interés la siguiente prueba de hipótesis:
Para resolver este contraste se utiliza la misma medida de discrepancia que la
utilizada para contrastar si los efectos eran iguales en un modelo de efectos fijos.
En el apartado anterior se obtenía que:
Si H0 es cierta, el valor esperado del cociente SCMT SCMR 1 y, si H1 es
cierta, el cociente anterior toma valores positivos grandes. Por lo tanto el
estadístico del contraste es
(3.40)
Se rechaza H0 al nivel de significación si
El resultado es análogo al caso de efectos fijos, y el cálculo matemático para
resolver el problema con efectos aleatorios o con efectos fijos es el mismo aunque
el planteamiento de los problemas son muy diferentes.
La tabla ANOVA para el modelo de una vía de efectos aleatorios es
prácticamente igual al de efectos fijos con la diferencia en los valores esperados de
las sumas de cuadrados medios. En la tabla 3.2. se presenta la tabla ANOVA del
modelo de diseño de experimentos con un factor aleatorio.
CUADRO DEL ANÁLISIS DE LA VARIANZA
— UNA VÍA – EFECTOS ALEATORIOS –
Fuente de
Suma de
Variación
Cuadrados
g.l.
I
i=1
n
j =1 i
2
I-1
c
Residual
n-I
n
j =1 i
scmG =
Global
n-1
n
j =1 i
2
2
scG =
I
i=1
+
2
scmR =
scR =
I
i=1
E(SCM)
scmT =
scT =
Tratamientos
scm
2
c=
Rechazar H0
:
T
2
= 0 en base al p-valor p = P
Cuadro 1.2: Cuadro del análisis de la varianza para un diseño completamente
aleatorizado de efectos aleatorios.
"Como regla general, los modelos de efectos fijos se utilizan para conocer si deben
ó no aplicarse determinados tratamientos, mientras que los modelos de efectos
aleatorios permiten medir el efecto de factores que, se quiera o no, están
presentes en el proceso. En el primer caso, nos interesa conocer el aumento o
disminución de la media de la respuesta según los niveles de los factores, mientras
que con el segundo se busca su efecto sobre la variabilidad."
Comparando el modelo de efectos fijos y efectos aleatorios, se tiene:
Efectos Fijos
Modelo
yij = +
i
i
Los efectos
Influyen
+ uij
=0
yij = +
i
+ uij
N
i
parámetros desconocidos variables aleatorias
en la respuesta media
Objetivo
estimar
Los niveles
se eligen
El contraste
Efectos Aleatorios
H0 :
i
i
= 0, i
en la variabilidad
estimar
2
al azar
H0 :
2
=0
3.7.3 Análisis de un caso de diseño con un factor aleatorio.
En esta sección se estudia un problema de un diseño de experimentos con un factor
aleatorio.
Ejemplo 3.3.
“Un laboratorio controla la calidad de los plásticos utilizados en bolsas. Se desea
contrastar si existe variabilidad en la calidad de los plásticos que existen en el
mercado. Para ello se eligen al azar cuatro plásticos y se los somete a una prueba
de resistencia. De cada plástico elegido se han seleccionado ocho muestras y los
resultados de la variable que mide la resistencia son los de la tabla adjunta.
¿Qué conclusiones se deducen de este experimento?”
Plást.A.
Plást.B.
Plást.C.
Plást.D.
135 213
275 219
169 253
115 120
175 171
170 187
239 179
105
74
97
115
154 220
184 280
93
87
169 143
133 185
222 193
85
63
Solución:
Un primer análisis de estos datos se recoge en la siguiente tabla
Pintura
Observ.
Media
D. tip.
Sim.Est
Kurt. est
Pint.A
8
152’12
37’19
0’104
-0.196
Pint.B
8
192’87
44’52
0’761
0’288
Pint.C
8
214’87
39’91
0’565
-0’671
Pint.D
8
92’75
19’70
-0’014
-0’556
Total
32
163’15
58’62
0’426
-0’815
La tabla ANOVA es:
Tabla ANOVA
Fuentes de variación Suma de cuadrados Grados de libertad
Varianzas
Entre pinturas
69094'1
3
SCMP= 23.031'4
Residual
37430'1
28
R
Total
106524'0
31
Y
El test de la F sobre la hipótesis H0 :
2
2
= 1.336'8
2
= 3.436'2
= 0 es:
el p - valor = 0'000 y se rechaza la hipótesis de no influencia del factor. Esta
conclusión concuerda con los resultados de la tabla de estadísticos descriptivos de
los datos.
Se estiman los parámetros del modelo como sigue:
[Anterior] [Arriba]
Capítulo 4
Chequeo del modelo de diseño de experimentos con
un factor.
4.1 Hipótesis básicas del modelo.
4.2 Bondad del ajuste del modelo.
4.3 Normalidad de los errores.
4.3.1 Gráficos de normalidad
4.3.2 Contrastes de bondad de ajuste
4.4 Homocedasticidad de los errores.
4.5 La familia de transformaciones de BoxCox.
4.6 Homogeneidad de los errores. Datos
atípicos.
4.7 Independencia de los errores.
4.7.1 Gráficos para detectar dependencia.
4.7.2 Contrastes para detectar dependencias.
4.8 Contraste de Kruskal-Wallis. Alternativa
no paramétrica al Anova.
Andrey Nikolaevich Kolmogorov, matemático
ruso nacido en Tambov (provincia de Tambov,
Rusia) el 25 de Abril de 1903 y fallecido en
Moscú, Rusia, el 20 de Octubre de 1987.
[Siguiente] [Arriba]
4.1 Hipótesis básicas del modelo.
En el estudio de un modelo de Diseño de Experimentos, al igual que en el estudio
de cualquier modelo estadístico, se debe contrastar que se verifican las hipótesis
básicas o estructurales del modelo. En el modelo de diseño de experimentos con un
factor las hipótesis establecidas a priori sobre los errores del modelo:
(4.1)
son las siguientes:
1.
2.
3.
4.
5.
Bondad del ajuste del modelo estadístico propuesto.
La normalidad.
La homocedasticidad del error.
La homogeneidad de la muestra.
La independencia de las observaciones.
Dado que los errores del modelo son desconocidos, las hipótesis anteriores pueden y
deben chequearse a partir de los residuos,
y, en general, es preferible trabajar con los residuos estandarizados, definidos por
Si las suposiciones sobre el modelo son correctas, se verifica que es una
muestra aleatoria simple de una distribución N(0,1) y, por tanto, es razonable
suponer un comportamiento similar para rit.
Un estudio descriptivo analítico y gráfico de la muestra y de los residuos permite
tener una idea aproximada acerca del cumplimiento de las hipótesis básicas. Es
recomendable lo siguiente:
1. Previo al cálculo del modelo se deben obtener los estadísticos básicos de la
variable respuesta Y según el factor.
2. Gráficos de interés para un análisis previo son: el gráficos de puntos de Y
según el factor y el gráfico de cajas múltiple de Y según el factor.
3. Una vez ajustado el modelo y calculados los residuos (o los residuos
estandarizados) se deben obtener los estadísticos básicos de los residuos
según el factor.
4. Analizar el gráficos de puntos de los residuos según el factor, el gráfico de
cajas múltiple de los residuos según el factor, el histograma de los residuos,
el gráfico de los residuos frente a las predicciones, el gráfico de los residuos
frente al índice.
La interpretación de estos estadísticos y gráficos se expone en la secciones
siguientes en las que se analiza la metodología a seguir para chequear las hipótesis
básicas.
[Siguiente] [Arriba]
[Anterior][Siguiente] [Arriba]
4.2 Bondad del ajuste del modelo.
El gráfico de puntos de los residuos según los niveles del factor, gráfico
,j=
1,...,ni, i = 1,...,I, permite tener una buena idea acerca de si los datos se ajustan
adecuadamente al modelo de diseño de experimentos con un factor. En la
Figura 4.1 se representa la nube de puntos de los residuos del modelo de un factor
utilizando los datos del Ejemplo 3.1. Se observa que los residuos se ajustan de
forma adecuada.
Figura 4.1. Gráfico de residuos frente al factor.
Si la nube de puntos muestra un comportamiento no aleatorio alrededor del 0
(residuos excesivamente positivos para algunos niveles y excesivamente negativos
para otros) es indicativo de falta de ajuste. El modelo supuesto no es válido y debe
modificarse.
El gráfico de cajas múltiple de los residuos frente al factor proporciona
información complementaria acerca de este problema. Este gráfico para los datos
del Ejemplo 3.1. se representa en la Figura 4.2.
Figura 4.2. Gráfico de cajas múltiple de los residuos.
Si se observa que el modelo no se ajusta bien, el gráfico de los residuos frente a los
niveles de un factor no incluído puede indicar la necesidad de incluir el factor en el
experimento.
Otro gráfico de interés es el de la respuesta frente a las predicciones,
que permite observar la influencia del factor y la forma de esta (lineal,
cuadrática,).
[Anterior][Siguiente] [Arriba]
[Anterior][Siguiente] [Arriba]
4.3 Normalidad de los errores.
Una de las hipótesis básicas del modelo de diseño de experimentos con un factor es
que los errores del modelo siguen una distribución normal.
Consecuencias de la falta de normalidad.
Este es un problema que afecta especialmente a la estimación de la varianza del
modelo y no se obtendrán intervalos de confianza correctos del error experimental
. Sin embargo, por el Teorema Central del Límite, la falta de normalidad tiene
poca influencia en el F-test de la tabla ANOVA y en las estimaciones puntuales de
las medias y de las diferencias de medias de los tratamientos.
La hipótesis de que los errores siguen una distribución normal puede chequearse
de forma gráfica y de forma analítica.
4.3.1 Gráficos de normalidad.
Los gráficos para estudiar la normalidad de los residuos son los siguientes:
El histograma de los residuos, la mayoría de los paquetes estadísticos permiten
dibujar el histograma conjuntamente con la densidad normal que se ajusta a la
muestra. Debe de tenerse en cuenta que el número de barras que se elija para el
histograma influye en la forma del mismo. En la Figura 4.3. se observa el
histograma de los residuos estandarizados y la normal ajustada.
Figura 4.3. Histograma de residuos y normal ajustada.
El gráfico de normalidad para los datos
n
n
i=1 y
i = 1 , donde Fn
de la muestra (distribución empírica) y F
, en el que se representan los pares
es la frecuencia relativa acumulada
es la distribución teórica (en este caso
la distribución normal). Estas curvas se representan en unos ejes escalados de
n
forma que los puntos
i = 1 están sobre la recta y = x. Por tanto, si los
n
puntos
i = 1 están próximos a esta recta, se aceptará la hipótesis de
normalidad. En la Figura 4.4. se representa el gráfico de normalidad de los
residuos del Ejemplo 3.1.
n
i=1
Figura 4.4. Gráfico de normalidad para los residuos estandarizados del ejemplo
3.1.
Gráficos de normalidad parecidos al descrito son el gráfico P -P que representa los
n
pares
i = 1 y el gráfico Q - Q (cuantil-cuantil). Estos gráficos también
se puede construir para el ajuste de otras distribuciones.
Otros gráficos que pueden ayudar a estudiar la hipótesis de normalidad son los
siguientes: el gráfico de cajas, el gráfico de tallos y hojas, el gráfico de simetría.
4.3.2 Contrastes de bondad de ajuste.
Existen muchos contrastes no paramétricos sobre la bondad del ajuste de los
errores a una distribución normal. De hecho, en la mayoría de los casos estos
contrastes son válidos para contrastar si una muestra sigue una determinada
función de distribución (no solo la normal).
Por su importancia se exponen los más utilizados: contraste chi-cuadrado,
contraste de Kolmogorov-Smirnov (Lilliefors), y el contraste de asimetría y curtosis.
Contraste chi-cuadrado de Pearson.
El test chi-cuadrado es un contraste general de bondad de ajuste de una
distribución y, en particular, puede utilizarse para contrastar la normalidad de una
muestra. El contraste de hipótesis a realizar es:
Pearson (1900) prppuso un estadístico que compara las frecuencias observadas (oi)
con las frecuencias esperadas (ei), en base a la distribución de probabilidad
especificada. Concretamente, para una variable discreta con k modalidades o una
variable continua con k intervalos de clase, el contraste definido por Pearson (1900)
es el siguiente,
La distribución aproximada de este contraste, bajo la hipótesis de que la
distribución especificada sea correcta, es la de una chi-cuadrado con k - 1 grados de
libertad ( k - 12).
Comentarios
1. Este contraste compara el histograma de frecuencias relativo de la muestra
con el que se deduce de la masa de probabilidad teórica. Es válido para
distribuciones discretas y continuas.
2. Si la distribución depende de algún parámetro que debe ser estimado, la
distribución aproximada del test es una k -r- 12, siendo r el número de
parámetros estimados. Así, si se contrasta la hipótesis de normalidad, hay
que estimar dos parámetros: y 2. Por tanto, el número de grados de
libertad es k - 3.
3. Si la variable en estudio es continua se puede utilizar este contraste
haciendo intervalos de clase. Esto plantea el problema de la subjetividad en
la elección de los mismos, así como la dependencia del resultado del test de
los intervalos elegidos.
Ejemplo 4.1.
“Considérese la siguiente muestra de 20 observaciones.
-16'0
7'0
12'0
-1'6
-11,0
3'2
12'0
-3'9
12'0
3'8
-4'5
-9'1
7'2
15'7
-3'3
-16'6
5'8
-15'4
16'6
-7'6
Utilizar el contraste chi-cuadrado para contrastar la hipótesis de normalidad”.
Solución.
De los datos del ejemplo se obtiene que = 0'315 y sX = 10'737.
Se construye la tabla de fecuencias observadas y esperadas:
x
oi
ei
(oi - ei)2 ei
3
2'86
0'01
3
2'86
0'01
3
2'86
0'01
1
2'86
1'21
3
2'86
0'01
2
2'86
0'26
5
2'86
1'61
Suma
Q = 3'100
Q, bajo la hipótesis nula, sigue una chi-cuadrado con 7-1-2=4 grados de libertad, el
p - valor = 0'541 y se acepta la hipótesis de normalidad.
Ejemplo 4.2.
“Sea la variable número diario de cancelaciones de cuentas en un banco. Se ha
observado una muestra de 49 días. La tabla de frecuencias resultante es:
número de cancelaciones
frecuencia
0
16
1
23
2
8
3
2
>4
0
Contrastar que la distribución es de Poisson”.
Solución.
Se estima el parámetro por máxima verosimilitud:
Se calcula la tabla de fecuencias observadas y esperadas:
averias
oi
ei
(oi - ei)2 ei
0
16
19'56
0'648
1
23
17'96
1'413
>2
10
11'48
0'190
Total
49
49
Q = 2'251
Q = 2'251, por tanto, el p-valor = 0'134, según una chi-cuadrado con 3 - 1 - 1 = 1
grados de libertad y se acepta la hipótesis de que la distribución es de Poisson.
Contraste Contraste de Kolmogoroff-Smirnoff
El contraste de Kolmogoroff-Smirnoff es válido para contrastar la bondad de ajuste
de distribuciones continuas. En primer lugar, se define la función de distribución
empírica asociada a una muestra
La Función de Distribución Empírica (Fn) es una función escalonada y no
decreciente, construída a partir de la muestra, de forma que en cada observación
muestral da un salto de magnitud igual a la fracción de datos iguales a ese valor
(cuando no hay repeticiones se trata de saltos de amplitud 1/n).
Para calcular Fn, se ordena la muestra de menor a mayor
ahora se define la Función de Distribución Empírica (f.d.e.) como
donde card
x.
y
es el número de observaciones muestrales menores o iguales que
Ejemplo 4.3
“Con los datos del Ejemplo 4.1 calcular la función de distribución empírica
asociada a esta muestra”.
Solución:
Se ordena la muestra y se obtiene
Datos ordenados del Ejemplo 4.1.
-16'6
-16'0
-15'4
-11,0
-9'1
-7'6
-4'5
-3'9
-3'3
-1'6
3'2
3'8
5'8
7'0
7'2
12'0
12'0
12'0
15'7
16'6
Utilizando la definición de Fn (1.5 ) se obtiene,
Intervalo I
Fn(xi)
Intervalo I
Fn(xi)
Intervalo I
Fn(xi)
(- ,-16'6)
0'00
[-4'5,-3'9)
0'35
[7'0,7'2)
0'70
[-16'6,-16'0)
0'05
[-3'9,-3'3)
0'40
[7'2,12'0)
0'75
[-16'0,-15'4)
0'10
[-3'3,-1'6)
0'45
[12'0,15'7)
0'90
[-15'4,-11,0) 0'15
[-1'6,3'2)
0'50
[15'7,16'6)
0'95
[-11,0,-9'1)
0'20
[3'2,3'8)
0'55
[16'6,
1'00
[-9'1,-7'6)
0'25
[3'8,5'8)
0'60
[-7'6,-4'5)
0'30
[5'8,7'0)
0'65
)
La gráfica de esta función se representa en la Figura 4.5.
Figura 4.5. Función de distribución empírica.
El contraste de Kolmogoroff-Smirnoff se basa en calcular la distancia (en norma
L1) entre la función de distribución empírica y la función de distribución teórica. Por
tanto, el estadístico del contraste es el siguiente
que representa la máxima discrepancia, en vertical, entre la función de distribución
empírica y la teórica. Siempre que la distribución (continua) de partida sea
correcta, el estadístico Dn es de distribución libre (no depende de la población) y
está tabulada para tamaños muestrales pequeños (en otro caso, se utilizan
aproximaciones asintóticas).
El test de Kolmogoroff-Smirnoff-Lilliefors para normalidad (contraste KSL)
En la mayoría de los casos al utilizar el estadístico de Kolmogorov-Smirnov es
necesario estimar los parámetros desconocidos que caracterizan a la distribución
teórica. Si la distribución que se desea ajustar es una normal, hay que estimar la
media y la desviación típica. En este caso, los parámetros se estiman por máxima
verosimilitud y la distribución del estadístico cambia.
Ahora el estadístico del contraste es
donde
es la función de distribución de una normal estándar.
El estadístico Dn representa la máxima discrepancia, en vertical, entre la función
de distribución empírica y la función de distribución de la normal ajustada (esto es,
de la normal con media y varianza estimadas). La distribución de este estadístico
fue tabulada por Lilliefors (contraste K-S-L) y, por tanto, es con respecto a esta
tabulación (y no con respecto a la tabla de Kolmogoroff-Smirnoff) como se debe
juzgar la significación del valor obtenido para este estadístico.
Ejemplo 4.4.
“Utilizar el estadístico de Kolmogorov-Smirnov-Lilliefors para contrastar si la
muestra del Ejemplo 4.1. sigue una distribución normal”.
Solución.
Con los datos de la muestra se obtiene
Se calculan los valores muestrales tipificados y a partir de éstos se construye la
tabla de discrepancias
x(i)
(x(i)-x) sX
-16'6
-1'575
-16'0
-1'520
Fn(x(i))
Fn - (x(i))
Dn,i
0'058
0'050
0'000
0'058
0'064
0'100
0'050
0'036
-15'4
-1'464
0'072
0'150
0'100
0'078
-11,0
-1'054
0'146
0'200
0'150
0'054
-9'1
-0'877
0'190
0'250
0'200
0'060
-7'6
-0'737
0'231
0'300
0'250
0'069
-4'5
-0'448
0'327
0'350
0'300
0'027
-3'9
-0'393
0'347
0'400
0'350
0'053
-3'3
-0'337
0'368
0'450
0'400
0'082
-1'6
-0'178
0'429
0'500
0'450
0'071
3'2
+0'269
0'606
0'550
0'500
0'106
3'8
+0'325
0'627
0'600
0'550
0'077
5'8
+0'511
0'695
0'650
0'600
0'095
7'0
+0'623
0'733
0'700
0'650
0'083
7'2
+0'641
0'739
0'750
0'700
0'039
12'0
+1'088
0'862
0'900
0'750
0'112*
15'7
+1'433
0'924
0'950
0'900
0'026
16'6
+1'517
0'935
1'000
0'950
0'065
Dn+ = 0'082
Dn- = 0'112
Dn= 0'112
El estadístico es Dn = 0'112. De la tabla K-S-L se obtiene que el p - valor = 0'964. Se
acepta claramente la hipótesis de normalidad de la muestra.
El contraste de asimetría.
Como la distribución normal es simétrica, bajo la hipótesis de normalidad el
coeficiente de asimetría (CA) poblacional toma el valor cero. Se define el
coeficiente de asimetría de la muestra
como sigue,
donde X es la variable aleatoria en estudio, m3 al momento muestral de orden 3
respecto a la media y sX la desviación típica de la muestra.
Bajo la hipótesis de normalidad el CA sigue una distribución asintótica normal
con media cero y varianza 6/n. Tipificando, se define el coeficiente de asimetría
estandarizado (CAS)
Para tamaños muestrales grandes ( n > 50) el CAS sigue aproximadamente una
distribución N(0,1) y puede ser utilizado como estadístico para contrastar la
hipótesis de que la distribución de la muestra es simétrica.
El test estadístico a un nivel de significación de rechaza la hipótesis de que “la
distribución es simétrica” si
donde Z verifica que P
distribución N
.
= , siendo una variable aleatoria con
Ejemplo 4.5.
“Con los datos del Ejemplo 4.1. utilizar el contraste de asimetría para estudiar
si la distribución es simétrica”.
Solución.
Se calcula m3 = -144'822, y sX = 10'737. Por tanto,
El p-valor es muy alto y se acepta la hipótesis de que la distribución es simétrica.
El contraste de apuntamiento
Este contraste sirve para contrastar la hipótesis de que el coeficiente de
apuntamiento (CAp ) es cero. Propiedad que verifica la distribución normal.
Se define el coeficiente de apuntamiento o curtosis de la muestra
como
donde m4 es el momento muestral de orden 4 respecto a la media.
Bajo la hipótesis de normalidad la distribución asintótica del CAp es N
calcula el coeficiente de apuntamiento estandarizado como
. Se
El test estadístico a un nivel de significación de rechaza la hipótesis de que “la
distribución tiene curtosis cero” si
en este caso la distribución no es normal.
Ejemplo 4.6.
“Con los datos del ejemplo 4.1. utilizar el contraste de apuntamiento para
contrastar si su CAp es cero”.
Solución.
Se calcula m4 = 23.935'667. De donde,
Se acepta la hipótesis de que la curtosis de la distribución es cero.
Los dos últimos contrastes se pueden combinar en un contraste conjunto. Para
ello, se define el estadístico
que bajo la hipótesis de normalidad se distribuye asintóticamente como una chicuadrado con dos grados de libertad. Por tanto, si d toma valores positivos grandes
(según una 2 con dos grados de libertad) se rechaza que la distribución es simétrica
y/o que tiene curtosis nula y, en consecuencia, se rechaza la hipótesis de
normalidad.
Ejemplo 4.7.
“Con los datos del ejemplo 4.1, utilizar el contraste anterior para contrastar la
hipótesis de normalidad”.
Solución.
En base a los datos obtenidos se deduce
Se acepta la hipótesis de que la distribución es simétrica y la curtosis es cero,
por tanto, es razonable aceptar la normalidad de la muestra.
[Anterior][Siguiente] [Arriba]
[Anterior][Siguiente] [Arriba]
4.4 Homocedasticidad de los errores.
Es necesario contrastar la hipótesis de homocedasticidad, ésto es, la varianza de los
residuos es constante y no varía en los diferentes niveles del factor. La falta de
homocedasticidad se denomina heterocedasticidad.
Consecuencias de la falta de homocedasticidad
Se ha demostrado que si el diseño es balanceado (ni = m, i = 1,...,I) los niveles de
significación de los pruebas de hipótesis y los niveles de confianza de los intervalos
apenas se ven afectados por la existencia de heterocedasticidad, a no ser que la
varianza de la respuesta para algún tratamiento particular sea considerablemente
mayor que para otros.
Para tamaños muestrales de los grupos similares, la heterocedasticidad no afecta al
F-test ni a los distintos métodos de comparaciones múltiples siempre que:
Si los tamaños muestrales son muy distintos, se verifica que: - Si los tratamientos
con tamaños muestrales
pequeños tienen mayor varianza la probabilidad de
cometer un error de tipo I en las pruebas de hipótesis será menor de lo que se
obtiene y los niveles de confianza de los intervalos serán inferiores a lo que se cree;
- Si los tratamientos con tamaños muestrales
grandes tienen mayor varianza,
entonces se tendrá el efecto contrario y las pruebas serán conservadoras.
Para estudiar si se verifica la homocedasticidad de modelo se pueden hacer los siguientes
análisis descriptivos y gráficos:
Cálculo de la varianza (o desviación típica) de los residuos según los niveles
del factor.
El gráfico de cajas múltiple proporciona una idea de la distribución de los
residuos según los niveles del factor.
El gráfico de los residuos (eij) frente a las predicciones (i.) es interesante
porque, en muchas situaciones, la varianza de los residuos por niveles aumenta con
las predicciones. Esto se puede observar en la Figura 4.6.
Figura 4.6. Digrama de dispersión de residuos frente a predicciones.
Existen contrastes para detectar heterocedasticidad: El contraste de Cochran, se
utiliza si todos los tamaños muestrales son iguales y es útil si la varianza de un
tratamiento es mucho mayor que en los otros. El contraste de Bartlett o el Contraste
de Hartley son más generales y más utilizados. Estos contrastes son muy
conservadores y muy sensibles a la ausencia de normalidad. El contraste de Levene
es muy utilizado, en esencia, consiste en efectuar un análisis de la varianza sobre las
diferencias en valor absoluto entre las observaciones y la mediana (u otra medida de
tendencia central) manteniendo el diseño original. El contraste de Romero y Zúnica,
se basa en una idea análoga, se realiza un análisis de la varianza sobre los
cuadrados de los residuos del modelo ajustado con el mismo factor en estudio. Ahora
la hipótesis básica a contrastar es que la varianza en todos los grupos es la misma.
Un modelo muy usual de heterocedasticidad es el siguiente modelo multiplicativo
(4.2)
donde los son variables aleatorias de media 1 y varianza constante. En este
modelo los grupos con mayor media tienen mayor variabilidad. Para corregir este
problema se toman logaritmos en el modelo (4.2) y se obtiene el siguiente modelo
aditivo que si es homocedástico.
(4.3)
Muchas veces la heterocedasticidad responde al modelo:
(4.4)
así el modelo multiplicativo (4.2) sigue una heterocedasticidad del tipo (4.4) con q =
1.
Para este tipo de heterocedasticidad es posible transformar los datos para obtener
homocedasticidad (en otro caso puede resultar imposible encontrar transformaciones
adecuadas). Además la heterocedasticidad del modelo suele ir unida a la falta de
normalidad (la distribución de ij es asimétrica) y la transformación de los datos
corrige simultáaneamente ambos problemas. Como una primera aproximación, la
transformación tomar logaritmos puede proporcionar buenos resultados y es un caso
particular de la familia de transformaciones de Box-Cox que es ampliamente utilizada
y que se describe en la siguiente sección.
[Anterior][Siguiente] [Arriba]
[Anterior][Siguiente] [Arriba]
4.5 La familia de transformaciones de Box-Cox.
La familia de transformaciones más utilizada para resolver los problemas de falta
de normalidad y de heterocedasticidad es la familia de Box-Cox, cuya definición es
la siguiente.
Se desea transformar la variable Y, cuyos valores muestrales se suponen
positivos, en caso contrario se suma una cantidad fija M tal que Y + M > 0. La
transformación de Box-Cox depende de un parámetro por determinar y viene dada
por
(4.5)
Si se quieren transformar los datos para conseguir normalidad, el mejor método
para estimar el parámetro es el de máxima verosimilitud y se calcula como sigue:
para diferentes valores de se realiza la transformación
(4.6)
1/n la media geométrica de la variable Y. Para cada
siendo =
, se obtiene
n
el conjunto de valores
.
La
función
de
verosimilitud
es
i=1
(4.7)
Se elige el parámetro que maximiza L . En la práctica, se calcula L en un
enrejado (grid) de valores de que permite dibujar aproximadamente la función
L
y se obtiene el máximo de la misma.
Valores muy utilizados del parámetro son los siguientes:
Transformación
-1
Z
= 1/Y
-1/2
Z
= 1/
0
Z
= lg
1/2
Z
=
1
Z
=Y
Un método gráfico sencillo de estimar es el siguiente:
1. Para cada grupo de residuos, según el tratamiento, se calcula la media de la
respuesta, i., y la desviación típica de los residuos, i .
2. Se dibuja el gráfico de los pares de puntos ( i.; i) y se ajusta una curva del
tipo
(un ajuste lineal respecto a los logaritmos de ambas componentes)
3. Conclusión:
· Si = 0 los residuos son homocedásticos.
· Si = 1 hay heterocedasticidad y la transformación a realizar es tomar
logaritmos.
· En otro caso, hay heterocedasticidad y se deben transformar los datos
según la transformación de Box-Cox con = 1 - .
[Anterior][Siguiente] [Arriba]
[Anterior][Siguiente] [Arriba]
4.5 La familia de transformaciones de Box-Cox.
La familia de transformaciones más utilizada para resolver los problemas de falta
de normalidad y de heterocedasticidad es la familia de Box-Cox, cuya definición es
la siguiente.
Se desea transformar la variable Y, cuyos valores muestrales se suponen
positivos, en caso contrario se suma una cantidad fija M tal que Y + M > 0. La
transformación de Box-Cox depende de un parámetro por determinar y viene dada
por
(4.5)
Si se quieren transformar los datos para conseguir normalidad, el mejor método
para estimar el parámetro es el de máxima verosimilitud y se calcula como sigue:
para diferentes valores de se realiza la transformación
(4.6)
1/n la media geométrica de la variable Y. Para cada
siendo =
, se obtiene
n
el conjunto de valores
i = 1 . La función de verosimilitud es
(4.7)
Se elige el parámetro que maximiza L . En la práctica, se calcula L en un
enrejado (grid) de valores de que permite dibujar aproximadamente la función
L
y se obtiene el máximo de la misma.
Valores muy utilizados del parámetro son los siguientes:
Transformación
-1
Z
= 1/Y
-1/2
Z
= 1/
0
Z
= lg
1/2
Z
=
1
Z
=Y
Un método gráfico sencillo de estimar es el siguiente:
1. Para cada grupo de residuos, según el tratamiento, se calcula la media de la
respuesta, i., y la desviación típica de los residuos, i .
2. Se dibuja el gráfico de los pares de puntos ( i.; i) y se ajusta una curva del
tipo
(un ajuste lineal respecto a los logaritmos de ambas componentes)
3. Conclusión:
· Si = 0 los residuos son homocedásticos.
· Si = 1 hay heterocedasticidad y la transformación a realizar es tomar
logaritmos.
· En otro caso, hay heterocedasticidad y se deben transformar los datos
según la transformación de Box-Cox con = 1 - .
[Anterior][Siguiente] [Arriba]
[Anterior][Siguiente] [Arriba]
4.6 Homogeneidad de los errores. Datos atípicos.
Un dato atípico (outlier) es un registro mayor o menor de lo esperado que se detecta
por tener un residuo que es un valor “inusual”, muy grande o muy pequeño en
relación con la distribución asociada a los residuos.
Dado que los residuos estandarizados rit son una muestra aleatoria de una
distribución N(0,1), se verifica que aproximadamente un 68% de los rit deben estar
entre -1 y 1, y alrededor del 95% entre -2 y 2 y prácticamente todos entre -3 y 3. Por
ello, un residuo estandarizado que diste más de 3 o 4 unidades del 0
se
correponde, potencialmente, con una observación atípica.
Para chequear la existencia de observaciones atípicas se pueden utilizar
diferentes gráficos: el histograma de los rit, el diagrama de cajas múltiple de los rit
por niveles del factor tratamiento como se observa en la Figura 4.7. o el diagrama
de dispersión de los puntos
.
Figura 4.7. Gráfico de cajas múltiple de los residuos estandarizados frente al factor.
Contrastes no paramétricos acerca de la hipótesis de no existencia de datos atípicos
son los siguientes.
Contrastes de valores atípicos
Cuando el tamaño muestral es moderado (no mayor de 20) y se sospecha la
presencia de una única observación atípica, un contraste bastante utilizado se basa
en calcular el siguiente estadístico que está tabulado:
qn = max
= max
Ejemplo 4.8.
“El número diario de operaciones a corazón abierto en un hospital es una
variable aleatoria. Se ha tomado la siguiente muestra de la misma: 12, 7, 8, 3, 2, 5.
En base a ella, contrastar la homogeneidad de dicha muestra”.
Solución.
Dado que n = 6, como mucho habrá un dato atípico (quizá el 12), se calcula qn:
El punto crítico, para = 0'05, es 1'89 y se acepta la hipótesis de no existencia de
datos atípicos.
Si el tamaño muestral es medio o grande, o se espera que pueda haber más de un
dato atípico, resulta más adecuado usar el contraste basado en el coeficiente de
apuntamiento muestral. Este coeficiente aumenta notablemente al introducir
alguna observación muestral que provenga de una distribución de mayor varianza
que la del resto de variables de la muestra.
Cuando no existen valores atípicos y el tamaño muestral es moderado o
pequeño, la distribución de este estadístico está tabulada, en caso contrario, se
debe usar la aproximación por una normal de media cero y varianza 24/n. Si el
estadístico es significativamente mayor que el punto crítico de la normal se
admitirá la presencia valores atípicos.
Ejemplo 4.9.
“Las cuotas de disco ocupado (en Mbytes) para distintos usuarios de una estación
de trabajo son: 35, 45, 47, 50, 31, 30, 25, 33, 35, 40, 45, 47, 49, 42, 40, 50, 46, 55,
42, 46. Contrastar la hipótesis de que la muestra es homogénea.”
Solución.
Se calcula el CAp = -0'4786 y su estandarizado: CApS = -0'437. Utilizando como
distribución aproximada del coeficiente de curtosis estandarizado la de una N(0,1),
el p - valor = 0'67, y se acepta la hipótesis de no existencia de datos atípicos.
En ocasiones las observaciones atípicas son fruto de errores concretos en el
proceso de recogida de los datos, otras veces, en cambio, delatan ausencia de
normalidad, heterocedasticidad o una incorrecta especificación del modelo.
Una vez que se ha identificado la presencia de una observación atípica, se debe
investigar su procedencia y si se concluye que se ha generado por errores en el
muestreo se debe eliminar. En otro caso, es conveniente repetir el análisis
estadístico sin la observación atípica y examinar las nuevas conclusiones. Si dichas
conclusiones son semejantes a las obtenidas con ella, la observación puede
mantenerse. Si, por el contrario, las conclusiones se modifican drásticamente, la
observación atípica se denomina influyente. En este punto, el experimentador
debe enjuiciar si es posible su aparición por un error experimental (eliminarlo) o si
tal observación podría volver a aparecer (buscar modelos más complejos).
Ejemplo 4.10.
Se ha realizado un experimento para estudiar el rendimiento de las pilas en
función del tipo de pila. La Figura 4.8. muestra la nube de residuos estandarizados
que se obtuvo inicialmente con este experimento.
En esta figura se observan dos anomalías relativas. Por un lado, la décima
observación genera un residuo de valor -2'77. Además, la totalidad de residuos
procedentes de los otros tres tipos de pilas se encuentran entre -1 y 1, lo que
constituye bastante más que el 68% esperado.
Un análisis del origen de la décima observación reveló un error en el registro. Se
había introducido en el ordenador una duración de 285 minutos cuando en la hoja
de anotaciones figuraba una duración de 585 minutos. Subsanado el error se repitió
el ajuste del modelo y los nuevos residuos estandarizados se muestran en la
Figura 4.9. Ambas anomalías desaparecen ahora. Ya no se detectan observaciones
atípicas, los residuos (globalmente) son algo mayores pero la varianza residual es
más pequeña.
Figura 4.8. Diagrama de dispersión de los residuos.
Figura 4.9. Gráfico de dispersión una vez que se corrigió el error.
[Anterior][Siguiente] [Arriba]
[Anterior][Siguiente] [Arriba]
4.7 Independencia de los errores.
La hipótesis de que las observaciones muestrales son independientes es una
hipótesis básica en el estudio de los modelos de regresión lineal. Con ello se
n
entiende que los errores
i = 1 son variables aleatorias independientes.
La falta de independencia, se produce fundamentalmente cuando se trabaja con
variables aleatorias que se observan a lo largo del tiempo, esto es, cuando se
trabaja con series temporales. Por ello, una primera medida para tratar de evitar la
dependencia de las observaciones consiste en aleatorizar la recogida muestral.
¿Qué consecuencias tiene la falta de independencia?
La ausencia de aleatoriedad entre las observaciones es muy difícil de corregir y es
especialmente grave ya que puede invalidar por completo las conclusiones del
análisis estadístico (obteniendo conclusiones erróneas). Todas las expresiones
utilizadas para las varianzas son incorrectas y, por tanto, los intervalos de confianza
y las pruebas de hipótesis deducidos a partir de ellas, tendrán una confianza o una
potencia distinta a la supuesta.
El efecto de la dependencia puede verse en el siguiente ejemplo:
Considérese una variable aleatoria X tal que:
Entonces, bajo dependencia, se mantiene que E(X) = , pero
Suponiendo que n es grande y, por tanto, (n + )
El doble que en el supuesto de indepencia
sumando es cero y V ar(X) = 2 n .
1, se obtiene para = 0'50
, ya que en este caso el segundo
Por tanto, V ar(X) es mayor con dependencia positiva
que con
independencia. Esto es debido a que la dependencia entre las observaciones hace
que las observaciones próximas en el tiempo proporcionen información redundante.
Por ello, es importante disponer de gráficos y contrastes estadísticos que permitan
identificar la posible dependencia entre las observaciones muestrales.
En el estudio de un modelo de diseño de experimentos es fundamental chequear la
hipótesis de independencia. Esto puede hacerse utilizando diferentes gráficos de
residuos, estudiando la función de autocorrelación de los residuos o haciendo
contrastes acerca de las autocorrelaciones de los residuos como se verá en las dos
secciones siguientes.
4.7.1 Gráficos para detectar dependencia.
Hay dos gráficos que ayudar a detectar la dependencia de las observaciones.
Gráfico de los residuos frente al índice (tiempo).
El gráfico de
puede ayudar a detectar las siguientes características.
Existencia de tendencia.
En la Figura 4.10 se observa que existe una tendencia lineal en los residuos, por
tanto, debería incluirse en el modelo la variable índice (o tiempo) como variable
explicativa
Figura 4.10. Residuos con tendencia lineal.
Dependencia (Correlación) Positiva.
En algunos casos existe una estructura de dependencia en los residuos que se
puede modelizar por la ecuación
(1.18)
donde es un parámetro tal que 0 < < 1 y
una sucesión de variables
aleatorias independientes e igualmente distribuídas. Este modelo se denomina
modelo autorregresivo de orden uno, AR . Este tipo de dependencia provoca
muchos problemas ya que si la dependencia es fuerte ( es próximo a 1) la
muestra proporciona menos información que si las observaciones son
independientes ya que las observaciones próximas en el tiempo toman valores
próximos. Este tipo de dependencia se puede observar en el gráfico
representado en la Figura 4.11, donde se simula una muestra de cien
observaciones con = 0'9 y distribución N
(esta muestra se denota MS-1).
Figura 4.11. Residuos con dependencia positiva.
Dependencia (Correlación) Negativa.
En este caso la estructura de dependencia de los residuos se puede modelizar por
la siguiente ecuación
(1.19)
siendo un parámetro tal que 0 < < 1. También es un modelo AR . El gráfico
asociado a este tipo de dependencia se representa en la Figura 4.12, donde
se simula una muestra de cien observaciones con = 0'9 y distribución N
,
muestra MS-2.
Además del sencillo modelo AR que es muy importante porque se ajusta
razonablemente en muchas situaciones, hay otros modelos más complejos que
permiten modelizar estructuras de dependencia.
Figura 4.12. Residuos con dependencia negativa.
Existen estructuras de dependencia más complejas como las AR(p) y las ARMA(p,q)
cuyo análisis puede estudiarse en los textos de series de tiempo (ver, entre otros,
Box, Jenkins y Reinsel (1994), Peña, D. (1989)), en cualquier caso el modelo AR(1)
es muy importante porque en muchos problemas es válido para ajustar los
residuos de un modelo estadístico con dependencia.
Cambio en un instante temporal.
En el gráfico
representado en la Figura 4.13 se observa la existencia de un
instante t0 en el que se produce un cambio (salto) en los residuos.
Figura 4.13. Salto en los residuos.
No se detecta ningún problema significativo.
En el gráfico
de la Figura 4.14 no se observa ningún problema y, en principio,
se puede considerar que los residuos son independientes. Los residuos de este
gráfico se obtuvieron por simulación, son 100 observaciones independientes con
distribución N
, muestra MS-3.
Figura 4.14. Residuos independientes.
Algunas veces los residuos tienen una alta variabilidad (son muy ruidosos) y en el
gráfico
no es fácil detectar la presencia de dependencia. Este problema se
puede resolver en parte si se aplica un filtro de suavizado a los residuos.
Suavización de los datos.
En algunas situaciones en que se dispone de muchas observaciones puede ser
conveniente “suavizar los datos” para observar tendencias o dependencias en la
nube de datos. Ésto evita que una fuerte dispersión de las observaciones o la
existencia de datos atípicos no deje ver la tendencia de la nube.
Una técnica sencilla de suavización es la técnica de medias móviles simples (Simple
n
Moving Average). Si se desea suavizar la muestra
i = 1 según la media móvil de
orden 2k + 1, se hace como sigue:
“Sustituir el valor de xi por la media aritmética de las 2k+1 observaciones
consecutivas cuyo centro es xi. Ésto es, se sustituye xi por
En una primera suavización puede ser suficiente utilizar k = 1 ó 2. También pueden
utilizarse medias móviles más complejas en las que se calculan medias aritméticas
ponderadas, con pesos simétricos j que suman 1 y que decrecen según aumenta j,
Si se supone que existen datos atípicos muy influyentes es conveniente utilizar
medianas (medianas móviles simples) en lugar de medias.
En la Figura 4.15 se representa una nube de puntos con una fuerte varianza y en la
Figura 4.16 se representa la nube de puntos una vez que se ha aplicado medias
móviles simples con k = 2 a la variable. En esta segunda figura la tendencia lineal
en la muestra es mucho más evidente.
Figura 4.15. Nube de puntos sin suavizar la variable en estudio
.
n
Si se considera que el conjunto de residuos del modelo
i = 1 es muy variable, se
pueden utilizar estas técnicas de suavizado para intentar descubrir posibles
tendencias ocultas.
Figura 4.16. Nube de puntos suavizada.
Gráfico de los residuos et+1 frente a et.
Un gráfico alternativo al gráfico
y, en muchas ocasiones, más ilustrativo para
detectar dependencias positivas o negativas es el gráfico de
que permite
detectar con facilidad fuertes dependencias, sobre todo, si se pueden modelizar
según un AR . siguiente:
n -1
Si existe dependencia positiva tipo AR , la nube de puntos
t=1
presenta una tendencia creciente, la nube se ajusta a una recta de pendiente
positiva. En la Figura 4.17 se representa el gráfico
de la muestra MS-1. La
recta que se ajusta a esta nube de puntos es
Figura 4.17. Gráfico
con dependencia positiva.
Si existe depencia negativa tipo AR , en el gráfico de puntos
la nube de
puntos se ajusta a una recta con pendiente negativa. El gráfico de la Figura 4.18
se corresponde con los datos de la muestra simulada MS-2. La recta que se ajusta
a esta nube de puntos es
Figura 4.18. Gráfico
con dependencia negativa.
Si existe independencia, en el gráfico
, no se observa que la nube de
puntos siga una determinada forma funcional. El gráfico de la Figura 4.19 se
corresponde con los datos de la muestra simulada MS-3.
Figura 4.19. Gráfico
con independencia.
Además de los gráficos descritos para detectar dependencias en el conjunto de
residuos del modelo, existen contrastes de hipótesis para chequear la
independencia
4.7.2 Contrastes para detectar dependencias.
Los contrastes para detectar la dependencia se pueden clasificar en dos tipos: los
basados en rachas que se utilizan básicamente cuando se dispone de pocas
observaciones y los basados en los coeficientes de autocorrelación.
Contrastes basados en rachas.
Considérese una muestra de una variable con dos posibles resultados: E:
“dispositivo con error ” y S:“dispositivo sin error”.
Se define una racha (run) “como una sucesión de valores consecutivos repetidos
que está entre dos valores adyacentes distintos”.
Por ejemplo, si la muestra resultante es
las rachas serían
El número total de rachas (o las longitudes de las mismas) constituye una medida de
lo aleatoriamente que están repartidos los posibles valores a lo largo de la muestra
observada:
- Demasiadas rachas implican excesiva alternancia de valores (dependencia
negativa)
- Pocas rachas indican largas sucesiones de valores contiguos repetidos
(dependencia positiva).
Aunque el test del número de rachas está pensado para una distribución con sólo
dos posibles valores (E y S), también puede aplicarse a variables continuas. Para
ello, se codifican las observaciones con los valores + o -, según que el dato en
cuestión quede por arriba o por abajo de la mediana muestral.
El contraste del número total de rachas
Considérese una muestra de tamaño n de una variable con dos posibles resultados
. De las n observaciones hay n1 de tipo
y n2 de tipo
, n1 + n2 = n.
Se denota
este número es el estadístico del contraste. Cuando n tiende a infinito y n1/n tienda
a una constante, la distribución de R tiende a la de una normal con la siguiente
media y varianza:
Si los valores n1 y n2 son pequeños la distribución de R está tabulada.
Ejemplo 4.11.
“Los residuos del ajuste de un diseño de experimentos con un factor son los de la
tabla adjunta. Contrastar la aleatoriedad de estos residuos utilizando el contraste
del número total de rachas”
-16'0
7'0
12'0
-1'6
-11,0
3'2
12'0
-4'5
-9'1
7'2
15'7
-3'3
-16'6
5'8
-3'9
12'0
3'8
-15'4
16'6
-7'6
Solución.
La mediana muestral es
Se codifican los datos según estén por encima o por debajo de la mediana:
El número de rachas es R = 13 con n1 = n2 = 10, E(R) = 11, V ar(R) = 4'737,
Se acepta la aleatoriedad de la muestra
El contraste de rachas ascendentes y descendentes
Cuando la variable es continua, un test mejor que el anterior es el test de las
rachas ascendentes y descendentes que utiliza de forma más intensiva la
continuidad de la variable. Este contraste se basa en el número total de rachas
ascendentes o descendentes.
Se define una racha ascendente o descendente como sigue:
“para cada par de datos consecutivos se anota un signo + si están en orden
ascendente y - si el orden es descendente. En esta sucesión de signos se define
racha ascendente (o descendente) a la sucesión consecutiva de signos +
(respectivamente de signos -).”
Con los n datos se forma una sucesión de n - 1 signos + o -, y se cuenta el número
total de rachas ascendentes o descendentes: T.
La hipótesis de independencia tenderá a rechazarse si el número de rachas
ascendentes y descendentes es muy grande (indicando dependencia negativa) o muy
pequeño (dependencia positiva).
La significación estadística de dichos valores grandes o pequeños siempre ha de ser
juzgada con respecto a la distribución del estadístico T bajo la hipótesis de
independencia. Esta distribución de T está tabulada para tamaños muestrales
pequeños (n < 25), y para valores mayores puede aproximarse por una normal de
parámetros
Ejemplo 4.12.
“Contrastar la hipótesis de aleatoriedad de los residuos dados en el Ejemplo 4.11
utilizando el contraste de las rachas ascendentes y descendentes”.
Solución.
Las rachas ascendentes o descendentes son:
por tanto, T = 12, E(T) = 13, V ar(T) = 3'233,
Se acepta la aleatoriedad de la muestra.
Contrastes basados en las autocorrelaciones. El correlograma.
El coeficiente de correlación entre dos variables aleatorias X e Y se define como
y es una medida de la dependencia lineal entre las dos variables.
En base a este concepto se puede definir la función de autocorrelación simple,
fas , k Z, de una sucesión de variables aleatorias
estrictamente
estacionarias (todas las variables tienen la misma distribución), como sigue:
esto es, fas es el coeficiente de correlación entre dos variables separadas k
instantes: t y t+k . Debe de tenerse en cuenta que por ser la sucesión
estrictamente estacionaria, la fas no depende del instante t.
En la práctica, esta función no se conoce y se estima a partir de las observaciones
muestrales. En particular, en los modelos de diseño de experimentos o regresión la
fas de los errores
se estima a partir de la muestra de pares de residuos
n - k.
t=1
Los estimadores que se utilizan son los siguientes: dada la muestra de residuos
e1,e2,...,en, se define el coeficiente de autocorrelación muestral de orden uno como
n
donde =
=
i = 1 ei = 0, es la media muestral de los residuos. Por tanto, fas
=
mide la correlación entre lo observado en un instante y lo observado
un instante después y su estimador es r(1).
La definición general del coeficiente de autocorrelación muestral de orden k (k
retardos), es la siguiente
La gráfica de las autocorrelaciones muestrales se denomina correlograma y puede
utilizarse para contrastar la independencia, ya que si las observaciones son
independientes los coeficientes de autocorrelación serán próximos a cero.
Un inconveniente que presenta el cálculo de r(k) es que se necesita una muestra
con tamaño mayor a k + 1, y para que la estimación sea precisa, el tamaño muestral
debe ser mucho mayor que este valor. Normalmente, para muestras de tamaño n,
se calcula el correlograma hasta el orden k = n/4.
Bajo independencia, cada coeficiente de autocorrelación muestral, r(k), tiene
distribución límite normal: N(
, ).
Esto permite contrastar la hipótesis H0 :
= 0. Graficamente se dibuja el
correlograma y si se observa que para todo k se verifica que |r(k)| <
aceptar la hipótesis de independencia.
, se puede
Con la muestra simulada MS-3 (son independientes) se obtienen las siguientes
autocorrelaciones
k
r(k)
1
2
3
4
5
6
7
8
0'008
-0'111
0'098
0'068
-0'012
0'078
0'035
-0'127
0'099
0'098
0'098
0'097
0'097
0'096
0'095
0'095
El correlograma se representa en la Figura 4.20, donde además de las barras de los
coeficientes de correlación muestral, se representan bandas de confianza al 95%. Si
alguna barra sobresale de las bandas indica que el coeficiente es significativo
(distinto de cero) lo que lleva a rechazar la hipótesis de independencia. En la Figura
4.20 todas las barras están dentro de las bandas como era de esperar.
Figura 4.20. Correlograma de la muestra MS-3.
Para la muestra simulada MS-1 de residuos con dependencia positiva (AR(1), con =
0'9) se obtiene
k
r(k)
1
2
3
4
5
6
7
8
0'733
0'514
0'322
0'180
0'120
0'142
0'131
0'183
0'099
0'098
0'098
0'097
0'097
0'096
0'095
0'095
El correlograma de la muestra MS-1 se representa en la Figura 4.21. Se observa que
los coeficientes de correlación muestral van disminuyendo ya que (k) = k. Los tres
primeros coeficientes de correlación estimados son claramente significativos
(sobresalen de las bandas de confianza) y se rechaza la hipótesis de independencia.
Figura 4.21. Correlograma de residuos con dependencia positiva.
Finalmente para la muestra MS2 con dependencia negativa (AR(1), con = -0'9) se
obtiene
k
r(k)
1
2
3
4
5
6
7
8
-0'913
0'824
-0'773
0'718
-0'674
0'635
-0'581
0'503
0'099
0'098
0'098
0'097
0'097
0'096
0'095
0'095
El correlograma de MS-2 se representa en la Figura 4.21. Se observa que los
coeficientes de correlación muestral van disminuyendo pero cambiando de signo,
k
(k) =
. En este caso los once primeros son significativos y se rechaza la
hipótesis de independencia.
El test de hipótesis estadístico más utilizado para contrastar la hipótesis de
independencia de los residuos es el siguiente:
El contraste de Ljung-Box.
Si los residuos son independientes sus primeras m autocorrelaciones son cero, para
cualquier valor de m. Se elige un m suficientemente grande pero que se pueda
estimar m = (m) de forma razonable, entonces, el contraste de Ljung-Box (chicuadrado) contrasta la hipótesis nula de que las primeras m autocorrelaciones son
cero. Esto es
El estadístico del contraste de Ljung-Box es el siguiente:
Bajo la hipótesis nula este estadístico se distribuye aproximadamente según una
chi-cuadrado con m - 1 grados de libertad. El valor de m puede ser fijado
arbitrariamente aunque no debe de ser grande.
Figura 4.20. Correlograma de la muestra MS-3
Figura 4.21. Correlograma de residuos con dependencia positiva.
Figura 4.22. Correlograma de residuos con dependencia negativa.
Ejemplo 4.13.
“Se ha ajustado un modelo de diseño de experimentos con un factor a partir de una
muestra de 65 observaciones que han sido recogidas secuencialmente (en el fichero
ejemplo-4-13 se recogen los residuos ordenados según se han obtenido los datos).
Contrastar la hipótesis de independencia de estos residuos utilizando el contraste
de Ljung-Box”.
Solución.
Con estos residuos se obtiene la siguiente tabla
k
1
2
3
4
5
6
7
8
r(k)
0'158
-0'193
-0'125
-0'264
-0'231
0'141
0'131
0'085
(r(k))
0'121
0'120
0'119
0'118
0'117
0'116
0'115
0'113
QLB(k)
1'697
3'029
4'125
9'105
12'989
14'449
15'736
16'957
pvalor
0'193
0'220
0'248
0'059
0'023
0'025
0'028
0'049
Para m < 4 se puede aceptar la hipótesis de independencia con = 0'05 , pero para
valores mayores de m se tienen ciertas dudas acerca de la aceptación de esta
hipótesis.
En la Figura 4.23 se representa el correlograma de los residuos del modelo
ajustado.
Figura 4.23. Correlograma de los residuos del ejemplo 4.12.
Si en el análisis de los residuos se observa en los gráficos descritos que existe una
tendencia muy clara de los residuos t respecto al índice o el tiempo t de recogida
de las observaciones (en el gráfico
), por ejemplo, una relación lineal de los
residuos frente al tiempo, se pueden estudiar otros modelos como:
son v.a.i.i.d.
con Xit la covariable tiempo. Este modelo se denomina Modelo de Análisis de la
Covarianza.
Ejemplo 4.14. (Meily Lyin, 1985)
Un investigador observó en distintas fiestas de cumpleaños que los globos de una
determinada marca resultaban más difíciles de inflar que otros. Lo achacó a
diferencias en el color de los globos y diseñó un experimento para determinar si los
tiempos necesarios de inflado eran iguales para los globos del mismo color y
diferentes para los de distintos colores. Eligió globos de cuatro colores (rosa,
amarillo, naranja y azul) y los infló hasta alcanzar un diámetro de 7 pulgadas. Midió
los tiempos con un reloj que tenía una precisión de 0'1 segundos.
Figura 4.24. Diagrama de dispersión de los residuos frente al tiempo en el
ejemplo 4.13.
La Figura 4.24. muestra el diagrama de dispersión de los residuos generados por el
ajuste del modelo matemático asociado a un diseño completamente aleatorizado.
De esta figura se deduce que no se verifica la hipótesis de independencia de las
observaciones ya que hay un acusado descenso del valor de los residuos a medida
que avanza el tiempo.
En resumen, el incumplimiento de las hipótesis en la aplicación de un modelo
ANOVA influye de la siguiente forma:
La falta de normalidad afecta poco a la tabla ANOVA y a los contrastes de
igualdad de medias, pero si afecta a la estimación de 2.
La heterocedasticidad influye en la estimación de la varianza, pero su influencia
en la tabla ANOVA y en los contrastes resultantes depende de si existe una
diferencia grande entre los tamaños muestrales de cada grupo, a modo
orientativo, si máx(ni) < 2 . m n(ni) se considera que la heterocedasticidad influye
poco. En caso contrario si influye.
La falta de independencia influye mucho en todo el proceso. Puede tratar de
evitarse la dependencia de las observaciones aleatorizando la recogida muestral.
[Anterior][Siguiente] [Arriba]
[Anterior] [Arriba]
4.8 Contraste de Kruskal-Wallis. Alternativa no paramétrica al Anova.
Si la suposición de normalidad no es asumible, se tienen dos opciones:
Transformar los datos para obtener normalidad (familia de transformaciones
de Box-Cox).
Utilizar un procedimiento alternativo de tipo no paramétrico.
La prueba de Kruskal-Wallis basada en los rangos de las observaciones es el
procedimiento alternativo a la prueba F del análisis de la varianza que no dependa
de la hipótesis de normalidad.
Esta prueba que es una extensión de la prueba de la suma de rangos de Wilcoxon
para comparar la homogeneidad de dos poblaciones a partir de dos muestras
aleatorias simples e independientes de ambas, contrasta la hipótesis nula de que las
I muestras independientes proceden de la misma población y, en particular, todas
ellas tienen la misma esperanza.
Se procede como sigue.
1. Se ordenan todas las observaciones en sentido creciente y se reemplazan por su
rango Rit, i = 1,...,I, t = 1,...,ni, en la muestra conjunta ordenada.
2. En caso de empates se asigna a cada una de las observaciones empatadas el
rango promedio de todas ellas.
3. Se suman entonces los rangos de las observaciones procedentes del i-ésimo
tratamiento, Ri. = Ri. =
n
t=1 i
Rit, para i = 1,..., I.
4. Entonces el estadístico de contraste es:
donde
2
denota la varianza muestral corregida de los rangos.
Cuando los tamaños muestrales ni son razonablemente grandes (ni > 5), H tiene una
distribución aproximadamente donde 2 con I - 1 grados de libertad bajo la hipótesis
nula. El criterio es entonces rechazar ésta a un nivel de significación siempre que
H > > I - 1, 2.
[Anterior] [Arriba]
Capítulo 5
Diseños de experimentos clásicos.
5.1 Concepto de bloque.
5.2 Diseño en bloques completamente
aleatorizados.
5.2.1 Modelo matemático.
5.2.2 Estimación de los parámetros.
5.2.3 Análisis de la varianza.
5.2.4 Análisis de residuos.
5.2.5 Análisis de un caso
5.3 La interacción entre factores.
5.4 Modelos de dos factores-tratamiento.
5.4.1 Modelo matemático.
5.4.2 Estimación de los parámetros.
5.4.3 Descomposición de la variabilidad
5.4.4 Análisis de un caso
5.5 Diseño factorial con tres factores.
5.6 Fracciones factoriales. El cuadrado latino.
5.6.1 El modelo de cuadrado latino.
5.6.2 Análisis de un caso.
William Gemmell Cochran, matemático escocés
nacido en Rutherglen, Escocia el 15 de Julio de
1909 y fallecido en Orleans, Massachusetts (USA),
el 29 de Marzo de 1980.
[Siguiente] [Arriba]
En el capítulo 3 se expuso el diseño de experimentos más sencillo, el modelo
completamente aleatorizado, que tiene un factor tratamiento. Con el fin de reducir
la variabilidad residual de este modelo se puede introducir en el mismo un factorbloque para obtener el modelo de diseño en bloques completamente aleatorizados,
primer modelo que se estudia en este capítulo. El siguiente modelo, un poco más
complejo, es el modelo con dos factores tratamiento entre los que puede haber
interacción. El estudio de estos modelos es fácilmente generalizable a modelos con
más factores tratamiento y factores bloque. El último modelo que se estudia en
este capítulo es el diseño fraccional de cuadrado latino, que es un buen ejemplo de
diseño fraccional.
5.1 Concepto de bloque.
Al estudiar la influencia de un factor-tratamiento en una variable de interés puede
ser importante eliminar (controlar) estadísticamente la influencia de un factor que
puede influir en la variable respuesta. Para ello se utiliza el concepto de bloque,
que se basa en seleccionar niveles de esta variable y aplicar en cada uno de ellos
todos los niveles del factor principal, de esta forma disminuye la variabilidad
residual o no explicada.
Por tanto, un factor-bloque es un factor cuyo control puede reducir
significativamente la variabilidad no explicada y que no interacciona con los
factores principales.
El siguiente ejemplo ayuda a comprender estas ideas.
Ejemplo 5.1.
Una empresa fotográfica tiene que realizar una compra de impresoras de gran
calidad que se van a utilizar en imprimir fotografías digitales. La empresa tiene
ofertas de I marcas de impresoras de similares características y precio. Para la
empresa fotográfica es muy importante la “velocidad de impresión” y por este
motivo está interesada en saber si las I impresoras ofertadas tienen la misma
velocidad o si hay una que es más rápida. Para responder a esta pregunta decide
hacer un experimento que se puede plantear de dos formas:
[1] De los muchos ficheros de fotos digitales que tiene la empresa, elegir al azar
I muestras de J fotos e imprimir en cada una de las impresoras una de las
muestras, aleatorizando la asignación de muestras que se deben imprimir en cada
impresora.
Esta estrategia es la del modelo de diseño de experimentos completamente
aleatorizado que es perfectamente válido. En este ejemplo la variable de interés es
la “velocidad de impresión” y el factor-tratamiento “el tipo de impresora”.
Un inconveniente que puede tener esta estrategia es que exista una fuerte
variabilidad en el tipo de fotos, esto es, que haya fotos que se impriman en poco
tiempo y otras no, independientemente de la impresora utilizada. En este caso la
variabilidad de la respuesta “velocidad de impresión” es debida no solo al “tipo de
impresora” sino también al “tipo de fotos” seleccionadas. Si la variabilidad debida
al “tipo de fotos” es muy grande y no se tiene en cuenta, la variabilidad residual
del modelo es grande y puede enmascarar la significatividad del factor de interés,
el “tipo de impresora”. Este problema se puede reducir en parte si el tamaño
muestral es muy grande, aunque tiene el inconveniente de tener un mayor coste.
[2] Una estrategia alternativa es elegir una única muestra de J fotos e
imprimirlas en cada una de las I impresoras, de esta forma se controla la
variabilidad debida al “tipo de fotos”. Esta estrategia es fuertemente
recomendable si se supone que la variabilidad del “tipo de fotos” es alta.
Téngase en cuenta que el número de pruebas a realizar según las dos estrategias
propuestas es el mismo: IJ.
La segunda propuesta conlleva el bloqueo de las unidades experimentales: cada
foto es un bloque.
En este ejemplo se está interesado en estudiar la influencia del factor
tratamiento “tipo de impresora” pero eliminando o controlando la posible
influencia factor bloque “tipo de foto” en la variable respuesta “velocidad de
impresión”.
Los resultados del experimento se recogen en una tabla como la siguiente
Bloq.1
Bloq.2
Bloq.J
Trat.1
y11
y12
y1J
Trat.2
y21
y22
y2J
Trat.I
yI1
yI2
yIJ
Del ejemplo anterior se deduce que
“Bloquear un experimento consiste en distribuir las unidades experimentales en
grupos tales que unidades experimentales pertenecientes a un mismo grupo deben
ser similares y pueden ser analizadas en condiciones experimentales semejantes, en
tanto que unidades experimentales ubicadas en grupos distintos darán lugar,
probablemente, a respuestas diferentes aún cuando sean asignadas a un mismo
tratamiento.
Cada uno de los conjuntos de unidades experimentales similares se denomina
bloque”.
Del ejemplo anterior se deduce que:
"Bloquear un experimento consiste en distribuir las unidades experimentales en
subgrupos tales que unidades experimentales pertenecientes a un mismo subgrupo
deben ser similares y pueden ser analizadas en condiciones experimentales
semejantes, en tanto que unidades experimentales ubicadas en subgrupos distintos
darán lugar probablemente a respuestas diferentes aún cuando sean asignadas a un
mismo tratamiento. Cada uno de estos conjuntos de unidades experimentales
similares se denomina bloque."
Un diseño en bloques es apropiado cuando el objetivo del experimento es
comparar los efectos de diferentes tratamientos promediados sobre un rango de
condiciones experimentales distintas. Con los modelos de diseño de experimentos
en bloques se quiere conseguir dos cosas:
1. evitar que grandes diferencias entre las unidades experimentales
enmascaren diferencias reales entre los tratamientos,
2. medir los efectos de los tratamientos en condiciones experimentales
distintas.
Un ejemplo de utilización de un diseño con bloques es el denominado de datos
apareados para comparar dos tratamientos o medias de dos poblaciones (expuesto
en el capítulo 1) cuando se aplican los dos tratamientos a los mismos individuos, en
este caso cada individuo es un bloque.
[Siguiente] [Arriba]
.2 Diseño en bloques completamente aleatorizados.
El modelo de diseño de experimentos con bloques más sencillo es el diseño de
bloques completamente aleatorizados, con este diseño se quiere estudiar la
influencia de un factor tratamiento (T ) con I niveles en una variable de interés en
presencia de una variable extraña, el factor bloque, B , que tiene J bloques.
El motivo de la denominación de este modelo es la siguiente: se ha agrupan las
unidades experimentales en J bloques, en función de B , aleatorizando la forma
de asignar los tratamientos dentro de cada bloque y es un diseño completo y
equilibrado porque cada tratamiento se utiliza exactamente una vez dentro de cada
bloque.
En este modelo, un bloque es un grupo de I unidades experimentales tan
parecidas como sea posible con respecto a la variable B , asignándose
aleatoriamente cada tratamiento a una unidad dentro de cada bloque.
5.2.1 Modelo matemático.
La formulación matemática del modelo de diseño en bloques completamente
aleatorizados con un factor principal (factor tratamiento), T , con I niveles y un
factor secundario (factor bloque), B , con J niveles o bloques es la siguiente:
Para cada i = 1,...,I; j = 1,...,J,
(5.1)
siendo,
* Y ij el resultado del tratamiento i-ésimo, i = 1,2,...,I de T al bloque j-ésimo,
j = 1,2,...,ni.
* es la media de toda la población. Mide el nivel medio de todos los
resultados.
es el efecto del tratamiento i-ésimo de T , i = 1,2,...,I. Mide el efecto
incremental del tratamiento del nivel i de T sobre el efecto global. Se
verifica que i = 1I i = 0,
*
i
j es el efecto del bloque j-ésimo, j = 1,2,...,J, mide el efecto incremental
del tratamiento del factor secundario (bloque) sobre el efecto global ( ). Se
verifica que j = 1J i = 0,
*
es el error experimental o perturbación, son variables aleatorias
independientes idénticamente distribuidas (i.i.d.) con distribución N
*
ij
El número de observaciones es: n = IJ,
El problema básico que se plantea es contrastar la hipótesis nula de que el
factor-tratamiento no influye,
.
(5.2)
frente a la alternativa de que sí existen diferencias entre los valores medios de los
distintos tratamientos.
En el estudio de este modelo debe de tenerse en cuenta que no existe
interacción entre el factor-tratamiento y el factor-bloque y en el desarrollo el
problema puede hacerse un segundo contraste acerca de si el factor-bloque es
influyente o no. Este contraste es
(5.3)
frente a la alternativa de que sí existen diferencias entre los valores medios de los
distintos tratamientos del segundo factor. Sin embargo en el modelo tratamientobloque realizar este contraste carece de interés salvo para saber si ha sido
conveniente bloquear o no.
Por ello en la práctica:
“Carece de interés plantearse la hipótesis nula de igualdad de los efectos
bloque. El único objetivo puede ser el de concluir si bloquear el experimento
resultó o no beneficioso”.
En efecto, si la suma de cuadrados medios atribuibles a los bloques es
considerablemente mayor que la suma de cuadrados medios residual, habrá
resultado útil bloquear en el sentido de que tal acción derivó en una reducción del
tamaño del error experimental. En otro caso, bloquear es contraproducente.
5.2.2 Estimación de los parámetros.
El número de parámetros que hay que estimar en modelo (5.1) es
utilizando n = IJ observaciones hay que estimar un número de parámetros
Se utiliza el método de mínimos cuadrados que se basa en minimizar la suma de los
cuadrados de los residuos
(5.4)
se obtienen los siguientes estimadores:
(5.5)
(5.6)
(5.7)
Por tanto, la predicción en la casilla
es
(5.8)
y los residuos son
La suma de los residuos en cada fila y cada columna es cero, por tanto, hay I + J
- 1 relaciones entre los IJ residuos y el número de grados de libertad es
Razonando como en el modelo de diseño completamente aleatorizado se obtiene
que el estimador de la varianza es la varianza residual
(5.9)
Propiedades de los estimadores.
La distribución de los estimadores anteriores es la siguiente,
(5.10)
(5.11)
(5.12)
(5.13)
Por tanto, los estimadores definidos son centrados y eficientes. Utilizando las
distribuciones anteriores (la t y la 2) se pueden calcular intervalos de confianza de
los parámetros del modelo.
Para calcular intervalos de confianza acerca de las medias de los niveles, las
distribuciones de referencia son:
Para las medias de los niveles
del factor tratamiento T
(5.14)
Para las medias de los bloques
del factor bloque B
(5.15)
Continuar desde:
http://dm.udc.es/asignaturas/estadistica2/sec5_2.html
5.2.3 Análisis de la varianza.
Utilizando
se puede hacer la siguiente descomposición de las diferencias para cada i = 1,...,I;
j = 1,...,J,
(5.16)
elevando al cuadrado en (5.16) y teniendo en cuenta que los dobles productos se
anulan, la suma de cuadrados global se puede descomponer de la forma:
esto es,
(5.
13)
escrito de otra forma
de donde se deduce la siguiente tabla ANOVA
CUADRO DEL
ANÁLISIS DE LA
VARIANZA
— MODELO
TRATAMIENTOBLOQUE —
Fuente de
Suma de
Variación
Cuadrados
Tratamientos
scT =
g.l.
scm
I-1
scmT =
J
2
i
scB =
Bloques
I
J -1
2
j
scR =
Residual
i
(I -1)(J -1)
2
j
scG =
Global
i
Rechazar H0(1) :
1
=
IJ - 1
2
j
2
= ... =
I,
scmT =
scmR =
scmG =
según p = P FI -1,(I-1)(J-1)
scmR" align=middle src="images/t512x.gif" width=193 height=41
Rechazar H0(2) : 1 = 2 = ... = J, según p = P FJ-1,(I-1)(J- 1)" align=middle
src="images/t514x.gif" width=195 height=41
Tabla 5.1: Análisis de la varianza para un diseño en bloques completamente
aleatorizados.
De esta tabla ANOVA se deducen dos contrastes:
Si H0(
)
es cierto, el factor-tratamiento no influye, se verifica que
s2
SCT--a
F = SCM--T-a-= -----I--1-----~ F , (1.17)
(5.14)
a SCM R ----SCR------ (I- 1),(I-1)(J- 1)
(I - 1)(J- 1)
" src="images/capitulo-5-0343x.gif" width=400
height=119
se rechaza H0(
)
al nivel de significación
Si H0( ) es cierto, el factor-bloque no influye, se
verifica que
F2 = SCM R ~ F(J- 1),(I-1)(J-1),
" src="images/capitulo-5-0350x.gif"
width=261 height=76
(5.
15)
si
1
=
>F
,
.
se rechaza H0(
= (scmB
)
al nivel de significación
/ scmR) > F
si
,
Comentarios.
La eficacia de este diseño depende de los efectos de los bloques. Si éstos son
pequeños, es más eficaz el diseño completamente aleatorio ya que el denominador en
la comparación de tratamientos tiene menos grados de libertad. Sin embargo si los
bloques influyen es mucho mejor y más eficaz este modelo, ya que disminuye la
variabilidad no explicada. Por ello, es mejor estudiar primero el modelo de bloques
aleatorizados y, si los bloques no influyen, se pasa fácilmente al modelo de un solo
factor sumando en la tabla ANOVA la fila del factor bloque con la de la variabilidad
residual.
Se define el Coeficiente de Determinación como:
siendo R2(T ) y R2(T ) los coeficientes de determinación parciales asociados al factortratamiento y al factor-bloque, respectivamente. Representan el tanto por uno de la
variabilidad total explicada por los tratamientos y los bloques.
El tratamiento estadístico expuesto para el modelo de diseño de experimentos
completamente aleatorizado con un factor tratamiento y un factor bloque es
exactamente igual que el diseño de experimentos con dos factores tratamiento sin
interacción.
Si de la tabla ANOVA del modelo de diseño de experimentos completamente
aleatorizado se deduce que existen diferencias entre los tratamientos, estas
diferencias se estiman por
Se pueden obtener intervalos de confianza de
i
-
k
a partir de la distribución
(5.1
6)
de forma análoga se puede hacer para las diferencias
j
-
l.
La eficacia de este diseño depende de los efectos de los bloques. Si éstos son
pequeños, es más eficaz el diseño completamente aleatorio ya que el denominador en
la comparación de tratamientos (ver (5. 13)) tiene menos grados de libertad. Sin
embargo si los bloques influyen es mucho mejor y más eficaz este modelo ya que
disminuye la variabilidad no explicada.
Por ello es mejor estudiar primero el modelo de bloques aleatorizados y, si los
bloques no influyen, se pasa fácilmente al modelo de un solo factor sumando en la
tabla ANOVA la fila del factor bloque con la de la variabilidad residual. Aunque existe
una discusión acerca de si se puede pasar de un modelo a otro ya que una diferencia
importante entre los dos modelos es que en un diseño completamente aleatorizado,
los tratamientos y, equivalentemente, los niveles de los factores tratamiento son
asignados aleatoriamente a las unidades experimentales. Por el contrario, en un
diseño en bloques, aunque las observaciones son también tomadas sobre todas las
combinaciones de tratamientos y bloques, sólo los niveles del factor tratamiento son
asignados aleatoriamente a las unidades experimentales. Hay que tener en cuenta
que la división de las unidades experimentales para formar los bloques es
determinista. Esto ha hecho que exista una fuerte controversia acerca de si es
apropiado o no contrastar la igualdad de los efectos bloque. Al fin y al cabo, en el
diseño que se está analizando los bloques representan fuentes de variación
“nuisance”, esto es, no existe interés alguno en la posible significación del efecto
bloque. Más aún, es poco probable que sea factible utilizar los mismos bloques en una
hipotética réplica del experimento.
Por todo ello, en la práctica
“Bloquear sin ser necesario conduce a pruebas de hipótesis menos potentes y a
intervalos de confianza más amplios que aquellos que se obtendrían mediante un
diseño completamente aleatorizado”.
Si se tiene un diseño de experimentos con dos factores tratamiento (T y T ) entre
los que no existe interacción, el tratamiento estadístico y desarrollo que se estudia en
esta sección es válido para este modelo. En este caso el contraste de las dos hipótesis
acerca de la influencia de los efectos de los niveles de los dos factores T y T dados
en (5.2 ) y (5.3 ) son de gran interés, contrastes que se resuelven a partir de la tabla
ANOVA utilizando (5.1 3) y (5.1 4). En cualquier caso, aunque el modelo de bloques
completamente aleatorizado y el modelo de dos factores sin interación tienen un
desarrollo matemático análogo, su planteamiento y objetivos son diferentes.
Descargar