AnalisisMultivariado.. - Contacto: 55-52-17-49-12

Anuncio
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
MÉTODOS ESTADÍSTICOS
MULTIVARIADOS
Elaboró: Dr. Primitivo Reyes Aguilar
Dic. 2006
Pág. 1
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
CONTENIDO
1. Coeficiente de Cronbach
2. Métodos de análisis multivariado
3. ANOVA de K direcciones
4. Análisis multivariado de Varianza (MANOVA)
5. Análisis de Covarianza
6. Análisis Discriminante
7. Análisis de Conglomerados (Clusters)
8. Análisis Factorial
9. Análisis de Regresión Múltiple
Pág. 2
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
1. COEFICIENTE DE CRONBACH
Pág. 3
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
1. CÁLCULO DEL COEFICIENTE DE CONFIABILIDAD
(FIABILIDAD) ALFA-CRONBACH
Existen tres procedimientos para determinar el coeficiente “” o alfa :
1. Sobre la base de la varianza de los ítems, con la aplicación de la siguiente
fórmula:
En donde N representa el número de ítems de la escala, “s2 (Yi)” es igual a la
sumatoria de las varianzas de los ítems y “s2x” equivale a la varianza de toda la
escala.
2. Sobre la base de la matriz de correlación de los ítems, el procedimiento
sería:
a) Se aplica la escala.
b) Se obtienen los resultados.
c) Se calculan los coeficientes de correlación r de Pearson entre todos los
ítems (todos contra todos de par en par).
d) Se elabora la matriz de correlación con los coeficientes obtenidos. Por
ejemplo:
Pág. 4
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
Los coeficientes que se mencionan como “ya fue calculado”, se ubican en la
parte superior de las líneas horizontales (guiones). Es decir, cada coeficiente
se incluye una sola vez y se excluyen los coeficientes que vinculan al ítem o
puntuación consigo misma (1 con 1, 2 con 2, 3 con 3 y 4 con 4).
Pág. 5
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
3. Mediante otra fórmula que se basa en la correlación promedio
Pág. 6
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
2. MÉTODOS DE ANÁLISIS
MULTIVARIADO
Pág. 7
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
2. LOS MÉTODOS DE ANÁLISIS MULTIVARIADO
Los métodos de análisis multivariado son aquellos en que se analiza la relación
entre diversas variables independientes y al menos una dependiente. Son
métodos más complejos que requieren del uso de computadoras para efectuar
los cálculos necesarios
Entre las técnicas más comunes se encuentran (1) Análisis de componentes
principales y factores comunes, (2) regresión y correlación múltiple, (3) análisis
discriminante múltiple, (4) análisis multivariado de varianza y covarianza, (5)
análisis conjunto, (6) correlación canónica, (7) análisis de clusters, (8) escala
multidimensional.
Otras
técnicas
nuevas
incluyen
(9)
análisis
de
correspondencia, (10) modelos de probabilidad lineal tales como el logit y
probit, y (11) modelos de ecuación simultaneas / estructurales. A continuación
se describen brevemente éstas técnicas.
Análisis de componentes principales y de factores comunes
Es un método estadístico que puede usarse para analizar las interrelaciones
entre un gran número de variables y explicar esas variables en términos de sus
dimensiones subyacentes comunes. El objetivo es hallar la forma de sintetizar
la información contenida en un número de variables originales, dentro de un
Pág. 8
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
conjunto más pequeño de variates (factores) con mínima pérdida de
información.
Regresión múltiple
En un método de análisis adecuado cuando el problema de investigación
involucra una variable dependiente única que se presume se relaciona a dos o
más variables independientes medibles. El objetivo es predecir el cambio en la
variable
dependiente
de
respuesta
con
cambios
en
las
variables
independientes, normalmente con el método de mínimos cuadrados.
Por ejemplo se pueden predecir los montos gastados en cenas a partir de
ingresos de las familias (variable dependiente), su tamaño, y la edad del padre
(variables independientes).
Análisis discriminante múltiple (MDA)
Se aplica cuando la variable dependiente es dicotómica (vgr. hombre – mujer) o
multitómica (vgr. Alto – medio – bajo) y por tanto no medible. Como en la
regresión las variables independientes deben ser medibles. Se aplica cuando la
muestra total se puede dividir en grupos con base en una variable no medible
caracterizando varias clases conocidas. Su objetivo es comprender las
diferencias entre grupos y predecir la probabilidad de que una entidad (objeto
individual) pertenezca a una clase o grupo particular con base en varias
variables independientes medibles o métricas.
Por ejemplo el análisis discriminante se puede utilizar para distinguir entre
innovadores y no innovadores de acuerdo a su perfil demográfico y
psicográfico.
Análisis multivariado de varianza y covarianza (MANOVA)
Es un método estadístico para explorar simultáneamente la relación entre
varias variables categóricas independientes (referidas como tratamientos) y dos
o más variables dependientes medibles o métricas. Es una extensión del
ANOVA univariado. El análisis multivariado de covarianza (MANCOVA) se
Pág. 9
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
puede usar en conjunto con el MANOVA para remover (después del
experimento) el efecto de cualquier variable métrica independiente no
controlada (conocida como covariada) en la variable independiente.
Análisis conjunto
Se aplica a nuevos productos para evaluar la importancia de los atributos del
nuevo producto así como los niveles de cada atributo, mientras que el
consumidor evalúa solo unos pocos perfiles del producto como combinaciones
de los niveles de producto.
Por ejemplo asumir un producto con tres atributos (precio, calidad y color),
cada uno en tres niveles posibles (vgr. Rojo, amarillo y azul). En vez de tener
que evalur las 27 combinaciones posibles (3x3x3), se evalúa un subconjunto de
9 o más combinaciones con base en su atractivo para el consumidor, de
manera que el investigador no solo conozca la importancia de cada atributo,
sino además la importancia de cada nivel (atractivo del rojo vs amarillo vs azul).
Correlación canónica
El análisis de correlación puede ser visto como una extensión lógica de la
regresión múltiple. Donde se trata de correlacionar simultáneamente varias
variables dependientes medibles o métricas y varias variables independientes
medibles. El principio es establecer una combinación lineal de cada conjunto de
variables (dependientes e independientes) para maximizar la correlación entre
los dos conjuntos (obteniendo ponderacións adecuados para las variables).
Análisis de conglomerados (Clusters)
Es una técnica analítica para desarrollar sugrupos significativos de individuos u
o objetos. Específicamente, el objetivo es clasificar una muestra de entidades
(individuos u objetos) en un número más pequeño de grupos más pequeños
con base en las similitudes entre entidades. A diferencia del análisis
discriminante, los grupos no están definidos, más bien se usa para
identificarlos.
Pág. 10
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
Normalmente se realiza en tres pasos. El primero es la medición de alguna
forma de similitud o asociación entre las entidades para identificar cuantos
grupos realmente existen en la muestra. El segundo paso es el proceso en sí
de
conglomerados,
donde
las
entidades
se
particionan
en
grupos
(conglomerados o clusters). El paso final es perfilar las personas o variables
para determinar su composición. Muchas veces esto último se realiza con el
análisis discriminante.
Escala multidimensional
El objetivo es transformar los juicios del consumidor de similitud o preferencias
(vgr. Preferencia por tiendas o marcas) en distancias representadas en un
espacio multidimensional. Si los objetos A y B se juzgan por el consumidor
como similares, comparados con cualquier otro par de objetos, la técnica
posiciona los objetos A y B de manera que la distancia entre ellos en un
espacio multidimensional es más pequeño que la distancia entre cualquier otro
par de objetos. Al final se muestra un mapa perceptual con la posición relativa
de los objetos.
Análisis de correspondencia
Facilita tanto la reducción dimensional de objetos en un conjunto de atributos y
el mapa perceptual de objetos respecto a estos atributos. En su forma más
elemental es una tabla de contingencia o tabulación cruzada de dos variables
categóricas. Transforma los datos no métricos a un nivel medible y realiza una
reducción dimensional (similar al análisis de factores) y un mapa perceptual
(similar al análisis multidimensional).
Por ejemplo, las preferencias de marcas de los consumidores pueden ser
tabuladas contra variables demográficas (vgr. Género, categorías de ingresos,
ocupación) indicando cuanta gente prefiere cada una de las marcas que caen
en cada categoría de las variables demográficas. Por medio del análisis de
correspondencia, la asociación o “correspondencia” de marcas y las
características distintivas de aquellos que prefieren las marcas se muestran en
Pág. 11
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
un mapa tridimensional o bidimensional tanto de marcas como de las
características que distinguen a aquellos que prefieren cada marca.
Modelos de probabilidad lineal (Análisis Logit)
Son una combinación de regresión múltiple y análisis discriminante. Es similar
al análisis de regresión múltiple excepto que la variable dependiente es
categórica no métrica como en el análisis discriminante.
Modelos de ecuaciones estructurales
A veces se refiere como el nombre del software LISREL, es una técnica que
permite separar las relaciones del conjunto de variables dependientes. En su
forma más sencilla proporciona el modelo más adecuado y la técnica de
estimación más eficiente para una serie de ecuaciones de regresión múltiple,
evaluadas simultáneamente. Se caracteriza por dos componentes básicos: (1)
el modelo estructural y (2) el modelo de medición.
El modelo estructural es la “vía” que relaciona variables dependientes e
independientes. El modelo de medición permite al investigador a usar varias
variables (indicadores) para una variable dependiente e independiente.
Pág. 12
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
Los datos para HATCO son los siguientes:
Variables / Tipo
Percepciones / Medibles (Métricas)
X1
Tiempo de entrega - entrega del producto con la orden confirmada
X2
Nivel de precios
- nivel de precio percibido ponderacióndo por
proveedores
X3
Flexibilidad de precios
- flexibilidad para negociar precios
X4
Imagen de la empresa
- general
X5
Servicio en general
- nivel necesario para mantener relaciones
X6
Imagen de la fuerza de ventas - general
X7
Calidad del producto – calidad percibida en desempeño o rendimiento
Resultados de compras / Medibles (Métricas)
X9
Nivel de utilización - que porcentaje de producto es surtido por Hatco
X10
Nivel de satisfacción – que tan satisfecho esta el cliente con Hatco
Características del comprador / No Medibles (No Métricas)
X8
Tamaño de la empresa
- 1- Grande 0 - pequeño
X11
Especificación de compra - 1-Evalúa por el valor total y 0- especificación
X12
Estructura de abastecimiento – 1- centralizado 0 - descentralizado
X13
Tipo de industria
X14
Tipo de situación de compra – 1- nueva 2- modificada 0- tradicional
- 1- industria A
Pág. 13
0 – otras industrias
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
3. ANOVA DE K DIRECCIONES
Pág. 14
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
3. ANOVA (análisis de varianza de k direcciones )
El ANOVA es similar a la regresión en el sentido de que se utiliza para
investigar y modelar la relación entre una variable de respuesta y una o más
variables independientes. Sin embargo, el ANOVA difiere de la regresión en
dos aspectos: las variables independientes son cualitativas (categóricas), y no
hay supuestos acerca de la naturaleza de la relación (o sea que el modelo no
incluye coeficientes para variables). En efecto el ANOVA extiende la prueba de
dos muestras con prueba t para probar la igualdad de dos poblaciones a una
hipótesis más general al comparar más de dos medias, versus que no sean
iguales.
Definición: Es una prueba estadística para evaluar el efecto de dos o más
variables independientes sobre una variable dependiente.
Responde a esquemas como el que se muestra en la figura:
Constituye una extensión del análisis de varianza unidireccional, solamente
que incluye más de una variable independiente. Evalúa los efectos por
separado de cada variable independiente y los efectos conjuntos de dos o más
variables independientes.
Pág. 15
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
Variables: Dos o más variables independientes y una dependiente.
Nivel de medición de las variables: La variable dependiente (criterio) debe estar
medida en un nivel por intervalos o razón, y las variables independientes
(factores) pueden estar en cualquier nivel de medición, pero expresadas de
manera categórica.
Interpretación y ejemplo
Hi: La similitud en valores, la atracción física y el grado de retroalimentación
positiva son variables que inciden en la satisfacción sobre la relación en
parejas de novios.
Contexto: Muestra de parejas de adultos jóvenes (23-29 años), pertenecientes
a estratos económicos altos (n=400).
El ANOVA efectuado mediante un paquete estadístico computacional como
SPSS produce los siguientes elementos básicos:
• Fuente de la variación (source of variation). Es el factor que origina variación
en la dependiente. Si una fuente no origina variación en la dependiente, no
tiene efectos.
• Efectos principales (main effects). Es el efecto de cada variable independiente
por
separado;
no
está
contaminado
del
efecto
de
otras
variables
iindependientes ni de error. Suele proporcionarse la suma de todos los efectos
principales.
• Interacciones de dos direcciones (2-way interactions). Representa el efecto
conjunto de dos variables independientes, aislado de los demás posibles
efectos de las variables independientes (individuales o en conjuntos). Suele
proporcionarse la suma de los efectos de todas estas interacciones.
Pág. 16
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
• Interacciones de tres direcciones (3-way interactions). Constituye el efecto
conjunto de tres variables independientes, aislado de otros efectos. Suele
proporcionarse la suma de los efectos de todas estas interacciones.
• Puede haber efecto de K-direcciones, esto dependie del número de variables
independientes.
En nuestro ejemplo, tenemos los resultados siguientes:
TABLA ANOVA
VARIABLE DEPENDIENTE: SATISFACCIÓN EN LA RELACIÓN
Fuente
variación
Estadístico F
Significancia
de Fc = P
Efectos
principales
(main effects
22.51
.001**
SIMILITUD
ATRACCIÓN
RETROALIM
SIMILITUD
ATRACCIÓN
SIMILITUD
RETROALIM
ATRACCION
RETROALIM
SIN
–
RETROLATRACCION
31.18
21.02
11.84
0.001**
0.001**
0.004**
-4.32
0.04*
2.18
0.11
1.56
0.190
8.01
0.02*
NOTA:
de Suma
de Grados de Cuadrados
cuadrados
libertad
medios
Normalmente interesa saber si las razones “F” resultaron o no
significativas; por tanto, sólo se incluyen estos valores. Se recomienda
concentrarse en dichos valores y evitar confusiones. Desde luego, el
investigador experimentado acostumbra estudiar todos los valores.
**— Razón “F” significativa al nivel del 0.01 (p < 0.01)
*—Razón “F” significativa al nivel del 0.05 (p < 0.05)
Pág. 17
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
Como podemos ver en la tabla, la similitud, la atracción y la retroalimentación
tienen un efecto significativo sobre la satisfacción en la relación.
Respecto a los efectos de dos variables independientes conjuntas, sólo la
similitud y la atracción tienen un efecto, hay un efecto conjunto de las tres
variables independientes. La hipótesis de investigación se acepta y la nula se
rechaza. Asimismo, se recuerda al lector que en el capítulo 5 del presente
disco: Otros diseños experimentales (en el apartado sobre diseños factoriales)
se explica la noción de interacción entre variables independientes. Cabe
agregar que el ANOVA es un método estadístico propio para los diseños
experimentales factoriales.
Ejemplo:
Un experimento se realizó para probar cuanto tiempo toma usar un modelo
nuevo y un modelo anterior de calculadora. Seis ingenieros trabajando en un
problema estadístico y uno de ingeniería se les toma el tiempo para resolver el
problema. Los ingenieros se consideran como bloques en el diseño
experimental.
Hay dos factores: Tipo de problema y modelo de calculadora – cada uno con
dos niveles, se hacen experimentos donde esos niveles de los factores se
cruzan. Los datos se muestran a continuación:
SolveTime
3.1
7.5
2.5
5.1
3.8
8.1
2.8
5.3
3
7.6
2
4.9
3.4
7.8
2.7
Engineer
Jones
Jones
Jones
Jones
Williams
Williams
Williams
Williams
Adams
Adams
Adams
Adams
Dixon
Dixon
Dixon
ProbType
Stat
Stat
Eng
Eng
Stat
Stat
Eng
Eng
Stat
Stat
Eng
Eng
Stat
Stat
Eng
Calculator
New
Old
New
Old
New
Old
New
Old
New
Old
New
Old
New
Old
New
Pág. 18
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
5.5
3.3
6.9
2.5
5.4
3.6
7.8
2.4
4.8
Dixon
Erickson
Erickson
Erickson
Erickson
Maynes
Maynes
Maynes
Maynes
Eng
Stat
Stat
Eng
Eng
Stat
Stat
Eng
Eng
P. REYES / DIC. 2006
Old
New
Old
New
Old
New
Old
New
Old
Las instrucciones de Minitab son las siguientes:
1
Abrir la worksheet EXH_AOV.MTW.
2
Stat > ANOVA > Balanced ANOVA.
3
Responses, poner SolveTime.
4
Model, poner Engineer ProbType | Calculator.
5
En Random Factors, poner Engineer.
6 Click Results. En Display means corresponding to the terms, poner
ProbType | Calculator. Click OK cada cuadro de diálogo.
Los resultados obtenidos son los siguientes:
ANOVA: SolveTime versus Engineer, ProbType, Calculator
Factor
Engineer
ProbType
Calculator
Type
random
fixed
fixed
Levels
6
2
2
Values
Adams, Dixon, Erickson, Jones, Maynes, Williams
Eng, Stat
New, Old
Analysis of Variance for SolveTime
Source
Engineer
ProbType
Calculator
ProbType*Calculator
Error
Total
S = 0.259487
DF
5
1
1
1
15
23
SS
1.053
16.667
72.107
3.682
1.010
94.518
R-Sq = 98.93%
MS
0.211
16.667
72.107
3.682
0.067
F
3.13
247.52
1070.89
54.68
R-Sq(adj) = 98.36%
Means
ProbType
Eng
Stat
N
12
12
SolveTime
3.8250
5.4917
Pág. 19
P
0.039
0.000
0.000
0.000
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
Calculator
New
Old
ProbType
Eng
Eng
Stat
Stat
N
12
12
P. REYES / DIC. 2006
SolveTime
2.9250
6.3917
Calculator
New
Old
New
Old
N
6
6
6
6
SolveTime
2.4833
5.1667
3.3667
7.6167
Interpretación de los resultados:
Se muestran los factores (fijos y aleatorios), niveles y valores. Después se
muestra la tabla de ANOVA, donde se indica de acuerdo al valor P que hay una
interacción significativa entre el tipo de problema y el modelo de calculadora, lo
que implica que la reducción en tiempo de proceso de la calculadora depende
del tipo de problema.
En la lista de promedios se observa un menor tiempo entre la calculadora
nueva y la anterior.
Pág. 20
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
4. ANÁLISIS MULTIVARIADO DE VARIANZA
(MANOVA)
Pág. 21
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
4. ANÁLISIS MULTIVARIADO DE VARIANZA (MANOVA)
Es un modelo para analizar la relación entre una o más variables
independientes y dos o más variables dependientes. Es decir, es útil para
estructuras causales del tipo:
La técnica posee varios usos, entre los que destacan:
- Evaluar diferencias entre grupos a través de múltiples variables dependientes
(medidas por intervalos o razón). La(s) variable(s) independiente(s) es(son)
categórica(s) (no métricas). Tiene el poder de evaluar no solamente las
diferencias
totales,
sino
diferencias
entre
las
combinaciones
de
las
dependientes.
En este sentido representa una extensión del análisis de varianza (ANOVA)
para cubrir casos donde hay más de una variable dependiente y/o cuando las
variables dependientes simplemente no pueden ser combinadas. En otras
palabras, reconoce si los cambios en la(s) variable(s) independiente(s) tienen
un efecto significativo en las dependientes. Señala qué grupos difieren en una
variable o en el conjunto de variables dependientes.
Pág. 22
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
- Identificar las interacciones entre las variables independientes y la asociación
entre las dependientes.
Las tres clases principales del MANOVA son:
1) Hotelling's T. Es parecida a la prueba t (dos grupos) pero con más
dependientes: una variable independiente dicotómica y varias dependientes.
2) MANOVA unidireccional. Análogo al ANOVA de una sola vía, pero con más
dependientes: una variable independiente multicategórica y varias
dependientes.
3) MANOVA factorial. Similar al ANOVA factorial, solamente que con dos o más
dependientes: varias independientes categóricas y varias dependientes.
Los modelos del MANOVA tienen en común que forman combinaciones
lineales de las dependientes que discriminan mejor entre los grupos en un
experimento o una situación no experimental. Es una prueba de significancia
de las diferencias en los grupos en un espacio multidimensional donde cada
dimensión está definida por combinaciones lineales del conjunto de variables
dependientes.
Una pregunta que suele hacer el estudiante al revisar el MANOVA es ¿por qué
no hacemos ANOVAS separados, uno para cada dependiente? La respuesta:
las dependientes están correlacionadas muy frecuentemente, por lo cual los
resultados de varios ANOVA pueden ser redundantes y difíciles de integrar. He
aquí una síntesis de la explicación de Wiersma (1999) sobre este tipo de
análisis:
Al incluir dos o más variables dependientes simultáneamente no se consideran
las diferencias entre las medias en cada variable, sino las diferencias en
variables canónicas. El interés no sólo es saber si los grupos definidos por las
variables independientes difieren en las variables canónicas, sino conocer la
naturaleza de éstas. Una variable canónica es una variable artificial generada a
Pág. 23
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
partir de los datos. Representa constructos y se compone de variables reales,
las cuales deben ser descritas en términos de variables dependientes. Lo
anterior se efectúa por medio de las ponderacións de los coeficientes de
correlación entre una variable dependiente y una variable canónica. Si una
ponderación entre la variable canónica y la dependiente es positiva y elevada,
significa que altos valores en la dependiente se asocian con altos valores en la
canónica. Por ejemplo, si una variable dependiente consiste en puntuaciones a
una prueba sobre innovación, y dichas puntuaciones se correlacionan en forma
considerable con una variable canónica, inferimos que la variable canónica
representa un constructo que involucra esencialmente a la innovación.
En los cálculos que se hacen en el MANOVA, se generan variables canónicas
hasta que se encuentra que no hay una diferencia estadística significativa entre
las categorías o los grupos de las variables independientes; o bien, hasta que
se agotan los grados de libertad de las variables independientes (lo que ocurra
primero). El número de variables canónicas no puede exceder el número de
variables dependientes, pero es común que el número de dependientes sea
mayor que el de variables canónicas estadísticamente significativas o los
grados de libertad.
La hipótesis general de investigación en el MANOVA postula que las medias de
los grupos o las categorías de la(s) variable(s) independiente(s) difieren entre sí
en las variables canónicas. La hipótesis nula postula que dichas medias serán
iguales.
Se calculan diversas estadísticas para evaluar ambas hipótesis, entre las que
destacan: F (total, toma en cuenta el modelo completo), la prueba Hotelling's
TSquare,
T2
(cuando
hay
dos
grupos
formados
por
las
variables
independientes), Wilks' lambda, U (cuando hay más de dos grupos formados
por las variables independientes), y Pillai-Bartlett (cuando hay coeficientes
canónicos); y si resultan significativas en un nivel de confianza, se acepta la
hipótesis de investigación de diferencia de medias. Esto indica que hay, por lo
menos, una variable canónica significativa (pero puede haber varias). Si
diversas variables canónicas son significativas, esto muestra que se presentan
Pág. 24
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
diferencias en las variables canónicas en cuestión, entre los grupos o
categorías de las independientes.
Los paquetes estadísticos que contiene el MANOVA suelen posicionar a los
grupos de las variables independientes por puntuaciones discriminantes; éstas
son calculadas con una función discriminante, que es una ecuación de
regresión para un compuesto de variables dependientes. A cada grupo se le
asigna una puntuación discriminante en cada variable canónica. Las
puntuaciones discriminantes de una variable independiente pueden ser cero o
tener un valor positivo o negativo. Una puntuación discriminante positiva y
elevada para un grupo, indica que éste se coloca por encima de los demás en
la respectiva variable canónica. Y deben considerarse las ponderacións, las
cuales son positivas o negativas. Las puntuaciones discriminantes son
utilizadas para interpretar las separaciones de los grupos en las variables
canónicas, en tanto que las ponderacións se usan para evaluar y ligar los
resultados de las variables dependientes (Wiersma, 1999). Un ejemplo de las
ponderacións
de
los
coeficientes
de
correlación
dependientes y las variables canónicas así como
discriminantes se muestran en las tablas siguientes:
Pág. 25
entre
las
variables
las puntuaciones
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
Como observamos en la última tabla, se obtuvieron tres constructos
subyacentes en las puntuaciones recolectadas de la muestra: motivación
intrínseca, atribución de causalidad externa y desempeño laboral. Vemos en la
tabla que los grupos (niveles en la empresa) están separados en las tres
variables canónicas (los grupos difieren), particularmente en la primera variable
canónica (motivación intrínseca) y los obreros ocupan la posición más baja. Las
variables dependientes enmarcadas en un recuadro en la primera variable
Pág. 26
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
canónica se ponderaciónn en ella; en consecuencia, los ejecutivos tienen las
puntuaciones más altas en motivación intrínseca medida por la escala
mencionada, en atribuciones internas y en sentimientos de éxito en el trabajo.
Así se interpretan todas las variables canónicas y dependientes.
En el MANOVA se incluyen razones F y análisis de varianza. Algunos paquetes
estadísticos agregan una prueba denominada correlación canónica, que es
muy similar al MANOVA. Ésta es la máxima correlación que llega a obtenerse
entre los conjuntos de puntuaciones y las relaciones entre las variables
independientes, entre las variables dependientes y entre los conjuntos de
ambas (dependientes e independientes) (Kerlinger, 1979). Las variables en el
MANOVA y la correlación canónica asumen que las variables dependientes
están medidas en un nivel de intervalos o razón. Tal correlación se interpreta
como otras; pero el contexto de interpretación varía de acuerdo con el número
de variables involucradas.
Pág. 27
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
Ejemplo con Minitab
Se realiza un estudio para determinar las condiciones óptimas para extruir
película plástica. Se miden tres respuestas – Tear, gloss y opacity – cinco
veces en cada combinación de dos factores – tasa de extrusión y cantidad de
aditivo – cada grupo se pone en niveles bajos y altos. Se utiliza el MANOVA
balanceado para probar la igualdad de las medias.
DATOS
Tear
6.5
6.2
5.8
6.5
6.5
6.9
7.2
6.9
6.1
6.3
6.7
6.6
7.2
7.1
6.8
7.1
7
7.2
7.5
7.6
Gloss
9.5
9.9
9.6
9.6
9.2
9.1
10
9.9
9.5
9.4
9.1
9.3
8.3
8.4
8.5
9.2
8.8
9.7
10.1
9.2
Opacity
4.4
6.4
3
4.1
0.8
5.7
2
3.9
1.9
5.7
2.8
4.1
3.8
1.6
3.4
8.4
5.2
6.9
2.7
1.9
Extrusion
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2
Additive
1
1
1
1
1
2
2
2
2
2
1
1
1
1
1
2
2
2
2
2
Instrucciones de Minitab
1
Abrir el archivo EXH_MVAR.MTW.
2
Seleccionar Stat > ANOVA > Balanced MANOVA.
3
En Responses, poner Tear Gloss Opacity.
4
En Model, poner Extrusion | Additive.
Pág. 28
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
5
P. REYES / DIC. 2006
Click Results. En Display of Results, seleccionar Matrices
(hypothesis, error, partial correlations) y Eigen analysis.
6
Click OK en cada cuadro de diálogo.
Los resultados se muestran a continuación:
Results for: Exh_mvar.MTW
ANOVA: Tear, Gloss, Opacity versus Extrusion, Additive
MANOVA for Extrusion
s = 1
m = 0.5
n = 6.0
Test
Criterion
DF
Statistic
F
Num
Denom
P
Wilks'
0.38186
7.554
3
14
0.003
Lawley-Hotelling
1.61877
7.554
3
14
0.003
Pillai's
0.61814
7.554
3
14
0.003
Roy's
1.61877
SSCP Matrix for Extrusion
Tear
Gloss
Opacity
Tear
Gloss
Opacity
1.740
-1.505
0.8555
-1.505
1.301
-0.7395
0.855
-0.739
0.4205
SSCP Matrix for Error
Tear
Gloss
Opacity
Tear
1.764
0.0200
-3.070
Gloss
0.020
2.6280
-0.552
-3.070
-0.5520
64.924
Opacity
Partial Correlations for the Error SSCP Matrix
Tear
Gloss
Opacity
Pág. 29
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
Tear
1.00000
0.00929
-0.28687
Gloss
0.00929
1.00000
-0.04226
-0.28687
-0.04226
1.00000
Opacity
P. REYES / DIC. 2006
EIGEN Analysis for Extrusion
Eigenvalue
1.619
0.00000
Proportion
1.000
0.00000
0.00000
Cumulative
1.000
1.00000
1.00000
Eigenvector
Tear
Gloss
Opacity
0.00000
1
2
3
0.6541
0.4315
0.0604
-0.3385
0.5163
0.0012
0.0359
0.0302
-0.1209
MANOVA for Additive
s = 1
m = 0.5
n = 6.0
Test
Criterion
DF
Statistic
F
Num
Denom
P
Wilks'
0.52303
4.256
3
14
0.025
Lawley-Hotelling
0.91192
4.256
3
14
0.025
Pillai's
0.47697
4.256
3
14
0.025
Roy's
0.91192
SSCP Matrix for Additive
Tear
Gloss
Opacity
Tear
0.7605
0.6825
1.931
Gloss
0.6825
0.6125
1.732
Opacity
1.9305
1.7325
4.901
EIGEN Analysis for Additive
Eigenvalue
0.9119
0.00000
0.00000
Proportion
1.0000
0.00000
0.00000
Cumulative
1.0000
1.00000
1.00000
Pág. 30
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
Eigenvector
1
2
3
Tear
-0.6330
0.4480
-0.1276
Gloss
-0.3214
-0.4992
-0.1694
Opacity
-0.0684
0.0000
0.1102
P. REYES / DIC. 2006
MANOVA for Extrusion*Additive
s = 1
m = 0.5
n = 6.0
Test
Criterion
DF
Statistic
F
Num
Denom
P
Wilks'
0.77711
1.339
3
14
0.302
Lawley-Hotelling
0.28683
1.339
3
14
0.302
Pillai's
0.22289
1.339
3
14
0.302
Roy's
0.28683
SSCP Matrix for Extrusion*Additive
Tear
Gloss
Opacity
Tear
0.000500
0.01650
0.04450
Gloss
0.016500
0.54450
1.46850
Opacity
0.044500
1.46850
3.96050
EIGEN Analysis for Extrusion*Additive
Eigenvalue
0.2868
0.00000
0.00000
Proportion
1.0000
0.00000
0.00000
Cumulative
1.0000
1.00000
1.00000
Eigenvector
1
2
3
Tear
-0.1364
0.1806
0.7527
Gloss
-0.5376
-0.3028
-0.0228
Opacity
-0.0683
0.1102
-0.0000
Por default se muestra la tabla para las cuatro pruebas multivariadas (Wliks,
Lawley, Hotelling, Pillai y Roy) para cada uno de los términos en el modelo.
Los valores s, m y n se utilizan para los cálculos de los estadísticos de prueba
Fc, el cual es exacto si s = 1 o 2 de otra forma es aproximado.
Pág. 31
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
Examinando los valores P de las pruebas para Extrusión y Aditivo se observa
que son significativas para un nivel de 0.05, no así la interacción.
Las matrices SSCP se usan para evaluar la contribución a la variabilidad de
manera similar a la suma de cuadrados en la ANOVA univariada. La matriz
SSCP para Extrusion es la suma de cuadrados de la hipótesis y matriz de
productos cruzados H para las tres respuestas con el término de modelo
Extrusión. Los elementos diagonales de esta matriz, 1.740, 1.301 y 0.405 son
las sumas de cuadrados univariados para el término del modelo Extrusión
cuando las variables de respuesta son Tear, Gloss y Opacity respectivamente.
Los elementos fuera de la diagonal son los productos cruzados.
La matriz SSCP para el error es la suma de cuadrados de los errores y
productos cruzados E. Los elementos diagonales de la matriz 1.764, 2.6280, y
64.924 son las sumas de cuadrados de los errores para las variables de
respuesta Teat, Gloss y Opacity, respectivamente. Los elementos fuera de la
diagonal de esta matriz son los productos cruzados.
La matriz de correlaciones parciales para el error SSCP, se usa para evaluar
que tanto se relacionan las variables de respuesta. Las correlaciones parciales
entre Tear y Gloss son pequeñas con 0.00929 y entre Gloss y Opacity 0.04226. Y la correlación parcial entre Tear y Opacity es de -0.28687 tampoco
es grande. Como la estructura de las correlaciones es débil, se pueden realizar
análisis univariados de ANOVA para cada una de las respuestas.
Se puede utilizar el análisis de valores característicos o Eigenvalores, para
evaluar como difieren los promedios de las respuestas entre los niveles de los
diferentes términos del modelo. El análisis de Eigenvalores es E-1 H donde E es
la matriz SCCP del error y H es la matriz SCCP de las variables de respuesta.
Estos son los eigenvalores utilizados para calcular las cuatro pruebas de
MANOVA.
Poner la mayor importancia en los eigenvectores que corresponden a valores
altos de eigenvalores. En el ejemplo, el segundo y tercer eigenvalores son
pequeños, no signiicativos. Para ambos factores, Extrusion y Additive, los
Pág. 32
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
primeros eigenvalores contienen información similar. Para Extrusion is 0.6541,
-0.3385, 0.0359 and for Additive it is -0.6630, -0.3214, -0.0684. El mayor valor
absoluto dentro de esos eigenvalores corresponde a la respuesta Tear, el
segundo a Gloss y el valor para Opacity es pequeño. Esto implica que Tear
tiene la mayor diferencia entre los dos niveles de los factores ya sea Extrusion
o Additive, el Gloss tiene las siguientes mayores diferencias y op.citp. tiene solo
pequeñas diferencias.
Para un análisis más general utilizar General MANOVA con diseños
balanceados y no balanceados, incluso si se tienen covariados.
1
Seleccionar Stat > ANOVA > General MANOVA.
2
En Responses, seleccionar hasta 50 columnas numéricas conteniendo las
variables de respuesta.
3
En Model, introducir los términos del modelo que se quiera ajustar.
4. Click OK.
Pág. 33
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
5. ANÁLISIS DE COVARIANZA
Pág. 34
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
5. ANÁLISIS DE COVARIANZA
Definición: Es un método estadístico que analiza la relación entre una variable
dependiente y dos o más independientes, con el que se elimina o controla el
efecto de al menos una de estas independientes. Similar al ANOVA, excepto
que permite controlar la influencia de una variable independiente, la cual con
frecuencia es una característica antecedente que puede variar entre los grupos
(Mertens, 2005) o influir los resultados y afectar la claridad de las
interpretaciones.
Perspectivas o usos: Wildt y Ahtola (1978, pp. 8-9) destacan tres perspectivas
para el análisis de covarianza:
A. Perspectiva experimental. Se aplica a aquellas situaciones en que el interés
del investigador se centra en las diferencias observadas en la variable
dependiente, por medio de las categorías de la variable independiente (o
variables independientes). Pero el experimentador asume que hay otras
variables independientes cuantitativas que contaminan la relación y cuya
influencia debe ser controlada.
Pág. 35
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
Y el investigador únicamente se interesa por conocer la relación entre las
variables independientes categóricas y la variable dependiente. Desea al
mismo tiempo remover y controlar el efecto de las variables independientes
cuantitativas no categóricas (continuas). Es decir, desea tener un esquema
como el de la figura
El objetivo es “purificar la relación entre las independientes categóricas y la
Variable dependiente, mediante el control del efecto de las independientes no
categóricas o continuas”.
Ejemplos de variables independientes categóricas serían: género (masculino,
femenino), inteligencia (alta, media, baja), ingreso (menos de un salario
mínimo, dos a cuatro salarios mínimos, cinco a 10 salarios mínimos, 11 o más
salarios mínimos).
Los niveles de medición nominal y ordinal son categóricos en sí mismos,
mientras que los niveles de intervalos y razón deben transformarse en
categorías más discretas. Estos últimos son en sí: cuantitativos, continuos y de
categorías múltiples. Por ejemplo, el ingreso en su “estado natural”
(ponderacións, dólares, euros, etc.) varía de la categoría cero hasta la
categoría (K)k, ya que puede haber millones de categorías.
Pág. 36
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
Variable categórica — unas cuantas categorías o un rango medio.
Variable continua — muchas categorías (a veces una infinidad).
A dichas variables independientes cuantitativas continuas, cuya influencia se
controla, se les denomina “covariables”. Una covariable se incluye en el análisis
para remover su efecto sobre la variable dependiente, e incrementar el
conocimiento de la relación entre las variables independientes categóricas de
interés y la dependiente, lo cual aumenta la precisión del análisis.
En esta perspectiva, el análisis de covarianza puede ser concebido primero
como un ajuste en la variable dependiente respecto a diferencias en la
covariable o las covariables y, posteriormente, como una evaluación de la
relación entre las variables independientes categóricas y los valores ajustados
de la variable dependiente (Wildt y Ahtola, 1978). En términos de Creswell
(2005):
El procedimiento “ajusta” las puntuaciones en la dependiente para dar cuenta
por la covarianza (por decirlo en términos sencillos: “hace equivalentes a los
grupos en la(s) covariable(s)” y controla influencias potenciales que pueden
afectar a la variable dependiente).
B. Perspectiva de interés por la covariable. Esta perspectiva se ejemplifica con
aquellas instancias en las cuales el interés principal se centra en analizar la
relación entre la variable dependiente y la covariable (variable cuantitativa
continua) o las covariables. Aquí el enfoque es distinto; la influencia que se
remueve es la de las variables independientes categóricas. Primero se controla
el efecto (en este caso contaminante) de estas variables y después se analiza
el efecto “purificado” de las covariables.
C. Perspectiva de regresión. En esta tercera perspectiva, tanto las variables
independientes categóricas como las covariables resultan de interés para el
investigador, quien puede desear examinar el efecto de cada variable
Pág. 37
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
independiente (covariables y no covariables, todas) y después ajustar o corregir
los efectos de las demás variables independientes.
En cualquier caso, el análisis de covarianza elimina influencias no deseadas
sobre la variable dependiente. Se puede utilizar en contextos experimentales y
no experimentales. La mayoría de las veces la función del ANCOVA es
“remover” la varianza compartida entre una o más covariables y la dependiente,
de este modo, se valora en su justa dimensión la relación causal entre la(s)
variable(s) independiente(s) de interés y la dependiente (Creswell, 2005).
Veámoslo conceptualmente pero de forma gráfica con un ejemplo simple:
Ejemplo:
Estudio: Al investigador le interesa analizar el efecto en el aprendizaje de la
computación, por medio un nuevo método para su enseñanza a niños. La
hipótesis es: El nuevo método de enseñanza de la computación (MA-RH)
provocará un mayor aprendizaje en los niños que un método tradicional.
Entonces, implementa el siguiente experimento: A un grupo de infantes los
expone al nuevo método de enseñanza de computación (MA-RHS); a otro
grupo no lo expone al nuevo método, éste aprende con el método tradicional;
finalmente, a un tercer grupo, de control, no recibe ningún tipo de enseñanza
en computación.
La variable independiente es el tipo de método con tres categorías o niveles
(método nuevo, método tradicional y ausencia de método), la dependiente es el
aprendizaje en computación (medida por una prueba estandarizada a nivel de
intervalos). Se tiene un esquema como el de la figura.
Pág. 38
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
Con el experimento el investigador desea conocer la varianza en común entre
método y aprendizaje (cuantificarla), la relación XY (pura). Si los niños son
asignados al azar a los grupos del experimento y tiene grupos de tamaño
aceptable, por el diseño mismo, remueve la influencia de las covariables que
pudieran afectar. Pero si no es factible hacerlo y tiene un diseño
cuasiexperimental (grupos intactos), debe remover tal influencia con el análisis
de covarianza (eliminar al mínimo posible la varianza del aprendizaje no
explicada), para evitar que las covariables impidan ver con claridad la relación
XY. Por ejemplo, el nivel educativo tecnológico de los padres puede influir
(hace variar al aprendizaje) y este efecto debe ser controlado, al introducirlo
como covariable.
Pág. 39
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
Lo que el investigador desea también se puede expresar gráficamente así:
Wildt y Ahtola (1978, p. 13) definen algunos usos del análisis de covarianza:
1. Incrementar la precisión en experimentos con asignación al azar.
Pág. 40
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
2. Eliminar influencias extrañas o contaminantes que pueden resultar cuando
las pruebas o los individuos no son asignados al azar a las diferentes
condiciones experimentales (grupos de un experimento).
3. Eliminar efectos de variables que confundan o distorsionen la interpretación
de resultados en estudios no experimentales.
Nivel de medición de las variables: La variable dependiente siempre está
medida por intervalos o razón y las variables independientes pueden estar
medidas en cualquier nivel.
Interpretación: Depende de cada caso específico, ya que el análisis de
covarianza efectuado mediante un programa estadístico computacional,
produce un cuadro de resultados muy parecido al del análisis de varianza. Los
elementos más comunes pueden obssevarse en la tabla ANOVA.
La razón F es, igual que en el análisis de varianza, una razón de varianzas. El
razonamiento estadístico es el mismo y F se interpreta igual, incluso se utiliza
el mismo cuadro de la distribución F. Solamente que las inferencias y
conclusiones se hacen al considerar que las medias de la variable
dependiente, a través de las categorías de las variables independientes, se han
ajustado, de este modo eliminan el efecto de la covariable o covariables.
Ejemplo:
Diseño de investigación que utiliza el análisis de covarianza
Hi: Los trabajadores que reciban retroalimentación verbal sobre el desempeño
de parte de su supervisor mantendrán un nivel mayor de productividad que los
trabajadores que reciban retroalimentación sobre el desempeño por escrito,
más aún que los trabajadores que no reciban ningún tipo de retroalimentación.
__
__
Hi: X1 > X2 >
__
X3
(verbal) (por escrito) (ausencia)
Pág. 41
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
El investigador plantea un diseño experimental para intentar probar su
hipótesis. Sin embargo, no puede asignar aleatoriamente a los trabajadores a
los tres grupos del experimento. El diseño sería con grupos intactos
(cuasiexperimental) y se esquematizaría así:
Asimismo, el investigador presupone que hay un factor que puede
contaminar los resultados (actuar como fuente de invalidación interna): la
motivación. Diferencias iniciales en motivación pueden invalidar el estudio.
Como la asignación al azar está ausente, no se sabe si los resultados se ven
influidos por dicho factor. Entonces, el experimentador decide eliminar o
controlar el efecto de la motivación sobre la productividad para conocer los
efectos de la variable independiente: tipo de retroalimentación. La motivación
se convierte en covariable.
El esquema es el que se muestra en la figura
Pág. 42
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
Cabe destacar que, para introducir una covariable en el análisis, de preferencia
debe medirse antes del inicio del experimento.
El análisis de covarianza “quita” a la variabilidad de la dependiente lo que se
debe a la covariable. Ajusta la varianza de la variable dependiente en las
categorías de la independiente, al basarse en la covariable. En el ejemplo,
ajusta la varianza de la productividad debida a la motivación, en las categorías
experimentales (tratamientos o grupos). El ajuste se realiza sobre la base de la
correlación
entre
la
covariable
y
la
dependiente.
Esto
se
muestra
esquemáticamente en la tabla.
Una vez realizado el análisis de covarianza, se evalúa si F es o no significativa.
Cuando F resulta significativa se acepta la hipótesis de investigación.
Si el resultado fuera:
G1 = 35
G2 = 36
La correlación entre la calificación en motivación y las puntuaciones en
productividad es la base para el ajuste.
G3 = 38
Gl entre = K – 1 = 3 – 1 = 2
Gl intra = N – K = 107
F = 1.70
Comparamos con el valor de la tabla respectiva: en el nivel de 0.05 es igual a
3.07, y nuestra razón F a 1.70 es menor a este valor. Por lo tanto, rechazamos
la hipótesis de investigación y aceptamos la hipótesis nula. Esto se contrasta y
profundiza con las medias ajustadas de los grupos que proporcione el análisis
de covarianza (no las medias obtenidas en el experimento por cada grupo, sino
las ajustadas con base en la covariable).
Pág. 43
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
Recordemos que SPSS nos proporciona automáticamente la significancia de F.
Ejemplo:
Determinar si hay diferencia en la resistencia de una fibra monofilamento
producida por tres máquinas diferentes. El diámetro de la fibra parece tener
influencia en la resistencia como se muestra abajo (covariado de Y).
Datos de resistencia - Y es la respuesta, X es el covariado.
Y
36
41
39
42
49
40
48
39
45
44
35
37
42
34
32
X
20
25
24
25
32
22
28
22
30
28
21
23
26
21
15
Maq
1
1
1
1
1
2
2
2
2
2
3
3
3
3
3
La relación entre X y Y es significativa como se observa en la siguiente gráfica:
En Minitab:
1. Stat > Regresión > Fitted line plot
2. Introducir Y y X, seleccionar Linear
3. OK
Pág. 44
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
Fitted Line Plot
Y = 14.14 + 1.080 X
50
S
R-Sq
R-Sq(adj)
1.78174
88.1%
87.2%
Y
45
40
35
30
15.0
17.5
20.0
22.5
25.0
27.5
30.0
32.5
X
Para el ANOVA con Covariados, las instrucciones de Minitab son las
siguientes:
1. Stat > ANOVA > General Linear Model
2. Introducir en Response Y, en Model X y Maquina
3. En Covariates X
4. En Results en Display Least Square Means corresponding to the terms Maq
5. En Graphs seleccionar Normal plot for residuals
6. OK
Los resultados se muestran a continuación:
General Linear Model: Y versus Maq
Factor
Maq
Type
fixed
Levels
3
Values
1, 2, 3
Analysis of Variance for Y, using Adjusted SS for Tests
Source
X
Maq
Error
Total
DF
1
2
11
14
S = 1.59505
Seq SS
305.13
13.28
27.99
346.40
Adj SS
178.01
13.28
27.99
R-Sq = 91.92%
Adj MS
178.01
6.64
2.54
F
69.97
2.61
P
0.000
0.118
R-Sq(adj) = 89.72%
Pág. 45
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
Term
Constant
X
Coef
17.177
0.9540
SE Coef
2.783
0.1140
T
6.17
8.36
P. REYES / DIC. 2006
P
0.000
0.000
Unusual Observations for Y
Obs
7
Y
48.0000
Fit
45.1080
SE Fit
0.7489
Residual
2.8920
St Resid
2.05 R
R denotes an observation with a large standardized residual.
Means for Covariates
Covariate
X
Mean
24.13
StDev
4.324
Least Squares Means for Y
Maq
1
2
3
Mean
40.38
41.42
38.80
SE Mean
0.7236
0.7444
0.7879
Conclusión:
Se observa que no hay diferencia en las máquinas una vez que eliminamos la
variabilidad introducida por el diámetro de la fibra, en caso de no haber tomado
en cuenta la covarianza del diámetro en la resistencia, se hubiese concluido al
revés, que si hay diferencia en las máquinas, como se muestra a continuación:
Con Minitab:
1. Stat > ANOVA > One way
2. Response Y Factor Maquina
3. OK
Los resultados son los siguientes:
One-way ANOVA: Y versus Maq
Source
Maq
Error
Total
DF
2
12
14
S = 4.143
SS
140.4
206.0
346.4
MS
70.2
17.2
R-Sq = 40.53%
F
4.09
P
0.044
R-Sq(adj) = 30.62%
Individual 95% CIs For Mean Based on Pooled
Pág. 46
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
Level
1
2
3
N
5
5
5
Mean
41.400
43.200
36.000
StDev
4.827
3.701
3.808
P. REYES / DIC. 2006
StDev
+---------+---------+---------+--------(---------*----------)
(---------*---------)
(---------*---------)
+---------+---------+---------+--------32.0
36.0
40.0
44.0
Pooled StDev = 4.143
Conclusión: Como P value es menor a 0.05 aparentemente si hay diferencia
entre máquinas.
Pág. 47
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
6. ANÁLISIS DISCRIMINANTE MÚLTIPLE Y
REGRESIÓN LOGÍSTICA
Pág. 48
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
6. ANÁLISIS DISCRIMINANTE MÚLTIPLE Y REGRESIÓN
LOGÍSTICA
El análisis discriminante, se aplica cuando las variables independientes son
medidas por intervalos o razón, y la dependiente es categórica. Tal análisis
sirve para predecir la pertenencia de un caso a una de las categorías de la
variable dependiente, sobre la base de varias independientes (dos o más). Se
utiliza una ecuación de regresión llamada función discriminante. Por ejemplo, si
queremos predecir el voto obtenido por dos partidos contendientes (variable
dependiente nominal con dos categorías) sobre la base de cuatro variables
independientes, aplicaremos el análisis discriminante, para resolver una
ecuación de regresión; así se obtienen las predicciones individuales. En el
ejemplo, hay dos categorías (votar por A o votar por B); por tanto, los valores a
predecir son 0 y 1 (A y B, respectivamente). Si el sujeto obtiene una puntuación
más cercana a cero, se predice que pertenece al grupo que votará por A; si
logra una puntuación más cercana a 1, se predice que pertenece al grupo que
votará por B. Además, se consigue una medida del grado de discriminación del
modelo.
Usar el Análisis Discrimínate para clasificar observaciones en dos grupos
(Análisis discriminante) o más grupos (Análisis discriminante múltiple – MDA) si
se tiene una muestra con grupos conocidos. Se puede utilizar también para
investigar como contribuyen las variables a la separación de grupos. La
regresión logística o Logit Analysis se limita a dos grupos. Para el caso de
clasificar las observaciones nuevas en una de dos categorías, la regresión
logística puede ser superior al análisis discriminante.
Se pueden hacer análisis discriminantes lineales y cuadráticos. Los lineales
asumen que todos los grupos tienen la misma matriz de covarianza, los
cuadráticos no hacen este supuesto y no son bien comprendidos.
Pág. 49
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
Ejemplo:
Para regular la pesca de salmón, se desea identificar si el pescado es originario
de Alaska o de Canadá. Cincuenta peces de cada lugar de origen fueron
capturados y pesados cuando vivían en agua dulce y cuando vivieron en agua
salada. El objetivo es el de poder identificar si los nuevos pescados vienen de
criaderos en Alaska o Canadá. Los datos se muestran a continuación:
SalmonOrigin Freshwater
Alaska
108
Alaska
131
Alaska
105
Alaska
86
Alaska
99
Alaska
87
Alaska
94
Alaska
117
Alaska
79
Alaska
99
Alaska
114
Alaska
123
Alaska
123
Alaska
109
Alaska
112
Alaska
104
Alaska
111
Alaska
126
Alaska
105
Alaska
119
Alaska
114
Alaska
100
Alaska
84
Alaska
102
Alaska
101
Alaska
85
Alaska
109
Alaska
106
Alaska
82
Alaska
118
Alaska
105
Alaska
121
Alaska
85
Alaska
83
Alaska
53
Alaska
95
Alaska
76
Alaska
95
Alaska
87
Alaska
70
Marine
368
355
469
506
402
423
440
489
432
403
428
372
372
420
394
407
422
423
434
474
396
470
399
429
469
444
397
442
431
381
388
403
451
453
427
411
442
426
402
397
SalmonOrigin Freshwater
Canada
129
Canada
148
Canada
179
Canada
152
Canada
166
Canada
124
Canada
156
Canada
131
Canada
140
Canada
144
Canada
149
Canada
108
Canada
135
Canada
170
Canada
152
Canada
153
Canada
152
Canada
136
Canada
122
Canada
148
Canada
90
Canada
145
Canada
123
Canada
145
Canada
115
Canada
134
Canada
117
Canada
126
Canada
118
Canada
120
Canada
153
Canada
150
Canada
154
Canada
155
Canada
109
Canada
117
Canada
128
Canada
144
Canada
163
Canada
145
Pág. 50
Marine
420
371
407
381
377
389
419
345
362
345
393
330
355
386
301
397
301
438
306
383
385
337
364
376
354
383
355
345
379
369
403
354
390
349
325
344
400
403
370
355
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
Alaska
Alaska
Alaska
Alaska
Alaska
Alaska
Alaska
Alaska
Alaska
Alaska
84
91
74
101
80
95
92
99
94
87
511
469
451
474
398
433
404
481
491
480
P. REYES / DIC. 2006
Canada
Canada
Canada
Canada
Canada
Canada
Canada
Canada
Canada
Canada
133
128
123
144
140
150
124
125
153
108
375
383
349
373
388
339
341
346
352
339
Las intrucciones de Minitab son las siguientes:
1
Abrir la worksheet EXH_MVAR.MTW.
2
Stat > Multivariate > Discriminant Analysis.
3
En Groups, poner SalmonOrigin.
4
En Predictors, poner Freshwater Marine. Click OK.
Los resultados obtenidos se muestran a continuación:
Discriminant Analysis: SalmonOrigin versus Freshwater, Marine
Linear Method for Response: SalmonOrigin
Predictors: Freshwater, Marine
Group
Count
Alaska
50
Canada
50
Summary of classification
True Group
Alaska Canada
44
1
6
49
50
50
44
49
0.880
0.980
Put into Group
Alaska
Canada
Total N
N correct
Proportion
N = 100
N Correct = 93
Proportion Correct = 0.930
Squared Distance Between Groups
Alaska
Canada
Alaska
0.00000
8.29187
Canada
8.29187
0.00000
Linear Discriminant Function for Groups
Alaska Canada
Constant
-100.68 -95.14
Freshwater
0.37
0.50
Marine
0.38
0.33
Summary of Misclassified Observations
Observation
True Group
Pred Group
Group
Pág. 51
Squared
Distance
Probability
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
1**
Alaska
Canada
2**
Alaska
Canada
12**
Alaska
Canada
13**
Alaska
Canada
30**
Alaska
Canada
32**
Alaska
Canada
71**
Canada
Alaska
Alaska
Canada
Alaska
Canada
Alaska
Canada
Alaska
Canada
Alaska
Canada
Alaska
Canada
Alaska
Canada
P. REYES / DIC. 2006
3.544
2.960
8.1131
0.2729
4.7470
0.7270
4.7470
0.7270
3.230
1.429
2.271
1.985
2.045
7.849
0.428
0.572
0.019
0.981
0.118
0.882
0.118
0.882
0.289
0.711
0.464
0.536
0.948
0.052
Interpretando los resultados
El Análisis Discriminante identificó correctamente 93 de los 100 peces, a pesar
de que la probabilidad de clasificar correctamente un pez de Alaska fue menor
(44/50 o 88%) que la probabilidad de clasificar correctamente un pez de
Canadá (49/50 o 98%). Para identificar el origen de un pez recientemente
capturado depende de cual valor discriminante sea mayor. Se puede correr el
análisis discriminante de nuevo y predecir a que grupo pertenecen las nuevas
observaciones.
El resumen de las observaciones mal clasificadas muestra la distancia al
cuadrado desde el punto mal clasificado a los centroides del grupo (vectores
medios) y las probabilidades posteriores. Las observaciones son asignadas al
grupo con la mayor probabilidad posterior.
Si en Options introducimos en Predict membership for: 100 130, la
clasificación aparece como:
Prediction for Test Observations
Observation
1
Pred Group
Canada
From Group
Alaska
Canada
Squared
Distance
Probability
78.448
55.194
0.000
1.000
Pág. 52
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
El análisis discriminante involucra establecer una “Variable (Variate)”,
combinación lineal de dos o más variables independientes que discriminarán
mejor entre grupos definidos a priori.
Se logra al poner los pesos de la
“variable” para cada variable de modo de maximizar la varianza entre grupos
respecto a la varianza dentro de los grupos. La ecuación de la función
discriminante toma la forma de:
Z jk  a W 1X1k W 2X 2k  ....W nX nk
Donde:
Zjk = Valor Z discriminante de la función discriminante J para el objeto K.
a = Intersección en eje Y
Wi = Peso discriminante para la variable independiente i.
Xik = Variable independiente i para el objeto k.
La media de un grupo se denomina Centroide, que indica la localización típica
de cualquier individuo dentro de un grupo en particular y una comparación de
las centroides de los grupos muestra que tan alejados se encuentran en
relación a la dimensión considerada.
A
B
A
B
Representación univariada de los valores Z de la función discriminante
Las áreas sombreadas son la probabilidad de clasificar erróneamente los objetos entre A y B
Ejemplo con HATCO:
Paso 1: Objetivos del análisis discriminante
Identificar las percepciones de HATCO que difieren significativamente entre
empresas que utilizan los métodos de compra: valor total de compra incluyendo
productos y servicios comprados y compra especificada donde se indican las
características deseadas del producto y del servicio.
Pág. 53
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
Paso 2. Diseño de la investigación para el análisis discriminante
La variable dependiente es categórica con dos grupos, las variables
independientes son X1 a X7 y X11 con los métodos de compra de las
empresas.
Las muestra es de 100 observaciones que supera el mínimo de muestras a
variables de 5 a 1, siendo de 10.
Se toma una muestra de 40 observaciones para validar el modelo y se utilizan
60 observaciones para la estimación.
Paso 3. Supuestos de la función discriminante
En la formación de la Variate debe haber normalidad, linealidad, y
multicolinealidad y la estimación de la función discriminante (matrices de
varianza y covarianza similares). Una prueba de igualdad de covarianza o
matrices de dispersión es la prueba M de Box.
Paso 4. Estimación del modelo discriminante y evaluación de ajuste
Instrucciones en Minitab:
1.
Stat > Multivariate > Discriminant Analysis.
2.
En Groups, poner X11.
3
En Predictors, poner X1 – X7.
4. Click OK.
Los resultados se muestran a continuación:
Discriminant Analysis: X11 versus X1, X2, X3, X4, X5, X6, X7
Linear Method for Response: X11
Predictors: X1, X2, X3, X4, X5, X6, X7
Group
0
1
Count
25
35
Summary of classification
True Group
Put into Group
0
1
0
24
2
1
1
33
Pág. 54
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
Total N
N correct
Proportion
N = 60
P. REYES / DIC. 2006
25
35
24
33
0.960 0.943
N Correct = 57
Proportion Correct = 0.950
Squared Distance Between Groups
0
1
0
0.0000 10.9857
1 10.9857
0.0000
Linear Discriminant Function for Groups
0
1
Constant -55.092 -67.574
X1
12.813
16.539
X2
12.313
14.638
X3
7.780
10.158
X4
3.320
3.639
X5
-21.933 -26.874
X6
-2.326
-2.159
X7
4.389
2.657
Summary of Misclassified Observations
Observation
13**
True
Group
0
Pred
Group
1
17**
1
0
56**
1
0
Squared
Distance
6.238
6.032
7.893
15.673
4.753
8.078
Group
0
1
0
1
0
1
Probability
0.474
0.526
0.980
0.020
0.841
0.159
Por medio de SPSS
1. Analize > Clasify > Discriminant
2. Grouping variable X11 (0:1) Independent variables X1 – X7
3. Statistics Univariate ANOVAs Box’s M
4. OK
Los resultados se muestran a continuación
Tests of Equality of Group Means
X1
Wilks'
Lambda
.614
F
36.526
X2
.716
X3
X4
df1
1
df2
58
Sig.
.000
22.953
1
58
.000
.467
66.302
1
58
.000
.997
.145
1
58
.704
X5
.993
.414
1
58
.523
X6
.991
.522
1
58
.473
X7
.528
51.951
1
58
.000
Como se puede observar son significativos X1, X2, X3 y X7.
La función discriminante es la siguiente:
Standardized Canonical Discriminant Function Coefficients
Function
Pág. 55
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
1
X1
1.152
X2
.749
X3
.668
X4
.111
X5
-1.153
X6
.042
X7
-.626
La matriz estructural es la siguiente:
Structure Matrix
Function
1
X3
.643
X7
-.569
X1
.477
X2
-.379
X6
.057
X5
.051
X4
.030
Pooled within-groups correlations between discriminating variables and standardized canonical
discriminant functions Variables ordered by absolute size of correlation within function.
Medias de grupos (centroides) de las funciones canónicas discriminantes:
Functions at Group Centroids
Function
X11
.00
1
-1.933
1.00
1.381
Unstandardized canonical discriminant functions evaluated at group means
Z=0
N=24
N=33
Zo=-1.933
Z1=1.063
Gráfica de los centroides de grupos
Paso 5. Validación del modelo
Con los 40 datos restantes se repite la corrida y se observa que los resultados
concuerden:
Pág. 56
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
Tests of Equality of Group Means
Wilks'
Lambda
F
df1
df2
Sig.
X1
.546
31.628
1
38
.000
X2
.934
2.676
1
38
.110
X3
.789
10.185
1
38
.003
X4
.969
1.205
1
38
.279
X5
.798
9.611
1
38
.004
X6
.997
.105
1
38
.748
X7
.535
33.043
1
38
.000
Log Determinants
X11
.00
7
Log
Determinant
-9.872
7
-6.987
Rank
1.00
Pooled within-groups
7
-6.367
The ranks and natural logarithms of determinants printed are those of the group covariance matrices.
Test Results
Box's M
F
63.963
Approx.
1.776
df1
28
df2
3061.289
Sig.
.007
Tests null hypothesis of equal population covariance matrices.
Standardized Canonical Discriminant Function Coefficients
Function
1
X1
1.932
X2
1.525
X3
.294
X4
-.621
X5
-1.698
X6
.934
X7
-.783
Structure Matrix
Function
X7
1
-.644
X1
.630
X3
.358
X5
.347
X2
-.183
X4
-.123
X6
-.036
Pág. 57
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
Pooled within-groups correlations between discriminating variables and standardized canonical
discriminant functions Variables ordered by absolute size of correlation within function.
Functions at Group Centroids
Function
X11
.00
1
-1.822
1.00
1.093
Unstandardized canonical discriminant functions evaluated at group means
Prior Probabilities for Groups
X11
.00
1.00
Total
Cases Used in Analysis
Unweig hted
Weighted
15
15.000
25
25.000
40
40.000
Prior
.500
.500
1.000
Canonical Discriminant Function 1
Canonical Discriminant Function 1
X11 = 0
X11 = 1
5
5
4
4
3
3
2
2
1
1
Mean = 1.09
Std. Dev. = 1.142
N = 25
0
-2
-1
0
1
2
3
Mean = -1.82
Std. Dev. = 0.692
N = 15
0
-3.0
4
-2.5
-2.0
-1.5
-1.0
Classification Results(a)
Predicted Group
Membership
Original
Count
X11
.00
.00
1.00
Total
15
0
3
22
25
100.0
.0
100.0
12.0
88.0
a 92.5% of original grouped cases correctly classified.
100.0
1.00
%
.00
1.00
Pág. 58
15
-0.5
0.0
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
Regresión Logística
Una de las ventajas de la regresión logística versus el análisis discriminante es
que es menos afectada por las diferencias en varianzas / covarianzas entre los
grupos, que es una premisa del análisis discriminante. Otra ventaja es que la
regresión logística puede manejar variables independientes categóricas
fácilmente, mientras que en el análisis discriminante el uso de variables de
apoyo crea problemas con la igualdad de varianza / covarianza. Finalmente la
regresión logística es similar a la regresión múltiple en términos de su
interpretación e interpretación incluyendo los residuos.
Ejemplo:
You are a researcher who is interested in understanding the effect of smoking
and weight upon resting pulse rate. Because you have categorized the
response-pulse rateinto low and high, a binary logistic regression analysis is appropriate to
investigate the effects of smoking and weight upon pulse rate.
Se tiene interés en comprender el efecto de fumar y el peso sobre el pulso (alto
y bajo).
Los datos utilizados son los siguientes:
RestingPulse Smokes Weight RestingPulse Smokes Weight RestingPulse Smokes Weight
Low
Low
Low
Low
Low
Low
High
Low
Low
Low
High
Low
High
Low
Low
Low
Low
Low
Low
Low
Low
No
No
Yes
Yes
No
No
No
No
No
No
Yes
No
Yes
No
No
No
Yes
Yes
Yes
No
No
140
145
160
190
155
165
150
190
195
138
160
155
153
145
170
175
175
170
180
135
170
Low
Low
Low
Low
Low
Low
Low
Low
High
Low
Low
Low
Low
Low
Low
Low
High
Low
High
Low
High
No
Yes
Yes
No
No
No
Yes
No
Yes
No
No
No
Yes
Yes
Yes
No
No
No
Yes
Yes
No
Pág. 59
215
150
145
155
155
150
155
150
180
160
135
160
130
155
150
148
155
150
140
190
145
Low
Low
Low
Low
Low
High
Low
High
High
Low
Low
High
Low
Low
Low
Low
Low
Low
Low
High
Low
No
No
No
No
No
No
Yes
No
Yes
No
No
No
No
No
No
No
No
No
No
Yes
No
115
102
115
150
110
116
108
95
125
133
110
150
108
155
180
122
120
118
125
135
125
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
Low
Low
Low
High
Low
Low
High
High
Low
High
No
No
Yes
No
No
Yes
No
Yes
No
No
157
130
185
140
120
130
138
121
125
116
High
Low
Low
Low
High
Low
Low
High
Low
Low
P. REYES / DIC. 2006
Yes
Yes
No
No
No
No
No
No
No
No
150
164
140
142
136
123
155
130
120
130
High
High
Low
Low
Low
Low
Low
Low
High
No
Yes
Yes
No
No
No
Yes
No
Yes
Las instrucciones de Minitab para el ejemplo son:
1. Open worksheet EXH_REGR.MTW.
2. Seleccionar Stat > Regression > Binary Logistic Regression.
3. En Response, poner RestingPulse. En Model, poner Smokes Weight. En
Factors (optional), poner Smokes.
4. Click Graphs. Seleccionar Delta chi-square vs probability and Delta chisquare vs leverage. Click OK.
5. Click Results. Seleccionar In addition, list of factor level values, tests for
terms with more than 1 degree of freedom, and 2 additional goodness-of-fit
tests.
Click OK en cada cuadro de diálogo.
Los resultados se muestran a continuación:
Results for: Exh_regr.MTW
Binary Logistic Regression: RestingPulse versus Smokes, Weight
Link Function:
Logit
Observaciones que caen dentro de cada categoría
Response Information
RestingP
Variable
Low
High
Total
70
22
92
Value
(Event)
Count
-> Evento de referencia
Factor Information
Factor
Levels Values
Smokes
2 No Yes
Logistic Regression Table
Predictor
Constant
Smokes
Coef
-1.987
SE Coef
1.679
Z
P
-1.18 0.237
Pág. 60
Odds
Ratio
95% CI
Lower
Upper
118
150
112
125
190
155
170
145
131
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
Yes
Weight
-1.1930
0.02502
0.5530
0.01226
P. REYES / DIC. 2006
-2.16 0.031
2.04 0.041
0.30
1.03
0.10
1.00
0.90
1.05
Por ser su P value menor a 0.05 son significativos Smoke y Weight
El coeficiente de -1.93 para Smoke representa el cambio estimado en el log de
P(low pulse)/P(high pulse) cuando el sujeto fuma comparado a cuando no
fuma, con el covariado Weigh (peso) mantenido constante.
El coeficiente de 0.0250 para Weight (peso) es el cambio estimado en el log de
P(low pulse)/P(high pulse) con una unidad (lb.) de incremento en peso con el
factor Fumar constante.
A pesar de que hay evidencia de el parámetro de peso Weight no es cero, la
tasa de exceso es muy cercana a uno (1.03), indicando que un incremento de
peso de una libra tiene un efecto menor en la tasa de pulso en reposo de la
persona. Una diferencia más significativa se puede encontrar si se comparan
sujetos con una diferencia de peso mayor, por ejemplo 10 libras, la tasa cambia
a 1.28 (1.03 + 0.025*10), indicando que el puso de un sujeto con pulso bajo se
incrementa 1.28 veces con cada 10 libras de incremento de peso.
Para Smokes, el coeficiente negativo de -1.93 y la tasa de exceso de 0.30
indica que los sujetos que fuman tienden a tener una mayor tasa de pulso en
reposo (resting pulse rate) que los sujetos que no fuman. Dados sujetos con el
mismo peso, la tasa de exceso puede ser interpretada como el exceso de
fumadores en la misma muestra teineido un pulso bajo (low pulse) de 30% de
los no fumadores teniendo un pulso bajo (low pulse).
Log-Likelihood = -46.820
Test that all slopes are zero: G = 7.574, DF = 2, P-Value = 0.023
El estadístico G prueba la hipótesis nula de que los coeficientes asociados con
los predoctores son iguales a cero versus que esos coeficientes no todos son
cero. En es ejemplo con G = 7.574 y P value = 0.023, indican que hay
suficiente evidencia que al menos uno de los coeficientes es diferente de cero.
Goodness-of-Fit Tests
Method
Chi-Square
Pearson
40.848
Deviance
51.201
Hosmer-Lemeshow
4.745
Brown:
General Alternative
0.905
Symmetric Alternative
0.463
DF
47
47
8
P
0.724
0.312
0.784
2
1
0.636
0.496
Estas pruebas de bondad de ajuste con P values de 0.312 a 0.724 indican que
no hay evidencia suficiente que indique que el modelo no ajuste a los datos
adecuadamente, considerando un nivel de significancia de 0.05.
Table of Observed and Expected Frequencies:
(See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic)
Value
Low
1
2
3
4
5
Group
6
Pág. 61
7
8
9
10
Total
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
Obs
Exp
High
Obs
Exp
Total
P. REYES / DIC. 2006
4
4.4
6
6.4
6
6.3
8
6.6
8
6.9
6
7.2
8
8.3
12
12.9
10
9.1
2
1.9
70
5
4.6
4
3.6
3
2.7
1
2.4
1
2.1
3
1.8
2
1.7
3
2.1
0
0.9
0
0.1
22
9
9
9
9
2
92
9
10
10
15
10
Esta tabla permit ever que tan bien ajusta el modelo a los datos, comparando
las frecuencias observadas y las frecuencias esperadas, siendo similares indica
que no hay evidencia suficiente de que los datos no ajusten bien al modelo,
soportado por las pruebas de bondad de ajuste para un nivel de significancia
de 0.05.
Measures of Association:
(Between the Response Variable and Predicted Probabilities)
Pairs
Concordant
Discordant
Ties
Total
Number
1045
461
34
1540
Percent
67.9%
29.9%
2.2%
100.0%
Summary Measures
Somers' D
Goodman-Kruskal Gamma
Kendall's Tau-a
0.38
0.39
0.14
Esta tabla muestra 1540 pares (70 individuos con un low pulse y 22 con high
pulse resultando en 70*22 = 1540) con valores de respuesta diferentes. Con
base en el modelo un par es concordante si el individuo con una tasa de pulso
baja (low pulse rate) tiene una más alta probabilidad de tener pulso bajo,
discrepante de si sucede lo contrario, y empate si las probabilidades son
iguales. En este ejemplo el 67.9% de los pares son concordantes y 29% son
discrepantes. Se pueden usar estos valores como una medición comparativa
de predicción, por ejemplo para comparar ajustes con diferentes conjuntos de
predictores o con funciones diferentes de enlace.
Se muestran resumenes de pares concordantes y discrepantes de Somers,
Goodman-Kriskal Gamma, y Tau de Kendall. Las métricas se encuentran entre
0 y 1 donde los valores mayores indican que el modelo tiene una mejor
habilidad predictiva. En este ejemplo el rango va de 0.14 a 0.39 que implica
una baja capacidad predictiva.
Pág. 62
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
Delta Chi-Square versus Probability
Delta Chi-Square
5
4
3
2
1
0
0.4
0.5
0.6
0.7
0.8
0.9
1.0
Probability
Delta Chi-Square versus Leverage
Delta Chi-Square
5
4
3
2
1
0
0.01
0.06
0.11
0.16
Leverage
Las gráficas del ejemplo de Chi cuadrada versus probabilidad y versus
apalancamiento muestran que hay dos puntos que se desvían más allá del
límite sugerido de 3.84, indicando situaciones anormales que deben ser
investigadas.
Con la opción Editor > Brush se puede observar que corresponden a los
valores de datos 31 y 66, correspondientes a individuos con un pulso alto, que
no fuman, y que tienen pesos menores al promedio (116 y 136 libras).
Pág. 63
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
Ejemplo con datos de Hatco
El ejemplo siguiente utiliza las mismas variables que el análisis discriminante
anterior para estimar el modelo.
Utilizando los datos de HATCO, la muestra de 100 clientes se divide en dos
grupos, uno de 60 para análisis y otro de 40 para validación. La regresión
logística es más robusta ante el supuesto de igualdad de varianza covarianza.
Para el ejemplo se utilizan las 7 variables X1 a X7 teniendo como respuesta a
X11.
Pág. 64
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
7. Análisis de Conglomerados
Pág. 65
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
7. ANÁLISIS DE CONGLOMERADOS
Se cuenta también con el análisis de conglomerados o clusters (técnica para
agrupar los casos o elementos de una muestra en grupos con base en una o
más variables).
Usar Análisis de componentes principales para ayudar a comprender la
estructura de datos y/o a formar un pequeño número de variables no
correlacionadas (por ejemplo para evitar multicolinealidad en la regresión).
El análisis de conglomerados agrupa individuos u objetos dentro de
conglomerados (“Clusters”) de modo que los objetos en el mismo grupo tienen
características más similares que las que tienen versus otros grupos.
El
“Cluster
Variate” es
características
utilizadas
el
conjunto
para
de
comparar
variables
objetos
representando
en
el
análisis
las
de
conglomerados. Es decir determina el “carácter de los objetos”. Es la única
técnica multivariada que no estima la “variate” empíricamente sino que se
especifica por el investigador.
“Variate” es la combinación lineal de variables formadas en la técnica
multivariada al determinar empíricamente ponderaciones aplicadas al conjunto
de variables especificadas por el investigador.
El análisis de conglomerados también se ha denominado Análisis Q,
Construcción de tipología, Análisis de clasificación, y taxonomía numérica. Esto
debido al uso de estas técnicas en diversas áreas como la sicología, biología,
sociología, economía, ingeniería, y los negocios. El análisis de conglomerados
es parecido al análisis factorial en su propósito de evaluar la estructura. Pero el
análisis de conglomerados difiere del análisis factorial en que agrupa objetos,
mientras que el análisis factorial se enfoca principalmente a agrupar variables.
El análisis de conglomerados puede hacer reducciones de datos colectados de
cuestionarios en una población, a información relacionada con pequeños
Pág. 66
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
subgrupos específicos. No tiene bases estadísticas sobre las que se puedan
realizar inferencias estadísticas de una muestra a una población, su uso es
principalmente como técnica exploratoria. Las soluciones no son únicas y se
pueden obtener diversas soluciones variando uno o más elementos del
procedimiento.
¿Cómo funciona el análisis de conglomerados?
Se ilustra con un ejemplo con datos divariados.
Suponer que un estudio de mercado trata de determinar segmentos de
mercado en base a los patrones de lealtad de marcas (V1) y tiendas (V2),
medidas del 0 al 10 en 7 personas (A-G).
Variables
V1
V2
A
3
2
B
4
5
C
4
7
D
2
7
E
6
6
F
7
7
G
6
4
Scatterplot of V2 vs V1
7
D
C
F
E
6
B
V2
5
G
4
3
A
2
2
3
4
5
6
7
V1
Para acomodar en grupos se necesita contestar:

¿Cómo se mide la similaridad?, se puede hacer por correlación o
proximidad en un espacio de dos dimensiones.

¿Cómo se forman los conglomerados?

¿Cuántos grupos se formarán?
Pág. 67
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
Ejemplo 1:
Para medir la similitud se evalúa con la distancia euclidiana (línea recta) entre
cada par de observaciones (ver Tabla), entendiendo que las distancias
pequeñas indican similaridad, E y F son las más similares (1.414) y la A y F las
más diferentes (6.403).
Observ.
A
B
C
D
E
F
G
Formamos
A
B
C
D
E
F
3.162
5.099
5.099
5.000
6.403
3.606
2.000
2.828
2.236
3.606
2.236
2.000
2.236
3.000
3.606
4.123
5.000
5.000
1.414
2.000
3.162
conglomerados
ahora
con
un
Procedimiento
G
jerárquico
moviéndose paso a paso para formar un rango completo de soluciones.
También se denomina Método Aglomerativo dado que los conglomerados se
forman con la combinación de conglomerados existentes.
Distancia
Mínima
entre
observaciones
Paso
Solución por
conglomerados
Par
observado
Miembros en el
conglomerado
1
Sol. inicial
1.414
E-F
A, B,C,D,E,F,G
A, B,C,D,E-F,G
Núm.
De
Congl.
7
6
2
2.000
E-G
A, B,C,D,E-F-G
5
2.192
3
2.000
C-D
A, B,C-D,E-F-G
4
2.144
4
2.000
B-C
A, B-C-D,E-F-G
3
2.234
5
2.236
B-E
A,B-C-D-E-F-G
2
2.896
6
3.162
A=B
A-B-C-D-E-F-G
1
3.420
Utilizando Minitab:
Stat > Multivariate Análisis > Cluster Observations
Distance Measured Euclidean Seleccionar Show Dendogram OK
Pág. 68
Dist. Prom.
Dentro
Cong.
0
1.414
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
Proceso de jerarquía de conglomerados
Similarity
50.61
67.08
83.54
100.00
A
B
C
D
Observations
E
F
G
Cluster Analysis of Observations: V1, V2
Euclidean Distance, Single Linkage
Amalgamation Steps
Step
1
2
3
4
5
6
Number
of
clusters
6
5
4
3
2
1
Similarity
level
77.9137
68.7652
68.7652
68.7652
65.0785
50.6135
Distance
level
1.41421
2.00000
2.00000
2.00000
2.23607
3.16228
Clusters
joined
5
6
5
7
3
4
2
3
2
5
1
2
New
cluster
5
5
3
2
2
1
Number
of obs.
in new
cluster
2
3
2
3
6
7
Final Partition
Number of clusters: 1
Cluster1
Number of
observations
7
Within
cluster
sum of
squares
41.4286
Average
distance
from
centroid
2.23187
Maximum
distance
from
centroid
3.77154
Ejemplo 2:
Se registran las siguientes características para 14 censos: Población total
(Pop), mediana de años escolares (School), empleo total (Employ),empleo en
servicios de salud (Health), y valor mediano del valor de la casa (Home). Los
datos se muestran a continuación:
Pop
5.935
1.523
2.599
4.009
4.687
School
14.2
13.1
12.7
15.2
14.7
Employ
2.265
0.597
1.237
1.649
2.312
Health
2.27
0.75
1.11
0.81
2.5
Pág. 69
Home
2.91
2.62
1.72
3.02
2.22
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
8.044
2.766
6.538
6.451
3.314
3.777
1.53
2.768
6.585
15.6
13.3
17
12.9
12.2
13
13.8
13.6
14.9
3.641
1.244
2.618
3.147
1.606
2.119
0.798
1.336
2.763
P. REYES / DIC. 2006
4.51
1.03
2.39
5.52
2.18
2.83
0.84
1.75
1.91
2.36
1.97
1.85
2.01
1.82
1.8
4.25
2.64
3.17
Se realiza un análisis de components principales para comprender la estructura
de datos subyacente. Se usa la matriz de correlación para estandarizar las
mediciones dado que no se mide con la misma escala.
Las instrucciones de Minitab son las siguientes:
1
Abrir la worksheet EXH_MVAR.MTW.
2
Stat > Multivariate > Principal Components.
3
En Variables, Pop-Home.
4
En Type of Matrix, seleccionar Correlation.
5
Click Graphs y seleccionar Scree plot.
6
Click OK en cada cuadro de diálogo.
Los resultados se muestran a continuación:
Principal Component Analysis: Pop, School, Employ, Health, Home
Eigenanalysis of the Correlation Matrix
Eigenvalue
Proportion
Cumulative
Variable
Pop
School
Employ
Health
Home
3.0289
0.606
0.606
PC1
-0.558
-0.313
-0.568
-0.487
0.174
1.2911
0.258
0.864
PC2
-0.131
-0.629
-0.004
0.310
-0.701
0.5725
0.114
0.978
PC3
0.008
-0.549
0.117
0.455
0.691
0.0954
0.019
0.998
PC4
0.551
-0.453
0.268
-0.648
0.015
0.0121
0.002
1.000
PC5
-0.606
0.007
0.769
-0.201
0.014
Pág. 70
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
Scree Plot of Pop, ..., Home
3.0
Eigenvalue
2.5
2.0
1.5
1.0
0.5
0.0
1
2
3
Component Number
4
5
Interpretando los resultados
El primer componente principal tiene varianza (eigenvalor) 3.029 y acumula el
60.6% de la varianza total. Los coeficientes para el PC1 muestran como
calcular el nivel del componente principal.
PC1 = .558 Pop  .313 School  .568 Employ  .487 Health + .174 Home
Notar que la interpretación de los components principales es subjetiva, sin
embargo, frecuentemente surgen patrones obvios. Por ejemplo, se podría
pensar que el primer componente represente el efecto del tamaño de la
población total, el nivel de escolaridad, empleo y servicios de salud, dado que
los coeficientes de estos términos tienen el mismo signo y no son cercanos a
cero.
El segundo componente tiene varianza 1.2911 y acumula el 25.8% de la
variabilidad de los datos. Se calcula de los datos originales usando los
coeficientes listados en PC2. Este componente podría ser pensado como nivel
de contraste de escolaridad y valor de la casa con salud y empleo de alguna
manera.
Juntos el primero y segundo componentes representan el 86.4% y 97%,
respectivamente, de la variabilidad total. Así, la mayoría de la estructura de
datos puede ser capturada en dos o tres dimensiones relevantes. Los
componentes remanentes solo tienen una menor proporción de probabilidad y
Pág. 71
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
no son importantes. La gráfica Scree proporciona una visión gráfica de lo
anterior.
Ejemplo 3:
Con los datos de HATCO se utilizan las siete percepciones de clientes para
identificar segmentos de clientes.
Paso 1: Objetivos del análisis de conglomerados
El objetivo es segmentar objetos (clientes) en grupos con percepciones
similares (X1 a X7). Una vez identificados, se pueden aplicar diferentes
estrategias para para cada grupo.
X1 = Rapidez de entrega
X2 = Nivel de precio
X3 = Flexibilidad de precio
X4 = Imagen del fabricante
X5 = Servicio en general
X6 = Imagen de la fuerza de ventas
X7 = Calidad del producto
Paso 2. Diseño del análisis de conglomerados
Se identifica si no hay puntos aberrantes en los datos. Se selecciona la medida
de similaridad, en este caso la distancia euclidiana al cuadrado. Si se observa
multicolinealidad que afecte a las ponderaciones de las variables, entonces se
puede utilizar la distancia de Mahalanobis (D2). La estandarización de variables
no es importante dado que tienen valores parecidos.
Paso 3. Supuestos en el análisis de conglomerados
Para el análisis se considera que los datos de la muestra representan a la
población de clientes de HATCO. Queda pendiente el efecto de la
multicolinealidad en la ponderación implícita de los resultados.
Paso 4. Establecer conglomerados y evaluar el ajuste al modelo
Con Minitab:
1. Stat > Multivariate > Cluster observations
Pág. 72
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
2. Variables or distance matrix X1 – X7
3. Linkage
method
Ward
(minimize
la
distancia
dentro
conglomerados)
4. Distance Measure Squared Euclidean
5. Seleccionar Show Dendogram
6. Customize Label Y axis with Distances
7. OK
Los resultados se muestran a continuación:
Cluster Analysis of Observations: X1, X2, X3, X4, X5, X6, X7
Squared Euclidean Distance, Ward Linkage
Amalgamation Steps
Step
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
Number
of
clusters
99
98
97
96
95
94
93
92
91
90
89
88
87
86
85
84
83
82
81
80
79
78
77
76
75
74
73
72
71
70
69
68
67
66
65
64
63
62
61
60
59
58
57
56
55
Similarity
level
100.000
99.987
99.987
99.975
99.949
99.924
99.912
99.912
99.912
99.912
99.874
99.874
99.874
99.836
99.798
99.760
99.760
99.760
99.722
99.722
99.722
99.722
99.684
99.646
99.646
99.646
99.646
99.646
99.646
99.520
99.457
99.457
99.330
99.267
99.153
99.115
98.939
98.812
98.686
98.673
98.673
98.656
98.648
98.591
98.332
Distance
level
0.000
0.010
0.010
0.020
0.040
0.060
0.070
0.070
0.070
0.070
0.100
0.100
0.100
0.130
0.160
0.190
0.190
0.190
0.220
0.220
0.220
0.220
0.250
0.280
0.280
0.280
0.280
0.280
0.280
0.380
0.430
0.430
0.530
0.580
0.670
0.700
0.840
0.940
1.040
1.050
1.050
1.063
1.070
1.115
1.320
Clusters
joined
15
20
5
42
24
27
47
61
19
28
67
90
36
41
51
77
18
92
33
62
25
44
85
87
43
46
38
63
69
81
50
72
56
91
94
98
1
95
16
73
75
99
37
48
11
100
4
89
84
88
23
32
2
83
29
78
3
71
17
64
8
68
12
76
9
74
52
60
10
34
26
59
49
97
7
67
13
21
40
54
82
93
10
30
66
80
36
84
6
70
Pág. 73
New
cluster
15
5
24
47
19
67
36
51
18
33
25
85
43
38
69
50
56
94
1
16
75
37
11
4
84
23
2
29
3
17
8
12
9
52
10
26
49
7
13
40
82
10
66
36
6
Number
of obs.
in new
cluster
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
3
2
2
2
3
2
4
2
de
los
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
46
54
97.902
1.660 45
47
53
97.877
1.680 39
48
52
97.761
1.772 10
49
51
97.321
2.120 13
50
50
96.355
2.885 50
51
49
96.203
3.005 40
52
48
95.986
3.177 14
53
47
95.818
3.310
9
54
46
95.552
3.520 22
55
45
95.325
3.700 65
56
44
94.826
4.095 10
57
43
94.301
4.510
6
58
42
94.054
4.706 10
59
41
93.996
4.751 14
60
40
93.783
4.920 15
61
39
93.745
4.950 16
62
38
93.594
5.070
4
63
37
92.867
5.645 25
64
36
92.341
6.062 25
65
35
91.633
6.622 18
66
34
90.732
7.335 23
67
33
90.566
7.466
9
68
32
89.797
8.075 11
69
31
89.607
8.225
8
70
30
88.621
9.005
1
71
29
88.537
9.072 13
72
28
87.859
9.608 40
73
27
87.621
9.797
4
74
26
86.484
10.697
3
75
25
86.381
10.778 18
76
24
86.216
10.909
7
77
23
85.195
11.717 16
78
22
85.001
11.870 39
79
21
82.841
13.580
3
80
20
82.550
13.810
9
81
19
81.104
14.954
9
82
18
77.848
17.531
2
83
17
76.996
18.205
8
84
16
67.541
25.688
1
85
15
65.781
27.081
2
86
14
61.257
30.661
7
87
13
60.778
31.040 11
88
12
56.202
34.662
6
89
11
49.784
39.741
2
90
10
42.640
45.395
3
91
9
40.362
47.197
1
92
8
36.171
50.514
1
93
7
29.104
56.107
6
94
6
19.593
63.634
5
95
5
17.930
64.950
1
96
4
-15.826
91.665
2
97
3
-96.701
155.669
2
98
2
-135.645
186.489
1
99
1
-839.878
743.820
1
Final Partition
Number of clusters: 1
Within
Average
cluster distance
Number of
sum of
from
observations squares centroid
Cluster1
100 996.352
3.05166
P. REYES / DIC. 2006
86
96
53
35
69
45
38
58
55
79
31
52
37
66
19
29
75
33
26
50
56
12
85
36
51
22
94
24
10
43
15
47
65
57
14
49
4
17
25
40
9
23
8
39
82
18
16
11
7
13
6
3
5
2
Maximum
distance
from
centroid
5.27503
Pág. 74
45
39
10
13
50
40
14
9
22
65
10
6
10
14
15
16
4
25
25
18
23
9
11
8
1
13
40
4
3
18
7
16
39
3
9
9
2
8
1
2
7
11
6
2
3
1
1
6
5
1
2
2
1
1
2
2
4
3
4
4
3
3
2
2
5
4
7
5
4
4
4
4
6
6
4
5
4
6
4
5
6
6
9
8
7
6
4
10
10
12
8
8
10
14
19
8
12
18
12
18
24
20
21
29
38
50
50
100
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
Proceso de jerarquía de conglomerados
Distance
406.13
270.75
135.38
0.00
1 9551 77 11 00 858 747 6 113 213 52 2 55 9 744 9 97 1276 581 520 3863 6 68 016 7329 781 892 434 6 50 7269 8 125 44 2659 3362 5 42 7 679 014 1 928 28 375 9923 325 6 91 670 526 0 8 6836 41 8 488 489 242 740 544 5 86 9498 3 996 65 79 3 7110 34 305 3 3748 57 1 764 318 293
1
Observations
Proceso de jerarquía de conglomerados
Distance
406.13
270.75
135.38
0.00
2 8 3 7 5 9 9 2 3 3 2 5 6 91
6 70 52 60
8 68 36 41 84 88
4 89 24 27 40 54 45 86 9 4 9 8 3 9 9 6 6 5 7 9
Observations
Pág. 75
3 71 10 34 30 53 37 48 57 17 64 31 82 93
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
Proceso de jerarquía de conglomerados
Distance
406.13
270.75
135.38
0.00
1 9 5 5 1 7 7 1 1 0 0 8 5 8 7 4 7 6 1 1 3 2 1 3 5 22 5 5 9 7 4 49 9 7 1 2 7 6 5 8 1 5 2 0 3 8 6 3 6 6 8 0 1 6 7 3 2 9 7 8 18 9 2 43 4 6 50 7 2 6 9 8 1 2 5 4 4 2 6 5 9 3 3 6 2 5 4 2 7 6 7 9 0 14 1 9 28
1
Observations
De Minitab con soluciones por grupos de Conglomerados:
1. Stat > Multivariate > Cluster K Means
2. Variables or distance matrix X1 – X7
3. Nmber of clusters 2 o 4
4. OK
Solución por dos conglomerados
K-means Cluster Analysis: X1, X2, X3, X4, X5, X6, X7
Final Partition
Number of clusters: 2
Cluster1
Cluster2
Number of
observations
52
48
Within
cluster
sum of
squares
315.799
294.132
Average
distance
from
centroid
2.383
2.368
Maximum
distance
from
centroid
4.285
4.279
Cluster Centroids
Variable
X1
X2
X3
X4
X5
X6
X7
Cluster1
4.3827
1.5808
8.8615
4.9250
2.9577
2.5250
5.9038
Cluster2
2.5750
3.2125
6.8458
5.5979
2.8708
2.8167
8.1271
Grand
centroid
3.5150
2.3640
7.8940
5.2480
2.9160
2.6650
6.9710
Pág. 76
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
Distances Between Cluster Centroids
Cluster1
Cluster2
Cluster1
0.0000
3.9347
Cluster2
3.9347
0.0000
En esta solución se observa que en el grupo o cluster 1 versus cluster 2, X1 y
X3 son mayores.
En el caso de las variables X2, X4, X6 y X7 tienen valores más altos en el
cluster 2 que en el cluster 1. X5 no muestra diferencia significativa. Por tanto se
sugieren dos segmentos, evaluados desde un punto de vista conceptual y
práctico.
Corriendo con SPSS se tiene:
1. Analyze > Clasify > K Jeans Clusters
2. Variables X1 – X7
3. Number of clusters 2
4. OK
ANOVA
Cluster
Mean Square
X1
Error
df
Mean Square
df
F
81.563
1
.930
98
X2
66.457
1
.766
X3
101.414
1
.923
X4
11.302
1
X5
.188
1
X6
2.123
X7
123.372
Sig.
87.717
.000
98
86.753
.000
98
109.816
.000
1.178
98
9.596
.003
.568
98
.331
.566
1
.579
98
3.670
.058
1
1.280
98
96.404
.000
The F tests should be used only for descriptive purposes because the clusters have been chosen to
maximize the differences among cases in different clusters. The observed significance levels are not
corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are
equal.
Solución por cuatro conglomerados
K-means Cluster Analysis: X1, X2, X3, X4, X5, X6, X7
Final Partition
Number of clusters: 4
Cluster1
Cluster2
Cluster3
Number of
observations
34
29
14
Within
cluster
sum of
squares
155.126
123.693
54.234
Average
distance
from
centroid
2.100
2.012
1.833
Maximum
distance
from
centroid
2.922
3.211
3.051
Pág. 77
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
Cluster4
23
109.941
P. REYES / DIC. 2006
2.031
3.947
Cluster Centroids
Variable
X1
X2
X3
X4
X5
X6
X7
Cluster1
4.1441
1.5794
8.5765
4.4176
2.8353
2.0882
5.3147
Cluster2
2.0241
2.7655
7.0103
5.1621
2.3655
2.5552
8.2690
Cluster3
3.6143
4.1286
5.9500
6.0643
3.8429
3.1643
7.9500
Cluster4
4.4043
1.9435
9.1826
6.0870
3.1652
3.3522
7.1870
Grand
centroid
3.5150
2.3640
7.8940
5.2480
2.9160
2.6650
6.9710
Distances Between Cluster Centroids
Cluster1
Cluster2
Cluster3
Cluster4
Cluster1
0.0000
4.2514
5.0504
2.9268
Cluster2
4.2514
0.0000
2.9967
3.7896
Cluster3
5.0504
2.9967
0.0000
4.1141
Cluster4
2.9268
3.7896
4.1141
0.0000
El Cluster 3 es mucho más compacto que el cluster 1, como se indica por la
suma de cuadrados.
En este caso se muestra en forma más clara un grupo de patrones con valores
altos y otro con valores bajos.
Corriendo con SPSS se tiene:
5. Analyze > Clasify > K Jeans Clusters
6. Variables X1 – X7
7. Number of clusters 4
OK
ANOVA
Cluster
Error
X1
Mean Square
37.108
df
3
Mean Square
.639
X2
28.530
3
.583
X3
37.115
3
X4
15.527
3
X5
7.487
X6
8.242
df
96
F
58.055
Sig.
.000
96
48.960
.000
.839
96
44.224
.000
.835
96
18.598
.000
3
.348
96
21.509
.000
3
.355
96
23.204
.000
X7
53.222
3
.928
96
57.330
.000
The F tests should be used only for descriptive purposes because the clusters have been chosen to
maximize the differences among cases in different clusters. The observed significance levels are not
corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are
equal.
Investigando ahora la agrupación de variables se tiene:
En Minitab:
1. Stat > Multivariate > Cluster variables
Pág. 78
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
2. Variables or distance matrix X1 – X7
3. Linkage
method
Ward
(minimize
la
distancia
dentro
de
conglomerados)
4. Distance Measure Correlation
5. Seleccionar Show Dendogram
6. Customize Label Y axis with Distances
7. OK
Los resultados se muestran a continuación:
Cluster Analysis of Variables: X1, X2, X3, X4, X5, X6, X7
Correlation Coefficient Distance, Ward Linkage
Amalgamation Steps
Step
1
2
3
4
5
6
Number
of
clusters
6
5
4
3
2
1
Similarity
level
89.4112
80.5950
73.4873
57.8288
39.4434
-4.3342
Distance
level
0.21178
0.38810
0.53025
0.84342
1.21113
2.08668
Clusters
joined
4
6
1
5
2
7
1
3
2
4
1
2
New
cluster
4
1
2
1
2
1
Number
of obs.
in new
cluster
2
2
2
3
4
7
Dendrogram with Ward Linkage and Correlation Coefficient Distance
Distance
2.09
1.39
0.70
0.00
X1
X5
X3
X2
Variables
X7
X4
X6
Se identifican conglomerados en las variables X1 y X5; X2 y X7; X4 y X6,
después entre X1, X5, X3 y X2, X7, X4 y X6 y al final un solo conglomerado.
Pág. 79
los
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
Paso 5. Interpretación de los conglomerados
Como resultado de un análisis factorial se tiene:
Instrucciones en Minitab:
1. Stat > Multivariate > Factor analysis
2. Variables X1 – X7 Method of Extraction Maximum likelihood
3. Rotation Varimax
4. Graphs Scree Plot Loading Plot for first two factors
5. OK
Factor Analysis: X1, X2, X3, X4, X5, X6, X7
Maximum Likelihood Factor Analysis of the Correlation Matrix
* NOTE * Heywood case
Unrotated Factor Loadings and Communalities
Variable
X1
X2
X3
X4
X5
X6
X7
Factor1
0.969
-0.181
0.436
0.133
0.752
0.133
-0.424
Factor2
0.177
-0.984
0.400
-0.301
-0.660
-0.214
-0.400
Communality
0.971
1.000
0.350
0.108
1.000
0.063
0.340
Variance
% Var
1.9431
0.278
1.8896
0.270
3.8327
0.548
Rotated Factor Loadings and Communalities
Varimax Rotation
Variable
X1
X2
X3
X4
X5
X6
X7
Factor1
-0.894
0.714
-0.587
0.065
-0.235
0.015
0.577
Factor2
0.414
0.700
-0.075
0.323
0.972
0.251
0.082
Communality
0.971
1.000
0.350
0.108
1.000
0.063
0.340
Variance
% Var
2.0468
0.292
1.7859
0.255
3.8327
0.548
Factor Score Coefficients
Variable
X1
X2
X3
X4
Factor1
0.000
1.132
0.000
-0.000
Factor2
-0.000
0.273
-0.000
-0.000
Pág. 80
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
X5
X6
X7
-0.815
-0.000
-0.000
P. REYES / DIC. 2006
0.832
-0.000
0.000
Loading Plot of X1, ..., X7
X5
1.0
0.8
Second Factor
X2
0.6
X1
0.4
X4
X6
0.2
X7
0.0
X3
-1.0
-0.5
0.0
First Factor
0.5
Para las correlaciones en Minitab:
1. Stat > Basic statistics > Correlations
2. Variables X1 – X7 Show P values
3. OK
Correlations: X1, X2, X3, X4, X5, X6, X7
X1
-0.349
0.000
X2
X3
0.476
0.000
-0.472
0.000
X4
0.050
0.618
0.272
0.006
-0.095
0.347
X5
0.612
0.000
0.513
0.000
0.064
0.524
0.299
0.003
X6
0.077
0.446
0.186
0.064
-0.015
0.880
0.788
0.000
0.241
0.016
X7
-0.483
0.000
0.470
0.000
-0.407
0.000
0.200
0.046
-0.055
0.586
X2
X3
X4
X5
X6
0.177
0.078
Cell Contents: Pearson correlation
P-Value
Al definir los factores que son las dimensiones de las variables que se
correlacionan significativamente, se observan dos factores. El primer factor
Pág. 81
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
contiene a X1, X2, X3 y X7 y el segundo factor contiene a los aspectos de
imagen X4 y X6. En el primer factor X2 y X7 se relacionan inversamente con
X1 y X3, es decir que mientras se incrementan unas, las otras bajan. Esto
sugiere que altos valores en X1 y X3 implican valores bajos en X2 y X7. O sea
que definir conglomerados sólo con base en valores altos o bajos es
inapropiado.
De la tabla ANOVA para dos conglomerados se observa que solo X5 – Servicio
general no es significativa.
10
9
8
7
Cluster
6
1
5
2
4
3
2
1
0
X1
X2
X3
X4
X5
X6
X7
De la gráfica de centros de conglomerados se observa que X4 y X6 tienen
valores mayores en el conglomerado 2 que en el 1 y X1, X3 tienen valores
mayores en el conglomerado 1 que en el 2 y X2 y X7 son menores.
Para el caso de 4 conglomerados, el 1 se divide en 1 y 4 y el 2 se divide en 2 y
3 se tiene:
12
10
8
1
2
6
3
4
4
2
0
X1
X2
X3
X4
Pág. 82
X5
X6
X7
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
En general la aplicación del análisis de conglomerados es un arte más que una
ciencia y se deben aplicar criterios objetivos y subjetivos adecuados.
Pág. 83
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
8. ANÁLISIS FACTORIAL
Pág. 84
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
8. ANÁLISIS FACTORIAL
El análisis factorial es un método cuyo propósito principal es definir la
estructura subyacente de una matriz de datos. Atiende el problema de analizar
la estructura de las interrelaciones (correlaciones) entre un gran número de
variables
(vgr. Respuestas de cuestionarios) al definir un conjunto de
dimensiones subyacentes comunes, conocidas como factores. Con el análisis
factorial se identifican las dimensiones separadas de la estructura y después se
determina que tanto cada variable es explicada por cada dimensión. Una vez
que se determinan las dimensiones y se explican las variables por cada
dimensión, se puede hacer un resumen y reducción de datos.
El análisis factorial es una técnica de interdependencia en la cual todas las
variables son consideradas de manera simultanea, cada una relacionada a las
otras, y empleando el concepto de variate, composición lineal de variables. De
hecho las variates (factores) se forman para maximizar su explicación de todo
el conjunto de variables, no para predecir una variable dependiente(s). Una
variate (factor) es una variable dependiente que es función del conjunto total de
variables.
Se usa el Análisis factorial, de manera similar al análisis de componentes
principales, para resumir la estructura de covarianza de los datos en una pocas
dimensiones de los mismos. Sin embargo, el énfasis en análisis factorial es la
identificación de los “factores subyacentes” que pueden explicar las
dimensiones asociadas con la gran variabilidad de los datos.
Se pueden tener tres tipos de datos de entrada:

Columnas de datos unitarios

Una Matriz de correlaciones o covarianzas

Columnas conteniendo ponderaciones de factores
Con los datos del ejemplo anterior de Componentes principales, realizar un
análisis factorial como sigue:
Pág. 85
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
Nos gustaría investigar que “factores” pueden explicar la mayor parte de la
variabilidad. Como primer paso del análisis factorial, se utiliza la extracción de
componentes principales y se examinan los eigenvalores en gráfica como
ayuda para decidir el número de factores.
PROCESO DE DECISIÓN DE ANÁLISIS FACTORIAL
Paso 1. Objetivos del Análisis factorial
El propósito es encontrar una forma de condensar (resumir) la información
contenida en un cierto número de variables originales, en un grupo más
pequeño de dimensiones nuevas, compuestas o variates (factores) con un
mínimo de pérdida de información.
Por ejemplo si hay datos de 100 cuestionarios en 10 características, el análisis
factorial se aplica a la matriz de correlación de variables y se denomina
Análisis Factorial R, para identificar las dimensiones que están latentes o no
son fácilmente observables.
El análisis factorial también se puede aplicar a una matriz de correlación de los
cuestionarios individuales basados sus características, referido como Análisis
Factorial Q, es un método de condensar o combinar un grupo grande de gente
en diferentes grupos distintos dentro de una población grande, para esto se
utiliza el análisis de conglomerados (clusters).
Paso 2. Diseño del análisis factorial
Incluye tres decisiones básicas: (1) cálculo de los datos de entrada (una matiz
de correlación) para cumplir con los objetivos especificados de agrupar
variables o cuestionarios; (2) el diseño del estudio en términos del nñumeor de
variables, propiedades de medición de las variables, y el tipo de variables
permitidas y (3) el tamaño de muestra necesario (al menos 5 veces el númro de
variables analizadas), ambos en términos absolutos y como función de del
número de variables en el análisis.
Paso 3. Supuestos del análisis factorial
Pág. 86
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
Es deseable algún grado de multicolinealidad entre variables dado que el
objetivo es identificar conjuntos de variables interrelacionadas, no son tan
importantes la normalidad, homoestacidad y linealidad a menos que
disminuyan significativamente las correlaciones observadas.
La matriz de correlación debe indicar valores mayores a 0.3 para aplicar el
análisis de correlación. También si las correlaciones parciales entre variables
(correlación entre variables cuando el efecto de las otras variables se toma en
cuenta) son pequeñas dado que la variable puede explicada por los factores
(variates con ponderacións para cada una de
las variables). Si las
correlaciones parciales son altas, no hay factores subyacentes “verdaderos” y
el análisis factorial es inapropiado.
La prueba de esfericidad de Bartlett mide la presencia de correlaciones entre
las variables, proporciona la probabilidad de que la matriz de correlación tenga
correlaciones significativas en algunas de las variables. Otro indicador es el
“Measure of Sampling Adequacy (MSA)”, con rango de 0 a 1, donde 0.8 o más
es meritorio; 0.07 o más es regular; 0.60 o más es mediocre; 0.50 o más
miserable y debajo de 0.50 inaceptable.
El supuesto básico en el análisis factorial es que existe una estructura
subyacente en el conjunto de variables seleccionadas.
Paso 4. Identificando factores y evaluando el ajuste del modelo
Una vez que se especifican las variables y se prepara la matriz de correlación,
se toman decisiones en relación a (1) el método de extracción de los factores
(análisis de factores comunes versus análisis de componentes) y (2) el número
de factores seleccionados para representar la estructura subyacente en los
datos.
Análisis de componentes
El análisis de componentes se usa cuando el objetivo es resumir la mayor parte
de la información original (varianza) en un mínimo número de factores para
Pág. 87
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
propósitos de predicción. Considera la varianza total y determina factores que
contienen pequeñas proporciones de varianza única y, en algunos casos,
varianza del error.
Análisis factorial
En contraste el análisis de factores comunes se utiliza para identificar los
factores subyacentes o dimensiones que reflejan aquello que las variables
comparten en común.
En este método se tienen tres tipos de varianzas: (1) común, (2) específica
(única), y (3) error. La varianza común se define como la varianza en una
variable que es compartida por todas las demás variables. La varianza
específica es la varianza asociada solo con una variable específica. La
varianza del error es la varianza debida a la incertidumbre en el proceso de
recolección de datos, errores de medición, o componente aleatorio en el
fenómeno medido.
Criterios para el número de factores a extraer
El método primero extrae la combinación de variables explicando la mayor
cantidad de varianza y después continua con combinaciones que representan
menos y menos cantidades de varianza.
La selección de factores a extraer equivale a enfocar un microscopio
normalmente se hace por prueba y error contrastando los resultados.
Criterio de Raíz Latente: su racional es que cualquier factor individual debe
contener la varianza de al menos una variable. Como cada variable contribuye
con 1 al eigenvalor total o raíz latente. Se seleccionan solo los factores con
eigenvalores mayores a uno, cuando se tienen menos de 20 variables, los
factores extraídos son pocos.
Criterio a Priori: en este método el investigador ya tiene una idea clara de los
factores a extraer y así lo indica en la computadora.
Pág. 88
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
Criterio de porcentaje de varianza: Enfoque basado en lograr un porcentaje
acumulado de varianza total extraído por factores sucesivos. Normalmente el
proceso para al acumular 95%.
Criterio Scree Test: Se usa para identificar el número óptimo de factores que
pueden ser extraídos antes de que la cantidad de varianza única empiece a
dominar la estructura de varianza común.
E
i
g
e
n
v
a
l
o
r
8
1
Número de factores
Paso 5. Interpretando los factores
Se obtiene la matriz no rotada para estimar el número de factores a extraer. La
matriz de factores contiene ponderacións de factores para cada variable en
cada factor. El primer factor puede verse como la mejor combinación lineal
incluida en los datos, con cada factor con ponderacións significativos y acumula
la mayor parte de a varianza; el segundo factor es la segunda mejor
combinación lineal de variables, sujeta a que es ortogonal al primer factor, se
basa en la porción residual de la varianza una vez removido el primero, así
sucesivamente.
Los ponderacións de los factores representan la correlación de cada una de las
variables y el factor, entre mayores sean, mayor será la representatividad del
factor por la variable.
Pág. 89
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
La rotación de los factores más simple es una rotación ortogonal, en la cual
se mantienen los ejes a 90 grados. Se pueden rotar los ejes sin mantener los
90 grados entre los ejes de referencia. Cuando no hay restricción de
ortogonalidad, el procedimiento de rotación se denomina rotación oblicua.
+1 Factor II rotado
+1 Factor II sin rotar
V1
V2
+1 Factor I sin rotar
-1
V4
V3
V5
+1 Factor I rotado
-1
Fact
or II
sin
rotar
Fig. 1 Rotación ortogonal de factores (observar la ponderación
o ponderación de factores I y
II en la variable V2, es más clara cuando se rotan los factores)
En la figura se observan dos conglomerados de variables (V1 y V2) y (V3, V4 y
V5), sin embargo con los factores sin rotar no es muy obvia su ponderación o
ponderación de los factores I y II. Después de la rotación de los ejes de
factores, las variables 3, 4 y 5 tienen una ponderación o ponderación fuerte de
factor I, y las variables 1 y2 tienen una ponderación o ponderación fuerte en el
factor II. Siendo más obvia la distinción entre conglomerados en dos grupos.
Métodos de rotación ortogonal
En la práctica el objetivo de todos los métodos de rotación es simplificar las
filas y columnas de la matriz de factores para facilitar la interpretación. En una
matriz de factores las columnas representan factores, con cada renglón
correspondiente a la ponderación de las variables a través de los factores. Al
simplificar los renglones, se hacen tantos valores en cada fila tan cercanos a
cero como sea posible (i.e. maximizando la ponderación de una variable con un
Pág. 90
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
factor único). Simplificando las columnas, se hacen tantos valores en las
columnas tan cercanos a cero como sea posible (i.e. hacer el máximo número
de ponderacións “altas” como sea posible). Se han desarrollado tres métodos
para lo anterior como sigue:
Quartimax: para simplificar las filas de la matriz; o sea, que Quartimax se
enfoca a rotar los factores iniciales de manera que las variables tengan la
mayor ponderación posible de un factor y la mínima de los otros. Aunque este
método no ha sido eficiente.
Varimax: se centra en simplificar las columnas de la matriz factorial. La
máxima simplificación posible se logra cuando solo hay 1’s y 0’s en la columna.
Es decir que VARIMAX maximiza la suma de variancias de ponderacións
requeridas de la matriz factorial. Este método ha probado ser un método
analítico efectivo para obtener una rotación ortogonal de factores.
Equimax:
Es un compromiso entre las anteriores. Trata de simplificar los renglones y las
columnas, no se utiliza frecuentemente.
Métodos de rotación oblicua:
Estos métodos son similares a las rotaciones ortogonales excepto que permiten
factores correlacionados en vez de mantener la independencia de los factores
rotados.
En general no hay reglas para seleccionar uno de los métodos anteriores.
Criterios para la significancia de ponderación de factores en las variables
De manera práctica si las ponderacións son de  0.30 se considera que
cumplen el nivel mínimo; ponderacións de  0.40 son importantes;  0.50 o
mayores son significativas en la práctica. Como la ponderación del factor es la
correlación de la variable y el factor, la ponderación al cuadrado es la cantidad
representada de la varianza total por el factor. De esta forma con  0.3 se tiene
Pág. 91
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
un 10% de explicación y un 0.5 de ponderación denota que un 25% de la
varianza es representada por el factor.
Evaluando la significancia estadística
Con base en un nivel de significancia de 0.05, un nivel de potencia del 80% y
errores estándar asumidos se el doble de los coeficientes de correlación
convencionales, se tiene la tabla siguiente:
Ponderación
del factor
Tamaño
de
muestra requerida
para
tener
significancia
0.30
350
0.35
300
0.40
250
0.45
200
0.50
150
0.55
100
0.60
85
0.65
70
0.70
60
Resumiendo las guías para la significancia de los factores son:
(1) entre mayor sea el tamaño de muestra, el valor de ponderación
significativo se reduce.
(2) Entre más variables sean consideradas en el análisis, más pequeña es
la ponderación que se considera significativa.
(3) Entre más factores haya, mayor es la ponderación en los factores
adicionales para que sea considerada significativa.
Cada columna de números en la matriz representa un factor por separado. Las
columnas de números representan las ponderacións para cada una de las
variables. Identificar la más alta ponderación para cada variable. Recordar que
Pág. 92
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
para tamaños de muestra similares a 100 se considera significante  0.3. La
comunalidad para cada variable representa la cantidad de varianza
considerada por la solución factorial para cada variable. Evaluar la comunalidad
de las variables, es decir identificar las que tengan más del 50%, ya que las
que tengan menos no tienen suficiente explicación. El nombre de los factores
se desarrolla de manera intuitiva, con base en las variables con una mayor
ponderación se consideran más importantes y tienen una mayor influencia para
el nombre seleccionado para representar al factor.
Validación del análisis factorial
Se trata de evaluar el grado de generalización de los resultados en la población
y la influencia potencial de casos individuales en los resultados totales.
El alfa de Cronbach es una medida del coeficiente de confiabilidad que evalua
la consistencia de toda la escala. Este índice es la relación positiva del número
de ítems en la escala, donde 0.7 se considera adecuado.
Pág. 93
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
Ejemplo con datos de HATCO
Prueba de la adecuación del modelo, utilizando Minitab:
1. Stat > Basic statistics > Correlation
2. Variables X1, X2, X3, X4, X6, X7
3. Display p values
4. OK
Correlations: X1, X2, X3, X4, X6, X7
X1
-0.349
0.000
X2
X3
0.476
0.000
-0.472
0.000
X4
0.050
0.618
0.272
0.006
-0.095
0.347
X6
0.077
0.446
0.186
0.064
-0.015
0.880
0.788
0.000
X7
-0.483
0.000
0.470
0.000
-0.407
0.000
0.200
0.046
X2
X3
X4
X6
0.177
0.078
Cell Contents: Pearson correlation
P-Value
De la matriz, 7 de 15 correlaciones son significativas estadísticamente. El valor
de MSA de 0.665 cumple con con el criterio para aplicar el análisis factorial.
Análisis factorial con Minitab:
Las instrucciones de Minitab son las siguientes:
1
Cargar los datos de HATCO.
2
Stat > Multivariate > Factor Analysis.
3
En Variables, X1, X2, X3, X4, X6, X7
4
En Number of factors to extract, 2.
5
En Method of Extraction, seleccionar Principal components
6
En Type of Rotation, seleccionar Varimax.
7
Click Graphs y seleccionar Loading plot for first 2 factors y Scree Plot.
Pág. 94
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
8 Click Results y seleccionar Sort loadings. Click OK en cada uno de los
cuadros de diálogo.
Los resultados se muestran a continuación:
Factor Analysis: X1, X2, X3, X4, X6, X7
Principal Component Factor Analysis of the Correlation Matrix
Unrotated Factor Loadings and Communalities
Variable
X1
X2
X3
X4
X6
X7
Factor1
0.618
-0.763
0.695
-0.502
-0.434
-0.761
Factor2
-0.517
0.079
-0.357
-0.793
-0.827
0.170
Communality
0.649
0.588
0.610
0.881
0.873
0.609
Variance
% Var
2.4664
0.411
1.7425
0.290
4.2089
0.701
El primer factor contiene la mayor parte de la varianza y es un factor general
con alta ponderación en cada variable. Las ponderacións para el segundo
factor muestra tres variables que también tiene alta ponderación (X1, X4 y X6).
La interpretación es sumamente difícil y sin significado, por lo que se debe
considerar la rotación de factores como sigue:
Rotated Factor Loadings and Communalities
Varimax Rotation
Variable
X1
X2
X3
X4
X6
X7
Factor1
-0.783
0.718
-0.781
0.097
0.020
0.758
Factor2
0.188
0.268
0.010
0.934
0.934
0.186
Communality
0.649
0.588
0.610
0.881
0.873
0.609
Variance
% Var
2.3231
0.387
1.8858
0.314
4.2089
0.701
Las variables X1, X2 y X3 ponderaciónn significativamente al factor 1 y las
variables X4 y X6 ponderaciónn significativamente al factor 2.
Si se considera como punto de corte las ponderacións con  0.55 o más, el
factor 1 tiene cuatro ponderacións significativas y el factor 2 tiene 2. Para el
factor 1, se ven dos grupos de variables. Las primeras son el nivel de precios
Pág. 95
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
(X2) y la calidad del producto (X7) ambas con signos positivos y varían como
conjunto. Las otras dos, tiempo de entrega (X1) y flexibilidad de precios (X3)
tienen signos negativos también varían como conjunto.
En el factor 1, ambos grupos varían en sentido contrario, tal vez este factor sea
el valor básico y representa un compromiso entre percepciones de precio o
calidad del producto y percepciones de tiempo de entrega y flexibilidad de
precios.
En el factor 2, la variable X4 (imagen de fabricación) y X6 (imagen de la fuerza
de ventas) tal vez se pueda agrupar en imagen, ambas variables tienen el
mismo signo, actuando en la misma dirección.
La variable X5 (servicio en general) no se incluyó en al análisis.
Se tienen ahora dos factores como combinación lineal de las variables para
efectos de realización de estudios:
Factor Score Coefficients
Variable
X1
X2
X3
X4
X6
X7
Factor1
-0.356
0.297
-0.343
-0.020
-0.054
0.320
Factor2
0.154
0.097
0.058
0.498
0.503
0.050
Para verificar la validez del modelo se pueden hacer dos grupos de 50
observaciones y comparar sus matrices rotadas.
Data 1 – 50: Rotated Factor Loadings and Communalities
Varimax Rotation
Variable
X1_1
X2_1
X3_1
X4_1
Factor1
-0.827
0.603
-0.686
0.156
Factor2
0.085
0.376
-0.177
0.919
Communality
0.691
0.506
0.502
0.869
Pág. 96
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
X6_1
X7_1
Variance
% Var
0.136
0.702
0.924
0.201
0.871
0.533
2.0548
0.342
1.9178
0.320
3.9726
0.662
P. REYES / DIC. 2006
Data 51 – 100: Rotated Factor Loadings and Communalities
Varimax Rotation
Variable
X1_2
X2_2
X3_2
X4_2
X6_2
X7_2
Factor1
0.741
-0.785
0.815
-0.041
0.052
-0.824
Factor2
-0.313
-0.190
-0.154
-0.949
-0.923
-0.154
Communality
0.647
0.652
0.688
0.903
0.854
0.703
Variance
% Var
2.5127
0.419
1.9338
0.322
4.4466
0.741
Como se ve las dos rotaciones VARIMAX son comparables en términos de
ponderacións y comunalidades para las seis percepciones. Así se puede
asegurar que los resultados son estables dentro de la muestra.
De la gráfica Scree Plot con los Eigenvalores de los factores se tiene:
Scree Plot of X1, ..., X7
2.5
Eigenvalue
2.0
1.5
1.0
0.5
0.0
1
2
3
4
Factor Number
5
6
Sólo dos factores serán mantenidos si se toma como referencia el Eigenvalor
de 1 o tres si se toma como referencia el criterio Scree.
La gráfica de ponderacións por variables se muestra a continuación,
identificando tres grupos de variables:
Pág. 97
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
Loading Plot of X1, ..., X7
X6 X4
0.9
0.8
Second Factor
0.7
0.6
0.5
0.4
0.3
X2
X1
0.2
X7
0.1
X3
0.0
-1.0
-0.5
0.0
First Factor
0.5
En resumen se identifican dos dimensiones Valor básico e Imagen, ahora se
pueden hacer planes alrededor de estas dos dimensiones en lugar de
considerar todas las variables separadas.
Ejemplo con datos del archivo EXH_MVAR
Se registran las siguientes características de 14 regiones censadas: población
total (Pop), promedio de escolaridad (School), empleo total (Employ), empleo
en servcios de salud (Health), y valor promedio de casa (Home). Se desea
investigar que “factores” podrían explicar la mayor parte de la variabilidad.
Como primer paso del análisis factorial, se usa el método de extracción de
componentes principales y se examina la gráfica de eigenvalores (Scree) para
apoyarnos en decidir sobre el número de factores.
Pop
5.935
1.523
2.599
4.009
4.687
8.044
2.766
6.538
6.451
3.314
3.777
School
14.2
13.1
12.7
15.2
14.7
15.6
13.3
17
12.9
12.2
13
Employ
2.265
0.597
1.237
1.649
2.312
3.641
1.244
2.618
3.147
1.606
2.119
Health
2.27
0.75
1.11
0.81
2.5
4.51
1.03
2.39
5.52
2.18
2.83
Pág. 98
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
1.53
2.768
6.585
13.8
13.6
14.9
0.798
1.336
2.763
P. REYES / DIC. 2006
0.84
1.75
1.91
Las instrucciones de Minitab son las siguientes:
1
Abrir la worksheet EXH_MVAR.MTW.
2
Stat > Multivariate > Factor Analysis.
3
En Variables, poner Pop-Home.
4
Click Graphs y seleccionar Scree plot. Click OK in each dialog box.
Los resultados se muestran a continuación:
Factor Analysis: Pop, School, Employ, Health, Home
Principal Component Factor Analysis of the Correlation Matrix
Unrotated Factor Loadings and Communalities
Variable
Pop
School
Employ
Health
Home
Factor1
-0.972
-0.545
-0.989
-0.847
0.303
Factor2
-0.149
-0.715
-0.005
0.352
-0.797
Factor3
0.006
-0.415
0.089
0.344
0.523
Factor4
0.170
-0.140
0.083
-0.200
0.005
Factor5
-0.067
0.001
0.085
-0.022
0.002
Communality
1.000
1.000
1.000
1.000
1.000
Variance
% Var
3.0289
0.606
1.2911
0.258
0.5725
0.114
0.0954
0.019
0.0121
0.002
5.0000
1.000
Factor3
0.011
-0.726
0.155
0.601
0.914
Factor4
1.782
-1.466
0.868
-2.098
0.049
Factor5
-5.511
0.060
6.988
-1.829
0.129
Factor Score Coefficients
Variable
Pop
School
Employ
Health
Home
Factor1
-0.321
-0.180
-0.327
-0.280
0.100
Factor2
-0.116
-0.553
-0.004
0.272
-0.617
Pág. 99
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
Scree Plot of Pop, ..., Home
3.0
Eigenvalue
2.5
2.0
1.5
1.0
0.5
0.0
1
2
3
Factor Number
4
5
Interpretación de resultados
Cinco factores describen estos datos perfectamente, pero la meta es reducir el
número de factores requeridos para explicar la variabilidad de los datos. La
proporción de la variabilidad explicada por los dos últimos factores es mínima
(0.019 y 0.002 respectivamente) y pueden ser eliminadas sin afectar al
resultado. Los primeros dos factores juntos representan 86% de la variabilidad
mientras que tres factores representan 98% de la variabilidad. La cuestión es si
usar dos o tres factores, se requieren otras corridas para decidir si usar dos o
tres factores.
Se seleccionan dos factores como el número que representa los datos del
censo en base al análisis de componentes principales. Se realiza una
extracción de máxima verisimilitud y rotación varimax para interpretar los
factores.
Las instrucciones de Minitab son las siguientes:
1
Abrir la worksheet EXH_MVAR.MTW.
2
Stat > Multivariate > Factor Analysis.
3
En Variables, Pop-Home.
4
En Number of factors to extract, 2.
5
En Method of Extraction, seleccionar Maximum likelihood.
Pág. 100
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
6
En Type of Rotation, seleccionar Varimax.
7
Click Graphs y seleccionar Loading plot for first 2 factors.
8
Click Results y seleccionar Sort loadings. Click OK en cada uno de los
cuadros de diálogo.
Los resultados se muestran a continuación:
Factor Analysis: Pop, School, Employ, Health, Home
Maximum Likelihood Factor Analysis of the Correlation Matrix
* NOTE * Heywood case
Unrotated Factor Loadings and Communalities
Variable
Pop
School
Employ
Health
Home
Factor1
0.971
0.494
1.000
0.848
-0.249
Factor2
0.160
0.833
0.000
-0.395
0.375
Communality
0.968
0.938
1.000
0.875
0.202
Variance
% Var
2.9678
0.594
1.0159
0.203
3.9837
0.797
Rotated Factor Loadings and Communalities
Varimax Rotation
Variable
Pop
School
Employ
Health
Home
Factor1
0.718
-0.052
0.831
0.924
-0.415
Factor2
0.673
0.967
0.556
0.143
0.173
Communality
0.968
0.938
1.000
0.875
0.202
Variance
% Var
2.2354
0.447
1.7483
0.350
3.9837
0.797
Sorted Rotated Factor Loadings and Communalities
Variable
Health
Employ
Pop
Home
School
Factor1
0.924
0.831
0.718
-0.415
-0.052
Factor2
0.143
0.556
0.673
0.173
0.967
Communality
0.875
1.000
0.968
0.202
0.938
Variance
% Var
2.2354
0.447
1.7483
0.350
3.9837
0.797
Factor Score Coefficients
Variable
Pop
School
Employ
Health
Home
Factor1
-0.165
-0.528
1.150
0.116
-0.018
Factor2
0.246
0.789
0.080
-0.173
0.027
Pág. 101
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
Loading Plot of Pop, ..., Home
1.0
School
0.8
Second Factor
Pop
0.6
Employ
0.4
0.2
Home
Health
0.0
-0.50
-0.25
0.00
0.25
First Factor
0.50
0.75
1.00
Estos resultados indican un caso Heywood (las varianzas menores al límite de
convergencia especificado se ponen a cero y sus comunalidades a 1).
Se tienen tres tablas de ponderaciones y comunalidades: no rotadas, rotadas,
ordenadas y rotadas. Los factores no rotados explican el 79.7 de la variabilidad
de los datos y los valores de comunalidad indican que todas las variables sin
Home están bien representadas por esos dos factores (comunalidad son 0.202
para Home, 0.875 – 1.0 para otras variables). El porcentaje de la variabilidad
total representada por los factores no cambia con la rotación, sino después de
rotar, pero después de rotar, estos factores son mas claramente balanceados
en el porcentaje de variabilidad que ellos representan, siendo 44.7% y 35%,
respectivamente.
El ordenamiento es realizado por la ponderación máxima absoluta para
cualquier factor. Las variables que tienen la mayor ponderación absoluta en el
factor 1 se muestran primero en orden. Después las variables con la
ponderación mayor en el factor 2 y así sucesivamente. El factor 1 tiene su
ponderación mayor positiva en Health (0.924), Employ (0.831) y Pop (0.718), y
-0.415 en Home, mientras que la ponderación en School es baja. El factor 2
tiene una ponderación positiva en School de 0.967 y ponderación de 0.556 y
0.673 en Employ y Pop respectivamente, y una ponderación pequeña en
Health y Home.
Pág. 102
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
Se pueden ver las ponderaciones rotadas gráficamente en la gráfica de
ponderaciones (load graph). Ahí se muestra para factor 1 con ponderaciones
altas en Pop, Emply, y Health y ponderación negativa en Home. School tiene
una ponderación alta positiva para el factor 2 y algo menor para Pop y Employ.
De los resultados se puede pensar en que el factor 1 sea un factor relacionado
con “Cuidado de la salud – tamaño de la población”. El factor 2 puede ser
considerado como un factor relacionado con “educación – tamaño de la
población”.
En forma adicional Minitab muestra una tabla de coeficientes del factor.
Muestran como se calculan los factores. Minitab calcula los valores
multiplicando los coeficientes y los datos después de corregirlos centrándolos
al restarle sus medias.
Pág. 103
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
9. ANÁLISIS DE REGRESIÓN MÚLTIPLE
Pág. 104
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
9. ANÁLISIS DE REGRESIÓN MÚLTIPLE
Es una técnica estadística que se puede usar para analizar la relación entre
una variable dependiente simple (respuesta, criterio) y varias variables
independientes cuyos valores son conocidos para predecir la variable
dependiente. Los pesos denotan la contribución relativa de las variables
independientes a la predicción general y facilitar la interpretación de la
influencia de cada variable en la predicción, lo que se complica si hay
correlación de las variables independientes.
El conjunto de variables independientes con sus pesos forma la Variate de
regresión, ecuación de regresión o modelo de regresión, que es una
combinación lineal de las variables independientes que mejor predicen la
variable dependiente.
Los supuestos de un análisis de regresión múltiple son los siguientes:

Linealidad del fenómeno medido

Varianza constante de los términos de error

Independencia de los términos de error

Normalidad de la distribución de los términos de error.
Términos clave

Coeficiente ajustado de determinación (R2 ajustada): Es una métrica
modificada del coeficiente de determinación que toma en cuenta el
número de variables independientes incluidas en la ecuación de
regresión y el tamaño de muestra. A pesar de que la adición de variables
independientes hace que se incremente el coeficiente de determinación,
el coeficiente de determinación ajustado se reduce si las variables
independientes tienen poco poder explicativo y/o si los grados de
libertad son muy pequeños. Este estadístico es útil para comparar
ecuaciones con diferentes números de variables independientes, con
diferentes tamaños de muestra, o ambos.

Regresión con todos los posibles subconjuntos: Método de
selección de variables en el modelo que considera todas las
Pág. 105
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
combinaciones posibles de las variables independientes. Por ejemplo
para cuatro variables, se estiman modelos para una, dos, tres y cuatro
variables, identificando el modelo con la mayor capacidad predictiva.

Eliminación hacia atrás: Método de selección de variables en el
modelo que inicia con todas las combinaciones posibles de las variables
independientes para ir eliminando las que no tienen una contribución
significativa a la predicción.

Coeficiente beta: Coeficientes estandarizados de la regresión que
permite una comparación directa de su potencia relativa explicatoria de
la variable dependiente.

Coeficiente de determinación (R2): Mide la proporción de la varianza
de la variable dependiente alrededor de su media que es explicada por
las variables predictoras independientes. El coeficiente puede variar
entre 0 y 1. Entre mayor sea su valor es mejor la predicción de la
variable dependiente.

Colinealidad: Expresión de la relación entre dos (colinealidad) o entre
varias (multicolinealidad) variables independientes. Dos variables
independientes tienen colinealidad total si coeficiente de correlación es 1
y no tienen colinealidad si coeficiente de correlación es cero.
La
multicolinealidad se presenta cuando una variable independiente está
muy correlacionada con otras variables independientes.

Coeficiente de correlación (r.): Coeficiente que indica la fuerza de la
asociación entre dos variables medibles. El signo (+) o (-) indica la
dirección de la relación. +1 o -1 indica una correlación perfecta positiva
(cuando aumenta una variable, aumenta la otra) o negativa (inversa –
cuando aumenta una variable, la otra disminuye) y 0 sin correlación.

Grados de libertad: En una regresión simple se estiman dos
parámetros, la intersección (b0) y el coeficiente de la regresión para la
variable
independiente
(b1).
Por
tanto
los
grados
de
libertad
proporcionan una medida de cómo se restringen los datos para alcanzar
un cierto nivel de predicción (n-2). Si el número de grados de libertad es
pequeño, la predicción resultante no puede generalizarse, esta será más
robusta con un valor alto de grados de libertad.
Pág. 106
MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / DIC. 2006
Variable ficticia: Es una variable independiente usada para contabilizar
el efecto que tienen diferentes niveles de una variable no medible al
predecir la variable dependiente. Para contabilizar los L niveles de una
variable independiente no medible, se requieren L-1 variables artificiales.
En el caso de Hombre – Mujer se requiere una variable X con valores 0
y 1; para tres niveles se requerirán dos variables X1 y X2.

Adición hacia delante: Método de selección de variables en el modelo
que inicia sin las variables independientes para ir agregándolas con
base en su contribución a la predicción.

Homoestacidad: Descripción de los datos para los cuales la varianza
de los términos de error (e ) aparece constante sobre el rango de valores
de la variable independiente. Cuando los términos de error tienen
varianza incremental o modulada, se dice que los datos tienen
Heteroestacidad.

Observación influyente: Es una observación que tiene una influencia
desproporcionada en uno o más aspectos de los estimados de la
regresión, puede ser basada en valores extremos de las variables
independientes y dependiente o ambas.

Outlier: Es una observación que tiene una diferencia significativa entre
el valor real de la variable dependiente y el valor de predicción. Los
casos que son muy diferentes ya sea en sus variables independientes o
dependiente. Deben analizarse para poder eliminarlas.

Coeficiente de correlación parcial: Valor que mide la fuerza de la
relación entre la variable dependiente o criterio y una única variable
independiente manteniendo constante los efectos de las otras variables
independientes. Es útil para identificar la variable independiente con la
mayor capacidad predictiva incremental. Se le asocian los estadísticos
parciales de F y t así como su gráfica de regresión parcial.

Potencia: Probabilidad de que se tenga una relación significativa si
realmente existe. Complementa el nivel de significancia Alfa.

Error de predicción: Diferencia entre los valores reales y estimados de
la variable dependiente para cada observación en la muestra (residuos).
Pág. 107
MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / DIC. 2006
Estadístico PRESS: Medida de validación obtenida al eliminar cada
observación una a la vez y estimando su valor dependiente con el
modelo de regresión estimado con las observaciones remanentes.

Variable de Regresión (variate): Combinación lineal de variables
independientes
ponderadas
usadas
para
predecir
la
variable
dependiente.

Error estándar: El valor t de un coeficiente de regresión se obtiene
cuando se divide el valor del coeficiente entre el error estándar.

Estimación por pasos: Método de seleccionar variables para inclusión
en el modelo de regresión que inicia seleccionando el mejor predictor de
la variable dependiente. Las variables independientes adicionales se
seleccionan con base de su potencia explicatorio incremental que
pueden agregar al modelo de regresión (o en base a sus coeficientes de
correlación significativos estadísticamente). También se pueden eliminar
variables independientes si su potencia predictiva se reduce a niveles no
significativos cuando se agrega otra variable independiente al modelo.

Residuo estudentizado: Para minimizar el efecto de un outlier simple,
se calcula la desviación estándar del residuo para la observación i de los
estimados de la regresión omitiendo la observación i-ésima.

Tolerancia: Es una medida de colinealidad y multicolinealidad, es:
TOLi  1  Ri2
*
*
Ri2 es el coeficiente de determinación para la variable de predicción i por
las otras variables independientes. Conforme disminuye el valor de la
tolerancia la variable es mejor estimada por las otras variables
independientes (colinealidad).

Factor de inflación de varianza (VIF): es un indicador del efecto que
las otras variables independientes tienen en el error estándar de un
coeficiente de regresión. El factor de inflación de varianza está
directamente relacionado al valor de la tolerancia (VIFi = 1 / TOLi).
Valores grandes de VIF también indican un alto grado de colinealidad o
multicolinealidad entre las variables independientes.
Pág. 108
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
Fórmulas:
La ecuación de regresión simple es:
Yˆ  b0  b1V1
Donde:
bo = Término de intercepción
b1 = coeficiente de la regresión.
Error de predicción o residuo = diferencia entre valor real y estimado de la
variable dependiente.
El error estándar del estimado se determina como:
SEE 
SSE
n2
Con SSE = Suma de cuadrados del error.
n = tamaño de la muestra
El intervalo de confianza de predicción se determina como:
IC  Yˆ  t * SEE
La suma de cuadrados total es:
SST  SSR  SSE
n
n
n
i 1
i 1
i 1
 ( yi  y)2   ( yi  yˆi )2   ( yˆi  y)2
y = promedio de todas las observaciones
yi = valor de la observación individual i
ŷ = valor estimado de la observación i
El coeficiente de determinación se calcula como sigue:
R2 
SSR
SST
Para el caso de la regresión múltiple se tiene:
Yˆ  b0  b1V1  b2V2  e
Para probar la significancia de la regresión se utiliza el estadístico F:
SSR
F
SSE
dfr
dfe
Cada suma de cuadrados dividida entre sus grados de libertad representa la
varianza.
Pág. 109
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
DIAGNÓSTICO AVANZADO

Índice de condición: Medición de la cantidad de varianza asociada con un
Eigenvalor (valor característico) de manera que un índice grande indica un
alto grado de colinealidad.

Distancia de Cook (Di): Medida resumida de la influencia de una
observación simple con base en los cambios totales en todos los demás
residuos cuando la observación se excluye del proceso de estimación. Los
valores mayores a 1 indican influencia significativa de la observación en la
estimación de los coeficientes de la regresión.

COVRATIO (razón de covarianza): Mide la influencia de una observación
simple en conjunto completo de coeficientes de la regresión. Un valor
cercano a 1 indica poca influencia, si (COVRATIO – 1) >  3 p/n (p es el
número de variables independientes +1 y n es el tamaño de muestra), la
observación se considera que tiene influencia.

Residuo excluido (deleted residual): Es el proceso de calcular residuos
en los cuales la influencia de cada una de las observaciones se excluye
cuando se calcula su residuo. Esto se logra al omitir la i-ésima observación
de la ecuación de regresión usada para calcular el valor estimado Y.

DFBETA: Mide el cambio en un coeficiente de la regresión cuando una
observación se omite del análisis de la regresión, se establece en términos
del coeficiente mismo, también se puede tener una versión estandarizada
SDBETA, donde sus valores son ajustados por sus errores estándar, se
definen cortes en 1 o 2 correspondientes a niveles de confianza de 0.10 y
0.05 respectivamente.

DFFIT: Mide el impacto de una observación en el ajuste general del modelo,
con una versión estandarizada DFFIT. La mejor regla práctica es calsificar
como influenciables cualquier valor SDFFIT > 2 / raiz(p/n). p es el número
de variables independientes +1 y n es el tamaño de muestra.

Eigenvalor (valor característico): Mide la cantidad de varianza contenida
en la matriz de correlación de manera que la suma de los eigenvalores es
igual al número de variables. También se conoce como raíz latente o raíz
característica.

Matriz sombrero: Matriz que contiene valores para cada observación en la
diagonal conocida como matriz sombrero, que representan el impacto de la
Pág. 110
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
variable dependiente observada en su valor estimado por la regresión. Si
todas las observaciones tuvieran la misma influencia, tendrían un valor de
p/n. Si una observación no tiene influencia, su valor será -1/n, y cuando un
valor domina valdrá (n-1)/n. Los valores que exceden a 2p/n para muestra
grandes o 3p/n para muestras pequeñas (n<= 30) son candidatos como
observaciones influyentes.

Punto palanca (leverage point): Una observación que tiene un impacto
sustancial en los resultados de la regresión dadas sus diferencias con otras
observaciones en una o más de las variables independientes. La medida
más común de estos puntos es el valor sombrero contenido en la matriz
sombrero.

Distancia de Malahanobis (D2): Medida de la singularidad de una
observación simple con base en las diferencias entre los valores de la
observación y los valores promedio para todos los otros casos
de las
variables independientes. La influencia en la regresión por la observación es
diferente para una o más variables predictoras, causando un corrimiento en
la ecuación de regresión.

Outlier (punto aberrante o lejano): Es una observación que tiene una
diferencia sustancial entre sus valores observados y estimados en la
variable
dependiente
(un
residuo
grande)
o
entre
sus
variables
independientes y y los de otras observaciones. El objetivo de identificarlos
es que pueden representar de manera inapropiada el comportamiento de la
población.

Matriz de descomposición – varianza de los coeficientes de regresión:
Método para determinar la contribución relativa de cada uno de los
eigenvalores a cada uno de los coeficientes estimados. Si dos o más
coeficientes están muy asociados con un eigenvalor simple (índice de
condición)
indica
que
está
presente
un
nivel
inaceptable
de
multicolinealidad.

Residuo: Medida de la estimación predictiva de una observación simple,
calculado como la diferencia del valor observado y el valor estimado de la
variable dependiente. Se asume que los residuos tienen media cero y
varianza constante. También sirven para identificar outliers y observaciones
influenciables.
Pág. 111
MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / DIC. 2006
Residuos estandarizados: Reescalado de los residuos a una base común
dividiendo cada uno de los residuos entre la desviación estándar de los
residuos. De esta manera los residuos estandarizados tienen una media de
cero y una desviación estándar de uno. Los outliers son identificados como
las observaciones que tienen residuos mayores a 1 o 2 para niveles de
confianza de 0.10 y 0.05 respectivamente.

Residuos estudentizados: Difieren del residuo estandarizado en la forma
de calcular la desviación estándar. Para minimizar la influencia de un outlier
simple, la desviación estándar utilizada para estandarizar el residuo i-ésimo
se calcula de los estimados de la regresión excluyendo la observación iésima. Esto se hace de manera repetitiva para cada una de las
observaciones, cada vez se excluye la observación de los cálculos.
Evaluado la multicolinealidad
Corrida con SPSS – V10
Regression
Variables Entered/Removed(b)
Model
1
Variables Entered
Variables Removed Method
X7, X5, X6, X3, X2, X4, X1(a)
. Enter
a All requested variables entered.
b Dependent Variable: X9
Model Summary
Model
1
R
R Square Adjusted R Square Std. Error of the Estimate
.879(a)
.772
.755
4.4508
a Predictors: (Constant), X7, X5, X6, X3, X2, X4, X1
ANOVA(b)
Model
Sum of Squares
df Mean Square
Regression
6177.812
Residual
1822.444 92
7
Sig.
882.545 44.552 .000(a)
1
Pág. 112
F
19.809
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
Total
P. REYES / DIC. 2006
8000.256 99
a Predictors: (Constant), X7, X5, X6, X3, X2, X4, X1
b Dependent Variable: X9
Coefficients(a)
Unstandardized
Coefficients
Model
-9.255
4.949
X1
1.956
2.045
X2
1.280
X3
Collinearity
Statistics
t
Beta
Std.
Error
B
(Constant)
Standardized
Coefficients
Sig.
Tolerance
VIF
-1.870
.065
.287
.957
.341
.027
36.445
2.155
.170
.594
.554
.030
33.176
3.270
.406
.507
8.057
.000
.627
1.596
X4
-3.937E-03
.671
.000
-.006
.995
.347
2.884
X5
4.600
4.012
.384
1.147
.255
.022
45.401
X6
1.230
.954
.106
1.290
.200
.370
2.701
X7
.426
.356
.075
1.198
.234
.629
1.589
1
a Dependent Variable: X9
Collinearity Diagnostics(a)
Variance Proportions
Dimension Eigenvalue
Condition
Index
Model
(Constant)
X1
X2
X3
X4
X5
X6
X7
1
7.533
1.000
.00 .00 .00 .00 .00 .00 .00 .00
2
.251
5.474
.00 .00 .01 .01 .00 .00 .00 .01
3
.106
8.426
.00 .01 .01 .00 .01 .00 .04 .04
4
6.548E-02
10.726
.01 .00 .00 .04 .03 .00 .18 .09
5
2.463E-02
17.489
.01 .01 .01 .31 .00 .00 .00 .53
6
1.219E-02
24.861
.03 .00 .00 .07 .75 .00 .67 .05
7
6.259E-03
34.692
.86 .00 .00 .52 .17 .00 .10 .28
8
8.354E-04
94.959
.09 .97 .97 .05 .04 .99 .01 .00
1
a Dependent Variable: X9
Pág. 113
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
Faltan conceptos del capítulo 4 y 4ª.
Pág. 114
P. REYES / DIC. 2006
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
Ejemplo:
Familia
1
2
3
4
5
6
7
8
Total
Tarjetas
4
6
6
7
8
7
8
10
Tamano
2
2
4
4
5
5
6
6
Ingreso
14
16
14
17
18
21
17
25
Las instrucciones de Minitab para correr el ejemplo son:
1
2
Cargar datos
en Minitab.
2
Stat > Regression > Regression.
3
En Response, seleccionar Tarjetas.
4
En Predictors, seleccionar Tamano e Ingreso.
5
Click Graphs.
6
En Residuals for Plots, seleccionar Standardized.
7 En Residual Plots, seleccionar Individual Plots. Seleccionar Histogram
of residuals, Normal plot of residuals, y Residuals versus fits. Click OK.
8 Click Options. en Display, seleccionar PRESS y predicted R-square.
Click OK en cada uno de los cuadros de diálogo.
Los resultados se muestran a continuación:
Pág. 115
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
Normal Probability Plot of the Residuals
(response is Tarjetas)
99
95
90
Percent
80
70
60
50
40
30
20
10
5
1
-3
-2
-1
0
1
Standardized Residual
2
3
Regression Analysis: Tarjetas versus Tamano, Ingreso
The regression equation is
Tarjetas = 0.48 + 0.632 Tamano + 0.216 Ingreso
Predictor
Constant
Tamano
Ingreso
Coef
0.482
0.6322
0.2158
S = 0.780990
SE Coef
1.461
0.2523
0.1080
R-Sq = 86.1%
PRESS = 8.02177
T
0.33
2.51
2.00
P
0.755
0.054
0.102
R-Sq(adj) = 80.6%
R-Sq(pred) = 63.54%
Analysis of Variance
Source
Regression
Residual Error
Total
Source
Tamano
Ingreso
DF
1
1
DF
2
5
7
SS
18.9503
3.0497
22.0000
MS
9.4751
0.6099
F
15.53
P
0.007
Seq SS
16.5143
2.4360
Interpretación de resultados
Salida de sesión

El valor P en la tabla de ANOVA (0.000) muestra que el modelo estmado
por el procedimiento de regresión es significativo a un alfa de 0.05,
indicando que al menos un coeficiente es diferente de cero.
Pág. 116
MÉTODOS ESTADÍSTICOS MULTIVARIADOS

P. REYES / DIC. 2006
Los valores P de los coeficientes estimados para tamano es de 0.054
indicando que es significativo a un nivel alfa de 0.054. Sugiriendo que el
modelo de regresión simple es adecuado.

El valor de R cuadrado indica que los predoctores explican el 87.4% de
la varianza en Tarjetas. La R cuadrada ajustada es 85.9%, que
representa la contribución del número de predictores en el modelo.
Ambos valores indican que el ajuste es adecuado.

El valor pronosticdo R cuadrado es 78.96%, dado que es parecido a R
cuadrado y r cuadrado ajustado, el modelo no parece estar
sobreajustado y tiene una buena habilidad de predicción

Las observaciones 4 y 22 se identifican como no usuales dado que el
valor estandarizado de los residuos es mayor a 2. Indicando puntos
aberantes o outliers.
Salida gráfica

El histograma de los residuos muestra un patrón consistente con la
distribución normal. El histograma es más efectivo para grupos de más
de 50 observaciones. La gráfica de probabilidad normal es más fácil de
interpretar con pequeñas muestras.

En la gráfica normal también sobresalen los outliers 4 y 22.

La gráfica de residuos contra valores de predicción muestra que los
residuos son más pequeños conforme conforme los valores ajustados se
incrementan, indicando que no tienen varianza constante.
Pág. 117
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
Ejemplo con datos de Hatco
Hacer un estudio de correlación entre las variables independientes:
1
Cargar datos en Minitab.
2
Stat > Basic statistics > Correlation
3
Variables X1 – X7 X9 indicar Show P value
4
OK
Los resultados son los siguientes:
Correlations: X1, X2, X3, X4, X5, X6, X7, X9
X1
-0.349
0.000
X2
X3
0.476
0.000
-0.472
0.000
X4
0.050
0.618
0.272
0.006
-0.095
0.347
X5
0.612
0.000
0.513
0.000
0.064
0.524
0.299
0.003
X6
0.077
0.446
0.186
0.064
-0.015
0.880
0.788
0.000
0.241
0.016
X7
-0.483
0.000
0.470
0.000
-0.407
0.000
0.200
0.046
-0.055
0.586
0.177
0.078
X9
0.676
0.000
0.083
0.412
0.556
0.000
0.225
0.024
0.701
0.000
0.257
0.010
X2
X3
X4
X5
X6
X7
-0.192
0.055
Cell Contents: Pearson correlation
P-Value
La variable X5 (servicio en general) está más correlacionado con la respuesta
X9 con r = 0.701. X1 también está correlacionada con la respuesta sin embargo
tiene correlación con X5 por lo que el uso de ambas es cuestionable.
Las instrucciones de Minitab para correr el ejemplo son:
1
Cargar datos en Minitab.
2
Stat > Regression > Regression.
3
En Response, seleccionar X9 (utilización del producto).
Pág. 118
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
4
En Predictors, seleccionar X1 – X7.
5
Click Graphs.
6
En Residuals for Plots, seleccionar Standardized.
7 En Residual Plots, seleccionar Individual Plots. Seleccionar Histogram
of residuals, Normal plot of residuals, y Residuals versus fits. Click OK.
Regression Analysis: X9 versus X1, X2, X3, X4, X5, X6, X7
The regression equation is
X9 = - 9.25 + 1.96 X1 + 1.28 X2 + 3.27 X3 - 0.004 X4 + 4.60 X5 + 1.23 X6
+ 0.426 X7
Predictor
Constant
X1
X2
X3
X4
X5
X6
X7
Coef
-9.255
1.956
1.280
3.2702
-0.0039
4.600
1.2305
0.4261
S = 4.45075
SE Coef
4.949
2.045
2.155
0.4059
0.6714
4.012
0.9537
0.3557
R-Sq = 77.2%
T
-1.87
0.96
0.59
8.06
-0.01
1.15
1.29
1.20
PRESS = 2144.13
P
0.065
0.341
0.554
0.000
0.995
0.255
0.200
0.234
R-Sq(adj) = 75.5%
R-Sq(pred) = 73.20%
Analysis of Variance
Source
Regression
Residual Error
Total
Source
X1
X2
X3
X4
X5
X6
X7
DF
1
1
1
1
1
1
1
DF
7
92
99
SS
6177.81
1822.44
8000.26
MS
882.54
19.81
F
44.55
P
0.000
Seq SS
3659.76
927.88
1424.10
80.48
18.20
38.97
28.43
Unusual Observations
Obs
7
11
14
22
55
100
X1
4.60
2.40
3.70
3.40
3.80
2.50
X9
46.000
32.000
38.000
35.000
39.000
33.000
Fit
58.734
41.365
47.833
34.870
33.433
43.721
SE Fit
1.379
1.014
1.098
2.711
2.712
1.049
Residual
-12.734
-9.365
-9.833
0.130
5.567
-10.721
St Resid
-3.01R
-2.16R
-2.28R
0.04 X
1.58 X
-2.48R
R denotes an observation with a large standardized residual.
X denotes an observation whose X value gives it large influence.
Pág. 119
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / DIC. 2006
Normplot of Residuals for X9
Normal Probability Plot of the Residuals
(response is X9)
99.9
99
Percent
95
90
80
70
60
50
40
30
20
10
5
1
0.1
-3
-2
-1
0
1
Standardized Residual
2
3
Residuals Versus the Fitted Values
(response is X9)
2
Standardized Residual
1
0
-1
-2
-3
20
30
40
Fitted Value
50
Pág. 120
60
Descargar