TÉCNICAS MULTIVARIANTES

Anuncio
TÉCNICAS MULTIVARIANTES
1. Introducción
2. Clasificación de las técnicas
3. Etapas de análisis
4. Supuestos básicos
5. Valores perdidos y anómalos
introducción
Definición.
-
Conjunto de métodos estadísticos cuya finalidad es analizar
simultáneamente conjuntos de datos multivariantes: hay
varias variables medidas para cada caso.
-
Permiten un mejor entendimiento del fenómeno objeto de
estudio, obteniendo información que los métodos univariantes
y bivariantes son incapaces de conseguir.
Objetivos.
-
Proporcionar métodos para estudiar datos multivariantes
que el análisis estadístico uni y bidimensional es incapaz de
conseguir.
-
Ayudar al investigador a tomar decisiones óptimas en el
contexto en el que se encuentre teniendo en cuenta la
información disponible por el conjunto de datos analizado.
clasificación
3 grupos:
-
Métodos de dependencia
-
Métodos de interdependencia
-
Métodos estructurales
Métodos de dependencia:
-
Suponen que las variables analizadas están divididas en dos
grupos: las variables dependientes y las variables
independientes.
-
El objetivo consiste en determinar si el conjunto de variables
independientes
afecta
al
conjunto
de
variables
dependientes y de qué forma.
clasificación
Métodos de interdependencia:
-
No distinguen entre variables dependientes e independientes
y su objetivo consiste en identificar qué variables están
relacionadas, cómo lo están y por qué.
Métodos estructurales:
-
Suponen que las variables están divididas en dos grupos: el
de las variables dependientes y el de las independientes.
-
El objetivo es analizar como las variables independientes
afectan a las variables dependientes y las relaciones de
las variables de los dos grupos entre sí.
Regresión
clasificación
Supervivencia
Métrica
MANOVA
Correlación canónica
Dependencia
Discriminante
No métrica
Regresión logística
Conjoint
Componentes principales
Factorial
Métrica
Cluster
Escalas multidimensionales
Interdependencia
Correspondencias
No métrica
Modelos log-lineales
Cluster
Escalas multidimensionales
Modelos estructurales
clasificación
¿La investigación responde a un problema de dependencia
entre variables o de interdependencia de las mismas?
¿Cómo están medidas las variables: métricas o no métricas?
Si es un problema de dependencias,
¿cuántas variables dependientes existen?
clasificación
Análisis de dependencias
varias
relaciones
una
relación
1 variable
dependiente
dependencia
métrica
ecuaciones
estructurales
regresión
múltiple
> 1 variable
dependiente
dependencia
no métrica
análisis
discriminante
dependencia
métrica
dependencia
no métrica
independencia
independencia
no métrica
métrica
Regresión
logística
MANOVA
correlación
canónica
clasificación
Análisis de dependencias
varias
relaciones
una
relación
1 variable
dependiente
dependencia
métrica
ecuaciones
estructurales
regresión
múltiple
> 1 variable
dependiente
dependencia
no métrica
análisis
discriminante
dependencia
métrica
dependencia
no métrica
independencia
independencia
no métrica
métrica
Regresión
logística
MANOVA
correlación
canónica
clasificación
Regresión lineal múltiple:
-
Relación entre 1 variable dependiente métrica y varias
variables independientes métricas o no métricas.
Y1 Å (X1, X2, X3, .... Xm)
-
Por ejemplo: Determinar si existe o no relación entre el
resultado neto y la superficie, dimensión e inversión
inicial.
¿Y si el resultado neto está codificado en Pérdidas=1,
Equilibrio=2 y Ganancias=3?
clasificación
Análisis de dependencias
varias
relaciones
una
relación
1 variable
dependiente
dependencia
métrica
ecuaciones
estructurales
regresión
múltiple
> 1 variable
dependiente
dependencia
no métrica
análisis
discriminante
dependencia
métrica
dependencia
no métrica
independencia
independencia
no métrica
métrica
Regresión
logística
MANOVA
correlación
canónica
clasificación
-
Análisis discriminante. Proporciona reglas de clasificación
óptimas de nuevas observaciones de las que se desconoce
su grupo de procedencia basándose en la información
proporcionada los valores que en ella toman las variables
independientes.
-
Modelos de regresión logística. Se utilizan como una
alternativa al análisis discriminante cuando no hay
normalidad.
clasificación
Análisis de dependencias
varias
relaciones
una
relación
1 variable
dependiente
dependencia
métrica
ecuaciones
estructurales
regresión
múltiple
> 1 variable
dependiente
dependencia
no métrica
análisis
discriminante
dependencia
métrica
dependencia
no métrica
independencia
independencia
no métrica
métrica
Regresión
logística
MANOVA
correlación
canónica
Análisis de correlación canónica:
clasificación
Y1 Å (X1, X2, X3, .... Xm) regresión, discriminante y log
(Y1, Y2, Y3, .... Ym) Å (X1, X2, X3, .... Xm) correlación canónica
-
-
Asociación lineal entre un conjunto de variables dependientes y otro
de variables independientes.
-
Si la dependencia es no métrica
-
Si la dependencia es métrica Æ sólo si la independencia
también lo es
Por ejemplo:
-
Determinar si existe o no relación entre el resultado neto y la
producción de contaminantes de una explotación con la
superficie, dimensión e inversión inicial. Corr. canónica
-
Determinar la misma relación pero con el género del ganadero
y el tipo de explotación (intensivo, extensivo) MANOVA
clasificación
Análisis de dependencias
varias
relaciones
una
relación
1 variable
dependiente
dependencia
métrica
ecuaciones
estructurales
regresión
múltiple
> 1 variable
dependiente
dependencia
no métrica
análisis
discriminante
dependencia
métrica
dependencia
no métrica
independencia
independencia
no métrica
métrica
Regresión
logística
MANOVA
correlación
canónica
clasificación
Análisis de dependencias
varias
relaciones
una
relación
1 variable
dependiente
dependencia
métrica
ecuaciones
estructurales
regresión
múltiple
> 1 variable
dependiente
dependencia
no métrica
análisis
discriminante
dependencia
métrica
dependencia
no métrica
independencia
independencia
no métrica
métrica
Regresión
logística
MANOVA
correlación
canónica
clasificación
Ecuaciones estructurales:
-
Varias relaciones: estructuras de la covarianza y análisis
factorial confirmatorio
Y1 Å (X11, X12, X13, .... X1m)
Y2 Å (X21, X22, X23, .... X2m)
Y3 Å (X31, X32, X33, .... X3m)
clasificación
Análisis de dependencias
varias
relaciones
una
relación
1 variable
dependiente
dependencia
métrica
ecuaciones
estructurales
regresión
múltiple
> 1 variable
dependiente
dependencia
no métrica
análisis
discriminante
dependencia
métrica
dependencia
no métrica
independencia
independencia
no métrica
métrica
Regresión
logística
MANOVA
correlación
canónica
clasificación
Análisis de interdependencia.
-
Las variables no se pueden separar en dependientes e
independientes.
-
Objetivo: determinar cómo y por qué las variables están
correlacionadas.
clasificación
Análisis de interdependencias
Relación
entre
variables
Métricas
componentes
principales
Relación
entre
casos
Relación
entre
objetos
análisis
cluster
escalamiento
multidimensional
No métricas
análisis
factorial
análisis
correspondencias
clasificación
Análisis de interdependencias
Relación
entre
variables
Métricas
componentes
principales
Relación
entre
casos
Relación
entre
objetos
análisis
cluster
escalamiento
multidimensional
No métricas
análisis
factorial
análisis
correspondencias
clasificación
Análisis de componentes principales.
-
Técnica de reducción de datos.
-
Objetivo: construir combinaciones lineales de las variables
iniciales que expliquen la mayor parte de la información
contenida en esas variables.
-
Esas
combinaciones
se
denominan
Componentes
Principales, están incorrelacionados y cada componente
sucesivo explica menos varianza.
-
Por ejemplo: para comparar 10 explotaciones, es mejor
utilizar 5 Componentes Principales que 150 variables
clasificación
Análisis de interdependencias
Relación
entre
variables
Métricas
componentes
principales
Relación
entre
casos
Relación
entre
objetos
análisis
cluster
escalamiento
multidimensional
No métricas
análisis
factorial
análisis
correspondencias
Análisis factorial.
clasificación
-
Técnica de reducción de datos.
-
Objetivo: establecer qué causas latentes (factores) causan la
correlación entre las variables observadas.
-
Por ejemplo: el desarrollo de un animal no se puede medir
directamente, pero sí es posible medir algunos de sus
indicadores:
-
El peso y su incremento
-
La alzada y sus incrementos (cruz, palomillas, etc.)
-
Las dimensiones de algunas regiones corporales y su
relación respecto a otras
-
El análisis factorial establecería que el factor
“desarrollo” explica todas estas variables y cómo
se relaciona cada variable con el factor
clasificación
Análisis de interdependencias
Relación
entre
variables
Métricas
componentes
principales
Relación
entre
casos
Relación
entre
objetos
análisis
cluster
escalamiento
multidimensional
No métricas
análisis
factorial
análisis
correspondencias
clasificación
Análisis de correspondencias.
-
Permite visualizar gráficamente tablas de contingencia.
-
Por ejemplo: Si existe relación entre la formación del
ganadero y el tipo de gestión
-
Formación: sin formación, primaria, bachillerato,
universidad, formación profesional, módulos, escuela
de capataces o sus combinaciones
-
Tipo de gestión: ninguna, asesor fiscal, veterinario
clínico, agrónomo, veterinario asesor o sus
combinaciones
clasificación
Análisis de interdependencias
Relación
entre
variables
Métricas
componentes
principales
Relación
entre
casos
Relación
entre
objetos
análisis
cluster
escalamiento
multidimensional
No métricas
análisis
factorial
análisis
correspondencias
clasificación
Análisis de escalamiento multidimensional.
-
Permite aflorar los criterios que utilizan los individuos para
considerar que distintos objetos son parecidos o
distintos.
-
Por ejemplo: Estudios de preferencia del jamón curado
clasificación
Análisis de interdependencias
Relación
entre
variables
Métricas
componentes
principales
Relación
entre
casos
Relación
entre
objetos
análisis
cluster
escalamiento
multidimensional
No métricas
análisis
factorial
análisis
correspondencias
clasificación
Análisis de conglomerados (cluster).
-
A diferencia del factorial que agrupa variables, pretende
agrupar observaciones.
-
De tal modo que las observaciones dentro de los grupos
sean parecidas respecto a las variables utilizadas para
agrupar.
-
Y que las observaciones entre los grupos sean lo más
diferentes posibles respecto a las mismas variables.
-
Por ejemplo, para hacer grupos de animales en un programa
de mejora genética, o de explotaciones de cara a optimizar su
gestión.
etapas del análisis
Proceso de aplicación de la técnica multivariante.
1. Definir el problema que se está investigando (modelo
conceptual)
-
Análisis conceptual de su objeto de estudio
-
Identificar las relaciones fundamentales que se van a
abordar
-
Elección de la técnica a aplicar
Proceso de aplicación de la técnica multivariante.
etapas del análisis
Por ejemplo:
Analizar la gestión de los sectores ecológicos
-
Variables y sectores
-
Relaciones entre las variables y los casos:
-
Comparar unos sectores con otros: AF/ACP + ANOVA
-
Nos da igual el sector: AF/ACP + CLUSTER
-
Correlación canónica
etapas del análisis
2. Desarrollo del plan de análisis
-
Tamaño muestral mínimo para la técnica concreta
-
Las escalas de las variables a analizar son correctas
3. Condiciones de aplicabilidad de la técnica elegida
4. Desarrollo de la técnica, incorporando o eliminando
variables según la bondad de ajuste
etapas del análisis
5. Interpretación de los resultados
-
Interpretar el modelo global
-
Analizar las variables individuales: cargas factoriales,
coeficientes, varianzas, etc.
-
La interpretación retroalimenta al paso 4
6. Validación del modelo. Técnicas de diagnóstico que
permitan generalizar los resultados a la población.
supuestos básicos
Supuestos básicos.
-
Normalidad
-
Homocedasticidad
-
Linealidad
-
Independencia
supuestos básicos
Normalidad (uni y multivariante).
-
-
Cuando se pretende comprobar una hipótesis se pueden
cometer 2 errores:
-
Error tipo 1 (α): probabilidad de equivocarnos al rechazar
la hipótesis (normalmente se elige 0,05)
-
Error tipo 2 (β): probabilidad de equivocarnos al aceptar
la hipótesis (1- β: potencia del contraste)
El investigador quiere pruebas potentes y valores α
pequeños.
Si las variables no son normales multivariantes el error tipo 1
se incrementa.
supuestos básicos
Normalidad univariante.
-
La normalidad univariante de todas las variables no implica
normalidad multivariante, aunque es difícil que no lo sea.
-
Si no se detecta normalidad multivariante habría que estudiar
cada variable y detectar cuál es la problemática.
-
Análisis de la normalidad univariante:
supuestos básicos
-
Estudiar la asimetría y curtosis de la variable (si la variable
está tipificada, la asimetría es cero y la curtosis 3)
-
Exploración gráfica con gráficos Q-Q
-
Contrastes de normalidad
3
0
supuestos básicos
Contrastes de normalidad:
-
Todos tienen como hipótesis nula la normalidad de la
distribución
-
Cada uno tiene su utilidad
-
Shapiro –Wilk funciona bien con muestras pequeñas
-
El más habitual es Kolmogorov-Smirnov
-
En muestras pequeñas es mejor ser conservador con el
nivel de significación
supuestos básicos
Con Statgraphics:
Computed Chi-Square goodness-of-fit statistic = 116,48
P-Value = 1,92957E-12
Shapiro-Wilks W statistic = 0,937943
P-Value = 5,58428E-10
Z score for skewness = 1,91137
P-Value = 0,0559571
Z score for kurtosis = 0,326301
P-Value = 0,744192
supuestos básicos
Exploración gráfica Q-Q: (sólo para más de 20 casos)
Quantile-Quantile Plot
150
NHT
120
90
60
30
0
0
30
60
90
120
Normal distribution
150
supuestos básicos
Exploración gráfica Q-Q: (sólo para más de 20 casos)
Quantile-Quantile Plot
(X 100000)
1
RN
0,6
0,2
-0,2
-0,6
-1
-1
-0,6
-0,2
0,2
0,6
Normal distribution
1
(X 100000)
supuestos básicos
Análisis multivariante de la normalidad.
-
Existen pocos contrastes (Mardia-curtosis y Mardiaapuntalamiento) y no se conoce bien su distribución
-
También el gráfico chi-cuadrado:
-
Se calculan las distancias de Mahanalobis (D)
-
Su cuadrado se ordenan de menor a mayor (D2)
-
En cada distancia se calcula su percentil (j-0,5)/n
-
Se calculan los valores X2 de los percentiles de una
distribución X2 con p grados de libertad (p=número de
variables estudiadas)
-
Se representan D2 y X2
-
Con Statgraphics se utiliza “Multivariate Control Chart”
-
La variable o variables
transformar o eliminar
problemáticas
se
pueden
Homoscedasticidad (univariante):
supuestos básicos
-
En datos agrupados, la homoscedasticidad significa que la
varianza de la variable continua es estadísticamente la
misma en todos los grupos que la variable no métrica
delimita los grupos.
-
El contraste es si la varianza es la misma
-
Por ejemplo:
-
Variable continua: superficie (ha)
-
Variable no métrica: especie (0=ovino, 1=caprino)
-
Dentro de los grupos 0 y 1, la varianza de la superficie
debe ser estadísticamente la misma
Homoscedasticidad (multivariante):
-
Se contrasta si la matriz varianzas-covarianzas es la
misma
supuestos básicos
Homoscedasticidad (univariante):
-
Contraste de Levene (hipótesis nula: la varianza de la
variable X es igual en todos los niveles que forma la variable
Z)
Homoscedasticidad (multivariante):
-
Contraste M de Box
-
Es muy sensible (se recomienda que p<0,001)
-
Es necesaria normalidad multivariante para el contraste
Por ejemplo:
supuestos básicos
-
Estudiar si los ganaderos son conscientes de que la
producción intensiva perjudica el medio ambiente
-
O por el contrario, los ganaderos intensivos lo son
porque no son conscientes de esto
-
Si esto es así, los ganaderos intensivos estarían
significativamente más en desacuerdo con la afirmación
que los extensivos
Por ejemplo:
-
supuestos básicos
Esto es un problema de análisis discriminante:
-
Una variable dependiente no métrica (intensivo o
extensivo)
-
Varias variables independientes métricas:
-
Y1: Opinión (1 a 5): la g.intensiva perjudica el m.
ambiente
-
Y2: Opinión (1 a 5): no permitir g.intensiva en
espacios protegidos y naturales
-
Y3: Opinión (1 a 5): reducir ayudas a g.intensiva U.E.
-
Y4: Opinión (1 a 5): debe informarse más sobre los
efectos de la g. Intensiva a la opinión pública
Por ejemplo:
supuestos básicos
-
Debe comprobarse la hipótesis nula, que la matriz de
varianzas-covarianzas de las variables Y es a misma para los
niveles de X (intensivo-extensivo).
-
Contraste M de Box.
supuestos básicos
Linealidad:
-
Fundamental en todas las técnicas que se centren en el
análisis de las matrices de correlaciones o de covarianzas
-
Porque el coeficiente de correlación de Pearson sólo puede
captar relaciones lineales
-
Para la regresión lineal múltiple se analizan los residuos
-
Para el resto de los casos: gráficos de dispersión
bivariante
-
Por ejemplo:
consumo inc. Peso inc. Diám.
Digest
Consumo MS (kg/animal)
1
0,87
0,91
-0,66
Incremento de Peso
0,87
1
0,79
0,81
Incremento de Diámetro
0,91
0,79
1
0,92
Digestibilidad MS (%)
-0,66
0,81
0,92
1
supuestos básicos
consumo
inc. Peso
Consumo
inc. Diám.
40
40
30
30
20
20
10
10
0
0
0
20
40
40
Inc Peso
30
20
10
0
0
Inc Diam
20
40
60
40
20
0
20
40
60
40
80
30
60
20
0
40
40
30
30
20
20
10
10
20
40
60
0
0
100
20
40
60
0
20
40
60
0
20
40
60
40
30
20
40
10
20
10
0
0
20
40
0
60
20
40
0
60
100
40
40
80
30
30
20
20
10
10
60
40
20
0
0
0
80
0
60
0
Diges
100
0
60
Digestibilidad
20
40
60
0
0
20
40
60
0
20
40
60
supuestos básicos
Independencia:
-
Los valores que toman las variables en un caso no están
influidos por los valores que toman en otro caso
-
Si no se está seguro de esto, habría que incrementar el
nivel de significación de los contrastes 10 veces (de
p<0,05 a p<0,005)
-
La independencia se asegura en el diseño experimental
valores perdidos y outliers
Valores perdidos y anómalos:
fiabilidad de los datos de partida
valores perdidos y outliers
Valores perdidos:
-
La existencia de valores perdidos es inevitable si se trabaja
con encuestas.
-
El ganadero no quiere declarar si tiene préstamo
-
Se anota una cantidad en una casilla equivocada
-
La cuantía de las ayudas aún no se conoce para el
ejercicio en concreto, etc.
-
La consecuencia depende de su patrón de distribución, de
la cantidad de valores y de la causa de pérdida.
-
Lo más importante es su distribución: si es aleatoria no
causará muchos daños, si tiene un patrón será muy dañino.
valores perdidos y outliers
Por ejemplo:
Opinión de los ganaderos sobre las políticas sectoriales:
V1 = las ayudas perjudican el libre comercio
V2 = no deben aplicarse aranceles europeos
V3 = a la UE le interesa poco el medio ambiente
V4 = deben disminuir las ayudas
V5 = ganadero ecológico (1) o convencional (2)
Caso
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
V1
5
5
5
5
5
5
5
5
4
5
5
5
5
5
5
5
5
5
5
1
5
5
5
5
5
4
2
4
5
5
V2
5
5
5
4
5
5
4
4
2
5
4
3
4
5
4
4
5
4
5
4
3
3
3
4
4
5
V3
4
4
4
3
2
5
5
3
4
3
3
2
4
5
5
3
5
4
2
3
3
3
5
1
5
5
5
5
4
5
V4
4
2
5
5
1
3
1
V4*
5
4
2
3
5
5
3
1
3
4
2
1
3
2
1
3
4
2
1
3
4
4
4
4
4
5
1
1
1
4
4
4
4
4
5
1
5
2
5
5
V5
5
5
5
4
5
5
4
5
5
3
5
5
4
3
4
5
3
3
4
5
5
5
5
5
3
5
3
5
5
5
V6
2
2
2
2
2
1
1
2
2
1
2
2
2
1
2
1
1
1
2
2
2
2
1
1
1
2
2
2
1
2
valores perdidos y outliers
valores perdidos y outliers
V4 = deben disminuir las ayudas
N
Min
Max
Med
D.E.
V4
24
1
5
2,92
1,53
V4*
23
1
5
3,43
1,37
valores perdidos y outliers
Diagnóstico de aleatoriedad de los valores perdidos:
-
Procedimiento basado en la lógica de la investigación:
-
Si el patrón es sistemático (no aleatorio), el
comportamiento de la variable con valores perdidos
debe ser diferente respecto a otras variables sin valores
perdidos.
-
El investigador deberá comprobar qué variables se
comportan de manera distinta a posteriori.
-
Si no existen variables distintas a posteriori, hay que
asumir la aleatoriedad de los valores perdidos.
valores perdidos y outliers
-
Se realiza una prueba t para muestras independientes:
-
A partir de la variable a analizar se crea otra
ficticia, codificada con 0=hay dato; 1=dato
faltante
-
Se desarrolla la prueba t con otra variable sin
datos faltantes según la variable ficticia
-
Si las medias son significativamente diferentes,
la distribución sigue un patrón sistemático
valores perdidos y outliers
En el ejemplo:
Caso
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
V1
5
5
5
5
5
5
5
5
4
5
5
5
5
5
5
5
5
5
5
1
5
5
5
5
5
4
2
4
5
5
V2
5
5
5
4
5
5
4
4
2
5
4
3
4
5
4
4
5
4
5
4
3
3
3
4
4
5
Prueba t con V2
V3
4
4
4
3
2
5
5
3
4
3
3
2
4
5
5
3
5
4
2
3
3
3
5
1
5
5
5
5
4
5
V4
4
2
5
5
1
3
1
V4*
5
4
2
3
5
5
3
1
3
4
2
1
3
2
1
3
4
2
1
3
4
4
4
4
4
5
1
1
1
4
4
4
4
4
5
1
5
2
5
5
V5
5
5
5
4
5
5
4
5
5
3
5
5
4
3
4
5
3
3
4
5
5
5
5
5
3
5
3
5
5
5
V6
2
2
2
2
2
1
1
2
2
1
2
2
2
1
2
1
1
1
2
2
2
2
1
1
1
2
2
2
1
2
V4(COD)
V4*(COD)
0
1
1
0
1
1
1
1
1
0
1
1
1
1
1
1
1
0
1
1
1
1
1
1
1
1
1
0
0
1
1
1
1
1
1
1
0
1
1
0
1
1
1
1
1
0
0
0
1
1
1
1
1
1
1
0
0
1
1
1
valores perdidos y outliers
En el ejemplo:
Prueba t con V2
V4(COD)
V2(media)
V4*(COD)
1
0
t
1
0
t
3,96
3,83
0,23
4,30
2,71
-3,95*
Luego, la distribución de los valores perdidos de V4 es
aleatoria, mientras que V4* sigue un patrón sistemático
valores perdidos y outliers
Diagnóstico de aleatoriedad de los valores perdidos:
-
Prueba de las “correlaciones dicotomizadas”:
-
Procedimiento basado en la coincidencia significativa
entre los casos concretos en que las variables toman un
valor perdido.
-
Las variables con casos perdidos se transforman en
variables ficticias codificadas: 0=valor perdido, 1=hay
dato
-
Se calcula la matriz de correlaciones
-
Si hay correlación significativa entre las variables
ficticias estamos ante un posible patrón significativo
valores perdidos y outliers
En el ejemplo:
V4(COD)
V4*(COD)
V2(COD)
V4(COD)
1
0,118 (0,53)
-0,19 (0,29)
V4*(COD)
0,18 (0,53)
1
0,71 (0,00)*
V2(COD)
-0,19 (0,29)
0,71 (0,00)*
1
Luego, la distribución de los valores perdidos de V4 es
aleatoria, mientras que V4* sigue un patrón sistemático
valores perdidos y outliers
Tratamiento de los valores perdidos:
-
-
Si los valores siguen un patrón:
-
Grave problema
-
No hay medios estadísticos conocidos para reducir el
número de valores perdidos
-
No es posible generalizar los resultados
Si los valores son aleatorios:
-
Problema menor con dos opciones:
-
Eliminar todos los casos con un valor perdido
-
Imputar un valor estimado
valores perdidos y outliers
-
Eliminar todos los casos con un valor perdido:
-
Procedimiento
estadísticos
-
Se corre el riesgo de perder mucha información
-
Especial cuidado en los análisis basados en análisis de
varianzas-covarianzas, correlaciones
-
Se puede eliminar selectivamente en cada análisis
sólo los casos con datos faltantes en una de las
variables implicadas
-
por
defecto
en
los
programas
Aunque esto genera problemas por el continuo
cambio de tamaño muestral
valores perdidos y outliers
-
Imputar valores en los datos perdidos:
-
Lo más utilizado es imputar la media:
-
Procedimiento conservador
-
La media no cambia pero la varianza se reduce
valores perdidos y outliers
-
Imputar valores en los datos perdidos:
-
Como método alternativo, la regresión:
-
Como variable dependiente se usa la variable
con datos perdidos y como variables
independientes se usan el resto de las variables
con todos los datos
-
Deben ser todas variables métricas
-
Método más razonable que la media, aunque:
-
Las estimaciones serán más coherentes con
las variables independientes que los valores
“reales”
-
La varianza también se reduce
-
Sólo si las estimaciones pertenecen al rango
de la variable (por ejemplo, V4 no puede ser 7)
valores perdidos y outliers
Valores atípicos (outliers):
-
Aquellos casos que una, dos o más variables toman valores
extremos que difieren del comportamiento del resto de la
muestra y hacen sospechar de que han sido generados por
mecanismos distintos.
-
Consecuencias:
-
Distorsionan los resultados
-
Suelen afectar a la normalidad
valores perdidos y outliers
Valores atípicos (outliers):
-
Causas:
-
Errores en los datos (recogida e introducción)
-
Errores intencionados por parte del encuestado
-
Errores de muestreo (introducir en la muestra un
individuo que no pertenece a la población)
-
Outliers verdaderos: casos que pertenecen a la
población objeto de estudio y que realmente
difieren del resto por la variabilidad inherente
valores perdidos y outliers
Detección de valores atípicos
-
Univariante
-
Bivariante
-
Multivariante
valores perdidos y outliers
Detección univariante de valores atípicos
-
Considerar atípicos aquellos casos cuyos valores
estandarizados (media = 0 y desviación típica = 1) superen el
siguiente umbral (k):
-
N < 80 Æ 2,5
-
N > 80 Æ 3 o 4
-
Si la variable sigue una distribución normal Æ 3
(x’) = (xi – x)/Sx
x’ < x + kSx
-
Test de Grubbs
valores perdidos y outliers
Si el mismo caso es atípico en varias variables, habría que
pensar en que es un outlier multivariante
3,5
3
2,5
2
1,5
1
0,5
0
-0,5
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
-1
-1,5
-2
valores perdidos y outliers
Detección bivariante de valores atípicos
-
Tiene utilidad cuando se va a utilizar como dependiente
alguna de las variables
-
Se regresa la posible variable dependiente con las demás
independientes:
-
Se analiza la dispersión de los datos con los intervalos de
confianza (95%)
-
Si los valores que quedan fuera son sistemáticamente
los mismos, habría que pensar en outlier
valores perdidos y outliers
Por ejemplo: resultado neto,
antigüedad de la actividad
producción
UTH
Plot of Fitted Model
Plot of Fitted Model
(X 10000)
8
6
6
RN
(X 10000)
8
4
4
2
2
0
0
0
2
4
6
8
10
(X 1000)
Produccion leche
0
1
2
Plot of Fitted Model
6
4
2
0
0
10
3
UTH
(X 10000)
8
RN
RN
leche,
20
30
40
Antiguedad
50
60
4
5
6
y
valores perdidos y outliers
Detección multivariante de valores atípicos
-
Tiene utilidad cuando se van a utilizar técnicas multivariantes
-
Se utiliza la distancia de Mahalanobis (D) como la medida
entre el centroide de cada caso al conjunto de los datos
valores perdidos y outliers
¿Qué hacer con los valores atípicos?
-
Si es un error evidente es conveniente corregirlo o
eliminarlo
-
Error en la introducción de los datos: buscar el original y
corregirlo
-
Error en el registro:
-
Volver a encuestar el caso en cuestión
-
Si no se puede (p.e. la encuesta es anónima)
cambiarlo por el valor medio
valores perdidos y outliers
¿Qué hacer con los valores atípicos?
-
Si es un outlier verdadero o no se puede descartar que no lo
sea:
-
Algunos autores consideran correcto su eliminación para
que los análisis reflejen la tendencia mayoritaria de la
población
-
Otros consideran que la eliminación no se debe hacer:
-
Suavizar su influencia con transformaciones
(aunque dificulta la interpretación de los
resultados)
-
Utilizar contrastes no paramétricos (son más
robustos)
Descargar