ANÁLISIS DISCRIMINANTE

Anuncio
ANÁLISIS DISCRIMINANTE
ANÁLISIS
Á
DISCRIMINANTE
1. Introducción
2 Etapas
2.
3. Caso práctico
introducción
Análisis de dependencias
varias
relaciones
una
relación
1 variable
dependiente
dependencia
métrica
ecuaciones
estructurales
regresión
múltiple
> 1 variable
dependiente
dependencia
no métrica
análisis
discriminante
dependencia
métrica
dependencia
no métrica
independencia
independencia
no métrica
métrica
Regresión
logística
MANOVA
correlación
canónica
introducción
Técnica de clasificación.
-
A d a comprender
Ayuda
d las
l diferencias
dif
i entre
t grupos.
introducción
Técnica de clasificación.
-
A d a comprender
Ayuda
d las
l diferencias
dif
i entre
t grupos.
-
Explica, en función de variables métricas observadas,
porqué los casos de estudio se encuentran asociados a
distintos niveles de un factor.
factor
introducción
Técnica de clasificación.
-
A d a comprender
Ayuda
d las
l diferencias
dif
i entre
t grupos.
-
Explica, en función de variables métricas observadas,
porqué los casos de estudio se encuentran asociados a
distintos niveles de un factor.
factor
-
Puede ser descriptivo o predictivo.
introducción
Técnica de clasificación.
-
A d a comprender
Ayuda
d las
l diferencias
dif
i entre
t grupos.
-
Explica, en función de variables métricas observadas,
porqué los casos de estudio se encuentran asociados a
distintos niveles de un factor.
factor
-
Puede ser descriptivo o predictivo.
-
Necesita que los grupos sean conocidos a priori.
introducción
Análisis discriminante descriptivo.
p
-
Objetivo.
Obj
ti
C
Caracterizar
t i
pampeanos.
l
los
productores
d t
caprinos
i
introducción
Análisis discriminante descriptivo.
p
-
Objetivo.
Obj
ti
C
Caracterizar
t i
pampeanos.
l
los
productores
d t
caprinos
i
-
Diseño. Una muestra aleatoria de 100 productores
caprinos pampeanos y 100 no pampeanos; y se toman
datos del sistema de producción, sus resultados técnicos
y económicos.
introducción
Análisis discriminante descriptivo.
p
-
Objetivo.
Obj
ti
C
Caracterizar
t i
pampeanos.
l
los
productores
d t
caprinos
i
-
Diseño. Una muestra aleatoria de 100 productores
caprinos pampeanos y 100 no pampeanos; y se toman
datos del sistema de producción, sus resultados técnicos
y económicos.
-
Resultado. El análisis discriminante establecerá la
Resultado
importancia relativa de cada variable permitiendo orientar
mejor la política provincial.
introducción
Análisis discriminante descriptivo.
p
-
Objetivo.
Obj
ti
V l
Valorar
d qué
de
é depende
d
d la
l fidelidad
fid lid d de
d un
ganadero a una determinada fábrica de balanceado.
introducción
Análisis discriminante descriptivo.
p
-
Objetivo.
Obj
ti
V l
Valorar
d qué
de
é depende
d
d la
l fidelidad
fid lid d de
d un
ganadero a una determinada fábrica de balanceado.
-
Diseño. Se encuesta a 30 ganaderos sobre la posibilidad
de cambiar de balanceado y sobre la percepción que
tienen de su servicio (precio, distribución, etc.).
introducción
Análisis discriminante descriptivo.
p
-
Objetivo.
Obj
ti
V l
Valorar
d qué
de
é depende
d
d la
l fidelidad
fid lid d de
d un
ganadero a una determinada fábrica de balanceado.
-
Diseño. Se encuesta a 30 ganaderos sobre la posibilidad
de cambiar de balanceado y sobre la percepción que
tienen de su servicio (precio, distribución, etc.).
-
Resultado. El análisis permitirá conocer la importancia
relativa del servicio en la fidelidad del cliente.
cliente
introducción
Análisis discriminante p
predictivo.
-
Objetivo.
Obj
ti
P
Prever
ell riesgo
i
d morosidad
de
id d relativa
l ti
a los
l
préstamos en una entidad bancaria.
introducción
Análisis discriminante p
predictivo.
-
Objetivo.
Obj
ti
P
Prever
ell riesgo
i
d morosidad
de
id d relativa
l ti
a los
l
préstamos en una entidad bancaria.
-
Diseño. En el fichero de clientes morosos y no morosos
se observan variables cuantitativas potencialmente
explicativas: renta total, edad, créditos adicionales, años
de estabilidad laboral, ....
introducción
Análisis discriminante p
predictivo.
-
Objetivo.
Obj
ti
P
Prever
ell riesgo
i
d morosidad
de
id d relativa
l ti
a los
l
préstamos en una entidad bancaria.
-
Diseño. En el fichero de clientes morosos y no morosos
se observan variables cuantitativas potencialmente
explicativas: renta total, edad, créditos adicionales, años
de estabilidad laboral, ....
-
Resultado. El análisis permitirá anticipar el riesgo de
Resultado
morosidad de nuevos clientes.
introducción
¿Cuáles son los factores que influyen en el desarrollo de la
fiebre aftosa? ¿Es posible predecir de antemano que
una explotación
p
corre riesgo?
g
introducción
¿Cuáles son los factores que influyen en el desarrollo de la
fiebre aftosa? ¿Es posible predecir de antemano que
una explotación
p
corre riesgo?
g
¿Se puede predecir de antemano si un frigorífico no va a
cumplir la reglamentación sanitaria?
introducción
¿Cuáles son los factores que influyen en el desarrollo de la
fiebre aftosa? ¿Es posible predecir de antemano que
una explotación
p
corre riesgo?
g
¿Se puede predecir de antemano si un frigorífico no va a
cumplir la reglamentación sanitaria?
¿Se
S puede
d predecir
d i sii una explotación
l t ió va a quebrar?
b ?
introducción
¿Cuáles son los factores que influyen en el desarrollo de la
fiebre aftosa? ¿Es posible predecir de antemano que
una explotación
p
corre riesgo?
g
¿Se puede predecir de antemano si un frigorífico no va a
cumplir la reglamentación sanitaria?
¿Se
S puede
d predecir
d i sii una explotación
l t ió va a quebrar?
b ?
¿Cuáles son las razones que llevan a un consumidor a
preferir una determinada raza sobre otras existentes en
el mercado?
introducción
¿Cuáles son los factores que influyen en el desarrollo de la
fiebre aftosa? ¿Es posible predecir de antemano que
una explotación
p
corre riesgo?
g
¿Se puede predecir de antemano si un frigorífico no va a
cumplir la reglamentación sanitaria?
¿Se
S puede
d predecir
d i sii una explotación
l t ió va a quebrar?
b ?
¿Cuáles son las razones que llevan a un consumidor a
preferir una determinada raza sobre otras existentes en
el mercado?
¿Existe discriminación por razones de sexo o de raza en la
Universidad?
introducción
Etapas
p del análisis discriminante.
1 Planteamiento
1.
Pl t
i t del
d l problema
bl
2. Selección de variables dependiente e independientes
3. Selección del tamaño muestral
p
de las hipótesis
p
de p
partida
4. Comprobación
5. Estimación del modelo
6 Validación de las funciones discriminantes
6.
7. Contribución de las variables a la capacidad discriminante
8. Valoración de la capacidad predictiva
9. Selección de variables
planteamiento del problema
1. Planteamiento del problema.
-
n casos divididos en q grupos que constituyen una
partición de la población de la que dichos casos proceden
(o dos poblaciones)
planteamiento del problema
1. Planteamiento del problema.
-
n casos divididos en q grupos que constituyen una
partición de la población de la que dichos casos proceden
(o dos poblaciones)
-
Y=(Y1,...,Yp) es el conjunto de variables numéricas
observadas sobre dichos casos
planteamiento del problema
1. Planteamiento del problema.
-
n casos divididos en q grupos que constituyen una
partición de la población de la que dichos casos proceden
(o dos poblaciones)
-
Y=(Y1,...,Yp) es el conjunto de variables numéricas
observadas sobre dichos casos
-
Los objetivos del análisis discriminante pueden ser:
-
Analizar si existen diferencias entre los grupos
respecto a las variables consideradas y averiguar en
qué sentido
planteamiento del problema
1. Planteamiento del problema.
-
n casos divididos en q grupos que constituyen una
partición de la población de la que dichos casos proceden
(o dos poblaciones)
-
Y=(Y1,...,Yp) es el conjunto de variables numéricas
observadas sobre dichos casos
-
Los objetivos del análisis discriminante pueden ser:
-
Analizar si existen diferencias entre los grupos
respecto a las variables consideradas y averiguar en
qué sentido
-
Elaborar procedimientos de clasificación sistemática
de individuos de origen desconocido
planteamiento del problema
Ejemplo.
-
La Universidad desea establecer las diferencias entre dos
razas bovinas.
-
Para ello, estudia 8 variables morfológicas en 1000
animales de 30 explotaciones.
planteamiento del problema
Ejemplo
-
El objetivo es determinar si existen diferencias en ambas
razas, y en caso de que existan determinar en qué sentido
se dan dichas diferencias.
planteamiento del problema
Ejemplo
-
El objetivo es determinar si existen diferencias en ambas
razas, y en caso de que existan determinar en qué sentido
se dan dichas diferencias.
-
En este caso:
-
Variables independientes: 8 medidas biométricas
planteamiento del problema
Ejemplo
-
El objetivo es determinar si existen diferencias en ambas
razas, y en caso de que existan determinar en qué sentido
se dan dichas diferencias.
-
En este caso:
-
Variables independientes: 8 medidas biométricas
-
Variable dependiente: raza (braford vs aberdeen)
planteamiento del problema
Ejemplo
-
El objetivo es determinar si existen diferencias en ambas
razas, y en caso de que existan determinar en qué sentido
se dan dichas diferencias.
-
En este caso:
-
Variables independientes: 8 medidas biométricas
-
Variable dependiente: raza (braford vs aberdeen)
-
n = n1 + n2; 1000 = 600 braford + 400 aberdeen
planteamiento del problema
Ejemplo
-
El objetivo es determinar si existen diferencias en ambas
razas, y en caso de que existan determinar en qué sentido
se dan dichas diferencias.
-
En este caso:
-
-
Variables independientes: 8 medidas biométricas
-
Variable dependiente: raza (braford vs aberdeen)
-
n = n1 + n2; 1000 = 600 braford + 400 aberdeen
El fin último es encontrar una regla que permita clasificar
adecuadamente nuevos animales
planteamiento del problema
Clasificación
Necesita que los grupos sea conocidos a priori
Elaboración de funciones matemáticas
Reglas de Clasificación
n1 + n2 = n
n1
M did 8 variables
Medidas
i bl aleatorias
l t i
n2
Perfil de cada población
Población A
(braford)
Ei ∈ A o B
Población B
(aberdeen)
selección de variables
2. Selección de variables.
-
La variable dependiente debe ser no métrica
selección de variables
2. Selección de variables.
-
La variable dependiente debe ser no métrica
-
Los grupos deben ser mutuamente excluyentes
selección de variables
2. Selección de variables.
-
La variable dependiente debe ser no métrica
-
Los grupos deben ser mutuamente excluyentes
-
Puede ser métrica en origen
-
P.e. Superficie: pequeña, mediana, grande
selección de variables
2. Selección de variables.
-
La variable dependiente debe ser no métrica
-
Los grupos deben ser mutuamente excluyentes
-
Puede ser métrica en origen
-
-
P.e. Superficie: pequeña, mediana, grande
La decisión sobre el número de categorías:
selección de variables
2. Selección de variables.
-
La variable dependiente debe ser no métrica
-
Los grupos deben ser mutuamente excluyentes
-
Puede ser métrica en origen
-
-
P.e. Superficie: pequeña, mediana, grande
La decisión sobre el número de categorías:
-
Debe ajustarse
predictores
al
poder
discriminante
de
los
selección de variables
2. Selección de variables.
-
La variable dependiente debe ser no métrica
-
Los grupos deben ser mutuamente excluyentes
-
Puede ser métrica en origen
-
-
P.e. Superficie: pequeña, mediana, grande
La decisión sobre el número de categorías:
-
Debe ajustarse
predictores
al
poder
discriminante
de
los
-
Puede observarse en etapas sucesivas y optar sólo
por el enfoque de extremos polares
selección de variables
2. Selección de variables.
-
La variable dependiente debe ser no métrica
-
Los grupos deben ser mutuamente excluyentes
-
Puede ser métrica en origen
-
-
P.e. Superficie: pequeña, mediana, grande
La decisión sobre el número de categorías:
-
Debe ajustarse
predictores
-
Puede observarse en etapas sucesivas y optar sólo
por el enfoque de extremos polares
-
al
poder
discriminante
P.e. Superficie: pequeña o grande
de
los
selección de variables
3. Selección del tamaño muestral.
-
Alta sensibilidad al tamaño muestral.
muestral
selección de variables
3. Selección del tamaño muestral.
-
Alta sensibilidad al tamaño muestral.
muestral
-
Por lo menos 5 casos por variable independiente.
selección de variables
3. Selección del tamaño muestral.
-
Alta sensibilidad al tamaño muestral.
muestral
-
Por lo menos 5 casos por variable independiente.
-
Ideal, 20 casos por variable.
selección de variables
3. Selección del tamaño muestral.
-
-
Alta sensibilidad al tamaño muestral.
muestral
-
Por lo menos 5 casos por variable independiente.
-
Ideal, 20 casos por variable.
Alta sensibilidad al tamaño de los grupos.
selección de variables
3. Selección del tamaño muestral.
-
-
Alta sensibilidad al tamaño muestral.
muestral
-
Por lo menos 5 casos por variable independiente.
-
Ideal, 20 casos por variable.
Alta sensibilidad al tamaño de los grupos.
-
No es necesario que los grupos tengan el mismo número
de casos, aunque es recomendable.
selección de variables
3. Selección del tamaño muestral.
-
-
Alta sensibilidad al tamaño muestral.
muestral
-
Por lo menos 5 casos por variable independiente.
-
Ideal, 20 casos por variable.
Alta sensibilidad al tamaño de los grupos.
-
No es necesario que los grupos tengan el mismo número
de casos, aunque es recomendable.
-
El más pequeño de los grupos debe tener más casos que
variables independientes.
selección de variables
4. Comprobación de las hipótesis.
-
Normalidad multivariante.
multivariante Si no se cumple hay que usar un
modelo de regresión logística.
selección de variables
4. Comprobación de las hipótesis.
-
Normalidad multivariante.
multivariante Si no se cumple hay que usar un
modelo de regresión logística.
-
Homocedasticidad multivariante (matrices de varianzas–
covarianzas similares).
similares) Si no se cumple hay que usar técnicas
de clasificación cuadráticas.
selección de variables
4. Comprobación de las hipótesis.
-
Normalidad multivariante.
multivariante Si no se cumple hay que usar un
modelo de regresión logística.
-
Homocedasticidad multivariante (matrices de varianzas–
covarianzas similares).
similares) Si no se cumple hay que usar técnicas
de clasificación cuadráticas.
-
Multicolinealidad. Causará problemas en la interpretación.
estimación del modelo
5. Estimación del modelo.
-
La discriminación entre los q grupos se realiza mediante el
cálculo de unas funciones matemáticas denominadas
funciones discriminantes.
-
Existen varios procedimientos para calcularlas siendo el
procedimiento de Fisher el más utilizado.
estimación del modelo
-
El procedimiento
di i t
d
de
Fi h
Fisher
t
toma
como funciones
f
i
discriminantes, combinaciones lineales de las variables
clasificadoras:
Y = u1X1 + u2X2 + ... + upXp = u’X
estimación del modelo
-
Y (función
(f
ió discriminante):
di i i
t ) combinación
bi
ió lineal
li
l de
d las
l variables
i bl
originales "X" que:
-
P
Presente
t la
l mínima
í i
variación
i ió INTRA grupall
-
Presente la máxima variación ENTRE grupal
estimación del modelo
-
-
Y (función
(f
ió discriminante):
di i i
t ) combinación
bi
ió lineal
li
l de
d las
l variables
i bl
originales "X" que:
-
P
Presente
t la
l mínima
í i
variación
i ió INTRA grupall
-
Presente la máxima variación ENTRE grupal
La función discriminante no será única: se p
parte de una
clasificación en q grupos, se obtendrán varios conjuntos de
parámetros, es decir, varias funciones discriminantes (menor
de “q
q-1
1” o “p”)
p)
estimación del modelo
T
Tenemos:
-
q grupos: subíndice j; j=1, 2, 3, …, q
estimación del modelo
T
Tenemos:
-
q grupos: subíndice j; j=1, 2, 3, …, q
-
p variables: 1, 2, 3, …, p
estimación del modelo
T
Tenemos:
-
q grupos: subíndice j; j=1, 2, 3, …, q
-
p variables: 1, 2, 3, …, p
-
n casos: subíndice i;; i=1,, 2,, 3,, … n
estimación del modelo
M t i de
Matriz
d observaciones:
b
i
estimación del modelo
M t i de
Matriz
d medias
di de
d grupo ( grupo = j ):
)
estimación del modelo
M t i de
Matriz
d medias
di totales:
t t l
estimación del modelo
La variación entre grupos:
La variación dentro de grupos:
Hay que maximizar:
estimación del modelo
F = Variación entre grupos / Variación intra grupos
Hay que maximizar:
estimación del modelo
F = Variación entre grupos / Variación intra grupos
Pero el objetivo es encontrar los parámetros b:
Y = u1X1 + u2X2 + ... + upXp
Hay que maximizar:
estimación del modelo
F = Variación entre grupos / Variación intra grupos
Pero el objetivo es encontrar los parámetros b:
Y = u1X1 + u2X2 + ... + upXp
Expresamos F en función de up:
Hay que maximizar SCE y minimizar SCI:
estimación del modelo
Hay que maximizar SCE y minimizar SCI:
estimación del modelo
Hay que maximizar SCE y minimizar SCI:
estimación del modelo
Hay múltiples parámetros b que maximizan la raíz característica,
por lo que siempre vamos a tener más de una solución
validación del modelo
6 Validación de la función discriminante
6.
-
T2 de Hooteling
-
Autovalores (raíces características)
-
Ratio autovalor / suma de autovalores
-
Test de Bartlett
-
Correlación canónica
-
Lambda de Wilks
validación del modelo
Autovalores
Autovalores.
-
La suma de cuadrados entre grupos de cada función
discriminante.
discriminante
-
Debe ser alto.
validación del modelo
Autovalores
Autovalores.
-
La suma de cuadrados entre grupos de cada función
discriminante.
discriminante
-
Debe ser alto.
Ratio autovalor / suma de autovalores.
-
Indica la capacidad discriminante relativa.
-
Toma valores entre 0 y 100.
100
-
Debe ser alto.
validación del modelo
Correlación canónica.
canónica
-
Mide en términos relativos el poder discriminante.
-
Es el porcentaje de la variación total en dicha función que es
explicada por las diferencias entre los grupos.
-
Toma valores entre 0 y 1.
-
Debe ser próximo a 1.
validación del modelo
Lambda de Wilks.
Wilks
-
Es un estadístico que mide el poder discriminante de las
variables.
variables
-
Tiene una distribución lambda de Wilks con p, q-1 y n-q
grados de libertad.
libertad
-
Toma valores entre 0 y 1.
-
D b ser próximo
Debe
ó i
a 0.
0
Con Statgraphics:
contribución de las variables al modelo
7 Contribución de las variables al modelo.
7.
modelo
¿Cuándo incluir o excluir variables en el modelo?
contribución de las variables al modelo
7 Contribución de las variables al modelo.
7.
modelo
-
Este es el aspecto clave del análisis discriminante.
-
Hay que encontrar una regla óptima de clasificación con el
menor número de variables (principio de parsimonia)
¿Cuándo incluir o excluir variables en el modelo?
contribución de las variables al modelo
7 Contribución de las variables al modelo.
7.
modelo
-
Este es el aspecto clave del análisis discriminante.
-
Hay que encontrar una regla óptima de clasificación con el
menor número de variables (principio de parsimonia)
-
La regla óptima de clasificación es la que menos errores
comete con el mínimo número de variables (valoración de la
capacidad predictiva)
¿Cuándo incluir o excluir variables en el modelo?
Grupo 1
G
Grupo
2
Grupo
p 3
12,0
V a ria b le 2
10,0
8,0
6,0
4,0
20
2,0
00
0,0
0,0
5,0
10,0
15,0
20,0
Dispersión de las variables por grupo
Variable 1
25,0
Grupo 1
G
Grupo
2
Grupo
p 3
12,0
V a ria b le 2
10,0
8,0
6,0
4,0
20
2,0
¿Son necesarias todas las variables?
00
0,0
0,0
5,0
10,0
15,0
20,0
Dispersión de las variables por grupo
Variable 1
25,0
Grupo 1
G
Grupo
2
Grupo
p 3
12,0
V a ria b le 2
10,0
8,0
6,0
4,0
20
2,0
00
0,0
0,0
5,0
10,0
15,0
20,0
Dispersión de las variables por grupo
Variable 1
25,0
¿son necesarias todas las variables?
¿cuáles variables son mejores?
Comportamiento de tres poblaciones en relación a dos variables
contribución de las variables al modelo
Cuatro indicadores.
indicadores
-
ANOVA simple de cada variable con la variable dependiente.
-
Parámetros estandarizados de la función discriminante.
-
Cargas discriminantes: correlación de cada variable con la
función discriminante.
discriminante
-
Juicio del investigador.
ANOVA simple.
-
contribución de las variables al modelo
Se desarrolla a priori y determina inicialmente las variables
candidatas al modelo.
modelo
ANOVA simple.
contribución de las variables al modelo
-
Se desarrolla a priori y determina inicialmente las variables
candidatas al modelo.
modelo
-
Las variables que no se segmenten completamente por la
agrupación son candidatas a no entrar en el modelo.
modelo
ANOVA simple.
contribución de las variables al modelo
-
Se desarrolla a priori y determina inicialmente las variables
candidatas al modelo.
modelo
-
Las variables que no se segmenten completamente por la
agrupación son candidatas a no entrar en el modelo.
modelo
-
CUIDADO: puede ser que la variable sea determinante en
algunos grupos y en otros no.
ANOVA simple.
contribución de las variables al modelo
-
Se desarrolla a priori y determina inicialmente las variables
candidatas al modelo.
modelo
-
Las variables que no se segmenten completamente por la
agrupación son candidatas a no entrar en el modelo.
modelo
-
CUIDADO: puede ser que la variable sea determinante en
algunos grupos y en otros no.
-
Por ejemplo: Clasificar el resultado neto de explotaciones
(negativo, equilibrio o positivo) en función del precio del
balanceado y del precio de la leche.
-
que el p
precio de la leche segmente
g
Puede ser q
perfectamente entre negativo y no negativo.
-
precio del concentrado discrimine equilibrio
q
de
Y el p
positivo.
contribución de las variables al modelo
Parámetros estandarizados de la función.
-
Indican el p
peso relativo y el sentido del efecto de cada
variable.
-
pesos absolutos altos.
Interesan p
contribución de las variables al modelo
Parámetros estandarizados de la función.
-
Indican el p
peso relativo y el sentido del efecto de cada
variable.
-
pesos absolutos altos.
Interesan p
Cargas discriminantes.
-
Indican la relación lineal entre la variable y la función.
-
Interesan correlaciones altas pero no lineales.
valoración de la función predictiva
8. Valoración de la función predictiva.
-
Estimación por resustiución.
resustiución
-
Estimación por valoración cruzada.
valoración de la función predictiva
Método de resustitución
Prob (Error 1) = p(2/1)
Prob (Error 2) = p(1/2)
Población clasificada por la regla
Población
original
Total
1
2
1
n11
n12
n1
2
n21
n22
n2
E ti
Estimaciones
i
en exceso de
d las
l verdaderas
d d
probabilidades
b bilid d
n
pˆ (2 / 1) = 12
n1
pˆ (1 / 2) =
n21
n2
valoración de la función predictiva
Estimación de la probabilidad global de éxito
pˆ (éxito) =
n12 + n21
n1 + n2
Población clasificada por la regla
Población
original
Total
1
2
1
18
3
21
2
1
24
25
18
24
0,857
0,960
Número de
éxito
Proporción de
éxito
1
pˆ (1 / 2) =
= 0,04
25
pˆ (2 / 1) =
3
= 0,143
21
pˆ (éxito) =
3 +1
= 0,913
21 + 25
valoración de la función predictiva
Estimaciones de validación cruzada (Lachenbruch)
Paso 1.
• Eliminar el primer vector de observaciones.
• Formular
F
l una regla
l discriminante
di i i
t basada
b
d los
l datos
d t restantes.
t t
• Usar la regla para clasificar la primera observación.
• Observar si la regla clasifica o no en forma correcta.
Paso 2.
• Reemplazar la primera observación y eliminar el segundo vector
de observaciones.
• Formular una regla discriminante basada en los datos restantes.
• Usar
U
l regla
la
l para clasificar
l ifi
l primera
la
i
observación.
b
ió
• Observar si la regla clasifica o no en forma correcta.
Paso 3.
3
• Idem hasta el final.
Paso 4.
P
4
• Crear una tabla igual al método de resustitución.
valoración de la función predictiva
Población clasificada por la regla
Población
g
original
Total
1
2
1
18
3
21
2
2
23
25
18
23
0,857
0,920
Número de
é ito
éxito
Proporción de
éxito
2
pˆ (1 / 2) =
= 0,08
25
pˆ (2 / 1) =
3
= 0,143
21
pˆ (éxito) =
18 + 23
= 0,891
21 + 25
21+
selección de variables
9 Algoritmos de selección de variables
9.
variables.
Forward (eliminación hacia adelante)
Backward (eliminación hacia atrás) – pocas variables
Stepwise (método por pasos)
selección de variables
Selección hacia delante
-
Eligen la variable que más discrimina entre los grupos.
grupos
- A continuación seleccionan la segunda más discriminante y
así sucesivamente.
- Si de las variables que quedan por elegir ninguna discrimina
de forma significativa entre los grupos analizados el algoritmo
finaliza.
selección de variables
Selección hacia atrás
- El procedimiento es inverso al anterior.
anterior
- Comienza suponiendo que todas las variables son necesarias
para discriminar y se elimina la menos discriminante entre los
grupos analizados y así sucesivamente.
- Si las variables no eliminadas discriminan significativamente
entre los grupos analizados el algoritmo finaliza.
- Generalmente selecciona pocas variables.
Selección por pasos
selección de variables
- Utilizan una combinación de los dos algoritmos anteriores.
Selección por pasos
selección de variables
- Utilizan una combinación de los dos algoritmos anteriores.
- Incluyen la posibilidad de:
- Eliminar una variable introducida en el conjunto en un
paso anterior
- Introducir una variable eliminada con anterioridad
Selección por pasos
selección de variables
- Utilizan una combinación de los dos algoritmos anteriores.
- Incluyen la posibilidad de:
- Eliminar una variable introducida en el conjunto en un
paso anterior
- Introducir una variable eliminada con anterioridad
- Para determinar qué variables entran y salen en cada paso
de este tipo de algoritmos se utilizan diversos criterios.
Selección por pasos
selección de variables
- Utilizan una combinación de los dos algoritmos anteriores.
- Incluyen la posibilidad de:
- Eliminar una variable introducida en el conjunto en un
paso anterior
- Introducir una variable eliminada con anterioridad
- Para determinar qué variables entran y salen en cada paso
de este tipo de algoritmos se utilizan diversos criterios.
- Lambda
L bd de
d Wilks
Wilk es ell más
á utilizado
tili d
Selección por pasos
selección de variables
- Utilizan una combinación de los dos algoritmos anteriores.
- Incluyen la posibilidad de:
- Eliminar una variable introducida en el conjunto en un
paso anterior
- Introducir una variable eliminada con anterioridad
- Para determinar qué variables entran y salen en cada paso
de este tipo de algoritmos se utilizan diversos criterios.
- Lambda
L bd de
d Wilks
Wilk es ell más
á utilizado
tili d
- Proporcionar un p-valor de entrada y otro de salida
Selección por pasos
selección de variables
- Utilizan una combinación de los dos algoritmos anteriores.
- Incluyen la posibilidad de:
- Eliminar una variable introducida en el conjunto en un
paso anterior
- Introducir una variable eliminada con anterioridad
- Para determinar qué variables entran y salen en cada paso
de este tipo de algoritmos se utilizan diversos criterios.
- Lambda
L bd de
d Wilks
Wilk es ell más
á utilizado
tili d
- Proporcionar un p-valor de entrada y otro de salida
- Si el p
p-valor
valor obtenido al introducir una variable no es
inferior al p-valor de entrada, la variable considerada
no entra.
- Si ell p-valor
l obtenido
bt id all eliminarla
li i l del
d l conjunto
j t de
d
discriminación no es superior al de salida, la variable
considerada no sale de dicho conjunto.
selección de variables
Inconvenientes de los procedimientos de selección
- No tienen por qué llegar a la solución óptima
- Utilizan como criterios de selección, criterios de separación
de g
grupos
p y no de clasificación
- El nivel de significación global es superior al establecido para
entrar y sacar variables debido a la realización simultánea de
varios test de hipótesis
caso práctico
C
Caso
práctico.
á ti
1. Construir un modelo discriminante para el estado civil y otro
para el género.
2. Construir el mismo modelo utilizando los factores.
p
ambos modelos.
3. Interpretar
1 Construir un modelo discriminante para la base de datos de
1.
ovino-caprino dominicana.
2 Construir el mismo modelo utilizando los factores.
2.
factores
3. Interpretar ambos modelos.
Descargar