ANÁLISIS DISCRIMINANTE ANÁLISIS Á DISCRIMINANTE 1. Introducción 2 Etapas 2. 3. Caso práctico introducción Análisis de dependencias varias relaciones una relación 1 variable dependiente dependencia métrica ecuaciones estructurales regresión múltiple > 1 variable dependiente dependencia no métrica análisis discriminante dependencia métrica dependencia no métrica independencia independencia no métrica métrica Regresión logística MANOVA correlación canónica introducción Técnica de clasificación. - A d a comprender Ayuda d las l diferencias dif i entre t grupos. introducción Técnica de clasificación. - A d a comprender Ayuda d las l diferencias dif i entre t grupos. - Explica, en función de variables métricas observadas, porqué los casos de estudio se encuentran asociados a distintos niveles de un factor. factor introducción Técnica de clasificación. - A d a comprender Ayuda d las l diferencias dif i entre t grupos. - Explica, en función de variables métricas observadas, porqué los casos de estudio se encuentran asociados a distintos niveles de un factor. factor - Puede ser descriptivo o predictivo. introducción Técnica de clasificación. - A d a comprender Ayuda d las l diferencias dif i entre t grupos. - Explica, en función de variables métricas observadas, porqué los casos de estudio se encuentran asociados a distintos niveles de un factor. factor - Puede ser descriptivo o predictivo. - Necesita que los grupos sean conocidos a priori. introducción Análisis discriminante descriptivo. p - Objetivo. Obj ti C Caracterizar t i pampeanos. l los productores d t caprinos i introducción Análisis discriminante descriptivo. p - Objetivo. Obj ti C Caracterizar t i pampeanos. l los productores d t caprinos i - Diseño. Una muestra aleatoria de 100 productores caprinos pampeanos y 100 no pampeanos; y se toman datos del sistema de producción, sus resultados técnicos y económicos. introducción Análisis discriminante descriptivo. p - Objetivo. Obj ti C Caracterizar t i pampeanos. l los productores d t caprinos i - Diseño. Una muestra aleatoria de 100 productores caprinos pampeanos y 100 no pampeanos; y se toman datos del sistema de producción, sus resultados técnicos y económicos. - Resultado. El análisis discriminante establecerá la Resultado importancia relativa de cada variable permitiendo orientar mejor la política provincial. introducción Análisis discriminante descriptivo. p - Objetivo. Obj ti V l Valorar d qué de é depende d d la l fidelidad fid lid d de d un ganadero a una determinada fábrica de balanceado. introducción Análisis discriminante descriptivo. p - Objetivo. Obj ti V l Valorar d qué de é depende d d la l fidelidad fid lid d de d un ganadero a una determinada fábrica de balanceado. - Diseño. Se encuesta a 30 ganaderos sobre la posibilidad de cambiar de balanceado y sobre la percepción que tienen de su servicio (precio, distribución, etc.). introducción Análisis discriminante descriptivo. p - Objetivo. Obj ti V l Valorar d qué de é depende d d la l fidelidad fid lid d de d un ganadero a una determinada fábrica de balanceado. - Diseño. Se encuesta a 30 ganaderos sobre la posibilidad de cambiar de balanceado y sobre la percepción que tienen de su servicio (precio, distribución, etc.). - Resultado. El análisis permitirá conocer la importancia relativa del servicio en la fidelidad del cliente. cliente introducción Análisis discriminante p predictivo. - Objetivo. Obj ti P Prever ell riesgo i d morosidad de id d relativa l ti a los l préstamos en una entidad bancaria. introducción Análisis discriminante p predictivo. - Objetivo. Obj ti P Prever ell riesgo i d morosidad de id d relativa l ti a los l préstamos en una entidad bancaria. - Diseño. En el fichero de clientes morosos y no morosos se observan variables cuantitativas potencialmente explicativas: renta total, edad, créditos adicionales, años de estabilidad laboral, .... introducción Análisis discriminante p predictivo. - Objetivo. Obj ti P Prever ell riesgo i d morosidad de id d relativa l ti a los l préstamos en una entidad bancaria. - Diseño. En el fichero de clientes morosos y no morosos se observan variables cuantitativas potencialmente explicativas: renta total, edad, créditos adicionales, años de estabilidad laboral, .... - Resultado. El análisis permitirá anticipar el riesgo de Resultado morosidad de nuevos clientes. introducción ¿Cuáles son los factores que influyen en el desarrollo de la fiebre aftosa? ¿Es posible predecir de antemano que una explotación p corre riesgo? g introducción ¿Cuáles son los factores que influyen en el desarrollo de la fiebre aftosa? ¿Es posible predecir de antemano que una explotación p corre riesgo? g ¿Se puede predecir de antemano si un frigorífico no va a cumplir la reglamentación sanitaria? introducción ¿Cuáles son los factores que influyen en el desarrollo de la fiebre aftosa? ¿Es posible predecir de antemano que una explotación p corre riesgo? g ¿Se puede predecir de antemano si un frigorífico no va a cumplir la reglamentación sanitaria? ¿Se S puede d predecir d i sii una explotación l t ió va a quebrar? b ? introducción ¿Cuáles son los factores que influyen en el desarrollo de la fiebre aftosa? ¿Es posible predecir de antemano que una explotación p corre riesgo? g ¿Se puede predecir de antemano si un frigorífico no va a cumplir la reglamentación sanitaria? ¿Se S puede d predecir d i sii una explotación l t ió va a quebrar? b ? ¿Cuáles son las razones que llevan a un consumidor a preferir una determinada raza sobre otras existentes en el mercado? introducción ¿Cuáles son los factores que influyen en el desarrollo de la fiebre aftosa? ¿Es posible predecir de antemano que una explotación p corre riesgo? g ¿Se puede predecir de antemano si un frigorífico no va a cumplir la reglamentación sanitaria? ¿Se S puede d predecir d i sii una explotación l t ió va a quebrar? b ? ¿Cuáles son las razones que llevan a un consumidor a preferir una determinada raza sobre otras existentes en el mercado? ¿Existe discriminación por razones de sexo o de raza en la Universidad? introducción Etapas p del análisis discriminante. 1 Planteamiento 1. Pl t i t del d l problema bl 2. Selección de variables dependiente e independientes 3. Selección del tamaño muestral p de las hipótesis p de p partida 4. Comprobación 5. Estimación del modelo 6 Validación de las funciones discriminantes 6. 7. Contribución de las variables a la capacidad discriminante 8. Valoración de la capacidad predictiva 9. Selección de variables planteamiento del problema 1. Planteamiento del problema. - n casos divididos en q grupos que constituyen una partición de la población de la que dichos casos proceden (o dos poblaciones) planteamiento del problema 1. Planteamiento del problema. - n casos divididos en q grupos que constituyen una partición de la población de la que dichos casos proceden (o dos poblaciones) - Y=(Y1,...,Yp) es el conjunto de variables numéricas observadas sobre dichos casos planteamiento del problema 1. Planteamiento del problema. - n casos divididos en q grupos que constituyen una partición de la población de la que dichos casos proceden (o dos poblaciones) - Y=(Y1,...,Yp) es el conjunto de variables numéricas observadas sobre dichos casos - Los objetivos del análisis discriminante pueden ser: - Analizar si existen diferencias entre los grupos respecto a las variables consideradas y averiguar en qué sentido planteamiento del problema 1. Planteamiento del problema. - n casos divididos en q grupos que constituyen una partición de la población de la que dichos casos proceden (o dos poblaciones) - Y=(Y1,...,Yp) es el conjunto de variables numéricas observadas sobre dichos casos - Los objetivos del análisis discriminante pueden ser: - Analizar si existen diferencias entre los grupos respecto a las variables consideradas y averiguar en qué sentido - Elaborar procedimientos de clasificación sistemática de individuos de origen desconocido planteamiento del problema Ejemplo. - La Universidad desea establecer las diferencias entre dos razas bovinas. - Para ello, estudia 8 variables morfológicas en 1000 animales de 30 explotaciones. planteamiento del problema Ejemplo - El objetivo es determinar si existen diferencias en ambas razas, y en caso de que existan determinar en qué sentido se dan dichas diferencias. planteamiento del problema Ejemplo - El objetivo es determinar si existen diferencias en ambas razas, y en caso de que existan determinar en qué sentido se dan dichas diferencias. - En este caso: - Variables independientes: 8 medidas biométricas planteamiento del problema Ejemplo - El objetivo es determinar si existen diferencias en ambas razas, y en caso de que existan determinar en qué sentido se dan dichas diferencias. - En este caso: - Variables independientes: 8 medidas biométricas - Variable dependiente: raza (braford vs aberdeen) planteamiento del problema Ejemplo - El objetivo es determinar si existen diferencias en ambas razas, y en caso de que existan determinar en qué sentido se dan dichas diferencias. - En este caso: - Variables independientes: 8 medidas biométricas - Variable dependiente: raza (braford vs aberdeen) - n = n1 + n2; 1000 = 600 braford + 400 aberdeen planteamiento del problema Ejemplo - El objetivo es determinar si existen diferencias en ambas razas, y en caso de que existan determinar en qué sentido se dan dichas diferencias. - En este caso: - - Variables independientes: 8 medidas biométricas - Variable dependiente: raza (braford vs aberdeen) - n = n1 + n2; 1000 = 600 braford + 400 aberdeen El fin último es encontrar una regla que permita clasificar adecuadamente nuevos animales planteamiento del problema Clasificación Necesita que los grupos sea conocidos a priori Elaboración de funciones matemáticas Reglas de Clasificación n1 + n2 = n n1 M did 8 variables Medidas i bl aleatorias l t i n2 Perfil de cada población Población A (braford) Ei ∈ A o B Población B (aberdeen) selección de variables 2. Selección de variables. - La variable dependiente debe ser no métrica selección de variables 2. Selección de variables. - La variable dependiente debe ser no métrica - Los grupos deben ser mutuamente excluyentes selección de variables 2. Selección de variables. - La variable dependiente debe ser no métrica - Los grupos deben ser mutuamente excluyentes - Puede ser métrica en origen - P.e. Superficie: pequeña, mediana, grande selección de variables 2. Selección de variables. - La variable dependiente debe ser no métrica - Los grupos deben ser mutuamente excluyentes - Puede ser métrica en origen - - P.e. Superficie: pequeña, mediana, grande La decisión sobre el número de categorías: selección de variables 2. Selección de variables. - La variable dependiente debe ser no métrica - Los grupos deben ser mutuamente excluyentes - Puede ser métrica en origen - - P.e. Superficie: pequeña, mediana, grande La decisión sobre el número de categorías: - Debe ajustarse predictores al poder discriminante de los selección de variables 2. Selección de variables. - La variable dependiente debe ser no métrica - Los grupos deben ser mutuamente excluyentes - Puede ser métrica en origen - - P.e. Superficie: pequeña, mediana, grande La decisión sobre el número de categorías: - Debe ajustarse predictores al poder discriminante de los - Puede observarse en etapas sucesivas y optar sólo por el enfoque de extremos polares selección de variables 2. Selección de variables. - La variable dependiente debe ser no métrica - Los grupos deben ser mutuamente excluyentes - Puede ser métrica en origen - - P.e. Superficie: pequeña, mediana, grande La decisión sobre el número de categorías: - Debe ajustarse predictores - Puede observarse en etapas sucesivas y optar sólo por el enfoque de extremos polares - al poder discriminante P.e. Superficie: pequeña o grande de los selección de variables 3. Selección del tamaño muestral. - Alta sensibilidad al tamaño muestral. muestral selección de variables 3. Selección del tamaño muestral. - Alta sensibilidad al tamaño muestral. muestral - Por lo menos 5 casos por variable independiente. selección de variables 3. Selección del tamaño muestral. - Alta sensibilidad al tamaño muestral. muestral - Por lo menos 5 casos por variable independiente. - Ideal, 20 casos por variable. selección de variables 3. Selección del tamaño muestral. - - Alta sensibilidad al tamaño muestral. muestral - Por lo menos 5 casos por variable independiente. - Ideal, 20 casos por variable. Alta sensibilidad al tamaño de los grupos. selección de variables 3. Selección del tamaño muestral. - - Alta sensibilidad al tamaño muestral. muestral - Por lo menos 5 casos por variable independiente. - Ideal, 20 casos por variable. Alta sensibilidad al tamaño de los grupos. - No es necesario que los grupos tengan el mismo número de casos, aunque es recomendable. selección de variables 3. Selección del tamaño muestral. - - Alta sensibilidad al tamaño muestral. muestral - Por lo menos 5 casos por variable independiente. - Ideal, 20 casos por variable. Alta sensibilidad al tamaño de los grupos. - No es necesario que los grupos tengan el mismo número de casos, aunque es recomendable. - El más pequeño de los grupos debe tener más casos que variables independientes. selección de variables 4. Comprobación de las hipótesis. - Normalidad multivariante. multivariante Si no se cumple hay que usar un modelo de regresión logística. selección de variables 4. Comprobación de las hipótesis. - Normalidad multivariante. multivariante Si no se cumple hay que usar un modelo de regresión logística. - Homocedasticidad multivariante (matrices de varianzas– covarianzas similares). similares) Si no se cumple hay que usar técnicas de clasificación cuadráticas. selección de variables 4. Comprobación de las hipótesis. - Normalidad multivariante. multivariante Si no se cumple hay que usar un modelo de regresión logística. - Homocedasticidad multivariante (matrices de varianzas– covarianzas similares). similares) Si no se cumple hay que usar técnicas de clasificación cuadráticas. - Multicolinealidad. Causará problemas en la interpretación. estimación del modelo 5. Estimación del modelo. - La discriminación entre los q grupos se realiza mediante el cálculo de unas funciones matemáticas denominadas funciones discriminantes. - Existen varios procedimientos para calcularlas siendo el procedimiento de Fisher el más utilizado. estimación del modelo - El procedimiento di i t d de Fi h Fisher t toma como funciones f i discriminantes, combinaciones lineales de las variables clasificadoras: Y = u1X1 + u2X2 + ... + upXp = u’X estimación del modelo - Y (función (f ió discriminante): di i i t ) combinación bi ió lineal li l de d las l variables i bl originales "X" que: - P Presente t la l mínima í i variación i ió INTRA grupall - Presente la máxima variación ENTRE grupal estimación del modelo - - Y (función (f ió discriminante): di i i t ) combinación bi ió lineal li l de d las l variables i bl originales "X" que: - P Presente t la l mínima í i variación i ió INTRA grupall - Presente la máxima variación ENTRE grupal La función discriminante no será única: se p parte de una clasificación en q grupos, se obtendrán varios conjuntos de parámetros, es decir, varias funciones discriminantes (menor de “q q-1 1” o “p”) p) estimación del modelo T Tenemos: - q grupos: subíndice j; j=1, 2, 3, …, q estimación del modelo T Tenemos: - q grupos: subíndice j; j=1, 2, 3, …, q - p variables: 1, 2, 3, …, p estimación del modelo T Tenemos: - q grupos: subíndice j; j=1, 2, 3, …, q - p variables: 1, 2, 3, …, p - n casos: subíndice i;; i=1,, 2,, 3,, … n estimación del modelo M t i de Matriz d observaciones: b i estimación del modelo M t i de Matriz d medias di de d grupo ( grupo = j ): ) estimación del modelo M t i de Matriz d medias di totales: t t l estimación del modelo La variación entre grupos: La variación dentro de grupos: Hay que maximizar: estimación del modelo F = Variación entre grupos / Variación intra grupos Hay que maximizar: estimación del modelo F = Variación entre grupos / Variación intra grupos Pero el objetivo es encontrar los parámetros b: Y = u1X1 + u2X2 + ... + upXp Hay que maximizar: estimación del modelo F = Variación entre grupos / Variación intra grupos Pero el objetivo es encontrar los parámetros b: Y = u1X1 + u2X2 + ... + upXp Expresamos F en función de up: Hay que maximizar SCE y minimizar SCI: estimación del modelo Hay que maximizar SCE y minimizar SCI: estimación del modelo Hay que maximizar SCE y minimizar SCI: estimación del modelo Hay múltiples parámetros b que maximizan la raíz característica, por lo que siempre vamos a tener más de una solución validación del modelo 6 Validación de la función discriminante 6. - T2 de Hooteling - Autovalores (raíces características) - Ratio autovalor / suma de autovalores - Test de Bartlett - Correlación canónica - Lambda de Wilks validación del modelo Autovalores Autovalores. - La suma de cuadrados entre grupos de cada función discriminante. discriminante - Debe ser alto. validación del modelo Autovalores Autovalores. - La suma de cuadrados entre grupos de cada función discriminante. discriminante - Debe ser alto. Ratio autovalor / suma de autovalores. - Indica la capacidad discriminante relativa. - Toma valores entre 0 y 100. 100 - Debe ser alto. validación del modelo Correlación canónica. canónica - Mide en términos relativos el poder discriminante. - Es el porcentaje de la variación total en dicha función que es explicada por las diferencias entre los grupos. - Toma valores entre 0 y 1. - Debe ser próximo a 1. validación del modelo Lambda de Wilks. Wilks - Es un estadístico que mide el poder discriminante de las variables. variables - Tiene una distribución lambda de Wilks con p, q-1 y n-q grados de libertad. libertad - Toma valores entre 0 y 1. - D b ser próximo Debe ó i a 0. 0 Con Statgraphics: contribución de las variables al modelo 7 Contribución de las variables al modelo. 7. modelo ¿Cuándo incluir o excluir variables en el modelo? contribución de las variables al modelo 7 Contribución de las variables al modelo. 7. modelo - Este es el aspecto clave del análisis discriminante. - Hay que encontrar una regla óptima de clasificación con el menor número de variables (principio de parsimonia) ¿Cuándo incluir o excluir variables en el modelo? contribución de las variables al modelo 7 Contribución de las variables al modelo. 7. modelo - Este es el aspecto clave del análisis discriminante. - Hay que encontrar una regla óptima de clasificación con el menor número de variables (principio de parsimonia) - La regla óptima de clasificación es la que menos errores comete con el mínimo número de variables (valoración de la capacidad predictiva) ¿Cuándo incluir o excluir variables en el modelo? Grupo 1 G Grupo 2 Grupo p 3 12,0 V a ria b le 2 10,0 8,0 6,0 4,0 20 2,0 00 0,0 0,0 5,0 10,0 15,0 20,0 Dispersión de las variables por grupo Variable 1 25,0 Grupo 1 G Grupo 2 Grupo p 3 12,0 V a ria b le 2 10,0 8,0 6,0 4,0 20 2,0 ¿Son necesarias todas las variables? 00 0,0 0,0 5,0 10,0 15,0 20,0 Dispersión de las variables por grupo Variable 1 25,0 Grupo 1 G Grupo 2 Grupo p 3 12,0 V a ria b le 2 10,0 8,0 6,0 4,0 20 2,0 00 0,0 0,0 5,0 10,0 15,0 20,0 Dispersión de las variables por grupo Variable 1 25,0 ¿son necesarias todas las variables? ¿cuáles variables son mejores? Comportamiento de tres poblaciones en relación a dos variables contribución de las variables al modelo Cuatro indicadores. indicadores - ANOVA simple de cada variable con la variable dependiente. - Parámetros estandarizados de la función discriminante. - Cargas discriminantes: correlación de cada variable con la función discriminante. discriminante - Juicio del investigador. ANOVA simple. - contribución de las variables al modelo Se desarrolla a priori y determina inicialmente las variables candidatas al modelo. modelo ANOVA simple. contribución de las variables al modelo - Se desarrolla a priori y determina inicialmente las variables candidatas al modelo. modelo - Las variables que no se segmenten completamente por la agrupación son candidatas a no entrar en el modelo. modelo ANOVA simple. contribución de las variables al modelo - Se desarrolla a priori y determina inicialmente las variables candidatas al modelo. modelo - Las variables que no se segmenten completamente por la agrupación son candidatas a no entrar en el modelo. modelo - CUIDADO: puede ser que la variable sea determinante en algunos grupos y en otros no. ANOVA simple. contribución de las variables al modelo - Se desarrolla a priori y determina inicialmente las variables candidatas al modelo. modelo - Las variables que no se segmenten completamente por la agrupación son candidatas a no entrar en el modelo. modelo - CUIDADO: puede ser que la variable sea determinante en algunos grupos y en otros no. - Por ejemplo: Clasificar el resultado neto de explotaciones (negativo, equilibrio o positivo) en función del precio del balanceado y del precio de la leche. - que el p precio de la leche segmente g Puede ser q perfectamente entre negativo y no negativo. - precio del concentrado discrimine equilibrio q de Y el p positivo. contribución de las variables al modelo Parámetros estandarizados de la función. - Indican el p peso relativo y el sentido del efecto de cada variable. - pesos absolutos altos. Interesan p contribución de las variables al modelo Parámetros estandarizados de la función. - Indican el p peso relativo y el sentido del efecto de cada variable. - pesos absolutos altos. Interesan p Cargas discriminantes. - Indican la relación lineal entre la variable y la función. - Interesan correlaciones altas pero no lineales. valoración de la función predictiva 8. Valoración de la función predictiva. - Estimación por resustiución. resustiución - Estimación por valoración cruzada. valoración de la función predictiva Método de resustitución Prob (Error 1) = p(2/1) Prob (Error 2) = p(1/2) Población clasificada por la regla Población original Total 1 2 1 n11 n12 n1 2 n21 n22 n2 E ti Estimaciones i en exceso de d las l verdaderas d d probabilidades b bilid d n pˆ (2 / 1) = 12 n1 pˆ (1 / 2) = n21 n2 valoración de la función predictiva Estimación de la probabilidad global de éxito pˆ (éxito) = n12 + n21 n1 + n2 Población clasificada por la regla Población original Total 1 2 1 18 3 21 2 1 24 25 18 24 0,857 0,960 Número de éxito Proporción de éxito 1 pˆ (1 / 2) = = 0,04 25 pˆ (2 / 1) = 3 = 0,143 21 pˆ (éxito) = 3 +1 = 0,913 21 + 25 valoración de la función predictiva Estimaciones de validación cruzada (Lachenbruch) Paso 1. • Eliminar el primer vector de observaciones. • Formular F l una regla l discriminante di i i t basada b d los l datos d t restantes. t t • Usar la regla para clasificar la primera observación. • Observar si la regla clasifica o no en forma correcta. Paso 2. • Reemplazar la primera observación y eliminar el segundo vector de observaciones. • Formular una regla discriminante basada en los datos restantes. • Usar U l regla la l para clasificar l ifi l primera la i observación. b ió • Observar si la regla clasifica o no en forma correcta. Paso 3. 3 • Idem hasta el final. Paso 4. P 4 • Crear una tabla igual al método de resustitución. valoración de la función predictiva Población clasificada por la regla Población g original Total 1 2 1 18 3 21 2 2 23 25 18 23 0,857 0,920 Número de é ito éxito Proporción de éxito 2 pˆ (1 / 2) = = 0,08 25 pˆ (2 / 1) = 3 = 0,143 21 pˆ (éxito) = 18 + 23 = 0,891 21 + 25 21+ selección de variables 9 Algoritmos de selección de variables 9. variables. Forward (eliminación hacia adelante) Backward (eliminación hacia atrás) – pocas variables Stepwise (método por pasos) selección de variables Selección hacia delante - Eligen la variable que más discrimina entre los grupos. grupos - A continuación seleccionan la segunda más discriminante y así sucesivamente. - Si de las variables que quedan por elegir ninguna discrimina de forma significativa entre los grupos analizados el algoritmo finaliza. selección de variables Selección hacia atrás - El procedimiento es inverso al anterior. anterior - Comienza suponiendo que todas las variables son necesarias para discriminar y se elimina la menos discriminante entre los grupos analizados y así sucesivamente. - Si las variables no eliminadas discriminan significativamente entre los grupos analizados el algoritmo finaliza. - Generalmente selecciona pocas variables. Selección por pasos selección de variables - Utilizan una combinación de los dos algoritmos anteriores. Selección por pasos selección de variables - Utilizan una combinación de los dos algoritmos anteriores. - Incluyen la posibilidad de: - Eliminar una variable introducida en el conjunto en un paso anterior - Introducir una variable eliminada con anterioridad Selección por pasos selección de variables - Utilizan una combinación de los dos algoritmos anteriores. - Incluyen la posibilidad de: - Eliminar una variable introducida en el conjunto en un paso anterior - Introducir una variable eliminada con anterioridad - Para determinar qué variables entran y salen en cada paso de este tipo de algoritmos se utilizan diversos criterios. Selección por pasos selección de variables - Utilizan una combinación de los dos algoritmos anteriores. - Incluyen la posibilidad de: - Eliminar una variable introducida en el conjunto en un paso anterior - Introducir una variable eliminada con anterioridad - Para determinar qué variables entran y salen en cada paso de este tipo de algoritmos se utilizan diversos criterios. - Lambda L bd de d Wilks Wilk es ell más á utilizado tili d Selección por pasos selección de variables - Utilizan una combinación de los dos algoritmos anteriores. - Incluyen la posibilidad de: - Eliminar una variable introducida en el conjunto en un paso anterior - Introducir una variable eliminada con anterioridad - Para determinar qué variables entran y salen en cada paso de este tipo de algoritmos se utilizan diversos criterios. - Lambda L bd de d Wilks Wilk es ell más á utilizado tili d - Proporcionar un p-valor de entrada y otro de salida Selección por pasos selección de variables - Utilizan una combinación de los dos algoritmos anteriores. - Incluyen la posibilidad de: - Eliminar una variable introducida en el conjunto en un paso anterior - Introducir una variable eliminada con anterioridad - Para determinar qué variables entran y salen en cada paso de este tipo de algoritmos se utilizan diversos criterios. - Lambda L bd de d Wilks Wilk es ell más á utilizado tili d - Proporcionar un p-valor de entrada y otro de salida - Si el p p-valor valor obtenido al introducir una variable no es inferior al p-valor de entrada, la variable considerada no entra. - Si ell p-valor l obtenido bt id all eliminarla li i l del d l conjunto j t de d discriminación no es superior al de salida, la variable considerada no sale de dicho conjunto. selección de variables Inconvenientes de los procedimientos de selección - No tienen por qué llegar a la solución óptima - Utilizan como criterios de selección, criterios de separación de g grupos p y no de clasificación - El nivel de significación global es superior al establecido para entrar y sacar variables debido a la realización simultánea de varios test de hipótesis caso práctico C Caso práctico. á ti 1. Construir un modelo discriminante para el estado civil y otro para el género. 2. Construir el mismo modelo utilizando los factores. p ambos modelos. 3. Interpretar 1 Construir un modelo discriminante para la base de datos de 1. ovino-caprino dominicana. 2 Construir el mismo modelo utilizando los factores. 2. factores 3. Interpretar ambos modelos.