UNIVERSIDAD REY JUAN CARLOS CURSO 2013-2014 Guía de Estudio Tema 10 Aprendizaje I: Introducción y Árboles de decisión Sobre la introducción al aprendizaje automático y los diferentes tipos de aprendizaje se pueden consultar las siguientes referencias: - [Russell&Norvig2004]: capítulo 18 secciones 1 y 2 Respecto al algoritmo básico del aprendizaje de árboles de decisión se puede encontrar información más detallada en: - [Russell&Norvig2004]: capítulo 18 seccione 3 - El algoritmo ID3 ha sido desarrollado inicialmente por Quinlan en [Quinlan 1979] Una discusión más detallada y extensa del aprendizaje de árboles de decisión, otras formas de aprendizaje inductivo y un análisis de algunos aspectos teóricos del aprendizaje inductivo se encuentran en todo el capítulo 18 de [Russell&Norvig2004]. Respecto a las formas de evaluar métodos de aprendizaje, en realidad se evalúa la calidad de los clasificadores que se hayan aprendido. Esta evaluación es similar a cualquier tipo de sistema de clasificación de cualquier ámbito (por ejemplo también la evaluación de motores de búsqueda de documentos). No hay una descripción muy detallada de estos parámetros de evaluación en los libros de referencia de la asignatura. La información que viene en la Wikipedia bajo el concepto de “Sensitivity and specificity” está bastante bien y completa. Referencias: [Russell&Norvig2004] Stuart Russell, Peter Norvig. Inteligencia Artificial: Un enfoque modern. Pearson Educación S.A. Madrid, 2004. [Quinlan1979] J.R.Quinlan. Discovering rules from large collections of examples: A case study. En D. Michie (ed.). Expert Systems in the Microelectronic Age. Edingurgh University Press, 1979. Solución del ejercicio en la transparencia 36: Eglobal=(-3/8 * log23/8) + (-5/8 * log25/8)=0,954 Pelo: Erubio =(-2/4*log22/4)+(-2/4*log22/4)=1 Emoreno =(-0*log20)+(-1*log21)=0 Erojo =(-1*log21)+(-0*log20)=0 Epelo=4/8*1 +3/8*0+1/8*0=0,5 -> mayor ganancia Altura: Ealta =(-0*log20)+( -1*log21)=0 Emedia =(-2/3*log22/3)+( -1/3*log21/3)=0,91 Ebaja =(-1/3*log21/3)+( -2/3*log22/3)=0,91 Ealtura=2/8*0 +3/8*0,91+3/8*0,91=0,68 Peso: Ealta =(-1/3*log21/3)+( -2/3*log22/3)=0,91 Emedia =(-1/3*log21/3)+( -2/3*log22/3)=0,91 Pág. 1 / 3 UNIVERSIDAD REY JUAN CARLOS CURSO 2013-2014 Guía de Estudio Tema 10 Aprendizaje I: Introducción y Árboles de decisión Ebaja =(-1/2*log21/2)+( -1/2*log21/2)=1 Epeso=3/8*0,91+3/8*0,91+ 2/8*1=0,93 Protección: Esi =(-0*log20)+( -1*log21)=0 Eno =(-3/5*log23/5)+( -2/5*log22/5)=0,97 Eprotección=3/8*0+5/8*0,97=0,6 Pelo moreno rojo rubio NO ¿? SI Para pelo rubio: Eglobal=(-1/2 * log21/2) + (-1/2 * log21/2)=1 Protección: Esi =(-0*log20)+( -1*log21)=0 Eno =(-1*log21)+( -0*log20)=0 Eprotección=0 ! máxima ganancia No hace falta calcular los otros atributos ya que con la protección se obtiene la mejor ganancia posible (1). Solución final: Pelo moreno rojo rubio NO Protección si SI no NO SI El algoritmo termina ya que todos los nodos están etiquetados con una clase (SI o NO). Pág. 2 / 3 UNIVERSIDAD REY JUAN CARLOS CURSO 2013-2014 Guía de Estudio Tema 10 Aprendizaje I: Introducción y Árboles de decisión Respuesta a la pregunta en la transparencia 40: ¿Es útil un clasificador con una corrección del 0,4? En principio, un clasificador con una corrección de 0,4 se equivoca en el 60% de los casos y acierta en el 40%. En general, un clasificador de este tipo no tiene mucha utilidad. Es más, teniendo un clasificador con corrección 0,4, se podría construir fácilmente uno con corrección 0,6: Simplemente se devuelve el resultado contrario a lo que dice el clasificador. Si este es correcto en un 40% y erróneo en un 60%, decir lo contrario sería correcto en el 60% de los casos (y erróneo en el 40%). Ahora bien, sí es posible que en algún caso concreto, un clasificador con una corrección de 0,4 podría tener sentido si tiene otras cualidades interesantes. Consideremos, por ejemplo, un método automático de diagnostico de alguna enfermedad grave. Supongamos que la enfermedad la tiene un 10% de los personas analizadas y un 90% no la tiene. Supongamos que el método siempre detecta la enfermedad si existe (es decir, no se equivoca en los 10% de casos positivos). Sin embargo, se equivoca en el 66,6 % de los casos que no tienen la enfermedad. En total, este método tendría una corrección de 0,4 (se equivocaría en el 60% de todos los casos). Ahora bien, el método si es útil para un médico, porque si el método no diagnostica la enfermedad, el médico puede estar seguro de que el paciente no la tenga. En los casos, donde el diagnostico automático resulta positivo, el médico podría realizar otras pruebas para determinar la existencia de la enfermedad con precisión. Pág. 3 / 3