Profesor: Dr. Oldemar Rodrı́guez Rojas EIA-435O Minerı́a de Datos II (Optativo) Fecha de Entrega: Jueves 31 de octubre del 2013 Tarea Número 6 1. Para esta pregunta usaremos los datos SpamData.csv. a) El objetivo de este ejercicio es analizar la variación del error para el caso de la predicción de los e-mails que son o no spam, para esto repita 20 veces el cálculo de error glabal de predicción usando el método de las Redes Neuronales con un 70 % de los datos para tabla aprendizaje y un 30 % para la tabla testing. Grafique los resultados. b) El objetivo de este ejercicio es medir el error para el caso de la predicción de los e-mails que son o no spam utilizando validación cruzada con K grupos (K−fold cross-validation). Para esto usando el método de las Redes Neuronales realice una validación cruzada 20 veces con 30 grupos (folds) y grafique el error obtenido en cada iteración, agregue en este gráfico los 20 errores generados en el ejercicio anterior. c) Repita los 2 ejercicios anteriores usando Bosques Aleatorios y Métodos de Potenciación. d ) ¿Qué se puede concluir? 2. En este ejercicio usaremos la tabla de datos EjemploAlgoritmosRecomendación.csv, la cual contiene los promedios de evaluación de 100 personas que adquirieron los mismos productos o muy similares en la tienda AMAZON. a) Para estos datos determine usando el Codo de Jambu el mejor valor para k en el método k−medias con iter.max = 200. b) Usando k = 4 y 100 ejecuciones del método de las k−medias determine cuál de los algoritmos “Hartigan-Wong”, “Lloyd”, “Forgy” y “MacQueen”funciona mejor para estos datos en el sentido de que minimizan la inercia intra–clases. 3. Esta pregunta utiliza los datos sobre muerte del corazón en Sudáfrica (SAheart.csv). La variable que queremos predecir es chd que es un indicador de muerte coronaria basado en algunas variables predictivas (factores de riesgo) como son el fumado, la obesidad, las bebidas alcohólicas, entre otras. a) El objetivo de este ejercicio es calibrar el método de ADA Boosting. Aquı́ interesa predecir el Si en la variable chd, para esto genere 10 Validaciones Cruzadas con 6 grupos calibrando el modelo de acuerdo con los tres tipos de algoritmos que permite, discrete,real y gentle, para medir la calidad de método sume la cantidad de Si detectados en los diferentes grupos. Luego grafique las 10 iteraciones para los tres algoritmos en el mismo gráfico. ¿Se puede determinar con claridad cuál algoritmo es el mejor? Para generar los modelos predictivos use las siguientes instrucciones: modelo<-ada(chd~.,data=taprendizaje,iter=20,nu=1,type="discrete") modelo<-ada(chd~.,data=taprendizaje,iter=20,nu=1,type="real") modelo<-ada(chd~.,data=taprendizaje,iter=20,nu=1,type="gentle") 1 b) Repita el ejercicio anterior, pero esta vez en lugar de sumar los Si detectados, promedie los errores globales cometidos en los diferentes grupos (folds). Luego grafique las 10 itereaciones para los tres algoritmos en el mismo gráfico. ¿Se puede determinar con claridad cuál algoritmo es el mejor? c) ¿Cuál algoritmo usarı́a con base en la información obtenida en los dos ejercicios anteriores? 4. Esta pregunta también utiliza los datos sobre muerte del corazón en Sudáfrica (SAheart.csv). a) El objetivo de este ejercicio es comparar todos los métodos predictivos vistos en el curso con esta tabla de datos. Aquı́ interesa predecir el Si en la variable chd, para esto genere 10 Validaciones Cruzadas con 6 grupos para los métodos SVM, KNN, Bayes, LDA, QDA, Árboles, Bosques, Potenciación y Redes Neuronales. Luego grafique las 10 iteraciones para todos los métodos en el mismo gráfico. ¿Se puede determinar con claridad cuál métodos es el mejor? b) Repita el ejercicio anterior, pero esta vez en lugar de sumar los Si detectados, promedie los errores globales cometidos en los diferentes grupos (folds). Luego grafique las 10 itereaciones para los tres algoritmos en el mismo gráfico. ¿Se puede determinar con claridad cuál algoritmo es el mejor? c) ¿Cuál método usarı́a con base en la información obtenida en los dos ejercicios anteriores? 5. Con los datos que usted escogió de “UCI The Machine Learning Repository” realice lo siguiente: a) Dé una explicación detallada de los mismos. b) Compare todos los métodos predictivos vistos en el curso con esta tabla de datos. Primero seleccione el ı́ndice de error que usted considera más adecuado para sus datos, luego genere 10 Validaciones Cruzadas con 6 grupos para los métodos SVM, KNN, Bayes, LDA, QDA, Árboles, Bosques, Potenciación y Redes Neuronales. Grafique las 10 iteraciones para todos los métodos en el mismo gráfico. ¿Se puede determinar con claridad cuál método es el mejor? 2