Tarea Número 6 - Oldemar Rodríguez Rojas

Profesor: Dr. Oldemar Rodrı́guez Rojas EIA-435O Minerı́a de Datos II (Optativo) Fecha de Entrega: Jueves 31 de octubre del 2013 Tarea Número 6 1. Para esta pregunta usaremos los datos SpamData.csv. a) El objetivo de este ejercicio es analizar la variación del error para el caso de la predicción de los e-mails que son o no spam, para esto repita 20 veces el cálculo de error glabal de predicción usando el método de las Redes Neuronales con un 70 % de los datos para tabla aprendizaje y un 30 % para la tabla testing. Grafique los resultados. b) El objetivo de este ejercicio es medir el error para el caso de la predicción de los e-mails que son o no spam utilizando validación cruzada con K grupos (K−fold cross-validation). Para esto usando el método de las Redes Neuronales realice una validación cruzada 20 veces con 30 grupos (folds) y grafique el error obtenido en cada iteración, agregue en este gráfico los 20 errores generados en el ejercicio anterior. c) Repita los 2 ejercicios anteriores usando Bosques Aleatorios y Métodos de Potenciación. d ) ¿Qué se puede concluir? 2. En este ejercicio usaremos la tabla de datos EjemploAlgoritmosRecomendación.csv, la cual contiene los promedios de evaluación de 100 personas que adquirieron los mismos productos o muy similares en la tienda AMAZON. a) Para estos datos determine usando el Codo de Jambu el mejor valor para k en el método k−medias con iter.max = 200. b) Usando k = 4 y 100 ejecuciones del método de las k−medias determine cuál de los algoritmos “Hartigan-Wong”, “Lloyd”, “Forgy” y “MacQueen”funciona mejor para estos datos en el sentido de que minimizan la inercia intra–clases. 3. Esta pregunta utiliza los datos sobre muerte del corazón en Sudáfrica (SAheart.csv). La variable que queremos predecir es chd que es un indicador de muerte coronaria basado en algunas variables predictivas (factores de riesgo) como son el fumado, la obesidad, las bebidas alcohólicas, entre otras. a) El objetivo de este ejercicio es calibrar el método de ADA Boosting. Aquı́ interesa predecir el Si en la variable chd, para esto genere 10 Validaciones Cruzadas con 6 grupos calibrando el modelo de acuerdo con los tres tipos de algoritmos que permite, discrete,real y gentle, para medir la calidad de método sume la cantidad de Si detectados en los diferentes grupos. Luego grafique las 10 iteraciones para los tres algoritmos en el mismo gráfico. ¿Se puede determinar con claridad cuál algoritmo es el mejor? Para generar los modelos predictivos use las siguientes instrucciones: modelo<-ada(chd~.,data=taprendizaje,iter=20,nu=1,type="discrete") modelo<-ada(chd~.,data=taprendizaje,iter=20,nu=1,type="real") modelo<-ada(chd~.,data=taprendizaje,iter=20,nu=1,type="gentle") 1 b) Repita el ejercicio anterior, pero esta vez en lugar de sumar los Si detectados, promedie los errores globales cometidos en los diferentes grupos (folds). Luego grafique las 10 itereaciones para los tres algoritmos en el mismo gráfico. ¿Se puede determinar con claridad cuál algoritmo es el mejor? c) ¿Cuál algoritmo usarı́a con base en la información obtenida en los dos ejercicios anteriores? 4. Esta pregunta también utiliza los datos sobre muerte del corazón en Sudáfrica (SAheart.csv). a) El objetivo de este ejercicio es comparar todos los métodos predictivos vistos en el curso con esta tabla de datos. Aquı́ interesa predecir el Si en la variable chd, para esto genere 10 Validaciones Cruzadas con 6 grupos para los métodos SVM, KNN, Bayes, LDA, QDA, Árboles, Bosques, Potenciación y Redes Neuronales. Luego grafique las 10 iteraciones para todos los métodos en el mismo gráfico. ¿Se puede determinar con claridad cuál métodos es el mejor? b) Repita el ejercicio anterior, pero esta vez en lugar de sumar los Si detectados, promedie los errores globales cometidos en los diferentes grupos (folds). Luego grafique las 10 itereaciones para los tres algoritmos en el mismo gráfico. ¿Se puede determinar con claridad cuál algoritmo es el mejor? c) ¿Cuál método usarı́a con base en la información obtenida en los dos ejercicios anteriores? 5. Con los datos que usted escogió de “UCI The Machine Learning Repository” realice lo siguiente: a) Dé una explicación detallada de los mismos. b) Compare todos los métodos predictivos vistos en el curso con esta tabla de datos. Primero seleccione el ı́ndice de error que usted considera más adecuado para sus datos, luego genere 10 Validaciones Cruzadas con 6 grupos para los métodos SVM, KNN, Bayes, LDA, QDA, Árboles, Bosques, Potenciación y Redes Neuronales. Grafique las 10 iteraciones para todos los métodos en el mismo gráfico. ¿Se puede determinar con claridad cuál método es el mejor? 2

Tarea Número 6 - Oldemar Rodríguez Rojas

Documentos relacionados

Productos

Apoyo

Tarea Número 6 - Oldemar Rodríguez Rojas

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib