Practica 2 : Analytics con lenguaje R

Anuncio
Practica 2 : Analytics con lenguaje R
Objetivo general : En ésta prática ejercitaremos el uso del lenguaje R para realizar analisis de
datos sobre una plataforma cloud
Objetivos particulares :
• Practicar el uso de BlueMix como plataforma para acceder a servicios de data-warehouse
que tienen soporte para lenguaje R para poder realizar analítica de datos (50 puntos)
• Modificar el script de muestra en R y generar un reporte personalizado aplicando los
conocimientos adquiridos en lenguaje R (50 puntos)
Outline de la práctica
1. Parte 1 : Trabajar con un script de R en la plataforma de R Studio para hace análisis
estadístico de los datos de un cliente (25 puntos)
1. Agregar el servicio dashDB analytics data warehouse a una aplicación en blueMix. Si no
existe la aplicación aún, crear una usando el framework de Node.js
2. Si asi es solicitado, reiniciar la aplicación
3. Seleccionar la instancia de dashDB en la aplicación para acceder a la consola
4. Hacer click en Launch para abrir la consola. En dashDB se puede trabajar con datos
nativos, hojas de Excel, Cognos y scripts en R
5. Desde la consola, en el menú Analytics seleccionar Develop R Scripts
6. El servicio de Analytics warehouse incluye a su vez un servicio de Rstudio en la nube
mediante el cual se puede programar en R. Hay que seleccionar R Studio después del
paso 5
7. Cuando R Studio pida usuario y contraseña, hay que untroducir los que nos aparecen en
la consola del DataWarehouse. Ir a Setup → Connect Applications y obtener el
UserID y el Password
8. Desde Rstudio, ir a File → New Project
9. Seleccionar New Directory → empty project y elegir el nombre para el proyecto.
Seleccionar Create project
10. Importar el script disponible desde este link
https://www.ibm.com/developerworks/community/groups/service/html/communityview?
communityUuid=18b8491b-bc76-469d-806de6982265ace7#fullpageWidgetId=W273fd64f1ecb_4104_a0aa_8946ed9765b0&file=943a1
83a-8645-4c02-a369-2c4b49662988 y descargarlo a su computadora
11. Hacer click en Upload en la barra del explorador de archivos de R Studio
12. Elegir Browse y buscar el script descargado en el paso 10
13. Repetir los pasos 10, 11 y 12 con este link :
https://www.ibm.com/developerworks/community/groups/service/html/communityview?
communityUuid=18b8491b-bc76-469d-806de6982265ace7#fullpageWidgetId=W273fd64f1ecb_4104_a0aa_8946ed9765b0&file=9aabb
2f3-4d41-472f-b392-4b088394ad67 para descargar la informacion del cliente sobre la
cual se hará analytics
14. Seleccionar el archivo CSV y abrirlo en el editor de R Studio. Comprobar que el archivo
contiene datos separados por comas
15. Para ejecutar el Script en R, hacer click en el script y luego hacer click en Run . Si se
está en modo single-step test, se tiene que hacer click en Run para que avance el script
paso a paso.
16. El área de Environment se irá cargando con los datos que se van obteniendo a medida
que el script en R se va ejecutando
17. Verificar las estructuras que se cargan con los siguientes comandos en R:
1. mydata <- read.csv("customer_data.csv")
2. mylogit <- glm(CENSOR ~ AVG_SPENT_RETAIN_PM ............................
3. newdata2 <- with(mydata, data.frame(DURATION ..........................
18. Al hacer doble click sobre el objeto generado, se abre una ventana donde se puede
observar el contenido completo del mismo:
19. En la ventana del proyecto en la esquina inferior derecha iran apareciendo los archivos
generados por el script. Para este ejercicio se debe de generar un archivo CSV, una
gráfica en forma de archivo de imagen y un archivo PDF correspondiente.
20. Comprobar el contenido de los 3 archivos
2. Cargar y ejecutar analytics desde el DashDB data warehouse directamente (25 puntos)
1. Desde la consola del data warehouse, seleccionar Manage → Load Data
2. Usar la opcion Quick Load y seleccionar el archivo CSV con los datos del cliente
dejando las demás opciones con los valores default
3. Hacer click en Load y después en Next
4. En la siguiente pestaña, seleccionar Create new table and load y hacer click en Next
5. En la siguiente pestaña, en el nombre de la tabla, agregar Customer_DATA y dejar las
demás opciones con sus valores default
6. Debe de haber un mensaje indicando que la tabla se importó exitosamente
7. Desde la consola, seleccionar Manage → Work with tables
8. Seleccionar Customer_DATA que se acaba de cargar
9. En la pestaña Develop R Scripts , seleccionar Import → Import from local filesystem
→ Browse y seleccionar el script R que se descargó a la computadora local
anteriormente. El script se debe de cargar en el editor
10. Editar el script para no usar los datos desde un archivo CSV si no desde una tabla que
existe en dashDB:
1. Agregar el caracter de gato (#) en la linea que indica que los datos se leen desde un
archivo csv : # mydata <- read.csv(“customer_data.csv”)
2. Descomentar las lineas que indican que se debe de establecer una conexion con
dashDB: con <- idaConnect("BLUDB","","") // son 4 lineas hasta
CUSTOMER_DATA",as.is=F)
3. Ir al final del script y descomentar la linea que cierra la conexion con la base de datos
: idaClose(con)
11. Hacer click en Save y darle un nombre al script
12. Hacer click en Submit para ejecutar el script.
3. Personalizar el script para realizar operaciones adicionales con R y preparar un
archivo de salida generado por el mismo script (50 puntos)
1. Usar al menos 3 funciones de R diferentes a las definidas en el Script
2. Generar un data-set con las funciones nuevas
3. Generar una gráfica
4. Subir el codigo junto con la gráfica generada al foro
Descargar