SESIÓN 2:TRANSFORMACIÓN DE DATOS Y CARGAS AVANZADAS Eugenio Díaz Fariña ([email protected]) Eugenio Díaz Fariña OUTLINE 2.1. Transformación 2ª parte 2.2. Carga avanzada de datos (Aprovechando los datos en abierto) 2.3. Carga avanzada de datos (Conexiones desde conectores certificados) Eugenio Díaz Fariña 2.1 Transformación • Vamos a realizar la tarea Carga de datos y Transformación 2. El objetivo es ver otras cargas de datos y otras transformaciones muy importantes (anexar y combinar). • Paso 1: Cargamos los ficheros: o Directorio: Viajeros alojados en hoteles del Puerto de la Cruz.xlsx Municipios de Canarias.csv o Viajeros alojados en apartamentos del Puerto de la Cruz.gsheet Eugenio Díaz Fariña 2.1 Transformación Cargando el csv Cargando el excel Eugenio Díaz Fariña 2.1 Transformación Para cargar el sheet usamos web (url). Eugenio Díaz Fariña 2.1 Transformación • Paso 2: Adaptamos los 2 tablas de viajeros alojados para que tengan las misma estructura. Aprovechamos la estructura de hoteles para dejarla cómo la válida. Por lo tanto, tenemos que realizar cambios en apartamentos. Eliminamos la columna Variable, ya que es la única que hay. Renombramos la columna Valor por Viajeros alojados • Paso 3: Anexamos consultas para unificar los datos. Vamos a crear una tabla nueva (nombre: Viajeros alojados). Eugenio Díaz Fariña 2.1 Transformación Eugenio Díaz Fariña 2.1 Transformación • Paso 4: combinamos tablas para traer las coordenadas del municipios del Puerto de la Cruz. TIENEN QUE TENER MÍNIMO UN CAMPO EN COMÚN!! Elegimos la tabla que contiene los campos que queremos importar a la table principal. Eugenio Díaz Fariña 2.1 Transformación Emparejamos las columnas de ambas tablas que sean coincidentes. Es similar Existen múltiples opciones, según la necesidad se aplicará una u otra. Eugenio Díaz Fariña 2.1 Transformación No hay ningún campo coincidente. Esto indica que los nombre del municipio están escritos de forma diferente. Busquemos la diferencia y solventémosla. Reemplazamos el valor Eugenio Díaz Fariña 2.1 Transformación Aparece una nueva columna indicando que es una tabla. Pinchamos en el botón derecho. Eugenio Díaz Fariña Se despliegan los campos de la tabla que nos interesa importar. Elegimos Latitud y Longitud 2.1 Transformación • Paso 5: cambiamos el tipo de dato de Latitud y Longitud desde la Power BI desktop (no el editor). Para abrir la edición del campo, tenemos que pinchar sobre el campo que queremos cambiar. El menú que se abre lo vemos en la parte superior. Eugenio Díaz Fariña 2.2. Aprovechando los datos en abierto • El 90% por del tiempo de un consultor/analista de datos se pierde en la tranformación de los datos hasta lograr normalizarlos. • Es por ello, que resulta fundamental encontrar datos publicados por organismos oficiales para su posterior reutilización. Por supuesto, que hablamos de datos en abierto. • La ventaja de los datos en abierto es que vienen en una sola tabla, normalmente, y ya están “limpios”. Por lo tanto, se trata únicamente de conectarlos a nuestra herramienta de análisis y comenzar nuestra tarea. Eugenio Díaz Fariña 2.2. Aprovechando los datos en abierto OPENDATA EN CANARIAS https://www3.gobiernodecanarias.org/aplicaciones/catalogoistac/ Regional: • https://opendata.gobiernodecanarias.org/opendata/ Insulares • https://www.tenerifedata.com/ • https://www.opendatalapalma.es/ Municipales: • https://www.santacruzdetenerife.es/web/gobierno-abierto/opendata Eugenio Díaz Fariña 2.2. Aprovechando los datos en abierto Ejemplo: datos en abierto de medioambiente de Santa Cruz de Tenerife Formatos disponible. Lo bueno de los ficheros json es que si el Ayto. decide actualizar el fichero, no tenemos sino que recargar nuestro informe para ver los nuevos datos. Eugenio Díaz Fariña 2.2. Aprovechando los datos en abierto Ejemplo: ubicación de contenedores de residuos en Santa Cruz de Tenerife (https://www.santacruzdetenerife.es/opendata/dataset/contenedores-rrsu) Fichero geojson Eugenio Díaz Fariña 2.2. Aprovechando los datos en abierto Copiamos la url Eugenio Díaz Fariña 2.2. Aprovechando los datos en abierto • Dentro del Power BI Desktop, cargamos los datos desde web Eugenio Díaz Fariña 2.2. Aprovechando los datos en abierto • Lo que se carga inicialmente al Power BI Desktop es una lista: • Clicamos en List para ir entrando en su contenido. Pinchamos en “A la tabla”, dentro de la sección Convertir de la pestaña Transformar. Eugenio Díaz Fariña 2.2. Aprovechando los datos en abierto • Una vez convertida en tabla, se nos aparecerá un botón en el único campo disponible. Eugenio Díaz Fariña 2.2. Aprovechando los datos en abierto • Hacemos lo mismo con el campo Column1.properties para expandir el contenido. Eugenio Díaz Fariña 2.2. Aprovechando los datos en abierto • Tras limpiar un poco más los datos y hacer lo mismo con el resto de contenedores. Procedemos a representar los datos en un mapa. Eugenio Díaz Fariña 2.2. Aprovechando los datos en abierto Eugenio Díaz Fariña 2.2. Aprovechando los datos en abierto • Vamos a probrar con la técnica de webscraping 1. Leyendo desde la web (por ejemplo Amazon) 2. Usando las funciones del google sheet (https://www.worldometers.info/coronavirus/) Eugenio Díaz Fariña 2.3. Conexiones desde conectores certificados • Power BI puede conectarse fácilmente a cualquier API. • Lo complicado es navegar por los json hasta llegar al dato que queremos. • Las API son complejas para usuarios alejados de la informática. • Por eso, el ISTAC ha desarrollado un conector de datos para el Power BI que permite acceder a todos sus datos en abierto. • Para hacer uso de este conector, tenemos que ir al aula virtual, a la sección Destacados y descargar el fichero “Conector de Power BI a datos del ISTACArchivo”. Eugenio Díaz Fariña 2.3. Conexiones desde conectores certificados • Pasos para instalar el conector: 1. El fichero descargado lo metemos directamente en Documentos (de nuestro equipo local). El fichero necesario es ISTAC.mez (disponible también en Github). La ruta de localización ha de ser: C:\Users\User_name\Documents\Power BI Desktop\Custom Connectors Eugenio Díaz Fariña 2.3. Conexiones desde conectores certificados • Pasos para instalar el conector: 2. Entramos en configuración (en Power BI desktop) > Opciones 3. En el apartado de Seguridad, clicamos la opción “Permitir que se cargue calquier extensión…” Eugenio Díaz Fariña 2.3. Conexiones desde conectores certificados • Ahora veremos en Carga de datos, la nueva opción del Conector del ISTAC: Eugenio Díaz Fariña 2.3. Conexiones desde conectores certificados • Existen varias opciones para descargar los datos. Todo aquello que está en carpetas ya está normalizado. Los datos están en Cubos e Indicadores. • Los cubos son dataset cube (contiene toda la información de una operación estadística en concreto). • En cambio, los indicadores son instancias concretas de los dataset cubes. Eugenio Díaz Fariña 2.3. Conexiones desde conectores certificados • El ISTAC se encuentra ahora mismo en un proceso de normalización de todos sus operaciones estadísticas, por lo que en el futuro, todo estará en Cubos. • Mientras tanto, ha desarrollado la función ISTAC.base para permiter al usuario descargar cualquier tabla que esté publicada en la web del instituto sin necesidad de estar migrada a la nueva web (ya con los datos normalizados). Eugenio Díaz Fariña 2.3. Conexiones desde conectores certificados • Una vez hemos cargado la función Fx ISTAC.base, nos aparecerá la función en el apartado de Consultas. Eugenio Díaz Fariña 2.3. Conexiones desde conectores certificados • Mientras que los datos de Cubos e Indicadores se descargan directamente navegando desde el Power BI Desktop, para la función necesitamos ir a la página web y abrimos el json de la tabla que queramos. Eugenio Díaz Fariña 2.3. Conexiones desde conectores certificados • Copiamos la url del json y la introducimos en la función Fx ISTAC.base http://www.gobiernodecanarias.org/istac/jaxiistac/tabla.do?accion=jsonMtd&uuidConsulta=4a10a2 f2-3ee3-432c-991c-9a029c350dc6 Eugenio Díaz Fariña 2.3. Conexiones desde conectores certificados • El resultado es la importación en Power BI Desktop de la tabla deseada. Nos importa incluso la Fecha en el formato Fecha adecuado (listo para usarse). Eugenio Díaz Fariña 2.3. Conexiones desde conectores certificados • Dado que todos los datos importados del ISTAC tienen el código y el literal de la dimensión territorio, podemos cruzarlo con las coordenadas para obtener su georrefencia. • Las coordenadas las podemos sacar de diferentes formas. • Por ejemplo, desde el conector de datos del ISTAC: Eugenio Díaz Fariña 2.3. Conexiones desde conectores certificados • Seleccionamos las siguientes columnas y ya tendremos tabla de dimensión definitiva. • El campo GEOGRAPHICAL.Código es el campo a relacionar con cualquier tabla que importemos del conector. Eugenio Díaz Fariña 2.3. Conexiones desde conectores certificados • Ejercicio: vamos a comprobar la diferencia entre cargar un json del ISTAC con la lectura desde url y con la lectura desde el conector. Eugenio Díaz Fariña