Subido por Jose Ignacio G

Power Query Transformacion de datos y cargas avanzadas

Anuncio
SESIÓN 2:TRANSFORMACIÓN DE
DATOS Y CARGAS AVANZADAS
Eugenio Díaz Fariña ([email protected])
Eugenio Díaz Fariña
OUTLINE
2.1. Transformación 2ª parte
2.2. Carga avanzada de datos (Aprovechando los datos en abierto)
2.3. Carga avanzada de datos (Conexiones desde conectores certificados)
Eugenio Díaz Fariña
2.1 Transformación
• Vamos a realizar la tarea Carga de datos y Transformación 2.
El objetivo es ver otras cargas de datos y otras transformaciones
muy importantes (anexar y combinar).
• Paso 1: Cargamos los ficheros:
o Directorio:
Viajeros alojados en hoteles del Puerto de la Cruz.xlsx
Municipios de Canarias.csv
o Viajeros alojados en apartamentos del Puerto de la Cruz.gsheet
Eugenio Díaz Fariña
2.1 Transformación
Cargando el csv
Cargando el excel
Eugenio Díaz Fariña
2.1 Transformación
Para cargar el sheet usamos web (url).
Eugenio Díaz Fariña
2.1 Transformación
• Paso 2: Adaptamos los 2 tablas de viajeros alojados para que tengan
las misma estructura. Aprovechamos la estructura de hoteles para
dejarla cómo la válida. Por lo tanto, tenemos que realizar cambios en
apartamentos.
Eliminamos la columna Variable, ya que es la única que hay.
Renombramos la columna Valor por Viajeros alojados
• Paso 3: Anexamos consultas para unificar los datos. Vamos a crear
una tabla nueva (nombre: Viajeros alojados).
Eugenio Díaz Fariña
2.1 Transformación
Eugenio Díaz Fariña
2.1 Transformación
• Paso 4: combinamos tablas para traer las coordenadas del municipios
del Puerto de la Cruz.
TIENEN QUE TENER MÍNIMO UN CAMPO EN COMÚN!!
Elegimos la tabla que
contiene los campos
que queremos importar
a la table principal.
Eugenio Díaz Fariña
2.1 Transformación
Emparejamos las columnas de
ambas tablas que sean
coincidentes. Es similar
Existen múltiples opciones, según la
necesidad se aplicará una u otra.
Eugenio Díaz Fariña
2.1 Transformación
No hay ningún campo coincidente. Esto
indica que los nombre del municipio están
escritos de forma diferente. Busquemos la
diferencia y solventémosla.
Reemplazamos el valor
Eugenio Díaz Fariña
2.1 Transformación
Aparece una nueva columna
indicando que es una tabla.
Pinchamos en el botón
derecho.
Eugenio Díaz Fariña
Se despliegan los campos de la
tabla que nos interesa
importar. Elegimos Latitud y
Longitud
2.1 Transformación
• Paso 5: cambiamos el tipo de dato de Latitud y Longitud desde la
Power BI desktop (no el editor).
Para abrir la edición del campo, tenemos
que pinchar sobre el campo que
queremos cambiar.
El menú que se abre lo vemos en la parte
superior.
Eugenio Díaz Fariña
2.2. Aprovechando los datos en abierto
• El 90% por del tiempo de un consultor/analista de datos se pierde en
la tranformación de los datos hasta lograr normalizarlos.
• Es por ello, que resulta fundamental encontrar datos publicados por
organismos oficiales para su posterior reutilización. Por supuesto, que
hablamos de datos en abierto.
• La ventaja de los datos en abierto es que vienen en una sola tabla,
normalmente, y ya están “limpios”. Por lo tanto, se trata únicamente
de conectarlos a nuestra herramienta de análisis y comenzar nuestra
tarea.
Eugenio Díaz Fariña
2.2. Aprovechando los datos en abierto
OPENDATA EN CANARIAS
https://www3.gobiernodecanarias.org/aplicaciones/catalogoistac/
Regional:
• https://opendata.gobiernodecanarias.org/opendata/
Insulares
• https://www.tenerifedata.com/
• https://www.opendatalapalma.es/
Municipales:
• https://www.santacruzdetenerife.es/web/gobierno-abierto/opendata
Eugenio Díaz Fariña
2.2. Aprovechando los datos en abierto
Ejemplo: datos en abierto de medioambiente de Santa Cruz de
Tenerife
Formatos disponible.
Lo bueno de los
ficheros json es que si
el Ayto. decide
actualizar el fichero,
no tenemos sino que
recargar nuestro
informe para ver los
nuevos datos.
Eugenio Díaz Fariña
2.2. Aprovechando los datos en abierto
Ejemplo: ubicación de contenedores de residuos en Santa Cruz de
Tenerife (https://www.santacruzdetenerife.es/opendata/dataset/contenedores-rrsu)
Fichero
geojson
Eugenio Díaz Fariña
2.2. Aprovechando los datos en abierto
Copiamos la
url
Eugenio Díaz Fariña
2.2. Aprovechando los datos en abierto
• Dentro del Power BI Desktop, cargamos los datos desde web
Eugenio Díaz Fariña
2.2. Aprovechando los datos en abierto
• Lo que se carga inicialmente al Power BI Desktop es una lista:
• Clicamos en List para ir entrando en su contenido.
Pinchamos en “A la tabla”, dentro de la sección Convertir de la pestaña Transformar.
Eugenio Díaz Fariña
2.2. Aprovechando los datos en abierto
• Una vez convertida en tabla, se nos aparecerá un botón en el único
campo disponible.
Eugenio Díaz Fariña
2.2. Aprovechando los datos en abierto
• Hacemos lo mismo con el campo Column1.properties para expandir el
contenido.
Eugenio Díaz Fariña
2.2. Aprovechando los datos en abierto
• Tras limpiar un poco más los datos y hacer lo mismo con el resto de
contenedores. Procedemos a representar los datos en un mapa.
Eugenio Díaz Fariña
2.2. Aprovechando los datos en abierto
Eugenio Díaz Fariña
2.2. Aprovechando los datos en abierto
• Vamos a probrar con la técnica de webscraping
1. Leyendo desde la web (por ejemplo Amazon)
2. Usando las funciones del google sheet
(https://www.worldometers.info/coronavirus/)
Eugenio Díaz Fariña
2.3. Conexiones desde conectores certificados
• Power BI puede conectarse fácilmente a cualquier API.
• Lo complicado es navegar por los json hasta llegar al dato que
queremos.
• Las API son complejas para usuarios alejados de la informática.
• Por eso, el ISTAC ha desarrollado un conector de datos para el Power
BI que permite acceder a todos sus datos en abierto.
• Para hacer uso de este conector, tenemos que ir al aula virtual, a la
sección Destacados y descargar el fichero “Conector de Power BI a
datos del ISTACArchivo”.
Eugenio Díaz Fariña
2.3. Conexiones desde conectores certificados
• Pasos para instalar el conector:
1. El fichero descargado lo metemos directamente en Documentos (de
nuestro equipo local). El fichero necesario es ISTAC.mez (disponible
también en Github). La ruta de localización ha de ser:
C:\Users\User_name\Documents\Power BI Desktop\Custom
Connectors
Eugenio Díaz Fariña
2.3. Conexiones desde conectores certificados
• Pasos para instalar el
conector:
2. Entramos en configuración
(en Power BI desktop) >
Opciones
3. En el apartado de
Seguridad, clicamos la
opción “Permitir que se
cargue calquier extensión…”
Eugenio Díaz Fariña
2.3. Conexiones desde conectores certificados
• Ahora veremos en Carga de datos, la nueva opción del Conector del
ISTAC:
Eugenio Díaz Fariña
2.3. Conexiones desde conectores certificados
• Existen varias opciones para descargar
los datos. Todo aquello que está en
carpetas ya está normalizado. Los
datos están en Cubos e Indicadores.
• Los cubos son dataset cube (contiene
toda la información de una operación
estadística en concreto).
• En cambio, los indicadores son
instancias concretas de los dataset
cubes.
Eugenio Díaz Fariña
2.3. Conexiones desde conectores certificados
• El ISTAC se encuentra ahora mismo en un proceso
de normalización de todos sus operaciones
estadísticas, por lo que en el futuro, todo estará
en Cubos.
• Mientras tanto, ha desarrollado la función
ISTAC.base para permiter al usuario descargar
cualquier tabla que esté publicada en la web del
instituto sin necesidad de estar migrada a la
nueva web (ya con los datos normalizados).
Eugenio Díaz Fariña
2.3. Conexiones desde conectores certificados
• Una vez hemos cargado la función Fx ISTAC.base, nos aparecerá la
función en el apartado de Consultas.
Eugenio Díaz Fariña
2.3. Conexiones desde conectores certificados
• Mientras que los datos de Cubos e Indicadores se descargan
directamente navegando desde el Power BI Desktop, para la función
necesitamos ir a la página web y abrimos el json de la tabla que
queramos.
Eugenio Díaz Fariña
2.3. Conexiones desde conectores certificados
• Copiamos la url del json y la introducimos en la función Fx
ISTAC.base
http://www.gobiernodecanarias.org/istac/jaxiistac/tabla.do?accion=jsonMtd&uuidConsulta=4a10a2
f2-3ee3-432c-991c-9a029c350dc6
Eugenio Díaz Fariña
2.3. Conexiones desde conectores certificados
• El resultado es la importación en Power BI Desktop de la tabla
deseada. Nos importa incluso la Fecha en el formato Fecha
adecuado (listo para usarse).
Eugenio Díaz Fariña
2.3. Conexiones desde conectores certificados
• Dado que todos los datos
importados del ISTAC tienen el
código y el literal de la
dimensión territorio, podemos
cruzarlo con las coordenadas
para obtener su georrefencia.
• Las coordenadas las podemos
sacar de diferentes formas.
• Por ejemplo, desde el conector
de datos del ISTAC:
Eugenio Díaz Fariña
2.3. Conexiones desde conectores certificados
• Seleccionamos las siguientes columnas y ya tendremos tabla de
dimensión definitiva.
• El campo GEOGRAPHICAL.Código es el campo a relacionar con
cualquier tabla que importemos del conector.
Eugenio Díaz Fariña
2.3. Conexiones desde conectores certificados
• Ejercicio: vamos a comprobar la diferencia entre cargar un json del
ISTAC con la lectura desde url y con la lectura desde el conector.
Eugenio Díaz Fariña
Descargar