PERIODISMO DE DATOS Recopilar y analizar grandes cantidades de información y datos detallados para hacerlos comprensibles a la audiencia a través de artículos, visualizaciones o aplicaciones. Encontrar PATRONES y TENDENCIAS en un conjunto de datos. Ejemplos. Cruzamos los datos con parámetros demográficos y económicos 1) Se produce un accidente en un cruce porque el semáforo no funcionaba. Una señora resulta herida. Buscamos si hay un patrón → ¿Qué semáforos de la ciudad no funcionan?, ¿están todos en el mismo barrio?, ¿es el barrio más pobre? 2) El Ayto. de Madrid publica un dataset con información de las multas de tráfico. Podemos analizar cuáles son los 10 puntos negros de Madrid y en qué tipo de barrio se concentran. 3) Los perros potencialmente peligrosos en Madrid crecen un 34% en tres años con mayor concentración en barrios pobres. 4) Cruzamos los datos de la capacidad asistencial con datos demográficos (mayores de 65 años son los que más usan estos servicios) y económicos (renta media por distrito) → barrios con renta baja tienen inferior capacidad asistencial. No sólo eso, también en los barrios donde se concentra un mayor número de personas con más de 65 años. Otros ejemplos: - Cruzamos dataset de los centros educativos con el de salas de juegos de azar y apuestas → uno de cada cuatro centros de bachillerato de Madrid se encuentra junto a un salón de juego. 114 centros están a menos de 150 metros de una casa de máquinas recreativas o apuestas. Aunque… “CORRELACIÓN NO IMPLICA CAUSALIDAD” PETICIONES DE INFORMACIÓN / LEY DE TRANSPARENCIA https://www.senado.es/web/composicionorganizacion/senadores/composicionsenado/fichas enador/preguntasescritas/index.html;jsessionid=2FYTfqVLrPVyyXbp9pppDGnQ18g00Gppg pklns8n9HQbvG0tlQTh!1163083117?id1=17485&legis=12&id2=684&id3=pre ¿QUÉ FORMATOS PODEMOS UTILIZAR? PDF imágenes → utilizamos sistema OCR para convertirlo EXCEL → .xls (antiguo) / .xlsx = es como un doc .xml (formato 2007) CSV → es como un formato de texto. Separación de datos con coma o punto y coma. En MAC podemos utilizar un editor de textos o excel para abrirlo. Nos permite que sea compatible con cualquier aplicación o plataforma. TSV → separación de datos con tabulación Conversión de PDF a EXCEL o CSV PDF en imagen -- Acrobat Pro / Fine Reader / Google Docs (gratuito) PDF en texto -- Convertidores online / Tabula / Acrobat Pro / Fine Reader Tabula → poder extrar las tablas que están en un PDF ¿CÓMO TRABAJAMOS CON UN ARCHIVO CSV? CON EXCEL OFFICE Cuando tenemos el CSV 1. 2. 3. 4. 5. 6. 7. Abrimos el excel Vamos a DATOS Seleccionamos Importar datos desde texto Seleccionamos nuestro archivo CSV Escogemos unicode UTF-8 o ISO Latin 1 (los del INE utilizan ISO) Marcamos como separador la “COMA” para crear las columnas ¿Cuántas páginas tiene el documento? Tendremos las mismas cabeceras. Una por cada hoja. 8. VISTA → inmovilizar fila superior 9. Marcamos “FILTRO”. Seleccionamos el concepto de la columna (por ejemplo “FECHA”) para que nos marque todas las cabeceras. 10. Seleccionamos y borramos. 11. Quitamos filtro. Y ya tenemos el documento limpio para trabajar con los datos. Creamos 4 columnas al lado de la fecha para crear DIA / MES / AÑO / DIASEM En la celda B2 escribimos la fórmula =DIA(A2) Seleccionamos la esquina de la celda hasta que aparezca la cruz. Damos doble click y la fórmula se extiende automáticamente =MES(A2) =AÑO(A2) =DIASEM(A2;2) Para ir a la última celda desde mac: COMANDO + flecha abajo Para ir a la última celda desde PC: EMPEZAMOS A PREGUNTAR A LOS DATOS... MÉTODO DE LA CEBOLLA - de preguntas generales a preguntas más concretas PREGUNTAS GENERALES: (sumatorio) ¿cuántas operaciones ha realizado la FCSE? 17.291 ¿cuántos artefactos se han desactivado? 35.149 PREGUNTAS CON FILTROS: ¿cuántos proyectiles de artillería rompedor? 12785 / 35149 x 100 = 36,37% → 1 de cada 3 efectos recuperados por las FCSE fueron proyectiles de artillería rompedor ¿cuántos en 1985? 93 proyectiles PREGUNTAS CON TABLAS DINÁMICAS: SUMAR Y CONTAR ¿cuántos artefactos se han recuperado de cada categoría? ¿cuántos artefactos se han recuperado por municipio? 1. 2. 3. 4. 5. 6. Nos ponemos en la primera celda con datos Insertar tabla dinámica Marcar hoja nueva Arrastramos a FILAS la categoría que nos interesa y a VALORES “SumaDeCant” Ordenar datos. Nos ponemos encima del dato. ¿Cómo calculamos el %? Arrastramos otra vez VALORES a SumaDeCant” / Configuración de campo de valor → “Mostrar datos como” → % por columnas 7. ¿Cómo contamos? Arrastramos otra vez VALORES Aa SumaDeCant” / Configuración de campo de valor → “Resumir datos como” → Contar 8. Si pulsamos doble click. Se nos abre otra hoja con el filtrado - Es tan importante ver lo que más suma como lo que menos Las bombas de aviación tóxica → sólo se han desactivado 2… las dos en el mismo municipio: Ondarroa La operación más grande de desactivación de granadas de mano → en 1994, 1252 granadas → ¿han encontrado un polvorín de la Guerra Civil en León? Tenemos la hipótesis para arrancar la historia → ahora toca montarla (buscar expertos, historias humanas, etc.) ¿cuántos artefactos se han recuperado por municipio? ¿cuántos artefactos se han recuperado por año? FORMATO CONDICIONAL → para poner colores según el valor → ESCALAS DE COLOR → MÁS REGLAS → ESCALAS DE 3 COLORES COMBINANDO VARIABLES la variable más importante: Cantidad la segunda: Tipo efecto la tercera: Cada año la cuarta: el municipio ¿cuántos artefactos se han recuperado por cada tipo y por año? en las filas → tipo de artefacto en las columnas → años en valores → suma ** Normalmente en filas ponemos la categoría que sea más larga, aunque en este caso ponemos la otra porque la descripción nos ocupa más espacio. serie simétricamente distribuida = 1,2,3,4,5,6,7…. moda = el valor que más se repite si no es simétrico (por ejemplo rangos salariales) promedio= no es una cifra real mediana = el valor que queda enmedio otros casos…. un rico se empadrona en un municipio los medios publican el “promedio” → aparece como el segundo municipio más rico de España… ¡ERROR! Hay que utilizar la “mediana” y no el “promedio” CON GOOGLE HOJAS DE CÁLCULO Archivo importar Subimos el archivo CSV Anexar hoja actual Tipo separados “coma” Convertir texto en número - NO Ver → inmovilizar 1 fila Marcamos DATOS + FILTRO → Seleccionamos el concepto de la columna (por ejemplo “FECHA”) para que nos marque todas las cabeceras. Borramos OPEN REFINE ANTES DE PASAR A EXCEL NECESITAMOS “LIMPIAR” LOS DATOS. PARA ELLO, UTILIZAREMOS LA HERRAMIENTA “OPEN REFINE”. Desactivar store blank rows (para que no nos suban filas sin datos) Create Project ¿Cuánto dinero? ¿Cuántas personas? ¿Durante cuántos años? ¿En qué se han gastado el dinero? - OPERACIÓN - ACTIVIDAD - COMERCIO Facet → nos permite agrupar, filtrar, editar… los contenidos por columnas. Edit Cell (principales herramientas: Common tranfers, cluster, transform) - Common transfers → para limpiar los espacios en blanco - trim leading - collapse consecutive - Cluster and Edit → un algoritmo que nos agrupa palabras similares para que podamos poner el mismo para todas (SPAINAR SA / SPANAIR S.A. / SPANAIR, S.A.) - Transform (utilizamos fórmulas para reemplazar letras, dígitos en los campos seleccionados) Cambiar las # por Ñ value.replace("#","Ñ") Cambiar sistema cifras value .replace(".","") .replace(",",".") Cambia años 01 por 2001 value.replace(value,20+value) Cambio meses 1 por 01 value.replace(value,0+value) Limpiar datos en todas las columnas value .trim() .replace(/\s+/,' ') VISUALIZACIÓN DE DATOS New York Times > actualmente el equipo visual tiene más de 70 personas. VÍCTIMAS MORTALES POR VIOLENCIA DE GÉNERO ANDALUCÍA ADEMÁS LIDERA: el número de nacimientos, de matrimonio, de divorcios, de fallecidos, el número de destrucción de empleos, el número de creación de empresas… NO PODEMOS HACER COMPARATIVAS ENTRE CC.AA. CON VALORES ABSOLUTOS, TENEMOS QUE UTILIZAR UNA TASA EN FUNCIÓN DE SU POBLACIÓN. En el anterior mapa deberíamos calcular la tasa teniendo en cuenta el número de mujeres que viven en cada CCAA. Tasa de criminalidad MUERTES VIOLENTAS/POBLACIÓN *10.000 (x cada 10.000 hab) Tasa per cápita (como por ejemplo la tasa incidencia COVID) =DATO/POBLACIÓN*100.000 (x cada 100.000 hab) ERROR COMÚN → mala elección del tipo de gráfico. ¿QUÉ GRÁFICO ESCOGER? https://datavizcatalogue.com/ES/ Gráfico radial → en deportes. para comentar rendimientos de jugadores (comparamos más de 5 variables: defensa, sacada corners, etc SCROLLYTELLING TEORÍA Y PRÁCTICA DEL COLOR Utilizaremos herramientas que nos ayudarán a seleccionar los mejores colores para nuestra historia. colorbrewer2.org → nos dice qué colores son aptos para todo el mundo y pantallas diferentes color oracle CREAR TUS PROPIOS GRÁFICOS INTERACTIVOS Y MAPAS SENCILLOS datawrapper.de Que todo sea interactivo no es mejor. Tenemos que buscar el efecto “wow”, sino es mejor quedarse con un gráfico normal Mapas interactivos Mapa de coroplético Mapa de símbolos → necesitamos las coordenadas Tooltip → cuando pasamos el cursor nos aparece la información. https://app.flourish.studio/projects