Subido por Manuel Martínez

PERIODISMO DE DATOS

Anuncio
PERIODISMO DE DATOS
Recopilar y analizar grandes cantidades de información y datos detallados para hacerlos
comprensibles a la audiencia a través de artículos, visualizaciones o aplicaciones.
Encontrar PATRONES y TENDENCIAS en un conjunto de datos.
Ejemplos. Cruzamos los datos con parámetros demográficos y económicos
1) Se produce un accidente en un cruce porque el semáforo no funcionaba. Una señora
resulta herida. Buscamos si hay un patrón → ¿Qué semáforos de la ciudad no
funcionan?, ¿están todos en el mismo barrio?, ¿es el barrio más pobre?
2) El Ayto. de Madrid publica un dataset con información de las multas de tráfico.
Podemos analizar cuáles son los 10 puntos negros de Madrid y en qué tipo de barrio
se concentran.
3) Los perros potencialmente peligrosos en Madrid crecen un 34% en tres años con
mayor concentración en barrios pobres.
4) Cruzamos los datos de la capacidad asistencial con datos demográficos (mayores
de 65 años son los que más usan estos servicios) y económicos (renta media por
distrito) → barrios con renta baja tienen inferior capacidad asistencial. No sólo eso,
también en los barrios donde se concentra un mayor número de personas con más
de 65 años.
Otros ejemplos:
-
Cruzamos dataset de los centros educativos con el de salas de juegos de azar y
apuestas → uno de cada cuatro centros de bachillerato de Madrid se encuentra junto
a un salón de juego. 114 centros están a menos de 150 metros de una casa de
máquinas recreativas o apuestas.
Aunque… “CORRELACIÓN NO IMPLICA CAUSALIDAD”
PETICIONES DE INFORMACIÓN / LEY DE TRANSPARENCIA
https://www.senado.es/web/composicionorganizacion/senadores/composicionsenado/fichas
enador/preguntasescritas/index.html;jsessionid=2FYTfqVLrPVyyXbp9pppDGnQ18g00Gppg
pklns8n9HQbvG0tlQTh!1163083117?id1=17485&legis=12&id2=684&id3=pre
¿QUÉ FORMATOS PODEMOS UTILIZAR?
PDF imágenes → utilizamos sistema OCR para convertirlo
EXCEL → .xls (antiguo) / .xlsx = es como un doc .xml (formato 2007)
CSV → es como un formato de texto. Separación de datos con coma o punto y coma. En
MAC podemos utilizar un editor de textos o excel para abrirlo. Nos permite que sea
compatible con cualquier aplicación o plataforma.
TSV → separación de datos con tabulación
Conversión de PDF a EXCEL o CSV
PDF en imagen -- Acrobat Pro / Fine Reader / Google Docs (gratuito)
PDF en texto -- Convertidores online / Tabula / Acrobat Pro / Fine Reader
Tabula → poder extrar las tablas que están en un PDF
¿CÓMO TRABAJAMOS CON UN ARCHIVO CSV?
CON EXCEL OFFICE
Cuando tenemos el CSV
1.
2.
3.
4.
5.
6.
7.
Abrimos el excel
Vamos a DATOS
Seleccionamos Importar datos desde texto
Seleccionamos nuestro archivo CSV
Escogemos unicode UTF-8 o ISO Latin 1 (los del INE utilizan ISO)
Marcamos como separador la “COMA” para crear las columnas
¿Cuántas páginas tiene el documento? Tendremos las mismas cabeceras. Una por
cada hoja.
8. VISTA → inmovilizar fila superior
9. Marcamos “FILTRO”. Seleccionamos el concepto de la columna (por ejemplo
“FECHA”) para que nos marque todas las cabeceras.
10. Seleccionamos y borramos.
11. Quitamos filtro. Y ya tenemos el documento limpio para trabajar con los datos.
Creamos 4 columnas al lado de la fecha para crear DIA / MES / AÑO / DIASEM
En la celda B2 escribimos la fórmula =DIA(A2)
Seleccionamos la esquina de la celda hasta que aparezca la cruz. Damos doble click y la
fórmula se extiende automáticamente
=MES(A2)
=AÑO(A2)
=DIASEM(A2;2)
Para ir a la última celda desde mac: COMANDO + flecha abajo
Para ir a la última celda desde PC:
EMPEZAMOS A PREGUNTAR A LOS DATOS...
MÉTODO DE LA CEBOLLA - de preguntas generales a preguntas más concretas
PREGUNTAS GENERALES: (sumatorio)
¿cuántas operaciones ha realizado la FCSE? 17.291
¿cuántos artefactos se han desactivado? 35.149
PREGUNTAS CON FILTROS:
¿cuántos proyectiles de artillería rompedor?
12785 / 35149 x 100 = 36,37% → 1 de cada 3 efectos recuperados por las FCSE fueron
proyectiles de artillería rompedor
¿cuántos en 1985? 93 proyectiles
PREGUNTAS CON TABLAS DINÁMICAS:
SUMAR Y CONTAR
¿cuántos artefactos se han recuperado de cada categoría?
¿cuántos artefactos se han recuperado por municipio?
1.
2.
3.
4.
5.
6.
Nos ponemos en la primera celda con datos
Insertar tabla dinámica
Marcar hoja nueva
Arrastramos a FILAS la categoría que nos interesa y a VALORES “SumaDeCant”
Ordenar datos. Nos ponemos encima del dato.
¿Cómo calculamos el %? Arrastramos otra vez VALORES a SumaDeCant” /
Configuración de campo de valor → “Mostrar datos como” → % por columnas
7. ¿Cómo contamos? Arrastramos otra vez VALORES Aa SumaDeCant” /
Configuración de campo de valor → “Resumir datos como” → Contar
8. Si pulsamos doble click. Se nos abre otra hoja con el filtrado
-
Es tan importante ver lo que más suma como lo que menos
Las bombas de aviación tóxica → sólo se han desactivado 2… las dos en el mismo
municipio: Ondarroa
La operación más grande de desactivación de granadas de mano → en 1994, 1252
granadas → ¿han encontrado un polvorín de la Guerra Civil en León?
Tenemos la hipótesis para arrancar la historia → ahora toca montarla (buscar expertos,
historias humanas, etc.)
¿cuántos artefactos se han recuperado por municipio?
¿cuántos artefactos se han recuperado por año?
FORMATO CONDICIONAL → para poner colores según el valor → ESCALAS DE COLOR
→ MÁS REGLAS → ESCALAS DE 3 COLORES
COMBINANDO VARIABLES
la variable más importante: Cantidad
la segunda: Tipo efecto
la tercera: Cada año
la cuarta: el municipio
¿cuántos artefactos se han recuperado por cada tipo y por año?
en las filas → tipo de artefacto
en las columnas → años
en valores → suma
** Normalmente en filas ponemos la categoría que sea más larga, aunque en este caso
ponemos la otra porque la descripción nos ocupa más espacio.
serie simétricamente distribuida = 1,2,3,4,5,6,7….
moda = el valor que más se repite
si no es simétrico (por ejemplo rangos salariales)
promedio= no es una cifra real
mediana = el valor que queda enmedio
otros casos…. un rico se empadrona en un municipio
los medios publican el “promedio” → aparece como el segundo municipio más rico de
España… ¡ERROR! Hay que utilizar la “mediana” y no el “promedio”
CON GOOGLE HOJAS DE CÁLCULO
Archivo importar
Subimos el archivo CSV
Anexar hoja actual
Tipo separados “coma”
Convertir texto en número - NO
Ver → inmovilizar 1 fila
Marcamos DATOS + FILTRO → Seleccionamos el concepto de la columna (por ejemplo
“FECHA”) para que nos marque todas las cabeceras.
Borramos
OPEN REFINE
ANTES DE PASAR A EXCEL NECESITAMOS “LIMPIAR” LOS DATOS. PARA ELLO,
UTILIZAREMOS LA HERRAMIENTA “OPEN REFINE”.
Desactivar store blank rows (para que no nos suban filas sin datos)
Create Project
¿Cuánto dinero?
¿Cuántas personas?
¿Durante cuántos años?
¿En qué se han gastado el dinero?
- OPERACIÓN
- ACTIVIDAD
- COMERCIO
Facet → nos permite agrupar, filtrar, editar… los contenidos por columnas.
Edit Cell (principales herramientas: Common tranfers, cluster, transform)
-
Common transfers → para limpiar los espacios en blanco
- trim leading
- collapse consecutive
-
Cluster and Edit → un algoritmo que nos agrupa palabras similares para que
podamos poner el mismo para todas (SPAINAR SA / SPANAIR S.A. / SPANAIR,
S.A.)
-
Transform (utilizamos fórmulas para reemplazar letras, dígitos en los campos
seleccionados)
Cambiar las # por Ñ
value.replace("#","Ñ")
Cambiar sistema cifras
value
.replace(".","")
.replace(",",".")
Cambia años 01 por 2001
value.replace(value,20+value)
Cambio meses 1 por 01
value.replace(value,0+value)
Limpiar datos en todas las columnas
value
.trim()
.replace(/\s+/,' ')
VISUALIZACIÓN DE DATOS
New York Times > actualmente el equipo visual tiene más de 70 personas.
VÍCTIMAS MORTALES POR VIOLENCIA DE GÉNERO
ANDALUCÍA ADEMÁS LIDERA: el número de nacimientos, de matrimonio, de divorcios, de
fallecidos, el número de destrucción de empleos, el número de creación de empresas…
NO PODEMOS HACER COMPARATIVAS ENTRE CC.AA. CON VALORES ABSOLUTOS,
TENEMOS QUE UTILIZAR UNA TASA EN FUNCIÓN DE SU POBLACIÓN.
En el anterior mapa deberíamos calcular la tasa teniendo en cuenta el número de mujeres
que viven en cada CCAA.
Tasa de criminalidad
MUERTES VIOLENTAS/POBLACIÓN *10.000 (x cada 10.000 hab)
Tasa per cápita (como por ejemplo la tasa incidencia COVID)
=DATO/POBLACIÓN*100.000 (x cada 100.000 hab)
ERROR COMÚN → mala elección del tipo de gráfico.
¿QUÉ GRÁFICO ESCOGER? https://datavizcatalogue.com/ES/
Gráfico radial → en deportes. para comentar rendimientos de jugadores (comparamos más
de 5 variables: defensa, sacada corners, etc
SCROLLYTELLING
TEORÍA Y PRÁCTICA DEL COLOR
Utilizaremos herramientas que nos ayudarán a seleccionar los mejores colores para nuestra
historia.
colorbrewer2.org → nos dice qué colores son aptos para todo el mundo y pantallas
diferentes
color oracle
CREAR TUS PROPIOS GRÁFICOS INTERACTIVOS Y MAPAS SENCILLOS
datawrapper.de
Que todo sea interactivo no es mejor. Tenemos que buscar el efecto “wow”, sino es mejor
quedarse con un gráfico normal
Mapas interactivos
Mapa de coroplético
Mapa de símbolos → necesitamos las coordenadas
Tooltip → cuando pasamos el cursor nos aparece la información.
https://app.flourish.studio/projects
Descargar