Recomendaciones para elaborar bases de datos

Anuncio
Recomendaciones para elaborar bases de datos
Independientemente de si son tablas de datos construidas desde cero por el periodista o si se
trata de información que él solicitó y obtuvo de la entidad o persona que maneja la información,
es importante que los datos tengan un grado de “limpieza” y organización que nos permita
analizarlos. Para esto, algunas recomendaciones aplicables, principalmente, a Excel:
Supongamos que vamos a trabajar información sobre incautaciones relacionadas con narcotráfico.
Veamos cuáles serían los pasos para definir la estructura…
El archivo
1. Si vamos a dividir la información en tablas diferentes, éstas pueden ir en las diversas hojas que
contiene un libro de Excel, especificando bien los nombres de cada una.
2. No es bueno llenar las primeras filas con información de contexto sobre la tabla.
Lo mejor es que este tipo de información esté en una hoja aparte llamada “metadatos”, es decir,
información ‘acerca de los datos’.
Los campos
3. Campos de texto: La mayoría de campos que usamos son de texto. Con estos hay dos cosas
importantes por definir…
Hay que establecer si se van a usar tildes y caracteres especiales como la ‘ñ’. Esto depende
básicamente de si se planea compartir la base de datos, es decir, si posteriormente ésta se va
exportar a otros programas, pues es en esos intercambios cuando los caracteres especiales causan
problemas. Lo que se decida debe ser aplicado por igual a TODOS los registros de la base de datos.
No conviene tener un ‘López Suárez’ y luego un ‘Lopez Suarez’.
El otro aspecto es la fragmentación de la información. Esto depende del tipo de análisis que se
quiera hacer. En el caso del nombre y apellido, por ejemplo, casi siempre conviene dividirlos. Así
se podrá organizar la tabla alfabéticamente por apellido y se podrán encontrar registros de una
misma familia por sus apellidos.
Adicionalmente, es muy importante que NUNCA haya espacios al comienzo o al final de un campo
de texto.
4. Campos numéricos: En estos registros lo importante es que NO se digiten los números con
caracteres adicionales ( ’ . – “ ” ). De este modo se facilitan las operaciones, análisis y exportación
de datos. Tampoco conviene incluir símbolos en cada registro: ($, Kg, m, USD, €, %, #); es
preferible especificar la unidad de medida en el encabezado o en otro campo.
5. Campos que establecen categorías: Algunos campos -de texto o numéricos- se convierten en
categorías de datos, pues existen sólo unas pocas opciones para llenarlos y la información se
repite varias veces entre un registro y otro. Son aquellos que indican “tipos” de datos o que
resuelven preguntas de sí/no.
Ejemplo de esos campos son: tipo de fuente (personal - institucional documental - digital), género (femenino - masculino), moneda (peso dólar - euro), capturado (sí - no), ciudad (cuando el territorio que
cubre la información no incluye demasiadas ciudades).
Estos campos son muy útiles para analizar la información, ya que
permiten agrupar los datos, hacer conteos, comparar, etc. Por eso, es
indispensable que mantengan siempre el mismo criterio, que las
categorías se escriban siempre exactamente igual. No puede haber
un registro que diga ‘dolar’ y otro ‘dólar’, ni pueden dejarse espacios
al final o inicio de la palabra. Cuando se comenten ese tipo de
errores, los cruces y análisis de datos no funcionan bien.
Nota: Excel tiene una función de autocompletar que sirve mucho para evitar errores en los campos
de categorías, donde la información se repite. Basta observar si la opción de autocompletar se
activa cuando se está digitando un registro:
6. Campos importantes: Los campos que contiene una tabla varían según el tipo de información
que sea. Sin embargo, hay tres que son recomendables para todas las bases de datos:
-
Fecha del registro: es diferente a una fecha de nacimiento, fecha de un suceso, etc. Se
trata de la fecha en la que se agregó el dato a la base de datos.
Fuente: indicar cómo se obtuvo la información. Si hay información en línea conviene poner
allí la URL.
Observaciones: para agregar cualquier aclaración o dato adicional.
7. Estilo de los campos: Que las celdas de la tabla tengan color, bordes, negrilla, alineación
derecha o izquierda, sombra, etc., no es relevante para el análisis de datos. Sin embargo, hay un
aspecto de la presentación que sí se debe tener en cuenta: no combinar celdas.
Es preferible ser redundantes en los nombres de los encabezados, que usar la combinación de
celdas, pues ésta no facilita la futura organización y agrupación de datos.
Otras recomendaciones
8. Al terminar de definir la estructura de una base de datos, es bueno hacer varios ejercicios
llenándola con información real o ficticia para encontrar posibles vacíos, fallas, etc., en el diseño.
9. Es importante mantener unas copias como “back up” de todos los archivos de bases de datos
que tengamos. En CDs o computadores independientes.
Descargar