Data-Pop Alliance

Anuncio
DATA-POP ALLIANCE
WHITE PAPER SERIES
Oportunidades y requerimientos
para aprovechar el uso de Big
Data para las estadísticas oficiales
y los Objetivos de Desarrollo
Sostenible en América Latina
Mayo 2016
DATA
POP
ALLIANCE
Oportunidades y requerimientos para aprovechar el
uso de Big Data para las estadísticas oficiales y los
Objetivos de Desarrollo Sostenible en América Latina
Julia Manske (autora principal y autora correspondiente)
David Sangokoya (co-autor principal), Data-Pop Alliance
Gabriel Pestre, Data-Pop Alliance
Emmanuel Letouzé, Data-Pop Alliance
Mayo 2016
Índice
Prefacio
1
Introducción
2
1. El estado de los INE en América Latina: contexto y conceptos generales
1.1. El papel de los Institutos Nacionales de Estadística en América Latina y el Caribe
1.2. El estado de los INE en América Latina y el Caribe: retos actuales . . . . . . . . . .
1.3. Definiendo Big Data para las estadísticas oficiales y los ODS . . . . . . . . . . . . . .
7
7
9
12
2. Involucrar, innovar y descubrir Big Data en América Latina
2.1. Preparando el escenario: el ecosistema emergente de Big Data . . . . . . . . . . . . .
2.2. Los INE y Big Data: tendencias en América Latina . . . . . . . . . . . . . . . . . . . .
2.3. Big Data para los ODS en el ecosistema más amplio de actores . . . . . . . . . . . . .
2.4. Intentos internacionales de utilizar Big Data para las estadísticas oficiales y el
desarrollo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
18
23
29
3. Retos y requerimientos para los INE que se involucren con Big Data para los ODS
3.1. Barreras institucionales para la innovación y la gestión del cambio . . . . . . . . . .
3.2. Limitaciones para el acceso y la completitud de los datos . . . . . . . . . . . . . . . .
3.3. Desafíos técnicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4. Brechas de capacidad de capital humano . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.5. Desafíos metodológicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.6. Riesgos éticos, de privacidad y políticos . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
38
40
42
43
45
48
36
4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para
las estadísticas oficiales y los ODS
51
4.1. Cinco tendencias regionales que promueven el uso de Big Data en América Latina 51
4.2. Hacia una hoja de ruta regional de múltiples actores para Big Data: construyendo
sobre las fortalezas y oportunidades regionales . . . . . . . . . . . . . . . . . . . . . . . 55
Glosario
61
Anexos
64
II
Figuras
1.
2.
3.
4.
5.
Mapa de los Institutos Nacionales de Estadística en América Latina y de proyectos
en Big Data seleccionados de otros actores. . . . . . . . . . . . . . . . . . . . . . . . . .
Uso de Internet por porcentaje de población en 2006 y 2014 . . . . . . . . . . . . . .
Desarrollo mundial de la digitalización, 2013 . . . . . . . . . . . . . . . . . . . . . . . .
Comparación de objetivos de los ODS auto-reportados . . . . . . . . . . . . . . . . .
Hoja de ruta de recomendaciones para incorporar Big Data en proyectos de los
INE en América Latina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
19
22
37
56
Cuadros
1.
2.
3.
4.
5.
6.
7.
El INEGI como buena práctica en la región . . . . . . . . . . . . . . . . . . . . . . . . .
Big Data vs. big data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
La diferencia entre Big Data y Datos Abiertos . . . . . . . . . . . . . . . . . . . . . . .
Los INE en América Latina: el DANE Moderno de Colombia . . . . . . . . . . . .
Twitter para monitorear el turismo en México . . . . . . . . . . . . . . . . . . . . . . .
Morbilidad materna y teledetección de malaria en Brasil . . . . . . . . . . . . . . . .
Uso de Google Trends para hacer predicciones en tiempo real sobre la actividad
económica en Colombia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
16
17
24
26
28
31
Tablas
1.
2.
3.
4.
Estadísticas de uso de Internet y población para países seleccionados de ALC, 2013
Descripción general de los proyectos de Big Data en INE seleccionados de ALC .
Descripción general del ecosistema de Big Data en ALC . . . . . . . . . . . . . . . . .
Organizaciones de la sociedad civil trabajando en derechos digitales . . . . . . . . .
20
27
32
36
Anexos
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
Taxonomía y ejemplos de fuentes de Big Data . . . . . . . . . . . . . . . . . . . . . . .
Usos de Big Data para el monitoreo de los ODS . . . . . . . . . . . . . . . . . . . . . .
Análisis de mensajes de redes sociales por el INE de Holanda . . . . . . . . . . . . .
índices de precios por Cavallo (MIT) . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Datos de luminosidad como proxy para las estadísticas económicas . . . . . . . . .
Un sistema de información para precios de agricultura (DANE - Colombia) . . . .
Open Intelligence en Mexico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aprovechar las fuentes de Big Data y técnicas basadas en CDR para analizar los
resultados y procesos socioeconómicos en Colombia: los casos de Seguridad
Pública y Desarrollo Social . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Principales componentes de tecnologías de la información . . . . . . . . . . . . . . .
Análisis DOFA agregado para los INE de ALC y Big Data . . . . . . . . . . . . . . .
III
64
64
69
70
70
71
71
72
73
74
Prefacio
Acerca de este documento
Este documento se realizó en el marco de un proyecto apoyado por el Banco Mundial e
implementado por Data-Pop Alliance en asociación con el Departamento Administrativo
Nacional de Estadística de Colombia—DANE. Data-Pop Alliance es una coalición sobre Big
Data y el desarrollo creada conjuntamente por la Iniciativa Humanitaria de Harvard, el MIT
Media Lab y el Instituto de Desarrollo de Ultramar (ODI por sus siglas en inglés) para
promover una revolución de Big Data centrada en las personas.
Sobre los autores
Este documento fue escrito por los siguientes autores:
Julia Manske (autora principal y autora correspondiente:
[email protected])
David Sangokoya (co-autor principal), Data-Pop Alliance
Gabriel Pestre, Data-Pop Alliance
Emmanuel Letouzé, Data-Pop Alliance
Reconocimientos
Esta versión se benefició de los comentarios de funcionarios del DANE, especialmente de Mara
Bravo, Julieth Solano, y Arleth Sorith. Comentarios y observaciones adicionales se
incorporarán antes de finalizar el documento. Esta versión se benefició de contribuciones
significativas por parte de Andrés Clavijo, Investigador Principal y Coordinador para Colombia
de Data-Pop Alliance; Natalie Shoup Directora de Programas de Data-Pop Alliance; Carson
Martinez, Asistente de Investigación de Data-Pop Alliance; y Lauren Barrett, Estratega de
Medios y Comunicaciones de Data-Pop Alliance.
Financiamiento
El financiamiento de este trabajo fue proporcionada por el Grupo del Banco Mundial cuyo apoyo
se reconoce con profundo agradecimiento, así como por la Fundación Rockefeller quien provee
un apoyo sustancial a las actividades de Data-Pop Alliance.
Descargo de responsabilidad
Las opiniones presentadas en este documento son exclusivas de los autores y no representan el
punto de vista de sus instituciones.
Citación sugerida
“Oportunidades y requerimientos para aprovechar el uso de Big Data para las estadísticas
oficiales y los Objetivos de Desarrollo Sostenible en América Latina”. Data-Pop Alliance
(Harvard Humanitarian Initiative, MIT Media Lab y Overseas Development Institute). Mayo
de 2016.
Traducción
Ana Lucía Martínez tradujo la versión original de este documento del inglés al español
([email protected]).
1
Introducción
Los Institutos Nacionales de Estadística (en adelante INE) siguen siendo un pilar de las sociedades
democráticas, pero compiten cada vez más con nuevos productores de datos tanto en el sector
público como en el privado. Nuevas fuentes de datos (tales como datos de redes sociales, datos
de teléfonos móviles, datos de satélites, etc.) han creado nuevas oportunidades y desafíos para
la producción de estadísticas, su difusión y el compromiso con los beneficiarios, y han iniciado
discusiones acerca de un nuevo conjunto de responsabilidades que va más allá de la medición pura,
llegando a informar o incluso a crear conocimiento dentro de las sociedades. A la vez, los INE
se están preparando para una nueva tarea: la “Revolución de los datos”. Este desarrollo global los
pone en el centro de la agenda Post-2015 y su contribución en la medición de los Objetivos de
Desarrollo Sostenible (en adelante ODS) será inevitablemente importante.
Hay cierta evidencia de que Big Data podría ayudar a los INE a cumplir con su responsabilidad.
Big Data como lo conocemos hoy es nuevo en todos los niveles. Algunos actores del sector
privado lo utilizan activamente, mientras que las agencias gubernamentales apenas lo empiezan
a reconocer. La llegada de Big Data influirá en el negocio de las organizaciones cuya actividad
principal radique en la producción de datos estadísticos. Como era de esperarse, la discusión
sobre “Big Data y estadísticas oficiales” se originó dentro de sistemas estadísticos de los INE que
están bien establecidos. Sin embargo, en los países en desarrollo, muchos INE todavía tienen
desafíos operativos básicos, tales como el acceso a registros administrativos, falta de
colaboración entre los diferentes organismos gubernamentales, recursos financieros y
capacidades insuficientes y la ausencia de marcos legislativos. Estos desafíos cuestionan la
medida en que los INE podrían involucrarse activamente con Big Data.
Los INE se rigen por marcos legales democráticos y cuentan con las herramientas básicas y el
know-how para trabajar con datos de la manera más sensible, bajo la premisa de contribuir al
bienestar de las sociedades, de acuerdo con el primero de los Principios Fundamentales de las
Estadísticas Oficiales de las Naciones Unidas. Es por esto que los INE deben ser actores clave en
la conformación de los ecosistemas de Big Data en sus respectivos países y regiones. En los países
donde se reconozcan como un tercero de confianza, los INE serán cruciales en el contexto del
intercambio de datos y en la formación de un contrapeso a los intereses del sector privado y los
actores gubernamentales, en particular para salvaguardar la privacidad y la calidad de los datos.
El ascenso de Big Data no implica necesariamente que la prosperidad de la sociedad se verá
favorecida; las revelaciones de Edward Snowden, el uso opresivo de los datos por parte de los
gobiernos para identificar y arrestar a personas inocentes y el poder creciente de algoritmos que
permiten la discriminación contra los menos favorecidos, son indicadores suficientes de que Big
Data también puede perjudicar a sociedades democráticas y sociedades basadas en los derechos
humanos. La discusión social sobre la forma en que un mundo impulsado por los datos debe
configurarse apenas comienza, mientras que (casi de manera automática) seguiremos creando
más y más datos todos los días.
Incluso desde un punto de vista oportunista, sería razonable que los INE se involucraran con
2
Big Data en la medida en que este cobra importancia y los gobiernos de todo el mundo ejercen
influencia en este campo. Si los INE muestran liderazgo y se convierten en autoridades en Big
Data, podrían recibir el reconocimiento y la prioridad por parte de los gobiernos que tan
urgentemente necesitan, y con ello más recursos. Big Data puede ser importante
estratégicamente para los INE en otros aspectos. Considerando que probablemente cuentan con
un nivel mayor de experiencia en el desarrollo de técnicas y estándares relacionados con la
recolección, edición y publicación de datos (por ejemplo, los metadatos y la anonimización de
datos), los INE tendrán un papel evidente que desempeñar en la formulación de lineamientos en
estas áreas para sus propios productos estadísticos y para otros organismos de los sistemas
estadísticos nacionales.
En América Latina, los INE podrían beneficiarse claramente de esta oportunidad. En
comparación con sus homólogos de otras regiones en desarrollo, el sistema estadístico de
América Latina es relativamente fuerte y la experiencia en la medición de los Objetivos de
Desarrollo del Milenio (ODM) en los últimos 15 años provee algunos procesos y herramientas
bien establecidos. Aún así, el carácter específico de los ODS presenta nuevos desafíos, mientras
que muchos de los antiguos siguen sin resolverse: hay gran variabilidad en la calidad de los INE
de la región; incluso los INE más avanzados todavía luchan con un acceso limitado a los
registros administrativos, marcos legales indefinidos y escasos datos territoriales y desagregados,
datos que jugarán un papel clave en la medición de los ODS.
Sin embargo, con sistemas estadísticos mucho mejores que en otras partes del mundo, una amplia
penetración en tecnología móvil e Internet, debates vibrantes sobre el gobierno de Internet y un
impresionante movimiento de Datos Abiertos, América Latina podría convertirse en un terreno
firme para las buenas prácticas en Big Data. Y, como se ilustra en este documento, algunos INE de
América Latina están abordando cada vez más la tarea que se avecina. Están trabajando en pilotos
y proyectos, y están investigando el potencial de Big Data.
Este informe señala las oportunidades y desafíos que Big Data presenta para los INE de la región
latinoamericana en el contexto de los ODS, identifica las actividades con Big Data que los actores
de los INE y otros institutos están llevando a cabo actualmente y proporciona recomendaciones
para los INE de la región para el desempeño de un rol en la evolución de las estadísticas oficiales y
de los ODS en el ecosistema de Big Data de la región. En términos más amplios el informe busca
dar respuesta a las siguientes preguntas:
1. ¿Cuál es el estado actual de los INE en América Latina?
2. ¿Cómo se han involucrado y pueden involucrarse los INE con Big Data orientado hacia las
estadísticas oficiales y los ODS?
3. ¿Qué tipos de nuevos retos enfrentan los INE en la adopción de Big Data?
4. ¿Cómo pueden alinearse estas innovaciones a las estrategias nacionales y regionales?
El resto del informe se organiza como sigue: la primera sección del documento describe el estado
de los INE en América Latina, detallando su papel en el contexto de la agenda Post-2015, los retos
3
actuales y, conceptualmente, el uso de Big Data para las estadísticas oficiales y la medición de los
ODS. En la siguiente sección de este documento, revisamos el universo de las actividades en Big
Data que los INE de la región están llevando a cabo, así como las actividades de otros actores en
un ecosistema más amplio de Big Data y de sistemas estadísticos en América Latina. Esto incluye
una descripción general de los pilotos e iniciativas en Big Data en desarrollo dentro y fuera del
sistema estadístico. En las últimas secciones del documento, se analizan los retos específicos para
una adopción más amplia de Big Data por parte de los INE, se proporcionan recomendaciones
para los próximos pasos en el involucramiento de los INE con Big Data y, por último, se discuten
una serie de recomendaciones para crear una hoja de ruta regional para los INE y otros actores
que lleve hacia un mayor involucramiento regional con Big Data.
4
Figura 1: Mapa de los Institutos Nacionales de Estadística en América Latina y de proyectos
en Big Data seleccionados de otros actores.
Wikipedia y elaboración de Gabriel Pestre
Mapa de FreeVectorMaps.com
5
Wikipedia y elaboración de Gabriel Pestre
6
1.
El estado de los INE en América Latina: contexto y
conceptos generales
1.1.
El papel de los Institutos Nacionales de Estadística en América
Latina y el Caribe
Los países de América Latina, con diferencias geográficas y socioeconómicas significativas y, por
tanto, una gran variedad de desafíos estadísticos a nivel regional, han desarrollado una fuerte
tradición en las estadísticas oficiales, centrada en sus Institutos Nacionales de Estadística. Como
se señala en el informe de 2010 de la Comisión Económica para América Latina y el Caribe (en
adelante CEPAL), los INE de la región rigen por ley la recolección de datos para la producción
y difusión de estadísticas, gestionan la estrategia para la implementación de encuestas nacionales
a largo plazo y, por lo general, proporcionan lineamientos y liderazgo dentro de sistemas
estadísticos nacionales principalmente descentralizados.1
Durante la última década, los INE de la región han realizado importantes avances en la
recolección, producción y difusión de datos oficiales en las siguientes áreas: censos de población,
encuestas a hogares, encuestas de ingresos y gastos, cuentas nacionales y estadísticas económicas,
estadísticas de precios, estadísticas de género, estadísticas vitales, estadísticas de educación,
estadísticas ambientales y estadísticas de TIC. La región tiene una gran tradición en la
realización de censos que producen datos de terreno más o menos sólidos a través de la región.
Casi todos los países de América Latina y el Caribe han realizado un censo de población en los
últimos diez años y cerca de la mitad de ellos realiza encuestas a hogares cada cinco años.2
A medida que los INE continúan desarrollando y superando los desafíos estadísticos de la
región, la agenda de desarrollo post-2015 y la creación de los Objetivos de Desarrollo Sostenible
(ODS) han puesto de relieve la necesidad que los INE aborden los retos estadísticos para el
desarrollo y asimismo incorporen enfoques y oportunidades innovadores a través de nuevas
fuentes de datos. La adopción de los ODS involucra una compleja serie de objetivos con 169
metas que cubren dimensiones ambientales, económicas, sociales y gubernamentales. El primer
borrador incluye 310 indicadores alineados con las metas. La experiencia con los ODM nos ha
enseñado que se necesitan nuevas mediciones más allá de los promedios nacionales y las
agregaciones; los ODS se proponen identificar con precisión a las personas más vulnerables,
marginadas y pobres, requiriendo datos a nivel local y desagregados por grupos demográficos
(por ingresos, género, edad, raza, etnia, condición migratoria, discapacidad, ubicación geográfica
y otras características relevantes en contextos nacionales). Sin embargo, este nivel de
desagregación no está disponible actualmente en muchos países. Para algunos de los indicadores,
los datos adecuados ni siquiera están disponibles en forma agregada.
El avance de la agenda de desarrollo post-2015 sitúa a los INE en el centro de las actividades de los
1
2
Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2010.
Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2010.
7
ODS. El Grupo Asesor de Expertos Independientes del Secretario General de la ONU enfocado
en la Revolución de los Datos para el Desarrollo Sostenible (en adelante IEAG por sus siglas en
inglés) en su informe A World that Counts (Un Mundo que Cuenta) solicita a los países miembros
de la ONU fortalecer las capacidades de sus INE para alcanzar una “revolución de los datos.” Hay
varias razones por las que los INE deben tener un papel activo en la recolección y producción de
datos para los ODS:
1. Por lo general, los INE tienen más experiencia que otros actores en la recolección de datos.
2. Los datos sobre desarrollo y sociedad son un bien público; por lo tanto, tiene sentido que
los organismos públicos sean quienes los produzcan y que se desarrolle su capacidad para
hacerlo.
3. Los INE suelen tener los más altos estándares metodológicos.
4. Los datos de un país idealmente los debe producir y deben pertenecer a ese país, con el fin
de promover la eficiencia en la asignación, aumentando la legitimidad y el uso por parte de
los responsables de formular políticas.
5. Los Estados jugarán un papel central en encaminar los avances nacionales hacia el
cumplimiento de los ODS. Los funcionarios requieren datos para guiar la elaboración de
sus políticas y los organismos oficiales deben ser los responsables de su recolección.
Además, hay que señalar aquí que, independientemente del potencial específico para la medición
de los ODS, los INE deben participar en la discusión en todo caso. Es su mandato fomentar el
conocimiento sobre y entre las sociedades que les otorgaron ese mandato. Según lo indicado por
el Principio 1 de los Principios Fundamentales de las Estadísticas Oficiales, “Las estadísticas
oficiales constituyen un elemento indispensable en el sistema de información de una sociedad
democrática y proporcionan al gobierno, a la economía y al público datos acerca de la situación
económica, demográfica, social y ambiental.” Si la comunidad internacional cree en la necesidad
democrática de las estadísticas oficiales, es evidente que se trata de una cuestión política el por
qué los INE deben involucrarse con Big Data, y no simplemente una cuestión técnica de si
deben o no y la forma en que deberían ‘usar’ grandes flujos de datos.3
Big Data debe, poco a poco y con el tiempo, lograr hacer parte de los recursos e instrumentos
aprovechados para cumplir con este mandato y para proporcionar una imagen de un país, su
economía y su población que puedan convertirse en conocimiento. Existe el riesgo de que aquellos
que informen sobre el estado de las sociedades utilizando Big Data, eventualmente obtengan una
gran cantidad de poder creado por el conocimiento producido fuera del alcance de la supervisión
y las decisiones democráticas. Ya que los INE se guían por marcos legales establecidos y tienen
un mandato específico, podrían desempeñar el papel de guardianes para garantizar la calidad de
las nuevas fuentes de datos, como también para gestionar los aspectos negativos de la revolución
de los datos, tales como cuestiones de privacidad y confidencialidad.4
3
4
Letouzé 2013.
Letouzé 2013.
8
Sin embargo, los INE ya no son los únicos actores que producen y recolectan datos sobre la
sociedad. Como resultado de la digitalización y del aumento continuo de datos de la web, un
número creciente de nuevos actores se han convertido en productores de datos. Por ejemplo, los
investigadores de mercado están adquiriendo un entendimiento muy preciso sobre sus clientes
(y por lo tanto sobre ciudadanos) a través del análisis automatizado de conjuntos de datos
digitales procesados a alta velocidad. Los datos que seres humanos y máquinas generan de forma
pasiva en altos volúmenes y con alta velocidad, tales como datos de redes sociales o registros de
teléfonos móviles, se denominan Big Data. Además, las tecnologías digitales han reducido los
costos de producir y publicar datos, han facilitado la distribución y visualización de datos y, por
consiguiente, han democratizado el acceso a los datos y han creado nuevos usos para ellos. En
América Latina esto se puede ver de manera prominente en países como Uruguay y Brasil los
cuales han adoptado activamente el movimiento de Datos Abiertos.5
Hoy en día, la intervención inteligente de los datos se convierte en un elemento esencial para
tener una idea robusta de los requerimientos de las sociedades y los ciudadanos, y por lo tanto
para la formulación de políticas basadas en la evidencia. Estos acontecimientos provocaron una
discusión vital sobre el papel de los INE y la necesidad de estos de evolucionar, para dejar de ser
sólo productores de datos y pasar a ser facilitadores de información comprensible que se pueda
convertir en conocimiento sobre la realidad. Este rol abarca todas las etapas del proceso
estadístico, desde la recolección de datos hasta su difusión.6 El informe del IEAG destaca la
necesidad de un cambio institucional hacia la innovación y un uso mucho más eficiente de la
tecnología para mejorar el desempeño de todos los actores involucrados en la producción y
recolección de datos.7
1.2.
El estado de los INE en América Latina y el Caribe: retos actuales
A medida que el papel de los INE continúa evolucionando, los INE en América Latina y el
Caribe (ALC) deben considerar tres categorías de desafíos que actualmente dificultan las
actividades de estadísticas oficiales en toda la región: la calidad de datos en general, la cobertura
y las consideraciones legislativas.
La calidad, incluye confiabilidad, oportunidad (el tiempo transcurrido entre el período de
referencia y la disponibilidad de las estadísticas), interpretabilidad (la disponibilidad de
metadatos que refleja la facilidad con la que el usuario puede entender y utilizar correctamente
los datos) y cumplimiento (el grado en que las estadísticas cumplen con normas internacionales
pertinentes). Contrario a las expectativas, y aunque el número de censos es alentador, la calidad
de los datos no siempre mejora. Como se demostró en la ronda de censos de 2010, Paraguay y
Chile tuvieron varios problemas en sus últimos censos “con una sub enumeración estimada
alrededor de 26,0 % y 9,3 % respectivamente. Cifras de omisión censal como éstas, después de
5
Open Data Research Network 2014.
Giovannini 2010.
7
Data Revolution for Sustainable Development (IEAG) 2014.
6
9
décadas de experiencia en la recolección de datos, son inconcebibles.”8 Incluso en países con
sistemas estadísticos fuertes, se ven una serie de problemas. El censo en Colombia que se planeó
para ser ejecutado en el 2015 se ha pospuesto y ahora está previsto que tenga lugar en el 2016. El
censo agropecuario no se renovó durante más de 40 años,9 hasta que se llevó a cabo con éxito en
el 2014. En Brasil, el recuento de población de 2015 fue cancelado recientemente a pesar de que
se había planeado durante años. Con frecuencia, los recortes presupuestales (por ejemplo, para
algunos países debido a la reciente disminución de los precios del petróleo) y la mala
planificación a largo plazo son las razones de estos efectos colaterales.
Algunas veces, diseños de encuesta deficientes conducen a una falta de conjuntos de datos
cualitativos: por ejemplo, en Bolivia, en el último censo un alto porcentaje de las mujeres
respondió “Sin especificar” cuando se les preguntó si tenían hijos. Como resultado, no se sabe si
la mitad de la población mayor de 15 años ha tenido hijos.10 Un proyecto piloto sobre
mortalidad materna realizado por la CEPAL/CELADE identificó las dificultades en la
estimación de la mortalidad materna en América Latina debido a la falta de certificación o
registro en las zonas habitadas por poblaciones indígenas o en zonas remotas.11
Las estadísticas vitales y los sistemas de registro civil, que serán particularmente importantes
para la medición de los ODS, a menudo son débiles en toda la región. Una gran parte de las
regiones de ALC carecen de datos sobre variables tales como la edad de las madres, el peso al
nacer de los niños y el lugar de residencia o las características socioeconómicas de los padres.
Los datos sobre las causas de muerte también son con frecuencia imprecisos o inexistentes, lo
que impide comprender los verdaderos niveles de riesgo y prevalencia de enfermedades en los
países, obstaculizando la formulación de perfiles epidemiológicos de mortalidad.12 En contraste
con su experiencia en encuestas y censos, muchos INE siguen luchando con el acceso y el uso de
datos administrativos (como se describe más adelante) a pesar de que se han logrado mejoras en
el acceso en los últimos dos años.13
La cobertura, se refiere al grado en que las estadísticas responden a los requisitos en términos de
variables, detalle, frecuencia, unidades de medida, cobertura histórica y disponibilidad. Los
datos de pobreza, la cuantificación de las mediciones de la desigualdad y la desagregación de
información para la identificación de brechas sociales, económicas y ambientales también siguen
siendo problemáticos.14 En otras áreas, por ejemplo en términos de indicadores de género, el
desafío actual va más allá de la desagregación de indicadores para el monitoreo de la agenda de
desarrollo post-2015. Éstos apuntan a la necesidad de una interacción más activa entre los
técnicos, que diseñan y utilizan la información, y los especialistas temáticos (por ejemplo sobre
género).15
8
Cavenaghi 2015.
Cavenaghi 2015.
10
Cavenaghi 2015.
11
Cobos, Miller y Salguero 2013.
12
Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2010.
13
Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2010.
14
Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2015a.
15
Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2015a.
9
10
Al igual que en muchos otros países en desarrollo, la desagregación de los datos a nivel
subnacional en ALC es a menudo insuficiente, hecho que le dificulta a los hacedores de políticas
o las comunidades comparar su progreso con el de otras comunidades o con el del país.16 Esto es
particularmente interesante en América Latina, donde existen enormes diferencias
socioeconómicas entre las zonas rurales y las urbanas, como también entre diferentes grupos
como los ind. Esto crea obstáculos para proporcionar datos sólidos para medir el progreso de los
ODS.
Consideraciones legislativas: Muchos INE de América Latina aún carecen de marcos
institucionales y jurídicos adecuados. Esto tiene implicaciones sobre las buenas prácticas y la
transparencia. Muchos prefieren basarse en regulaciones no obligatorias o completamente
voluntarias, como los códigos nacionales de buenas prácticas, aunque haya argumentos
convincentes para la creación de organismos estadísticos autónomos y apolíticos, así como
condiciones bajo las cuales las estadísticas estén aisladas de la política.17 Adicionalmente, con
frecuencia la gestión presupuestal no es independiente del resto del gobierno. Además, en
muchos países de ALC los puestos directivos son seleccionados por los gobernantes y los
ocupan funcionarios públicos de alto nivel o ministros del gobierno.18 Eventos como el
escándalo que rodeó al Instituto Nacional de Estadística y Censos de Argentina (INDEC), que
fue presuntamente manipulado por el gobierno de Kirchner, desacreditan a los INE en toda la
región y ponen su confiabilidad en tela de juicio.
La confianza y transparencia limitadas de los procesos estadísticos presentan impedimentos
significativos. Ciertamente, la adopción y revisión de la legislación estadística para garantizar la
independencia de los INE en muchos países supone un paso importante hacia la mejora de su
credibilidad, como se ha visto en México (ver Cuadra 1). Afortunadamente, se ve una tendencia
en toda la región hacia la introducción de sistemas gestionados de manera pública en la que los
puestos directivos de las oficinas de estadística se ocupan a través de un mecanismo competitivo
de contratación.19
Adicionalmente, legislaciones deficientes conducen a mandatos indefinidos con respecto a la
recolección y el acceso a los datos. Por ejemplo, la generación de estadísticas desde registros
administrativos es todavía limitada, comúnmente debido a que no hay leyes claras que permitan
a los INE solicitar esta información a otras agencias. La interoperatividad entre las instituciones
gubernamentales usualmente plantea un desafío y muchos INE compiten con otros ministerios
y organismos en lugar de colaborar. Un hecho positivo es que en virtud del artículo 150 del Plan
Nacional de Desarrollo de Colombia, el DANE logró un mejor control del aprovechamiento de
registros administrativos con fines estadísticos.20
16
Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2015a.
Khan y Stuart 2015.
18
Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2010.
19
Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2010.
20
Congreso de la República de Colombia 2014.
17
11
1.3.
Definiendo Big Data para las estadísticas oficiales y los ODS
Big data, como una nueva fuente de datos, es potencialmente interesante para alimentar las
estadísticas oficiales, utilizándose tanto como recurso en sí mismo, como en combinación con
fuentes de datos más tradicionales como las encuestas por muestreo y los registros
administrativos. Tiene el potencial para producir estadísticas más relevantes y más oportunas
que las fuentes tradicionales.21 Por ejemplo, el análisis de los comentarios, consultas de búsqueda
o publicaciones en línea puede producir casi los mismos resultados para la inferencia estadística,
pero más rápido y a un costo menor que las encuestas y sondeos a hogares. A través de Google
Trends, los datos sobre empleo se pueden monitorear de forma gratuita y en tiempo real.22
Este ejemplo ilustra que hay más en el fenómeno de “big data” como una nueva fuente, así como
había algo más en la industrialización que los hidrocarburos y la electricidad. Con la llegada de
Big Data, llegan nuevos actores, capacidades e instrumentos que están siendo y serán modelados
por la sociedad. Cuando hablamos de este fenómeno más amplio, cuyo potencial transformador
se puede comparar con la de la industrialización, se habla de “Big Data” (con mayúsculas) y no
solo de “big data.”
Cuadro 1: El INEGI como buena práctica en la región
El Instituto Nacional de Estadística y Geografía de México (INEGI) proporciona un claro ejemplo
de las mejores prácticas para el desarrollo de las estadísticas en la región. En 2008, se transformó
en una institución totalmente autónoma, gobernada por una junta directiva nombrada por el
Presidente de la República y el Senado. Las operaciones del INEGI están respaldadas por una
ley que permite a la institución ejercer efectivamente un papel de liderazgo en todo el sistema
estadístico nacional. El INEGI se beneficia claramente de recursos financieros sólidos que le
permite contratar personal altamente profesionalizado. EL INEGI es la contraparte técnica de
diversos esfuerzos nacionales, tales como la aplicación de la estrategia de datos abiertos. Debido a
la adhesión de México a la OCDE, el INEGI también adquiere puntos de vista y la experiencia del
intercambio institucionalizado a nivel internacional.
Big Data se refiere no sólo a los datos sino también a las instituciones y el ecosistema más amplio
que lo produce y utiliza.23 Este ecosistema se puede describir como la unión de las migajas de Big
Data (nueva clase datos generados de forma pasiva), la capacidad (técnica y humana para generar
entendimiento a partir de estos datos) y la comunidad (nuevos actores del sector privado y la
comunidad de investigación, por ejemplo).24
Big Data tiene tres características e implicaciones principales que ponen de relieve su potencial
para complementar y ampliar el trabajo existente de los INE (ver Cuadro 2).
21
United Nations Statistical Commission 2014a.
Hubbard 2011.
23
Pentland 2012.
24
Pentland 2012.
22
12
1. Big Data ofrece nuevas fuentes de datos
En primer lugar, a veces no es claro qué tipo de datos se pueden definir realmente como Big
Data. En la actualidad, observamos una cierta ambigüedad en el uso de términos tales como
datos abiertos, datos inteligentes, thick data, big data, y Big Data (con mayúsculas). Todos estos
serán componentes importantes en la realización de una revolución de los datos. Pero el big data
tiene cualidades muy marcadas que lo diferencian de las fuentes convencionales de datos: son de
gran volumen y pueden componerse de muchos tipos de fuentes generadoras y por tanto, ser
estructurados y no estructurados. Por ejemplo, aunque los registros administrativos (una de las
principales fuentes utilizadas por muchos INE) se componen de grandes cantidades de datos y
hojas de cálculo extensas, no serán considerados como Big Data mientras que su velocidad no
aumente, si su recolección fuera diaria.25 mientras que establecer un almacén de datos es un paso
importante para el procesamiento de conjuntos de Big Data, su principal característica es la de
almacenar grandes cantidades de datos estructurados, que a menudo constituyen big data, pero
no necesariamente Big Data. El Big Data puede componerse de todo tipo de fuentes generadoras
de datos y por lo tanto puede ser a la vez estructurado y no estructurado.
2. Big Data proporciona una mayor diversidad de fuentes de datos
Esto lleva a la segunda cuestión: Big Data no se trata de los datos ni de su tamaño, como varios
investigadores lo han señalado.26 Se trata de “datos diferentes que pueden contener señales que
no estaban disponibles hace unos pocos años y que ‘nosotros’ todavía no sabemos como leer o
usar,”27 y que no se ha solicitado de forma activa e intencional por estadísticos o investigadores.
A diferencia de los datos recogidos a través de fuentes tradicionales con el objetivo de responder a
una pregunta, Big Data podría dar respuestas a preguntas que ni siquiera han sido formuladas. Son
datos nuevos y deben ser considerados “como huellas digitales de acciones humanas generadas de
forma pasiva por individuos.”28
3. Big Data tiene el potencial de complementar y mejorar las actividades estadísticas en
curso a través de sus cuatro funciones
Big Data como un ecosistema tiene el potencial de mejorar y complementar las actividades de
estadísticas oficiales mediante la sustitución de determinados indicadores y procesos de medición.
Big Data puede alimentar el proceso estadístico a través de sus cuatro funciones:
1. Descriptiva—a través de mapas, estadísticas descriptivas, visualizaciones, etc.
25
United Nations Economic Commission for Europe (UNECE) 2013.
King 2013.
27
Letouzé 2013.
28
Letouzé 2013.
26
13
2. Predictiva—para hacer inferencias acerca de las condiciones actuales y predicciones sobre
eventos futuros;
a) La predicción como proxy, donde Big Data se utiliza para predecir el grado de relación
de otra variable (por ejemplo la pobreza); esto también se conoce como inferencia o
now-casting (predicción a muy corto plazo).
b) Pronosticar, donde se evalúa la probabilidad de que algunos eventos sucedan en el
futuro cercano o lejano.
3. Prescriptiva—también conocida como diagnóstica, para hacer inferencias causales con Big
Data, donde el análisis de registros de detalles de llamada (en adelante CDR por sus siglas
en inglés) ayudará a revelar relaciones informales que vinculan el uso del teléfono celular
con el resultado, o de manera general ayudará a determinar intervenciones específicas.
4. Discursiva—también conocida como el involucramiento, donde “se estimula y forma un
diálogo dentro y entre las comunidades y con los actores clave,” reconociendo que “el
potencial a largo plazo de Big Data reside en su capacidad para concientizar los ciudadanos
y los empodera para tomar acción.”
La experimentación con Big Data puede aplicarse a procesos, resultados y ODS relacionados
que:29
estén correlacionados con (es decir, que se muestren en) tendencias y patrones en la
producción de datos de algún tipo;
actualmente se monitoreen a través de medios tradicionales (que proporcionan “datos de
terreno” sin los que no es posible la calibración o sin los que se requeriría hacer
suposiciones);
se consideren como relativamente más ‘importantes’ en términos universales (por ejemplo
resultados de pobreza a partir del ingreso, salud y educación), así como en términos
contextuales;
sean aplicables a ‘nuevos’ tipos de sectores y objetivos, como la cohesión social, la
predicción del crimen o el bienestar subjetivo.
Algunos argumentan que estos instrumentos serán mucho más baratos que la recolección
tradicional de datos, en particular las encuestas, que siguen siendo altamente costosas y que en
algunos países aún no se pueden hacer por vía electrónica. Además, Big Data podría contribuir a
la mejora de algunos aspectos de la calidad de las estadísticas, tales como la oportunidad y
completitud, sin comprometer su pertinencia, imparcialidad y rigor metodológico.30 También
podría complementar o sustituir otras formas tradicionales de medición de aspectos de la
29
30
Letouzé 2015.
United Nations Statistical Commission 2014a.
14
realidad humana, como la mortalidad, la violencia o el hambre, tal como diversos proyectos
piloto de investigación lo han demostrado (algunos de ellos se documentan en este informe).31
Big Data también podría ayudar a llenar vacíos de datos en áreas temáticas y monitorear
objetivos donde los datos son escasos; esto es particularmente relevante en el contexto de los
ODS. El objetivo general de la agenda post-2015 es eliminar la pobreza global como se indica en
el Objetivo 1 de los ODS (Erradicar la pobreza), se evidencia en el Objetivo 10 (Reducir las
desigualdades) y en varios indicadores de otros objetivos. Sin embargo, los datos de pobreza,
recolectados principalmente a través de costosas encuestas a hogares, son escasos en muchos
países, particularmente a un nivel desagregado (es decir, cuando representan pequeñas unidades
geográficas, como ciudades, pueblos y aldeas) y actualizado. Big Data ofrece una oportunidad
para cerrar esta brecha. En regiones desarrolladas, se han llevado a cabo investigaciones
utilizando medios sociales para medir niveles socioeconómicos. Sin embargo, estas fuentes de
datos de por si plantean sesgos demográficos en regiones desarrolladas, los cuales son mayores en
el Hemisferio Sur. Entretanto, los teléfonos móviles tienen por lo general una alta penetración y
por ende ofrecen datos más representativos, aunque incluso en este caso, la representatividad no
está garantizada32
Ante todo, Big Data define un punto de inflexión en la producción de estadísticas oficiales y la
combinación creativa, relevante y responsable de estas estadísticas con estadísticas no oficiales.
Si se implementa, se desmantelará el paradigma tradicional de los sistemas estadísticos en todos
los niveles de aplicación y se provocará un giro institucional. Big Data afectará a los INE en
varios niveles, incluyendo la recolección, la gestión de la calidad, la agregación, el análisis (o la
producción de servicios) y por último, la visualización y asignación de los datos.
La tabla del Anexo 2 resalta y referencia los usos de Big Data hacia el monitoreo de los ODS.
Además de la innovación en la recolección y uso de los recursos actuales, la revolución de los
datos también apunta a la posibilidad de utilizar Big Data para medir los ODS y el papel que los
INE podrán desempeñar en el involucramiento con estos recursos. A medida que la conversación
a nivel global apunta a las posibilidades de apalancar Big Data para las estadísticas, ¿cómo han y
cómo pueden los INE de América Latina participar en esta gran revolución de los datos? ¿Qué
desafíos únicos enfrentan?
31
Letouzé 2015.
A penetration rate of 100 or more does not mean that there hundred percent of a population actually own and
use a phone.
32
15
Cuadro 2: Big Data vs. big data
Big Data (con mayúsculas) en este documento (y otros) se refiere al ecosistema creado por la
aparición concomitante de “las 3C de Big Data.”
La primera C representa las migajas (crumbs en inglés), o pedazos de datos emitidos y
recolectados de forma pasiva, subproducto de la interacción de las personas con y el uso
de dispositivos digitales que proporciona una visión única sobre sus comportamientos y
creencias;
La segunda C representa las Capacidades de Big Data, lo que también se conoce
como Big Data Analytics; es decir, el conjunto de herramientas y métodos, hardware y
software, know-how y habilidades necesarios para procesar y analizar este nuevo tipo de
datos, incluyendo técnicas de visualización, aprendizaje estadístico automatizado (machine
learning), algoritmos, etc.;
La tercera C representa las Comunidades de Big Data, y describe los diferentes actores
involucrados en el ecosistema de Big Data, desde los generadores de datos hasta sus analistas
y usuarios finales; es decir, potencialmente toda la población.
Este ecosistema puede ser descrito y analizado como un sistema complejo, es decir, uno donde
existen bucles de retroalimentación entre sus diferentes partes. En los niveles más básicos, las
nuevas empresas (por ejemplo Twitter o sus futuros competidores) ayudan a generar nuevos tipos
de datos que a su vez conducen al desarrollo de nuevos tipos de instrumentos analíticos, dando
lugar a nuevos tipos de datos, y luego a nuevos actores que toman ventaja de estos nuevos datos
y herramientas. Es posible que este nuevo ecosistema pueda convertirse en o ser parte de un
fenómeno social más amplio.
Por el contrario, big data se refiere a la primera C mencionada anteriormente; es decir, los flujos
y los conjuntos resultantes de las huellas digitales que dejan los seres humanos al usar teléfonos
celulares (registros de llamadas), tarjetas de crédito (transacciones), el transporte (registros de metro
o autobús y de EZ Pass), medios sociales y motores de búsqueda, o cuando sus acciones son
registradas por sensores, ya sean físicos (contadores eléctricos, sensores de pesaje en un camión)
o remotos (satélites, cámaras).
16
Cuadro 3: La diferencia entre Big Data y Datos Abiertos
A pesar de que tanto Big Data como los Datos Abiertos por lo general toman la forma de grandes
conjuntos de datos dispuestos para usos superpuestos con herramientas similares, son conceptos
distintos. Como se menciona anteriormente, Big Data se puede caracterizar como un ecosistema de
datos generados sobre y por la gente como un sub-producto del uso de dispositivos y plataformas
digitales (migajas), las nuevas herramientas y métodos desarrollados para recolectar, procesar y
analizar dichos datos (capacidades) y el conjunto de individuos y actores institucionales que hacen
uso de los datos y capacidades (comunidades). El término Datos Abiertos generalmente se refiere a
datos que se vuelven de dominio público, con tan pocas barreras legales y técnicas como sea posible.
Esto puede incluir datos del gobierno, tales como datos de presupuesto, datos meteorológicos
o registros administrativos, datos científicos, así como datos en manos de las ONG o empresas
privadas. Sin embargo, en la mayoría de los casos, contiene datos estructurados.
Muchas de las herramientas y capacidades que se desarrollan y utilizan con estos datos son comunes
a ambas categorías. Mientras que alguna vez fue demasiado costoso y técnicamente difícil recolectar
información sub-producto de otras actividades (en el caso de Big Data) o distribuir ampliamente los
datos existentes (en el caso de Datos Abiertos), la disminución del costo del almacenamiento y la
mejora en las capacidades de procesadores y dispositivos asequibles han hecho posible el desarrollo
tanto de Big Data como de los Datos Abiertos.
Por lo tanto, mientras que la nueva velocidad y escala con la que ahora es posible almacenar y
procesar la información ha permitido que tanto Big Data como los Datos Abiertos se popularicen
(simultáneamente), en realidad son conceptos diferentes: lo primero se refiere, fundamentalmente,
al origen de los datos y lo segundo se relaciona más con el uso que se les da.a De hecho, los datos
pueden ser a la vez grandes (Big) y abiertos, como por ejemplo es el caso de las bases de datos
públicas de datos meteorológicos recolectados a través de la teledetección. Sin embargo, en ciertos
casos, Big Data no es o no puede hacerse pública por los INE. Esto puede ocurrir por una variedad
de razones legales, éticas, técnicas o financieras. Por ejemplo, mientras que el sector público y la
comunidad académica podrían hacer un uso interesante de los conjuntos de datos de CDR si se
hicieran públicos, actualmente están en manos de los proveedores de telefonía celular, que tienen
un desincentivo financiero para poner esta información a disposición de sus competidores y una
obligación legal y ética con sus clientes de mantenerlos privados. Por el contrario, hay algunas
fuentes muy interesantes de datos, como los registros de las quejas de los consumidores contra
las empresas, que si se hacen públicos podrían traer beneficios para la sociedad; sin embargo estos
registros no llegan a ser Big Data (ya que son reportados por los clientes de forma activa en vez
de ser recolectados pasivamente a través de otros usos). Como parte del ecosistema de datos más
grande, los Datos Abiertos pueden informar y mejorar otros análisis de datos, por ejemplo, en el
contexto de Big Data. El Open Data Institute en Londres también habla del espectro de datos para
diferenciar entre diferentes fuentes de datos y los términos utilizados en este contexto.b El Open
Data Institute en Londres también habla del espectro de datos para diferenciar entre diferentes
fuentes de datos y los términos utilizados en este contexto. https://theodi.org/data-spectrum
a
b
Gurin 2014.
Open Data Institute 2015.
17
Involucrar, innovar y descubrir Big Data en América
Latina
2.
2.1.
Preparando el escenario: el ecosistema emergente de Big Data
Como en el resto del mundo, América Latina está experimentando una revolución digital con el
aumento del uso y acceso a tecnologías móviles y conexión a Internet. Al igual que en África y
Asia, la tecnología móvil ha crecido rápidamente en la última década. Nuevas fuentes de datos,
como los CDR generados por tecnologías digitales, y definidos como big data, son el
combustible del ecosistema de Big Data. Estos tipos de fuentes de datos pueden ser utilizados
para mejorar y complementar los procesos estadísticos. Sin embargo, su pertinencia para las
operaciones estadísticas depende en gran medida de su disponibilidad. Es importante destacar
que los datos de tecnología móvil, medios sociales e Internet pueden ser relevantes para
propósitos estadísticos, únicamente si las tasas de penetración son lo suficientemente altas. Y
como es lógico, no todas las fuentes de datos están igualmente disponibles en todos los países.
Por tanto, estimar el potencial de Big Data para la región de ALC requiere evaluar primero qué
tipos de fuentes de datos están realmente disponibles.
Una de las características únicas de América Latina es que su infraestructura es en gran medida
heterogénea. Esto significa que a la hora de evaluar fuentes de datos, o más específicamente, un
índice de digitalización que tenga en cuenta la penetración de Internet, tanto la cantidad como el
nivel socioeconómico de los usuarios de Internet varía considerablemente.33 El sesgo de los datos
y de las metodologías se amplían en la sección 3.5.
Internet
Uruguay, Chile, Costa Rica y Argentina tienen altas tasas de penetración de Internet, así como
una menor desigualdad en términos de acceso (es decir, entre las zonas rurales y urbanas y los
niveles socioeconómicos).34 Este no es el caso en otros países de América Latina. Si bien es
difícil desagregar los datos actuales sobre TIC, datos antiguos del Observatorio para la Sociedad
de la Información en Latinoamérica y el Caribe (OSILAC) de una encuesta realizada en 2010
muestra que el acceso a Internet para los hogares más ricos de la región excede las tasas de acceso
de los segmentos más pobres por un factor de 44: “Efectivamente, hay una fuerte correlación
entre el acceso a Internet y los patrones más amplios de pobreza, desigualdad, clase
socioeconómica y urbanización.35 ” En zonas rurales, muchas personas todavía no tienen
ninguna clase de acceso a Internet. En Brasil y Colombia, la brecha de acceso entre los hogares
urbanos y rurales con conexión fija a Internet supera los 30 puntos porcentuales.36 En el uso
33
Katz 2015.
Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2015b.
35
Informa 2011.
36
Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2015b.
34
18
Figura 2: Uso de Internet por porcentaje de población en 2006 y 2014
Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL). The new digital
revolution: From the consumer Internet to the industrial Internet. 2015. URL:
http://repositorio.cepal.org/bitstream/handle/11362/38767/S1500587_en.pdf
International Telecommunication Union. World Telecommunication/ICT Indicators database, 19th
Edition. 2015. URL:
http://www.itu.int/en/ITU-D/Statistics/Pages/publications/wtid.aspx
19
industrial de Internet también se ve una brecha a nivel de los países.37
Al mismo tiempo que vemos una tendencia creciente en las brechas al acceso a Internet en los
países latinoamericanos (ver Figura 2), América Central presenta en general las tasas más bajas de
penetración. Costa Rica y Nicaragua, con la mayor y menor tasa de penetración respectivamente,
se destacan en la Tabla 1 continuación, siendo Costa Rica claramente una excepción de América
Central. El índice general de penetración de Internet es de 49, 9 % en toda la región.38
Tabla 1: Estadísticas de uso de Internet y población para países seleccionados de ALC, 2013
País
Población
(Est. 2014)
Uso de Internet
(a 31-dic-2013)
% Población
(Penetración)
Argentina
43 024 374
32 268 280
75,0
Bolivia
10 631 486
4 199 437
39,5
Brasil
202 656 788
109 773 650
54,2
Chile
17 363 894
11 546 990
66,5
Colombia
46 254 297
28 475 560
61,6
Costa Rica
4 755 234
4 028 302
84,7
Guatemala
14 647 083
2 885 475
18,6
120 286 655
59 200 000
49,2
5 848 641
906 539
15,5
Ecuador
15 654 411
6 316 555
40,4
Panamá
3 608 431
1 899 892
51,7
Paraguay
6 703 860
2 473 724
36,9
30 147 935
11 817 991
39,2
3 332 972
1 936 457
58,1
México
Nicaragua
Perú
Uruguay
Internet World Stats. Latin American Internet and Users and Population Statistics. 2013. URL:
http://www.internetworldstats.com/stats10.htm
Móviles
El mercado móvil latinoamericano es el cuarto más grande del mundo. Brasil, México y Argentina
abarcan los mercados más grandes debido a su gran población y altas tasas de penetración Mientras
37
En el uso comercial de Internet, por ejemplo, los establecimientos del sector manufacturero utilizan Internet
para obtener información oficial. Los tres principales países con más alto porcentaje de uso para esto son Argentina
con el 70, 5 %, Brasil con el 62, 9 % y Uruguay con el 59, 5 %. “El ecosistema y la economía en América Latina.” (Katz
2015)
38
Internet World Stats 2013.
20
que la tasa de penetración móvil general en América Latina sigue siendo mucho mayor al 100 %,
solo un poco más de la mitad de la población de la región está efectivamente abonada a un servicio
móvil. Sin embargo, se espera que esta cifra llegue a ∼ 60 % en 2020, acorde a la media global.39 En
el mismo sentido, las tendencias generales de digitalización global también están mostrando un
incremento constante (ver Tabla 1). Las tasas de penetración de usuarios oscilan entre un mínimo
de 37 % en México y un máximo de 77 % en Costa Rica;40 lo que muestra que no hay un solo
controlador de la variación en las tasas de penetración, y por lo tanto, las diferencias en el PIB per
cápita juegan un papel limitado. En comparación con otras regiones en desarrollo los servicios de
dinero móvil, que también pueden proporcionar fuentes de datos interesantes, aún no han tenido
suficiente éxito 41 .
Las redes y servicios móviles se están convirtiendo cada vez más en el principal método de
acceso a Internet a través de América Latina. En 2011, el número de conexiones de banda ancha
móvil superó el número de conexiones de banda ancha fija.42 Gracias a la creciente
disponibilidad de modelos de bajo costo, la adopción de teléfonos inteligentes está aumentando
rápidamente. Finales de 2013, se estimó que la adopción general de teléfonos inteligentes fue del
20 %, y se prevé que alcance el 70 % para el año 2020.43 En cuanto al uso de dispositivos móviles
para acceder a Internet, en septiembre de 2014 había 216 millones de personas que los utilizaban
para tal fin, equivalente a una tasa de penetración global de alrededor del 35 %, estadística que
para esa fecha ya superaba la del año anterior. Está previsto que para el 2020 el acceso a Internet
a través de móviles sea justo por debajo del 50 % de la población.44 Un aumento en la
competencia y en la innovación ha permitido que hayan más teléfonos inteligentes y acceso a
Internet en toda la región.45 Simultáneamente, los consumidores de toda la región están
utilizando progresivamente los servicios de proveedores de mensajería en línea (OMS por sus
siglas en inglés). Debido a la presión del mercado, cada vez más operadores están incorporando
estos servicios en sus planes de tráfico, por ejemplo a través de asociaciones Zero-Rating con
proveedores de servicio y de plataforma. Alrededor de 38 millones de personas en la región
utilizan ahora Whatsapp.46 Pronto los datos generados por estos servicios podrían ser más
importantes para obtener información valiosa que lo que los datos de CDR están ofreciendo en
este momento.47
Actualmente, América Móvil (a través de sus filiales Claro y Telcel), Telefónica (a través de
Movistar) y Millicom (a través de Tigo) que actúan como operadores locales dominan el
mercado de América Latina. En Brasil, los operadores locales Oi y Vivo tienen una cuota
39
Mocanu y col. 2013.
GSMA Intelligence s.f.
41
Tigo Money de Millicom es uno de los únicos servicios de dinero móvil liderado por operador que ha tenido
éxito y que está activo en cinco mercados latinoamericanos (Bolivia, El Salvador, Guatemala, Honduras y Paraguay).
En Bolivia, Tigo Money es responsable de flujos de dinero por casi US$4 millones mensuales y tiene alrededor
de 700,000 clientes. En Perú, Movistar ha lanzado recientemente un servicio de dinero móvil en asociación con
Mastercard, que puede alcanzar un potencial de 16 millones de clientes.
42
GSMA Intelligence s.f.
43
GSMA Intelligence s.f.
44
GSMA Intelligence s.f.
45
GSMA Intelligence s.f.
46
Reader 2015.
47
GSMA Intelligence s.f.
40
21
Figura 3: Desarrollo mundial de la digitalización, 2013
Raúl Katz. El ecosistema y la economía digital en América Latina. 2015. URL:
http://cet.la/blog/course/libro-el-ecosistema-y-la-economia-digital-en-americalatina/
significativa del mercado. Curiosamente, los cuatro sitios web principales en todos los países de
América Latina son de origen internacional (Google, Facebook, Microsoft y Yahoo) con la
excepción de Brasil (UOL) y Venezuela (Mercado Libre) (Katz 2015).
La adopción masiva de nuevas tecnologías de información y comunicación (TIC) ha hecho posible
una mayor generación (de datos digitales), comunicación y difusión de Big Data.
Medios Sociales
La región se está convirtiendo en uno de los mayores productores y consumidores de redes
sociales, sobre todo de Facebook y Twitter48 —produciendo una gran cantidad de datos que
pueden ser utilizados con fines estadísticos en algunos países. Siete países latinoamericanos están
entre los treinta primeros del mundo en términos de usuarios de Facebook, incluyendo Brasil
(reconocida por el Wall Street Journal como la “La Capital Universal de los Medios Sociales”49 )
48
El éxito de las redes sociales también se puede explicar por su importancia para los debates políticos y la
participación ciudadana en muchos países de América Latina. En Brasil, los medios de comunicación social fueron
el principal canal para el debate de las elecciones municipales de 2012 y los últimos casos de corrupción, así como la
organización de las protestas en torno a la Copa del Mundo de 2014. En México, Twitter ha contribuido a difundir los
movimientos sociales, como el movimiento #YoSoy132 que surgió durante la elección presidencial de 2012. También
se ha convertido en una herramienta para periodistas ciudadanos que lo utilizan para la publicación segura y anónima
de información sobre el crimen organizado y la lucha contra la droga.
49
Téllez 2015.
22
—que tiene el mayor número de usuarios activos en la región y Chile que cuenta con la mayor
proporción de usuarios per cápita.50 Adicionalmente, la mitad de los usuarios de teléfonos
inteligentes de América Latina tienen cuentas en Twitter.51 Con más de 41 millones de usuarios,
Brasil ocupa el segundo lugar del mundo en términos del número de cuentas de Twitter, el
quinto a nivel mundial en términos de uso y es el segundo mayor productor de tuits en el
mundo.52 México ocupa el séptimo lugar en el mundo en términos de cuentas de Twitter, con
un estimado de 11,7 millones de usuarios activos.53
2.2.
Los INE y Big Data: tendencias en América Latina
Un número cada vez mayor de los INE de la región está demostrando interés en involucrarse
con Big Data. Conferencias internacionales, como el Congreso Mundial de la Estadística que el
Instituto Internacional de Estadística celebra cada año y la Conferencia Internacional sobre Big
Data para las Estadísticas Oficiales liderada por la ONU y por el Banco Mundial (la segunda
edición tuvo lugar en Abu Dhabi en octubre de 2015) están impulsando el interés de las partes
interesadas a nivel regional. Recientemente, el Encuentro Mundial de Big Data se llevó a cabo en
Bogotá en octubre de 2015, y en abril del mismo año se llevó a cabo el Cartagena Data Festival, en
asociación con el DANE. El llamado a una revolución de los datos y la demanda por mediciones
alternativas y más oportunas, sin duda ha despertado el interés a los acercamientos a Big Data en
América Latina, especialmente cuando la agenda post-2015 se considera una prioridad política.
Colombia y Costa Rica han incluido las metas en sus planes nacionales de desarrollo. Por lo tanto,
hay una serie de proyectos piloto en curso llevados a cabo por los INE de la región, especialmente
en Colombia, México y Ecuador. En toda la región, los pilotos varían en el uso de Big Data desde
web-scraping (raspado de la web) y CDR, hasta medios sociales, satélites, encuestas y más; así
mismo los INE y sus respectivos pilotos varían en la etapa en que se encuentran: algunos están
planeando pilotos, como el IBGE en Brasil, mientras que otros en Perú aún están examinando
posibles pilotos.
Como se mencionó anteriormente, el DANE en Colombia, el INEGI en México y el INEC en
Ecuador, están liderando el involucramiento con Big Data. Sin embargo, este acercamiento se
expresa mediante enfoques muy diferentes. En Colombia, Big Data hace parte de la estrategia
mencionada anteriormente (el DANE Moderno) que es un proceso innovador para modernizar
las operaciones estadísticas a nivel estructural y técnico en Colombia (ver Cuadro 4). Big Data es
considerado como uno de los aspectos de este proceso, mientras que los cambios técnicos
generales, como por ejemplo el cambio a HADOOP, favorecen este intento. Las actividades en
Big Data se formulan a nivel directivo y se difunden desde allí; un equipo interdepartamental se
formó con el apoyo de consultores externos y se han identificado áreas de trabajo potenciales
para el DANE. Por otro lado, México y Ecuador iniciaron con un enfoque técnico y práctico
impulsado por líderes internos. Estos INE iniciaron con pilotos más pequeños, jugando con
50
Bibolini y Lancaster 2014.
Reader 2015.
52
Glickhouse 2013.
53
Glickhouse 2013.
51
23
Cuadro 4: Los INE en América Latina: el DANE Moderno de Colombia
En Colombia, el DANE creó recientemente una nueva estrategia de alto nivel llamada el “DANE
Moderno”, la cual fue lanzada en 2014. Se espera que el DANE Moderno cree una nueva forma
de pensar en la institución. Esta narrativa deriva del discurso de la responsabilidad de los INE de
convertirse en productores de conocimiento con el fin de promover marcos de democracia, tales
como informar a los ciudadanos de tal manera que se reafirme la toma de decisiones por parte del
ciudadano, así como la rendición de cuentas de sus gobiernos. La estrategia también insiste en la
necesidad de transparencia con sus ciudadanos. “El DANE Moderno también significa un DANE
de puertas abiertas, de respuestas amables y comprensibles, porque como lo he venido repitiendo,
las cifras que producimos no son para quedarnos sentados en ellas, son para compartirlas con
todos aquellos que las necesiten”.a El DANE Moderno ha sido denominado como un ejemplo
de buenas prácticas por varios actores internacionales (por ejemplo ODI y PARIS21). Si bien la
premisa del DANE Moderno supone cultivar una nueva forma de pensar y una nueva cultura,
también ha dado lugar a modernizaciones técnicas tales como una mayor digitalización de procesos
técnicos, la implementación de nuevos estándares y la construcción de una bodega de datos (data
warehouse). Como parte del DANE Moderno, el DANE también lanzó un proceso de innovación a
dos niveles a principios de 2015, el cual fue inspirado por el Laboratorio de Innovación del Instituto
de Estadística Holandés. En este proceso, se invitó a los funcionarios a presentar propuestas de
innovación: los empleados presentaron 84 ideas. Diez fueron seleccionadas para que todos los
empleados del DANE votaran por ellas en la intranet; cuatro de estas diez propuestas tenían un
componente de Big Data. Eventualmente, un jurado externo eligió tres proyectos finales que ahora
están listos para su desarrollo.
a
Cordero 2016.
24
datos disponibles a través de Twitter o web-scraping. Aquellos en un nivel directivo parecen en
general apoyar los esfuerzos de estos líderes, pero estos aún no han recibido lineamientos desde
el nivel superior.
No es sorprendente que los países que forman parte de la OCDE (i.e. México), que están en
proceso de formar parte de la OCDE (Colombia y Perú en las primeras etapas) o que participan
en otros grupos de trabajo internacionales (aquellos establecidos por Eurostat y la División de
Estadísticas de las Naciones Unidas—en inglés UNSD), sean más progresistas en su acercamiento
a Big Data. La UNSD lanzó seis grupos de trabajo a principios de 2015, que se concentran en
diferentes aspectos de Big Data. México y Colombia participan en sus actividades y el Grupo de
Trabajo sobre Big Data y ODS es liderado conjuntamente por el Banco Mundial y el INEGI de
México. En particular, el trabajo de la División de Estadística y el Proyecto Sandox de la UNECE
han desempeñado un papel vital para aquellos INE de América Latina que han tenido el privilegio
de participar. Proyectos pioneros, como el trabajo de los Institutos de Estadística de Holanda y
Estonia, influyen en proyectos y pilotos en la región de ALC, logrando que los INE examinen la
viabilidad de esfuerzos similares en sus respectivos países (ver Anexo 2).
Tres INE de países latinoamericanos respondieron la Encuesta de Big Data de 2015 realizada por
el Grupo de Trabajo Mundial sobre Big Data para las Estadísticas Oficiales de las Naciones
Unidas: Argentina, Ecuador y México. Entre los proyectos de Big Data que reportaron, Ecuador
y Argentina estaban interesados en la creación de índices de precios en tiempo real a partir de
datos publicados en línea por supermercados y puntos de venta minoristas. 54 Hay un número
de pilotos previstos en la región que se relacionan con este tema: para empezar, el trabajo de
Alberto Cavallo en el MIT (ver Anexo 4) el cual utiliza información de Internet para generar
índices de precios y medir la inflación de Argentina55 y que ha recibido opiniones favorables de
varios INE. Algunos ya están realizando o planean realizar pilotos similares (por ejemplo
Ecuador, Argentina y Colombia). En Colombia, hay planes para utilizar los datos existentes de
SIPSA, un innovador sistema de información de precios agropecuarios nacionales (ver Anexo 6),
y compararlos y enriquecerlos con datos provenientes de web-scraping. Con su amplia adopción
por parte de muchos INE en todo el mundo es muy probable que este enfoque se utilice de una
forma u otra para apoyar la medición del primer ODS (reducción de la pobreza).
Además, los datos de redes sociales que son de libre disposición se han utilizado para desarrollar
pilotos. Acercamientos para medir el bienestar de los ciudadanos (similar al piloto del Instituto
de Estadística Holandés,56 que ha sido presentado en varios eventos en el contexto de Big Data
y estadísticas; ver Anexo 3) aestán recibiendo más y más atención internacional. El INEGI de
México y el INEC de Ecuador están trabajando actualmente en pilotos similares. Teniendo en
cuenta la cantidad estimada de usuarios activos en Twitter de México (11,7 millones),57 el INEGI
se asoció con instituciones académicas 58 para desarrollar herramientas técnicas para medir el
54
Ecuador también estaba interesado en la creación de un índice de felicidad, impulsado por el Ministerio de
Bienestar.
55
Cavallo 2013.
56
Daas y Loo 2013.
57
Glickhouse 2013.
58
Aquellos invluyen Infotec, CentroGeo y CIMAT.
25
bienestar subjetivo a través del análisis de tuits y utilizó los tuits para monitorear movimientos del
turismo (ver Cuadro 5). El INEGI también tiene previsto medir la salud mental entre las mujeres
jóvenes. En otro piloto, el INEGI utilizó tuits para medir la movilidad y los movimientos del
turismo durante un fin de semana largo (coloquialmente puente) en Puebla y Guanajuato. Esto
se hizo en colaboración con la Secretaría Mexicana de Turismo.59 Se proyecta una investigación
más amplia en este campo.
Cuadro 5: Twitter para monitorear el turismo en México
En 2014, un grupo de trabajo sobre Big Data del INEGI llevó a cabo un estudio piloto para
realizar seguimiento al turismo interno a partir de datos de Twitter, con el fin de contribuir a
la modelación empírica del comportamiento individual de turistas. El objetivo de este programa
piloto fue identificar las características de un turista tuitero promedio con el fin de identificar
cuántas personas viajaron a Puebla y Guanajuato durante el fin de semana del 1 al 3 de febrero
de 2014. El equipo de investigadores del INEGI, en colaboración con la Secretaría de Turismo de
México, analizó 60 millones de tuits publicados de enero a julio de 2014, de la muestra continua
georeferenciada del 1 % que Twitter pone a disposición de forma gratuita.a A partir de estos datos,
el INEGI recolectó tuits de 7.955 usuarios de Twitter que tuitearon en Guanajuato (48 %) y Puebla
(52 %) durante el fin de semana largo. A continuación, recogieron todos los tuits enviados por
los demás usuarios en el periodo de referencia (para un total de 827.424 tuits) e identificaron qué
usuarios tuitearon desde otro estado (presumiblemente su estado de origen) después de estar en
Guanajuato o Puebla, con el fin de establecer el origen del turismo interno a estas dos áreas durante
el fin de semana largo.b Las estimaciones resultantes del turismo interno a Guanajuato y Puebla
se compararon con las estimaciones realizadas por las respectivas oficinas de turismo de estos dos
estados.c
a
Instituto Nacional de Estadística y Geografía (INEGI) de México 2015b.
Secretaría de Turismo 2014.
c
Instituto Nacional de Estadística y Geografía (INEGI) de México 2015b.
b
Por el contrario, vemos menos pilotos y acercamientos desde los INE al análisis de CDR. La
excepción es un piloto en Guatemala realizado por el Banco Mundial y Telefónica I+D como
parte del concurso de innovación interna del Banco Mundial y que involucra el INE local en
una etapa posterior. Algunos INE están interesados en el uso de CDR para el monitoreo de la
migración y el turismo, como lo han hecho los INE de Italia, Estonia y Holanda. Por ejemplo,
el IBGE está planeando un piloto para el monitoreo actividades turísticas durante los Juegos
Olímpicos de 2016 con los datos de CDR. Sin embargo, la falta de acceso a estos datos está
evitando que el proyecto llegue a buen término. Tanto Brasil como Colombia se han acercado a
los operadores móviles con el fin de acceder a los datos y están actualmente en conversaciones
para tomar muestras de datos para pilotos.
Del mismo modo, ya hay algunos ejemplos pioneros en la aplicación de datos de satélite. En
Brasil, el IBGE, con el apoyo de ONU Mujeres, está utilizando datos remotos satelitales para
59
Secretaría de Turismo 2014.
26
Tabla 2: Descripción general de los proyectos de Big Data en INE seleccionados de ALC
Tipo de
Big Data
Datos utilizados
actualmente en
los actividades
de los INE
Proyectos
Estado del
proyecto
Otras
organizaciones
involucradas
Argentina (INDEC)
Datos subproducto
Web scraping
IPC en línea
Planeado
Brazil (IBGE)
Contenidos Google Maps
digitales
CDR
Desarrollo de Cuentas del Agua
Implementado/
En curso
Monitoreo del Turismo
Planeado
Colombia (DANE)
Datos subproducto
Web scraping
IPC en línea
Planeado
Sistema de Información de Precios
del Sector Agropecuario (SIPSA)
Implementado/
En curso
Contenidos CDR
digitales
Monitoreo de actividades criminales
Fase piloto
Niveles y redes socio-económicas
Fase piloto
Datos
remotos
Complementar el Censo Nacional
Agropecuario
Satélites
World Bank
Data-Pop Alliance
TransMilenio
Ecuador (INEC)
Datos subproducto
Web scraping
Contenidos Twitter
digitales
CDR
IPC en línea
Fase piloto
Medición del bienestar subjetivo
Fase piloto
Migración diurna
Planeado
Guatemala (INE)
Contenidos CDR
digitales
Monitoreo de niveles de pobreza
Fase piloto
Banco Mundial
Telefónica
Mexico (INEGI)
Contenidos Twitter
digitales
Bienestar subjetivo
Completado InfoTec y
Tec Monterrey
Bienestar subjetivo de mujeres
Fase piloto
Monitoreo del Turismo
Completado Ministry of
Tourism
Planeado
Movimientos Fronterizos
27
Data2x y
Universidad of
Pennsylvania
predecir tanto el riesgo de contraer malaria como la carga de morbilidad en mujeres embarazadas,
especialmente a lo largo de la frontera entre Brasil y Guyana (ver Cuadro 6). En Colombia, el
DANE utiliza datos de satélite en un proyecto piloto para el Censo Nacional Agropecuario. El
DANE evalúa si algunos tipos de variables pueden capturarse a través de imágenes satelitales para
complementar la información recolectada por la operación censal.60 Los dos proyectos reportados
por México en la Encuesta de Big Data de 2015 mencionada anteriormente, trataban con datos
geográficos y topográficos derivados de imágenes satelitales.
Cuadro 6: Morbilidad materna y teledetección de malaria en Brasil
Datos remotos satelitales sobre la densidad de la vegetación, la humedad del suelo, la densidad de
población y el patrón espacial de la infraestructura humana han sido utilizados para predecir los
niveles de riesgo de malaria. Los avances en la informática permiten ahora un uso más poderoso de
estos grandes conjuntos de datos, incluyendo el análisis de la heterogeneidad espacial y temporal
extrema y la inclusión de un mayor número de variables explicativas. Este proyecto busca crear
mapas de riesgo de malaria para la cuenca del Amazonas, enfocándose en principio en zonas
urbanas y peri-urbanas a lo largo de la frontera entre Brasil y Guyana, que son áreas con hábitats de
los vectores altamente variables y con una elevada incidencia de la enfermedad. Existen al menos
dos estudios de mapeo de la distribución del vector en esta región, pero hasta lo que se sabe no
hay un mapeo dinámico en alta resolución del riesgo de malaria. La primera fase del proyecto
utilizará los datos de teledetección y registros de salud existentes, en combinación con información
sobre el sistema económico, cultural y de salud, para estimar un modelo de regresión espacial
que prediga la carga de morbilidad en mujeres embarazadas, utilizando los AVAD (años de vida
ajustados por discapacidad) como métrica principal. La segunda fase evaluará la precisión de este
modelo utilizando datos recolectados en tiempo real. ONU Mujeres y el IBGE son las instituciones
que lideran el pilotaje de este estudio, apoyándose en instituciones asociadas como la Fundación
Getulio Vargas y la Iniciativa Amazónica contra la Malaria.
Hoy en día, los esfuerzos en Big Data por los INE de la región, como se ha descrito
anteriormente, representan proyectos aislados y continúan en la fase piloto. La actividad con
respecto a las aplicaciones de Big Data es naciente, pero está en crecimiento así como las
organizaciones que están aprovechando los pilotos, enfoques y posibilidades de otros. Esto no es
sorprendente ni desalentador. Los INE en todo el mundo, incluso los que han estado trabajando
progresivamente en Big Data durante años (como el INE de Holanda), aún no han logrado
llevar las aproximaciones a Big Data del estado piloto a un estado operativo funcional, sostenible
y completamente implementado. Del mismo modo, en Colombia, Ecuador, México y en toda la
región de ALC en general, es muy temprano para determinar cómo se integrarán los pilotos en
las operaciones regulares. En general, no hay asignaciones claras de recursos que promuevan este
impulso y la obtención de una inversión generosa en términos financieros y humanos sigue
siendo un reto.
60
United Nations Statistical Commission 2014a.
28
2.3. Big Data para los ODS en el ecosistema más amplio de actores
Por fuera del sistema estadístico hay varios actores en toda América Latina que han
experimentado con el uso de Big Data en un contexto relevante para los ODS. Ejemplos
incluyen proyectos de investigación internacionales en Big Data, gobiernos y organismos
internacionales, el sector privado y defensores cívicos de la tecnología.
Proyectos de investigación en Big Data
De manera notable, dichos actores participan con proyectos de investigación 61 En México, por
ejemplo, Telefónica y su equipo de investigación llevaron a cabo varios proyectos de investigación
utilizando los CDR de clientes mexicanos con el fin de monitorear el comportamiento después
de desastres naturales y brotes de enfermedades.62 Aunque Telefónica hizo uso de los datos del
censo para este proyecto, el INEGI no participó activamente.
En Colombia, el Centro Internacional de Agricultura Tropical (CIAT) ha desarrollado modelos
de la productividad agrícola en el contexto de la variabilidad del clima. Al identificar qué tipo de
prácticas agrícolas han funcionado bien históricamente, en qué ubicaciones funcionaron y
durante cuáles periodos identificables climáticos funcionaron, el modelo le ahorró a los
productores de arroz colombianos un estimado de 3,6 millones de dólares en una temporada
reciente.63 En otro proyecto de investigación de Big Data, los científicos de la Universidad John
Hopkins en los EE.UU. analizaron tuits relacionados con la salud como parte de Google Trends
sobre los brotes de gripa y dengue en Brasil, México y otros países de la región.
Gobiernos y agencias internacionales
Adicionalmente a los esfuerzos en gobierno abierto, los gobiernos latinoamericanos también
han comenzado a mirar los casos de uso de Big Data para promover la eficiencia y mejorar las
políticas. Como parte de una iniciativa de ciudad inteligente en Guadalajara, México, la ciudad
está analizando los datos de sensores para mejorar la eficiencia energética (entre otras eficiencias)
con el apoyo de Cisco.64 El análisis de los medios sociales durante los procesos electorales, los
datos sobre el flujo vehicular y la predicción del crimen son otras áreas que los gobiernos están
explorando. El Instituto Nacional de Vías de Colombia utiliza datos de GPS a través de un
dispositivo de seguimiento electrónico para mejorar la circulación del tráfico y como entrada
para estadísticas de transporte. Cada vez que un coche pasa por una estación de peaje se registra
automáticamente. El dispositivo contiene toda la información del vehículo, que complementa
61
Para una descripción general de casos de Big Data o proyectos relacionados con datos, ver por ejemplo un
informe del Banco Mundial “Big Data In Action for Development” y un documento de trabajo publicado por la
CEPAL sobre “Big Data and Open Data as sustainability tools”.
62
Clark 2013.
63
CGIAR Research Program on Climate Change, Agriculture and Food Security (CCAFS) 2014.
64
United Nations Statistical Commission 2014a.
29
aquella del Registro Único Nacional de Tránsito. Hasta el momento, este nuevo método ha sido
probado en 10 estaciones de peaje en Colombia y ha mejorado el control de los flujos de tráfico,
como también ha fortalecido las estadísticas de transporte.65
Otras agencias gubernamentales, tales como los ministerios encargados de las TIC, las
comunicaciones o las finanzas, también han evaluado las aplicaciones de Big Data y han iniciado
pilotos. Por ejemplo, el Ministerio de Hacienda en Colombia encargó una investigación a través
de Google Trends para hacer predicciones en tiempo real sobre la actividad económica (ver
Cuadro 7). El Ministerio del Interior y la Oficina de las Naciones Unidas contra la Droga y el
Delito utilizan imágenes satelitales para medir y monitorear los cultivos de coca en Colombia a
través del Sistema Integrado de Monitoreo de Cultivos Ilícitos.66
Como se menciona en la sección 2.2, las organizaciones donantes y agencias internacionales
están impulsando muchos esfuerzos en Big Data en la región. Un ejemplo es el proyecto
mencionado previamente liderado por el Banco Mundial y Telefónica I+D que utiliza los datos
de CDR en Guatemala para estimar la pobreza. El Banco Mundial llevó a cabo otros pilotos en
Nicaragua y Guatemala que ponen a prueba el enfoque de Chen et al. en el uso de la
luminosidad como una proxy de los niveles socioeconómicos (ver Anexo 5).67 El Banco
Mundial también apoya las actividades en Big Data del DANE en Colombia, donde este
documento exploratorio ha sido uno de los elementos. El Global Pulse de las Naciones Unidas
también ha desempeñado un papel promotor dentro del Fondo para la Evaluación de Impacto
Rápido y Vulnerabilidad (RIVAF por sus siglas en inglés); la UNDOC y el Global Pulse de las
Naciones Unidas investigaron cómo las crisis pueden afectar los niveles de criminalidad. Se
centraron en cuatro ciudades de América Latina (Buenos Aires, Montevideo, Sao Paulo y Río de
Janeiro) utilizando datos sobre la delincuencia de alta frecuencia registrados por la policía.68
Data-Pop Alliance, junto con Telefónica y BKF (y financiado por el Banco Mundial), también ha
puesto en marcha pilotos para dos iniciativas que se centran en la seguridad pública y la
delincuencia en Bogotá utilizando CDR.
Otras instituciones internacionales, como el Fondo de Población de las Naciones Unidas
(UNFPA) y el Departamento de Desarrollo de las Naciones Unidas, con quienes la mayoría de
los INE ya tienen acuerdos formales, también se están volviendo cada vez más activos en este
campo. La Oficina para la Coordinación de Asuntos Humanitarios de las Naciones Unidas
(UNOCAH) está trabajando activamente en la mejora de su portal Intercambio de Datos
Humanitarios (HDX) , el cual será una fuente interesante de información y una plataforma de
coordinación para los INE. Generalmente dotados de mejores recursos, estos organismos
pueden ser importantes coordinadores para los INE de la región de ALC (ver Tabla 3). La
alianza internacional CIVICUS centrándose en Organizaciones de la Sociedad Civil, estableció
su proyecto Datashift para generar y mejorar los datos generados por los ciudadanos y llenar
vacíos de datos existentes.69
65
Pretz 2014.
Pretz 2014.
67
Chen y Nordhaus 2011.
68
United Nations Global Pulse 2012.
69
CIVICUS s.f.
66
30
Cuadro 7: Uso de Google Trends para hacer predicciones en tiempo real sobre la actividad
económica en Colombia
Los indicadores económicos utilizados por el Departamento Administrativo Nacional de
Estadística de Colombia (DANE) para analizar la actividad económica a nivel sectorial tienen un
rezago promedio de tiempo de 10 semanas. Con el fin de obtener más estimaciones en tiempo
real de la actividad económica, el Ministerio de Hacienda de Colombia, está buscando formas de
pronosticar en tiempo real la actividad con base en los datos de búsquedas web de Google.
Los investigadores en el Ministerio de Hacienda analizaron la frecuencia relativa de términos
de búsqueda particulares a través de Google Trends, una herramienta gestionada por Google que
realiza un seguimiento de los términos de búsqueda que prevalecen en el tiempo y proporciona
un índice de qué tan comunes son las consultas en cada parte del mundo para un período de
tiempo dado. Sobre la base de una metodología para la predicción a corto plazo de las series
económicas desarrolladas por Choi y Varian,a los investigadores utilizaron datos de Google Trends
para inferir la actividad económica a nivel sectorial eligiendo algunas palabras clave que actuaran
como indicadores del comportamiento de los consumidores,b proporcionando de este modo
indicadores alternativos a las estadísticas tradicionales de una manera mucho más oportuna. Estos
indicadores se produjeron para ciertos sectores de la economía como la agricultura, la industria,
el comercio, la construcción y el transporte; otros sectores económicos como la minería o los
servicios financieros no se pueden evaluar con este método.c
Los indicadores sectoriales resultantes, conocidos como ISAAC, se validaron con los indicadores
oficiales de la actividad económica del DANE y los dos conjuntos de indicadores se publicaron. Los
datos ISAAC, que hacen referencia al nivel sectorial, se agregan para producir un único indicador
líder de la actividad económica, conocido como ISAAC+. El equipo del proyecto, dirigido por
Luis Fernando Mejía, publica el ISAAC y el ISAAC+ mensualmente.
Una limitación importante de este tipo de medidas basadas en la Web es que corren el riesgo de no
ser representativas en países donde la penetración de Internet es baja, como es el caso de Colombia
(∼ 60 %). Sin embargo, en la medida en que la penetración a Internet siga creciendo, la advertencia
de la no representatividad se convierte en un problema menor.
Por lo tanto, la exploración de Colombia de indicadores económicos más oportunos es
prometedora y ha atraído la atención de otros países interesados en la implementación de sus
propios pronósticos de indicadores económicos basados en Big Data.d
a
Hyunyoung y Varian 2011.
Mejía y col. 2013.
c
The World Bank, World Bank Group y Social Muse 2014.
d
The World Bank, World Bank Group y Social Muse 2014.
b
31
Tabla 3: Descripción general del ecosistema de Big Data en ALC
Actores
País
Descripción del proyecto
Investigación en Big Data
Alberto Cavallo
y equipo en el MIT
Argentina, Brasil,
Chile, Colombia,
Uruguay, Venezuela
Utiliza información de Internet para
generar el índice de Precios y medir la
inflación
Telefónica
Gobierno del Estado de Jalisco
México
Utiliza CDR de clientes mexicanos para
monitorear
el comportamiento en el curso de desastres
naturales
o después del brote de enfermedades
Centro Internacional de
Agricultura Tropical
Colombia
Modelos de productividad agrícola para
la variabilidad climática
Universidad Johns Hopkins
Brasil,
México,
y otros
Análisis de tuits relacionados con la salud
como parte de Google Trends sobre los
brotes de gripa y dengue
Monroy-Hernández et al.
en el MIT
México
Utiliza medios sociales y Twitter para
examinar la guerra contra las drogas
Coscia y Rios en el MIT
México
Utiliza datos de Google para rastrear las
organizaciones de tráfico de drogas en
México
Governments
Gobierno de Guadalajara con el
apoyo de Cisco
México
Análisis de datos de sensores, como parte de
una iniciativa de ciudad inteligente para ser
más eficientes en el uso de la energía, entre
otros objetivos
Ministerio del Trabajo
Colombia
Uso de webscrapping para monitorear
vacantes
Ministerio de Hacienda y
Crédito Público
Colombia
Uso de Google Trends para hacer
predicciones sobre la actividad económica
en Colombia
Oficina de la Presidencia de la
República y la Universidad de
Chicago
México
Detección de mortalidad materna
utilizando los registros de nacimiento y
defunción, registros de alta de pacientes,
datos de hospitales, datos de censos—desde
1990
Instituto Nacional de Vías
Colombia
Utilización de imágenes satelitales para
medir y monitorear los cultivos de coca en
Colombia
(a continuación)
32
(a continuación)
Actores
País
Descripción del proyecto
World Resources Institute
Colombia
Observatorio Mundial de Bosques usando
datos de satélite
ONU Mujeres
Brasil
Datos remotos satelitales sobre la densidad
de la vegetación, la humedad del suelo, la
densidad de población y el patrón espacial
de la infraestructura humana han sido
utilizados para predecir los niveles de riesgo
de malaria
Ministerio de Hacienda y
Crédito Público
Colombia
Uso de Google Trends para hacer
predicciones en tiempo real sobre la
actividad económica en Colombia
Ministerio del Interior en
conjunto con la Oficina de las
Naciones Unidas contra la
Droga y el Delito
Colombia
Utilización de imágenes satelitales para
medir y monitorear los cultivos de coca en
Colombia a través del Sistema Integrado de
Monitoreo de Cultivos Ilícitos
Fundação Getúlio Vargas,
Gobierno de Brasil
Brasil
La FGV trabajó con el gobierno brasileño
para utilizar Big Data en el análisis
económico con el fin de hacer más eficiente
el gasto
Organismos internacionales
Banco Mundial y Telefónica
I+D
Guatemala
Uso de datos de CDR para estimar la
pobreza
Banco Mundial
Nicaragua
Guatemala
Prueba del enfoque de Chen et al. en el uso
de la luminosidad como una proxy de los
niveles socioeconómicos
Banco Mundial, Data-Pop
Alliance
Colombia
Apoyan y exploran posibilidades en el uso
de Big Data para ODS con INE en América
Latina
Global Pulse de las Naciones
Unidas y la Oficina de las
Naciones Unidas contra la
Droga y el Delito
Argentina, Uruguay,
Brasil
Investigan cómo las crisis pueden afectar los
niveles de criminalidad utilizando datos
sobre la delincuencia de alta frecuencia
registrados por la policía
Oficina para la Coordinación de
Asuntos Humanitarios
(UNOCAH)
América Latina
Trabajando activamente en la mejora de su
portal Intercambio de Datos Humanitarios
(HDX)
(a continuación)
33
(a continuación)
Actores
País
Descripción del proyecto
Movimientos de tecnología cívicos
Open Intelligence
México
Open Intelligence ayudó al Ministerio del
Interior de México a entender las tasas de
criminalidad en los barrios basados en
diferentes conjuntos de datos
SocialTIC
México
Apoyar al gobierno en la implementación
de su estrategia de datos abiertos y en la
organización de eventos comunitarios para
hacer uso de los datos del gobierno
Unidos pela Segurança (UPSEG)
desarrollado por Stal IT
Brasil
Un proyecto de crowdsourcing que permite
a los ciudadanos reportar incidentes
criminales y contribuir a la seguridad
pública
Actores privados y start-ups
IBM
Microsoft
Multinational Banks
América Latina
Aplicar el análisis de big data para
identificar lavado de dinero y fraude
Random Monkey (antes
Aentropico)
Colombia
Una compañía de software (start-up) que
analiza big data
Cignifi
Brasil
Una compñía (start-up) que analiza los
patrones de uso de dispositivos móviles para
predecir el estilo de vida de una persona y su
correspondiente perfil de riesgo crediticio
BogoHack
Colombia
Organizan hacks de ciencia y hackatones.
34
Enfoques del sector privado
Adicionalmente, hay otros actores que están trabajando en innovación basada en datos en
América Latina y que podrían convertirse en socios útiles. Como se mencionó anteriormente,
compañías multinacionales, como IBM y Microsoft, realizan grandes inversiones en proyectos
de Big Data en toda la región. Muchas comienzan proyectos piloto como asociaciones
público-privadas (por ejemplo, en el caso de Río de Janeiro IBM proporciona su tecnología
Smart City gratis y utiliza a cambio de los datos y resultados para mejorar y poner a prueba sus
servicios). Durante años, la banca multinacional que opera en la región ha estado utilizando
aplicaciones de Big Data para identificar lavado de dinero y fraude.
Al igual que en otras regiones del mundo, hay un número creciente de empresas nuevas
(start-ups) establecidas bajo ideas de negocio basadas en datos. Muchos profesionales jóvenes
formados en tecnologías de la información (TI) en Estados Unidos regresan a América Latina,
donde encuentran oportunidades únicas para desarrollar modelos de negocio impulsados
localmente. Hoy en día hay 17 empresas de Internet/software en América Latina cuyo valor
combinado es de más de US$250 millones, y muchas de ellas se han desarrollado en los últimos
cuatro años, procedentes principalmente de Brasil y Argentina. De acuerdo con un estudio
realizado por Frost & Sullivan, Brasil, México y Colombia han invertido en analítica de Big
Data lo que ha resultado en ganancias por US$603,7 millones solo en el 2014; la empresa de
análisis de datos Aentropico (ahora Random Monkey) es una de estas empresas pioneras. El
start-up brasileño Cignifi analiza los patrones en los usos de los dispositivos móviles para
predecir el estilo de vida de una persona y su correspondiente perfil de riesgo crediticio. Se
centra en los 100 millones de ciudadanos de clase media que tienen acceso limitado a productos
financieros como préstamos hipotecarios o de otro tipo debido a la falta de historial crediticio
tradicional. En México, el start-up Open Intelligence ha desarrollado una plataforma que
analiza los datos del gobierno y apoya órganos gubernamentales para que utilicen sus propios
datos para la toma de decisiones basada en la evidencia (ver Anexo 7).
Movimiento de tecnología cívica
Muchos países latinoamericanos, como Chile, Argentina, y Brasil, han visto fuertes
movimientos de código abierto (Open Source) y un interés general en el hacking social impulsado
por los enfoques de Gobierno Abierto 70 . Encontramos varias organizaciones civiles en la
intersección de la tecnología civil y los datos que organizan hackatones y hacks de ciencia. En
México, la ONG SocialTIC apoya al gobierno en la implementación de su estrategia de datos
abiertos y organiza eventos con la comunidad para hacer uso de los datos del gobierno. En
Colombia, los hackers de BogoHack organizan hacks de ciencia y hackatones, y GeoCensus se
enfoca en la aplicación de geodatos. Además, proyectos de crowdsourcing de datos a través de la
región apoyan la acción ciudadana; plataformas como CIC por Citivox en México o Unidos pela
Segurança (UPSEG) desarrollado por Stal TI en Brasil, permiten a los ciudadanos reportar
70
Como referencia: investigación en curso de Open Data Research Network: http://www.opendataresearch.
org/content/2014/574/opening-data-montevideo-bottom-experience
35
incidentes criminales y contribuir a la seguridad pública .
Adicional al movimiento de tecnología cívica hay un número creciente de organizaciones de la
sociedad civil e instituciones de investigación que participan activamente en un discurso crítico en
torno a los datos en manos de los gobiernos y las empresas privadas. La mayoría de ellos forman
parte de las redes trans-continentales e internacionales que abogan por los derechos humanos en
la era digital, incluyendo el derecho a la privacidad. Entre esas organizaciones están la Fundación
Karisma en Colombia, la Red en Defensa de los Derechos Digitales en México, Derechos Digitales
en Chile o el Instituto de Tecnologia & Sociedade do Rio en Brasil. Estas serán importantes voces
y defensores de los intereses de los ciudadanos y consumidores en un ecosistema de Big Data
emergente.
Tabla 4: Organizaciones de la sociedad civil trabajando en derechos digitales
Organization
Fundactión Karisma
R3D, Red en Defensa de los Derechos Digitales
Derechos Digitales
Universidad de Palermo, Centro de Estudios en
Libertad de Expresión y Accesso a la Informaci ón
Asociación por los Derechos Civiles
FGV Direito Rio
Colnodo
2.4.
Country
Colombia
Mexico
Chile
Argentina
Argentina
Brazil
Colombia
Intentos internacionales de utilizar Big Data para las estadísticas
oficiales y el desarrollo
La UNECE y, más recientemente, la Oficina de Estadística de las Naciones Unidas han impulsado
discusiones específicas sobre los casos de uso potenciales de Big Data para los INE, así como
discusiones sobre las implicaciones de Big Data en general. En 2010 se estableció un Grupo de Alto
Nivel para la Modernización de la Producción y Servicios Estadísticos para supervisar y coordinar
el trabajo internacional en relación con la modernización estadística basada en estándares71 ; en
2014 la Oficina de Estadística de las Naciones Unidas creó un Grupo Global de Trabajo en Big
Data para las Estadísticas Oficiales, cuyo mandato se basa en consideraciones estratégicas con
vínculos específicos a la Agenda de Desarrollo Post-2015, la iniciativa de Revolución de los Datos
71
El Grupo de Alto Nivel para la Modernización de la Producción y Servicios Estadísticos patrocina una
serie de proyectos de colaboración internacional para comprender mejor cómo aprovechar el poder de “Big
Data” y otras fuentes de datos nuevas, para apoyar la producción de estadísticas oficiales. Este trabajo apoya el
concepto de una “Revolución de Datos para el Desarrollo Sostenible,” y el desarrollo y seguimiento de los nuevos
Objetivos de Desarrollo Sostenible. Estos proyectos están abiertos a todas las organizaciones estadísticas nacionales
e internacionales que quieran contribuir.
36
y los Principios Fundamentales de las Estadísticas Oficiales.72 Éstos dan información valiosa sobre
las posibles áreas donde se podría utilizar Big Data para medir los ODS.
A continuación se muestra una figura usando los datos de la Encuesta de 2015 del Banco Mundial
sobre las iniciativas de Big Data para los ODS que muestra todas las metas de los ODS a los que
organizaciones de todo el mundo están apuntando (de la región de ALC sólo el INEGI y el IBGE
respondieron) 73
Figura 4: Comparación de objetivos de los ODS auto-reportados
Datos de la Encuesta de 2015 del Banco Mundial sobre proyectos de Big Data para los ODS
Los INE alrededor del mundo han comenzado a trabajar con fuentes de big data y a involucrarse
lentamente con el ecosistema más amplio de Big Data. El Instituto de Estadística de Holanda
llevó a cabo varios pilotos, incluyendo análisis de tráfico, CDR y datos de medios sociales para
predecir el bienestar subjetivo (Ecuador pretende hacer algo similar). Italia y Holanda han
utilizado los datos de telefonía móvil para monitorear estadísticas de movilidad. Los INE de
China y el Reino Unido han llevado a cabo proyectos de investigación sobre el uso de Big Data
para la fijación de precios y sobre el análisis de datos de contadores inteligentes para la
72
United Nations Statistical Commission 2014b.
En las respuestas de la encuesta del Banco Mundial sobre focalización de los ODS, el INEGI en México focalizó
el ODS 10.7 (Facilitar la migración y la movilidad ordenadas, seguras, regulares y responsables de las personas,
incluso mediante la aplicación de políticas migratorias planificadas y bien gestionadas) y 17.19 (De aquí a 2030,
aprovechar las iniciativas existentes para elaborar indicadores que permitan medir los progresos en materia de
desarrollo sostenible y complementen el producto interno bruto, y apoyar la creación de capacidad estadística en los
países en desarrollo); el IBGE de Brasil informó la focalización del ODS 1.a (Garantizar una movilización significativa
de recursos procedentes de diversas fuentes, incluso mediante la mejora de la cooperación para el desarrollo, a fin de
proporcionar medios suficientes y previsibles a los países en desarrollo, en particular los países menos adelantados,
para que implementen programas y políticas ncaminados a poner fin a la pobreza en todas sus dimensiones). United
Nations, “Sustainable Development Goals.” https://sustainabledevelopment.un.org/topics
73
37
identificación de las estructuras familiares.74 Otros han utilizado datos móviles para población
diurna, movilidad y estadísticas de turismo, entre otras. Sin embargo, como lo ha establecido el
Instituto de Estadística de Holanda, la comunidad de las estadísticas oficiales apenas ha visto la
punta del iceberg en lo que se refiere a la exploración de Big Data75 y muchos afirman que los
INE tendrán que someterse a cambios de paradigma radicales en la metodología estadística, con
el fin de permitir que Big Data gane terreno en las estadísticas oficiales.76
3.
Retos y requerimientos para los INE que se involucren
con Big Data para los ODS
Como se dijo anteriormente, una serie de retos operativos, tales como el aumento del acceso
a los registros administrativos, ya obstaculizan las actividades estadísticas actuales de los INE de
América Latina; muchos de estos mismos retos también limitan su potencial para involucrarse con
Big Data. Esta sección aborda los retos más importantes que enfrentan los INE para involucrarse
con Big Data y proporciona recomendaciones sobre los enfoques y pasos a seguir que los INE
pueden tomar para abordar estas cuestiones.
A través de la revisión de la literatura, entrevistas, estudios de casos y análisis DOFA (ver Anexo
10), se identificaron cinco grandes desafíos que tienen los INE de América Latina para
involucrarse con Big Data: barreras institucionales para la innovación y la gestión del cambio;
restricciones en el acceso y completitud de los datos; desafíos técnicos; brechas en capacidad
humana; desafíos metodológicos; y riesgos legales y políticos, los cuales también se analizan.
3.1.
Barreras institucionales para la innovación y la gestión del cambio
El uso de Big Data es un proyecto significativo para un INE. Es probable que implique un
cambio de cultura, lo que requiere tanto un incremento en las interacciones con ejemplos y
actores externos, así como una disposición interna hacia la innovación y la transformación. Los
INE de América Latina enfrentan barreras institucionales para la innovación y la gestión del
cambio en gran parte debido a una falta de cultura digital interna y una percepción escéptica
sobre las nuevas fuentes de datos.
La falta de cultura digital interna y habilidades lingüísticas
Ciertamente existen ejemplos alentadores en la disposición de algunos INE para transformarse
hacia la innovación y la apertura. El proceso de innovación del DANE (una parte del DANE
74
Instituto Nacional de Estadística y Geografía (INEGI) de México 2015b.
Daas y Loo 2013.
76
Scannapieco y col. 2013.
75
38
Moderno Cuadro 4) presenta un ejemplo único que proporciona un espacio para la innovación
en la región. Además, los INE se han involucrado de manera más directa con los ciudadanos a
través de las redes sociales y han proporcionando infografías como visualizaciones de sus
últimos informes. Sin embargo, a pesar de estos nuevos esfuerzos, se necesitará tiempo para ver
los resultados de estas iniciativas en términos de un verdadero cambio cultural. En general, los
INE siguen siendo conservadores hacia la innovación y el cambio: los estándares y la calidad
definen las buenas estadísticas, no la innovación y la experimentación. Un obstáculo es también
el hecho de que muchos recursos y discusiones se dan en inglés, elemento que algunos
funcionarios no dominan, como es comprensible.
Esta cultura aprehensiva se refleja en prácticas análogas internas. En muchos INE de la región, al
personal todavía no se le permite acceder a Internet desde sus oficinas, lo que solo se puede explicar
en parte por restricciones de confidencialidad. Si el Internet y las nuevas tecnologías se excluyen
de la vida cotidiana de trabajo, un cambio cultural en los INE hacia nuevas fuentes derivadas de
Internet, sigue siendo significativamente difícil.
Adicionalmente hay un escepticismo general hacia enfoques impulsados por nuevos datos en el
personal de los INE de la región ya que ven a las nuevas tecnologías y a Big Data como posibles
amenazas a sus puestos de trabajo. Con una larga tradición en encuestas de hogares, los INE de
América Latina emplean varios miles de personas y dudan en aceptar nuevas fuentes de datos
con los que no estén familiarizados. A menudo esto se debe también a una falta general de
comprensión y una concepción errada de Big Data, que se confunde con proyectos de TI más
generales, el uso de medios sociales (como en el monitoreo de medios sociales), la construcción
de almacenes de datos y actividades recientes en el campo de los datos abiertos. Este asunto se
debe tener en cuenta y los empleadores en todos los niveles deben informarse acerca de las
realidades e implicaciones de Big Data cuando realicen nuevos proyectos que involucren Big
Data.
Si los procesos digitales se pueden adoptar internamente, es más probable que una organización
y sus empleados reconozcan su valor. Aquí se requiere suficiente apoyo y compromiso de alto
nivel hacia estos desarrollos. Al mismo tiempo, los enfoques prácticos y pilotos de prueba y error
en Big Data, así como el intercambio con colegas de otros INE de la región, podrían estimular
la aceptación, el entendimiento y el interés en los enfoques en Big Data entre los empleados,
ayudando a ilustrar casos de uso. Por ejemplo, en un experimento práctico interno en México, el
personal del INEGI fue capaz de recibir una primera mirada al valor real de las aplicaciones de
Big Data para sus operaciones y, al mismo tiempo, adquirir una comprensión general de cómo
esto podría cambiar positivamente su trabajo en el futuro. Esto será crucial para asegurar también
que los pilotos y proyectos sean impulsados por prioridades locales y embebidos en los debates
regionales, incluyendo los posibles riesgos y desafíos.
Percepción escéptica sobre nuevas fuentes de datos
“Esto siempre ha sucedido en el pasado. Los países en que agencias internacionales han
desarrollado y difundido innovaciones, por ejemplo nuevas herramientas de software, han
39
tenido dificultades para evaluar y valorar su idoneidad”. En general, la aceptación y el
entendimiento de Big Data también requerirá un enfoque práctico que permita a los empleados
participar activamente y jugar con nuevos datos como una fuente de los procesos estadísticos,
ilustrando casos de uso para los empleados.
Recomendaciones
Promover una cultura de trabajo digital
Informar activamente a los funcionarios acerca de la aplicación e implicaciones de Big Data
Permitir a los pilotos y el uso práctico de fuentes de Big Data para poner a prueba posibles
casos de uso
Desarrollar recursos en español y portugués, así como desarrollar habilidades en inglés y
fomentar contenidos e intercambios multilingües
3.2.
Limitaciones para el acceso y la completitud de los datos
El sector privado está profundamente comprometido con toda la cadena de valor de los datos y
una parte de la revolución de los datos depende en gran medida de la inclusión de empresas.77
Sin embargo, sigue existiendo una cooperación limitada en toda la región de ALC entre los INE
y el sector privado, en particular con la industria de las telecomunicaciones. En la actualidad, el
intercambio con el sector privado ha sido determinado principalmente por acuerdos generales
sobre el intercambio de datos en el contexto de las estadísticas tradicionales (es decir, los INE
solicitan datos a una empresa para completar registros). Sin embargo, las asociaciones públicoprivadas y otras formas de colaboración para el intercambio de conocimientos y habilidades son
formas de participación más o menos nuevas para los INE.
El acceso a los datos del sector privado, por tanto, constituye la parte más difícil para proceder
con Big Data en América Latina; esto también se refleja en otras regiones como lo ha
demostrado una encuesta reciente de la UNECE.78 Como se discutió anteriormente, algunas
formas de Big Data, tales como algunos datos de medios sociales (por ejemplo, datos de Twitter)
están parcialmente disponibles y podrían ser una fuente prometedora para monitorear y
mejorar los datos socioeconómicos en la medición de los ODS. Sin embargo, otras formas de
Big Data (por ejemplo los CDR) permanecen estrictamente en servidores de empresas. Mientras
que varios INE de países latinoamericanos han expresado su interés en trabajar con los datos de
CDR, la limitada posibilidad de acceder a fuentes de datos privados ha retrasado estas iniciativas.
Telefónica ha sido el único operador de telefonía móvil que ha utilizado abiertamente sus datos
77
78
Ballivian y Hoffman 2015.
United Nations Economic Commission for Europe (UNECE) 2013.
40
con fines de investigación en América Latina. Teniendo en cuenta el hecho de que América
Móvil (a través de sus filiales) tiene una penetración móvil importante en la región, sería crucial
entender los incentivos potenciales para la colaboración y apertura de los datos de CDR de
América Móvil.
Más aún, incluso los pilotos de investigación en curso a partir de los datos de CDR han sido
ampliamente dirigidos por los operadores móviles en lugar de los INE. En México, Telefónica
ha realizado investigaciones y ha utilizado los datos del INEGI y sin embargo, la institución no
ha estado involucrada en las investigaciones. Un proyecto de investigación actual basado en
datos de Telefónica en Guatemala se estableció como resultado de la capacidad de convocatoria
del Banco Mundial como tercero. En Brasil, el IBGE ha tratado sin éxito de acceder a los datos
de CDR para fines experimentales y ahora ha pedido ayuda a la Agencia Nacional de
Telecomunicaciones (ANATEL). Falta ver si tendrán éxito. El acceso ocasional a los datos puede
ser un primer paso hacia la participación y la experimentación con los mismos, pero dará poco
lugar a la sostenibilidad. Esto también es cierto en el contexto de los datos de medios de sociales
cuando se interrumpe su acceso a través de la API (siglas en inglés para la interfaz de
programación de aplicaciones).
En este momento, simplemente no hay un conjunto coherente e integral de regulaciones o
directrices que rijan el acceso a los CDR u otros datos del sector privado. Se carece de recursos
disponibles abiertamente, fáciles de usar y que cumplan con leyes para el establecimiento de
estas asociaciones, que deben ser entre industrias y entre jurisdicciones.79
En el pasado, se pudieron llevar a cabo investigaciones sobre datos de CDR en otras regiones
ya que se llevaron a cabo ya sea internamente (con Telefónica I+D), enmarcadas en acuerdos
específicos entre instituciones de investigación y el operador (por ejemplo, en Holanda e Italia
los INE tenían acuerdos con Telekom)80 o bajo arreglos especiales como parte de enfoques de
“filantropía de datos”,81 que también implicaron la configuración de un acuerdo formal (el desafío
de datos para el desarrollo de Orange - Orange D4D Challenge)82 .83
Para beneficiarse completamente de Big Data, las empresas privadas, los INE y los gobiernos
necesitan un ‘nuevo acuerdo’ de datos.84 Los ODS ilustran la necesidad de políticas nuevas e
internacionales que cambien el enfoque actual para el acceso y utilización de los datos. El
monitoreo requerirá un acceso estable y sostenible a los datos en una escala global. Es poco
probable que algunos INE o gobiernos individuales puedan imponer tal cambio; por el
contrario, se requerirán acuerdos globales, es decir, acuerdos con el apoyo de la ONU o del
Foro Económico Mundial.
Se espera que este nuevo acuerdo esté fundamentado en un debate público más amplio sobre la
propiedad de los datos. Enfoques como la filantropía de datos, por ejemplo, sugieren con
79
Ballivian y Hoffman 2015.
United Nations Statistical Commission 2014a.
81
Pawelke y Tatevossian 2013.
82
.
83
Orange 2014.
84
Pentland 2009.
80
41
demasiado énfasis que los datos pertenecen a los operadores de telefonía móvil y no a los
emisores individuales de los datos. Varias academias como el MIT u organizaciones de derechos
civiles como la Fundación Open Knowledge cuestionan este enfoque.85 Así que mientras, será
importante para crear asociaciones sólidas con el sector privado, los INE no deben convertirse
en solicitantes de empresas privadas o de sus ideas de proyectos. El interés de una empresa
privada, impulsada por incentivos económicos, rara vez será congruente con el interés de un
INE que tiene una agenda pública. Hasta el momento, este debate sigue siendo débil en América
Latina y con suerte, la región se beneficiará del debate global, en la medida en que
organizaciones de la sociedad civil de América Latina se involucren cada vez más en la discusión.
Recomendaciones
Involucrarse con el sector privado
Evaluar los modelos actuales para el intercambio de datos corporativos
Establecer acuerdos para asociaciones público-privadas
3.3.
Desafíos técnicos
Big Data plantea una serie de desafíos técnicos y obstáculos, particularmente en términos de
control de calidad de los procesos estadísticos. El volumen de los datos requiere una expansión
de las técnicas de procesamiento que coincida con los sistemas de infraestructura de hardware y
almacenamiento de re-ingeniería moderna. Los algoritmos de aprendizaje requieren capacidades
informáticas adecuadas para la variedad de las llamadas de datos que permiten la combinación de
diferentes tipos de datos recogidos en diferentes niveles, a veces con estructura temporal o
geográfica86 Los datos no estructurados (por ejemplo, datos de satélite y datos de medios
sociales) requieren capacidades analíticas específicas con el fin de entrenar manualmente los
algoritmos para que clasifiquen este contenido de forma automática. Los datos estructurados
como los datos de CDR pueden ser más fáciles de procesar, pero a menudo necesitan ser
validados con otras fuentes, tales como los datos de satélite o de servicios a hogares.
Estos desafíos son de hecho similares a los desafíos relacionados con el uso de datos
administrativos. Como era de esperarse, los INE a lo largo de América Latina siguen luchando
con la transición técnica al uso cada vez mayor de datos administrativos compuestos por datos
estructurados y no estructurados, lo que requiere nuevos estándares y formatos. Muchos INE
están actualmente en el proceso de construir almacenes de datos como repositorios centrales de
bases de datos que enfocan e integran encuestas, censos y registros administrativos. Estas
85
86
Pentland 2009.
Kreuter y Peng 2014.
42
actividades continuas ayudarán a mejorar la captura, limpieza, procesamiento, análisis y
visualización de datos mediante el uso de herramientas que permitan controlar de manera
automática el procesamiento, con variables estandarizadas y bases de datos de un mismo tema.
Adicionalmente, el fuerte movimiento de Datos Abiertos en América Latina favorece los
esfuerzos de Big Data, ya que fomenta la estandarización de formatos de datos. La transición
hacia formatos de datos abiertos e intercambiables, tales como los estándares de la OCDE para
micro y metadatos (CVS y SDMX), facilita algunas aplicaciones de big data. La CEPAL, por
ejemplo, ya soporta la armonización de software, tecnologías y herramientas, incluyendo la
armonización metodológica para el intercambio de datos en la región,87 que desde ya facilita el
proceso de medición de los ODS y mejora la calidad de los datos.
Se tendrán que adoptar herramientas y técnicas específicas de TI para acoger Big Data. El
enorme tamaño de los conjuntos de datos requiere el uso de sistemas de archivos distribuidos
para superar las limitaciones físicas. Se requieren por lo tanto plataformas, tales como
HADOOP, para gestionar sistemas de almacenamiento complejos. Estos importantes
componentes de tecnologías de la información se utilizan con frecuencia en el proceso de
recolección, almacenamiento y análisis de Big Data (ver Anexo 9).
Recomendaciones
Utilizar servicios de libre acceso
Compartir herramientas y software entre los INE
Promover y beneficiarse del esfuerzo en Datos Abiertos
3.4.
Brechas de capacidad de capital humano
En las regiones en desarrollo, la falta de estadísticos entrenados todavía plantea un gran desafío
para la mayoría de los INE (el INEGI constituye de nuevo una excepción). En la lucha por
jóvenes estadísticos, los INE de muchos países de América Latina compiten directamente con
organizaciones internacionales como los capítulos de la ONU y no pueden igualar los salarios.
Este problema se hace aún más evidente con el ascenso de Big Data que exige habilidades muy
específicas. Por ejemplo, los científicos de datos y computación, que son capaces de manipular
conjuntos de datos complejos, y los ingenieros de datos, que diseñan la arquitectura de TI para la
recolección y procesamiento de datos, son escasos.
En América Latina, hasta ahora sólo unas pocas universidades ofrecen formación en Ciencia de
87
Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2013.
43
Datos y los INE compiten con start-ups y empresas de Internet en la lucha por expertos en datos.
Sin embargo, en los países más prósperos esto parece estar cambiando y el número de programas
de maestría está aumentando, por ejemplo, en la Universidad de Los Andes en Colombia o en el
Instituto Tecnológico Autónomo de México en Ciudad de México. En Brasil, actualmente hay
un alto número de graduados en el área de la informática.88
Los programas de formación internos podrían ofrecer una solución: algunos INE, como en
Perú, Colombia y México, ofrecen sus propios programas de formación para educar a su
personal y a otros en nuevos métodos. CANDANE, la oficina de entrenamiento del DANE, se
fundó hace algunos años y actualmente entrena alrededor de 1500 estudiantes en estadística
básica, diseño de cuestionarios y el uso de herramientas como Stata y SAS. Esto se realiza
mediante formación presencial y por medio de herramientas de aprendizaje virtuales, las cuales
también se ofrecen a estudiantes de otros países y continentes. Hay algunas ideas iniciales para
ofrecer también cursos sobre análisis de datos en colaboración con universidades como socios.
La promoción de herramientas de e-learning y webinars es considerada como un instrumento
útil. Desafortunadamente, la mayoría de los programas de formación que se ofrecen
actualmente en línea se ofrecen en inglés, lo que produce barreras para el aprendizaje. La
conformación de cursos en español o portugués podría ser una manera fácil, no sólo para
promover el conocimiento de expertos en Big Data, sino también informar a la comunidad más
amplia de los institutos de estadísticas.
Otro enfoque es dar becas al personal para clases específicas de formación, práctica que se ejerce
en el INEGI, por ejemplo. La contratación externa, por ejemplo de empresas de TI e
instituciones universitarias, así como la contratación interna, por ejemplo de pasantes o de
personas por proyecto, han sido enfoques aun más exitosos en México. Sin embargo, a menudo
la burocracia hace que la contratación de alguien a corto plazo o ad hoc sea difícil en muchos
países.
Las universidades e instituciones académicas también constituyen socios pertinentes. Como se
ha mencionado, un número creciente de universidades está entrando en el campo de los
programas de maestría en ciencias de la computación. Sin embargo, hasta hoy, la colaboración
con las universidades se basa por lo general en acuerdos formales para el intercambio de datos y
no para el intercambio estratégico de conocimiento. A pesar de que los INE suelen
proporcionar salas de procesamiento para los investigadores, estos espacios son poco utilizados
debido a la burocracia excesiva o a infraestructura técnica antigua.
No obstante, también sería problemático centrarse en sólo las habilidades técnicas (lo cual está
ocurriendo actualmente en la mayoría de los INE), ya que otras habilidades son igualmente
importantes. Debido a la naturaleza interdisciplinaria de Big Data, su uso eficaz requiere de
equipos multidisciplinares que incluyan:
Experto de dominio. Un usuario, analista o líder con amplia experiencia temas relacionados
con los datos, su uso apropiado y sus limitaciones.
88
Digiampietri y col. 2014.
44
Investigador. Miembro del equipo con experiencia en la aplicación de métodos de
investigación formal, incluyendo metodología de encuestas y estadísticas.
Informático. Miembro técnico del equipo con educación en tecnologías de programación
informática y procesamiento de datos.
Administrador del sistema. Miembro del equipo responsable de definir y mantener una
infraestructura tecnológica que permita la computación a gran escala
En el INEGI, se establecieron asociaciones con universidades hace mucho tiempo y, por tanto,
apoyan las iniciativas actuales para el uso de Big Data. En un piloto actual, el INEGI está
empezando a analizar tuits para entender el bienestar subjetivo en México. Este proyecto se ha
creado con un equipo interdisciplinario de investigadores, que van desde informáticos hasta
lingüistas.
Informar al personal interno será crucial para aumentar la capacidad en Big Data, en particular,
cuando hay un escepticismo general hacia las nuevas tecnologías. Esto incluye explicar la
interrelación y las diferencias con otro enfoque tal como el de Datos Abiertos. Intranets y
revistas internas podrían ser otras herramientas de sensibilización.
Como se ha indicado anteriormente, la brecha entre las zonas rurales y urbanas sigue siendo no
sólo uno de los grandes retos políticos, sino también estadístico en muchos países de América
Latina. Por lo tanto, será crucial involucrar a las entidades locales, por ejemplo a nivel municipal,
en el debate sobre Big Data. Las estructuras municipales todavía son muy débiles, y muchas de
ellas no utilizan datos o recolectan datos cualitativos. Mientras que la revolución de los datos
ofrece oportunidades más amplias para las grandes ciudades y los organismos de control (como
los INE), no queda claro cómo los actores locales pueden realmente influir y beneficiarse de estos
avances.
Recomendaciones
Asociarse con universidades locales
Usar formas alternativas de entrenamiento, como el entrenamiento vía web
Promover la alfabetización de datos entre el personal
3.5.
Desafíos metodológicos
La calidad estadística conforma uno de los principios fundamentales de los INE (ver también el
Principio 3 de los Principios fundamentales de las Estadísticas Oficiales de las Naciones Unidas).
45
Sin embargo, el tejido y la distribución de Big Data exige procesos diferentes que las fuentes
estadísticas tradicionales para cumplir con estos estándares de calidad. Big Data en sí mismo
plantea desafíos en términos de representatividad.
Como 2, Big Data por lo general no se ha diseñado para responder a preguntas específicas de
investigación científica. Más bien se utiliza para fines distintos por los que se recolectó:
inferencia (proceso de muestreo sólido) y medición (abarcando todas las variables relevantes).89
Estas discusiones no son totalmente nuevas para la comunidad estadística, ya que preguntas
similares se han planteado con el uso de datos administrativos. Esto está imponiendo lentamente
un nuevo cambio de paradigma, en el que el número de enfoques basados en diseño
originalmente utilizados para las estadísticas oficiales está disminuyendo. Pero en cuanto a los
registros administrativos, los INE por lo menos pueden abogar o influir en los ministerios y
organismos que generan los datos para que se diseñen los registros consecuentemente. Esto será
difícil para los datos de la web o de medios sociales. Enfoques basados en modelos son difíciles
de aplicar al análisis de Big Data. Los enfoques que proceden por análisis exploratorios, como
los basados en la minería de datos y el aprendizaje automático, podrían aplicarse más
adecuadamente.90
Además, el proceso de análisis de datos introduce riesgos “para la acumulación de ruido,
correlaciones espurias y endogeneidad incidental que puede ser agravada por errores muestrales
y no muestrales. En cuanto a los primeros, los datos se pueden filtrar, muestrear o reducir de
otras maneras para formar conjuntos de datos más manejables o representativos. Estos procesos
pueden implicar otras transformaciones de datos. Los errores incluyen errores de muestreo,
errores de selección (o falta de representatividad) y errores de modelado” Por esa razón, aunque
la recolección sea barata, limpiar y procesar Big Data puede ser muy costoso, lo que requiere un
mayor capital humano para la estructuración, vinculación y gestión de nuevos tipos de datos.91
Hoy en día, la falta de representatividad de Big Data constituye uno de los principales desafíos.
Incluso flujos de Big Data con enormes N no son siempre representativos de las poblaciones
enteras. Las poblaciones cubiertas por fuentes de Big Data no suelen ser las poblaciones objetivo
de las estadísticas oficiales y a menudo, no están definidas de forma explícita. Asimismo, por un
lado, no siempre es factible evaluar las relaciones entre la población cubierta y la población
objetivo, y por otro, estimar el sesgo.92 Esto es particularmente sorprendente en el contexto de
los ODS y especialmente en la medición de la pobreza, dado que los sesgos en los datos podrían
relegar grupos específicos que necesitan beneficiarse de la agenda post-2015, como grupos
indígenas, mujeres, grupos con bajos niveles de ingresos, etc.93
Probablemente, para la región de ALC este sesgo reside en la brecha entre las zonas rurales y
urbanas como se observa por ejemplo en la penetración de la telefonía móvil, y con frecuencia
también refleja los sesgos socioeconómicos entre los diferentes grupos y minorías. Por lo tanto,
89
Kreuter y Peng 2014.
Eurostat 2014.
91
American Association for Public Opinion Research (AAPOR) 2015.
92
Eurostat 2014.
93
boyd y Crawford 2012.
90
46
la probabilidad de que aquellos que no han sido cubiertos de manera suficiente por los datos
tradicionales tampoco se reflejen adecuadamente en big data, es alta o incluso más alta. Por esta
razón, es necesario garantizar que los CDR se puedan usar realmente para monitorear la
población objetivo y si los datos de dichos registros son una buena herramienta para analizar
sólo las zonas urbanas. Lo mismo es cierto para los datos de redes sociales, que se encuentran
ampliamente distribuidos en Brasil, Chile y México, pero no tienen el mismo nivel de
disponibilidad en otros países de América Latina.
Asimismo pueden existir otras razones para los sesgos. En el caso de Colombia, muchas
personas no utilizan sus propios teléfonos para hacer llamadas, sino que utilizan los teléfonos de
los llamados ‘minuteros’: personas en las calles que por lo general venden frutas u otros bienes y
al mismo tiempo ofrecen ‘minutos’ en varios teléfonos. Esto es más barato para aquellos que
necesitan realizar llamadas a diferentes operadores, lo cual todavía suele ser muy caro. Teniendo
en cuenta los datos de CDR que producen los teléfonos de los ‘minuteros’, es fácil imaginar que
tengan una salida interesante, aunque confusa, para los investigadores.
Para los datos tradicionales hay varios marcos para mitigar los errores del proceso de la encuesta.
Para Big Data, la solución más probable será una “combinación de datos de diseño tradicional y
Big Data. Sin embargo, este tipo de soluciones para la vinculación de datos y la integración de la
información están amenazados por las preocupaciones acerca de la privacidad y
confidencialidad”.94
Los investigadores y estadísticos de Europa ya están invirtiendo en técnicas para evitar y detectar
el sesgo en los datos. Se necesitará una gran cantidad de inversiones y trabajo para el desarrollo de
métodos robustos de dicho tipo si se planea utilizar Big Data ampliamente con fines de monitoreo
sobre una base continua. Ciertamente, se necesitarán datos sólidos de terreno para detectar los
sesgos. En general, Big Data puede ser de la misma calidad que los datos que se controlan.95 Sin
lugar a dudas, para detectar los sesgos se requieren datos de terreno sólidos, como los datos de
censos y encuestas, o datos de satélite. Éstos no siempre están disponibles a todos los niveles en
la región de América Latina. La región también podría necesitar enfoques distintos en el ajuste
de las metodologías actuales, específicamente para abordar los problemas de las brechas entre las
zonas rurales y urbanas. Un primer paso podría ser mejorar las estadísticas de TIC en un nivel
más granular. Por ejemplo, mediante el análisis de la distribución de la telefonía móvil en las zonas
rurales con el fin de obtener una mejor comprensión de los posibles sesgos.
En general, al igual que con procesos estadísticos anteriores, se necesitarán estándares y
lineamientos a nivel internacional, tanto para garantizar la calidad de los datos como para
permitir la comparabilidad (ver más arriba). La región de ALC podría desempeñar un papel
activo en el fomento de estos estándares en el ámbito internacional, a través de los diversos
grupos de la ONU, el Banco Mundial y otros organismos internacionales, y poniendo los
94
95
Kreuter y Peng 2014.
Smith, Mashhadi y Capra 2013.
47
desafíos específicos de la región en la agenda (sesgo entre las zonas rurales y urbanas).
Recomendaciones
Continuar con más inversiones en investigación en Big Data
Asesorar las conversaciones actuales en curso sobre Big Data y medición
Iniciar el desarrollo de nuevos estándares y lineamientos en la región
Mejorar y enriquecer las estadísticas locales de TIC para tomar conciencia de los sesgos
3.6.
Riesgos éticos, de privacidad y políticos
Mientras que los INE naturalmente tienen más experiencia en el tratamiento de datos
confidenciales que muchas otras instituciones, los posibles riesgos para la privacidad y
protección de datos son mucho mayores en el contexto de Big Data o los datos digitales en
general. Los desafíos relacionados con Big Data van desde la falta de propiedad de los datos,
limitación del propósito (para la definición de las estadísticas oficiales) y los límites de la
anonimización de datos en el contexto de procesamiento digital de conjuntos de datos.
Dado que los INE no generan los datos y en la mayoría de los casos ni siquiera se generan con
propósitos estadísticos, hay una falta de marcos legales claros. La mayoría de los consumidores
de servicios digitales (tales como las aplicaciones para teléfonos inteligentes) y por lo tanto, los
emisores de Big Data, tienen poca o ninguna idea de que sus datos pueden ser reutilizados para
otros fines, tales como los productos estadísticos.96
En la era digital, la anonimización de los conjuntos de datos digitales es limitada. Contrario a lo
que se ha pensado durante mucho tiempo y que es la herramienta más utilizada en los procesos
estadísticos, la eliminación de la información de identificación personal (IIP) no sería entonces
suficiente para proteger contra la re-identificación.97 Cruzar ciertos conjuntos de datos con
datos similares permite fácilmente la re-identificación de individuos y solo se requieren unos
pocos puntos de datos (por ejemplo la posición, la fecha y la hora) para volver a identificar a un
individuo en el conjunto de datos.98 En particular, los datos de ubicación, que podrían ser de
gran valor para los productos estadísticos, tales como las estadísticas de turismo o migración
plantean enormes riesgos para la anonimización. Aunque se han hecho intentos técnicos y
metodológicos para resolver el problema en un nivel técnico, por ejemplo haciendo ruido en los
96
American Association for Public Opinion Research (AAPOR) 2015.
Montjoye y col. 2013.
98
Eurostat 2014.
97
48
datos para hacer la re-identificación más difícil, muchos técnicos académicos sostienen que la
reidentificación minuciosa no puede ser garantizada.99
En general, los datos agregados, como el tráfico de antena a antena (como lo ha hecho Smith et al.
en su investigación sobre la estimación de la pobreza en Senegal), no interfieren con la privacidad.
Pero como los investigadores de Eurostat lo señalan, la agregación de los datos iniciales antes de
que sean procesados, limita seriamente las opciones disponibles en relación con la metodología y
el potencial de los datos para las estadísticas
Entre los INE de América Latina hay poca conciencia sobre los límites de los métodos
tradicionales para la anonimización de datos en el contexto de la era digital. Dado que Big Data
no se produce internamente en los INE, sino que demanda nuevas asociaciones con el sector
privado, cambian las bases legales para el uso de datos personales. El concepto de Habeas Data
conforma la base tanto para la protección de datos y privacidad, como para de la libertad de
información o el derecho a la información. El derecho de Habeas Data “[nosotros disponemos]
de los datos,” se desarrolla sobre el principio alemán del “derecho a la autodeterminación
informativa” y el Convenio 108 de 1981 del Consejo de Europa sobre la protección de datos, y
protege la información personal de un individuo al permitir que esa persona solicite la
rectificación, actualización o incluso destrucción de los datos personales recogidos en una base
de datos (automatizada), e implica que debe haber transparencia en la recolección y tratamiento
de dichos datos. En general, existen otras leyes que también afectan el uso y control de los
conjuntos de datos. En Colombia, por ejemplo, está la ley de datos personales (Ley 1581 de
2012).100 Con base en esta ley, los datos personales pueden clasificarse como datos privados o
semiprivados (en virtud de Habeas Data o de la Ley 1266 de 2008)101 y sensibles o no sensibles
(bajo la Ley 1581 de 2012).102 Sin embargo, la definición se extiende no sólo a los datos
considerados como datos personales o información sensible, pero también a otros datos, a pesar
de que no encajen estrictamente en esas categorías, pero que también merecen ser conservados,
controlados y, de manera estricta, igualmente dignos de preservación, control y divulgación.103
Sin embargo, la aplicación de la ley en América Latina sigue siendo muy limitada.
Adicionalmente, incluso donde la aplicación de la ley es fuerte, los marcos de privacidad
actuales (alrededor del mundo) enfrentan muy pobremente los desafíos de privacidad ilustrados
y causados por Big Data. Dado que los datos generalmente se recogen de forma pasiva, la
definición de otras herramientas de política que se basen en el consentimiento y el propósito
informados, sigue siendo problemática debido a que probablemente el uso potencial de los datos
no se haya definido en el momento en que se recolectan los datos. Esto será aún más difícil
cuando los sujetos vivan en la pobreza o sean altamente vulnerables y donde los marcos legales
no puedan ser afianzados en absoluto. Por esta razón será esencial, por un lado, desarrollar los
marcos legales necesarios para el uso de nuevas fuentes de datos de una manera apropiada y
orientada al valor, y por otro, recordar a los INE sus estándares éticos y de responsabilidad hacia
99
Ohm 2010.
Congreso de la República de Colombia 2012.
101
Congreso de la República de Colombia 2008.
102
Newman Pont 2015.
103
Urioste Braga 2009.
100
49
el bien público.
Después de todo, también en un contexto de Big Data, los Principios Fundamentales de las
Estadísticas Oficiales siguen proporcionando directrices éticas para actividades de los INE. Esto,
por ejemplo, también aplicaría a las preguntas alrededor de la minimización de los sesgos en los
datos y la responsabilidad los INE de informar al público acerca de esos impedimentos.
Como se mencionó anteriormente, en muchos países los INE son percibidos como actores de
confianza en el manejo y control de los datos, lo que podría respaldar su posible función como
partes terceras relevantes en el ecosistema de Big Data. Evidentemente será esencial garantizar la
confidencialidad para proteger la confianza, no sólo para nuevas actividades sino también para
el trabajo en curso, como las encuestas. Regidos por legislaciones que sitúan la protección de
los datos en el centro del proceso estadístico, los INE serían buenos candidatos para mover la
discusión de Big Data hacia las buenas prácticas para el bienestar de la sociedad.
Sin embargo, como se ha indicado anteriormente, la calidad de los marcos legales de los INE a
través de la región de ALC varían. Muchos INE todavía no siguen las buenas prácticas
recomendadas por la ONU (incluyendo la independencia); esto perjudica su papel potencial en
el ecosistema de Big Data como terceros de confianza, ya que podría ser más difícil convencer a
las sociedades que pueden cumplir esta función. En tiempos de continua vigilancia masiva,
también será importante ilustrar que los INE no son nuevas herramientas gubernamentales para
la vigilancia efectiva. Varios eventos en América Latina han provocado desconfianza entre
ciudadanos y activistas de la sociedad civil. Durante las protestas en contra de la Copa del
Mundo en 2014, la policía y los servicios de inteligencia de Brasil vigilaron a los manifestantes.
En México, la última modificación a la Ley de Telecomunicaciones incluye políticas explícitas
con respecto a los datos de localización geográfica de los teléfonos celulares, sin necesidad de una
orden judicial.104 En Colombia, diferentes actores han sido vigilados durante las negociaciones
de paz.105
Los INE de la región deben ser conscientes de este problema y promover un enfoque de Big
Data basado en valores. Los impactos de Big Data y los límites de la anonimización también
deben integrarse en los códigos de ética y buenas prácticas de los INE. Además tienen que
informar activamente al público sobre los riesgos y beneficios de Big Data. La participación de
grupos de la sociedad civil, derechos humanos, periodistas y activistas de la privacidad será
esencial para el desarrollo de marcos legales válidos. “Hay una necesidad de pensar más a fondo
y debatir sobre los riesgos compartidos, los incentivos y los impactos para el establecimiento de
acuerdos de intercambio de datos entre múltiples actores”.106 La transparencia sobre las
actividades y asociaciones de Big Data sin duda será clave para promover la confianza. Los INE
podrían incluso convertirse en actores clave en el suministro de datos al público y la promoción
de la transparencia sobre otras actividades de Big Data realizadas por organismos
gubernamentales, como sugiere un estudio reciente sobre los riesgos del uso de Big Data en el
104
Ruiz 2014.
Barbosa 2014.
106
Ballivian y Hoffman 2015.
105
50
mercado laboral en Chile por Derechos Digitales.107
A pesar de los incidentes mencionados anteriormente, algunos países de América Latina han sido
de hecho, pioneros en enfoques de múltiples actores. Brasil, por ejemplo, ha estado a la vanguardia
de la promoción de enfoques basados en los derechos humanos para Internet y la protección
de la libertad en línea, en particular demandando una nueva declaración internacional sobre el
derecho a la privacidad en la era digital. El Marco Civil da Internet de Brasil ha sido reconocido a
nivel mundial como ejemplo de un proceso de buenas prácticas para compromisos de múltiples
actores, incluyendo la participación del sector privado.
Desarrollar herramientas para evaluar la privacidad
Desarrollar marcos éticos alrededor de Big Data
Considerar enfoques de múltiples actores
Normas y leyes sobre el uso de datos
Transparencia sobre los proyectos y asociaciones de datos, especialmente con el sector
privado
4.
Hacia una hoja de ruta regional de múltiples actores para
aprovechar Big Data para las estadísticas oficiales y los
ODS
4.1.
Cinco tendencias regionales que promueven el uso de Big Data en
América Latina
Los INE siguen siendo un actor fundamental en la evolución continua de las estadísticas
oficiales y en el logro de los ODS durante la revolución de los datos, tanto dentro de las
actividades encomendadas, como en la formación y desarrollo del ecosistema regional de actores
que utilizan fuentes de datos tradicionales y nuevas. Para cumplir con este rol, los INE tienen
que participar activamente en el ecosistema de Big Data para garantizar que el camino por
definir de Big Data conduzca hacia el progreso social. La medición de los ODS será una tarea
importante para los próximos quince años y sin duda hay evidencia de que Big Data podría
ayudar a los INE a cumplir con esta responsabilidad. Adicionalmente, los ODS servirán, por
primera vez, como indicadores globales que involucran a todos los países. “El mundo que
107
Velasco y Viollier 2016.
51
queremos,” es el subtítulo del primer informe del Grupo de Desarrollo de las Naciones Unidas
(UNDG por sus siglas en inglés) sobre los Objetivos de Desarrollo del Milenio, y va más allá de
mejores números y mediciones. Por esa razón, sería un gran error creer que Big Data se trata
solamente de nuevas fuentes de datos: tiene y tendrá implicaciones más amplias para la
estructura de las sociedades. Para evitar una segunda brecha digital, las regiones en desarrollo
necesitan aportar a esta discusión y los INE son los actores más oportunos y algunos de los
actores más capaces de coordinar este proceso.
Como se describe en la sección anterior, persisten retos y barreras importantes para que los INE
puedan aprovechar Big Data:
1. Barreras institucionales para la innovación y la gestión del cambio, incluyendo una falta de
cultura digital interna, percepción institucional escéptica sobre las nuevas fuentes de datos
y falta de coordinación entre partes interesadas;
2. Limitaciones para el acceso y la completitud de los datos, en particular en el acceso y uso
continuo de datos del sector privado, la falta de asociaciones público-privadas y derechos
de propiedad limitados que involucren a personas y sus relaciones con los datos;
3. Desafíos técnicos, incluyendo infraestructura para la captura, limpieza, procesamiento,
análisis y visualización de datos estructurados y no estructurados, así como la adopción de
técnicas y herramientas informáticas específicas;
4. Brechas de capacidad de capital humano, incluyendo el hallazgo de talento, la alfabetización
de datos, pocos programas de formación en ciencia de datos y la participación limitada de
universidades y otras instituciones académicas;
5. Desafíos metodológicos, incluyendo los problemas de representatividad de los datos, los
sesgos y la falta de estándares y lineamientos;
6. Riesgos éticos y políticos, incluyendo riesgos para la privacidad y marcos legales débiles.
A pesar de estos desafíos, se presentan las siguientes grandes tendencias regionales que, adicional
a los ODS, facilitan aún más el uso y la experimentación con Big Data a través del ecosistema de
datos de América Latina:
La experiencia de América Latina en el movimiento de Datos Abiertos
Los movimientos de la Alianza para el Gobierno Abierto y los Datos Abiertos han generado un
importante capital político en América Latina en torno a los datos para el bien público,
particularmente en Perú, México, Colombia y Brasil. La región tiene la mayor proporción de
países participantes (quince países miembros) en relación con otras regiones de la Alianza para el
Gobierno Abierto (AGA), una alianza global para promover el Gobierno Abierto. La mayoría
de estos países miembros han puesto en marcha planes de acción nacionales sobre participación
52
ciudadana, transparencia y rendición de cuentas del gobierno. Los defensores de los
movimientos de Datos Abiertos y la transparencia (periodistas, académicos, infomediarios y
comunidades de hackers cívicos) han impulsado la transformación de los datos gubernamentales
existentes en formatos legibles por máquinas y accesibles para la investigación, el análisis y la
promoción. Por ejemplo, la legislación de datos abiertos de México tiene leyes oficiales de Datos
Abiertos que han encaminado desarrollos valiosos tales como la transición hacia estándares de
datos abiertos e intercambiables (SDMX); esta transición favorece tanto las actividades de Big
Data, como la medición eficiente de los ODS. El análisis de la CEPAL del ecosistema datos de
América Latina apunta a las sinergias creadas por los movimientos de Datos Abiertos y Big
Data.108
La presencia de asociaciones público-privadas en Big Data
Como se señaló anteriormente, la presencia de asociaciones público-privadas en Big Data es un
desarrollo relativamente reciente en América Latina. Empresas del sector privado que se asocian
en algún nivel con entidades de sectores no privados, para llevar a cabo actividades relacionadas
con datos incluyen a Telefónica, IBM, Microsoft, la banca multinacional, Aentropico (ahora
Random Monkey), Cignifi y Open Intelligence. Si bien la cooperación limitada a través de la
región a menudo inhibe asociaciones formales entre los INE y el sector privado, en algunas
industrias las entidades públicas han sido capaces de acceder a datos que las empresas del sector
privado han compartido a través de premios y desafíos, APIs y productos de inteligencia. Por
ejemplo, los datos de Twitter geolocalizados para el trabajo del INEGI sobre el bienestar
subjetivo se derivan (en colaboración con instituciones académicas) a través de la API pública de
Twitter. Del mismo modo, el DANE y los investigadores del Ministerio de Hacienda utilizaron
los datos de uno de los productos de inteligencia de Google (Google Trends) para inferir la
actividad económica en varios sectores. Si bien estas formas de intercambio de datos representan
formas de asociación limitadas (en relación con asociaciones público-privadas más formales),
también representan un fenómeno emergente de corporaciones que comparten datos a través de
diferentes matices y modelos de apertura.
La presencia de comités, instituciones y grupos de trabajo fuertes en toda la región
Las estructuras existentes dentro de la región de ALC permiten que los INE fomenten Big Data
como fuente para el progreso de los ODS. Por ejemplo, la CEPAL apoya la armonización de
software, tecnologías y herramientas, incluyendo la armonización metodológica para el
intercambio de datos entre la región,109 que desde ya suaviza el proceso de medición de los ODS
y mejora la calidad de los datos. La Conferencia Estadística de las Américas de la CEPAL
(CEA-CEPAL) promueve el desarrollo y la interoperabilidad de las estadísticas nacionales de la
región para el análisis comparativo internacional, así como la cooperación entre los INE en los
108
109
Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2014.
Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2013.
53
planos bilateral, regional e internacional.110 La CEPAL articula grupos de trabajo regionales
para los INE y otros actores estadísticos, especialmente sobre asuntos temáticos
interrelacionados, como las estadísticas de género, la migración y el comportamiento de las
remesas, el progreso de los ODM y las estadísticas ambientales.111
El desarrollo de mejores prácticas adaptables
La mayoría de los países de la región enfrentan desafíos similares y al mismo tiempo podrían
beneficiarse de las buenas prácticas de la región. En este momento, los INE de Colombia, México,
Ecuador y Brasil están lidiando con los mismos problemas y quieren poner en marcha pilotos
similares; algunos de ellos ya construyeron el software y las herramientas necesarias, mientras
que otros han investigado en la metodología. A la fecha, el INEGI de México ha sido sede de
quince reuniones internacionales sobre las mejores prácticas para las estadísticas de género en toda
la región, tanto en la “producción y en el uso de los datos para la preparación, implementación,
monitoreo y evaluación de las políticas públicas, así como para el análisis académico de los datos
desde una perspectiva de género”.112 En el año 2006, a través de esfuerzos compartidos por el
IBGE de Brasil y la Unidad de Estadísticas Sociales de la CEPAL, los miembros del Grupo de Río
sobre estadísticas de pobreza publicaron un compendio de las mejores prácticas en la medición
de la pobreza. El compendio ofrece un “menú de enfoques y metodologías para la medición de la
pobreza”.113
Red interdisciplinaria regional de innovación que involucra los INE y otros actores
Los enfoques de múltiples actores serán claves tanto para fortalecer los INE, como para
identificar las prioridades regionales y para garantizar la confianza y legitimidad ante los
ciudadanos y asociados a través de Big Data. Se ha dado inicio a la coordinación temprana de los
actores que trabajan con Big Data a través de América Latina como parte del Data Space de
América Latina de Data-Pop Alliance. Dicho Data Space representa un colectivo de actores y
actividades en el ecosistema de datos y desarrollo de América Latina que trabaja en
investigación, capacitación y actividades de promoción relacionados con Big Data y los ODS. El
Data Space actúa como plataforma de conexión y resonancia para que sus miembros catalicen y
coordinen esfuerzos para maximizar su potencial en torno a objetivos comunes. El CEPEI
también está trabajando en esfuerzos de coordinación regionales en Big Data a través de su
Esfuerzo Colaborativo sobre el Ecosistema Nacional de Datos, que apoya la toma de decisiones
basada en datos entre actores públicos y privados. Para lograr esto, promueve el intercambio de
información entre periodistas, científicos de datos, académicos, los responsables de formular
políticas y la comunidad internacional sobre la implementación, logros y limitaciones de la
agenda de desarrollo post-2015.
110
Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2010.
Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2010.
112
Instituto Nacional de Estadística y Geografía (INEGI) de México 2015a.
113
Expert Group on Poverty Statistics 2006.
111
54
Estas cinco tendencias presentan oportunidades para los INE y otros actores que trabajan en el
ecosistema de Big Data, para construir sobre los marcos y los movimientos existentes en la región.
4.2.
Hacia una hoja de ruta regional de múltiples actores para Big Data:
construyendo sobre las fortalezas y oportunidades regionales
Las siguientes recomendaciones forman la base de una hoja de ruta regional y de múltiples actores
para Big Data en América Latina, y describen cómo los INE y otros actores regionales en el
ecosistema de datos de América Latina pueden aprovechar fortalezas y oportunidades regionales
existentes para aprovechar Big Data para las estadísticas oficiales y los ODS:
1. Crear estructuras para fomentar el desarrollo y coordinación de proyectos nuevos y
existentes en Big Data;
2. Movilizar la conciencia y voluntad políticas para garantizar la creación de políticas sobre
Big Data; y
3. Desarrollar mecanismos y herramientas para el uso de Big Data a través de la
retroalimentación y el aprendizaje.
La Figura 5 a continuación detalla recomendaciones derivadas de cada una de las tendencias
regionales en curso: el movimiento de Datos Abiertos, las asociaciones público-privadas, los
grupos de trabajo regionales, las buenas prácticas emergentes para las estadísticas y una red
emergente sobre Big Data y el desarrollo en las regiones de ALC.
Crear estructuras para fomentar el desarrollo y coordinación de proyectos nuevos y
existentes en Big Data
Como se señaló anteriormente, la creación de asociaciones público privadas como nuevas
formas de colaboración en América Latina permite el intercambio de conocimientos y
habilidades entre los INE que se están involucrando con Big Data y organizaciones de los
sectores privado y público, que proveen sus capacidades técnicas y de computación. Sin
embargo, trabajar en este tipo de asociaciones donde los datos no son propiedad de los INE,
requiere niveles adicionales de mediación y negociación. Por ejemplo, mientras que los INE
claramente se benefician de estos intercambios, el valor para las empresas del sector privado
refleja en gran medida sus propios incentivos económicos, lo que puede conducir a una
necesidad de hacer mayores concesiones que en última instancia puede mitigar los beneficios
para los INE participantes. Además, debido a las preocupaciones de privacidad y seguridad, las
reglas de control de datos que rodean el uso de los mismos pueden ser limitantes y costosas; por
ejemplo, la investigación de Telefónica por lo general se lleva a cabo por contrato en la sede de
Barcelona debido a preocupaciones de privacidad y confidencialidad; esto dificulta el acceso de
los INE a los datos.
55
Figura 5: Hoja de ruta de recomendaciones para incorporar Big Data en proyectos de los
INE en América Latina
56
A medida que estas nuevas formas de asociación fomentan nuevos pilotos de Big Data, la falta de
estructuras y mandatos coordinados entre instituciones se ha traducido en una serie de
instituciones evaluando o llevando a cabo pilotos por separado. Estos marcos legales débiles
plantean un obstáculo importante para que muchos INE de la región se vinculen eficazmente
con Big Data. En Colombia, por ejemplo, el Ministerio de TIC (MINTIC), el Departamento
Nacional de Planeación (DNP) y el DANE están actualmente analizando de manera simultánea
los posibles casos de Big Data, con MINTIC a cargo de la estrategia nacional de Datos Abiertos
y el DNP a cargo de la estrategia nacional de Big Data. Sin embargo, estos esfuerzos simultáneos
no están coordinados. Esto resulta particularmente problemático en los acercamientos a socios
del sector privado y en la negociación de acuerdos. El caso de los datos de los CDR ilustra bien
los límites de las solicitudes ad hoc y la necesidad de procesos mejor alineados, asociaciones
público privadas y acuerdos más amplios.
Lo que se requiere es a la vez un ambiente con políticas habilitadoras y de práctica y
coordinación que promueva un mayor liderazgo de los INE dentro de las asociaciones y que
incentive la coordinación entre las partes interesadas en todo el ecosistema de Big Data de
América Latina. Para el proceso de los ODS, así como para cualquier enfoque relacionado con
Big Data, será esencial para los INE de la región establecer esfuerzos coordinados para las
asociaciones con actores locales relevantes. Además de los Data Spaces de Data-Pop Alliance,
varios otros actores han sido de gran influencia para cultivar el ecosistema de Big Data en
América Latina: el trabajo en curso de la CEPAL en la región que conecta organizaciones de
diferentes sectores, el trabajo de investigación de la Fundación Telefónica sobre las
transformaciones en las telecomunicaciones y los servicios basados en Internet (en colaboración
con la CAF y la CEPAL) y los esfuerzos de coordinación continuos del CEPEI. Estos esfuerzos
continúan fomentando la coordinación entre los actores académicos, del sector privado y del
sector público en toda América Latina.
Recomendaciones adicionales hacia la creación de estructuras para fomentar proyectos nuevos y
existentes en Big Data:
1. Construir sobre vías correspondientes de compromiso cívico emergentes del movimiento
de Datos Abiertos (incluyendo herramientas de visualizaciín, API, etc.) para Big Data;
2. Desarrollar enfoques innovadores para la formación de asociaciones con entidades del sector
público y privado;
3. Orientar fondos hacia el desarrollo de proyectos de Big Data a través de comités y grupos
de trabajo regionales;
4. Desplegar nuevas ideas y proyectos/enfoques adecuados para cada INE;
5. Coordinar el involucramiento y la asociación de múltiples actores en todo el ecosistema
de Big Data, mediante el fomento de los ecosistemas de datos regionales en torno a actores
y actividades clave para vincular los grupos de base y start-ups con grandes corporaciones,
universidades y la sociedad civil.
57
Movilizar la conciencia y voluntad políticas para garantizar la creación de políticas sobre
Big Data
Como se señaló anteriormente, la experiencia de América Latina con los movimientos de
Gobierno Abierto y Datos Abiertos ha despertado una fuerte voluntad política en todos los
gobiernos de la región. El movimiento de Datos Abiertos ha fomentado la exploración y la
coordinación de actores diferentes a los INE alrededor de actividades públicas de datos; aunque
el impacto de los datos abiertos en toda la región ha sido limitado, la voluntad y el apoyo
político sigue aumentando. Además, la existencia de grupos de trabajo regionales e instituciones
como la CEPAL destacan y proporcionan intereses internacionales al desarrollo de la región, así
como al acceso a recursos financieros.
Sin embargo, las lecciones aprendidas de la historia de estos movimientos incluyen la necesidad
de desarrollar marcos y evaluaciones de impacto en fases tempranas. Gran parte de las recientes
críticas al movimiento de Datos Abiertos han estado relacionadas con el impacto limitado (y, a
menudo, el interés cívico limitado) de las costosas iniciativas gubernamentales en datos abiertos,
promovidas por el clamor mundial por los datos abiertos. El enfoque de “primero la política”
descuidó consideraciones prácticas necesarias para llevar a cabo los proyectos de una manera
concreta y evaluar su impacto.
Los actores regionales que trabajan en Big Data deben buscar sinergias y considerar las lecciones
de estos movimientos de datos paralelos con el fin de movilizar y conducir la voluntad y los
recursos políticos hacia la creación y el desarrollo de estrategias nacionales de Big Data. Esto
incluye el involucramiento de expertos académicos y técnicos que trabajan en coordinación con
defensores y hackers cívicos para el desarrollo de conocimientos y marcos compartidos. Para
garantizar un desarrollo centrado en el hombre y responsable, también es necesario que haya
un diólogo constante con los grupos de presión, como los defensores de derechos humanos y
periodistas. Los INE deben, por tanto, comunicarse de forma transparente y abierta acerca de las
actividades y asociaciones de Big Data. Esto también incluye la evaluación de las capacidades de
individuos y grupos para involucrarse de manera constructiva con la sociedad a través y alrededor
de los datos (por ejemplo, la alfabetización de datos). Impulsar la alfabetización puede permitir
una mayor participación ciudadana y la exigencia a sus gobiernos del fomento un ambiente con
políticas habilitadoras para Big Data y los Datos Abiertos.
Recomendaciones adicionales hacia movilización de la conciencia y voluntad políticas para
garantizar la creación de políticas sobre Big Data:
1. Promover e incentivar el involucramiento del sector privado, a través de la organización de
desafíos de datos y la promoción de apoyo financiero y en especie a empresarios y start-ups
locales;
2. Orientar la coordinación y la estrategia a través de instituciones y grupos de trabajo de
coordinación regionales para la adopción de políticas de Big Data;
3. Capitalizar las sinergias creadas por la Asociación Mundial para los Datos de Desarrollo
58
Sostenible;
4. Incentivar los INE para que realicen autoevaluaciones a través del análisis comparativo de
la recolección y producción de datos estadísticos;
5. Estimular todo el espectro de participación de los INE en el ecosistema de Big Data.
Desarrollar mecanismos y herramientas para el uso de Big Data a través de la
retroalimentación y el aprendizaje
La proliferación de proyectos, pilotos y actores de Big Data, ha generado un interés creciente en
el potencial de resolver problemas mundiales; sin embargo, los marcos y modelos globales para
hacer frente a las caídas de Big Data han sido esquivos. Por ejemplo, cuando se consideran las
preocupaciones éticas y de privacidad relacionadas con la identificación de información de
identificación personal (IIP), existen importantes brechas en la comprensión de la naturaleza del
uso responsable de datos y del desarrollo de marcos legales correspondientes. Además, como
muchos gobiernos y otros actores consideran el uso de metodologías algorítmicas para la
formulación de políticas basadas en datos, el intercambio de conocimiento sobre la manera de
abordar las implicaciones de estas metodologías también sigue sin explorarse en gran medida.
Lo que se necesita son mecanismos y herramientas para utilizar Big Data con el fin de buscar un
mayor intercambio de conocimientos y la coordinación entre actores. Esto es particularmente
cierto para los INE en regiones en desarrollo como América Latina donde los recursos limitados
dejan menos espacio para la experimentación. Los INE por mandato recolectan, coordinan y
difunden datos para las agencias gubernamentales y otros actores de la sociedad. Sin embargo,
la proliferación de nuevas fuentes de datos a través de Big Data ha hecho la tarea de difusión
cada vez más compleja debido a la falta de formatos y estándares, el volumen absoluto de datos
y la naturaleza del proceso de recolección de datos. Antes, los INE supervisaban el proceso de
recolección de datos; ahora están recogiendo las migajas de las fuentes de datos y la recolección
de datos se produce aguas arriba.
A medida que los INE experimentan con Big Data, las lecciones aprendidas en la facilitación de la
tarea de difusión, serán valiosas para el desarrollo de mejores prácticas entre los INE y disminuirán
las barreras de entrada para que otros INE conviertan e interactúen con nuevas fuentes de datos.
Como se dijo anteriormente, en cuanto a la creación de marcos para la protección de datos,
muchos países de América Latina tienen leyes omnibus de protección de datos similares a las
leyes de protección de datos de la UE, donde los ciudadanos son capaces de controlar el uso de
los datos personales que estén en poder de entidades públicas o privadas.
Recomendaciones adicionales hacia el desarrollo mecanismos y herramientas para el uso de Big
Data:
1. Adaptar los marcos y estándares de datos existentes del movimiento de Datos Abiertos para
Big Data;
59
2. Desarrollar marcos y procedimientos para datos éticos e intercambio de IP, en lo posible
con un comité de ética en cada INE;
3. Diseñar indicadores basados en big data para monitorear el progreso de proyectos regionales
y globales;
4. Diseñar y compartir listas de chequeo de buenas prácticas en los INE;
5. Desarrollar y mantener plataformas para el intercambio de datos entre partes interesadas.
Mientras que los INE de América Latina seguirán desempeñando un papel fundamental en la
evolución de las estadísticas oficiales y el logro de los ODS en la región, este informe ha puesto
sobre la mesa que, de hecho, no están solos en estos esfuerzos y que deben coordinar y trabajar
con otros actores (agencias gubernamentales, organizaciones internacionales, la sociedad civil,
universidades, etc.) con el fin de aprovechar al máximo el potencial de Big Data para las
estadísticas oficiales y los ODS. Para los INE en la región de ALC, será igual de importante
tanto ser consciente de como involucrarse con un ecosistema más amplio, de igual manera
cuando se trata con el proceso de los ODS.
60
Glosario
Términos
Big Data = ecosistema creado por la aparición concomitante de las 3C de Big Data. 1.
Migajas digitales (crumbs en inglés), o pedazos de datos emitidos y recolectados de forma
pasiva por dispositivos digitales que constituyen grandes conjuntos y flujos de datos que
proporcionan una visión única sobre sus comportamientos y creencias; 2. las Capacidades
de Big Data – lo que también se conoce como Big Data Analytics – es decir, el conjunto
de herramientas y métodos, hardware y software, know-how y habilidades necesarios para
procesar y analizar este nuevo tipo de datos); 3. las Comunidades de Big Data que describen
los diferentes actores involucrados en el ecosistema de Big Data, desde los generadores de
datos hasta sus analistas y usuarios finales; es decir, potencialmente toda la población.
big data = se refiere a la primera C de Big Data; flujos y conjuntos resultantes de las
huellas digitales que dejan los seres humanos al usar teléfonos celulares (registros de
llamadas), tarjetas de crédito (transacciones), el transporte (registros de metro o autobús y
de EZ Pass), medios sociales y motores de búsqueda, o cuando sus acciones son registradas
por sensores, ya sean físicos (contadores eléctricos, sensores de pesaje en un camión) o
remotos (satélites, cámaras).
crowdsourcing = práctica que por lo general se lleva a cabo en plataformas digitales (SMS,
Internet, etc.), a través de la cual se recluta a un gran número de personas para contribuir a
una tarea o esfuerzo particulares.
datos sub-producto = datos que los teléfonos móviles, sensores, redes sociales y otras
plataformas emiten de forma pasiva y que son traducciones digitales de las acciones e
interacciones humanas.
thick data (datos gruesos) = datos cualitativos que proporcionan información sobre los
aspectos emocionales de la conducta humana, en contraposición al thin data (datos
delgados) que se centra principalmente en la información cuantitativa la cual proporciona
una visión menos robusta de los aspectos cualitativos de los comportamientos observados.
webscraping = técnica de software informático para automatizar la extracción de
información de sitios web.
e-learning = aprendizaje a través de medios electrónicos.
startups = negocios recién establecidos.
webinars = seminarios llevados a cabo en Internet.
61
Acrónimos
FBK = Fondazione Bruno Kessler; entidad privada encargada de mantener la provincia de
Trento, Italia, en la corriente principal de la investigación europea e internacional.
CDP = CDP Worldwide; empresa que reporta datos del cambio climático, el agua, las
cadenas de abastecimiento, los bosques y otros datos ambientales, con el objetivo de
prevenir el cambio climático y proteger el medio ambiente.
CDR = sigla en inglés para los registros de detalles de llamada. Es el nombre técnico para los
datos de telefonía móvil registrados por todos los operadores de telecomunicaciones. Los
CDR contienen información acerca de la ubicación de quienes envían y reciben llamadas
o mensajes de texto a través de redes de los operadores, así como datos sobre su hora y
duración.
CEPAL = Comisión Económica para América Latina. Es la comisión regional de las
Naciones Unidas destinada a promover el desarrollo económico en la región.
HADOOP = sistema para el mantenimiento de un sistema de archivos distribuido que
soporta el almacenamiento de gran escala (terabytes o petabytes de contenido), y el
procesamiento paralelo de algoritmos sobre grandes conjuntos de datos, lo que requiere
un lenguaje de programación como Java o Python.
HDX = sigla en inglés para intercambio humanitario de datos; plataforma para el
intercambio de datos cuyo objetivo es hacer que los datos sean fáciles de encontrar y
utilizar.
HHI = sigla en inglés para Iniciativa Humanitaria de Harvard, centro de investigación
interdisciplinario de la Universidad de Harvard que se especializa en la ayuda humanitaria
y la respuesta a la crisis.
IEAG = sigla en inglés para el Grupo Asesor de Expertos Independientes, una rama de la
Secretaría General de la ONU que da recomendaciones sobre como
INE/NSO = Instituto Nacional de Estadística en español, o National Statistics Office en
inglés. Se refiere a la agencia estadística líder en un sistema estadístico nacional.
OCAH = Oficina de Coordinación de Asuntos Humanitarios de la ONU destinada a
mejorar la respuesta a la emergencia; incluye el desarrollo del HDX (intercambio
humanitario de datos).
ODI = sigla en inglés para el Instituto de Desarrollo de Ultramar, laboratorio de ideas
independiente sobre temas internacionales de desarrollo y humanitarios, con sede en el
Reino Unido.
ODS = Objetivos de Desarrollo Sostenible, establecidos por la División de la ONU para
el Desarrollo Sostenible para promover y coordinar la implementación de la agenda de
desarrollo sostenible de la Organización de las Naciones Unidas.
62
ONU = Organización de las Naciones Unidas.
OSILAC = Observatorio para la Sociedad de la Información en Latinoamérica y el Caribe,
cuyo objetivo es mejorar las estadíticas de TICs en Latinoamérica.
RIVAF = sigla en inglés para Fondo para el Análisis Rápido de las Consecuencias y la
Vulnerabilidad, un proyecto de la ONU en el que la UNODC (Oficina de las Naciones
Unidas contra la Droga y el Delito) y el UN Global Pulse (ver abajo) investigaron cómo las
crisis pueden impactar los niveles de criminalidad.
TIC = Tecnología de la información y las comunicaciones, que se refiere a la convergencia
de las redes de audio-visuales y telefónicas con las redes de computadores a través de un
único sistema de cableado o enlaces, y las implicaciones económicas y de infraestructura de
esas tendencias.
UE = Unión Europea.
UN Global Pulse = iniciativa de la ONU para hacer uso de big data para el desarrollo y
la acción humanitaria, que consiste en un grupo de proyectos de innovación de datos sobre
una serie de temas globales.
UNODC = Oficina de las Naciones Unidas contra la Droga y el Delito, la cual lleva a cabo
proyectos sobre terreno para luchar contra las drogas ilícitas y la delincuencia, así como
investigación.
UNECE = Comisión Económica para Europa de las Naciones Unidas, cuyo objetivo es
promover la integración económica europea.
UNFPA = Fondo de Población de las Naciones Unidas, el cual trabaja para promover
embarazos seguros y partos saludables.
UNSD = División de Estadística de las Naciones Unidas, que recoge y reporta estadísticas
económicas y sociales.
63
Anexos
Anexo 1: Taxonomía y ejemplos de fuentes de Big Data
Tipos
Ejemplos
Oportunidades
Categoría 1: datos sub-producto
CDR
Estimar la distribución de la población y el estatus
GPS (localización de flotas, localización
socioecon omico en lugares tan diversos como el
vehicular automatizada de buses)
Reino Unido y Ruanda
Identificación electrónica
Proporcionar información crítica sobre
Licencias electrónicas (por ejemplo, seguros) movimientos poblacionales y la respuesta de
Tarjetas de transporte (incluidas las de
comportamiento después de un desastre
fidelidad de aerolíneas)
Tarjetas de crédito/débito
Proporcionar una evaluación temprana de los daños
Transporte
GPS (localización de flotas, localización
causados por huracanes y terremotos
vehicular automatizada de buses)
EZ passes
Rastros en línea Cookies
Mitigar los impactos de las enfermedades
Direcciones IP
infecciosas a través de un monitoreo más oportuno
utilizando los registros de acceso de la enciclopedia
en línea Wikipedia
Categoría 2: contenidos digitales
Medios sociales Tuits (API de Twitter)
Proporcionar alertas tempranas sobre amenazas que
Registros de entrada (Foursquare)
van desde brotes de enfermedades a inseguridad
Contenidos de Facebook
alimentaria
Videos de Youtube
Empoderar voluntarios para que agreguen datos de
Mapeo (Open Street Map, Google Maps,
Contenidos
terreno que sean útiles especialmente para fines de
Yelp)
colaborativos
verificación
(crowdsourced)/ Monitoreo/Reportes (uReport)
en línea
Categoría 3: datos de sensores
Físicos
Medidores inteligentes
Los sensores se han utilizado para estimar la
Rastreadores de velocidad/peso
demanda de estufas de alta eficiencia a diferentes
Sismógrafos de Servicio Geológico de
precios en Uganda o la disposición a pagar por
EEUU
dispensadores de cloro en Kenia
Remotos
Imágenes de satélite (NASA TRMM,
Las imágenes de satélite que, por ejemplo, revelan
Landsat)
cambios en la calidad del suelo o la disponibilidad
Vehículos aéreos no tripulados (UAV)
de agua, se han utilizado para informar
intervenciones agrícolas en los países en desarrollo
Basado en
tecnología
móvil
Transacciones
financieras
Anexo 2: Usos de Big Data para el monitoreo de los ODS
64
65
Datos de las búsquedas en línea
para monitorear las epidemias de
influenza122
Detección de epidemias de
influenza utilizando Twitter
Minería de los tuits de Indonesia
para entender la crisis de los precios
de alimentos117
Utiliza indicadores derivados de
datos de teléfonos celulares como
proxy de indicadores de seguridad
alimentaria118
Uso de datos de teledetección para
la evaluación y vigilancia de la
sequía
Datos basados en Internet para
identificar brotes de influenza121
Datos de
teledetección
Sequía’
Datos de las
búsquedas en línea
Twitter
Influenza
Influenza
115
Consultas de
búsqueda de
Google
Datos de teléfonos
celulares y compras
de tiempo al aire
Seguridad
alimentaria
Influenza
Tuits
Crisis de los precios
de alimentos
Christopher D. Elvidge, Sutton y col. 2009.
Smith-Clarke, Christopher and Mashhadi, Afra and Capra, Licia 2014.
116
Cavallo 2013.
117
United Nations Global Pulse 2014.
118
Soto y col. 2011.
119
Thenkabail, Gamage y Smakhtin 2004.
120
Zhang y col. 2008.
121
Ginsberg y col. 2009.
122
Yuan y al. 2013.
114
3. Garantizar una vida sana y
promover el bienestar de todos a
todas las edades
2. Poner fin al hambre, lograr la
seguridad alimentaria y la mejora
de la nutrición y promover la
agricultura sostenible
Niveles
socio-económicos
Registros de
teléfonos celulares
Pobreza
Estimar mapas de pobreza con
datos de teléfonos celulares115
Datos basados en Internet para
estimar el índice de precios al
consumidor y los índices de
pobreza116
Registros de teléfonos celulares para
predecir niveles socio-económicos
Índices de precios
Imágenes de
satélite, luces
nocturnas
Registros de
teléfonos celulares
Precios en línea de
sitios web de
minoristas
Pobreza
Datos de satélite para estimar la
pobreza114
1. Poner fin a la pobreza en todas
sus formas y en todo el mundo
se
Cómo
monitorea
Qué se monitorea
Ejemplos de Big data
ODS adoptados por el Grupo de
Trabajo Abierto de la ONU
Japón
China
Afganistán, India,
Pakistán119
China120
EEUU
Un país en África
Central
2011
2013
2008
2009
2004
2014
2014
Datos en tiempo real; captura de
casos de enfermedades no
registrados oficialmente; datos
disponibles antes que los datos
oficiales
Datos disponibles de forma más
regular y más baratos que los datos
oficiales; la economía informal se
reflejaba mejor
2011
“La ciudad más
grande de AL”
(Actualmente
Ciudad de México)
Indonesia
Datos más baratos disponibles con
mayor frecuencia
2013
Argentina
Datos internacionales comparables,
que se pueden actualizar con mayor
frecuencia
Ventajas del uso de big data
2013-14
2009
Año
Costa de Marfil
Mapa global
País(es)
66
Imágenes de satélite
Imágenes de satélite
PIB a niveles
subnacionales
Twitter
Preocupaciones
sobre las vacunas
VIH, consumo de
drogas
Monitoreo de las preocupaciones
sobre las vacunas
Análisis de Twitter utilizado para
realizar un seguimiento de la
incidencia del VIH y los
comportamientos relacionados con
las drogas
Crecimiento del
PIB
Informes de los
medios (por ej.,
artículos en línea,
blogs, informes del
gobierno)
Twitter
Preocupaciones
sobre las vacunas
Monitoreo de las preocupaciones
sobre las vacunas para ayudar a
adaptar los programas de
inmunización
Emisiones de luz captadas por
satélites para estimar el crecimiento
del PIB
Uso de luces nocturnas para estimar
el PIB a niveles subnacionales125
Datos de las
búsquedas en línea
Dengue
124
Imágenes de satélite
Medios sociales y
de comunicación
Cólera
Consumo de
energía eléctrica
EEUU
Datos de teléfonos
celulares
Malaria
Datos de satélite para estimar el
consumo de energía eléctrica
EEUU
Reportes
voluntarios a través
de Internet
Influenza
China, India,
Turquía, EEUU
30 países
21 países
2013
144 países
2007
2012
1997
2014
2011
En curso
2012
2012
En curso
2013
Año
Argentina, Bolivia,
Brasil, India,
Indonesia, México,
Filipinas, Singapur,
Tailandia,
Venezuela
Haití’
Bélgica, Italia,
Holanda, Portugal,
Reino Unido,
Estados Unidos
Kenia
EEUU
Twitter
País(es)
Influenza
se
Monitorear brotes de influenza
utilizando Twitter
Sistemas para monitorear la
actividad de enfermedades parecidas
a la influenza con la ayuda de
voluntarios a través de Internet
Datos de teléfonos celulares para
modelar la propagación de la
malaria
Uso de medios sociales y de
comunicación para controlar los
brotes de cólera
Evolución del dengue en Google
Cómo
monitorea
(a continuación)
Qué se monitorea
Ejemplos de Big data
C. D. Elvidge y col. 1997.
Henderson, Storeygard y Weil 2012.
125
Sutton, Christopher D. Elvidge y Ghosh 2007.
123
7. Garantizar el acceso a una
energía asequible, fiable, sostenible
y moderna para todos123
8. Promover el crecimiento
económico sostenido, inclusivo y
sostenible, el empleo pleno y
productivo y el trabajo decente para
todos124
ODS adoptados por el Grupo de
Trabajo Abierto de la ONU
El sector informal se reflejaba
mejor; información disponible a
nivel subnacional; mejora de
estimaciones para países con datos
de cuentas nacionales pobres
Actualizaciones frecuentes
Datos no disponibles de otro
modo; es costoso recopilar datos a
través de encuesta
Ventajas del uso de big data
67
Gutierrez, Krings y Blondel 2013.
Imágenes de satélite
Peligro y riesgo de
inundación
126
Datos de tarjetas de
transporte
Uso de transporte y
viajes
Peligro y riesgo de
inundación
Imágenes de satélite
Luces nocturnas
Imágenes de satélite
como proxy para la
población/infraestructura
a lo largo de la red
fluvial
Riesgo de
Imágenes de satélite
inundación
Imágenes de satélite
Extensión urbana
Emisiones de luz captadas por
satélites para estimar la extensión
urbana
Uso de datos de tarjetas de
transporte para la construcción de
una imagen de viajes individuales y
cómo las redes de autobús y tren
son utilizadas por el público
Series de tiempo de imágenes
satelitales de zonas inundadas para
identificar zonas de riesgo de
inundación
Análisis de la evolución temporal
de luces nocturnas a lo largo de la
red fluvial para obtener un mapa
global de la exposición humana a
las inundaciones
Uso de datos de imágenes
satelitales, SIG y precipitación para
producir un mapa de riesgo de
inundación a lo largo del Río Benue
en Nigeria
Uso de técnicas de teledetección
por satélite y SIG para el peligro y
evaluación de riesgo de
inundaciones en el distrito de
Chamoli, Uttarakhand, India
11. Lograr que las ciudades y los
asentamientos humanos sean
inclusivos, seguros, resilientes y
sostenibles
Compras de tiempo
al aire
Riqueza y
desigualdad
Herramientas de
Internet para
escanear todas las
direcciones de la
cuarta versión del
protocolo de
Internet
Mapa que muestra
dispositivos de
Internet por
ubicación
Mapeo de la situación
socioeconómica mediante el análisis
del balance de tiempo al aire y
conjuntos de datos de teléfonos
celulares126
Precios de
minoristas en línea
Inflación
se
Datos basados en Internet para
monitorear la inflación en tiempo
real
Mapa que muestra los dispositivos
de Internet a los que se puede
acceder con contraseñas por defecto
o sin contraseña. A pesar de los
sesgos hacia dispositivos inseguros,
el mapa puede reflejar el uso de
Internet en todo el mundo
Cómo
monitorea
(a continuación)
Qué se monitorea
Ejemplos de Big data
10. Reducir la desigualdad en los
países y entre ellos
9. Construir infraestructuras
resilientes, promover la
industrialización inclusiva y
sostenible y fomentar la innovación
ODS adoptados por el Grupo de
Trabajo Abierto de la ONU
2014
2014
Nigeria
India
19922012
2014
2005
Datos disponibles frecuentemente
Forma consistente a nivel global de
mapear la extensión urbana;
actualizaciones más frecuentes
Más detallada y más frecuente que
los datos de encuesta
Desventaja: no hay datos de terreno
para comparar (lo últimos censos
no son fiables)
Más fácil, más barato y más rápido
que las encuestas de uso de Internet.
Desventajas: ilegal y posiblemente
no se pueda reproducir con los
protocolos de Internet más nuevos
2012
2013
Datos más baratos disponibles con
mayor frecuencia
Ventajas del uso de big data
2012
Año
Global
Namibia
Reino Unido
Global
Costa de Marfil
Argentina, Brasil,
Chile, Colombia,
Venezuela
El mundo
País(es)
68
Registros de teléfonos celulares para
predecir niveles
socioeconómicos132
128
Eventos violentos
Crimen
se
Mediciones de
satélite
Datos de teléfonos
móviles y
demográficos
Conjunto de datos
de noticias
Twitter
Tuits sobre el
huracán
Metano
Registros del
teléfono celular
Impacto de
inundaciones
Evaluación del impacto de
inundaciones con registros del
teléfono celular
Análisis de datos de Twitter
durante el huracán Sandy para
identificar qué datos podían ser
útiles en la respuesta al desastre127
Escaneo por satélite para
monitorear la población y las
emisiones de gases de efecto
invernadero relacionadas con la
energía128
Imágenes de satélite para medir la
producción primaria neta
Observaciones de metano hechas
desde el espacio en
129130
combinación
Uso de datos de teléfonos móviles y
demográficos para predecir el
crimen en Londres
Uso de “Datos Globales sobre
Eventos, Localización y Tono
(GDELT en inglés)”, un conjunto
de datos de noticias, para calcular el
número de eventos violentos en un
conflicto131
Cómo
monitorea
(a continuación)
Qué se monitorea
Ejemplos de Big data
Statistics Without Borders and Humanity Road 2013.
Christopher D. Elvidge, Baugh y col. 1997.
129
Kort y col. 2014.
130
Schneising y col. 2014.
131
Earl y col. 2004.
132
Soto y col. 2011.
127
Mediciones más allá del PIB
16. Promover sociedades pacíficas e
inclusivas para el desarrollo
sostenible, facilitar el acceso a la
justicia para todos y construir a
todos los niveles instituciones
eficaces e inclusivas que rindan
cuentas
13. Adoptar medidas urgentes para
combatir el cambio climático y sus
efectos
ODS adoptados por el Grupo de
Trabajo Abierto de la ONU
Siria
Reino Unido
EEUU
EEUU
México
País(es)
2013-14
2014
2012
2014
Año
Datos disponibles de forma más
regular y más baratos que los datos
oficiales; la economía informal se
reflejaba mejor
Actualizaciones frecuentes
Emisiones de poblaciones urbanas
separadas de otras fuentes;
actualizaciones más frecuentes
Ventajas del uso de big data
Anexo 3: Análisis de mensajes de redes sociales por el INE de Holanda
Statistics Netherlands, el INE de Holanda, estudió mensajes de redes sociales disponibles creados
públicamente en varias plataformas de redes sociales como Twitter y Facebook, así como los
mensajes públicos publicados en los sitios web de noticias, foros web y blogs. Los mensajes se
obtuvieron a través de una empresa comercial que habitualmente recoge todos los mensajes
disponibles públicamente escritos en holandés en la parte de habla holandesa de la web.
Se estudiaron tanto el contenido como el sentimiento de los mensajes. Los estudios sobre el
contenido de los mensajes en holandés en Twitter, la plataforma de redes sociales en la que se
crean la mayoría de los mensajes públicamente disponibles en holandés, reveló que casi el 50 por
ciento de esos mensajes se componían de “balbuceos sin sentido”. El resto predominantemente
discutió sobre las actividades de tiempo libre (10 por ciento), el trabajo (7 por ciento), los medios
de comunicación (televisión y radio) (5 por ciento) y la política (3 por ciento). El uso de estos
mensajes más serios se vio obstaculizado por los mensajes “balbucientes” menos serios.
Figure: Dutch consumer confidence (grey) and the overall sentiment in Dutch social media
messages on a monthly basis (black). Dutch articles are used as search terms. The social media
sentiments in December is considerably more positive compared to the sentiment in the
months before and after.
La determinación del sentimiento en todos los mensajes creados en todas las plataformas
disponibles reveló un uso potencial muy interesante de estos datos para las estadísticas. Con un
lenguaje de consulta y una interfaz web, se seleccionaron mensajes de la base de datos. Los
69
mensajes se clasificaron como positivos, negativos y neutrales. Se encontró que el sentimiento
en estos mensajes estaba altamente correlacionado con la confianza de los consumidores en
Holanda, en particular con sentimientos relacionados con la situación económica. Statistics
Netherlands produce mensualmente un índice de confianza del consumidor utilizando datos de
encuesta de una muestra aleatoria del registro civil. Entretanto, los mensajes de medios sociales
los genera el 70 por ciento de la población holandesa.133 La última relación se mantuvo estable
mensual y semanalmente. Sin embargo, las cifras diarias muestran un comportamiento muy
volátil lo que sugiere que es posible producir indicadores de confianza mensuales y semanales
comparables con la confianza del consumidor. Los indicadores semanales se pueden producir el
primer día hábil siguiente a la semana de referencia, lo que demuestra la capacidad de entregar
resultados rápidamente. Solo en diciembre las cifras no se relacionaban, cuando se produjo
mucho más sentimiento positivo en los medios sociales, eliminando todos los mensajes que
incluían palabras para los días de Navidad y Año Nuevo reduciendo estos picos.134
Anexo 4: índices de precios por Cavallo (MIT)
El objetivo de este proyecto fue investigar y mostrar cómo el webscraping de los precios en línea
podía proporcionar información en tiempo real sobre la dinámica de los precios. Los precios
recolectados de los minoristas en línea se pueden utilizar para construir índices de precios de
alta frecuencia que complementen las estadísticas oficiales. En el MIT, el equipo de investigación
de Alberto Cavallo utilizó datos recolectados entre octubre de 2007 y marzo de 2011, de los más
grandes supermercados en línea en cinco países de América Latina y estudió su capacidad de
coincidir con las estimaciones oficiales de inflación. Los datos se recolectaron en Argentina,
Brasil, Chile, Colombia, Uruguay y Venezuela utilizando un software de scraping que registra
diariamente el precio del pan vendido o anunciado en los supermercados en línea.
Posteriormente, se calcula la tasa de inflación diaria del pan para cada país. El estudio se centró
en Argentina, donde las estadísticas oficiales han sido criticadas en los últimos años. Los datos
de los índices de precios en línea aproximan tanto el nivel como la dinámica principal de la
inflación oficial en Brasil, Chile, Colombia y Venezuela. Por el contrario, la tasa de inflación
anual en línea de Argentina es consistentemente dos a tres veces mayor que las estimaciones
oficiales.
Socios: PriceStats y el Billion Prices Project de MIT - Argentina, Brasil, Uruguay, Venezuela
(República Bolivariana de).135
Anexo 5: Datos de luminosidad como proxy para las estadísticas económicas
133
Eurostat 2014.
United Nations Statistical Commission 2014a.
135
United Nations Global Pulse 2011.
134
70
Un problema generalizado en la investigación social y ambiental ha sido cómo mejorar la
calidad de los datos socioeconómicos en los países en desarrollo. Dadas las deficiencias de las
fuentes estándar, el presente estudio examinó la luminosidad (medición de las luces nocturnas
visibles desde el espacio) como proxy para las mediciones estándar de salida (producto interno
bruto). Los investigadores compararon la salida y la luminosidad a nivel nacional y a nivel de la
cuadrícula de latitud y longitud para el período 1992-2008. Encontraron que la luminosidad
tiene valor informativo para los países con sistemas estadísticos de baja calidad, en particular
para aquellos países que no han llevado a cabo recientemente censos de población y
económicos.136
Anexo 6: Un sistema de información para precios de agricultura (DANE - Colombia)
SIPSA (Sistema de Información de Precios del Sector Agropecuario) proporciona información de
precios agropecuarios. La información se basa en los precios de venta al por mayor de alimentos, el
suministro de alimentos a las ciudades y los insumos y factores asociados a la producción agrícola
y ganadera.
El primero, precios de alimentos al por mayor, tiene como objetivo recolectar información
sobre los precios al por mayor en el momento en que los precios se forman. Esta información se
recolecta a través de la aplicación o interfaz web de SIPSA y se difunde a través de boletines
diarios, semanales y mensuales. Cada componente tiene como objetivo satisfacer diferentes
necesidades de información. El boletín diario regional está dirigido principalmente a aquellas
personas que se encuentren en los mercados, con el fin de darles evidencias y herramientas de
negociación para realizar transacciones. El boletín diario nacional muestra el comportamiento
de los precios en siete ciudades principales. Se trata de una herramienta especial para todos
aquellos relacionados con la toma de decisiones, tanto públicos como privados. El boletín
semanal, que también forma parte del primer componente de precios al por mayor, explica los
diferentes eventos que afectaron la comercialización de productos agrícolas a lo largo de la
semana. El boletín mensual, muestra el comportamiento agregado de los precios al por mayor
en comparación con el mes inmediatamente anterior. Los otros dos componentes,
abastecimiento e insumos, registran tanto las cantidades de productos agrícolas que entran y
salen de las ciudades en los principales mercados del país, así como el precio de venta de los
principales insumos y factores asociados con la producción agrícola y ganadera en el país.
Fuente: PARIS21
Anexo 7: Open Intelligence en Mexico
136
Chen y Nordhaus 2011.
71
El startup Mexicano Open Intelligence desarrolla análitica basada en la nube y plataformas de
comunicación que apoyan a los gobiernos y otras instituciones del sector público para la toma
de decisiones de política basadas en datos. OPI desarrolló una exhaustiva bodega de datos
pública que centraliza millones de datos sobre las tendencias sociales y económicas en México, y
permite la visualización y el análisis correspondiente a través de su plataforma. Para clientes con
el objetivo de generar datos sobre temas más específicos, las aplicaciones móviles de OPI
facilitan la recolección de datos en el terreno137 .
Como un ejemplo, la Secretaría de Gobernación de México utiliza la plataforma para entender las
tasas de criminalidad de los barrios. La SEGOB analizó la relación entre la educación, las familias
monoparentales y más de un millar de otras variables. Más tarde ese año, la secretaría comenzó a
rediseñar sus políticas y la asignación de recursos con base en las contribuciones de OPI.138
Anexo 8: Aprovechar las fuentes de Big Data y técnicas basadas en CDR para analizar los
resultados y procesos socioeconómicos en Colombia: los casos de Seguridad Pública y
Desarrollo Social
El primero de los dos estudios piloto realizados por Data-Pop Alliance, Telefónica y la
Fundación Bruno Kessler, con financiación del Banco Mundial, se centra en la seguridad pública
y la delincuencia en Bogotá. La investigación precisa los datos de criminalidad obtenidos de la
Policía Nacional de Colombia, en conjunto con otros tipos de datos, principalmente datos de
2014 de registros de detalles de de llamada (CDR por sus siglas en inglés) proporcionados por
Telefónica. El objetivo era ver cómo las fuentes de datos alternativas pueden ayudar a entender y
predecir la aparición de puntos calientes del crimen, tanto para predecir/prevenir futuros
delitos, como para entender lo que caracteriza las zonas donde las tasas de criminalidad son
particularmente altas o particularmente bajas.
En términos generales, uno de los mejores predictores de futuros delitos es el crimen pasado, lo
que significa que los datos de informes de delitos pasados de la Policía Nacional podrían, en sí
mismos, proporcionar información valiosa sobre dónde ocurrirán los futuros delitos. Sin
embargo, el valor de aportar datos externos, tales como datos sobre los patrones de llamadas y
SMS de teléfonos móviles en Bogotá, radica en el hecho que proporcionan ideas que se pierden
cuando solamente se utilizan los datos de criminalidad.
De hecho, posibles correlaciones del crimen, como los ingresos y las redes sociales, se registrarán
de manera implícita en los datos de delitos pasados que se utilicen para la predicción, pero esos
patrones surgen más fácilmente cuando los datos de delincuencia se cruzan con datos de otras
fuentes. Además, es útil desarrollar métodos alternativos de predicción de la delincuencia que
permitan a los INE monitorear y predecir el crimen incluso cuando no haya datos disponibles o
fiables sobre crímenes pasados. Por lo tanto, estos pilotos tienen como objetivo utilizar los CDR
137
138
Por ejemplo: http://brujulacd.mx/
GSMA Intelligence s.f.
72
y otras fuentes de datos para construir una imagen más contemporánea, completa y compleja de
los resultados sociales y los procesos subyacentes en América Latina en general, y en Colombia.
El segundo estudio piloto se centra en los resultados sociales. La investigación utiliza datos de
CDR de 2014 proporcionados por Telefónica para obtener indicadores socioeconómicos para
Bogotá, centrándose particularmente en la pobreza y la cohesión social. Se tomaron datos de
contexto de la Encuesta Multipropósito de Bogotá de 2014, llevada a cabo por la Secretaría
Distrital de Planeación (SDP) en asociación con el DANE, que recolectó microdatos de una
muestra representativa de hogares en cada una de las 19 localidades de la ciudad y 31 de sus
municipios circundantes. Los datos cubren 14 temas, incluyendo por ejemplo las condiciones de
vida del hogar, salud, niveles de educación y gasto de los hogares. Los datos de la encuesta se
agregarán a un nivel geográfico más alto para preservar el anonimato de los hogares y las
características significativas serán analizadas por el equipo de investigación de Data-Pop Alliance
y afiliados que tengan experiencia previa trabajando con datos del DANE. Estos datos pueden
servir como datos de terreno o ayudar a perfeccionar la capacidad de predicción con el análisis
de los datos de CDR, según sea necesario.
Al igual que con el primer estudio piloto sobre el crimen, el objetivo final de este programa es
ayudar al Departamento Administrativo Nacional de Estadística (DANE) de Colombia a explorar
la posibilidad y la manera de aprovechar las fuentes y técnicas de Big Data (específicamente lo
relacionado con los CDR) para obtener indicadores sociales, en formas que se puedan incorporar
en el flujo de trabajo nacional de las estadísticas oficiales. Para cada estudio piloto, los resultados
previstos son:
Un trabajo de investigación empírico, con calidad de publicación en revistas académicas,
escrito por los investigadores de Data-Pop Alliance, Telefónica y la Fundación Bruno
Kessler;
Una versión de este documento, adaptada por Data-Pop Alliance, que presente las
principales lecciones y conclusiones, acompañadas por códigos y elementos visuales, para
uso del DANE;
Un repositorio de códigos y herramientas de visualización utilizados en el proyecto,
publicados bajo una licencia Creative Commons y destinados a ser reutilizados como
herramientas de aprendizaje y formación.
Anexo 9: Principales componentes de tecnologías de la información
Apache Hadoop. Sistema para mantener un sistema de archivos distribuido que soporta el
almacenamiento a gran escala (terabytes o petabytes de contenidos) y el procesamiento paralelo
de algoritmos para grandes conjuntos de datos, lo que requiere un lenguaje de programación
como Java o Python.
73
Apache Spark. Un motor rápido y de propósito general para el procesamiento de datos a gran
escala que trabaja con el apoyo de Hadoop o bases de datos en memoria. Requiere un lenguaje de
programación como Java o Python.
Lenguaje de programación Java. Un lenguaje de ingeniería de sistemas de propósito general, que
soporta la creación de algoritmos eficientes para el análisis de datos.
Pig y Hive como herramientas de programación para la manipulación de datos (es decir, para
consultar datos en clústeres de Hadoop) previo al uso de software estadístico (R, SAS, SPSS o
similar).139
Lenguaje de programación Python. Un lenguaje de ingeniería de sistemas de propósito general,
que soporta la creación de prototipos rápidos y algoritmos eficientes para el análisis de datos.140
R, PostgreSQL o Weka como tecnologías de código abierto y gratuitas para analizar contenidos
de medios sociales como Twitter.
Anexo 10: Análisis DOFA agregado para los INE de ALC y Big Data
139
140
Eurostat 2014.
American Association for Public Opinion Research (AAPOR) 2015.
74
Fortalezas
Debilidades
La región está obteniendo un mayor interés por
parte del sector privado.
En la región de ALC hay poca cultura de “toma
de decisiones con base en la evidencia”.
Hay amplia disponibilidad de tecnología móvil,
Internet y medios sociales (a pesar de las brechas
entre áreas urbanas y rurales).
En general, la cultura en investigación e
innovación de la región es débil.
Los marcos legales débiles limitan muchos INE
de la región.
Los sistemas estadísticos de muchos países de
ALC tienen una sólida y larga tradición en
censos y encuestas.
La
inter-operatividad
entre
organismos es limitada o mala.
Los INE por mandato y diseño están entrenados
y preparados para trabajar con datos (tanto en
términos de capacidades técnicas y legislación).
diferentes
Las instituciones tienen poco conocimiento
sobre el concepto de Big Data.
La apertura se proclama, pero aún no se practica.
Los INE tienen un proceso bien establecido
para monitorear los ODM (i.e., entrenamiento
virtual, intercambio a nivel regional).
Las páginas web principales y otros canales
de distribución son todavía muy débiles; el
involucramiento con los beneficiarios de datos
es débil.
Hay presencia de comités, instituciones y
grupos de trabajo muy fuertes a través de la
región como la CEPAL.
Big Data no es una prioridad alta.
De manera creciente, las universidades están
abriendo programas de maestría en ciencias de
datos.
Los esfuerzos en Big Data no están integrados
en una estrategia más amplia. El progreso de
los pilotos depende de la buena voluntad y el
compromiso de líderes internos.
Se han realizado pilotos y aplicaciones de big
data.
Hay una falta de capacidad humana para trabajar
con datos; alfabetización datos.
Hay varios ejemplos de uso de Big Data en la
región, iniciados por otros actores que podrían
convertirse en socios potenciales.
Hay pocas oportunidades de conseguir apoyo
externo, i.e., a través de practicantes.
Hay una gran cantidad de fuentes de datos
disponibles; ALC está viendo una revolución
digital.
Hay oportunidades limitadas para asociaciones
y colaboración.
Los esfuerzos son paralelos en lugar de combinar
áreas relacionadas como ODS, datos abiertos,
big data e innovación.
Hay una reestructuración tecnológica en
algunos INE (hacia GSBPM); la mayoría está
en proceso de construir almacenes de datos;
muchos trabajan con Hadoop.
No existe una cultura de asociaciones públicoprivada.
Muchos están en proceso de cambiarse a SDMX.
Hay poco intercambio con otros grupos de
interés externos, i.e., startups y organizaciones
de la sociedad civil.
75
Oportunidades
Amenazas
El proceso de los ODS podría fortalecer el
mandato de los INE de la región.
Otros organismos podrían ocupar el tema.
Hay poco debate sobre los posibles riesgos y
consecuencias negativas de Big Data.
Se puede aprender de los primeros ejemplos de
mejores prácticas en big data de la región.
Hay confusión acerca de Big Data como un
ecosistema y Big Data como fuente de datos, y
entre Big Data y otras fuentes de datos, i.e. datos
abiertos.
Hay un vibrante movimiento de Datos Abiertos
y muchos defensores del Código Abierto.
Se desarrollan siscusiones vibrantes sobre el
Gobierno de Internet en toda la región (ver
Marco Civil como ejemplo de buena práctica
para procesos de múltiples actores).
Reinventando la rueda los INE enfrentan
competencia y no colaboración (tanto entre los
organismos, así como entre países).
Líderes internos en las organizaciones están
ansiosos por trabajar con y discutir Big Data.
No hay acceso sostenible a determinados
conjuntos de datos, i.e., datos de CDR;
además, maneras de por sí insostenibles de
intercambio/accso a los datos, i.e., datos
administrativos, no se basan en legados.
Existen ecosistemas vibrantes de tecnología en
muchos países de ALC.
Hay una demanda por espacios de datos en toda
la región que podrían promover los INE.
Las organizaciones podrían copiar en lugar de
inventar según necesidades locales.
Se pueden intercambiar ideas y experiencias con
otros INE, también a nivel de la ONU (sin
embargo, esto podría ser un riesgo para aquellos
que no estén incluidos); se debe establecer una
comunidad de prácticas.
Los presupuestos de algunos países (México,
Colombia, etc.) podrían reducirse debido a la
caída de los precios del petróleo.
Los INE siguen siendo “órganos cerrados”.
Se puede construir una plataforma para el
intercambio de conocimientos; i.e., una wiki
para Big Data + INE de la región de ALC.
76
Bibliography
American Association for Public Opinion Research (AAPOR). AAPOR Report on Big Data.
2015. URL: https://www.aapor.org/AAPOR_Main/media/Task-ForceReports/BigDataTaskForceReport_FINAL_2_12_15_b.pdf.
Ballivian, Amparo y William Hoffman. Public-Private Partnerships for Data. 2015. URL:
http://data.worldbank.org/sites/default/files/issue-paper-financing-thedata-revolution-ppps_0.pdf.
Barbosa, Ariel. Global Information Society Watch 2014: Communications surveillance in the
digital age, Colombia. 2014. URL: https://www.giswatch.org/sites/default/files/
hacking_information_on_the_peace_talks_in_colombia.pdf.
Bibolini, Lucia y Henry Lancaster. 2014 Latin America – Telecoms, Mobile and Broadband
Overview. 2014. URL: http://www.budde.com.au/Research/2014-Latin-AmericaTelecoms-Mobile-and-Broadband-Overview.html?r=51.
boyd, danah y Kate Crawford. «Critical Questions for Big Data». En: Information,
Communication & Society 15.5 (2012). ISSN: 1468-4462. DOI:
10.1080/1369118X.2012.678878. URL:
http://www.tandfonline.com/doi/pdf/10.1080/1369118x.2012.678878.
Cavallo, Alberto. «Online and official price indexes: Measuring Argentina’s inflation». En:
Journal of Monetary Economics 60.2 (2013), pp. 152-165. ISSN: 0304-3932. DOI:
10.1016/j.jmoneco.2012.10.002. URL:
http://www.sciencedirect.com/science/article/pii/S0304393212000967.
Cavenaghi, Suzana. Data Revolution: Is Latin America prepared and ready to engage? 2015. URL:
http://paa2015.princeton.edu/uploads/153763.
CGIAR Research Program on Climate Change, Agriculture and Food Security (CCAFS).
«Cracking patterns in big data saves Colombian rice farmers huge losses». En: 2014 Annual
Report (2014). URL:
https://ccafs.cgiar.org/research/annual-report/2014/cracking-patterns-inbig-data-saves-colombian-rice-farmers-huge-losses.
Chen, Xi y William D. Nordhaus. «Using luminosity data as a proxy for economic statistics».
En: Proceedings of the National Academy of Sciences 108.21 (2011), pp. 8589-8594. DOI:
10.1073/pnas.1017031108. URL:
http://www.pnas.org/content/108/21/8589.abstract.
CIVICUS. The Data Shift. URL: http://civicus.org/thedatashift/.
Clark, Liat. «Nuria Oliver: what big data and the Mexican pandemic taught us». En: Wired UK
(2013). URL: http://www.wired.co.uk/news/archive/2013-10/17/nuria-oliver.
Cobos, María Isabel, Tim Miller y Magda Ruiz Salguero. «Hacia la armonización de las
estimaciones de mortalidad materna en América Latina: hallazgos de un estudio piloto en
ocho países». En: Naciones Unidas, Santiago, Chile. 108.a ép. (2013). ISSN: 1680-899. URL:
77
http://repositorio.cepal.org/bitstream/handle/11362/7143/LCL3735_es.pdf?
sequence=1.
Congreso de la República de Colombia. Ley Estatutaria 1266 de 2008. 2008. URL:
http://www.alcaldiabogota.gov.co/sisjur/normas/Norma1.jsp?i=34488.
—
Ley Estatutaria 1581 de 2012. 2012. URL:
http://www.secretariasenado.gov.co/senado/basedoc/ley_1581_2012.html.
—
Proyecto de ley 1753 de 2015 cámara por la cual se expide el Plan Nacional de Desarrollo
2014-2018 ‘Todos Por un Nuevo País’. 2014. URL:
https://colaboracion.dnp.gov.co/CDT/Prensa/ArticuladoVF.pdf.
Cordero, Arturo Sevilla. Colombia avanza en una mejor calidad de vida. 2016. URL: http:
//docplayer.es/9744214-Colombia-avanza-en-una-mejor-calidad-de-vida.html.
Daas, Piet y Mark van der Loo. Big data (and official statistics). 2013. DOI:
10.2901/Eurostat.C2013.001. URL:
http://www.unescap.org/sites/default/files/2Big%20Data%20(and%20official%20statistics)-Netherlands-presentation.pdf.
Data Revolution for Sustainable Development (IEAG), United Nations SecretaryGeneral’s Independent Expert Advisory Group on a. A World That Counts: Mobilising The
Data Revolution for Sustainable Development. 2014. URL: http:
//www.undatarevolution.org/report/%20http://www.undatarevolution.org/wpcontent/uploads/2014/11/A-World-That-Counts.pdf.
Digiampietri, Luciano A y col. «BraX-Ray: An X-Ray of the Brazilian Computer Science
Graduate Programs». En: PLoS ONE 9.4 (2014). ISSN: 1932-6203. DOI:
10.1371/journal.pone.0094541. URL:
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3984164/%20http:
//www.ncbi.nlm.nih.gov/pmc/articles/PMC3984164/pdf/pone.0094541.pdf.
Earl, Jennifer y col. «The Use of Newspaper Data in the Study of Collective Action». En:
Annual Review of Sociology 30.1 (2004), pp. 65-80. ISSN: 0360-0572. DOI:
10.1146/annurev.soc.30.012703.110603. URL:
http://www.annualreviews.org/doi/abs/10.1146/annurev.soc.30.012703.110603.
Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL). Development
of Official Statistics in the Region. 2010. URL:
http://repositorio.cepal.org/bitstream/handle/11362/3146/2010695_ReportLAC_en.pdf.
—
Consenso de Montevideo sobre Población y Desarollo. 2013. URL:
http://www.cepal.org/celade/noticias/documentosdetrabajo/8/50708/2013595-consenso_montevideo_pyd.pdf.
—
Big data and open data as sustainability tools. 2014. URL:
http://www.cepal.org/en/publications/37158-big-data-and-open-datasustainability-tools-working-paper-prepared-economic.
78
Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL). Statistical
activities in Latin America and the Caribbean: Recent achievements and next challenges.
2015. URL: https://documents-ddsny.un.org/doc/UNDOC/GEN/N14/683/08/PDF/N1468308.pdf?OpenElement.
—
The new digital revolution: From the consumer Internet to the industrial Internet. 2015. URL:
http://repositorio.cepal.org/bitstream/handle/11362/38767/S1500587_en.pdf.
Elvidge, C. D. y col. «Relation between satellite observed visible-near infrared emissions,
population, economic activity and electric power consumption». En: International Journal
of Remote Sensing 18.6 (1997), pp. 1373-1379. DOI: 10.1080/014311697218485. URL:
http://www.tandfonline.com/doi/abs/10.1080/014311697218485.
Elvidge, Christopher D., Kimberly E. Baugh y col. «Satellite inventory of human settlements
using nocturnal radiation emissions: a contribution for the global toolchest». En: Global
Change Biology (1997), pp. 387-395. URL: http://www.as.wvu.edu/biology/bio463/
Elvidge%20et%20al%201997%20satellite%20night%20pictures.pdf.
Elvidge, Christopher D., Paul C. Sutton y col. «A global poverty map derived from satellite
data». En: Computers & Geosciences 35.8 (2009), pp. 1652-1660. URL:
http://www.sciencedirect.com/science/article/pii/S0098300409001253.
Eurostat. Big Data in Official Statistics: Technical Workshop Report. 2014. URL: http:
//www1.unece.org/stat/platform/pages/viewpage.action?pageId=102664009.
Expert Group on Poverty Statistics. «Expert Group on Poverty Statistics: Rio». En:
Compendium of Best Practices in Poverty Measurement. 2006. ISBN: 85-240-3908-6.
Ginsberg, Jeremy y col. «Detecting influenza epidemics using search engine query data». En:
Nature 457 (2009). DOI: 10.1038/nature07634.
Giovannini, Enrico. «Statistics 2.0 - The next level». En: 10th National conference of statistics.
2010. URL: http://en.istat.it/istat/eventi/2010/10_conferenza_statistica/.
Glickhouse, Rachel. Explainer: Twitter in Latin America. 2013. URL:
http://www.as-coa.org/articles/explainer-twitter-latin-america.
GSMA Intelligence. The Mobile Economy 2014. URL:
http://www.gsmamobileeconomylatinamerica.com/GSMA_Mobile_Economy_
LatinAmerica_2014.pdf.
Gurin, Joel. «Big data and open data: what’s what and why does it matter?» En: The Guardian
(2014). URL: http://www.theguardian.com/public-leadersnetwork/2014/apr/15/big-data-open-data-transform-government.
Gutierrez, Thoralf, Gautier Krings y Vincent D Blondel. «Evaluating socio-economic state of a
country analyzing airtime credit and mobile phone datasets». En: (2013). URL:
http://arxiv.org/pdf/1309.4496.pdf.
Henderson, J. Vernon, Adam Storeygard y David N Weil. «Measuring Economic Growth from
Outer Space». En: American Economic Review 102.2 (2012), pp. 994-1028. ISSN: 0002-8282.
79
DOI: 10.1257/aer.102.2.994. URL:
http://pubs.aeaweb.org/doi/abs/10.1257/aer.102.2.994.
Hubbard, Douglas W. Pulse: the new science of harnessing Internet buzz to track threats and
opportunities. Hoboken, N.J: Wiley, 2011. 191 pp. ISBN: 978-0-470-93236-0.
Hyunyoung, Choi y Hal Varian. Predicting the Present with Google Trends. 2011. URL:
http://people.ischool.berkeley.edu/~hal/Papers/2011/ptp.pdf.
Informa. Latin America reaches 100 % mobile penetration says Informa Telecoms & Media. 2011.
URL: http://www.informa.com/media/press-releases-news/latest-news/latinamerica-reaches-100-mobile-penetration-says-telecoms--media/.
Instituto Nacional de Estadística y Geografía (INEGI) de México. Agenda for International
Meeting on Gender Statistics: Statistical challenges towards the implementation of the Post
2015 Agenda. 2015. URL:
http://www.inegi.org.mx/eventos/2015/genero/doc/agenda_XVIgenero_en.pdf.
—
Tweet Analysis. 2015. URL:
http://www1.unece.org/stat/platform/display/BDI/Mexico+(INEGI)++Tweet+Analysis.
International Telecommunication Union. World Telecommunication/ICT Indicators database,
19th Edition. 2015. URL:
http://www.itu.int/en/ITU-D/Statistics/Pages/publications/wtid.aspx.
Internet World Stats. Latin American Internet and Users and Population Statistics. 2013. URL:
http://www.internetworldstats.com/stats10.htm.
Katz, Raúl. El ecosistema y la economía digital en América Latina. 2015. URL:
http://cet.la/blog/course/libro-el-ecosistema-y-la-economia-digital-enamerica-latina/.
Khan, Amina y Elizabeth Stuart. What’s measured is also political. 2015. URL:
http://deliver2030.org/?p=5999.
King, Gary. «Big Data is Not About the Data!» En: Golden Seeds Innovation Summit, New York
City. 2013. URL: http://gking.harvard.edu/files/gking/files/evbase-gs.pdf.
Kort, Eric A. y col. «Four corners: The largest US methane anomaly viewed from space». En:
Geophysical Research Letters 41.19 (2014), pp. 6898-6903. ISSN: 00948276. DOI:
10.1002/2014GL061503. URL: http://doi.wiley.com/10.1002/2014GL061503.
Kreuter, Frauke y Roger D. Peng. «Privacy, Big Data, and the Public Good: Frameworks for
Engagement». En: ed. por Julia Lane y col. Cambridge University Press, 2014.
Cap. Extracting Information from Big Data: Issues of Measurement, Inference and
Linkage, pp. 257-275. DOI: http://dx.doi.org/10.1017/CBO9781107590205.016.
URL: http://ebooks.cambridge.org/chapter.jsf?bid=CBO9781107590205&cid=
CBO9781107590205A020.
80
Letouzé, Emmanuel. «Six Considerations on Official Statistics and the (Big) Data Revolution».
En: Note prepared for the OECD–Paris21 event at the 2013 UN General Assembly, New York.
2013.
—
Concept Note on SDGs and Big Data. 2015.
Mejía, Luis Fernando y col. Indicadores ISAAC: Siguiendo la actividad sectorial a partir de Google
Trends. 2013. URL: http://www.minhacienda.gov.co/portal/page/portal/
HomeMinhacienda/politicafiscal/reportesmacroeconomicos/NotasFiscales/.
Mocanu, Delia y col. «The Twitter of Babel: Mapping World Languages through Microblogging
Platforms». En: PLOS ONE 8.4 (2013), e61981. ISSN: 1932-6203. DOI:
10.1371/journal.pone.0061981. URL:
http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0061981.
Montjoye, Yves-Alexandre de y col. «Unique in the crowd: The privacy bounds of human
mobility». En: Nature Scientific Reports 3.1376 (2013). DOI: doi:10.1038/srep01376.
Newman Pont, Vivian. Datos personales en informaci ón pública: oscuridad en lo privado y luz en
lo público. Dejusticia, 2015. ISBN: 978-9585885813.
Ohm, Paul. «Broken Promises of Privacy: Responding to the Surprising Failure of
Anonymization». En: UCLA Law Review 57.1701 (2010). URL:
http://papers.ssrn.com/sol3/papers.cfm?abstract_id=1450006.
Open Data Institute. The Data Spectrum helps you understand the language of data. URL:
https://theodi.org/data-spectrum (visitado 12-2015).
Open Data Research Network. Opening Data in Montevideo: A bottom up experience. 2014.
URL: http://www.opendataresearch.org/content/2014/574/opening-datamontevideo-bottom-experience.
Orange. Data for Development (D4D) Challenge. 2014. URL: http://www.d4d.orange.com/.
Pawelke, Andreas y Anoush Rima Tatevossian. Data Philanthropy: Where Are We Now? 2013.
URL: http://www.unglobalpulse.org/data-philanthropy-where-are-we-now.
Pentland, Alex “Sandy”. «Social Computing and Behavioral Modeling». En: Boston, MA:
Springer US, 2009. Cap. Reality Mining of Mobile Communications: Toward A New Deal
On Data. ISBN: 978-1-4419-0056-2. DOI: 10.1007/978-1-4419-0056-2_1. URL:
http://dx.doi.org/10.1007/978-1-4419-0056-2_1.
—
«Reinventing Society in the Wake of Big Data: A Conversation with Alex (Sandy)
Pentland.» En: Edge.org (30 de agosto de 2012). URL:
https://www.edge.org/conversation/alex_sandy_pentland-reinventingsociety-in-the-wake-of-big-data (visitado 21-03-2016).
Pretz, Kathy. «Guadalajara: Smart City of the Near Future». En: The Institute: The IEEE news
source (2014). URL: http://theinstitute.ieee.org/technology-focus/technologytopic/guadalajara-smart-city-of-the-near-future.
81
Reader, Ruth. More than half of all smartphone users in Latin America use Twitter, study claims.
2015. URL: http://venturebeat.com/2015/02/16/more-than-half-of-allsmartphone-users-in-latin-america-use-twitter-study-claims/.
Ruiz, Claudio. «Privacy and security, the Latin American way». En: Digital Rights 28 (2014).
URL: http://www.digitalrightslac.net/en/privacidad-y-vigilancia-a-lalatinoamericana/.
Scannapieco, Monica y col. Placing Big Data in Official Statistics: A Big Challenge? Brussels,
2013. URL:
http://www.cros-portal.eu/sites/default/files//NTTS2013fullPaper_214.pdf.
Schneising, Oliver y col. «Remote sensing of fugitive methane emissions from oil and gas
production in North American tight geologic formations». En: Earth’s Future 2.10 (2014),
pp. 548-558. ISSN: 23284277. DOI: 10.1002/2014EF000265. URL:
http://doi.wiley.com/10.1002/2014EF000265.
Secretaría de Turismo. Uso Productivo de Big Data y Redes Sociales en el Sector Turismo. 2014.
URL: http://www.datatur.beta.sectur.gob.mx/Documentos%20Publicaciones/
2014_1_DocInvs.pdf.
Smith, Christopher, Afra Mashhadi y Licia Capra. Ubiquitous Sensing for Mapping Poverty in
Developing Countries. 2013. URL:
http://www.cities.io/wp-content/uploads/2012/12/d4d-chris-submitted.pdf.
Smith-Clarke, Christopher and Mashhadi, Afra and Capra, Licia. «Poverty on the Cheap:
Estimating Poverty Maps Using Aggregated Mobile Communication Networks». En:
Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. New York,
NY, USA, 2014. DOI: 10.1145/2556288.2557358. URL:
http://doi.acm.org/10.1145/2556288.2557358.
Soto, Victor y col. «Prediction of Socioeconomic Levels Using Cell Phone Records». En:
Springer Berlin Heidelberg, 2011, pp. 377-388. DOI: 10.1007/978-3-642-22362-4_35.
URL: http://link.springer.com/10.1007/978-3-642-22362-4%7B%5C_%7D35.
Statistics Without Borders and Humanity Road. Analysis of Twitter Data during Hurricane
Sandy. 2013. URL: http://www.slideshare.net/CatGraham/swb-hr-hurricanesandy-twitter-analysis.
Sutton, Paul C., Christopher D. Elvidge y Tilottama Ghosh. Estimation of Gross Domestic
Product at Sub-National Scales Using Nighttime Satellite Imagery. 2007.
Téllez, Omar. «Producing Unicorns in The Land Of Fútbol, Samba and El Dorado». En:
TechCrunch (2015). URL: http://techcrunch.com/2015/06/06/producing-unicornsin-the-land-of-futbol-samba-and-el-dorado/.
The World Bank, World Bank Group y Social Muse. Big Data in Action for Development. 2014.
URL: http://data.worldbank.org/news/big-data-in-action-for-development.
Thenkabail, P S, N Gamage y V U Smakhtin. «The Use of Remote Sensing Data for Drought
Assessment and Monitoring in Southwest Asia». En: International Water Management
82
Institute (2004). URL: http://www.iwmi.cgiar.org/Publications/IWMI%7B%5C_
%7DResearch%7B%5C_%7DReports/PDF/pub085/RR85.pdf.
United Nations Economic Commission for Europe (UNECE). What does “Big Data” Mean for
Official Statistics. 2013. URL:
http://www1.unece.org/stat/platform/pages/viewpage.action?pageId=77170614.
United Nations Global Pulse. Daily Tracking of Commodity Prices: The E-bread Index. 2011.
URL: http://www.unglobalpulse.org/projects/comparing-global-prices-localproducts-real-time-e-pricing-bread.
—
Rapid Impact and Vulnerability Analysis Fund (RIVAF) Final Report. 2012. URL:
http://www.unglobalpulse.org/sites/default/files/FINAL%20RIVAF%20REPORT%
20COMPILED_0.pdf.
—
«Mining Indonesian Tweets to Understand Food Price Crises». En: (2014). URL:
http://www.unglobalpulse.org/sites/default/files/Global-Pulse-MiningIndonesian-Tweets-Food-Price-Crises%20copy.pdf.
United Nations Statistical Commission. Big data and modernization of statistical systems. 2014.
URL: http://unstats.un.org/unsd/statcom/doc14/2014-11-BigData-E.pdf.
—
Report of the Global Working Group on Big data for official statistics. 2014. URL:
http://unstats.un.org/unsd/statcom/doc15/2015-4-BigData.pdf.
Urioste Braga, Fernando. Derecho de la información. Montevideo-Buenos Aires: B de F, 2009.
Velasco, Patricio y Pablo Viollier. «Información Financiera y Discriminación Laboral en Chile:
un Caso de Estudio Sobre». En: Derechos Digitales (2016). URL:
https://www.derechosdigitales.org/wp-content/uploads/big-data-informe.pdf.
Yuan, Q. y Et al. «Monitoring Influenza Epidemics in China with Search Query from Baidu».
En: PLOS ONE 8(5): e64323 (2013).
Zhang, Renhua y col. «Drought Monitoring in Northern China based on Remote Sensing Data
and Land Surface Modeling». En: IEEE International Geoscience and Remote Sensing
Symposium (IGARSS). Vol. 3. 1. IEEE, 2008, pp. III – 860–III -863. ISBN:
978-1-4244-2807-6. DOI: 10.1109/IGARSS.2008.4779485. URL:
http://ieeexplore.ieee.org/lpdocs/epic03/wrapper.htm?arnumber=4779485.
83
Descargar