DATA-POP ALLIANCE WHITE PAPER SERIES Oportunidades y requerimientos para aprovechar el uso de Big Data para las estadísticas oficiales y los Objetivos de Desarrollo Sostenible en América Latina Mayo 2016 DATA POP ALLIANCE Oportunidades y requerimientos para aprovechar el uso de Big Data para las estadísticas oficiales y los Objetivos de Desarrollo Sostenible en América Latina Julia Manske (autora principal y autora correspondiente) David Sangokoya (co-autor principal), Data-Pop Alliance Gabriel Pestre, Data-Pop Alliance Emmanuel Letouzé, Data-Pop Alliance Mayo 2016 Índice Prefacio 1 Introducción 2 1. El estado de los INE en América Latina: contexto y conceptos generales 1.1. El papel de los Institutos Nacionales de Estadística en América Latina y el Caribe 1.2. El estado de los INE en América Latina y el Caribe: retos actuales . . . . . . . . . . 1.3. Definiendo Big Data para las estadísticas oficiales y los ODS . . . . . . . . . . . . . . 7 7 9 12 2. Involucrar, innovar y descubrir Big Data en América Latina 2.1. Preparando el escenario: el ecosistema emergente de Big Data . . . . . . . . . . . . . 2.2. Los INE y Big Data: tendencias en América Latina . . . . . . . . . . . . . . . . . . . . 2.3. Big Data para los ODS en el ecosistema más amplio de actores . . . . . . . . . . . . . 2.4. Intentos internacionales de utilizar Big Data para las estadísticas oficiales y el desarrollo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 18 23 29 3. Retos y requerimientos para los INE que se involucren con Big Data para los ODS 3.1. Barreras institucionales para la innovación y la gestión del cambio . . . . . . . . . . 3.2. Limitaciones para el acceso y la completitud de los datos . . . . . . . . . . . . . . . . 3.3. Desafíos técnicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4. Brechas de capacidad de capital humano . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5. Desafíos metodológicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6. Riesgos éticos, de privacidad y políticos . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 38 40 42 43 45 48 36 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y los ODS 51 4.1. Cinco tendencias regionales que promueven el uso de Big Data en América Latina 51 4.2. Hacia una hoja de ruta regional de múltiples actores para Big Data: construyendo sobre las fortalezas y oportunidades regionales . . . . . . . . . . . . . . . . . . . . . . . 55 Glosario 61 Anexos 64 II Figuras 1. 2. 3. 4. 5. Mapa de los Institutos Nacionales de Estadística en América Latina y de proyectos en Big Data seleccionados de otros actores. . . . . . . . . . . . . . . . . . . . . . . . . . Uso de Internet por porcentaje de población en 2006 y 2014 . . . . . . . . . . . . . . Desarrollo mundial de la digitalización, 2013 . . . . . . . . . . . . . . . . . . . . . . . . Comparación de objetivos de los ODS auto-reportados . . . . . . . . . . . . . . . . . Hoja de ruta de recomendaciones para incorporar Big Data en proyectos de los INE en América Latina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 19 22 37 56 Cuadros 1. 2. 3. 4. 5. 6. 7. El INEGI como buena práctica en la región . . . . . . . . . . . . . . . . . . . . . . . . . Big Data vs. big data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . La diferencia entre Big Data y Datos Abiertos . . . . . . . . . . . . . . . . . . . . . . . Los INE en América Latina: el DANE Moderno de Colombia . . . . . . . . . . . . Twitter para monitorear el turismo en México . . . . . . . . . . . . . . . . . . . . . . . Morbilidad materna y teledetección de malaria en Brasil . . . . . . . . . . . . . . . . Uso de Google Trends para hacer predicciones en tiempo real sobre la actividad económica en Colombia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 16 17 24 26 28 31 Tablas 1. 2. 3. 4. Estadísticas de uso de Internet y población para países seleccionados de ALC, 2013 Descripción general de los proyectos de Big Data en INE seleccionados de ALC . Descripción general del ecosistema de Big Data en ALC . . . . . . . . . . . . . . . . . Organizaciones de la sociedad civil trabajando en derechos digitales . . . . . . . . . 20 27 32 36 Anexos 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. Taxonomía y ejemplos de fuentes de Big Data . . . . . . . . . . . . . . . . . . . . . . . Usos de Big Data para el monitoreo de los ODS . . . . . . . . . . . . . . . . . . . . . . Análisis de mensajes de redes sociales por el INE de Holanda . . . . . . . . . . . . . índices de precios por Cavallo (MIT) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Datos de luminosidad como proxy para las estadísticas económicas . . . . . . . . . Un sistema de información para precios de agricultura (DANE - Colombia) . . . . Open Intelligence en Mexico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Aprovechar las fuentes de Big Data y técnicas basadas en CDR para analizar los resultados y procesos socioeconómicos en Colombia: los casos de Seguridad Pública y Desarrollo Social . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Principales componentes de tecnologías de la información . . . . . . . . . . . . . . . Análisis DOFA agregado para los INE de ALC y Big Data . . . . . . . . . . . . . . . III 64 64 69 70 70 71 71 72 73 74 Prefacio Acerca de este documento Este documento se realizó en el marco de un proyecto apoyado por el Banco Mundial e implementado por Data-Pop Alliance en asociación con el Departamento Administrativo Nacional de Estadística de Colombia—DANE. Data-Pop Alliance es una coalición sobre Big Data y el desarrollo creada conjuntamente por la Iniciativa Humanitaria de Harvard, el MIT Media Lab y el Instituto de Desarrollo de Ultramar (ODI por sus siglas en inglés) para promover una revolución de Big Data centrada en las personas. Sobre los autores Este documento fue escrito por los siguientes autores: Julia Manske (autora principal y autora correspondiente: [email protected]) David Sangokoya (co-autor principal), Data-Pop Alliance Gabriel Pestre, Data-Pop Alliance Emmanuel Letouzé, Data-Pop Alliance Reconocimientos Esta versión se benefició de los comentarios de funcionarios del DANE, especialmente de Mara Bravo, Julieth Solano, y Arleth Sorith. Comentarios y observaciones adicionales se incorporarán antes de finalizar el documento. Esta versión se benefició de contribuciones significativas por parte de Andrés Clavijo, Investigador Principal y Coordinador para Colombia de Data-Pop Alliance; Natalie Shoup Directora de Programas de Data-Pop Alliance; Carson Martinez, Asistente de Investigación de Data-Pop Alliance; y Lauren Barrett, Estratega de Medios y Comunicaciones de Data-Pop Alliance. Financiamiento El financiamiento de este trabajo fue proporcionada por el Grupo del Banco Mundial cuyo apoyo se reconoce con profundo agradecimiento, así como por la Fundación Rockefeller quien provee un apoyo sustancial a las actividades de Data-Pop Alliance. Descargo de responsabilidad Las opiniones presentadas en este documento son exclusivas de los autores y no representan el punto de vista de sus instituciones. Citación sugerida “Oportunidades y requerimientos para aprovechar el uso de Big Data para las estadísticas oficiales y los Objetivos de Desarrollo Sostenible en América Latina”. Data-Pop Alliance (Harvard Humanitarian Initiative, MIT Media Lab y Overseas Development Institute). Mayo de 2016. Traducción Ana Lucía Martínez tradujo la versión original de este documento del inglés al español ([email protected]). 1 Introducción Los Institutos Nacionales de Estadística (en adelante INE) siguen siendo un pilar de las sociedades democráticas, pero compiten cada vez más con nuevos productores de datos tanto en el sector público como en el privado. Nuevas fuentes de datos (tales como datos de redes sociales, datos de teléfonos móviles, datos de satélites, etc.) han creado nuevas oportunidades y desafíos para la producción de estadísticas, su difusión y el compromiso con los beneficiarios, y han iniciado discusiones acerca de un nuevo conjunto de responsabilidades que va más allá de la medición pura, llegando a informar o incluso a crear conocimiento dentro de las sociedades. A la vez, los INE se están preparando para una nueva tarea: la “Revolución de los datos”. Este desarrollo global los pone en el centro de la agenda Post-2015 y su contribución en la medición de los Objetivos de Desarrollo Sostenible (en adelante ODS) será inevitablemente importante. Hay cierta evidencia de que Big Data podría ayudar a los INE a cumplir con su responsabilidad. Big Data como lo conocemos hoy es nuevo en todos los niveles. Algunos actores del sector privado lo utilizan activamente, mientras que las agencias gubernamentales apenas lo empiezan a reconocer. La llegada de Big Data influirá en el negocio de las organizaciones cuya actividad principal radique en la producción de datos estadísticos. Como era de esperarse, la discusión sobre “Big Data y estadísticas oficiales” se originó dentro de sistemas estadísticos de los INE que están bien establecidos. Sin embargo, en los países en desarrollo, muchos INE todavía tienen desafíos operativos básicos, tales como el acceso a registros administrativos, falta de colaboración entre los diferentes organismos gubernamentales, recursos financieros y capacidades insuficientes y la ausencia de marcos legislativos. Estos desafíos cuestionan la medida en que los INE podrían involucrarse activamente con Big Data. Los INE se rigen por marcos legales democráticos y cuentan con las herramientas básicas y el know-how para trabajar con datos de la manera más sensible, bajo la premisa de contribuir al bienestar de las sociedades, de acuerdo con el primero de los Principios Fundamentales de las Estadísticas Oficiales de las Naciones Unidas. Es por esto que los INE deben ser actores clave en la conformación de los ecosistemas de Big Data en sus respectivos países y regiones. En los países donde se reconozcan como un tercero de confianza, los INE serán cruciales en el contexto del intercambio de datos y en la formación de un contrapeso a los intereses del sector privado y los actores gubernamentales, en particular para salvaguardar la privacidad y la calidad de los datos. El ascenso de Big Data no implica necesariamente que la prosperidad de la sociedad se verá favorecida; las revelaciones de Edward Snowden, el uso opresivo de los datos por parte de los gobiernos para identificar y arrestar a personas inocentes y el poder creciente de algoritmos que permiten la discriminación contra los menos favorecidos, son indicadores suficientes de que Big Data también puede perjudicar a sociedades democráticas y sociedades basadas en los derechos humanos. La discusión social sobre la forma en que un mundo impulsado por los datos debe configurarse apenas comienza, mientras que (casi de manera automática) seguiremos creando más y más datos todos los días. Incluso desde un punto de vista oportunista, sería razonable que los INE se involucraran con 2 Big Data en la medida en que este cobra importancia y los gobiernos de todo el mundo ejercen influencia en este campo. Si los INE muestran liderazgo y se convierten en autoridades en Big Data, podrían recibir el reconocimiento y la prioridad por parte de los gobiernos que tan urgentemente necesitan, y con ello más recursos. Big Data puede ser importante estratégicamente para los INE en otros aspectos. Considerando que probablemente cuentan con un nivel mayor de experiencia en el desarrollo de técnicas y estándares relacionados con la recolección, edición y publicación de datos (por ejemplo, los metadatos y la anonimización de datos), los INE tendrán un papel evidente que desempeñar en la formulación de lineamientos en estas áreas para sus propios productos estadísticos y para otros organismos de los sistemas estadísticos nacionales. En América Latina, los INE podrían beneficiarse claramente de esta oportunidad. En comparación con sus homólogos de otras regiones en desarrollo, el sistema estadístico de América Latina es relativamente fuerte y la experiencia en la medición de los Objetivos de Desarrollo del Milenio (ODM) en los últimos 15 años provee algunos procesos y herramientas bien establecidos. Aún así, el carácter específico de los ODS presenta nuevos desafíos, mientras que muchos de los antiguos siguen sin resolverse: hay gran variabilidad en la calidad de los INE de la región; incluso los INE más avanzados todavía luchan con un acceso limitado a los registros administrativos, marcos legales indefinidos y escasos datos territoriales y desagregados, datos que jugarán un papel clave en la medición de los ODS. Sin embargo, con sistemas estadísticos mucho mejores que en otras partes del mundo, una amplia penetración en tecnología móvil e Internet, debates vibrantes sobre el gobierno de Internet y un impresionante movimiento de Datos Abiertos, América Latina podría convertirse en un terreno firme para las buenas prácticas en Big Data. Y, como se ilustra en este documento, algunos INE de América Latina están abordando cada vez más la tarea que se avecina. Están trabajando en pilotos y proyectos, y están investigando el potencial de Big Data. Este informe señala las oportunidades y desafíos que Big Data presenta para los INE de la región latinoamericana en el contexto de los ODS, identifica las actividades con Big Data que los actores de los INE y otros institutos están llevando a cabo actualmente y proporciona recomendaciones para los INE de la región para el desempeño de un rol en la evolución de las estadísticas oficiales y de los ODS en el ecosistema de Big Data de la región. En términos más amplios el informe busca dar respuesta a las siguientes preguntas: 1. ¿Cuál es el estado actual de los INE en América Latina? 2. ¿Cómo se han involucrado y pueden involucrarse los INE con Big Data orientado hacia las estadísticas oficiales y los ODS? 3. ¿Qué tipos de nuevos retos enfrentan los INE en la adopción de Big Data? 4. ¿Cómo pueden alinearse estas innovaciones a las estrategias nacionales y regionales? El resto del informe se organiza como sigue: la primera sección del documento describe el estado de los INE en América Latina, detallando su papel en el contexto de la agenda Post-2015, los retos 3 actuales y, conceptualmente, el uso de Big Data para las estadísticas oficiales y la medición de los ODS. En la siguiente sección de este documento, revisamos el universo de las actividades en Big Data que los INE de la región están llevando a cabo, así como las actividades de otros actores en un ecosistema más amplio de Big Data y de sistemas estadísticos en América Latina. Esto incluye una descripción general de los pilotos e iniciativas en Big Data en desarrollo dentro y fuera del sistema estadístico. En las últimas secciones del documento, se analizan los retos específicos para una adopción más amplia de Big Data por parte de los INE, se proporcionan recomendaciones para los próximos pasos en el involucramiento de los INE con Big Data y, por último, se discuten una serie de recomendaciones para crear una hoja de ruta regional para los INE y otros actores que lleve hacia un mayor involucramiento regional con Big Data. 4 Figura 1: Mapa de los Institutos Nacionales de Estadística en América Latina y de proyectos en Big Data seleccionados de otros actores. Wikipedia y elaboración de Gabriel Pestre Mapa de FreeVectorMaps.com 5 Wikipedia y elaboración de Gabriel Pestre 6 1. El estado de los INE en América Latina: contexto y conceptos generales 1.1. El papel de los Institutos Nacionales de Estadística en América Latina y el Caribe Los países de América Latina, con diferencias geográficas y socioeconómicas significativas y, por tanto, una gran variedad de desafíos estadísticos a nivel regional, han desarrollado una fuerte tradición en las estadísticas oficiales, centrada en sus Institutos Nacionales de Estadística. Como se señala en el informe de 2010 de la Comisión Económica para América Latina y el Caribe (en adelante CEPAL), los INE de la región rigen por ley la recolección de datos para la producción y difusión de estadísticas, gestionan la estrategia para la implementación de encuestas nacionales a largo plazo y, por lo general, proporcionan lineamientos y liderazgo dentro de sistemas estadísticos nacionales principalmente descentralizados.1 Durante la última década, los INE de la región han realizado importantes avances en la recolección, producción y difusión de datos oficiales en las siguientes áreas: censos de población, encuestas a hogares, encuestas de ingresos y gastos, cuentas nacionales y estadísticas económicas, estadísticas de precios, estadísticas de género, estadísticas vitales, estadísticas de educación, estadísticas ambientales y estadísticas de TIC. La región tiene una gran tradición en la realización de censos que producen datos de terreno más o menos sólidos a través de la región. Casi todos los países de América Latina y el Caribe han realizado un censo de población en los últimos diez años y cerca de la mitad de ellos realiza encuestas a hogares cada cinco años.2 A medida que los INE continúan desarrollando y superando los desafíos estadísticos de la región, la agenda de desarrollo post-2015 y la creación de los Objetivos de Desarrollo Sostenible (ODS) han puesto de relieve la necesidad que los INE aborden los retos estadísticos para el desarrollo y asimismo incorporen enfoques y oportunidades innovadores a través de nuevas fuentes de datos. La adopción de los ODS involucra una compleja serie de objetivos con 169 metas que cubren dimensiones ambientales, económicas, sociales y gubernamentales. El primer borrador incluye 310 indicadores alineados con las metas. La experiencia con los ODM nos ha enseñado que se necesitan nuevas mediciones más allá de los promedios nacionales y las agregaciones; los ODS se proponen identificar con precisión a las personas más vulnerables, marginadas y pobres, requiriendo datos a nivel local y desagregados por grupos demográficos (por ingresos, género, edad, raza, etnia, condición migratoria, discapacidad, ubicación geográfica y otras características relevantes en contextos nacionales). Sin embargo, este nivel de desagregación no está disponible actualmente en muchos países. Para algunos de los indicadores, los datos adecuados ni siquiera están disponibles en forma agregada. El avance de la agenda de desarrollo post-2015 sitúa a los INE en el centro de las actividades de los 1 2 Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2010. Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2010. 7 ODS. El Grupo Asesor de Expertos Independientes del Secretario General de la ONU enfocado en la Revolución de los Datos para el Desarrollo Sostenible (en adelante IEAG por sus siglas en inglés) en su informe A World that Counts (Un Mundo que Cuenta) solicita a los países miembros de la ONU fortalecer las capacidades de sus INE para alcanzar una “revolución de los datos.” Hay varias razones por las que los INE deben tener un papel activo en la recolección y producción de datos para los ODS: 1. Por lo general, los INE tienen más experiencia que otros actores en la recolección de datos. 2. Los datos sobre desarrollo y sociedad son un bien público; por lo tanto, tiene sentido que los organismos públicos sean quienes los produzcan y que se desarrolle su capacidad para hacerlo. 3. Los INE suelen tener los más altos estándares metodológicos. 4. Los datos de un país idealmente los debe producir y deben pertenecer a ese país, con el fin de promover la eficiencia en la asignación, aumentando la legitimidad y el uso por parte de los responsables de formular políticas. 5. Los Estados jugarán un papel central en encaminar los avances nacionales hacia el cumplimiento de los ODS. Los funcionarios requieren datos para guiar la elaboración de sus políticas y los organismos oficiales deben ser los responsables de su recolección. Además, hay que señalar aquí que, independientemente del potencial específico para la medición de los ODS, los INE deben participar en la discusión en todo caso. Es su mandato fomentar el conocimiento sobre y entre las sociedades que les otorgaron ese mandato. Según lo indicado por el Principio 1 de los Principios Fundamentales de las Estadísticas Oficiales, “Las estadísticas oficiales constituyen un elemento indispensable en el sistema de información de una sociedad democrática y proporcionan al gobierno, a la economía y al público datos acerca de la situación económica, demográfica, social y ambiental.” Si la comunidad internacional cree en la necesidad democrática de las estadísticas oficiales, es evidente que se trata de una cuestión política el por qué los INE deben involucrarse con Big Data, y no simplemente una cuestión técnica de si deben o no y la forma en que deberían ‘usar’ grandes flujos de datos.3 Big Data debe, poco a poco y con el tiempo, lograr hacer parte de los recursos e instrumentos aprovechados para cumplir con este mandato y para proporcionar una imagen de un país, su economía y su población que puedan convertirse en conocimiento. Existe el riesgo de que aquellos que informen sobre el estado de las sociedades utilizando Big Data, eventualmente obtengan una gran cantidad de poder creado por el conocimiento producido fuera del alcance de la supervisión y las decisiones democráticas. Ya que los INE se guían por marcos legales establecidos y tienen un mandato específico, podrían desempeñar el papel de guardianes para garantizar la calidad de las nuevas fuentes de datos, como también para gestionar los aspectos negativos de la revolución de los datos, tales como cuestiones de privacidad y confidencialidad.4 3 4 Letouzé 2013. Letouzé 2013. 8 Sin embargo, los INE ya no son los únicos actores que producen y recolectan datos sobre la sociedad. Como resultado de la digitalización y del aumento continuo de datos de la web, un número creciente de nuevos actores se han convertido en productores de datos. Por ejemplo, los investigadores de mercado están adquiriendo un entendimiento muy preciso sobre sus clientes (y por lo tanto sobre ciudadanos) a través del análisis automatizado de conjuntos de datos digitales procesados a alta velocidad. Los datos que seres humanos y máquinas generan de forma pasiva en altos volúmenes y con alta velocidad, tales como datos de redes sociales o registros de teléfonos móviles, se denominan Big Data. Además, las tecnologías digitales han reducido los costos de producir y publicar datos, han facilitado la distribución y visualización de datos y, por consiguiente, han democratizado el acceso a los datos y han creado nuevos usos para ellos. En América Latina esto se puede ver de manera prominente en países como Uruguay y Brasil los cuales han adoptado activamente el movimiento de Datos Abiertos.5 Hoy en día, la intervención inteligente de los datos se convierte en un elemento esencial para tener una idea robusta de los requerimientos de las sociedades y los ciudadanos, y por lo tanto para la formulación de políticas basadas en la evidencia. Estos acontecimientos provocaron una discusión vital sobre el papel de los INE y la necesidad de estos de evolucionar, para dejar de ser sólo productores de datos y pasar a ser facilitadores de información comprensible que se pueda convertir en conocimiento sobre la realidad. Este rol abarca todas las etapas del proceso estadístico, desde la recolección de datos hasta su difusión.6 El informe del IEAG destaca la necesidad de un cambio institucional hacia la innovación y un uso mucho más eficiente de la tecnología para mejorar el desempeño de todos los actores involucrados en la producción y recolección de datos.7 1.2. El estado de los INE en América Latina y el Caribe: retos actuales A medida que el papel de los INE continúa evolucionando, los INE en América Latina y el Caribe (ALC) deben considerar tres categorías de desafíos que actualmente dificultan las actividades de estadísticas oficiales en toda la región: la calidad de datos en general, la cobertura y las consideraciones legislativas. La calidad, incluye confiabilidad, oportunidad (el tiempo transcurrido entre el período de referencia y la disponibilidad de las estadísticas), interpretabilidad (la disponibilidad de metadatos que refleja la facilidad con la que el usuario puede entender y utilizar correctamente los datos) y cumplimiento (el grado en que las estadísticas cumplen con normas internacionales pertinentes). Contrario a las expectativas, y aunque el número de censos es alentador, la calidad de los datos no siempre mejora. Como se demostró en la ronda de censos de 2010, Paraguay y Chile tuvieron varios problemas en sus últimos censos “con una sub enumeración estimada alrededor de 26,0 % y 9,3 % respectivamente. Cifras de omisión censal como éstas, después de 5 Open Data Research Network 2014. Giovannini 2010. 7 Data Revolution for Sustainable Development (IEAG) 2014. 6 9 décadas de experiencia en la recolección de datos, son inconcebibles.”8 Incluso en países con sistemas estadísticos fuertes, se ven una serie de problemas. El censo en Colombia que se planeó para ser ejecutado en el 2015 se ha pospuesto y ahora está previsto que tenga lugar en el 2016. El censo agropecuario no se renovó durante más de 40 años,9 hasta que se llevó a cabo con éxito en el 2014. En Brasil, el recuento de población de 2015 fue cancelado recientemente a pesar de que se había planeado durante años. Con frecuencia, los recortes presupuestales (por ejemplo, para algunos países debido a la reciente disminución de los precios del petróleo) y la mala planificación a largo plazo son las razones de estos efectos colaterales. Algunas veces, diseños de encuesta deficientes conducen a una falta de conjuntos de datos cualitativos: por ejemplo, en Bolivia, en el último censo un alto porcentaje de las mujeres respondió “Sin especificar” cuando se les preguntó si tenían hijos. Como resultado, no se sabe si la mitad de la población mayor de 15 años ha tenido hijos.10 Un proyecto piloto sobre mortalidad materna realizado por la CEPAL/CELADE identificó las dificultades en la estimación de la mortalidad materna en América Latina debido a la falta de certificación o registro en las zonas habitadas por poblaciones indígenas o en zonas remotas.11 Las estadísticas vitales y los sistemas de registro civil, que serán particularmente importantes para la medición de los ODS, a menudo son débiles en toda la región. Una gran parte de las regiones de ALC carecen de datos sobre variables tales como la edad de las madres, el peso al nacer de los niños y el lugar de residencia o las características socioeconómicas de los padres. Los datos sobre las causas de muerte también son con frecuencia imprecisos o inexistentes, lo que impide comprender los verdaderos niveles de riesgo y prevalencia de enfermedades en los países, obstaculizando la formulación de perfiles epidemiológicos de mortalidad.12 En contraste con su experiencia en encuestas y censos, muchos INE siguen luchando con el acceso y el uso de datos administrativos (como se describe más adelante) a pesar de que se han logrado mejoras en el acceso en los últimos dos años.13 La cobertura, se refiere al grado en que las estadísticas responden a los requisitos en términos de variables, detalle, frecuencia, unidades de medida, cobertura histórica y disponibilidad. Los datos de pobreza, la cuantificación de las mediciones de la desigualdad y la desagregación de información para la identificación de brechas sociales, económicas y ambientales también siguen siendo problemáticos.14 En otras áreas, por ejemplo en términos de indicadores de género, el desafío actual va más allá de la desagregación de indicadores para el monitoreo de la agenda de desarrollo post-2015. Éstos apuntan a la necesidad de una interacción más activa entre los técnicos, que diseñan y utilizan la información, y los especialistas temáticos (por ejemplo sobre género).15 8 Cavenaghi 2015. Cavenaghi 2015. 10 Cavenaghi 2015. 11 Cobos, Miller y Salguero 2013. 12 Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2010. 13 Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2010. 14 Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2015a. 15 Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2015a. 9 10 Al igual que en muchos otros países en desarrollo, la desagregación de los datos a nivel subnacional en ALC es a menudo insuficiente, hecho que le dificulta a los hacedores de políticas o las comunidades comparar su progreso con el de otras comunidades o con el del país.16 Esto es particularmente interesante en América Latina, donde existen enormes diferencias socioeconómicas entre las zonas rurales y las urbanas, como también entre diferentes grupos como los ind. Esto crea obstáculos para proporcionar datos sólidos para medir el progreso de los ODS. Consideraciones legislativas: Muchos INE de América Latina aún carecen de marcos institucionales y jurídicos adecuados. Esto tiene implicaciones sobre las buenas prácticas y la transparencia. Muchos prefieren basarse en regulaciones no obligatorias o completamente voluntarias, como los códigos nacionales de buenas prácticas, aunque haya argumentos convincentes para la creación de organismos estadísticos autónomos y apolíticos, así como condiciones bajo las cuales las estadísticas estén aisladas de la política.17 Adicionalmente, con frecuencia la gestión presupuestal no es independiente del resto del gobierno. Además, en muchos países de ALC los puestos directivos son seleccionados por los gobernantes y los ocupan funcionarios públicos de alto nivel o ministros del gobierno.18 Eventos como el escándalo que rodeó al Instituto Nacional de Estadística y Censos de Argentina (INDEC), que fue presuntamente manipulado por el gobierno de Kirchner, desacreditan a los INE en toda la región y ponen su confiabilidad en tela de juicio. La confianza y transparencia limitadas de los procesos estadísticos presentan impedimentos significativos. Ciertamente, la adopción y revisión de la legislación estadística para garantizar la independencia de los INE en muchos países supone un paso importante hacia la mejora de su credibilidad, como se ha visto en México (ver Cuadra 1). Afortunadamente, se ve una tendencia en toda la región hacia la introducción de sistemas gestionados de manera pública en la que los puestos directivos de las oficinas de estadística se ocupan a través de un mecanismo competitivo de contratación.19 Adicionalmente, legislaciones deficientes conducen a mandatos indefinidos con respecto a la recolección y el acceso a los datos. Por ejemplo, la generación de estadísticas desde registros administrativos es todavía limitada, comúnmente debido a que no hay leyes claras que permitan a los INE solicitar esta información a otras agencias. La interoperatividad entre las instituciones gubernamentales usualmente plantea un desafío y muchos INE compiten con otros ministerios y organismos en lugar de colaborar. Un hecho positivo es que en virtud del artículo 150 del Plan Nacional de Desarrollo de Colombia, el DANE logró un mejor control del aprovechamiento de registros administrativos con fines estadísticos.20 16 Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2015a. Khan y Stuart 2015. 18 Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2010. 19 Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2010. 20 Congreso de la República de Colombia 2014. 17 11 1.3. Definiendo Big Data para las estadísticas oficiales y los ODS Big data, como una nueva fuente de datos, es potencialmente interesante para alimentar las estadísticas oficiales, utilizándose tanto como recurso en sí mismo, como en combinación con fuentes de datos más tradicionales como las encuestas por muestreo y los registros administrativos. Tiene el potencial para producir estadísticas más relevantes y más oportunas que las fuentes tradicionales.21 Por ejemplo, el análisis de los comentarios, consultas de búsqueda o publicaciones en línea puede producir casi los mismos resultados para la inferencia estadística, pero más rápido y a un costo menor que las encuestas y sondeos a hogares. A través de Google Trends, los datos sobre empleo se pueden monitorear de forma gratuita y en tiempo real.22 Este ejemplo ilustra que hay más en el fenómeno de “big data” como una nueva fuente, así como había algo más en la industrialización que los hidrocarburos y la electricidad. Con la llegada de Big Data, llegan nuevos actores, capacidades e instrumentos que están siendo y serán modelados por la sociedad. Cuando hablamos de este fenómeno más amplio, cuyo potencial transformador se puede comparar con la de la industrialización, se habla de “Big Data” (con mayúsculas) y no solo de “big data.” Cuadro 1: El INEGI como buena práctica en la región El Instituto Nacional de Estadística y Geografía de México (INEGI) proporciona un claro ejemplo de las mejores prácticas para el desarrollo de las estadísticas en la región. En 2008, se transformó en una institución totalmente autónoma, gobernada por una junta directiva nombrada por el Presidente de la República y el Senado. Las operaciones del INEGI están respaldadas por una ley que permite a la institución ejercer efectivamente un papel de liderazgo en todo el sistema estadístico nacional. El INEGI se beneficia claramente de recursos financieros sólidos que le permite contratar personal altamente profesionalizado. EL INEGI es la contraparte técnica de diversos esfuerzos nacionales, tales como la aplicación de la estrategia de datos abiertos. Debido a la adhesión de México a la OCDE, el INEGI también adquiere puntos de vista y la experiencia del intercambio institucionalizado a nivel internacional. Big Data se refiere no sólo a los datos sino también a las instituciones y el ecosistema más amplio que lo produce y utiliza.23 Este ecosistema se puede describir como la unión de las migajas de Big Data (nueva clase datos generados de forma pasiva), la capacidad (técnica y humana para generar entendimiento a partir de estos datos) y la comunidad (nuevos actores del sector privado y la comunidad de investigación, por ejemplo).24 Big Data tiene tres características e implicaciones principales que ponen de relieve su potencial para complementar y ampliar el trabajo existente de los INE (ver Cuadro 2). 21 United Nations Statistical Commission 2014a. Hubbard 2011. 23 Pentland 2012. 24 Pentland 2012. 22 12 1. Big Data ofrece nuevas fuentes de datos En primer lugar, a veces no es claro qué tipo de datos se pueden definir realmente como Big Data. En la actualidad, observamos una cierta ambigüedad en el uso de términos tales como datos abiertos, datos inteligentes, thick data, big data, y Big Data (con mayúsculas). Todos estos serán componentes importantes en la realización de una revolución de los datos. Pero el big data tiene cualidades muy marcadas que lo diferencian de las fuentes convencionales de datos: son de gran volumen y pueden componerse de muchos tipos de fuentes generadoras y por tanto, ser estructurados y no estructurados. Por ejemplo, aunque los registros administrativos (una de las principales fuentes utilizadas por muchos INE) se componen de grandes cantidades de datos y hojas de cálculo extensas, no serán considerados como Big Data mientras que su velocidad no aumente, si su recolección fuera diaria.25 mientras que establecer un almacén de datos es un paso importante para el procesamiento de conjuntos de Big Data, su principal característica es la de almacenar grandes cantidades de datos estructurados, que a menudo constituyen big data, pero no necesariamente Big Data. El Big Data puede componerse de todo tipo de fuentes generadoras de datos y por lo tanto puede ser a la vez estructurado y no estructurado. 2. Big Data proporciona una mayor diversidad de fuentes de datos Esto lleva a la segunda cuestión: Big Data no se trata de los datos ni de su tamaño, como varios investigadores lo han señalado.26 Se trata de “datos diferentes que pueden contener señales que no estaban disponibles hace unos pocos años y que ‘nosotros’ todavía no sabemos como leer o usar,”27 y que no se ha solicitado de forma activa e intencional por estadísticos o investigadores. A diferencia de los datos recogidos a través de fuentes tradicionales con el objetivo de responder a una pregunta, Big Data podría dar respuestas a preguntas que ni siquiera han sido formuladas. Son datos nuevos y deben ser considerados “como huellas digitales de acciones humanas generadas de forma pasiva por individuos.”28 3. Big Data tiene el potencial de complementar y mejorar las actividades estadísticas en curso a través de sus cuatro funciones Big Data como un ecosistema tiene el potencial de mejorar y complementar las actividades de estadísticas oficiales mediante la sustitución de determinados indicadores y procesos de medición. Big Data puede alimentar el proceso estadístico a través de sus cuatro funciones: 1. Descriptiva—a través de mapas, estadísticas descriptivas, visualizaciones, etc. 25 United Nations Economic Commission for Europe (UNECE) 2013. King 2013. 27 Letouzé 2013. 28 Letouzé 2013. 26 13 2. Predictiva—para hacer inferencias acerca de las condiciones actuales y predicciones sobre eventos futuros; a) La predicción como proxy, donde Big Data se utiliza para predecir el grado de relación de otra variable (por ejemplo la pobreza); esto también se conoce como inferencia o now-casting (predicción a muy corto plazo). b) Pronosticar, donde se evalúa la probabilidad de que algunos eventos sucedan en el futuro cercano o lejano. 3. Prescriptiva—también conocida como diagnóstica, para hacer inferencias causales con Big Data, donde el análisis de registros de detalles de llamada (en adelante CDR por sus siglas en inglés) ayudará a revelar relaciones informales que vinculan el uso del teléfono celular con el resultado, o de manera general ayudará a determinar intervenciones específicas. 4. Discursiva—también conocida como el involucramiento, donde “se estimula y forma un diálogo dentro y entre las comunidades y con los actores clave,” reconociendo que “el potencial a largo plazo de Big Data reside en su capacidad para concientizar los ciudadanos y los empodera para tomar acción.” La experimentación con Big Data puede aplicarse a procesos, resultados y ODS relacionados que:29 estén correlacionados con (es decir, que se muestren en) tendencias y patrones en la producción de datos de algún tipo; actualmente se monitoreen a través de medios tradicionales (que proporcionan “datos de terreno” sin los que no es posible la calibración o sin los que se requeriría hacer suposiciones); se consideren como relativamente más ‘importantes’ en términos universales (por ejemplo resultados de pobreza a partir del ingreso, salud y educación), así como en términos contextuales; sean aplicables a ‘nuevos’ tipos de sectores y objetivos, como la cohesión social, la predicción del crimen o el bienestar subjetivo. Algunos argumentan que estos instrumentos serán mucho más baratos que la recolección tradicional de datos, en particular las encuestas, que siguen siendo altamente costosas y que en algunos países aún no se pueden hacer por vía electrónica. Además, Big Data podría contribuir a la mejora de algunos aspectos de la calidad de las estadísticas, tales como la oportunidad y completitud, sin comprometer su pertinencia, imparcialidad y rigor metodológico.30 También podría complementar o sustituir otras formas tradicionales de medición de aspectos de la 29 30 Letouzé 2015. United Nations Statistical Commission 2014a. 14 realidad humana, como la mortalidad, la violencia o el hambre, tal como diversos proyectos piloto de investigación lo han demostrado (algunos de ellos se documentan en este informe).31 Big Data también podría ayudar a llenar vacíos de datos en áreas temáticas y monitorear objetivos donde los datos son escasos; esto es particularmente relevante en el contexto de los ODS. El objetivo general de la agenda post-2015 es eliminar la pobreza global como se indica en el Objetivo 1 de los ODS (Erradicar la pobreza), se evidencia en el Objetivo 10 (Reducir las desigualdades) y en varios indicadores de otros objetivos. Sin embargo, los datos de pobreza, recolectados principalmente a través de costosas encuestas a hogares, son escasos en muchos países, particularmente a un nivel desagregado (es decir, cuando representan pequeñas unidades geográficas, como ciudades, pueblos y aldeas) y actualizado. Big Data ofrece una oportunidad para cerrar esta brecha. En regiones desarrolladas, se han llevado a cabo investigaciones utilizando medios sociales para medir niveles socioeconómicos. Sin embargo, estas fuentes de datos de por si plantean sesgos demográficos en regiones desarrolladas, los cuales son mayores en el Hemisferio Sur. Entretanto, los teléfonos móviles tienen por lo general una alta penetración y por ende ofrecen datos más representativos, aunque incluso en este caso, la representatividad no está garantizada32 Ante todo, Big Data define un punto de inflexión en la producción de estadísticas oficiales y la combinación creativa, relevante y responsable de estas estadísticas con estadísticas no oficiales. Si se implementa, se desmantelará el paradigma tradicional de los sistemas estadísticos en todos los niveles de aplicación y se provocará un giro institucional. Big Data afectará a los INE en varios niveles, incluyendo la recolección, la gestión de la calidad, la agregación, el análisis (o la producción de servicios) y por último, la visualización y asignación de los datos. La tabla del Anexo 2 resalta y referencia los usos de Big Data hacia el monitoreo de los ODS. Además de la innovación en la recolección y uso de los recursos actuales, la revolución de los datos también apunta a la posibilidad de utilizar Big Data para medir los ODS y el papel que los INE podrán desempeñar en el involucramiento con estos recursos. A medida que la conversación a nivel global apunta a las posibilidades de apalancar Big Data para las estadísticas, ¿cómo han y cómo pueden los INE de América Latina participar en esta gran revolución de los datos? ¿Qué desafíos únicos enfrentan? 31 Letouzé 2015. A penetration rate of 100 or more does not mean that there hundred percent of a population actually own and use a phone. 32 15 Cuadro 2: Big Data vs. big data Big Data (con mayúsculas) en este documento (y otros) se refiere al ecosistema creado por la aparición concomitante de “las 3C de Big Data.” La primera C representa las migajas (crumbs en inglés), o pedazos de datos emitidos y recolectados de forma pasiva, subproducto de la interacción de las personas con y el uso de dispositivos digitales que proporciona una visión única sobre sus comportamientos y creencias; La segunda C representa las Capacidades de Big Data, lo que también se conoce como Big Data Analytics; es decir, el conjunto de herramientas y métodos, hardware y software, know-how y habilidades necesarios para procesar y analizar este nuevo tipo de datos, incluyendo técnicas de visualización, aprendizaje estadístico automatizado (machine learning), algoritmos, etc.; La tercera C representa las Comunidades de Big Data, y describe los diferentes actores involucrados en el ecosistema de Big Data, desde los generadores de datos hasta sus analistas y usuarios finales; es decir, potencialmente toda la población. Este ecosistema puede ser descrito y analizado como un sistema complejo, es decir, uno donde existen bucles de retroalimentación entre sus diferentes partes. En los niveles más básicos, las nuevas empresas (por ejemplo Twitter o sus futuros competidores) ayudan a generar nuevos tipos de datos que a su vez conducen al desarrollo de nuevos tipos de instrumentos analíticos, dando lugar a nuevos tipos de datos, y luego a nuevos actores que toman ventaja de estos nuevos datos y herramientas. Es posible que este nuevo ecosistema pueda convertirse en o ser parte de un fenómeno social más amplio. Por el contrario, big data se refiere a la primera C mencionada anteriormente; es decir, los flujos y los conjuntos resultantes de las huellas digitales que dejan los seres humanos al usar teléfonos celulares (registros de llamadas), tarjetas de crédito (transacciones), el transporte (registros de metro o autobús y de EZ Pass), medios sociales y motores de búsqueda, o cuando sus acciones son registradas por sensores, ya sean físicos (contadores eléctricos, sensores de pesaje en un camión) o remotos (satélites, cámaras). 16 Cuadro 3: La diferencia entre Big Data y Datos Abiertos A pesar de que tanto Big Data como los Datos Abiertos por lo general toman la forma de grandes conjuntos de datos dispuestos para usos superpuestos con herramientas similares, son conceptos distintos. Como se menciona anteriormente, Big Data se puede caracterizar como un ecosistema de datos generados sobre y por la gente como un sub-producto del uso de dispositivos y plataformas digitales (migajas), las nuevas herramientas y métodos desarrollados para recolectar, procesar y analizar dichos datos (capacidades) y el conjunto de individuos y actores institucionales que hacen uso de los datos y capacidades (comunidades). El término Datos Abiertos generalmente se refiere a datos que se vuelven de dominio público, con tan pocas barreras legales y técnicas como sea posible. Esto puede incluir datos del gobierno, tales como datos de presupuesto, datos meteorológicos o registros administrativos, datos científicos, así como datos en manos de las ONG o empresas privadas. Sin embargo, en la mayoría de los casos, contiene datos estructurados. Muchas de las herramientas y capacidades que se desarrollan y utilizan con estos datos son comunes a ambas categorías. Mientras que alguna vez fue demasiado costoso y técnicamente difícil recolectar información sub-producto de otras actividades (en el caso de Big Data) o distribuir ampliamente los datos existentes (en el caso de Datos Abiertos), la disminución del costo del almacenamiento y la mejora en las capacidades de procesadores y dispositivos asequibles han hecho posible el desarrollo tanto de Big Data como de los Datos Abiertos. Por lo tanto, mientras que la nueva velocidad y escala con la que ahora es posible almacenar y procesar la información ha permitido que tanto Big Data como los Datos Abiertos se popularicen (simultáneamente), en realidad son conceptos diferentes: lo primero se refiere, fundamentalmente, al origen de los datos y lo segundo se relaciona más con el uso que se les da.a De hecho, los datos pueden ser a la vez grandes (Big) y abiertos, como por ejemplo es el caso de las bases de datos públicas de datos meteorológicos recolectados a través de la teledetección. Sin embargo, en ciertos casos, Big Data no es o no puede hacerse pública por los INE. Esto puede ocurrir por una variedad de razones legales, éticas, técnicas o financieras. Por ejemplo, mientras que el sector público y la comunidad académica podrían hacer un uso interesante de los conjuntos de datos de CDR si se hicieran públicos, actualmente están en manos de los proveedores de telefonía celular, que tienen un desincentivo financiero para poner esta información a disposición de sus competidores y una obligación legal y ética con sus clientes de mantenerlos privados. Por el contrario, hay algunas fuentes muy interesantes de datos, como los registros de las quejas de los consumidores contra las empresas, que si se hacen públicos podrían traer beneficios para la sociedad; sin embargo estos registros no llegan a ser Big Data (ya que son reportados por los clientes de forma activa en vez de ser recolectados pasivamente a través de otros usos). Como parte del ecosistema de datos más grande, los Datos Abiertos pueden informar y mejorar otros análisis de datos, por ejemplo, en el contexto de Big Data. El Open Data Institute en Londres también habla del espectro de datos para diferenciar entre diferentes fuentes de datos y los términos utilizados en este contexto.b El Open Data Institute en Londres también habla del espectro de datos para diferenciar entre diferentes fuentes de datos y los términos utilizados en este contexto. https://theodi.org/data-spectrum a b Gurin 2014. Open Data Institute 2015. 17 Involucrar, innovar y descubrir Big Data en América Latina 2. 2.1. Preparando el escenario: el ecosistema emergente de Big Data Como en el resto del mundo, América Latina está experimentando una revolución digital con el aumento del uso y acceso a tecnologías móviles y conexión a Internet. Al igual que en África y Asia, la tecnología móvil ha crecido rápidamente en la última década. Nuevas fuentes de datos, como los CDR generados por tecnologías digitales, y definidos como big data, son el combustible del ecosistema de Big Data. Estos tipos de fuentes de datos pueden ser utilizados para mejorar y complementar los procesos estadísticos. Sin embargo, su pertinencia para las operaciones estadísticas depende en gran medida de su disponibilidad. Es importante destacar que los datos de tecnología móvil, medios sociales e Internet pueden ser relevantes para propósitos estadísticos, únicamente si las tasas de penetración son lo suficientemente altas. Y como es lógico, no todas las fuentes de datos están igualmente disponibles en todos los países. Por tanto, estimar el potencial de Big Data para la región de ALC requiere evaluar primero qué tipos de fuentes de datos están realmente disponibles. Una de las características únicas de América Latina es que su infraestructura es en gran medida heterogénea. Esto significa que a la hora de evaluar fuentes de datos, o más específicamente, un índice de digitalización que tenga en cuenta la penetración de Internet, tanto la cantidad como el nivel socioeconómico de los usuarios de Internet varía considerablemente.33 El sesgo de los datos y de las metodologías se amplían en la sección 3.5. Internet Uruguay, Chile, Costa Rica y Argentina tienen altas tasas de penetración de Internet, así como una menor desigualdad en términos de acceso (es decir, entre las zonas rurales y urbanas y los niveles socioeconómicos).34 Este no es el caso en otros países de América Latina. Si bien es difícil desagregar los datos actuales sobre TIC, datos antiguos del Observatorio para la Sociedad de la Información en Latinoamérica y el Caribe (OSILAC) de una encuesta realizada en 2010 muestra que el acceso a Internet para los hogares más ricos de la región excede las tasas de acceso de los segmentos más pobres por un factor de 44: “Efectivamente, hay una fuerte correlación entre el acceso a Internet y los patrones más amplios de pobreza, desigualdad, clase socioeconómica y urbanización.35 ” En zonas rurales, muchas personas todavía no tienen ninguna clase de acceso a Internet. En Brasil y Colombia, la brecha de acceso entre los hogares urbanos y rurales con conexión fija a Internet supera los 30 puntos porcentuales.36 En el uso 33 Katz 2015. Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2015b. 35 Informa 2011. 36 Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2015b. 34 18 Figura 2: Uso de Internet por porcentaje de población en 2006 y 2014 Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL). The new digital revolution: From the consumer Internet to the industrial Internet. 2015. URL: http://repositorio.cepal.org/bitstream/handle/11362/38767/S1500587_en.pdf International Telecommunication Union. World Telecommunication/ICT Indicators database, 19th Edition. 2015. URL: http://www.itu.int/en/ITU-D/Statistics/Pages/publications/wtid.aspx 19 industrial de Internet también se ve una brecha a nivel de los países.37 Al mismo tiempo que vemos una tendencia creciente en las brechas al acceso a Internet en los países latinoamericanos (ver Figura 2), América Central presenta en general las tasas más bajas de penetración. Costa Rica y Nicaragua, con la mayor y menor tasa de penetración respectivamente, se destacan en la Tabla 1 continuación, siendo Costa Rica claramente una excepción de América Central. El índice general de penetración de Internet es de 49, 9 % en toda la región.38 Tabla 1: Estadísticas de uso de Internet y población para países seleccionados de ALC, 2013 País Población (Est. 2014) Uso de Internet (a 31-dic-2013) % Población (Penetración) Argentina 43 024 374 32 268 280 75,0 Bolivia 10 631 486 4 199 437 39,5 Brasil 202 656 788 109 773 650 54,2 Chile 17 363 894 11 546 990 66,5 Colombia 46 254 297 28 475 560 61,6 Costa Rica 4 755 234 4 028 302 84,7 Guatemala 14 647 083 2 885 475 18,6 120 286 655 59 200 000 49,2 5 848 641 906 539 15,5 Ecuador 15 654 411 6 316 555 40,4 Panamá 3 608 431 1 899 892 51,7 Paraguay 6 703 860 2 473 724 36,9 30 147 935 11 817 991 39,2 3 332 972 1 936 457 58,1 México Nicaragua Perú Uruguay Internet World Stats. Latin American Internet and Users and Population Statistics. 2013. URL: http://www.internetworldstats.com/stats10.htm Móviles El mercado móvil latinoamericano es el cuarto más grande del mundo. Brasil, México y Argentina abarcan los mercados más grandes debido a su gran población y altas tasas de penetración Mientras 37 En el uso comercial de Internet, por ejemplo, los establecimientos del sector manufacturero utilizan Internet para obtener información oficial. Los tres principales países con más alto porcentaje de uso para esto son Argentina con el 70, 5 %, Brasil con el 62, 9 % y Uruguay con el 59, 5 %. “El ecosistema y la economía en América Latina.” (Katz 2015) 38 Internet World Stats 2013. 20 que la tasa de penetración móvil general en América Latina sigue siendo mucho mayor al 100 %, solo un poco más de la mitad de la población de la región está efectivamente abonada a un servicio móvil. Sin embargo, se espera que esta cifra llegue a ∼ 60 % en 2020, acorde a la media global.39 En el mismo sentido, las tendencias generales de digitalización global también están mostrando un incremento constante (ver Tabla 1). Las tasas de penetración de usuarios oscilan entre un mínimo de 37 % en México y un máximo de 77 % en Costa Rica;40 lo que muestra que no hay un solo controlador de la variación en las tasas de penetración, y por lo tanto, las diferencias en el PIB per cápita juegan un papel limitado. En comparación con otras regiones en desarrollo los servicios de dinero móvil, que también pueden proporcionar fuentes de datos interesantes, aún no han tenido suficiente éxito 41 . Las redes y servicios móviles se están convirtiendo cada vez más en el principal método de acceso a Internet a través de América Latina. En 2011, el número de conexiones de banda ancha móvil superó el número de conexiones de banda ancha fija.42 Gracias a la creciente disponibilidad de modelos de bajo costo, la adopción de teléfonos inteligentes está aumentando rápidamente. Finales de 2013, se estimó que la adopción general de teléfonos inteligentes fue del 20 %, y se prevé que alcance el 70 % para el año 2020.43 En cuanto al uso de dispositivos móviles para acceder a Internet, en septiembre de 2014 había 216 millones de personas que los utilizaban para tal fin, equivalente a una tasa de penetración global de alrededor del 35 %, estadística que para esa fecha ya superaba la del año anterior. Está previsto que para el 2020 el acceso a Internet a través de móviles sea justo por debajo del 50 % de la población.44 Un aumento en la competencia y en la innovación ha permitido que hayan más teléfonos inteligentes y acceso a Internet en toda la región.45 Simultáneamente, los consumidores de toda la región están utilizando progresivamente los servicios de proveedores de mensajería en línea (OMS por sus siglas en inglés). Debido a la presión del mercado, cada vez más operadores están incorporando estos servicios en sus planes de tráfico, por ejemplo a través de asociaciones Zero-Rating con proveedores de servicio y de plataforma. Alrededor de 38 millones de personas en la región utilizan ahora Whatsapp.46 Pronto los datos generados por estos servicios podrían ser más importantes para obtener información valiosa que lo que los datos de CDR están ofreciendo en este momento.47 Actualmente, América Móvil (a través de sus filiales Claro y Telcel), Telefónica (a través de Movistar) y Millicom (a través de Tigo) que actúan como operadores locales dominan el mercado de América Latina. En Brasil, los operadores locales Oi y Vivo tienen una cuota 39 Mocanu y col. 2013. GSMA Intelligence s.f. 41 Tigo Money de Millicom es uno de los únicos servicios de dinero móvil liderado por operador que ha tenido éxito y que está activo en cinco mercados latinoamericanos (Bolivia, El Salvador, Guatemala, Honduras y Paraguay). En Bolivia, Tigo Money es responsable de flujos de dinero por casi US$4 millones mensuales y tiene alrededor de 700,000 clientes. En Perú, Movistar ha lanzado recientemente un servicio de dinero móvil en asociación con Mastercard, que puede alcanzar un potencial de 16 millones de clientes. 42 GSMA Intelligence s.f. 43 GSMA Intelligence s.f. 44 GSMA Intelligence s.f. 45 GSMA Intelligence s.f. 46 Reader 2015. 47 GSMA Intelligence s.f. 40 21 Figura 3: Desarrollo mundial de la digitalización, 2013 Raúl Katz. El ecosistema y la economía digital en América Latina. 2015. URL: http://cet.la/blog/course/libro-el-ecosistema-y-la-economia-digital-en-americalatina/ significativa del mercado. Curiosamente, los cuatro sitios web principales en todos los países de América Latina son de origen internacional (Google, Facebook, Microsoft y Yahoo) con la excepción de Brasil (UOL) y Venezuela (Mercado Libre) (Katz 2015). La adopción masiva de nuevas tecnologías de información y comunicación (TIC) ha hecho posible una mayor generación (de datos digitales), comunicación y difusión de Big Data. Medios Sociales La región se está convirtiendo en uno de los mayores productores y consumidores de redes sociales, sobre todo de Facebook y Twitter48 —produciendo una gran cantidad de datos que pueden ser utilizados con fines estadísticos en algunos países. Siete países latinoamericanos están entre los treinta primeros del mundo en términos de usuarios de Facebook, incluyendo Brasil (reconocida por el Wall Street Journal como la “La Capital Universal de los Medios Sociales”49 ) 48 El éxito de las redes sociales también se puede explicar por su importancia para los debates políticos y la participación ciudadana en muchos países de América Latina. En Brasil, los medios de comunicación social fueron el principal canal para el debate de las elecciones municipales de 2012 y los últimos casos de corrupción, así como la organización de las protestas en torno a la Copa del Mundo de 2014. En México, Twitter ha contribuido a difundir los movimientos sociales, como el movimiento #YoSoy132 que surgió durante la elección presidencial de 2012. También se ha convertido en una herramienta para periodistas ciudadanos que lo utilizan para la publicación segura y anónima de información sobre el crimen organizado y la lucha contra la droga. 49 Téllez 2015. 22 —que tiene el mayor número de usuarios activos en la región y Chile que cuenta con la mayor proporción de usuarios per cápita.50 Adicionalmente, la mitad de los usuarios de teléfonos inteligentes de América Latina tienen cuentas en Twitter.51 Con más de 41 millones de usuarios, Brasil ocupa el segundo lugar del mundo en términos del número de cuentas de Twitter, el quinto a nivel mundial en términos de uso y es el segundo mayor productor de tuits en el mundo.52 México ocupa el séptimo lugar en el mundo en términos de cuentas de Twitter, con un estimado de 11,7 millones de usuarios activos.53 2.2. Los INE y Big Data: tendencias en América Latina Un número cada vez mayor de los INE de la región está demostrando interés en involucrarse con Big Data. Conferencias internacionales, como el Congreso Mundial de la Estadística que el Instituto Internacional de Estadística celebra cada año y la Conferencia Internacional sobre Big Data para las Estadísticas Oficiales liderada por la ONU y por el Banco Mundial (la segunda edición tuvo lugar en Abu Dhabi en octubre de 2015) están impulsando el interés de las partes interesadas a nivel regional. Recientemente, el Encuentro Mundial de Big Data se llevó a cabo en Bogotá en octubre de 2015, y en abril del mismo año se llevó a cabo el Cartagena Data Festival, en asociación con el DANE. El llamado a una revolución de los datos y la demanda por mediciones alternativas y más oportunas, sin duda ha despertado el interés a los acercamientos a Big Data en América Latina, especialmente cuando la agenda post-2015 se considera una prioridad política. Colombia y Costa Rica han incluido las metas en sus planes nacionales de desarrollo. Por lo tanto, hay una serie de proyectos piloto en curso llevados a cabo por los INE de la región, especialmente en Colombia, México y Ecuador. En toda la región, los pilotos varían en el uso de Big Data desde web-scraping (raspado de la web) y CDR, hasta medios sociales, satélites, encuestas y más; así mismo los INE y sus respectivos pilotos varían en la etapa en que se encuentran: algunos están planeando pilotos, como el IBGE en Brasil, mientras que otros en Perú aún están examinando posibles pilotos. Como se mencionó anteriormente, el DANE en Colombia, el INEGI en México y el INEC en Ecuador, están liderando el involucramiento con Big Data. Sin embargo, este acercamiento se expresa mediante enfoques muy diferentes. En Colombia, Big Data hace parte de la estrategia mencionada anteriormente (el DANE Moderno) que es un proceso innovador para modernizar las operaciones estadísticas a nivel estructural y técnico en Colombia (ver Cuadro 4). Big Data es considerado como uno de los aspectos de este proceso, mientras que los cambios técnicos generales, como por ejemplo el cambio a HADOOP, favorecen este intento. Las actividades en Big Data se formulan a nivel directivo y se difunden desde allí; un equipo interdepartamental se formó con el apoyo de consultores externos y se han identificado áreas de trabajo potenciales para el DANE. Por otro lado, México y Ecuador iniciaron con un enfoque técnico y práctico impulsado por líderes internos. Estos INE iniciaron con pilotos más pequeños, jugando con 50 Bibolini y Lancaster 2014. Reader 2015. 52 Glickhouse 2013. 53 Glickhouse 2013. 51 23 Cuadro 4: Los INE en América Latina: el DANE Moderno de Colombia En Colombia, el DANE creó recientemente una nueva estrategia de alto nivel llamada el “DANE Moderno”, la cual fue lanzada en 2014. Se espera que el DANE Moderno cree una nueva forma de pensar en la institución. Esta narrativa deriva del discurso de la responsabilidad de los INE de convertirse en productores de conocimiento con el fin de promover marcos de democracia, tales como informar a los ciudadanos de tal manera que se reafirme la toma de decisiones por parte del ciudadano, así como la rendición de cuentas de sus gobiernos. La estrategia también insiste en la necesidad de transparencia con sus ciudadanos. “El DANE Moderno también significa un DANE de puertas abiertas, de respuestas amables y comprensibles, porque como lo he venido repitiendo, las cifras que producimos no son para quedarnos sentados en ellas, son para compartirlas con todos aquellos que las necesiten”.a El DANE Moderno ha sido denominado como un ejemplo de buenas prácticas por varios actores internacionales (por ejemplo ODI y PARIS21). Si bien la premisa del DANE Moderno supone cultivar una nueva forma de pensar y una nueva cultura, también ha dado lugar a modernizaciones técnicas tales como una mayor digitalización de procesos técnicos, la implementación de nuevos estándares y la construcción de una bodega de datos (data warehouse). Como parte del DANE Moderno, el DANE también lanzó un proceso de innovación a dos niveles a principios de 2015, el cual fue inspirado por el Laboratorio de Innovación del Instituto de Estadística Holandés. En este proceso, se invitó a los funcionarios a presentar propuestas de innovación: los empleados presentaron 84 ideas. Diez fueron seleccionadas para que todos los empleados del DANE votaran por ellas en la intranet; cuatro de estas diez propuestas tenían un componente de Big Data. Eventualmente, un jurado externo eligió tres proyectos finales que ahora están listos para su desarrollo. a Cordero 2016. 24 datos disponibles a través de Twitter o web-scraping. Aquellos en un nivel directivo parecen en general apoyar los esfuerzos de estos líderes, pero estos aún no han recibido lineamientos desde el nivel superior. No es sorprendente que los países que forman parte de la OCDE (i.e. México), que están en proceso de formar parte de la OCDE (Colombia y Perú en las primeras etapas) o que participan en otros grupos de trabajo internacionales (aquellos establecidos por Eurostat y la División de Estadísticas de las Naciones Unidas—en inglés UNSD), sean más progresistas en su acercamiento a Big Data. La UNSD lanzó seis grupos de trabajo a principios de 2015, que se concentran en diferentes aspectos de Big Data. México y Colombia participan en sus actividades y el Grupo de Trabajo sobre Big Data y ODS es liderado conjuntamente por el Banco Mundial y el INEGI de México. En particular, el trabajo de la División de Estadística y el Proyecto Sandox de la UNECE han desempeñado un papel vital para aquellos INE de América Latina que han tenido el privilegio de participar. Proyectos pioneros, como el trabajo de los Institutos de Estadística de Holanda y Estonia, influyen en proyectos y pilotos en la región de ALC, logrando que los INE examinen la viabilidad de esfuerzos similares en sus respectivos países (ver Anexo 2). Tres INE de países latinoamericanos respondieron la Encuesta de Big Data de 2015 realizada por el Grupo de Trabajo Mundial sobre Big Data para las Estadísticas Oficiales de las Naciones Unidas: Argentina, Ecuador y México. Entre los proyectos de Big Data que reportaron, Ecuador y Argentina estaban interesados en la creación de índices de precios en tiempo real a partir de datos publicados en línea por supermercados y puntos de venta minoristas. 54 Hay un número de pilotos previstos en la región que se relacionan con este tema: para empezar, el trabajo de Alberto Cavallo en el MIT (ver Anexo 4) el cual utiliza información de Internet para generar índices de precios y medir la inflación de Argentina55 y que ha recibido opiniones favorables de varios INE. Algunos ya están realizando o planean realizar pilotos similares (por ejemplo Ecuador, Argentina y Colombia). En Colombia, hay planes para utilizar los datos existentes de SIPSA, un innovador sistema de información de precios agropecuarios nacionales (ver Anexo 6), y compararlos y enriquecerlos con datos provenientes de web-scraping. Con su amplia adopción por parte de muchos INE en todo el mundo es muy probable que este enfoque se utilice de una forma u otra para apoyar la medición del primer ODS (reducción de la pobreza). Además, los datos de redes sociales que son de libre disposición se han utilizado para desarrollar pilotos. Acercamientos para medir el bienestar de los ciudadanos (similar al piloto del Instituto de Estadística Holandés,56 que ha sido presentado en varios eventos en el contexto de Big Data y estadísticas; ver Anexo 3) aestán recibiendo más y más atención internacional. El INEGI de México y el INEC de Ecuador están trabajando actualmente en pilotos similares. Teniendo en cuenta la cantidad estimada de usuarios activos en Twitter de México (11,7 millones),57 el INEGI se asoció con instituciones académicas 58 para desarrollar herramientas técnicas para medir el 54 Ecuador también estaba interesado en la creación de un índice de felicidad, impulsado por el Ministerio de Bienestar. 55 Cavallo 2013. 56 Daas y Loo 2013. 57 Glickhouse 2013. 58 Aquellos invluyen Infotec, CentroGeo y CIMAT. 25 bienestar subjetivo a través del análisis de tuits y utilizó los tuits para monitorear movimientos del turismo (ver Cuadro 5). El INEGI también tiene previsto medir la salud mental entre las mujeres jóvenes. En otro piloto, el INEGI utilizó tuits para medir la movilidad y los movimientos del turismo durante un fin de semana largo (coloquialmente puente) en Puebla y Guanajuato. Esto se hizo en colaboración con la Secretaría Mexicana de Turismo.59 Se proyecta una investigación más amplia en este campo. Cuadro 5: Twitter para monitorear el turismo en México En 2014, un grupo de trabajo sobre Big Data del INEGI llevó a cabo un estudio piloto para realizar seguimiento al turismo interno a partir de datos de Twitter, con el fin de contribuir a la modelación empírica del comportamiento individual de turistas. El objetivo de este programa piloto fue identificar las características de un turista tuitero promedio con el fin de identificar cuántas personas viajaron a Puebla y Guanajuato durante el fin de semana del 1 al 3 de febrero de 2014. El equipo de investigadores del INEGI, en colaboración con la Secretaría de Turismo de México, analizó 60 millones de tuits publicados de enero a julio de 2014, de la muestra continua georeferenciada del 1 % que Twitter pone a disposición de forma gratuita.a A partir de estos datos, el INEGI recolectó tuits de 7.955 usuarios de Twitter que tuitearon en Guanajuato (48 %) y Puebla (52 %) durante el fin de semana largo. A continuación, recogieron todos los tuits enviados por los demás usuarios en el periodo de referencia (para un total de 827.424 tuits) e identificaron qué usuarios tuitearon desde otro estado (presumiblemente su estado de origen) después de estar en Guanajuato o Puebla, con el fin de establecer el origen del turismo interno a estas dos áreas durante el fin de semana largo.b Las estimaciones resultantes del turismo interno a Guanajuato y Puebla se compararon con las estimaciones realizadas por las respectivas oficinas de turismo de estos dos estados.c a Instituto Nacional de Estadística y Geografía (INEGI) de México 2015b. Secretaría de Turismo 2014. c Instituto Nacional de Estadística y Geografía (INEGI) de México 2015b. b Por el contrario, vemos menos pilotos y acercamientos desde los INE al análisis de CDR. La excepción es un piloto en Guatemala realizado por el Banco Mundial y Telefónica I+D como parte del concurso de innovación interna del Banco Mundial y que involucra el INE local en una etapa posterior. Algunos INE están interesados en el uso de CDR para el monitoreo de la migración y el turismo, como lo han hecho los INE de Italia, Estonia y Holanda. Por ejemplo, el IBGE está planeando un piloto para el monitoreo actividades turísticas durante los Juegos Olímpicos de 2016 con los datos de CDR. Sin embargo, la falta de acceso a estos datos está evitando que el proyecto llegue a buen término. Tanto Brasil como Colombia se han acercado a los operadores móviles con el fin de acceder a los datos y están actualmente en conversaciones para tomar muestras de datos para pilotos. Del mismo modo, ya hay algunos ejemplos pioneros en la aplicación de datos de satélite. En Brasil, el IBGE, con el apoyo de ONU Mujeres, está utilizando datos remotos satelitales para 59 Secretaría de Turismo 2014. 26 Tabla 2: Descripción general de los proyectos de Big Data en INE seleccionados de ALC Tipo de Big Data Datos utilizados actualmente en los actividades de los INE Proyectos Estado del proyecto Otras organizaciones involucradas Argentina (INDEC) Datos subproducto Web scraping IPC en línea Planeado Brazil (IBGE) Contenidos Google Maps digitales CDR Desarrollo de Cuentas del Agua Implementado/ En curso Monitoreo del Turismo Planeado Colombia (DANE) Datos subproducto Web scraping IPC en línea Planeado Sistema de Información de Precios del Sector Agropecuario (SIPSA) Implementado/ En curso Contenidos CDR digitales Monitoreo de actividades criminales Fase piloto Niveles y redes socio-económicas Fase piloto Datos remotos Complementar el Censo Nacional Agropecuario Satélites World Bank Data-Pop Alliance TransMilenio Ecuador (INEC) Datos subproducto Web scraping Contenidos Twitter digitales CDR IPC en línea Fase piloto Medición del bienestar subjetivo Fase piloto Migración diurna Planeado Guatemala (INE) Contenidos CDR digitales Monitoreo de niveles de pobreza Fase piloto Banco Mundial Telefónica Mexico (INEGI) Contenidos Twitter digitales Bienestar subjetivo Completado InfoTec y Tec Monterrey Bienestar subjetivo de mujeres Fase piloto Monitoreo del Turismo Completado Ministry of Tourism Planeado Movimientos Fronterizos 27 Data2x y Universidad of Pennsylvania predecir tanto el riesgo de contraer malaria como la carga de morbilidad en mujeres embarazadas, especialmente a lo largo de la frontera entre Brasil y Guyana (ver Cuadro 6). En Colombia, el DANE utiliza datos de satélite en un proyecto piloto para el Censo Nacional Agropecuario. El DANE evalúa si algunos tipos de variables pueden capturarse a través de imágenes satelitales para complementar la información recolectada por la operación censal.60 Los dos proyectos reportados por México en la Encuesta de Big Data de 2015 mencionada anteriormente, trataban con datos geográficos y topográficos derivados de imágenes satelitales. Cuadro 6: Morbilidad materna y teledetección de malaria en Brasil Datos remotos satelitales sobre la densidad de la vegetación, la humedad del suelo, la densidad de población y el patrón espacial de la infraestructura humana han sido utilizados para predecir los niveles de riesgo de malaria. Los avances en la informática permiten ahora un uso más poderoso de estos grandes conjuntos de datos, incluyendo el análisis de la heterogeneidad espacial y temporal extrema y la inclusión de un mayor número de variables explicativas. Este proyecto busca crear mapas de riesgo de malaria para la cuenca del Amazonas, enfocándose en principio en zonas urbanas y peri-urbanas a lo largo de la frontera entre Brasil y Guyana, que son áreas con hábitats de los vectores altamente variables y con una elevada incidencia de la enfermedad. Existen al menos dos estudios de mapeo de la distribución del vector en esta región, pero hasta lo que se sabe no hay un mapeo dinámico en alta resolución del riesgo de malaria. La primera fase del proyecto utilizará los datos de teledetección y registros de salud existentes, en combinación con información sobre el sistema económico, cultural y de salud, para estimar un modelo de regresión espacial que prediga la carga de morbilidad en mujeres embarazadas, utilizando los AVAD (años de vida ajustados por discapacidad) como métrica principal. La segunda fase evaluará la precisión de este modelo utilizando datos recolectados en tiempo real. ONU Mujeres y el IBGE son las instituciones que lideran el pilotaje de este estudio, apoyándose en instituciones asociadas como la Fundación Getulio Vargas y la Iniciativa Amazónica contra la Malaria. Hoy en día, los esfuerzos en Big Data por los INE de la región, como se ha descrito anteriormente, representan proyectos aislados y continúan en la fase piloto. La actividad con respecto a las aplicaciones de Big Data es naciente, pero está en crecimiento así como las organizaciones que están aprovechando los pilotos, enfoques y posibilidades de otros. Esto no es sorprendente ni desalentador. Los INE en todo el mundo, incluso los que han estado trabajando progresivamente en Big Data durante años (como el INE de Holanda), aún no han logrado llevar las aproximaciones a Big Data del estado piloto a un estado operativo funcional, sostenible y completamente implementado. Del mismo modo, en Colombia, Ecuador, México y en toda la región de ALC en general, es muy temprano para determinar cómo se integrarán los pilotos en las operaciones regulares. En general, no hay asignaciones claras de recursos que promuevan este impulso y la obtención de una inversión generosa en términos financieros y humanos sigue siendo un reto. 60 United Nations Statistical Commission 2014a. 28 2.3. Big Data para los ODS en el ecosistema más amplio de actores Por fuera del sistema estadístico hay varios actores en toda América Latina que han experimentado con el uso de Big Data en un contexto relevante para los ODS. Ejemplos incluyen proyectos de investigación internacionales en Big Data, gobiernos y organismos internacionales, el sector privado y defensores cívicos de la tecnología. Proyectos de investigación en Big Data De manera notable, dichos actores participan con proyectos de investigación 61 En México, por ejemplo, Telefónica y su equipo de investigación llevaron a cabo varios proyectos de investigación utilizando los CDR de clientes mexicanos con el fin de monitorear el comportamiento después de desastres naturales y brotes de enfermedades.62 Aunque Telefónica hizo uso de los datos del censo para este proyecto, el INEGI no participó activamente. En Colombia, el Centro Internacional de Agricultura Tropical (CIAT) ha desarrollado modelos de la productividad agrícola en el contexto de la variabilidad del clima. Al identificar qué tipo de prácticas agrícolas han funcionado bien históricamente, en qué ubicaciones funcionaron y durante cuáles periodos identificables climáticos funcionaron, el modelo le ahorró a los productores de arroz colombianos un estimado de 3,6 millones de dólares en una temporada reciente.63 En otro proyecto de investigación de Big Data, los científicos de la Universidad John Hopkins en los EE.UU. analizaron tuits relacionados con la salud como parte de Google Trends sobre los brotes de gripa y dengue en Brasil, México y otros países de la región. Gobiernos y agencias internacionales Adicionalmente a los esfuerzos en gobierno abierto, los gobiernos latinoamericanos también han comenzado a mirar los casos de uso de Big Data para promover la eficiencia y mejorar las políticas. Como parte de una iniciativa de ciudad inteligente en Guadalajara, México, la ciudad está analizando los datos de sensores para mejorar la eficiencia energética (entre otras eficiencias) con el apoyo de Cisco.64 El análisis de los medios sociales durante los procesos electorales, los datos sobre el flujo vehicular y la predicción del crimen son otras áreas que los gobiernos están explorando. El Instituto Nacional de Vías de Colombia utiliza datos de GPS a través de un dispositivo de seguimiento electrónico para mejorar la circulación del tráfico y como entrada para estadísticas de transporte. Cada vez que un coche pasa por una estación de peaje se registra automáticamente. El dispositivo contiene toda la información del vehículo, que complementa 61 Para una descripción general de casos de Big Data o proyectos relacionados con datos, ver por ejemplo un informe del Banco Mundial “Big Data In Action for Development” y un documento de trabajo publicado por la CEPAL sobre “Big Data and Open Data as sustainability tools”. 62 Clark 2013. 63 CGIAR Research Program on Climate Change, Agriculture and Food Security (CCAFS) 2014. 64 United Nations Statistical Commission 2014a. 29 aquella del Registro Único Nacional de Tránsito. Hasta el momento, este nuevo método ha sido probado en 10 estaciones de peaje en Colombia y ha mejorado el control de los flujos de tráfico, como también ha fortalecido las estadísticas de transporte.65 Otras agencias gubernamentales, tales como los ministerios encargados de las TIC, las comunicaciones o las finanzas, también han evaluado las aplicaciones de Big Data y han iniciado pilotos. Por ejemplo, el Ministerio de Hacienda en Colombia encargó una investigación a través de Google Trends para hacer predicciones en tiempo real sobre la actividad económica (ver Cuadro 7). El Ministerio del Interior y la Oficina de las Naciones Unidas contra la Droga y el Delito utilizan imágenes satelitales para medir y monitorear los cultivos de coca en Colombia a través del Sistema Integrado de Monitoreo de Cultivos Ilícitos.66 Como se menciona en la sección 2.2, las organizaciones donantes y agencias internacionales están impulsando muchos esfuerzos en Big Data en la región. Un ejemplo es el proyecto mencionado previamente liderado por el Banco Mundial y Telefónica I+D que utiliza los datos de CDR en Guatemala para estimar la pobreza. El Banco Mundial llevó a cabo otros pilotos en Nicaragua y Guatemala que ponen a prueba el enfoque de Chen et al. en el uso de la luminosidad como una proxy de los niveles socioeconómicos (ver Anexo 5).67 El Banco Mundial también apoya las actividades en Big Data del DANE en Colombia, donde este documento exploratorio ha sido uno de los elementos. El Global Pulse de las Naciones Unidas también ha desempeñado un papel promotor dentro del Fondo para la Evaluación de Impacto Rápido y Vulnerabilidad (RIVAF por sus siglas en inglés); la UNDOC y el Global Pulse de las Naciones Unidas investigaron cómo las crisis pueden afectar los niveles de criminalidad. Se centraron en cuatro ciudades de América Latina (Buenos Aires, Montevideo, Sao Paulo y Río de Janeiro) utilizando datos sobre la delincuencia de alta frecuencia registrados por la policía.68 Data-Pop Alliance, junto con Telefónica y BKF (y financiado por el Banco Mundial), también ha puesto en marcha pilotos para dos iniciativas que se centran en la seguridad pública y la delincuencia en Bogotá utilizando CDR. Otras instituciones internacionales, como el Fondo de Población de las Naciones Unidas (UNFPA) y el Departamento de Desarrollo de las Naciones Unidas, con quienes la mayoría de los INE ya tienen acuerdos formales, también se están volviendo cada vez más activos en este campo. La Oficina para la Coordinación de Asuntos Humanitarios de las Naciones Unidas (UNOCAH) está trabajando activamente en la mejora de su portal Intercambio de Datos Humanitarios (HDX) , el cual será una fuente interesante de información y una plataforma de coordinación para los INE. Generalmente dotados de mejores recursos, estos organismos pueden ser importantes coordinadores para los INE de la región de ALC (ver Tabla 3). La alianza internacional CIVICUS centrándose en Organizaciones de la Sociedad Civil, estableció su proyecto Datashift para generar y mejorar los datos generados por los ciudadanos y llenar vacíos de datos existentes.69 65 Pretz 2014. Pretz 2014. 67 Chen y Nordhaus 2011. 68 United Nations Global Pulse 2012. 69 CIVICUS s.f. 66 30 Cuadro 7: Uso de Google Trends para hacer predicciones en tiempo real sobre la actividad económica en Colombia Los indicadores económicos utilizados por el Departamento Administrativo Nacional de Estadística de Colombia (DANE) para analizar la actividad económica a nivel sectorial tienen un rezago promedio de tiempo de 10 semanas. Con el fin de obtener más estimaciones en tiempo real de la actividad económica, el Ministerio de Hacienda de Colombia, está buscando formas de pronosticar en tiempo real la actividad con base en los datos de búsquedas web de Google. Los investigadores en el Ministerio de Hacienda analizaron la frecuencia relativa de términos de búsqueda particulares a través de Google Trends, una herramienta gestionada por Google que realiza un seguimiento de los términos de búsqueda que prevalecen en el tiempo y proporciona un índice de qué tan comunes son las consultas en cada parte del mundo para un período de tiempo dado. Sobre la base de una metodología para la predicción a corto plazo de las series económicas desarrolladas por Choi y Varian,a los investigadores utilizaron datos de Google Trends para inferir la actividad económica a nivel sectorial eligiendo algunas palabras clave que actuaran como indicadores del comportamiento de los consumidores,b proporcionando de este modo indicadores alternativos a las estadísticas tradicionales de una manera mucho más oportuna. Estos indicadores se produjeron para ciertos sectores de la economía como la agricultura, la industria, el comercio, la construcción y el transporte; otros sectores económicos como la minería o los servicios financieros no se pueden evaluar con este método.c Los indicadores sectoriales resultantes, conocidos como ISAAC, se validaron con los indicadores oficiales de la actividad económica del DANE y los dos conjuntos de indicadores se publicaron. Los datos ISAAC, que hacen referencia al nivel sectorial, se agregan para producir un único indicador líder de la actividad económica, conocido como ISAAC+. El equipo del proyecto, dirigido por Luis Fernando Mejía, publica el ISAAC y el ISAAC+ mensualmente. Una limitación importante de este tipo de medidas basadas en la Web es que corren el riesgo de no ser representativas en países donde la penetración de Internet es baja, como es el caso de Colombia (∼ 60 %). Sin embargo, en la medida en que la penetración a Internet siga creciendo, la advertencia de la no representatividad se convierte en un problema menor. Por lo tanto, la exploración de Colombia de indicadores económicos más oportunos es prometedora y ha atraído la atención de otros países interesados en la implementación de sus propios pronósticos de indicadores económicos basados en Big Data.d a Hyunyoung y Varian 2011. Mejía y col. 2013. c The World Bank, World Bank Group y Social Muse 2014. d The World Bank, World Bank Group y Social Muse 2014. b 31 Tabla 3: Descripción general del ecosistema de Big Data en ALC Actores País Descripción del proyecto Investigación en Big Data Alberto Cavallo y equipo en el MIT Argentina, Brasil, Chile, Colombia, Uruguay, Venezuela Utiliza información de Internet para generar el índice de Precios y medir la inflación Telefónica Gobierno del Estado de Jalisco México Utiliza CDR de clientes mexicanos para monitorear el comportamiento en el curso de desastres naturales o después del brote de enfermedades Centro Internacional de Agricultura Tropical Colombia Modelos de productividad agrícola para la variabilidad climática Universidad Johns Hopkins Brasil, México, y otros Análisis de tuits relacionados con la salud como parte de Google Trends sobre los brotes de gripa y dengue Monroy-Hernández et al. en el MIT México Utiliza medios sociales y Twitter para examinar la guerra contra las drogas Coscia y Rios en el MIT México Utiliza datos de Google para rastrear las organizaciones de tráfico de drogas en México Governments Gobierno de Guadalajara con el apoyo de Cisco México Análisis de datos de sensores, como parte de una iniciativa de ciudad inteligente para ser más eficientes en el uso de la energía, entre otros objetivos Ministerio del Trabajo Colombia Uso de webscrapping para monitorear vacantes Ministerio de Hacienda y Crédito Público Colombia Uso de Google Trends para hacer predicciones sobre la actividad económica en Colombia Oficina de la Presidencia de la República y la Universidad de Chicago México Detección de mortalidad materna utilizando los registros de nacimiento y defunción, registros de alta de pacientes, datos de hospitales, datos de censos—desde 1990 Instituto Nacional de Vías Colombia Utilización de imágenes satelitales para medir y monitorear los cultivos de coca en Colombia (a continuación) 32 (a continuación) Actores País Descripción del proyecto World Resources Institute Colombia Observatorio Mundial de Bosques usando datos de satélite ONU Mujeres Brasil Datos remotos satelitales sobre la densidad de la vegetación, la humedad del suelo, la densidad de población y el patrón espacial de la infraestructura humana han sido utilizados para predecir los niveles de riesgo de malaria Ministerio de Hacienda y Crédito Público Colombia Uso de Google Trends para hacer predicciones en tiempo real sobre la actividad económica en Colombia Ministerio del Interior en conjunto con la Oficina de las Naciones Unidas contra la Droga y el Delito Colombia Utilización de imágenes satelitales para medir y monitorear los cultivos de coca en Colombia a través del Sistema Integrado de Monitoreo de Cultivos Ilícitos Fundação Getúlio Vargas, Gobierno de Brasil Brasil La FGV trabajó con el gobierno brasileño para utilizar Big Data en el análisis económico con el fin de hacer más eficiente el gasto Organismos internacionales Banco Mundial y Telefónica I+D Guatemala Uso de datos de CDR para estimar la pobreza Banco Mundial Nicaragua Guatemala Prueba del enfoque de Chen et al. en el uso de la luminosidad como una proxy de los niveles socioeconómicos Banco Mundial, Data-Pop Alliance Colombia Apoyan y exploran posibilidades en el uso de Big Data para ODS con INE en América Latina Global Pulse de las Naciones Unidas y la Oficina de las Naciones Unidas contra la Droga y el Delito Argentina, Uruguay, Brasil Investigan cómo las crisis pueden afectar los niveles de criminalidad utilizando datos sobre la delincuencia de alta frecuencia registrados por la policía Oficina para la Coordinación de Asuntos Humanitarios (UNOCAH) América Latina Trabajando activamente en la mejora de su portal Intercambio de Datos Humanitarios (HDX) (a continuación) 33 (a continuación) Actores País Descripción del proyecto Movimientos de tecnología cívicos Open Intelligence México Open Intelligence ayudó al Ministerio del Interior de México a entender las tasas de criminalidad en los barrios basados en diferentes conjuntos de datos SocialTIC México Apoyar al gobierno en la implementación de su estrategia de datos abiertos y en la organización de eventos comunitarios para hacer uso de los datos del gobierno Unidos pela Segurança (UPSEG) desarrollado por Stal IT Brasil Un proyecto de crowdsourcing que permite a los ciudadanos reportar incidentes criminales y contribuir a la seguridad pública Actores privados y start-ups IBM Microsoft Multinational Banks América Latina Aplicar el análisis de big data para identificar lavado de dinero y fraude Random Monkey (antes Aentropico) Colombia Una compañía de software (start-up) que analiza big data Cignifi Brasil Una compñía (start-up) que analiza los patrones de uso de dispositivos móviles para predecir el estilo de vida de una persona y su correspondiente perfil de riesgo crediticio BogoHack Colombia Organizan hacks de ciencia y hackatones. 34 Enfoques del sector privado Adicionalmente, hay otros actores que están trabajando en innovación basada en datos en América Latina y que podrían convertirse en socios útiles. Como se mencionó anteriormente, compañías multinacionales, como IBM y Microsoft, realizan grandes inversiones en proyectos de Big Data en toda la región. Muchas comienzan proyectos piloto como asociaciones público-privadas (por ejemplo, en el caso de Río de Janeiro IBM proporciona su tecnología Smart City gratis y utiliza a cambio de los datos y resultados para mejorar y poner a prueba sus servicios). Durante años, la banca multinacional que opera en la región ha estado utilizando aplicaciones de Big Data para identificar lavado de dinero y fraude. Al igual que en otras regiones del mundo, hay un número creciente de empresas nuevas (start-ups) establecidas bajo ideas de negocio basadas en datos. Muchos profesionales jóvenes formados en tecnologías de la información (TI) en Estados Unidos regresan a América Latina, donde encuentran oportunidades únicas para desarrollar modelos de negocio impulsados localmente. Hoy en día hay 17 empresas de Internet/software en América Latina cuyo valor combinado es de más de US$250 millones, y muchas de ellas se han desarrollado en los últimos cuatro años, procedentes principalmente de Brasil y Argentina. De acuerdo con un estudio realizado por Frost & Sullivan, Brasil, México y Colombia han invertido en analítica de Big Data lo que ha resultado en ganancias por US$603,7 millones solo en el 2014; la empresa de análisis de datos Aentropico (ahora Random Monkey) es una de estas empresas pioneras. El start-up brasileño Cignifi analiza los patrones en los usos de los dispositivos móviles para predecir el estilo de vida de una persona y su correspondiente perfil de riesgo crediticio. Se centra en los 100 millones de ciudadanos de clase media que tienen acceso limitado a productos financieros como préstamos hipotecarios o de otro tipo debido a la falta de historial crediticio tradicional. En México, el start-up Open Intelligence ha desarrollado una plataforma que analiza los datos del gobierno y apoya órganos gubernamentales para que utilicen sus propios datos para la toma de decisiones basada en la evidencia (ver Anexo 7). Movimiento de tecnología cívica Muchos países latinoamericanos, como Chile, Argentina, y Brasil, han visto fuertes movimientos de código abierto (Open Source) y un interés general en el hacking social impulsado por los enfoques de Gobierno Abierto 70 . Encontramos varias organizaciones civiles en la intersección de la tecnología civil y los datos que organizan hackatones y hacks de ciencia. En México, la ONG SocialTIC apoya al gobierno en la implementación de su estrategia de datos abiertos y organiza eventos con la comunidad para hacer uso de los datos del gobierno. En Colombia, los hackers de BogoHack organizan hacks de ciencia y hackatones, y GeoCensus se enfoca en la aplicación de geodatos. Además, proyectos de crowdsourcing de datos a través de la región apoyan la acción ciudadana; plataformas como CIC por Citivox en México o Unidos pela Segurança (UPSEG) desarrollado por Stal TI en Brasil, permiten a los ciudadanos reportar 70 Como referencia: investigación en curso de Open Data Research Network: http://www.opendataresearch. org/content/2014/574/opening-data-montevideo-bottom-experience 35 incidentes criminales y contribuir a la seguridad pública . Adicional al movimiento de tecnología cívica hay un número creciente de organizaciones de la sociedad civil e instituciones de investigación que participan activamente en un discurso crítico en torno a los datos en manos de los gobiernos y las empresas privadas. La mayoría de ellos forman parte de las redes trans-continentales e internacionales que abogan por los derechos humanos en la era digital, incluyendo el derecho a la privacidad. Entre esas organizaciones están la Fundación Karisma en Colombia, la Red en Defensa de los Derechos Digitales en México, Derechos Digitales en Chile o el Instituto de Tecnologia & Sociedade do Rio en Brasil. Estas serán importantes voces y defensores de los intereses de los ciudadanos y consumidores en un ecosistema de Big Data emergente. Tabla 4: Organizaciones de la sociedad civil trabajando en derechos digitales Organization Fundactión Karisma R3D, Red en Defensa de los Derechos Digitales Derechos Digitales Universidad de Palermo, Centro de Estudios en Libertad de Expresión y Accesso a la Informaci ón Asociación por los Derechos Civiles FGV Direito Rio Colnodo 2.4. Country Colombia Mexico Chile Argentina Argentina Brazil Colombia Intentos internacionales de utilizar Big Data para las estadísticas oficiales y el desarrollo La UNECE y, más recientemente, la Oficina de Estadística de las Naciones Unidas han impulsado discusiones específicas sobre los casos de uso potenciales de Big Data para los INE, así como discusiones sobre las implicaciones de Big Data en general. En 2010 se estableció un Grupo de Alto Nivel para la Modernización de la Producción y Servicios Estadísticos para supervisar y coordinar el trabajo internacional en relación con la modernización estadística basada en estándares71 ; en 2014 la Oficina de Estadística de las Naciones Unidas creó un Grupo Global de Trabajo en Big Data para las Estadísticas Oficiales, cuyo mandato se basa en consideraciones estratégicas con vínculos específicos a la Agenda de Desarrollo Post-2015, la iniciativa de Revolución de los Datos 71 El Grupo de Alto Nivel para la Modernización de la Producción y Servicios Estadísticos patrocina una serie de proyectos de colaboración internacional para comprender mejor cómo aprovechar el poder de “Big Data” y otras fuentes de datos nuevas, para apoyar la producción de estadísticas oficiales. Este trabajo apoya el concepto de una “Revolución de Datos para el Desarrollo Sostenible,” y el desarrollo y seguimiento de los nuevos Objetivos de Desarrollo Sostenible. Estos proyectos están abiertos a todas las organizaciones estadísticas nacionales e internacionales que quieran contribuir. 36 y los Principios Fundamentales de las Estadísticas Oficiales.72 Éstos dan información valiosa sobre las posibles áreas donde se podría utilizar Big Data para medir los ODS. A continuación se muestra una figura usando los datos de la Encuesta de 2015 del Banco Mundial sobre las iniciativas de Big Data para los ODS que muestra todas las metas de los ODS a los que organizaciones de todo el mundo están apuntando (de la región de ALC sólo el INEGI y el IBGE respondieron) 73 Figura 4: Comparación de objetivos de los ODS auto-reportados Datos de la Encuesta de 2015 del Banco Mundial sobre proyectos de Big Data para los ODS Los INE alrededor del mundo han comenzado a trabajar con fuentes de big data y a involucrarse lentamente con el ecosistema más amplio de Big Data. El Instituto de Estadística de Holanda llevó a cabo varios pilotos, incluyendo análisis de tráfico, CDR y datos de medios sociales para predecir el bienestar subjetivo (Ecuador pretende hacer algo similar). Italia y Holanda han utilizado los datos de telefonía móvil para monitorear estadísticas de movilidad. Los INE de China y el Reino Unido han llevado a cabo proyectos de investigación sobre el uso de Big Data para la fijación de precios y sobre el análisis de datos de contadores inteligentes para la 72 United Nations Statistical Commission 2014b. En las respuestas de la encuesta del Banco Mundial sobre focalización de los ODS, el INEGI en México focalizó el ODS 10.7 (Facilitar la migración y la movilidad ordenadas, seguras, regulares y responsables de las personas, incluso mediante la aplicación de políticas migratorias planificadas y bien gestionadas) y 17.19 (De aquí a 2030, aprovechar las iniciativas existentes para elaborar indicadores que permitan medir los progresos en materia de desarrollo sostenible y complementen el producto interno bruto, y apoyar la creación de capacidad estadística en los países en desarrollo); el IBGE de Brasil informó la focalización del ODS 1.a (Garantizar una movilización significativa de recursos procedentes de diversas fuentes, incluso mediante la mejora de la cooperación para el desarrollo, a fin de proporcionar medios suficientes y previsibles a los países en desarrollo, en particular los países menos adelantados, para que implementen programas y políticas ncaminados a poner fin a la pobreza en todas sus dimensiones). United Nations, “Sustainable Development Goals.” https://sustainabledevelopment.un.org/topics 73 37 identificación de las estructuras familiares.74 Otros han utilizado datos móviles para población diurna, movilidad y estadísticas de turismo, entre otras. Sin embargo, como lo ha establecido el Instituto de Estadística de Holanda, la comunidad de las estadísticas oficiales apenas ha visto la punta del iceberg en lo que se refiere a la exploración de Big Data75 y muchos afirman que los INE tendrán que someterse a cambios de paradigma radicales en la metodología estadística, con el fin de permitir que Big Data gane terreno en las estadísticas oficiales.76 3. Retos y requerimientos para los INE que se involucren con Big Data para los ODS Como se dijo anteriormente, una serie de retos operativos, tales como el aumento del acceso a los registros administrativos, ya obstaculizan las actividades estadísticas actuales de los INE de América Latina; muchos de estos mismos retos también limitan su potencial para involucrarse con Big Data. Esta sección aborda los retos más importantes que enfrentan los INE para involucrarse con Big Data y proporciona recomendaciones sobre los enfoques y pasos a seguir que los INE pueden tomar para abordar estas cuestiones. A través de la revisión de la literatura, entrevistas, estudios de casos y análisis DOFA (ver Anexo 10), se identificaron cinco grandes desafíos que tienen los INE de América Latina para involucrarse con Big Data: barreras institucionales para la innovación y la gestión del cambio; restricciones en el acceso y completitud de los datos; desafíos técnicos; brechas en capacidad humana; desafíos metodológicos; y riesgos legales y políticos, los cuales también se analizan. 3.1. Barreras institucionales para la innovación y la gestión del cambio El uso de Big Data es un proyecto significativo para un INE. Es probable que implique un cambio de cultura, lo que requiere tanto un incremento en las interacciones con ejemplos y actores externos, así como una disposición interna hacia la innovación y la transformación. Los INE de América Latina enfrentan barreras institucionales para la innovación y la gestión del cambio en gran parte debido a una falta de cultura digital interna y una percepción escéptica sobre las nuevas fuentes de datos. La falta de cultura digital interna y habilidades lingüísticas Ciertamente existen ejemplos alentadores en la disposición de algunos INE para transformarse hacia la innovación y la apertura. El proceso de innovación del DANE (una parte del DANE 74 Instituto Nacional de Estadística y Geografía (INEGI) de México 2015b. Daas y Loo 2013. 76 Scannapieco y col. 2013. 75 38 Moderno Cuadro 4) presenta un ejemplo único que proporciona un espacio para la innovación en la región. Además, los INE se han involucrado de manera más directa con los ciudadanos a través de las redes sociales y han proporcionando infografías como visualizaciones de sus últimos informes. Sin embargo, a pesar de estos nuevos esfuerzos, se necesitará tiempo para ver los resultados de estas iniciativas en términos de un verdadero cambio cultural. En general, los INE siguen siendo conservadores hacia la innovación y el cambio: los estándares y la calidad definen las buenas estadísticas, no la innovación y la experimentación. Un obstáculo es también el hecho de que muchos recursos y discusiones se dan en inglés, elemento que algunos funcionarios no dominan, como es comprensible. Esta cultura aprehensiva se refleja en prácticas análogas internas. En muchos INE de la región, al personal todavía no se le permite acceder a Internet desde sus oficinas, lo que solo se puede explicar en parte por restricciones de confidencialidad. Si el Internet y las nuevas tecnologías se excluyen de la vida cotidiana de trabajo, un cambio cultural en los INE hacia nuevas fuentes derivadas de Internet, sigue siendo significativamente difícil. Adicionalmente hay un escepticismo general hacia enfoques impulsados por nuevos datos en el personal de los INE de la región ya que ven a las nuevas tecnologías y a Big Data como posibles amenazas a sus puestos de trabajo. Con una larga tradición en encuestas de hogares, los INE de América Latina emplean varios miles de personas y dudan en aceptar nuevas fuentes de datos con los que no estén familiarizados. A menudo esto se debe también a una falta general de comprensión y una concepción errada de Big Data, que se confunde con proyectos de TI más generales, el uso de medios sociales (como en el monitoreo de medios sociales), la construcción de almacenes de datos y actividades recientes en el campo de los datos abiertos. Este asunto se debe tener en cuenta y los empleadores en todos los niveles deben informarse acerca de las realidades e implicaciones de Big Data cuando realicen nuevos proyectos que involucren Big Data. Si los procesos digitales se pueden adoptar internamente, es más probable que una organización y sus empleados reconozcan su valor. Aquí se requiere suficiente apoyo y compromiso de alto nivel hacia estos desarrollos. Al mismo tiempo, los enfoques prácticos y pilotos de prueba y error en Big Data, así como el intercambio con colegas de otros INE de la región, podrían estimular la aceptación, el entendimiento y el interés en los enfoques en Big Data entre los empleados, ayudando a ilustrar casos de uso. Por ejemplo, en un experimento práctico interno en México, el personal del INEGI fue capaz de recibir una primera mirada al valor real de las aplicaciones de Big Data para sus operaciones y, al mismo tiempo, adquirir una comprensión general de cómo esto podría cambiar positivamente su trabajo en el futuro. Esto será crucial para asegurar también que los pilotos y proyectos sean impulsados por prioridades locales y embebidos en los debates regionales, incluyendo los posibles riesgos y desafíos. Percepción escéptica sobre nuevas fuentes de datos “Esto siempre ha sucedido en el pasado. Los países en que agencias internacionales han desarrollado y difundido innovaciones, por ejemplo nuevas herramientas de software, han 39 tenido dificultades para evaluar y valorar su idoneidad”. En general, la aceptación y el entendimiento de Big Data también requerirá un enfoque práctico que permita a los empleados participar activamente y jugar con nuevos datos como una fuente de los procesos estadísticos, ilustrando casos de uso para los empleados. Recomendaciones Promover una cultura de trabajo digital Informar activamente a los funcionarios acerca de la aplicación e implicaciones de Big Data Permitir a los pilotos y el uso práctico de fuentes de Big Data para poner a prueba posibles casos de uso Desarrollar recursos en español y portugués, así como desarrollar habilidades en inglés y fomentar contenidos e intercambios multilingües 3.2. Limitaciones para el acceso y la completitud de los datos El sector privado está profundamente comprometido con toda la cadena de valor de los datos y una parte de la revolución de los datos depende en gran medida de la inclusión de empresas.77 Sin embargo, sigue existiendo una cooperación limitada en toda la región de ALC entre los INE y el sector privado, en particular con la industria de las telecomunicaciones. En la actualidad, el intercambio con el sector privado ha sido determinado principalmente por acuerdos generales sobre el intercambio de datos en el contexto de las estadísticas tradicionales (es decir, los INE solicitan datos a una empresa para completar registros). Sin embargo, las asociaciones públicoprivadas y otras formas de colaboración para el intercambio de conocimientos y habilidades son formas de participación más o menos nuevas para los INE. El acceso a los datos del sector privado, por tanto, constituye la parte más difícil para proceder con Big Data en América Latina; esto también se refleja en otras regiones como lo ha demostrado una encuesta reciente de la UNECE.78 Como se discutió anteriormente, algunas formas de Big Data, tales como algunos datos de medios sociales (por ejemplo, datos de Twitter) están parcialmente disponibles y podrían ser una fuente prometedora para monitorear y mejorar los datos socioeconómicos en la medición de los ODS. Sin embargo, otras formas de Big Data (por ejemplo los CDR) permanecen estrictamente en servidores de empresas. Mientras que varios INE de países latinoamericanos han expresado su interés en trabajar con los datos de CDR, la limitada posibilidad de acceder a fuentes de datos privados ha retrasado estas iniciativas. Telefónica ha sido el único operador de telefonía móvil que ha utilizado abiertamente sus datos 77 78 Ballivian y Hoffman 2015. United Nations Economic Commission for Europe (UNECE) 2013. 40 con fines de investigación en América Latina. Teniendo en cuenta el hecho de que América Móvil (a través de sus filiales) tiene una penetración móvil importante en la región, sería crucial entender los incentivos potenciales para la colaboración y apertura de los datos de CDR de América Móvil. Más aún, incluso los pilotos de investigación en curso a partir de los datos de CDR han sido ampliamente dirigidos por los operadores móviles en lugar de los INE. En México, Telefónica ha realizado investigaciones y ha utilizado los datos del INEGI y sin embargo, la institución no ha estado involucrada en las investigaciones. Un proyecto de investigación actual basado en datos de Telefónica en Guatemala se estableció como resultado de la capacidad de convocatoria del Banco Mundial como tercero. En Brasil, el IBGE ha tratado sin éxito de acceder a los datos de CDR para fines experimentales y ahora ha pedido ayuda a la Agencia Nacional de Telecomunicaciones (ANATEL). Falta ver si tendrán éxito. El acceso ocasional a los datos puede ser un primer paso hacia la participación y la experimentación con los mismos, pero dará poco lugar a la sostenibilidad. Esto también es cierto en el contexto de los datos de medios de sociales cuando se interrumpe su acceso a través de la API (siglas en inglés para la interfaz de programación de aplicaciones). En este momento, simplemente no hay un conjunto coherente e integral de regulaciones o directrices que rijan el acceso a los CDR u otros datos del sector privado. Se carece de recursos disponibles abiertamente, fáciles de usar y que cumplan con leyes para el establecimiento de estas asociaciones, que deben ser entre industrias y entre jurisdicciones.79 En el pasado, se pudieron llevar a cabo investigaciones sobre datos de CDR en otras regiones ya que se llevaron a cabo ya sea internamente (con Telefónica I+D), enmarcadas en acuerdos específicos entre instituciones de investigación y el operador (por ejemplo, en Holanda e Italia los INE tenían acuerdos con Telekom)80 o bajo arreglos especiales como parte de enfoques de “filantropía de datos”,81 que también implicaron la configuración de un acuerdo formal (el desafío de datos para el desarrollo de Orange - Orange D4D Challenge)82 .83 Para beneficiarse completamente de Big Data, las empresas privadas, los INE y los gobiernos necesitan un ‘nuevo acuerdo’ de datos.84 Los ODS ilustran la necesidad de políticas nuevas e internacionales que cambien el enfoque actual para el acceso y utilización de los datos. El monitoreo requerirá un acceso estable y sostenible a los datos en una escala global. Es poco probable que algunos INE o gobiernos individuales puedan imponer tal cambio; por el contrario, se requerirán acuerdos globales, es decir, acuerdos con el apoyo de la ONU o del Foro Económico Mundial. Se espera que este nuevo acuerdo esté fundamentado en un debate público más amplio sobre la propiedad de los datos. Enfoques como la filantropía de datos, por ejemplo, sugieren con 79 Ballivian y Hoffman 2015. United Nations Statistical Commission 2014a. 81 Pawelke y Tatevossian 2013. 82 . 83 Orange 2014. 84 Pentland 2009. 80 41 demasiado énfasis que los datos pertenecen a los operadores de telefonía móvil y no a los emisores individuales de los datos. Varias academias como el MIT u organizaciones de derechos civiles como la Fundación Open Knowledge cuestionan este enfoque.85 Así que mientras, será importante para crear asociaciones sólidas con el sector privado, los INE no deben convertirse en solicitantes de empresas privadas o de sus ideas de proyectos. El interés de una empresa privada, impulsada por incentivos económicos, rara vez será congruente con el interés de un INE que tiene una agenda pública. Hasta el momento, este debate sigue siendo débil en América Latina y con suerte, la región se beneficiará del debate global, en la medida en que organizaciones de la sociedad civil de América Latina se involucren cada vez más en la discusión. Recomendaciones Involucrarse con el sector privado Evaluar los modelos actuales para el intercambio de datos corporativos Establecer acuerdos para asociaciones público-privadas 3.3. Desafíos técnicos Big Data plantea una serie de desafíos técnicos y obstáculos, particularmente en términos de control de calidad de los procesos estadísticos. El volumen de los datos requiere una expansión de las técnicas de procesamiento que coincida con los sistemas de infraestructura de hardware y almacenamiento de re-ingeniería moderna. Los algoritmos de aprendizaje requieren capacidades informáticas adecuadas para la variedad de las llamadas de datos que permiten la combinación de diferentes tipos de datos recogidos en diferentes niveles, a veces con estructura temporal o geográfica86 Los datos no estructurados (por ejemplo, datos de satélite y datos de medios sociales) requieren capacidades analíticas específicas con el fin de entrenar manualmente los algoritmos para que clasifiquen este contenido de forma automática. Los datos estructurados como los datos de CDR pueden ser más fáciles de procesar, pero a menudo necesitan ser validados con otras fuentes, tales como los datos de satélite o de servicios a hogares. Estos desafíos son de hecho similares a los desafíos relacionados con el uso de datos administrativos. Como era de esperarse, los INE a lo largo de América Latina siguen luchando con la transición técnica al uso cada vez mayor de datos administrativos compuestos por datos estructurados y no estructurados, lo que requiere nuevos estándares y formatos. Muchos INE están actualmente en el proceso de construir almacenes de datos como repositorios centrales de bases de datos que enfocan e integran encuestas, censos y registros administrativos. Estas 85 86 Pentland 2009. Kreuter y Peng 2014. 42 actividades continuas ayudarán a mejorar la captura, limpieza, procesamiento, análisis y visualización de datos mediante el uso de herramientas que permitan controlar de manera automática el procesamiento, con variables estandarizadas y bases de datos de un mismo tema. Adicionalmente, el fuerte movimiento de Datos Abiertos en América Latina favorece los esfuerzos de Big Data, ya que fomenta la estandarización de formatos de datos. La transición hacia formatos de datos abiertos e intercambiables, tales como los estándares de la OCDE para micro y metadatos (CVS y SDMX), facilita algunas aplicaciones de big data. La CEPAL, por ejemplo, ya soporta la armonización de software, tecnologías y herramientas, incluyendo la armonización metodológica para el intercambio de datos en la región,87 que desde ya facilita el proceso de medición de los ODS y mejora la calidad de los datos. Se tendrán que adoptar herramientas y técnicas específicas de TI para acoger Big Data. El enorme tamaño de los conjuntos de datos requiere el uso de sistemas de archivos distribuidos para superar las limitaciones físicas. Se requieren por lo tanto plataformas, tales como HADOOP, para gestionar sistemas de almacenamiento complejos. Estos importantes componentes de tecnologías de la información se utilizan con frecuencia en el proceso de recolección, almacenamiento y análisis de Big Data (ver Anexo 9). Recomendaciones Utilizar servicios de libre acceso Compartir herramientas y software entre los INE Promover y beneficiarse del esfuerzo en Datos Abiertos 3.4. Brechas de capacidad de capital humano En las regiones en desarrollo, la falta de estadísticos entrenados todavía plantea un gran desafío para la mayoría de los INE (el INEGI constituye de nuevo una excepción). En la lucha por jóvenes estadísticos, los INE de muchos países de América Latina compiten directamente con organizaciones internacionales como los capítulos de la ONU y no pueden igualar los salarios. Este problema se hace aún más evidente con el ascenso de Big Data que exige habilidades muy específicas. Por ejemplo, los científicos de datos y computación, que son capaces de manipular conjuntos de datos complejos, y los ingenieros de datos, que diseñan la arquitectura de TI para la recolección y procesamiento de datos, son escasos. En América Latina, hasta ahora sólo unas pocas universidades ofrecen formación en Ciencia de 87 Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2013. 43 Datos y los INE compiten con start-ups y empresas de Internet en la lucha por expertos en datos. Sin embargo, en los países más prósperos esto parece estar cambiando y el número de programas de maestría está aumentando, por ejemplo, en la Universidad de Los Andes en Colombia o en el Instituto Tecnológico Autónomo de México en Ciudad de México. En Brasil, actualmente hay un alto número de graduados en el área de la informática.88 Los programas de formación internos podrían ofrecer una solución: algunos INE, como en Perú, Colombia y México, ofrecen sus propios programas de formación para educar a su personal y a otros en nuevos métodos. CANDANE, la oficina de entrenamiento del DANE, se fundó hace algunos años y actualmente entrena alrededor de 1500 estudiantes en estadística básica, diseño de cuestionarios y el uso de herramientas como Stata y SAS. Esto se realiza mediante formación presencial y por medio de herramientas de aprendizaje virtuales, las cuales también se ofrecen a estudiantes de otros países y continentes. Hay algunas ideas iniciales para ofrecer también cursos sobre análisis de datos en colaboración con universidades como socios. La promoción de herramientas de e-learning y webinars es considerada como un instrumento útil. Desafortunadamente, la mayoría de los programas de formación que se ofrecen actualmente en línea se ofrecen en inglés, lo que produce barreras para el aprendizaje. La conformación de cursos en español o portugués podría ser una manera fácil, no sólo para promover el conocimiento de expertos en Big Data, sino también informar a la comunidad más amplia de los institutos de estadísticas. Otro enfoque es dar becas al personal para clases específicas de formación, práctica que se ejerce en el INEGI, por ejemplo. La contratación externa, por ejemplo de empresas de TI e instituciones universitarias, así como la contratación interna, por ejemplo de pasantes o de personas por proyecto, han sido enfoques aun más exitosos en México. Sin embargo, a menudo la burocracia hace que la contratación de alguien a corto plazo o ad hoc sea difícil en muchos países. Las universidades e instituciones académicas también constituyen socios pertinentes. Como se ha mencionado, un número creciente de universidades está entrando en el campo de los programas de maestría en ciencias de la computación. Sin embargo, hasta hoy, la colaboración con las universidades se basa por lo general en acuerdos formales para el intercambio de datos y no para el intercambio estratégico de conocimiento. A pesar de que los INE suelen proporcionar salas de procesamiento para los investigadores, estos espacios son poco utilizados debido a la burocracia excesiva o a infraestructura técnica antigua. No obstante, también sería problemático centrarse en sólo las habilidades técnicas (lo cual está ocurriendo actualmente en la mayoría de los INE), ya que otras habilidades son igualmente importantes. Debido a la naturaleza interdisciplinaria de Big Data, su uso eficaz requiere de equipos multidisciplinares que incluyan: Experto de dominio. Un usuario, analista o líder con amplia experiencia temas relacionados con los datos, su uso apropiado y sus limitaciones. 88 Digiampietri y col. 2014. 44 Investigador. Miembro del equipo con experiencia en la aplicación de métodos de investigación formal, incluyendo metodología de encuestas y estadísticas. Informático. Miembro técnico del equipo con educación en tecnologías de programación informática y procesamiento de datos. Administrador del sistema. Miembro del equipo responsable de definir y mantener una infraestructura tecnológica que permita la computación a gran escala En el INEGI, se establecieron asociaciones con universidades hace mucho tiempo y, por tanto, apoyan las iniciativas actuales para el uso de Big Data. En un piloto actual, el INEGI está empezando a analizar tuits para entender el bienestar subjetivo en México. Este proyecto se ha creado con un equipo interdisciplinario de investigadores, que van desde informáticos hasta lingüistas. Informar al personal interno será crucial para aumentar la capacidad en Big Data, en particular, cuando hay un escepticismo general hacia las nuevas tecnologías. Esto incluye explicar la interrelación y las diferencias con otro enfoque tal como el de Datos Abiertos. Intranets y revistas internas podrían ser otras herramientas de sensibilización. Como se ha indicado anteriormente, la brecha entre las zonas rurales y urbanas sigue siendo no sólo uno de los grandes retos políticos, sino también estadístico en muchos países de América Latina. Por lo tanto, será crucial involucrar a las entidades locales, por ejemplo a nivel municipal, en el debate sobre Big Data. Las estructuras municipales todavía son muy débiles, y muchas de ellas no utilizan datos o recolectan datos cualitativos. Mientras que la revolución de los datos ofrece oportunidades más amplias para las grandes ciudades y los organismos de control (como los INE), no queda claro cómo los actores locales pueden realmente influir y beneficiarse de estos avances. Recomendaciones Asociarse con universidades locales Usar formas alternativas de entrenamiento, como el entrenamiento vía web Promover la alfabetización de datos entre el personal 3.5. Desafíos metodológicos La calidad estadística conforma uno de los principios fundamentales de los INE (ver también el Principio 3 de los Principios fundamentales de las Estadísticas Oficiales de las Naciones Unidas). 45 Sin embargo, el tejido y la distribución de Big Data exige procesos diferentes que las fuentes estadísticas tradicionales para cumplir con estos estándares de calidad. Big Data en sí mismo plantea desafíos en términos de representatividad. Como 2, Big Data por lo general no se ha diseñado para responder a preguntas específicas de investigación científica. Más bien se utiliza para fines distintos por los que se recolectó: inferencia (proceso de muestreo sólido) y medición (abarcando todas las variables relevantes).89 Estas discusiones no son totalmente nuevas para la comunidad estadística, ya que preguntas similares se han planteado con el uso de datos administrativos. Esto está imponiendo lentamente un nuevo cambio de paradigma, en el que el número de enfoques basados en diseño originalmente utilizados para las estadísticas oficiales está disminuyendo. Pero en cuanto a los registros administrativos, los INE por lo menos pueden abogar o influir en los ministerios y organismos que generan los datos para que se diseñen los registros consecuentemente. Esto será difícil para los datos de la web o de medios sociales. Enfoques basados en modelos son difíciles de aplicar al análisis de Big Data. Los enfoques que proceden por análisis exploratorios, como los basados en la minería de datos y el aprendizaje automático, podrían aplicarse más adecuadamente.90 Además, el proceso de análisis de datos introduce riesgos “para la acumulación de ruido, correlaciones espurias y endogeneidad incidental que puede ser agravada por errores muestrales y no muestrales. En cuanto a los primeros, los datos se pueden filtrar, muestrear o reducir de otras maneras para formar conjuntos de datos más manejables o representativos. Estos procesos pueden implicar otras transformaciones de datos. Los errores incluyen errores de muestreo, errores de selección (o falta de representatividad) y errores de modelado” Por esa razón, aunque la recolección sea barata, limpiar y procesar Big Data puede ser muy costoso, lo que requiere un mayor capital humano para la estructuración, vinculación y gestión de nuevos tipos de datos.91 Hoy en día, la falta de representatividad de Big Data constituye uno de los principales desafíos. Incluso flujos de Big Data con enormes N no son siempre representativos de las poblaciones enteras. Las poblaciones cubiertas por fuentes de Big Data no suelen ser las poblaciones objetivo de las estadísticas oficiales y a menudo, no están definidas de forma explícita. Asimismo, por un lado, no siempre es factible evaluar las relaciones entre la población cubierta y la población objetivo, y por otro, estimar el sesgo.92 Esto es particularmente sorprendente en el contexto de los ODS y especialmente en la medición de la pobreza, dado que los sesgos en los datos podrían relegar grupos específicos que necesitan beneficiarse de la agenda post-2015, como grupos indígenas, mujeres, grupos con bajos niveles de ingresos, etc.93 Probablemente, para la región de ALC este sesgo reside en la brecha entre las zonas rurales y urbanas como se observa por ejemplo en la penetración de la telefonía móvil, y con frecuencia también refleja los sesgos socioeconómicos entre los diferentes grupos y minorías. Por lo tanto, 89 Kreuter y Peng 2014. Eurostat 2014. 91 American Association for Public Opinion Research (AAPOR) 2015. 92 Eurostat 2014. 93 boyd y Crawford 2012. 90 46 la probabilidad de que aquellos que no han sido cubiertos de manera suficiente por los datos tradicionales tampoco se reflejen adecuadamente en big data, es alta o incluso más alta. Por esta razón, es necesario garantizar que los CDR se puedan usar realmente para monitorear la población objetivo y si los datos de dichos registros son una buena herramienta para analizar sólo las zonas urbanas. Lo mismo es cierto para los datos de redes sociales, que se encuentran ampliamente distribuidos en Brasil, Chile y México, pero no tienen el mismo nivel de disponibilidad en otros países de América Latina. Asimismo pueden existir otras razones para los sesgos. En el caso de Colombia, muchas personas no utilizan sus propios teléfonos para hacer llamadas, sino que utilizan los teléfonos de los llamados ‘minuteros’: personas en las calles que por lo general venden frutas u otros bienes y al mismo tiempo ofrecen ‘minutos’ en varios teléfonos. Esto es más barato para aquellos que necesitan realizar llamadas a diferentes operadores, lo cual todavía suele ser muy caro. Teniendo en cuenta los datos de CDR que producen los teléfonos de los ‘minuteros’, es fácil imaginar que tengan una salida interesante, aunque confusa, para los investigadores. Para los datos tradicionales hay varios marcos para mitigar los errores del proceso de la encuesta. Para Big Data, la solución más probable será una “combinación de datos de diseño tradicional y Big Data. Sin embargo, este tipo de soluciones para la vinculación de datos y la integración de la información están amenazados por las preocupaciones acerca de la privacidad y confidencialidad”.94 Los investigadores y estadísticos de Europa ya están invirtiendo en técnicas para evitar y detectar el sesgo en los datos. Se necesitará una gran cantidad de inversiones y trabajo para el desarrollo de métodos robustos de dicho tipo si se planea utilizar Big Data ampliamente con fines de monitoreo sobre una base continua. Ciertamente, se necesitarán datos sólidos de terreno para detectar los sesgos. En general, Big Data puede ser de la misma calidad que los datos que se controlan.95 Sin lugar a dudas, para detectar los sesgos se requieren datos de terreno sólidos, como los datos de censos y encuestas, o datos de satélite. Éstos no siempre están disponibles a todos los niveles en la región de América Latina. La región también podría necesitar enfoques distintos en el ajuste de las metodologías actuales, específicamente para abordar los problemas de las brechas entre las zonas rurales y urbanas. Un primer paso podría ser mejorar las estadísticas de TIC en un nivel más granular. Por ejemplo, mediante el análisis de la distribución de la telefonía móvil en las zonas rurales con el fin de obtener una mejor comprensión de los posibles sesgos. En general, al igual que con procesos estadísticos anteriores, se necesitarán estándares y lineamientos a nivel internacional, tanto para garantizar la calidad de los datos como para permitir la comparabilidad (ver más arriba). La región de ALC podría desempeñar un papel activo en el fomento de estos estándares en el ámbito internacional, a través de los diversos grupos de la ONU, el Banco Mundial y otros organismos internacionales, y poniendo los 94 95 Kreuter y Peng 2014. Smith, Mashhadi y Capra 2013. 47 desafíos específicos de la región en la agenda (sesgo entre las zonas rurales y urbanas). Recomendaciones Continuar con más inversiones en investigación en Big Data Asesorar las conversaciones actuales en curso sobre Big Data y medición Iniciar el desarrollo de nuevos estándares y lineamientos en la región Mejorar y enriquecer las estadísticas locales de TIC para tomar conciencia de los sesgos 3.6. Riesgos éticos, de privacidad y políticos Mientras que los INE naturalmente tienen más experiencia en el tratamiento de datos confidenciales que muchas otras instituciones, los posibles riesgos para la privacidad y protección de datos son mucho mayores en el contexto de Big Data o los datos digitales en general. Los desafíos relacionados con Big Data van desde la falta de propiedad de los datos, limitación del propósito (para la definición de las estadísticas oficiales) y los límites de la anonimización de datos en el contexto de procesamiento digital de conjuntos de datos. Dado que los INE no generan los datos y en la mayoría de los casos ni siquiera se generan con propósitos estadísticos, hay una falta de marcos legales claros. La mayoría de los consumidores de servicios digitales (tales como las aplicaciones para teléfonos inteligentes) y por lo tanto, los emisores de Big Data, tienen poca o ninguna idea de que sus datos pueden ser reutilizados para otros fines, tales como los productos estadísticos.96 En la era digital, la anonimización de los conjuntos de datos digitales es limitada. Contrario a lo que se ha pensado durante mucho tiempo y que es la herramienta más utilizada en los procesos estadísticos, la eliminación de la información de identificación personal (IIP) no sería entonces suficiente para proteger contra la re-identificación.97 Cruzar ciertos conjuntos de datos con datos similares permite fácilmente la re-identificación de individuos y solo se requieren unos pocos puntos de datos (por ejemplo la posición, la fecha y la hora) para volver a identificar a un individuo en el conjunto de datos.98 En particular, los datos de ubicación, que podrían ser de gran valor para los productos estadísticos, tales como las estadísticas de turismo o migración plantean enormes riesgos para la anonimización. Aunque se han hecho intentos técnicos y metodológicos para resolver el problema en un nivel técnico, por ejemplo haciendo ruido en los 96 American Association for Public Opinion Research (AAPOR) 2015. Montjoye y col. 2013. 98 Eurostat 2014. 97 48 datos para hacer la re-identificación más difícil, muchos técnicos académicos sostienen que la reidentificación minuciosa no puede ser garantizada.99 En general, los datos agregados, como el tráfico de antena a antena (como lo ha hecho Smith et al. en su investigación sobre la estimación de la pobreza en Senegal), no interfieren con la privacidad. Pero como los investigadores de Eurostat lo señalan, la agregación de los datos iniciales antes de que sean procesados, limita seriamente las opciones disponibles en relación con la metodología y el potencial de los datos para las estadísticas Entre los INE de América Latina hay poca conciencia sobre los límites de los métodos tradicionales para la anonimización de datos en el contexto de la era digital. Dado que Big Data no se produce internamente en los INE, sino que demanda nuevas asociaciones con el sector privado, cambian las bases legales para el uso de datos personales. El concepto de Habeas Data conforma la base tanto para la protección de datos y privacidad, como para de la libertad de información o el derecho a la información. El derecho de Habeas Data “[nosotros disponemos] de los datos,” se desarrolla sobre el principio alemán del “derecho a la autodeterminación informativa” y el Convenio 108 de 1981 del Consejo de Europa sobre la protección de datos, y protege la información personal de un individuo al permitir que esa persona solicite la rectificación, actualización o incluso destrucción de los datos personales recogidos en una base de datos (automatizada), e implica que debe haber transparencia en la recolección y tratamiento de dichos datos. En general, existen otras leyes que también afectan el uso y control de los conjuntos de datos. En Colombia, por ejemplo, está la ley de datos personales (Ley 1581 de 2012).100 Con base en esta ley, los datos personales pueden clasificarse como datos privados o semiprivados (en virtud de Habeas Data o de la Ley 1266 de 2008)101 y sensibles o no sensibles (bajo la Ley 1581 de 2012).102 Sin embargo, la definición se extiende no sólo a los datos considerados como datos personales o información sensible, pero también a otros datos, a pesar de que no encajen estrictamente en esas categorías, pero que también merecen ser conservados, controlados y, de manera estricta, igualmente dignos de preservación, control y divulgación.103 Sin embargo, la aplicación de la ley en América Latina sigue siendo muy limitada. Adicionalmente, incluso donde la aplicación de la ley es fuerte, los marcos de privacidad actuales (alrededor del mundo) enfrentan muy pobremente los desafíos de privacidad ilustrados y causados por Big Data. Dado que los datos generalmente se recogen de forma pasiva, la definición de otras herramientas de política que se basen en el consentimiento y el propósito informados, sigue siendo problemática debido a que probablemente el uso potencial de los datos no se haya definido en el momento en que se recolectan los datos. Esto será aún más difícil cuando los sujetos vivan en la pobreza o sean altamente vulnerables y donde los marcos legales no puedan ser afianzados en absoluto. Por esta razón será esencial, por un lado, desarrollar los marcos legales necesarios para el uso de nuevas fuentes de datos de una manera apropiada y orientada al valor, y por otro, recordar a los INE sus estándares éticos y de responsabilidad hacia 99 Ohm 2010. Congreso de la República de Colombia 2012. 101 Congreso de la República de Colombia 2008. 102 Newman Pont 2015. 103 Urioste Braga 2009. 100 49 el bien público. Después de todo, también en un contexto de Big Data, los Principios Fundamentales de las Estadísticas Oficiales siguen proporcionando directrices éticas para actividades de los INE. Esto, por ejemplo, también aplicaría a las preguntas alrededor de la minimización de los sesgos en los datos y la responsabilidad los INE de informar al público acerca de esos impedimentos. Como se mencionó anteriormente, en muchos países los INE son percibidos como actores de confianza en el manejo y control de los datos, lo que podría respaldar su posible función como partes terceras relevantes en el ecosistema de Big Data. Evidentemente será esencial garantizar la confidencialidad para proteger la confianza, no sólo para nuevas actividades sino también para el trabajo en curso, como las encuestas. Regidos por legislaciones que sitúan la protección de los datos en el centro del proceso estadístico, los INE serían buenos candidatos para mover la discusión de Big Data hacia las buenas prácticas para el bienestar de la sociedad. Sin embargo, como se ha indicado anteriormente, la calidad de los marcos legales de los INE a través de la región de ALC varían. Muchos INE todavía no siguen las buenas prácticas recomendadas por la ONU (incluyendo la independencia); esto perjudica su papel potencial en el ecosistema de Big Data como terceros de confianza, ya que podría ser más difícil convencer a las sociedades que pueden cumplir esta función. En tiempos de continua vigilancia masiva, también será importante ilustrar que los INE no son nuevas herramientas gubernamentales para la vigilancia efectiva. Varios eventos en América Latina han provocado desconfianza entre ciudadanos y activistas de la sociedad civil. Durante las protestas en contra de la Copa del Mundo en 2014, la policía y los servicios de inteligencia de Brasil vigilaron a los manifestantes. En México, la última modificación a la Ley de Telecomunicaciones incluye políticas explícitas con respecto a los datos de localización geográfica de los teléfonos celulares, sin necesidad de una orden judicial.104 En Colombia, diferentes actores han sido vigilados durante las negociaciones de paz.105 Los INE de la región deben ser conscientes de este problema y promover un enfoque de Big Data basado en valores. Los impactos de Big Data y los límites de la anonimización también deben integrarse en los códigos de ética y buenas prácticas de los INE. Además tienen que informar activamente al público sobre los riesgos y beneficios de Big Data. La participación de grupos de la sociedad civil, derechos humanos, periodistas y activistas de la privacidad será esencial para el desarrollo de marcos legales válidos. “Hay una necesidad de pensar más a fondo y debatir sobre los riesgos compartidos, los incentivos y los impactos para el establecimiento de acuerdos de intercambio de datos entre múltiples actores”.106 La transparencia sobre las actividades y asociaciones de Big Data sin duda será clave para promover la confianza. Los INE podrían incluso convertirse en actores clave en el suministro de datos al público y la promoción de la transparencia sobre otras actividades de Big Data realizadas por organismos gubernamentales, como sugiere un estudio reciente sobre los riesgos del uso de Big Data en el 104 Ruiz 2014. Barbosa 2014. 106 Ballivian y Hoffman 2015. 105 50 mercado laboral en Chile por Derechos Digitales.107 A pesar de los incidentes mencionados anteriormente, algunos países de América Latina han sido de hecho, pioneros en enfoques de múltiples actores. Brasil, por ejemplo, ha estado a la vanguardia de la promoción de enfoques basados en los derechos humanos para Internet y la protección de la libertad en línea, en particular demandando una nueva declaración internacional sobre el derecho a la privacidad en la era digital. El Marco Civil da Internet de Brasil ha sido reconocido a nivel mundial como ejemplo de un proceso de buenas prácticas para compromisos de múltiples actores, incluyendo la participación del sector privado. Desarrollar herramientas para evaluar la privacidad Desarrollar marcos éticos alrededor de Big Data Considerar enfoques de múltiples actores Normas y leyes sobre el uso de datos Transparencia sobre los proyectos y asociaciones de datos, especialmente con el sector privado 4. Hacia una hoja de ruta regional de múltiples actores para aprovechar Big Data para las estadísticas oficiales y los ODS 4.1. Cinco tendencias regionales que promueven el uso de Big Data en América Latina Los INE siguen siendo un actor fundamental en la evolución continua de las estadísticas oficiales y en el logro de los ODS durante la revolución de los datos, tanto dentro de las actividades encomendadas, como en la formación y desarrollo del ecosistema regional de actores que utilizan fuentes de datos tradicionales y nuevas. Para cumplir con este rol, los INE tienen que participar activamente en el ecosistema de Big Data para garantizar que el camino por definir de Big Data conduzca hacia el progreso social. La medición de los ODS será una tarea importante para los próximos quince años y sin duda hay evidencia de que Big Data podría ayudar a los INE a cumplir con esta responsabilidad. Adicionalmente, los ODS servirán, por primera vez, como indicadores globales que involucran a todos los países. “El mundo que 107 Velasco y Viollier 2016. 51 queremos,” es el subtítulo del primer informe del Grupo de Desarrollo de las Naciones Unidas (UNDG por sus siglas en inglés) sobre los Objetivos de Desarrollo del Milenio, y va más allá de mejores números y mediciones. Por esa razón, sería un gran error creer que Big Data se trata solamente de nuevas fuentes de datos: tiene y tendrá implicaciones más amplias para la estructura de las sociedades. Para evitar una segunda brecha digital, las regiones en desarrollo necesitan aportar a esta discusión y los INE son los actores más oportunos y algunos de los actores más capaces de coordinar este proceso. Como se describe en la sección anterior, persisten retos y barreras importantes para que los INE puedan aprovechar Big Data: 1. Barreras institucionales para la innovación y la gestión del cambio, incluyendo una falta de cultura digital interna, percepción institucional escéptica sobre las nuevas fuentes de datos y falta de coordinación entre partes interesadas; 2. Limitaciones para el acceso y la completitud de los datos, en particular en el acceso y uso continuo de datos del sector privado, la falta de asociaciones público-privadas y derechos de propiedad limitados que involucren a personas y sus relaciones con los datos; 3. Desafíos técnicos, incluyendo infraestructura para la captura, limpieza, procesamiento, análisis y visualización de datos estructurados y no estructurados, así como la adopción de técnicas y herramientas informáticas específicas; 4. Brechas de capacidad de capital humano, incluyendo el hallazgo de talento, la alfabetización de datos, pocos programas de formación en ciencia de datos y la participación limitada de universidades y otras instituciones académicas; 5. Desafíos metodológicos, incluyendo los problemas de representatividad de los datos, los sesgos y la falta de estándares y lineamientos; 6. Riesgos éticos y políticos, incluyendo riesgos para la privacidad y marcos legales débiles. A pesar de estos desafíos, se presentan las siguientes grandes tendencias regionales que, adicional a los ODS, facilitan aún más el uso y la experimentación con Big Data a través del ecosistema de datos de América Latina: La experiencia de América Latina en el movimiento de Datos Abiertos Los movimientos de la Alianza para el Gobierno Abierto y los Datos Abiertos han generado un importante capital político en América Latina en torno a los datos para el bien público, particularmente en Perú, México, Colombia y Brasil. La región tiene la mayor proporción de países participantes (quince países miembros) en relación con otras regiones de la Alianza para el Gobierno Abierto (AGA), una alianza global para promover el Gobierno Abierto. La mayoría de estos países miembros han puesto en marcha planes de acción nacionales sobre participación 52 ciudadana, transparencia y rendición de cuentas del gobierno. Los defensores de los movimientos de Datos Abiertos y la transparencia (periodistas, académicos, infomediarios y comunidades de hackers cívicos) han impulsado la transformación de los datos gubernamentales existentes en formatos legibles por máquinas y accesibles para la investigación, el análisis y la promoción. Por ejemplo, la legislación de datos abiertos de México tiene leyes oficiales de Datos Abiertos que han encaminado desarrollos valiosos tales como la transición hacia estándares de datos abiertos e intercambiables (SDMX); esta transición favorece tanto las actividades de Big Data, como la medición eficiente de los ODS. El análisis de la CEPAL del ecosistema datos de América Latina apunta a las sinergias creadas por los movimientos de Datos Abiertos y Big Data.108 La presencia de asociaciones público-privadas en Big Data Como se señaló anteriormente, la presencia de asociaciones público-privadas en Big Data es un desarrollo relativamente reciente en América Latina. Empresas del sector privado que se asocian en algún nivel con entidades de sectores no privados, para llevar a cabo actividades relacionadas con datos incluyen a Telefónica, IBM, Microsoft, la banca multinacional, Aentropico (ahora Random Monkey), Cignifi y Open Intelligence. Si bien la cooperación limitada a través de la región a menudo inhibe asociaciones formales entre los INE y el sector privado, en algunas industrias las entidades públicas han sido capaces de acceder a datos que las empresas del sector privado han compartido a través de premios y desafíos, APIs y productos de inteligencia. Por ejemplo, los datos de Twitter geolocalizados para el trabajo del INEGI sobre el bienestar subjetivo se derivan (en colaboración con instituciones académicas) a través de la API pública de Twitter. Del mismo modo, el DANE y los investigadores del Ministerio de Hacienda utilizaron los datos de uno de los productos de inteligencia de Google (Google Trends) para inferir la actividad económica en varios sectores. Si bien estas formas de intercambio de datos representan formas de asociación limitadas (en relación con asociaciones público-privadas más formales), también representan un fenómeno emergente de corporaciones que comparten datos a través de diferentes matices y modelos de apertura. La presencia de comités, instituciones y grupos de trabajo fuertes en toda la región Las estructuras existentes dentro de la región de ALC permiten que los INE fomenten Big Data como fuente para el progreso de los ODS. Por ejemplo, la CEPAL apoya la armonización de software, tecnologías y herramientas, incluyendo la armonización metodológica para el intercambio de datos entre la región,109 que desde ya suaviza el proceso de medición de los ODS y mejora la calidad de los datos. La Conferencia Estadística de las Américas de la CEPAL (CEA-CEPAL) promueve el desarrollo y la interoperabilidad de las estadísticas nacionales de la región para el análisis comparativo internacional, así como la cooperación entre los INE en los 108 109 Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2014. Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2013. 53 planos bilateral, regional e internacional.110 La CEPAL articula grupos de trabajo regionales para los INE y otros actores estadísticos, especialmente sobre asuntos temáticos interrelacionados, como las estadísticas de género, la migración y el comportamiento de las remesas, el progreso de los ODM y las estadísticas ambientales.111 El desarrollo de mejores prácticas adaptables La mayoría de los países de la región enfrentan desafíos similares y al mismo tiempo podrían beneficiarse de las buenas prácticas de la región. En este momento, los INE de Colombia, México, Ecuador y Brasil están lidiando con los mismos problemas y quieren poner en marcha pilotos similares; algunos de ellos ya construyeron el software y las herramientas necesarias, mientras que otros han investigado en la metodología. A la fecha, el INEGI de México ha sido sede de quince reuniones internacionales sobre las mejores prácticas para las estadísticas de género en toda la región, tanto en la “producción y en el uso de los datos para la preparación, implementación, monitoreo y evaluación de las políticas públicas, así como para el análisis académico de los datos desde una perspectiva de género”.112 En el año 2006, a través de esfuerzos compartidos por el IBGE de Brasil y la Unidad de Estadísticas Sociales de la CEPAL, los miembros del Grupo de Río sobre estadísticas de pobreza publicaron un compendio de las mejores prácticas en la medición de la pobreza. El compendio ofrece un “menú de enfoques y metodologías para la medición de la pobreza”.113 Red interdisciplinaria regional de innovación que involucra los INE y otros actores Los enfoques de múltiples actores serán claves tanto para fortalecer los INE, como para identificar las prioridades regionales y para garantizar la confianza y legitimidad ante los ciudadanos y asociados a través de Big Data. Se ha dado inicio a la coordinación temprana de los actores que trabajan con Big Data a través de América Latina como parte del Data Space de América Latina de Data-Pop Alliance. Dicho Data Space representa un colectivo de actores y actividades en el ecosistema de datos y desarrollo de América Latina que trabaja en investigación, capacitación y actividades de promoción relacionados con Big Data y los ODS. El Data Space actúa como plataforma de conexión y resonancia para que sus miembros catalicen y coordinen esfuerzos para maximizar su potencial en torno a objetivos comunes. El CEPEI también está trabajando en esfuerzos de coordinación regionales en Big Data a través de su Esfuerzo Colaborativo sobre el Ecosistema Nacional de Datos, que apoya la toma de decisiones basada en datos entre actores públicos y privados. Para lograr esto, promueve el intercambio de información entre periodistas, científicos de datos, académicos, los responsables de formular políticas y la comunidad internacional sobre la implementación, logros y limitaciones de la agenda de desarrollo post-2015. 110 Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2010. Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL) 2010. 112 Instituto Nacional de Estadística y Geografía (INEGI) de México 2015a. 113 Expert Group on Poverty Statistics 2006. 111 54 Estas cinco tendencias presentan oportunidades para los INE y otros actores que trabajan en el ecosistema de Big Data, para construir sobre los marcos y los movimientos existentes en la región. 4.2. Hacia una hoja de ruta regional de múltiples actores para Big Data: construyendo sobre las fortalezas y oportunidades regionales Las siguientes recomendaciones forman la base de una hoja de ruta regional y de múltiples actores para Big Data en América Latina, y describen cómo los INE y otros actores regionales en el ecosistema de datos de América Latina pueden aprovechar fortalezas y oportunidades regionales existentes para aprovechar Big Data para las estadísticas oficiales y los ODS: 1. Crear estructuras para fomentar el desarrollo y coordinación de proyectos nuevos y existentes en Big Data; 2. Movilizar la conciencia y voluntad políticas para garantizar la creación de políticas sobre Big Data; y 3. Desarrollar mecanismos y herramientas para el uso de Big Data a través de la retroalimentación y el aprendizaje. La Figura 5 a continuación detalla recomendaciones derivadas de cada una de las tendencias regionales en curso: el movimiento de Datos Abiertos, las asociaciones público-privadas, los grupos de trabajo regionales, las buenas prácticas emergentes para las estadísticas y una red emergente sobre Big Data y el desarrollo en las regiones de ALC. Crear estructuras para fomentar el desarrollo y coordinación de proyectos nuevos y existentes en Big Data Como se señaló anteriormente, la creación de asociaciones público privadas como nuevas formas de colaboración en América Latina permite el intercambio de conocimientos y habilidades entre los INE que se están involucrando con Big Data y organizaciones de los sectores privado y público, que proveen sus capacidades técnicas y de computación. Sin embargo, trabajar en este tipo de asociaciones donde los datos no son propiedad de los INE, requiere niveles adicionales de mediación y negociación. Por ejemplo, mientras que los INE claramente se benefician de estos intercambios, el valor para las empresas del sector privado refleja en gran medida sus propios incentivos económicos, lo que puede conducir a una necesidad de hacer mayores concesiones que en última instancia puede mitigar los beneficios para los INE participantes. Además, debido a las preocupaciones de privacidad y seguridad, las reglas de control de datos que rodean el uso de los mismos pueden ser limitantes y costosas; por ejemplo, la investigación de Telefónica por lo general se lleva a cabo por contrato en la sede de Barcelona debido a preocupaciones de privacidad y confidencialidad; esto dificulta el acceso de los INE a los datos. 55 Figura 5: Hoja de ruta de recomendaciones para incorporar Big Data en proyectos de los INE en América Latina 56 A medida que estas nuevas formas de asociación fomentan nuevos pilotos de Big Data, la falta de estructuras y mandatos coordinados entre instituciones se ha traducido en una serie de instituciones evaluando o llevando a cabo pilotos por separado. Estos marcos legales débiles plantean un obstáculo importante para que muchos INE de la región se vinculen eficazmente con Big Data. En Colombia, por ejemplo, el Ministerio de TIC (MINTIC), el Departamento Nacional de Planeación (DNP) y el DANE están actualmente analizando de manera simultánea los posibles casos de Big Data, con MINTIC a cargo de la estrategia nacional de Datos Abiertos y el DNP a cargo de la estrategia nacional de Big Data. Sin embargo, estos esfuerzos simultáneos no están coordinados. Esto resulta particularmente problemático en los acercamientos a socios del sector privado y en la negociación de acuerdos. El caso de los datos de los CDR ilustra bien los límites de las solicitudes ad hoc y la necesidad de procesos mejor alineados, asociaciones público privadas y acuerdos más amplios. Lo que se requiere es a la vez un ambiente con políticas habilitadoras y de práctica y coordinación que promueva un mayor liderazgo de los INE dentro de las asociaciones y que incentive la coordinación entre las partes interesadas en todo el ecosistema de Big Data de América Latina. Para el proceso de los ODS, así como para cualquier enfoque relacionado con Big Data, será esencial para los INE de la región establecer esfuerzos coordinados para las asociaciones con actores locales relevantes. Además de los Data Spaces de Data-Pop Alliance, varios otros actores han sido de gran influencia para cultivar el ecosistema de Big Data en América Latina: el trabajo en curso de la CEPAL en la región que conecta organizaciones de diferentes sectores, el trabajo de investigación de la Fundación Telefónica sobre las transformaciones en las telecomunicaciones y los servicios basados en Internet (en colaboración con la CAF y la CEPAL) y los esfuerzos de coordinación continuos del CEPEI. Estos esfuerzos continúan fomentando la coordinación entre los actores académicos, del sector privado y del sector público en toda América Latina. Recomendaciones adicionales hacia la creación de estructuras para fomentar proyectos nuevos y existentes en Big Data: 1. Construir sobre vías correspondientes de compromiso cívico emergentes del movimiento de Datos Abiertos (incluyendo herramientas de visualizaciín, API, etc.) para Big Data; 2. Desarrollar enfoques innovadores para la formación de asociaciones con entidades del sector público y privado; 3. Orientar fondos hacia el desarrollo de proyectos de Big Data a través de comités y grupos de trabajo regionales; 4. Desplegar nuevas ideas y proyectos/enfoques adecuados para cada INE; 5. Coordinar el involucramiento y la asociación de múltiples actores en todo el ecosistema de Big Data, mediante el fomento de los ecosistemas de datos regionales en torno a actores y actividades clave para vincular los grupos de base y start-ups con grandes corporaciones, universidades y la sociedad civil. 57 Movilizar la conciencia y voluntad políticas para garantizar la creación de políticas sobre Big Data Como se señaló anteriormente, la experiencia de América Latina con los movimientos de Gobierno Abierto y Datos Abiertos ha despertado una fuerte voluntad política en todos los gobiernos de la región. El movimiento de Datos Abiertos ha fomentado la exploración y la coordinación de actores diferentes a los INE alrededor de actividades públicas de datos; aunque el impacto de los datos abiertos en toda la región ha sido limitado, la voluntad y el apoyo político sigue aumentando. Además, la existencia de grupos de trabajo regionales e instituciones como la CEPAL destacan y proporcionan intereses internacionales al desarrollo de la región, así como al acceso a recursos financieros. Sin embargo, las lecciones aprendidas de la historia de estos movimientos incluyen la necesidad de desarrollar marcos y evaluaciones de impacto en fases tempranas. Gran parte de las recientes críticas al movimiento de Datos Abiertos han estado relacionadas con el impacto limitado (y, a menudo, el interés cívico limitado) de las costosas iniciativas gubernamentales en datos abiertos, promovidas por el clamor mundial por los datos abiertos. El enfoque de “primero la política” descuidó consideraciones prácticas necesarias para llevar a cabo los proyectos de una manera concreta y evaluar su impacto. Los actores regionales que trabajan en Big Data deben buscar sinergias y considerar las lecciones de estos movimientos de datos paralelos con el fin de movilizar y conducir la voluntad y los recursos políticos hacia la creación y el desarrollo de estrategias nacionales de Big Data. Esto incluye el involucramiento de expertos académicos y técnicos que trabajan en coordinación con defensores y hackers cívicos para el desarrollo de conocimientos y marcos compartidos. Para garantizar un desarrollo centrado en el hombre y responsable, también es necesario que haya un diólogo constante con los grupos de presión, como los defensores de derechos humanos y periodistas. Los INE deben, por tanto, comunicarse de forma transparente y abierta acerca de las actividades y asociaciones de Big Data. Esto también incluye la evaluación de las capacidades de individuos y grupos para involucrarse de manera constructiva con la sociedad a través y alrededor de los datos (por ejemplo, la alfabetización de datos). Impulsar la alfabetización puede permitir una mayor participación ciudadana y la exigencia a sus gobiernos del fomento un ambiente con políticas habilitadoras para Big Data y los Datos Abiertos. Recomendaciones adicionales hacia movilización de la conciencia y voluntad políticas para garantizar la creación de políticas sobre Big Data: 1. Promover e incentivar el involucramiento del sector privado, a través de la organización de desafíos de datos y la promoción de apoyo financiero y en especie a empresarios y start-ups locales; 2. Orientar la coordinación y la estrategia a través de instituciones y grupos de trabajo de coordinación regionales para la adopción de políticas de Big Data; 3. Capitalizar las sinergias creadas por la Asociación Mundial para los Datos de Desarrollo 58 Sostenible; 4. Incentivar los INE para que realicen autoevaluaciones a través del análisis comparativo de la recolección y producción de datos estadísticos; 5. Estimular todo el espectro de participación de los INE en el ecosistema de Big Data. Desarrollar mecanismos y herramientas para el uso de Big Data a través de la retroalimentación y el aprendizaje La proliferación de proyectos, pilotos y actores de Big Data, ha generado un interés creciente en el potencial de resolver problemas mundiales; sin embargo, los marcos y modelos globales para hacer frente a las caídas de Big Data han sido esquivos. Por ejemplo, cuando se consideran las preocupaciones éticas y de privacidad relacionadas con la identificación de información de identificación personal (IIP), existen importantes brechas en la comprensión de la naturaleza del uso responsable de datos y del desarrollo de marcos legales correspondientes. Además, como muchos gobiernos y otros actores consideran el uso de metodologías algorítmicas para la formulación de políticas basadas en datos, el intercambio de conocimiento sobre la manera de abordar las implicaciones de estas metodologías también sigue sin explorarse en gran medida. Lo que se necesita son mecanismos y herramientas para utilizar Big Data con el fin de buscar un mayor intercambio de conocimientos y la coordinación entre actores. Esto es particularmente cierto para los INE en regiones en desarrollo como América Latina donde los recursos limitados dejan menos espacio para la experimentación. Los INE por mandato recolectan, coordinan y difunden datos para las agencias gubernamentales y otros actores de la sociedad. Sin embargo, la proliferación de nuevas fuentes de datos a través de Big Data ha hecho la tarea de difusión cada vez más compleja debido a la falta de formatos y estándares, el volumen absoluto de datos y la naturaleza del proceso de recolección de datos. Antes, los INE supervisaban el proceso de recolección de datos; ahora están recogiendo las migajas de las fuentes de datos y la recolección de datos se produce aguas arriba. A medida que los INE experimentan con Big Data, las lecciones aprendidas en la facilitación de la tarea de difusión, serán valiosas para el desarrollo de mejores prácticas entre los INE y disminuirán las barreras de entrada para que otros INE conviertan e interactúen con nuevas fuentes de datos. Como se dijo anteriormente, en cuanto a la creación de marcos para la protección de datos, muchos países de América Latina tienen leyes omnibus de protección de datos similares a las leyes de protección de datos de la UE, donde los ciudadanos son capaces de controlar el uso de los datos personales que estén en poder de entidades públicas o privadas. Recomendaciones adicionales hacia el desarrollo mecanismos y herramientas para el uso de Big Data: 1. Adaptar los marcos y estándares de datos existentes del movimiento de Datos Abiertos para Big Data; 59 2. Desarrollar marcos y procedimientos para datos éticos e intercambio de IP, en lo posible con un comité de ética en cada INE; 3. Diseñar indicadores basados en big data para monitorear el progreso de proyectos regionales y globales; 4. Diseñar y compartir listas de chequeo de buenas prácticas en los INE; 5. Desarrollar y mantener plataformas para el intercambio de datos entre partes interesadas. Mientras que los INE de América Latina seguirán desempeñando un papel fundamental en la evolución de las estadísticas oficiales y el logro de los ODS en la región, este informe ha puesto sobre la mesa que, de hecho, no están solos en estos esfuerzos y que deben coordinar y trabajar con otros actores (agencias gubernamentales, organizaciones internacionales, la sociedad civil, universidades, etc.) con el fin de aprovechar al máximo el potencial de Big Data para las estadísticas oficiales y los ODS. Para los INE en la región de ALC, será igual de importante tanto ser consciente de como involucrarse con un ecosistema más amplio, de igual manera cuando se trata con el proceso de los ODS. 60 Glosario Términos Big Data = ecosistema creado por la aparición concomitante de las 3C de Big Data. 1. Migajas digitales (crumbs en inglés), o pedazos de datos emitidos y recolectados de forma pasiva por dispositivos digitales que constituyen grandes conjuntos y flujos de datos que proporcionan una visión única sobre sus comportamientos y creencias; 2. las Capacidades de Big Data – lo que también se conoce como Big Data Analytics – es decir, el conjunto de herramientas y métodos, hardware y software, know-how y habilidades necesarios para procesar y analizar este nuevo tipo de datos); 3. las Comunidades de Big Data que describen los diferentes actores involucrados en el ecosistema de Big Data, desde los generadores de datos hasta sus analistas y usuarios finales; es decir, potencialmente toda la población. big data = se refiere a la primera C de Big Data; flujos y conjuntos resultantes de las huellas digitales que dejan los seres humanos al usar teléfonos celulares (registros de llamadas), tarjetas de crédito (transacciones), el transporte (registros de metro o autobús y de EZ Pass), medios sociales y motores de búsqueda, o cuando sus acciones son registradas por sensores, ya sean físicos (contadores eléctricos, sensores de pesaje en un camión) o remotos (satélites, cámaras). crowdsourcing = práctica que por lo general se lleva a cabo en plataformas digitales (SMS, Internet, etc.), a través de la cual se recluta a un gran número de personas para contribuir a una tarea o esfuerzo particulares. datos sub-producto = datos que los teléfonos móviles, sensores, redes sociales y otras plataformas emiten de forma pasiva y que son traducciones digitales de las acciones e interacciones humanas. thick data (datos gruesos) = datos cualitativos que proporcionan información sobre los aspectos emocionales de la conducta humana, en contraposición al thin data (datos delgados) que se centra principalmente en la información cuantitativa la cual proporciona una visión menos robusta de los aspectos cualitativos de los comportamientos observados. webscraping = técnica de software informático para automatizar la extracción de información de sitios web. e-learning = aprendizaje a través de medios electrónicos. startups = negocios recién establecidos. webinars = seminarios llevados a cabo en Internet. 61 Acrónimos FBK = Fondazione Bruno Kessler; entidad privada encargada de mantener la provincia de Trento, Italia, en la corriente principal de la investigación europea e internacional. CDP = CDP Worldwide; empresa que reporta datos del cambio climático, el agua, las cadenas de abastecimiento, los bosques y otros datos ambientales, con el objetivo de prevenir el cambio climático y proteger el medio ambiente. CDR = sigla en inglés para los registros de detalles de llamada. Es el nombre técnico para los datos de telefonía móvil registrados por todos los operadores de telecomunicaciones. Los CDR contienen información acerca de la ubicación de quienes envían y reciben llamadas o mensajes de texto a través de redes de los operadores, así como datos sobre su hora y duración. CEPAL = Comisión Económica para América Latina. Es la comisión regional de las Naciones Unidas destinada a promover el desarrollo económico en la región. HADOOP = sistema para el mantenimiento de un sistema de archivos distribuido que soporta el almacenamiento de gran escala (terabytes o petabytes de contenido), y el procesamiento paralelo de algoritmos sobre grandes conjuntos de datos, lo que requiere un lenguaje de programación como Java o Python. HDX = sigla en inglés para intercambio humanitario de datos; plataforma para el intercambio de datos cuyo objetivo es hacer que los datos sean fáciles de encontrar y utilizar. HHI = sigla en inglés para Iniciativa Humanitaria de Harvard, centro de investigación interdisciplinario de la Universidad de Harvard que se especializa en la ayuda humanitaria y la respuesta a la crisis. IEAG = sigla en inglés para el Grupo Asesor de Expertos Independientes, una rama de la Secretaría General de la ONU que da recomendaciones sobre como INE/NSO = Instituto Nacional de Estadística en español, o National Statistics Office en inglés. Se refiere a la agencia estadística líder en un sistema estadístico nacional. OCAH = Oficina de Coordinación de Asuntos Humanitarios de la ONU destinada a mejorar la respuesta a la emergencia; incluye el desarrollo del HDX (intercambio humanitario de datos). ODI = sigla en inglés para el Instituto de Desarrollo de Ultramar, laboratorio de ideas independiente sobre temas internacionales de desarrollo y humanitarios, con sede en el Reino Unido. ODS = Objetivos de Desarrollo Sostenible, establecidos por la División de la ONU para el Desarrollo Sostenible para promover y coordinar la implementación de la agenda de desarrollo sostenible de la Organización de las Naciones Unidas. 62 ONU = Organización de las Naciones Unidas. OSILAC = Observatorio para la Sociedad de la Información en Latinoamérica y el Caribe, cuyo objetivo es mejorar las estadíticas de TICs en Latinoamérica. RIVAF = sigla en inglés para Fondo para el Análisis Rápido de las Consecuencias y la Vulnerabilidad, un proyecto de la ONU en el que la UNODC (Oficina de las Naciones Unidas contra la Droga y el Delito) y el UN Global Pulse (ver abajo) investigaron cómo las crisis pueden impactar los niveles de criminalidad. TIC = Tecnología de la información y las comunicaciones, que se refiere a la convergencia de las redes de audio-visuales y telefónicas con las redes de computadores a través de un único sistema de cableado o enlaces, y las implicaciones económicas y de infraestructura de esas tendencias. UE = Unión Europea. UN Global Pulse = iniciativa de la ONU para hacer uso de big data para el desarrollo y la acción humanitaria, que consiste en un grupo de proyectos de innovación de datos sobre una serie de temas globales. UNODC = Oficina de las Naciones Unidas contra la Droga y el Delito, la cual lleva a cabo proyectos sobre terreno para luchar contra las drogas ilícitas y la delincuencia, así como investigación. UNECE = Comisión Económica para Europa de las Naciones Unidas, cuyo objetivo es promover la integración económica europea. UNFPA = Fondo de Población de las Naciones Unidas, el cual trabaja para promover embarazos seguros y partos saludables. UNSD = División de Estadística de las Naciones Unidas, que recoge y reporta estadísticas económicas y sociales. 63 Anexos Anexo 1: Taxonomía y ejemplos de fuentes de Big Data Tipos Ejemplos Oportunidades Categoría 1: datos sub-producto CDR Estimar la distribución de la población y el estatus GPS (localización de flotas, localización socioecon omico en lugares tan diversos como el vehicular automatizada de buses) Reino Unido y Ruanda Identificación electrónica Proporcionar información crítica sobre Licencias electrónicas (por ejemplo, seguros) movimientos poblacionales y la respuesta de Tarjetas de transporte (incluidas las de comportamiento después de un desastre fidelidad de aerolíneas) Tarjetas de crédito/débito Proporcionar una evaluación temprana de los daños Transporte GPS (localización de flotas, localización causados por huracanes y terremotos vehicular automatizada de buses) EZ passes Rastros en línea Cookies Mitigar los impactos de las enfermedades Direcciones IP infecciosas a través de un monitoreo más oportuno utilizando los registros de acceso de la enciclopedia en línea Wikipedia Categoría 2: contenidos digitales Medios sociales Tuits (API de Twitter) Proporcionar alertas tempranas sobre amenazas que Registros de entrada (Foursquare) van desde brotes de enfermedades a inseguridad Contenidos de Facebook alimentaria Videos de Youtube Empoderar voluntarios para que agreguen datos de Mapeo (Open Street Map, Google Maps, Contenidos terreno que sean útiles especialmente para fines de Yelp) colaborativos verificación (crowdsourced)/ Monitoreo/Reportes (uReport) en línea Categoría 3: datos de sensores Físicos Medidores inteligentes Los sensores se han utilizado para estimar la Rastreadores de velocidad/peso demanda de estufas de alta eficiencia a diferentes Sismógrafos de Servicio Geológico de precios en Uganda o la disposición a pagar por EEUU dispensadores de cloro en Kenia Remotos Imágenes de satélite (NASA TRMM, Las imágenes de satélite que, por ejemplo, revelan Landsat) cambios en la calidad del suelo o la disponibilidad Vehículos aéreos no tripulados (UAV) de agua, se han utilizado para informar intervenciones agrícolas en los países en desarrollo Basado en tecnología móvil Transacciones financieras Anexo 2: Usos de Big Data para el monitoreo de los ODS 64 65 Datos de las búsquedas en línea para monitorear las epidemias de influenza122 Detección de epidemias de influenza utilizando Twitter Minería de los tuits de Indonesia para entender la crisis de los precios de alimentos117 Utiliza indicadores derivados de datos de teléfonos celulares como proxy de indicadores de seguridad alimentaria118 Uso de datos de teledetección para la evaluación y vigilancia de la sequía Datos basados en Internet para identificar brotes de influenza121 Datos de teledetección Sequía’ Datos de las búsquedas en línea Twitter Influenza Influenza 115 Consultas de búsqueda de Google Datos de teléfonos celulares y compras de tiempo al aire Seguridad alimentaria Influenza Tuits Crisis de los precios de alimentos Christopher D. Elvidge, Sutton y col. 2009. Smith-Clarke, Christopher and Mashhadi, Afra and Capra, Licia 2014. 116 Cavallo 2013. 117 United Nations Global Pulse 2014. 118 Soto y col. 2011. 119 Thenkabail, Gamage y Smakhtin 2004. 120 Zhang y col. 2008. 121 Ginsberg y col. 2009. 122 Yuan y al. 2013. 114 3. Garantizar una vida sana y promover el bienestar de todos a todas las edades 2. Poner fin al hambre, lograr la seguridad alimentaria y la mejora de la nutrición y promover la agricultura sostenible Niveles socio-económicos Registros de teléfonos celulares Pobreza Estimar mapas de pobreza con datos de teléfonos celulares115 Datos basados en Internet para estimar el índice de precios al consumidor y los índices de pobreza116 Registros de teléfonos celulares para predecir niveles socio-económicos Índices de precios Imágenes de satélite, luces nocturnas Registros de teléfonos celulares Precios en línea de sitios web de minoristas Pobreza Datos de satélite para estimar la pobreza114 1. Poner fin a la pobreza en todas sus formas y en todo el mundo se Cómo monitorea Qué se monitorea Ejemplos de Big data ODS adoptados por el Grupo de Trabajo Abierto de la ONU Japón China Afganistán, India, Pakistán119 China120 EEUU Un país en África Central 2011 2013 2008 2009 2004 2014 2014 Datos en tiempo real; captura de casos de enfermedades no registrados oficialmente; datos disponibles antes que los datos oficiales Datos disponibles de forma más regular y más baratos que los datos oficiales; la economía informal se reflejaba mejor 2011 “La ciudad más grande de AL” (Actualmente Ciudad de México) Indonesia Datos más baratos disponibles con mayor frecuencia 2013 Argentina Datos internacionales comparables, que se pueden actualizar con mayor frecuencia Ventajas del uso de big data 2013-14 2009 Año Costa de Marfil Mapa global País(es) 66 Imágenes de satélite Imágenes de satélite PIB a niveles subnacionales Twitter Preocupaciones sobre las vacunas VIH, consumo de drogas Monitoreo de las preocupaciones sobre las vacunas Análisis de Twitter utilizado para realizar un seguimiento de la incidencia del VIH y los comportamientos relacionados con las drogas Crecimiento del PIB Informes de los medios (por ej., artículos en línea, blogs, informes del gobierno) Twitter Preocupaciones sobre las vacunas Monitoreo de las preocupaciones sobre las vacunas para ayudar a adaptar los programas de inmunización Emisiones de luz captadas por satélites para estimar el crecimiento del PIB Uso de luces nocturnas para estimar el PIB a niveles subnacionales125 Datos de las búsquedas en línea Dengue 124 Imágenes de satélite Medios sociales y de comunicación Cólera Consumo de energía eléctrica EEUU Datos de teléfonos celulares Malaria Datos de satélite para estimar el consumo de energía eléctrica EEUU Reportes voluntarios a través de Internet Influenza China, India, Turquía, EEUU 30 países 21 países 2013 144 países 2007 2012 1997 2014 2011 En curso 2012 2012 En curso 2013 Año Argentina, Bolivia, Brasil, India, Indonesia, México, Filipinas, Singapur, Tailandia, Venezuela Haití’ Bélgica, Italia, Holanda, Portugal, Reino Unido, Estados Unidos Kenia EEUU Twitter País(es) Influenza se Monitorear brotes de influenza utilizando Twitter Sistemas para monitorear la actividad de enfermedades parecidas a la influenza con la ayuda de voluntarios a través de Internet Datos de teléfonos celulares para modelar la propagación de la malaria Uso de medios sociales y de comunicación para controlar los brotes de cólera Evolución del dengue en Google Cómo monitorea (a continuación) Qué se monitorea Ejemplos de Big data C. D. Elvidge y col. 1997. Henderson, Storeygard y Weil 2012. 125 Sutton, Christopher D. Elvidge y Ghosh 2007. 123 7. Garantizar el acceso a una energía asequible, fiable, sostenible y moderna para todos123 8. Promover el crecimiento económico sostenido, inclusivo y sostenible, el empleo pleno y productivo y el trabajo decente para todos124 ODS adoptados por el Grupo de Trabajo Abierto de la ONU El sector informal se reflejaba mejor; información disponible a nivel subnacional; mejora de estimaciones para países con datos de cuentas nacionales pobres Actualizaciones frecuentes Datos no disponibles de otro modo; es costoso recopilar datos a través de encuesta Ventajas del uso de big data 67 Gutierrez, Krings y Blondel 2013. Imágenes de satélite Peligro y riesgo de inundación 126 Datos de tarjetas de transporte Uso de transporte y viajes Peligro y riesgo de inundación Imágenes de satélite Luces nocturnas Imágenes de satélite como proxy para la población/infraestructura a lo largo de la red fluvial Riesgo de Imágenes de satélite inundación Imágenes de satélite Extensión urbana Emisiones de luz captadas por satélites para estimar la extensión urbana Uso de datos de tarjetas de transporte para la construcción de una imagen de viajes individuales y cómo las redes de autobús y tren son utilizadas por el público Series de tiempo de imágenes satelitales de zonas inundadas para identificar zonas de riesgo de inundación Análisis de la evolución temporal de luces nocturnas a lo largo de la red fluvial para obtener un mapa global de la exposición humana a las inundaciones Uso de datos de imágenes satelitales, SIG y precipitación para producir un mapa de riesgo de inundación a lo largo del Río Benue en Nigeria Uso de técnicas de teledetección por satélite y SIG para el peligro y evaluación de riesgo de inundaciones en el distrito de Chamoli, Uttarakhand, India 11. Lograr que las ciudades y los asentamientos humanos sean inclusivos, seguros, resilientes y sostenibles Compras de tiempo al aire Riqueza y desigualdad Herramientas de Internet para escanear todas las direcciones de la cuarta versión del protocolo de Internet Mapa que muestra dispositivos de Internet por ubicación Mapeo de la situación socioeconómica mediante el análisis del balance de tiempo al aire y conjuntos de datos de teléfonos celulares126 Precios de minoristas en línea Inflación se Datos basados en Internet para monitorear la inflación en tiempo real Mapa que muestra los dispositivos de Internet a los que se puede acceder con contraseñas por defecto o sin contraseña. A pesar de los sesgos hacia dispositivos inseguros, el mapa puede reflejar el uso de Internet en todo el mundo Cómo monitorea (a continuación) Qué se monitorea Ejemplos de Big data 10. Reducir la desigualdad en los países y entre ellos 9. Construir infraestructuras resilientes, promover la industrialización inclusiva y sostenible y fomentar la innovación ODS adoptados por el Grupo de Trabajo Abierto de la ONU 2014 2014 Nigeria India 19922012 2014 2005 Datos disponibles frecuentemente Forma consistente a nivel global de mapear la extensión urbana; actualizaciones más frecuentes Más detallada y más frecuente que los datos de encuesta Desventaja: no hay datos de terreno para comparar (lo últimos censos no son fiables) Más fácil, más barato y más rápido que las encuestas de uso de Internet. Desventajas: ilegal y posiblemente no se pueda reproducir con los protocolos de Internet más nuevos 2012 2013 Datos más baratos disponibles con mayor frecuencia Ventajas del uso de big data 2012 Año Global Namibia Reino Unido Global Costa de Marfil Argentina, Brasil, Chile, Colombia, Venezuela El mundo País(es) 68 Registros de teléfonos celulares para predecir niveles socioeconómicos132 128 Eventos violentos Crimen se Mediciones de satélite Datos de teléfonos móviles y demográficos Conjunto de datos de noticias Twitter Tuits sobre el huracán Metano Registros del teléfono celular Impacto de inundaciones Evaluación del impacto de inundaciones con registros del teléfono celular Análisis de datos de Twitter durante el huracán Sandy para identificar qué datos podían ser útiles en la respuesta al desastre127 Escaneo por satélite para monitorear la población y las emisiones de gases de efecto invernadero relacionadas con la energía128 Imágenes de satélite para medir la producción primaria neta Observaciones de metano hechas desde el espacio en 129130 combinación Uso de datos de teléfonos móviles y demográficos para predecir el crimen en Londres Uso de “Datos Globales sobre Eventos, Localización y Tono (GDELT en inglés)”, un conjunto de datos de noticias, para calcular el número de eventos violentos en un conflicto131 Cómo monitorea (a continuación) Qué se monitorea Ejemplos de Big data Statistics Without Borders and Humanity Road 2013. Christopher D. Elvidge, Baugh y col. 1997. 129 Kort y col. 2014. 130 Schneising y col. 2014. 131 Earl y col. 2004. 132 Soto y col. 2011. 127 Mediciones más allá del PIB 16. Promover sociedades pacíficas e inclusivas para el desarrollo sostenible, facilitar el acceso a la justicia para todos y construir a todos los niveles instituciones eficaces e inclusivas que rindan cuentas 13. Adoptar medidas urgentes para combatir el cambio climático y sus efectos ODS adoptados por el Grupo de Trabajo Abierto de la ONU Siria Reino Unido EEUU EEUU México País(es) 2013-14 2014 2012 2014 Año Datos disponibles de forma más regular y más baratos que los datos oficiales; la economía informal se reflejaba mejor Actualizaciones frecuentes Emisiones de poblaciones urbanas separadas de otras fuentes; actualizaciones más frecuentes Ventajas del uso de big data Anexo 3: Análisis de mensajes de redes sociales por el INE de Holanda Statistics Netherlands, el INE de Holanda, estudió mensajes de redes sociales disponibles creados públicamente en varias plataformas de redes sociales como Twitter y Facebook, así como los mensajes públicos publicados en los sitios web de noticias, foros web y blogs. Los mensajes se obtuvieron a través de una empresa comercial que habitualmente recoge todos los mensajes disponibles públicamente escritos en holandés en la parte de habla holandesa de la web. Se estudiaron tanto el contenido como el sentimiento de los mensajes. Los estudios sobre el contenido de los mensajes en holandés en Twitter, la plataforma de redes sociales en la que se crean la mayoría de los mensajes públicamente disponibles en holandés, reveló que casi el 50 por ciento de esos mensajes se componían de “balbuceos sin sentido”. El resto predominantemente discutió sobre las actividades de tiempo libre (10 por ciento), el trabajo (7 por ciento), los medios de comunicación (televisión y radio) (5 por ciento) y la política (3 por ciento). El uso de estos mensajes más serios se vio obstaculizado por los mensajes “balbucientes” menos serios. Figure: Dutch consumer confidence (grey) and the overall sentiment in Dutch social media messages on a monthly basis (black). Dutch articles are used as search terms. The social media sentiments in December is considerably more positive compared to the sentiment in the months before and after. La determinación del sentimiento en todos los mensajes creados en todas las plataformas disponibles reveló un uso potencial muy interesante de estos datos para las estadísticas. Con un lenguaje de consulta y una interfaz web, se seleccionaron mensajes de la base de datos. Los 69 mensajes se clasificaron como positivos, negativos y neutrales. Se encontró que el sentimiento en estos mensajes estaba altamente correlacionado con la confianza de los consumidores en Holanda, en particular con sentimientos relacionados con la situación económica. Statistics Netherlands produce mensualmente un índice de confianza del consumidor utilizando datos de encuesta de una muestra aleatoria del registro civil. Entretanto, los mensajes de medios sociales los genera el 70 por ciento de la población holandesa.133 La última relación se mantuvo estable mensual y semanalmente. Sin embargo, las cifras diarias muestran un comportamiento muy volátil lo que sugiere que es posible producir indicadores de confianza mensuales y semanales comparables con la confianza del consumidor. Los indicadores semanales se pueden producir el primer día hábil siguiente a la semana de referencia, lo que demuestra la capacidad de entregar resultados rápidamente. Solo en diciembre las cifras no se relacionaban, cuando se produjo mucho más sentimiento positivo en los medios sociales, eliminando todos los mensajes que incluían palabras para los días de Navidad y Año Nuevo reduciendo estos picos.134 Anexo 4: índices de precios por Cavallo (MIT) El objetivo de este proyecto fue investigar y mostrar cómo el webscraping de los precios en línea podía proporcionar información en tiempo real sobre la dinámica de los precios. Los precios recolectados de los minoristas en línea se pueden utilizar para construir índices de precios de alta frecuencia que complementen las estadísticas oficiales. En el MIT, el equipo de investigación de Alberto Cavallo utilizó datos recolectados entre octubre de 2007 y marzo de 2011, de los más grandes supermercados en línea en cinco países de América Latina y estudió su capacidad de coincidir con las estimaciones oficiales de inflación. Los datos se recolectaron en Argentina, Brasil, Chile, Colombia, Uruguay y Venezuela utilizando un software de scraping que registra diariamente el precio del pan vendido o anunciado en los supermercados en línea. Posteriormente, se calcula la tasa de inflación diaria del pan para cada país. El estudio se centró en Argentina, donde las estadísticas oficiales han sido criticadas en los últimos años. Los datos de los índices de precios en línea aproximan tanto el nivel como la dinámica principal de la inflación oficial en Brasil, Chile, Colombia y Venezuela. Por el contrario, la tasa de inflación anual en línea de Argentina es consistentemente dos a tres veces mayor que las estimaciones oficiales. Socios: PriceStats y el Billion Prices Project de MIT - Argentina, Brasil, Uruguay, Venezuela (República Bolivariana de).135 Anexo 5: Datos de luminosidad como proxy para las estadísticas económicas 133 Eurostat 2014. United Nations Statistical Commission 2014a. 135 United Nations Global Pulse 2011. 134 70 Un problema generalizado en la investigación social y ambiental ha sido cómo mejorar la calidad de los datos socioeconómicos en los países en desarrollo. Dadas las deficiencias de las fuentes estándar, el presente estudio examinó la luminosidad (medición de las luces nocturnas visibles desde el espacio) como proxy para las mediciones estándar de salida (producto interno bruto). Los investigadores compararon la salida y la luminosidad a nivel nacional y a nivel de la cuadrícula de latitud y longitud para el período 1992-2008. Encontraron que la luminosidad tiene valor informativo para los países con sistemas estadísticos de baja calidad, en particular para aquellos países que no han llevado a cabo recientemente censos de población y económicos.136 Anexo 6: Un sistema de información para precios de agricultura (DANE - Colombia) SIPSA (Sistema de Información de Precios del Sector Agropecuario) proporciona información de precios agropecuarios. La información se basa en los precios de venta al por mayor de alimentos, el suministro de alimentos a las ciudades y los insumos y factores asociados a la producción agrícola y ganadera. El primero, precios de alimentos al por mayor, tiene como objetivo recolectar información sobre los precios al por mayor en el momento en que los precios se forman. Esta información se recolecta a través de la aplicación o interfaz web de SIPSA y se difunde a través de boletines diarios, semanales y mensuales. Cada componente tiene como objetivo satisfacer diferentes necesidades de información. El boletín diario regional está dirigido principalmente a aquellas personas que se encuentren en los mercados, con el fin de darles evidencias y herramientas de negociación para realizar transacciones. El boletín diario nacional muestra el comportamiento de los precios en siete ciudades principales. Se trata de una herramienta especial para todos aquellos relacionados con la toma de decisiones, tanto públicos como privados. El boletín semanal, que también forma parte del primer componente de precios al por mayor, explica los diferentes eventos que afectaron la comercialización de productos agrícolas a lo largo de la semana. El boletín mensual, muestra el comportamiento agregado de los precios al por mayor en comparación con el mes inmediatamente anterior. Los otros dos componentes, abastecimiento e insumos, registran tanto las cantidades de productos agrícolas que entran y salen de las ciudades en los principales mercados del país, así como el precio de venta de los principales insumos y factores asociados con la producción agrícola y ganadera en el país. Fuente: PARIS21 Anexo 7: Open Intelligence en Mexico 136 Chen y Nordhaus 2011. 71 El startup Mexicano Open Intelligence desarrolla análitica basada en la nube y plataformas de comunicación que apoyan a los gobiernos y otras instituciones del sector público para la toma de decisiones de política basadas en datos. OPI desarrolló una exhaustiva bodega de datos pública que centraliza millones de datos sobre las tendencias sociales y económicas en México, y permite la visualización y el análisis correspondiente a través de su plataforma. Para clientes con el objetivo de generar datos sobre temas más específicos, las aplicaciones móviles de OPI facilitan la recolección de datos en el terreno137 . Como un ejemplo, la Secretaría de Gobernación de México utiliza la plataforma para entender las tasas de criminalidad de los barrios. La SEGOB analizó la relación entre la educación, las familias monoparentales y más de un millar de otras variables. Más tarde ese año, la secretaría comenzó a rediseñar sus políticas y la asignación de recursos con base en las contribuciones de OPI.138 Anexo 8: Aprovechar las fuentes de Big Data y técnicas basadas en CDR para analizar los resultados y procesos socioeconómicos en Colombia: los casos de Seguridad Pública y Desarrollo Social El primero de los dos estudios piloto realizados por Data-Pop Alliance, Telefónica y la Fundación Bruno Kessler, con financiación del Banco Mundial, se centra en la seguridad pública y la delincuencia en Bogotá. La investigación precisa los datos de criminalidad obtenidos de la Policía Nacional de Colombia, en conjunto con otros tipos de datos, principalmente datos de 2014 de registros de detalles de de llamada (CDR por sus siglas en inglés) proporcionados por Telefónica. El objetivo era ver cómo las fuentes de datos alternativas pueden ayudar a entender y predecir la aparición de puntos calientes del crimen, tanto para predecir/prevenir futuros delitos, como para entender lo que caracteriza las zonas donde las tasas de criminalidad son particularmente altas o particularmente bajas. En términos generales, uno de los mejores predictores de futuros delitos es el crimen pasado, lo que significa que los datos de informes de delitos pasados de la Policía Nacional podrían, en sí mismos, proporcionar información valiosa sobre dónde ocurrirán los futuros delitos. Sin embargo, el valor de aportar datos externos, tales como datos sobre los patrones de llamadas y SMS de teléfonos móviles en Bogotá, radica en el hecho que proporcionan ideas que se pierden cuando solamente se utilizan los datos de criminalidad. De hecho, posibles correlaciones del crimen, como los ingresos y las redes sociales, se registrarán de manera implícita en los datos de delitos pasados que se utilicen para la predicción, pero esos patrones surgen más fácilmente cuando los datos de delincuencia se cruzan con datos de otras fuentes. Además, es útil desarrollar métodos alternativos de predicción de la delincuencia que permitan a los INE monitorear y predecir el crimen incluso cuando no haya datos disponibles o fiables sobre crímenes pasados. Por lo tanto, estos pilotos tienen como objetivo utilizar los CDR 137 138 Por ejemplo: http://brujulacd.mx/ GSMA Intelligence s.f. 72 y otras fuentes de datos para construir una imagen más contemporánea, completa y compleja de los resultados sociales y los procesos subyacentes en América Latina en general, y en Colombia. El segundo estudio piloto se centra en los resultados sociales. La investigación utiliza datos de CDR de 2014 proporcionados por Telefónica para obtener indicadores socioeconómicos para Bogotá, centrándose particularmente en la pobreza y la cohesión social. Se tomaron datos de contexto de la Encuesta Multipropósito de Bogotá de 2014, llevada a cabo por la Secretaría Distrital de Planeación (SDP) en asociación con el DANE, que recolectó microdatos de una muestra representativa de hogares en cada una de las 19 localidades de la ciudad y 31 de sus municipios circundantes. Los datos cubren 14 temas, incluyendo por ejemplo las condiciones de vida del hogar, salud, niveles de educación y gasto de los hogares. Los datos de la encuesta se agregarán a un nivel geográfico más alto para preservar el anonimato de los hogares y las características significativas serán analizadas por el equipo de investigación de Data-Pop Alliance y afiliados que tengan experiencia previa trabajando con datos del DANE. Estos datos pueden servir como datos de terreno o ayudar a perfeccionar la capacidad de predicción con el análisis de los datos de CDR, según sea necesario. Al igual que con el primer estudio piloto sobre el crimen, el objetivo final de este programa es ayudar al Departamento Administrativo Nacional de Estadística (DANE) de Colombia a explorar la posibilidad y la manera de aprovechar las fuentes y técnicas de Big Data (específicamente lo relacionado con los CDR) para obtener indicadores sociales, en formas que se puedan incorporar en el flujo de trabajo nacional de las estadísticas oficiales. Para cada estudio piloto, los resultados previstos son: Un trabajo de investigación empírico, con calidad de publicación en revistas académicas, escrito por los investigadores de Data-Pop Alliance, Telefónica y la Fundación Bruno Kessler; Una versión de este documento, adaptada por Data-Pop Alliance, que presente las principales lecciones y conclusiones, acompañadas por códigos y elementos visuales, para uso del DANE; Un repositorio de códigos y herramientas de visualización utilizados en el proyecto, publicados bajo una licencia Creative Commons y destinados a ser reutilizados como herramientas de aprendizaje y formación. Anexo 9: Principales componentes de tecnologías de la información Apache Hadoop. Sistema para mantener un sistema de archivos distribuido que soporta el almacenamiento a gran escala (terabytes o petabytes de contenidos) y el procesamiento paralelo de algoritmos para grandes conjuntos de datos, lo que requiere un lenguaje de programación como Java o Python. 73 Apache Spark. Un motor rápido y de propósito general para el procesamiento de datos a gran escala que trabaja con el apoyo de Hadoop o bases de datos en memoria. Requiere un lenguaje de programación como Java o Python. Lenguaje de programación Java. Un lenguaje de ingeniería de sistemas de propósito general, que soporta la creación de algoritmos eficientes para el análisis de datos. Pig y Hive como herramientas de programación para la manipulación de datos (es decir, para consultar datos en clústeres de Hadoop) previo al uso de software estadístico (R, SAS, SPSS o similar).139 Lenguaje de programación Python. Un lenguaje de ingeniería de sistemas de propósito general, que soporta la creación de prototipos rápidos y algoritmos eficientes para el análisis de datos.140 R, PostgreSQL o Weka como tecnologías de código abierto y gratuitas para analizar contenidos de medios sociales como Twitter. Anexo 10: Análisis DOFA agregado para los INE de ALC y Big Data 139 140 Eurostat 2014. American Association for Public Opinion Research (AAPOR) 2015. 74 Fortalezas Debilidades La región está obteniendo un mayor interés por parte del sector privado. En la región de ALC hay poca cultura de “toma de decisiones con base en la evidencia”. Hay amplia disponibilidad de tecnología móvil, Internet y medios sociales (a pesar de las brechas entre áreas urbanas y rurales). En general, la cultura en investigación e innovación de la región es débil. Los marcos legales débiles limitan muchos INE de la región. Los sistemas estadísticos de muchos países de ALC tienen una sólida y larga tradición en censos y encuestas. La inter-operatividad entre organismos es limitada o mala. Los INE por mandato y diseño están entrenados y preparados para trabajar con datos (tanto en términos de capacidades técnicas y legislación). diferentes Las instituciones tienen poco conocimiento sobre el concepto de Big Data. La apertura se proclama, pero aún no se practica. Los INE tienen un proceso bien establecido para monitorear los ODM (i.e., entrenamiento virtual, intercambio a nivel regional). Las páginas web principales y otros canales de distribución son todavía muy débiles; el involucramiento con los beneficiarios de datos es débil. Hay presencia de comités, instituciones y grupos de trabajo muy fuertes a través de la región como la CEPAL. Big Data no es una prioridad alta. De manera creciente, las universidades están abriendo programas de maestría en ciencias de datos. Los esfuerzos en Big Data no están integrados en una estrategia más amplia. El progreso de los pilotos depende de la buena voluntad y el compromiso de líderes internos. Se han realizado pilotos y aplicaciones de big data. Hay una falta de capacidad humana para trabajar con datos; alfabetización datos. Hay varios ejemplos de uso de Big Data en la región, iniciados por otros actores que podrían convertirse en socios potenciales. Hay pocas oportunidades de conseguir apoyo externo, i.e., a través de practicantes. Hay una gran cantidad de fuentes de datos disponibles; ALC está viendo una revolución digital. Hay oportunidades limitadas para asociaciones y colaboración. Los esfuerzos son paralelos en lugar de combinar áreas relacionadas como ODS, datos abiertos, big data e innovación. Hay una reestructuración tecnológica en algunos INE (hacia GSBPM); la mayoría está en proceso de construir almacenes de datos; muchos trabajan con Hadoop. No existe una cultura de asociaciones públicoprivada. Muchos están en proceso de cambiarse a SDMX. Hay poco intercambio con otros grupos de interés externos, i.e., startups y organizaciones de la sociedad civil. 75 Oportunidades Amenazas El proceso de los ODS podría fortalecer el mandato de los INE de la región. Otros organismos podrían ocupar el tema. Hay poco debate sobre los posibles riesgos y consecuencias negativas de Big Data. Se puede aprender de los primeros ejemplos de mejores prácticas en big data de la región. Hay confusión acerca de Big Data como un ecosistema y Big Data como fuente de datos, y entre Big Data y otras fuentes de datos, i.e. datos abiertos. Hay un vibrante movimiento de Datos Abiertos y muchos defensores del Código Abierto. Se desarrollan siscusiones vibrantes sobre el Gobierno de Internet en toda la región (ver Marco Civil como ejemplo de buena práctica para procesos de múltiples actores). Reinventando la rueda los INE enfrentan competencia y no colaboración (tanto entre los organismos, así como entre países). Líderes internos en las organizaciones están ansiosos por trabajar con y discutir Big Data. No hay acceso sostenible a determinados conjuntos de datos, i.e., datos de CDR; además, maneras de por sí insostenibles de intercambio/accso a los datos, i.e., datos administrativos, no se basan en legados. Existen ecosistemas vibrantes de tecnología en muchos países de ALC. Hay una demanda por espacios de datos en toda la región que podrían promover los INE. Las organizaciones podrían copiar en lugar de inventar según necesidades locales. Se pueden intercambiar ideas y experiencias con otros INE, también a nivel de la ONU (sin embargo, esto podría ser un riesgo para aquellos que no estén incluidos); se debe establecer una comunidad de prácticas. Los presupuestos de algunos países (México, Colombia, etc.) podrían reducirse debido a la caída de los precios del petróleo. Los INE siguen siendo “órganos cerrados”. Se puede construir una plataforma para el intercambio de conocimientos; i.e., una wiki para Big Data + INE de la región de ALC. 76 Bibliography American Association for Public Opinion Research (AAPOR). AAPOR Report on Big Data. 2015. URL: https://www.aapor.org/AAPOR_Main/media/Task-ForceReports/BigDataTaskForceReport_FINAL_2_12_15_b.pdf. Ballivian, Amparo y William Hoffman. Public-Private Partnerships for Data. 2015. URL: http://data.worldbank.org/sites/default/files/issue-paper-financing-thedata-revolution-ppps_0.pdf. Barbosa, Ariel. Global Information Society Watch 2014: Communications surveillance in the digital age, Colombia. 2014. URL: https://www.giswatch.org/sites/default/files/ hacking_information_on_the_peace_talks_in_colombia.pdf. Bibolini, Lucia y Henry Lancaster. 2014 Latin America – Telecoms, Mobile and Broadband Overview. 2014. URL: http://www.budde.com.au/Research/2014-Latin-AmericaTelecoms-Mobile-and-Broadband-Overview.html?r=51. boyd, danah y Kate Crawford. «Critical Questions for Big Data». En: Information, Communication & Society 15.5 (2012). ISSN: 1468-4462. DOI: 10.1080/1369118X.2012.678878. URL: http://www.tandfonline.com/doi/pdf/10.1080/1369118x.2012.678878. Cavallo, Alberto. «Online and official price indexes: Measuring Argentina’s inflation». En: Journal of Monetary Economics 60.2 (2013), pp. 152-165. ISSN: 0304-3932. DOI: 10.1016/j.jmoneco.2012.10.002. URL: http://www.sciencedirect.com/science/article/pii/S0304393212000967. Cavenaghi, Suzana. Data Revolution: Is Latin America prepared and ready to engage? 2015. URL: http://paa2015.princeton.edu/uploads/153763. CGIAR Research Program on Climate Change, Agriculture and Food Security (CCAFS). «Cracking patterns in big data saves Colombian rice farmers huge losses». En: 2014 Annual Report (2014). URL: https://ccafs.cgiar.org/research/annual-report/2014/cracking-patterns-inbig-data-saves-colombian-rice-farmers-huge-losses. Chen, Xi y William D. Nordhaus. «Using luminosity data as a proxy for economic statistics». En: Proceedings of the National Academy of Sciences 108.21 (2011), pp. 8589-8594. DOI: 10.1073/pnas.1017031108. URL: http://www.pnas.org/content/108/21/8589.abstract. CIVICUS. The Data Shift. URL: http://civicus.org/thedatashift/. Clark, Liat. «Nuria Oliver: what big data and the Mexican pandemic taught us». En: Wired UK (2013). URL: http://www.wired.co.uk/news/archive/2013-10/17/nuria-oliver. Cobos, María Isabel, Tim Miller y Magda Ruiz Salguero. «Hacia la armonización de las estimaciones de mortalidad materna en América Latina: hallazgos de un estudio piloto en ocho países». En: Naciones Unidas, Santiago, Chile. 108.a ép. (2013). ISSN: 1680-899. URL: 77 http://repositorio.cepal.org/bitstream/handle/11362/7143/LCL3735_es.pdf? sequence=1. Congreso de la República de Colombia. Ley Estatutaria 1266 de 2008. 2008. URL: http://www.alcaldiabogota.gov.co/sisjur/normas/Norma1.jsp?i=34488. — Ley Estatutaria 1581 de 2012. 2012. URL: http://www.secretariasenado.gov.co/senado/basedoc/ley_1581_2012.html. — Proyecto de ley 1753 de 2015 cámara por la cual se expide el Plan Nacional de Desarrollo 2014-2018 ‘Todos Por un Nuevo País’. 2014. URL: https://colaboracion.dnp.gov.co/CDT/Prensa/ArticuladoVF.pdf. Cordero, Arturo Sevilla. Colombia avanza en una mejor calidad de vida. 2016. URL: http: //docplayer.es/9744214-Colombia-avanza-en-una-mejor-calidad-de-vida.html. Daas, Piet y Mark van der Loo. Big data (and official statistics). 2013. DOI: 10.2901/Eurostat.C2013.001. URL: http://www.unescap.org/sites/default/files/2Big%20Data%20(and%20official%20statistics)-Netherlands-presentation.pdf. Data Revolution for Sustainable Development (IEAG), United Nations SecretaryGeneral’s Independent Expert Advisory Group on a. A World That Counts: Mobilising The Data Revolution for Sustainable Development. 2014. URL: http: //www.undatarevolution.org/report/%20http://www.undatarevolution.org/wpcontent/uploads/2014/11/A-World-That-Counts.pdf. Digiampietri, Luciano A y col. «BraX-Ray: An X-Ray of the Brazilian Computer Science Graduate Programs». En: PLoS ONE 9.4 (2014). ISSN: 1932-6203. DOI: 10.1371/journal.pone.0094541. URL: http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3984164/%20http: //www.ncbi.nlm.nih.gov/pmc/articles/PMC3984164/pdf/pone.0094541.pdf. Earl, Jennifer y col. «The Use of Newspaper Data in the Study of Collective Action». En: Annual Review of Sociology 30.1 (2004), pp. 65-80. ISSN: 0360-0572. DOI: 10.1146/annurev.soc.30.012703.110603. URL: http://www.annualreviews.org/doi/abs/10.1146/annurev.soc.30.012703.110603. Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL). Development of Official Statistics in the Region. 2010. URL: http://repositorio.cepal.org/bitstream/handle/11362/3146/2010695_ReportLAC_en.pdf. — Consenso de Montevideo sobre Población y Desarollo. 2013. URL: http://www.cepal.org/celade/noticias/documentosdetrabajo/8/50708/2013595-consenso_montevideo_pyd.pdf. — Big data and open data as sustainability tools. 2014. URL: http://www.cepal.org/en/publications/37158-big-data-and-open-datasustainability-tools-working-paper-prepared-economic. 78 Economic Commission for Latin America and the Caribbean (ECLAC/CEPAL). Statistical activities in Latin America and the Caribbean: Recent achievements and next challenges. 2015. URL: https://documents-ddsny.un.org/doc/UNDOC/GEN/N14/683/08/PDF/N1468308.pdf?OpenElement. — The new digital revolution: From the consumer Internet to the industrial Internet. 2015. URL: http://repositorio.cepal.org/bitstream/handle/11362/38767/S1500587_en.pdf. Elvidge, C. D. y col. «Relation between satellite observed visible-near infrared emissions, population, economic activity and electric power consumption». En: International Journal of Remote Sensing 18.6 (1997), pp. 1373-1379. DOI: 10.1080/014311697218485. URL: http://www.tandfonline.com/doi/abs/10.1080/014311697218485. Elvidge, Christopher D., Kimberly E. Baugh y col. «Satellite inventory of human settlements using nocturnal radiation emissions: a contribution for the global toolchest». En: Global Change Biology (1997), pp. 387-395. URL: http://www.as.wvu.edu/biology/bio463/ Elvidge%20et%20al%201997%20satellite%20night%20pictures.pdf. Elvidge, Christopher D., Paul C. Sutton y col. «A global poverty map derived from satellite data». En: Computers & Geosciences 35.8 (2009), pp. 1652-1660. URL: http://www.sciencedirect.com/science/article/pii/S0098300409001253. Eurostat. Big Data in Official Statistics: Technical Workshop Report. 2014. URL: http: //www1.unece.org/stat/platform/pages/viewpage.action?pageId=102664009. Expert Group on Poverty Statistics. «Expert Group on Poverty Statistics: Rio». En: Compendium of Best Practices in Poverty Measurement. 2006. ISBN: 85-240-3908-6. Ginsberg, Jeremy y col. «Detecting influenza epidemics using search engine query data». En: Nature 457 (2009). DOI: 10.1038/nature07634. Giovannini, Enrico. «Statistics 2.0 - The next level». En: 10th National conference of statistics. 2010. URL: http://en.istat.it/istat/eventi/2010/10_conferenza_statistica/. Glickhouse, Rachel. Explainer: Twitter in Latin America. 2013. URL: http://www.as-coa.org/articles/explainer-twitter-latin-america. GSMA Intelligence. The Mobile Economy 2014. URL: http://www.gsmamobileeconomylatinamerica.com/GSMA_Mobile_Economy_ LatinAmerica_2014.pdf. Gurin, Joel. «Big data and open data: what’s what and why does it matter?» En: The Guardian (2014). URL: http://www.theguardian.com/public-leadersnetwork/2014/apr/15/big-data-open-data-transform-government. Gutierrez, Thoralf, Gautier Krings y Vincent D Blondel. «Evaluating socio-economic state of a country analyzing airtime credit and mobile phone datasets». En: (2013). URL: http://arxiv.org/pdf/1309.4496.pdf. Henderson, J. Vernon, Adam Storeygard y David N Weil. «Measuring Economic Growth from Outer Space». En: American Economic Review 102.2 (2012), pp. 994-1028. ISSN: 0002-8282. 79 DOI: 10.1257/aer.102.2.994. URL: http://pubs.aeaweb.org/doi/abs/10.1257/aer.102.2.994. Hubbard, Douglas W. Pulse: the new science of harnessing Internet buzz to track threats and opportunities. Hoboken, N.J: Wiley, 2011. 191 pp. ISBN: 978-0-470-93236-0. Hyunyoung, Choi y Hal Varian. Predicting the Present with Google Trends. 2011. URL: http://people.ischool.berkeley.edu/~hal/Papers/2011/ptp.pdf. Informa. Latin America reaches 100 % mobile penetration says Informa Telecoms & Media. 2011. URL: http://www.informa.com/media/press-releases-news/latest-news/latinamerica-reaches-100-mobile-penetration-says-telecoms--media/. Instituto Nacional de Estadística y Geografía (INEGI) de México. Agenda for International Meeting on Gender Statistics: Statistical challenges towards the implementation of the Post 2015 Agenda. 2015. URL: http://www.inegi.org.mx/eventos/2015/genero/doc/agenda_XVIgenero_en.pdf. — Tweet Analysis. 2015. URL: http://www1.unece.org/stat/platform/display/BDI/Mexico+(INEGI)++Tweet+Analysis. International Telecommunication Union. World Telecommunication/ICT Indicators database, 19th Edition. 2015. URL: http://www.itu.int/en/ITU-D/Statistics/Pages/publications/wtid.aspx. Internet World Stats. Latin American Internet and Users and Population Statistics. 2013. URL: http://www.internetworldstats.com/stats10.htm. Katz, Raúl. El ecosistema y la economía digital en América Latina. 2015. URL: http://cet.la/blog/course/libro-el-ecosistema-y-la-economia-digital-enamerica-latina/. Khan, Amina y Elizabeth Stuart. What’s measured is also political. 2015. URL: http://deliver2030.org/?p=5999. King, Gary. «Big Data is Not About the Data!» En: Golden Seeds Innovation Summit, New York City. 2013. URL: http://gking.harvard.edu/files/gking/files/evbase-gs.pdf. Kort, Eric A. y col. «Four corners: The largest US methane anomaly viewed from space». En: Geophysical Research Letters 41.19 (2014), pp. 6898-6903. ISSN: 00948276. DOI: 10.1002/2014GL061503. URL: http://doi.wiley.com/10.1002/2014GL061503. Kreuter, Frauke y Roger D. Peng. «Privacy, Big Data, and the Public Good: Frameworks for Engagement». En: ed. por Julia Lane y col. Cambridge University Press, 2014. Cap. Extracting Information from Big Data: Issues of Measurement, Inference and Linkage, pp. 257-275. DOI: http://dx.doi.org/10.1017/CBO9781107590205.016. URL: http://ebooks.cambridge.org/chapter.jsf?bid=CBO9781107590205&cid= CBO9781107590205A020. 80 Letouzé, Emmanuel. «Six Considerations on Official Statistics and the (Big) Data Revolution». En: Note prepared for the OECD–Paris21 event at the 2013 UN General Assembly, New York. 2013. — Concept Note on SDGs and Big Data. 2015. Mejía, Luis Fernando y col. Indicadores ISAAC: Siguiendo la actividad sectorial a partir de Google Trends. 2013. URL: http://www.minhacienda.gov.co/portal/page/portal/ HomeMinhacienda/politicafiscal/reportesmacroeconomicos/NotasFiscales/. Mocanu, Delia y col. «The Twitter of Babel: Mapping World Languages through Microblogging Platforms». En: PLOS ONE 8.4 (2013), e61981. ISSN: 1932-6203. DOI: 10.1371/journal.pone.0061981. URL: http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0061981. Montjoye, Yves-Alexandre de y col. «Unique in the crowd: The privacy bounds of human mobility». En: Nature Scientific Reports 3.1376 (2013). DOI: doi:10.1038/srep01376. Newman Pont, Vivian. Datos personales en informaci ón pública: oscuridad en lo privado y luz en lo público. Dejusticia, 2015. ISBN: 978-9585885813. Ohm, Paul. «Broken Promises of Privacy: Responding to the Surprising Failure of Anonymization». En: UCLA Law Review 57.1701 (2010). URL: http://papers.ssrn.com/sol3/papers.cfm?abstract_id=1450006. Open Data Institute. The Data Spectrum helps you understand the language of data. URL: https://theodi.org/data-spectrum (visitado 12-2015). Open Data Research Network. Opening Data in Montevideo: A bottom up experience. 2014. URL: http://www.opendataresearch.org/content/2014/574/opening-datamontevideo-bottom-experience. Orange. Data for Development (D4D) Challenge. 2014. URL: http://www.d4d.orange.com/. Pawelke, Andreas y Anoush Rima Tatevossian. Data Philanthropy: Where Are We Now? 2013. URL: http://www.unglobalpulse.org/data-philanthropy-where-are-we-now. Pentland, Alex “Sandy”. «Social Computing and Behavioral Modeling». En: Boston, MA: Springer US, 2009. Cap. Reality Mining of Mobile Communications: Toward A New Deal On Data. ISBN: 978-1-4419-0056-2. DOI: 10.1007/978-1-4419-0056-2_1. URL: http://dx.doi.org/10.1007/978-1-4419-0056-2_1. — «Reinventing Society in the Wake of Big Data: A Conversation with Alex (Sandy) Pentland.» En: Edge.org (30 de agosto de 2012). URL: https://www.edge.org/conversation/alex_sandy_pentland-reinventingsociety-in-the-wake-of-big-data (visitado 21-03-2016). Pretz, Kathy. «Guadalajara: Smart City of the Near Future». En: The Institute: The IEEE news source (2014). URL: http://theinstitute.ieee.org/technology-focus/technologytopic/guadalajara-smart-city-of-the-near-future. 81 Reader, Ruth. More than half of all smartphone users in Latin America use Twitter, study claims. 2015. URL: http://venturebeat.com/2015/02/16/more-than-half-of-allsmartphone-users-in-latin-america-use-twitter-study-claims/. Ruiz, Claudio. «Privacy and security, the Latin American way». En: Digital Rights 28 (2014). URL: http://www.digitalrightslac.net/en/privacidad-y-vigilancia-a-lalatinoamericana/. Scannapieco, Monica y col. Placing Big Data in Official Statistics: A Big Challenge? Brussels, 2013. URL: http://www.cros-portal.eu/sites/default/files//NTTS2013fullPaper_214.pdf. Schneising, Oliver y col. «Remote sensing of fugitive methane emissions from oil and gas production in North American tight geologic formations». En: Earth’s Future 2.10 (2014), pp. 548-558. ISSN: 23284277. DOI: 10.1002/2014EF000265. URL: http://doi.wiley.com/10.1002/2014EF000265. Secretaría de Turismo. Uso Productivo de Big Data y Redes Sociales en el Sector Turismo. 2014. URL: http://www.datatur.beta.sectur.gob.mx/Documentos%20Publicaciones/ 2014_1_DocInvs.pdf. Smith, Christopher, Afra Mashhadi y Licia Capra. Ubiquitous Sensing for Mapping Poverty in Developing Countries. 2013. URL: http://www.cities.io/wp-content/uploads/2012/12/d4d-chris-submitted.pdf. Smith-Clarke, Christopher and Mashhadi, Afra and Capra, Licia. «Poverty on the Cheap: Estimating Poverty Maps Using Aggregated Mobile Communication Networks». En: Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. New York, NY, USA, 2014. DOI: 10.1145/2556288.2557358. URL: http://doi.acm.org/10.1145/2556288.2557358. Soto, Victor y col. «Prediction of Socioeconomic Levels Using Cell Phone Records». En: Springer Berlin Heidelberg, 2011, pp. 377-388. DOI: 10.1007/978-3-642-22362-4_35. URL: http://link.springer.com/10.1007/978-3-642-22362-4%7B%5C_%7D35. Statistics Without Borders and Humanity Road. Analysis of Twitter Data during Hurricane Sandy. 2013. URL: http://www.slideshare.net/CatGraham/swb-hr-hurricanesandy-twitter-analysis. Sutton, Paul C., Christopher D. Elvidge y Tilottama Ghosh. Estimation of Gross Domestic Product at Sub-National Scales Using Nighttime Satellite Imagery. 2007. Téllez, Omar. «Producing Unicorns in The Land Of Fútbol, Samba and El Dorado». En: TechCrunch (2015). URL: http://techcrunch.com/2015/06/06/producing-unicornsin-the-land-of-futbol-samba-and-el-dorado/. The World Bank, World Bank Group y Social Muse. Big Data in Action for Development. 2014. URL: http://data.worldbank.org/news/big-data-in-action-for-development. Thenkabail, P S, N Gamage y V U Smakhtin. «The Use of Remote Sensing Data for Drought Assessment and Monitoring in Southwest Asia». En: International Water Management 82 Institute (2004). URL: http://www.iwmi.cgiar.org/Publications/IWMI%7B%5C_ %7DResearch%7B%5C_%7DReports/PDF/pub085/RR85.pdf. United Nations Economic Commission for Europe (UNECE). What does “Big Data” Mean for Official Statistics. 2013. URL: http://www1.unece.org/stat/platform/pages/viewpage.action?pageId=77170614. United Nations Global Pulse. Daily Tracking of Commodity Prices: The E-bread Index. 2011. URL: http://www.unglobalpulse.org/projects/comparing-global-prices-localproducts-real-time-e-pricing-bread. — Rapid Impact and Vulnerability Analysis Fund (RIVAF) Final Report. 2012. URL: http://www.unglobalpulse.org/sites/default/files/FINAL%20RIVAF%20REPORT% 20COMPILED_0.pdf. — «Mining Indonesian Tweets to Understand Food Price Crises». En: (2014). URL: http://www.unglobalpulse.org/sites/default/files/Global-Pulse-MiningIndonesian-Tweets-Food-Price-Crises%20copy.pdf. United Nations Statistical Commission. Big data and modernization of statistical systems. 2014. URL: http://unstats.un.org/unsd/statcom/doc14/2014-11-BigData-E.pdf. — Report of the Global Working Group on Big data for official statistics. 2014. URL: http://unstats.un.org/unsd/statcom/doc15/2015-4-BigData.pdf. Urioste Braga, Fernando. Derecho de la información. Montevideo-Buenos Aires: B de F, 2009. Velasco, Patricio y Pablo Viollier. «Información Financiera y Discriminación Laboral en Chile: un Caso de Estudio Sobre». En: Derechos Digitales (2016). URL: https://www.derechosdigitales.org/wp-content/uploads/big-data-informe.pdf. Yuan, Q. y Et al. «Monitoring Influenza Epidemics in China with Search Query from Baidu». En: PLOS ONE 8(5): e64323 (2013). Zhang, Renhua y col. «Drought Monitoring in Northern China based on Remote Sensing Data and Land Surface Modeling». En: IEEE International Geoscience and Remote Sensing Symposium (IGARSS). Vol. 3. 1. IEEE, 2008, pp. III – 860–III -863. ISBN: 978-1-4244-2807-6. DOI: 10.1109/IGARSS.2008.4779485. URL: http://ieeexplore.ieee.org/lpdocs/epic03/wrapper.htm?arnumber=4779485. 83