Big Bang Data en Transporte Cómo Big Data puede ensamblar soluciones de ingeniería en transporte con la gestión sociotécnica de la movilidad en la ciudad. Daniel Yankelevich, Pragma Consultores, [email protected] Juan Echague, Pragma Consultores, [email protected] Camilo Melani, Pragma Consultores, [email protected] Mariela Nerome, Ministerio de Transporte de la Nación Argentina/Unidad Ejecutora Central, [email protected] Artopoulos, Alejandro, Universidad de San Andrés, [email protected] 1. Introducción Cada día se están creando 2,5 trillones de bytes de datos. La información generada por cámaras, sensores inteligentes, registros de transacciones de compra, señales de GPS del teléfono celular, entre otros, se está constituyendo, por los grandes volúmenes de datos, en un nuevo insumo que no solo puede generar más valor económico sino también bien social. Big data es la utilización de técnicas de ciencias de los datos sobre grandes volúmenes de datos estructurados y no estructurados para producir información y conocimiento. Conocimiento que puede dar una solución instantánea a los problemas detectados si el 1 análisis de los datos se hace en línea y automática (M2M, Machine to Machine). El big data permite a los servicios públicos conocer cambios en los patrones de movimiento, que correctamente interpretados, permiten dar una respuesta inmediata a los problemas de transporte, tales como reducir los tiempos de viaje y rediseñar rutas 1 http://www.odbms.org/blog/2012/06/big-data-for-good/ consultado en 10.1.16 1 para optimizarlas. Entre las experiencias de vanguardia encontramos la de la Agencia de Transporte de Boston que utiliza la información provista por celulares inteligentes sobre movimientos bruscos para ubicar los baches en las autopistas. El proyecto piloto Smart Santander ayuda a los conductores a encontrar plazas de estacionamiento libres, reduciendo el tiempo de búsqueda y el consumo energético de los vehículos. En Latino América encontramos que este mismo tipo de aplicación se implementó en Bahía Blanca, Argentina. (Artopoulos, 2015). En tanto en Río de Janeiro se detectan obstáculos en la vía pública y se coordinan con guardias municipales cercanos al problema para ayudar en su solución. 2 Todas estas experiencias están abriendo el camino a una nueva forma de concebir el transporte. Pasando de ser un problema netamente ingenieril y logístico a uno modificado por la existencia de datos masivos, siendo estos datos la huella digital del comportamiento social, reflejo de la cultura. Sin embargo esta nueva alianza del Big Data entre ingeniería-informática-sociología todavía está lejos de ser una realidad. Hubo grandes proyectos de transporte urbano en Latinoamérica que fueron monólogos de la ingeniería, como el caso del Transantiago (Ureta 2015). La mayoría de los avances se hicieron en la teoría. A comienzos del siglo XXI se consolida el concepto de movilidad y se diferencia de los estudios basados en la concepción más clásica del transporte centrada en la cuantificación y el análisis de la oferta de transporte, los servicios y los equipamientos tanto existentes como proyectados. Los análisis de movilidad tienen como objeto de estudio las personas que se mueven y sus necesidades de desplazamiento (Miralles-Guasch y Cebollada, 2003). http://www.ciudadano-activo.com/2014/07/08/la-aplicacion-del-big-data-al-transporte-urbano/ consultado en 10.1.16 2 2 El estudio de la movilidad se convierte en un concepto importante a la hora de la inclusión social para los grupos más vulnerables, en la medida que permite el acceso a las oportunidades y a los servicios urbanos. El “capital” de movilidad de las personas tiene decisiva intervención sobre su capital social, pudiendo reducirlo, limitarlo o canalizarlo (Kauffman, 2002). Las condiciones históricas de movilidad urbana de los países de América Latina son consideradas resultados de procesos de desarrollo económico y social, y de gestión de políticas públicas de transporte y movilidad focalizadas en el espacio para la circulación en base a las necesidades del uso del automóvil. Parece que la integración alcanzó tan solo una división del trabajo. En tanto los estudios de la movilidad se ocupan de releer el pasado, la gestión de la movilidad implementa soluciones de ingeniería para atacar las condiciones de accesibilidad al transporte. Sin embargo quedan sin aprovecharse los múltiples canales de diálogo que podría constituirse si la nueva alianza se profundizara. El desafío que se presenta es que a partir de la gestión y planificación de la movilidad, se transforme el espacio de circulación en un espacio equitativo, haciendo eje en el derecho a la movilidad de los ciudadanos, y en la priorización de los modos públicos de transporte. Big Data es una de las herramientas que permiten afrontar este desafío a partir de la necesidad de abordar al sector público como un actor clave para dinamizar el potencial científico y el abordaje multidisciplinario del diseño de políticas estratégicas de movilidad urbana. En este contexto las oportunidades a partir del manejo de Big Data implican analizar el comportamiento de los usuarios y probar hipótesis, conocer cambios en los patrones de movimiento que permitan dar respuesta a los problemas de movilidad, dar un salto en cuanto a la cantidad, calidad y costo de la información, poder desarrollar herramientas de planificación, operación y control a partir de la disponibilidad, integración, capacidad de 3 procesamiento y confidencialidad de los datos. En este artículo se presentan los retos que enfrenta Latino América, utilizando como caso testigo el de la tarjeta SUBE y el Ministerio de Transporte en Argentina, con el fin de pensar estrategias para utilizar y optimizar los datos disponibles a partir de las metodologías actuales (y potenciales) que puedan ser ensambladas con cambios en el uso de los datos dentro de las organizaciones, es decir ensamblar la ingeniería con la gestión sociotécnica de la movilidad en la ciudad. 2. El desafío metodológico El planteo central de nuestro aporte pasa por trabajar sobre el desarrollo de capacidades de análisis de equipos interdisciplinarios y el armado de infraestructura. Nuestra postura se basa en la convicción de que los datos, a diferencia de otras fuentes que históricamente fueron poco confiables en la región, van a estar en cantidad y calidad, y que la capacidad de cómputo también. Por lo tanto los problemas que nos plantean este desafío metodológico en primer lugar se relacionan con superar los silos de datos. En Latinoamérica las fuentes de datos suelen negar el acceso a los mismos dichos datos con el objetivo de mantener cierto estatus o poder que estos datos le confieren a la fuente. De manera que si bien los datos existen están, estos dichos datos son independientes unos de otros, tienen distintos niveles de agregación, pertenecen a diferentes jurisdicciones u organismos que difícilmente colaboran entre sí, etc. Nos preguntamos: ¿Qué podemos hacer con los datos que están disponibles y prepararnos para cuando tengamos acceso a más fuentes y para ir integrándolas fuentes en forma incremental? Nos interesan las fuentes alternativas como las bicicletas, la tarjeta de pasajes (como la SUBE), los procesamientos de los Centros de Monitoreo y 4 Control de Operaciones, Sistemas de Sensorización Urbana. Las fuentes principales por temas regulatorios (o falta de regulación) no están disponibles (y sería riquísimo usarlas, como datos de antenas de celular), otras existirán a futuro (Uber, Waze, sensores en los teléfonos, IOT…). La gestión de la movilidad urbana en la Argentina y en la región enfrenta un desafío metodológico en lo referido a la utilización de Big Data: comprender qué es lo que dicen y no dicen los datos tratados en la actualidad y la manera en que se puede optimizar su análisis, teniendo en cuenta que las Metodologías de utilización de Big Data en transporte y movilidad no son inmunes a los problemas de las muestras de datos con los que se han estado trabajando hasta la fecha: validación estadística, sesgos muestrales, correlación e incorrecta imputación de datos faltantes. En este sentido, la adecuación y homogeneización de las diferentes fuentes de datos correspondientes a jurisdicciones, temporalidades, granularidades y periodicidades diferentes es un problema a enfrentar en materia de infraestructura tecnológica. Existen tres campos que conectan Big Data y Gestión Pública: operativo (referido a la visualización y análisis de datos en tiempo real utilizando no solamente las redes de transporte a partir de Centros de Control de Operaciones que integren todos los modos de transporte público sino también a partir de la apertura de datos con las redes de telefonía celular), planificación urbana (relacionando los datos georeferenciados, la interpretación de los usos del espacio urbano y las distintas actividades desarrolladas diariamente) y la anonimización (convergiendo la regulación que habilite la apertura de datos resguardando la identidad de los usuarios). Por último se trata de constituir capacidades de análisis de grandes datos en equipos que integren esta nueva alianza: ingenieros, cientistas sociales, científicos de datos, y diseñadores. Los problemas epistemológicos de estos grupos son la falta de una mirada 5 práctica holística que pueda ver el bosque antes que al árbol, y una mirada hiperempirista del big data. (Borrows & Savage 2014) 3. Caso: Qué le aportan los datos de la tarjeta (prepaga) SUBE a una empresa de transporte del Conurbano Bonaerense. En esta sección se presenta un proyecto de análisis de datos de una empresa de transporte, que involucró la recolección, preparación, visualización, transformación y análisis de 3 años de datos de viajes de colectivos, incluyendo boletos y posicionamiento geográfico. Este caso cubre el proyecto de punta a punta, incluyendo la incorporación de los resultados en el proceso de negocio. Sostenemos que una característica clave de los proyectos de Big Data debe encontrarse en el proceso que se lleva a cabo y que inicia con la captura de grandes cantidades de datos, pasando por el procesamiento (que en muchos casos requiere una infraestructura especial o particular, con más de una computadora, en modo distribuido) hasta el análisis y el aprovechamiento de la información en el negocio. En nuestro punto de vista, este último paso (la inserción de la información en la toma de decisiones) es tan importante como el uso de bases NoSQL o Hadoop o procesar varios terabytes. Es decir es tan importante la gestión de la tecnología como la gestión sociotécnica del cambio organizacional. (Heeks 2008) SUBE es una tarjeta prepaga emitida por el Gobierno Nacional Argentino a partir del año 2009 para facilitar la movilidad cotidiana de los habitantes del país en todos los modos de Transporte Público. En la actualidad se encuentra implementada en la Región Metropolitana de Buenos Aires (RMBA) y varias ciudades del interior. La red de uso está 6 compuesta por 11.000 colectivos, 5 líneas de subtes y las líneas ferroviarias metropolitanas, y diariamente vende 12 MM de boletos de transporte. Los datos para este análisis fueron provistos por una empresa de transporte de mediano tamaño del conurbano bonaerense. Cuenta con 110 colectivos, 3 líneas, 11 ramales que diariamente reciben las transacciones realizadas. Esta empresa cuenta con un servicio que de forma on-line informa la posición GPS de cada colectivo. Accedimos a 3 años de venta de boletos (40 millones) y la posición de cada colectivo (150 millones). La metodología de trabajo fue exploratoria, pero seguimos un esquema de trabajo propio en el cual la identificación de criterios de evaluación del negocio formó parte del proyecto desde un inicio [5]. La preparación de datos es una parte importante en un proyecto de Big Data [6], de hecho en muchos casos el “Data Cleansing” y preparación inicial toma más tiempo que el análisis. En este proyecto, la preparación de datos incluyó identificar y subsanar varias limitaciones de los datos, por ejemplo, los relojes de los lectores del sistema SUBE y los GPS no están sincronizados. Las granularidades de las diferentes fuentes de datos no es la misma, en el caso de los GPS las posiciones se reportan en cada minuto. Asimismo, el trabajo se realizó sobre datos anónimos lo que requirió trabajo adicional. Las tareas de análisis incluyeron la elaboración de histogramas, gráficos de series temporales, heatmaps en varias variables, generación de imágenes geo localizadas de la concentración de venta de boletos, identificar los trayectos de mayor demanda, relacionar los pasajeros frecuentes con el tiempo entre trayectos y generación de grafos. Gran parte del análisis se focalizó en identificar casos o preguntas del negocio: ¿qué era lo que el negocio se consideraba interesante para conocer y a qué le otorgaba valor? 7 Identificar el comportamiento de los usuarios que permitieran su segmentación. Contar con toda la serie histórica desde que se implementó la tarjeta SUBE en esta empresa, nos permitió observar con sumo detenimiento la curva de adopción del sistema y el comportamiento de reemplazo del modelo anterior. Este mecanismo permite analizar y establecer patrones sobre el proceso de adopción de políticas públicas. Encaramos un estudio multiescala sobre la densidad de venta de boletos en diferentes horarios (ver Ilustración 1). Los primeros datos se reflejan claramente en la combinación de datos georreferenciados y clustering, y se observa como en horarios matinales, las personas se desplazan desde barrios periféricos a lugares de concentración comercial o industriales, y por las tardes este proceso se revierte. El dataset contiene información muy prometedora y en ese sentido las expectativas eran muy altas. A la vez, el objetivo no era realizar análisis sociológicos o generales sobre los datos, sino lograr información relevante para el cliente, en particular información accionable que permitiera mejorar su posición de negocio o responder preguntas de negocio. Este trabajo de análisis de datos permitió al cliente contar con herramientas para conocer de forma profunda y con altísimo nivel de detalle la distribución de la demanda. Preguntas clave del cliente como “patrones de venta durante el día” (ver Ilustración 2) o “cuál es el patrón de viajes de los usuarios clientes frecuentes” pudo responderse con información precisa, así como descubrir patrones inesperados. El piloto realizado es la primera etapa de un verdadero estudio en profundidad de los datos, que el cliente debe aprobar y suscribir. En algunos casos se utilizaron herramientas de graficación para presentar los datos al cliente en forma intuitiva, y algunos resultados preliminares de correlación de datos. En la segunda etapa este análisis podría llevarse a 8 cabo con mayor detalle. Este trabajo permitió agregar valor a la empresa mediante varios mecanismos, ya que conocer el detalle de la demanda habilita el uso de herramientas comerciales en forma sistemática e informada, que de otra forma se aproximan por la intuición o la experiencia. La intuición no siempre coincide con la situación real y actual en la dinámica del negocio, ya que refleja el conocimiento de muchos años y una visión en algunos casos subjetiva de una realidad cambiante. Para poder mejorar hay que saber medir y en este caso se logró responder a las preguntas de negocio con el soporte de datos y con alta definición. Datos potenciales: Análisis de Estudios realizados en la Argentina que pueden complementarse con herramientas de Big Data. En las últimas décadas se ha fortalecido, aunque en forma dispar y discontinua en el tiempo, la gestión de los datos de transporte y movilidad de la República Argentina. Si bien la integración y centralización de los datos a nivel nacional tiene horizonte de implementación a partir del procesamiento de la Tarjeta SUBE, se han llevado a cabo estudios de demanda en casos de estudio con el objetivo de definir diseños de políticas públicas. La Investigación de Transporte Urbano de Buenos Aires (INTRUPUBA), realizada por la Secretaría de Transporte de la Nación durante los años 2006 y 2007, presenta los resultados correspondientes a la demanda de pasajeros y las características de la oferta del Sistema de Transporte Público de la Región Metropolitana de Buenos Aires 3 (Ferrocarril, Subterráneo, Pre metro y Colectivo). En el mismo marco, se ha realizado la Este estudio se llevó a cabo a partir de distintos tipos de relevamientos de la oferta (trazados, paradas, frecuencias, tarifas, capacidad de los vehículos), la cuantificación de la demanda a partir de conteos de pasajeros relacionados a una base geográfica y la caracterización de dicha demanda a partir de Encuestas Origen Destino (EOD) en estaciones ferroviarias y subterráneas, en paradas y a bordo de vehículos de colectivos. 3 9 Encuesta de Movilidad Domiciliaria en el AMBA durante los años 2009 y 2010. Desde la Unidad Ejecutora Central del Ministerio del Interior y Transporte se han realizado Encuestas de Movilidad Domiciliaria (EMD) en distintas áreas metropolitanas del interior del país. Las EMD fueron realizadas en el período 2008-2013 y de acuerdos a estándares establecidos para la actualización de este tipo de datos, se debieran realizar de manera periódica cada cinco años aproximadamente. Por otra parte se han realizado Conteos y Encuestas Origen Destino a bordo de colectivos en corredores del AMBA. Las EMD se realizaron en los hogares de las distintas áreas de estudio a partir de un diseño muestral sin reemplazo y sistemático en el proceso de selección de las unidades en cada 4 etapa del relevamiento . A partir de los procesamientos de los datos se obtienen indicadores de movilidad y transporte que permiten sustentar estudios y proyectos que precisan una cuantificación y caracterización general de la demanda de las áreas metropolitanas del país. Se pueden establecer también análisis comparativos entre ciudades, tales como el porcentaje de viajes realizados en un día hábil (Cuadro I). Si bien esta información no es homogénea en todas las EMD, dado que en algunas se han relevado todos los viajes sin importar la distancia y esto aumenta el porcentaje de viajes diarios realizados, permite obtener un indicador para analizar no solo la movilidad urbana sino también, en complemento con otros estudios, dinámicas de motilidad (referido a la movilidad potencial) y de motivos de no movilidad de la población. El tamaño muestral en la EMD del AMBA fue de 22.500 hogares, mientras que en las áreas del interior del país oscilaron entre 2000 y 5000 hogares. Se relevaron las características socioeconómicas de los hogares y las personas, los viajes de todos los integrantes del hogar y sus respectivas etapas. La duración promedio de las EMD fue de aproximadamente 1 hora y media por hogar. 4 10 Área Metropolitana de Argentina % Población que realizó viajes Cantidad de viajes diarios 501.343 Año de EMD Área Metropolitana de Resistencia 60% Área Metropolitana de Corrientes 58% 420.924 2012-2013 70% 1.136.924 2012 Área Metropolitana de Santa Fe 85% 1.484.030 2012 Área Metropolitana de Paraná 80% 737.406 2012 Área Metropolitana de Neuquén 56% 439.545 2012 56% 189.934 2012 Área Metropolitana de Tucumán 58% 1.436.710 2011 Área Metropolitana de Mendoza 77% 1.528.994 2010 Área Metropolitana de Posadas 68% 567.475 2010 64% 19.767.555 2009-2010 Área Metropolitana de Córdoba 75% 2.704.650 2009 Área Metropolitana de Rosario 60% 1.883.669 2008 Área Metropolitana de Salta Área Metropolitana de Cipolletti Área Metropolitana de Buenos Aires 2012-2013 Cuadro I EMD realizadas en la Argentina: cantidad de viajes totales y porcentaje de población que viaja. Fuente: Elaboración propia a partir de datos públicos de la UEC­ Ministerio del Interior y Transporte. http://uecmovilidad.gob.ar/category/publicaciones/encuestas/ Al focalizar el análisis en los modos de transporte utilizados en las distintas ciudades de la 5 Argentina, el colectivo, el auto y los viajes a pie corresponden a los modos más utilizados (Cuadro II y Figura I). Cuadro II Modos de Transporte utilizados en la Argentina por Área Metropolitana de acuerdo a EMD. Fuente: 5 Es importante considerar que para poder realizar el análisis en términos comparativos, solamente se ha considera el Transporte Público Colectivo para todas las ciudades en estudio. 11 Elaboración propia a partir de datos públicos de la http://uecmovilidad.gob.ar/category/publicaciones/encuestas/ UEC- Ministerio del Interior y Transporte. Figura I. Modos de Transporte utilizados en la Argentina por Área Metropolitana de acuerdo a EMD. Fuente: Elaboración propia a partir de datos públicos de la UEC- Ministerio del Interior y Transporte. http://uecmovilidad.gob.ar/category/publicaciones/encuestas/ Al realizar el análisis de partición modal por género, se observa que hay diferencias marcadas: los modos no motorizados y el colectivo son más utilizados por las mujeres, mientras que en el transporte público individual (automóvil particular y moto) es más utilizado por los hombres (Figura II) Figura II. Modos de Transporte utilizados en la Argentina por Área Metropolitana de acuerdo a EMD según gémero. Fuente: Elaboración propia a partir de datos públicos de la UEC- Ministerio del Interior y Transporte. http://uecmovilidad.gob.ar/category/publicaciones/encuestas/ 12 Si se consideran los motivos de viaje realizados a nivel nacional se observa la tendencia de que la mayor cantidad de viajes se realizan por motivo trabajo y estudio en todas las ciudades en estudio. Cuadro III. Motivos de viaje en la en la Argentina por Área Metropolitana de acuerdo a EMD. Fuente: Elaboración propia a partir de datos públicos de la UECMinisterio del Interior y Transporte. http://uecmovilidad.gob.ar/category/publicaciones/encuestas/ Al considerar el promedio nacional de motivos de viaje, las proporciones se mantienen (Figura III). Tanto el motivo trabajo como estudio comprenden el 63% de los viajes. 13 Figura III. Motivos de viaje en la en la Argentina por Área Metropolitana de acuerdo a EMD. Fuente: Elaboración propia a partir de datos públicos de la UECMinisterio del Interior y Transporte. http://uecmovilidad.gob.ar/category/publicaciones/encuestas/ La potencialidad de estos datos muestrales cobra una nueva dimensión al pensar en la fusión de los mismos con datos en tiempo real, que permitan a la vez contrastarlos y complementarlos. 4. Impacto El impacto es de tipo multidimensional. Ya cada aplicación de Big Data puede pensarse desde el ciudadano, de las políticas públicas, de los proveedores de transporte, es decir desde cada actor social del escenario sociotécnico. Desde el punto de vista de la gestión del gobierno, el impacto es profundo, ya que la visibilidad que aporta Big Data de los efectos de las políticas públicas en tiempo real permite poner a prueba la visión ideológica o deseada del resultado. El impacto para los ciudadanos es directo en la mejora de la vida cotidiana. La mayor parte de la población urbana en Latinoamérica emplea una gran cantidad de tiempo en 14 trasladarse al trabajo o zonas comerciales o para realizar trámites. Aún pequeñas mejoras en estos tiempos y condiciones de traslado son recibidos por la población como una mejora de la vida cotidiana, además del impacto en las horas productivas (o de esparcimiento, lo que impacta positivamente en el funcionamiento de la sociedad). Para proveedores de servicios, se pueden implementar políticas de datos abiertos, que les permitan contar y utilizar los datos. 5. Conclusiones Como dijimos para poder llevar a cabo estos proyectos una vez puestos en marcha estos primeros pilotos es necesario apostar al desarrollo de capacidades en sus multidimensiones: en el análisis, recolección y uso de los datos, en las capacidades analíticas de los grupos de investigación/consultoría, organizaciones de la sociedad civil, organizaciones empresariales del transporte y los gestores públicos. Los desafíos se encuentran tanto en el análisis como en la recolección y uso de los datos. 6. Bibliografía Artopoulos, A. (2016) “Bahía Blanca: Ciudad del Nuevo Desarrollo” en “Casos exitosos de Ciudades Inteligentes en la República Argentina” Alejandro Prince. Buenos Aires. Burrows, R., & Savage, M. (2014). After the crisis? Big Data and the methodological challenges of empirical sociology. Big Data & Society, 1(1). Corporación Andina de Fomento (2011) Desarrollo urbano y movilidad en América Latina, disponible en http://www.caf.com/media/4203/desarrollourbano_y_movilidad_americalatina.pdf Gutiérrez, A. y Kralich, S. (2011) Presentación Dossier: De movilidades e inmovilidades urbanas. Revista Transporte y Territorio Nº 4, Universidad de Buenos Aires. Pp. 1 a 9 disponible en www.rtt.filo.uba.ar/RTT00401001.pdf Heeks, R. (2008). ICT4D 2.0: The next phase of applying ICT for international development. Computer, 41(6), 26-33. 15 International Transport Forum. (2015) Big Data and Transport Understanding and assessing options. Corporate Partnership Board Report. Kaufmann, V. (2002) “Motilité, latence de mobilité et modes de vie urbains”, en Bonnet, M. y Aubertel, P. (eds.), La ville aux limites de la mobilité. Kazhamiakin, R., Marconi, A., Perillo, M., Pistore, M., Valetto, G., Piras, L., ... & Perri, N. (2015, October). Using gamification to incentivize sustainable urban mobility. In Smart Cities Conference (ISC2), 2015 IEEE First International (pp. 1-6). IEEE. Miralles-Guasch Carmen y Cebollada, Ángel Cebollada. (2003) “Movilidad y transporte. Opciones políticas para la ciudad”. Fundación Alternativa. Unidad Ejecutora Central Movilidad del Ministerio del Interior y Transporte de la República Argentina http://uecmovilidad.gob.ar/category/publicaciones/encuestas/ Ureta, S. (2015). Assembling Policy: Transantiago, Human Devices, and the Dream of a World-class Society. Mit Press. Regional Observatory of Intelligent Transport Systems for Latin America and the Caribbean. Vasconcellos, Eduardo. (2015) “Transporte Urbano y Movilidad. Reflexiones y Propuestas en Desarrollo”. Unsam Edita, Buenos Aires. 16