Realidades ineludibles sobre los datos masivos Nos guste o no el término, los datos masivos han venido para quedarse. A continuación analizamos las realidades clave y exponemos los mitos Hay que haber estado viviendo en la casa de Gran Hermano o en lo más profundo de la selva para no haber reparado aún en la aparición de los datos masivos o Big Data como un tema prioritario de debate. Como ya sucedió hace unos años con la computación en nube, el mundo del marketing ha creado grandes expectativas en torno a los datos masivos y, como en el caso de la computación en nube, a las organizaciones les ha resultado muy complicado dar con una definición de en qué consisten. Así, no se ha llegado a una definición estándar para esta cuestión; al menos no una definición que goce de una aceptación generalizada, como fue el caso de la definición de la nube realizada por el NIST (National Institute of Standards and Technology o Instituto Nacional de Estandarización y Tecnología). Por ello, la definición que nos ofrece la empresa de investigación IDC es tan válida como cualquiera otra. IDC define los datos masivos o Big Data como "una nueva generación de tecnologías y arquitecturas diseñadas para extraer valor económico a partir de grandes volúmenes de datos de todo tipo, mediante la captura, detección y/o análisis a alta velocidad". Así, si acudimos a cualquier conferencia, veremos cómo las sesiones acerca de los datos masivos copan el programa, ya que los directivos de las empresas no quieren quedarse al margen de esta nueva tendencia. Nadie duda a estas alturas que, en un futuro, las empresas adoptarán técnicas de gestión de datos masivos, en un intento de analizar los enormes volúmenes de información con las que cuentan, buscando derivar de ellos una mayor rentabilidad para su empresa. Por otra parte, como sucede con todas las nuevas tendencias, hay un gran número de usuarios que muestran cierto escepticismo por la efectividad de los datos masivos. Lógicamente, cuando una tecnología despierta tanta expectación, es inevitable que se dé cierto cinismo en torno a ella. Así, hay dos opiniones enfrentadas en torno a la importancia de los datos masivos. Sin embargo, lo que ambas opiniones tienen en común son varios mitos en torno a los datos masivos y una escasa confianza en algunos de sus elementos básicos. Los mitos Mito nº 1: No es una cuestión de volumen El nombre de "datos masivos", como el nombre inglés Big Data, resulta poco apropiado, ya que transmite que el tamaño de la base de datos constituye un problema en sí mismo. Sin embargo, no es el único factor implicado. En opinión de Alan Priestley, director de estrategias de marketing para Intel en Europa, Oriente Medio y África (EMEA): Además, hay otros elementos: entre los más notables, la diversidad de los datos y la velocidad con la que estos deben ofrecerse. Además, las compañías deben tener muy presente el hecho de que los datos originales deben ser precisos para ser eficaces. Mito nº 2: No es una mera cuestión de medios sociales Buena parte del debate en torno a los datos masivos se ha centrado en los efectos que ejercen los datos de los medios sociales en las organizaciones. Resulta sencillo entender por qué se ha producido este fenómeno. La mayor parte de la atención mediática se ha centrado en el estereotipo del negocio que intenta obtener información actualizada sobre su clientela. Hoy en día, naturalmente, esto pasa por analizar las interacciones en medios sociales como Twitter, Facebook, Instagram, etc. Sin embargo, como destaca Priestley, en las empresas los datos generados por máquinas son mucho más habituales: registros de la actividad de redes y centros de datos y otros tipos de información. “Las aerolíneas también pueden beneficiarse del poder de los datos masivos. Por ejemplo, pueden acceder a los datos de un aparato que esté en vuelo y analizarlo para predecir cualquier posible problema. En el pasado, los motores se analizaban cada cierto número de horas de servicio o tras un fallo. No queremos que se den esos fallos, pero si solo analizamos los motores después de que fallen, ya es demasiado tarde,” asegura. “Al usar los datos masivos de esta forma, las aerolíneas pueden monitorizar las vibraciones de un motor. Esto les permitirá examinar los datos obtenidos y comprobarlos de forma que, si difieren de lo normal, pueden enviar una alerta para examinar el motor”. Otro ejemplo de un uso eficaz de los datos masivos que describe Priestley es el caso de BMW. El fabricante de automoción cuenta con varios coches conectados a Internet vía 3G. Mediante el uso de técnicas de datos masivos y análisis de datos, puede monitorizar esos coches y, de ser necesario, contactar con sus dueños. Existen otros muchos ejemplos como estos, como las compañías de tarjetas de crédito que verifican las transacciones en tiempo real para evitar fraudes y así garantizar que una compra realizada a medio mundo de distancia sea legítima, y todo ello en cuestión de segundos. En esta línea, Intel es una de las principales empresas en el uso de técnicas de datos masivos. La compañía se vale de su gestión de datos masivos para monitorizar la eficiencia de sus plantas de producción, lo que contribuye a reducir el malgasto y redunda en un ahorro de costes considerable. Mito nº 3: Los datos masivos equivalen a Hadoop Buena parte del debate en torno a los datos masivos se ha centrado en Hadoop. No cabe duda de que el proyecto Apache es el más conocido y ofreció la primera herramienta para el análisis y almacenamiento de datos no estructurados en alcanzar cierta relevancia. Sin embargo, no es la única herramienta. “Los usuarios suelen creer que si comienzan a usar Hadoop ya no necesitarán más herramientas, pero el almacenamiento tradicional de datos aún tiene cabida. Los usuarios necesitan seguir utilizando sus infraestructuras informáticas ya existentes”, afirma Priestley. Priestley cree que el atractivo de Hadoop permite a las organizaciones obtener muchísima información con una inversión que, en proporción, resulta modesta. “Por ello, los usuarios pueden descargarse Hadoop de Apache; el coste del software es cero y puede ejecutarse en servidores convencionales”, comenta Priestley. “La alternativa pasaba por acudir a compañías como Oracle o Teradata para adquirir sus soluciones integradas. Esta puede no ser una opción viable para muchas compañías que no son plenamente conscientes de las ventajas que pueden alcanzar mediante el análisis de los datos de los que dispongan”, añade Priestley. Mito nº 4: Resulta difícil cuantificar el retorno de la inversión (ROI) A las empresas les fascinan los números claros. Por ello, a los responsables tecnológicos de las empresas les resultaría perfecto poder decir que el coste de la implementación de la gestión de datos masivos sería de X y que ello permitiría ahorrar Y a lo largo de tres años. Los datos masivos no funcionan así. Resulta muy difícil obtener un retorno de la inversión significativo a partir de una iniciativa de datos masivos. Como apunta Priestley, buena parte de la implementación de los datos masivos parte de supuestos e hipótesis que no resultan sencillos de definir. Por ejemplo, no se puede comprar con iniciativas como la gestión de las relaciones con los clientes, en las que los resultados para una empresa se pueden medir de una forma mucho más inmediata. Así, las empresas que realicen la transición a los datos masivos deberán poder apreciar la diferencia. Además, se está produciendo un cambio en la mentalidad empresarial en lo que respecta al retorno de la inversión en grandes proyectos, ya que las empresas reconocen que siempre son bienes y costes fácilmente mensurables, que pueden verse superados por las ventajas para la empresa. Recientemente, Claranet llevó a cabo un estudio que analizaba cómo las organizaciones habían realizado el tránsito a la nube. El estudio reveló que más de la cuarta parte de los encuestados consideraron el ROI como un factor importante en la toma de decisiones, mientras que el 79% de los encuestados afirmó que los cálculos de ROI que emplearon no reflejaron correctamente todas las ventajas que el tránsito supuso para sus empresas. Aunque este estudio se centró fundamentalmente en la adopción de la computación en nube, no resulta descabellado suponer que las cifras de un tránsito a los datos masivos no serían muy diferentes. En ambos casos, al fin y al cabo, estamos ante un salto tecnológico al futuro. Mito nº 5: No se puede garantizar una respuesta Los datos masivos son una gran incógnita. Son el resultado de analizar imponderables y cifras difíciles de desentrañar. Por su propia naturaleza, estos datos no resultan intuitivos ni accesibles. Si lo fueran, no necesitaríamos técnicas de análisis específicas. Las compañías deben comprender que no pueden garantizar una respuesta. Por ello, no pueden esperar tener una idea de cuál debería ser el resultado y dar con las cifras que corroboren dicha hipótesis. En el ejemplo que mencionábamos anteriormente, a la aerolínea podría resultarle satisfactorio realizar los mantenimientos de sus motores cada 500.000 horas de vuelo. Sin embargo, ese planteamiento le resultará inútil si los aviones se estrellan cada 200.000 horas de vuelo. Aunque hay ciertos mitos y errores de concepto en torno a los datos masivos, no es menos cierto que hay ciertas realidades clave que las compañías que se aventuren en ellos deben comprender. Las realidades Realidad clave nº 1: Los datos masivos requieren una serie de habilidades diferentes Si en algo están de acuerdo la mayoría de los observadores es en la escasez de científicos especializados en datos. McKinsey estima que, para 2019, se requerirán 190.000 científicos preparados para afrontar los retos de los datos masivos a nivel mundial. Y no resulta difícil entender por qué. Administrar un proyecto de datos masivos requiere un conjunto de destrezas totalmente diferente de los necesarios para las implementaciones de almacenamiento de datos ya existentes. Y no es una mera cuestión de cómo gestionar los datos; estos datos también deberán plasmarse de forma que permitan ser procesados correctamente y actuar en consecuencia. “Por ejemplo, en Hadoop existe una herramienta llamada Map Reduce. Requiere capacidad de programación de aplicaciones en Java, que no es una destreza muy común entre los analistas de datos de hoy en día”, asegura Priestley. Pero además, se requieren más habilidades. Así, la persona ideal para gestionar datos masivos deberá ser capaz de comprender los procesos comerciales de la empresa, dominar Java, saber de estadística (y además, tal vez algo de SQL). Es un perfil muy exigente. Esta es una de las razones por las que muchos afirman que la escasez de científicos especializados en datos puede ser un gran obstáculo en la adopción de las técnicas de gestión de datos masivos. Realidad clave nº 2: Deberemos expresar claramente lo que buscamos obtener Aunque es cierto que las empresas no deberán intentar reinterpretar las respuestas obtenidas a su modo, sí que deberán tener un objetivo empresarial claro en todo momento; un objetivo que debe cumplirse. Por ejemplo, una de las formas en las que los datos masivos permiten mejorar la actividad de las compañías es ofrecer información más precisa, ya sea en cuanto a datos del personal o las conductas y decisiones de compras de los clientes. Según McKinsey, las cifras resultan simplemente asombrosas. La célebre consultora afirma que si el sector sanitario estadounidense adoptase técnicas de gestión de datos masivos, los costes resultantes para el sistema sanitario estatal se podrían ver reducidos en aproximadamente un 8%. Más aún, McKinsey asegura que el sector público europeo podría ahorrarse más de 100.000 millones de euros gracias a una mayor eficiencia operativa, reduciendo las declaraciones fraudulentas y potenciando la recaudación fiscal. Realidad clave nº 3: Las personas son los principales impulsores Un proyecto de datos masivos necesita a alguien que lo impulse. No es una mera cuestión tecnológica. No es una cuestión de dar con alguien con las habilidades antes mencionadas; la clave consiste en encontrar a alguien con una lista clara de objetivos que pueda determinar qué se necesita y cómo conseguirlo. Para ello no se requieren destrezas de gestión especiales. Esas labores pueden quedar en manos de los responsables financieros o tecnológicos de la compañía, o incluso en manos del consejero delegado, pero alguien debe asumir la responsabilidad. Como apunta Priestley, “los datos masivos no solo representan un reto tecnológico, sino también uno empresarial. Las compañías deben ser muy conscientes de ello. El modelo de uso es clave en esta cuestión. Pueden darse muchos usos diferentes para estas técnicas, que pueden modelarse de distintas formas”. Realidad clave nº 4: No es una mera cuestión de datos El análisis de datos masivos consiste en tres elementos fundamentales: los propios datos, el análisis de los mismos y la presentación de los resultados. Disponer de los datos, por sí mismo, resulta intrascendente. Siempre han estado ahí. La forma en que se gestionan, analizan y presentan es la clave que marca la diferencia y transforma estos datos en algo de valor. La transición a un proyecto de datos masivos conllevará una planificación muy cuidada. Suele ser conveniente comenzar por pequeñas iniciativas y trabajar en proyectos discretos, para posteriormente ir ascendiendo en la escala. Una vez se hayan reunido los datos, habrá llegado el momento de analizarlos en mayor detalle. Realidad clave nº 5: Los datos masivos son útiles para todos Gran parte del debate en torno a los datos masivos se ha centrado en las grandes organizaciones; esos monolitos burocráticos cuya eficacia operativa se ve entorpecida por una abrumadora cantidad de datos. Muchas de las primeras empresas en adoptar las técnicas de los datos masivos proceden de este sector, pero no son los únicos que pueden beneficiarse de ellos. Analizar datos ocultos y extraer los patrones que ocultan son habilidades que serán bienvenidas en las empresas de cualquier tamaño. Así, hay algunas pequeñas empresas que manejan volúmenes industriales de datos. Por ejemplo, las compañías de diseño para la Fórmula 1 son empresas de pequeño tamaño, pero gigantescas en términos de volúmenes de datos. Incluso las empresas más pequeñas pueden aprovechar las ventajas de utilizar los datos masivos en su trabajo diario, ir más allá del Excel en su análisis de clientes, buscando dar con los patrones de compra. Por ejemplo, un restaurante que cuente con un plato determinado en su menú podrá enviar correos electrónicos a todos los clientes que lo hayan pedido, una vez figure de nuevo en su menú. O, por otro lado, un comerciante de vinos puede contar con la opción de avisar a los aficionados a un vino de una añada concreta cuando vaya a recibir otra remesa. Estas compañías no tendrán que ir por la senda de los científicos especializados en datos. Ya existen varias aplicaciones para la gestión de datos masivos que pueden ayudar a los pequeños negocios a acercarse a sus clientes. Al fin y al cabo, es una cuestión de negocios e, independientemente de su tamaño, los datos masivos constituyen un paso en esa dirección.