Realidades ineludibles sobre los datos masivos

Anuncio
Realidades ineludibles sobre los datos masivos
Nos guste o no el término, los datos masivos han venido para quedarse. A
continuación analizamos las realidades clave y exponemos los mitos
Hay que haber estado viviendo en la casa de Gran Hermano o en lo más profundo de la selva
para no haber reparado aún en la aparición de los datos masivos o Big Data como un tema
prioritario de debate. Como ya sucedió hace unos años con la computación en nube, el mundo
del marketing ha creado grandes expectativas en torno a los datos masivos y, como en el caso
de la computación en nube, a las organizaciones les ha resultado muy complicado dar con una
definición de en qué consisten.
Así, no se ha llegado a una definición estándar para esta cuestión; al menos no una definición
que goce de una aceptación generalizada, como fue el caso de la definición de la nube realizada
por el NIST (National Institute of Standards and Technology o Instituto Nacional de
Estandarización y Tecnología). Por ello, la definición que nos ofrece la empresa de investigación
IDC es tan válida como cualquiera otra. IDC define los datos masivos o Big Data como "una
nueva generación de tecnologías y arquitecturas diseñadas para extraer valor económico a
partir de grandes volúmenes de datos de todo tipo, mediante la captura, detección y/o análisis
a alta velocidad".
Así, si acudimos a cualquier conferencia, veremos cómo las sesiones acerca de los datos
masivos copan el programa, ya que los directivos de las empresas no quieren quedarse al
margen de esta nueva tendencia. Nadie duda a estas alturas que, en un futuro, las empresas
adoptarán técnicas de gestión de datos masivos, en un intento de analizar los enormes
volúmenes de información con las que cuentan, buscando derivar de ellos una mayor
rentabilidad para su empresa.
Por otra parte, como sucede con todas las nuevas tendencias, hay un gran número de usuarios
que muestran cierto escepticismo por la efectividad de los datos masivos. Lógicamente, cuando
una tecnología despierta tanta expectación, es inevitable que se dé cierto cinismo en torno a
ella.
Así, hay dos opiniones enfrentadas en torno a la importancia de los datos masivos. Sin
embargo, lo que ambas opiniones tienen en común son varios mitos en torno a los datos
masivos y una escasa confianza en algunos de sus elementos básicos.
Los mitos
Mito nº 1: No es una cuestión de volumen
El nombre de "datos masivos", como el nombre inglés Big Data, resulta poco apropiado, ya que
transmite que el tamaño de la base de datos constituye un problema en sí mismo. Sin embargo,
no es el único factor implicado. En opinión de Alan Priestley, director de estrategias de
marketing para Intel en Europa, Oriente Medio y África (EMEA): Además, hay otros elementos:
entre los más notables, la diversidad de los datos y la velocidad con la que estos deben
ofrecerse. Además, las compañías deben tener muy presente el hecho de que los datos
originales deben ser precisos para ser eficaces.
Mito nº 2: No es una mera cuestión de medios sociales
Buena parte del debate en torno a los datos masivos se ha centrado en los efectos que ejercen
los datos de los medios sociales en las organizaciones. Resulta sencillo entender por qué se ha
producido este fenómeno. La mayor parte de la atención mediática se ha centrado en el
estereotipo del negocio que intenta obtener información actualizada sobre su clientela. Hoy en
día, naturalmente, esto pasa por analizar las interacciones en medios sociales como Twitter,
Facebook, Instagram, etc.
Sin embargo, como destaca Priestley, en las empresas los datos generados por máquinas son
mucho más habituales: registros de la actividad de redes y centros de datos y otros tipos de
información.
“Las aerolíneas también pueden beneficiarse del poder de los datos masivos. Por ejemplo,
pueden acceder a los datos de un aparato que esté en vuelo y analizarlo para predecir cualquier
posible problema. En el pasado, los motores se analizaban cada cierto número de horas de
servicio o tras un fallo. No queremos que se den esos fallos, pero si solo analizamos los motores
después de que fallen, ya es demasiado tarde,” asegura.
“Al usar los datos masivos de esta forma, las aerolíneas pueden monitorizar las vibraciones de
un motor. Esto les permitirá examinar los datos obtenidos y comprobarlos de forma que, si
difieren de lo normal, pueden enviar una alerta para examinar el motor”.
Otro ejemplo de un uso eficaz de los datos masivos que describe Priestley es el caso de BMW.
El fabricante de automoción cuenta con varios coches conectados a Internet vía 3G. Mediante
el uso de técnicas de datos masivos y análisis de datos, puede monitorizar esos coches y, de ser
necesario, contactar con sus dueños.
Existen otros muchos ejemplos como estos, como las compañías de tarjetas de crédito que
verifican las transacciones en tiempo real para evitar fraudes y así garantizar que una compra
realizada a medio mundo de distancia sea legítima, y todo ello en cuestión de segundos.
En esta línea, Intel es una de las principales empresas en el uso de técnicas de datos masivos. La
compañía se vale de su gestión de datos masivos para monitorizar la eficiencia de sus plantas
de producción, lo que contribuye a reducir el malgasto y redunda en un ahorro de costes
considerable.
Mito nº 3: Los datos masivos equivalen a Hadoop
Buena parte del debate en torno a los datos masivos se ha centrado en Hadoop. No cabe duda
de que el proyecto Apache es el más conocido y ofreció la primera herramienta para el análisis
y almacenamiento de datos no estructurados en alcanzar cierta relevancia. Sin embargo, no es
la única herramienta.
“Los usuarios suelen creer que si comienzan a usar Hadoop ya no necesitarán más
herramientas, pero el almacenamiento tradicional de datos aún tiene cabida. Los usuarios
necesitan seguir utilizando sus infraestructuras informáticas ya existentes”, afirma Priestley.
Priestley cree que el atractivo de Hadoop permite a las organizaciones obtener muchísima
información con una inversión que, en proporción, resulta modesta. “Por ello, los usuarios
pueden descargarse Hadoop de Apache; el coste del software es cero y puede ejecutarse en
servidores convencionales”, comenta Priestley. “La alternativa pasaba por acudir a compañías
como Oracle o Teradata para adquirir sus soluciones integradas. Esta puede no ser una opción
viable para muchas compañías que no son plenamente conscientes de las ventajas que pueden
alcanzar mediante el análisis de los datos de los que dispongan”, añade Priestley.
Mito nº 4: Resulta difícil cuantificar el retorno de la inversión (ROI)
A las empresas les fascinan los números claros. Por ello, a los responsables tecnológicos de las
empresas les resultaría perfecto poder decir que el coste de la implementación de la gestión de
datos masivos sería de X y que ello permitiría ahorrar Y a lo largo de tres años. Los datos
masivos no funcionan así. Resulta muy difícil obtener un retorno de la inversión significativo a
partir de una iniciativa de datos masivos. Como apunta Priestley, buena parte de la
implementación de los datos masivos parte de supuestos e hipótesis que no resultan sencillos
de definir.
Por ejemplo, no se puede comprar con iniciativas como la gestión de las relaciones con los
clientes, en las que los resultados para una empresa se pueden medir de una forma mucho más
inmediata. Así, las empresas que realicen la transición a los datos masivos deberán poder
apreciar la diferencia. Además, se está produciendo un cambio en la mentalidad empresarial en
lo que respecta al retorno de la inversión en grandes proyectos, ya que las empresas reconocen
que siempre son bienes y costes fácilmente mensurables, que pueden verse superados por las
ventajas para la empresa.
Recientemente, Claranet llevó a cabo un estudio que analizaba cómo las organizaciones habían
realizado el tránsito a la nube. El estudio reveló que más de la cuarta parte de los encuestados
consideraron el ROI como un factor importante en la toma de decisiones, mientras que el 79%
de los encuestados afirmó que los cálculos de ROI que emplearon no reflejaron correctamente
todas las ventajas que el tránsito supuso para sus empresas.
Aunque este estudio se centró fundamentalmente en la adopción de la computación en nube,
no resulta descabellado suponer que las cifras de un tránsito a los datos masivos no serían muy
diferentes. En ambos casos, al fin y al cabo, estamos ante un salto tecnológico al futuro.
Mito nº 5: No se puede garantizar una respuesta
Los datos masivos son una gran incógnita. Son el resultado de analizar imponderables y cifras
difíciles de desentrañar. Por su propia naturaleza, estos datos no resultan intuitivos ni
accesibles. Si lo fueran, no necesitaríamos técnicas de análisis específicas. Las compañías
deben comprender que no pueden garantizar una respuesta. Por ello, no pueden esperar tener
una idea de cuál debería ser el resultado y dar con las cifras que corroboren dicha hipótesis.
En el ejemplo que mencionábamos anteriormente, a la aerolínea podría resultarle satisfactorio
realizar los mantenimientos de sus motores cada 500.000 horas de vuelo. Sin embargo, ese
planteamiento le resultará inútil si los aviones se estrellan cada 200.000 horas de vuelo.
Aunque hay ciertos mitos y errores de concepto en torno a los datos masivos, no es menos
cierto que hay ciertas realidades clave que las compañías que se aventuren en ellos deben
comprender.
Las realidades
Realidad clave nº 1: Los datos masivos requieren una serie de habilidades
diferentes
Si en algo están de acuerdo la mayoría de los observadores es en la escasez de científicos
especializados en datos. McKinsey estima que, para 2019, se requerirán 190.000 científicos
preparados para afrontar los retos de los datos masivos a nivel mundial.
Y no resulta difícil entender por qué. Administrar un proyecto de datos masivos requiere un
conjunto de destrezas totalmente diferente de los necesarios para las implementaciones de
almacenamiento de datos ya existentes. Y no es una mera cuestión de cómo gestionar los
datos; estos datos también deberán plasmarse de forma que permitan ser procesados
correctamente y actuar en consecuencia.
“Por ejemplo, en Hadoop existe una herramienta llamada Map Reduce. Requiere capacidad de
programación de aplicaciones en Java, que no es una destreza muy común entre los analistas
de datos de hoy en día”, asegura Priestley.
Pero además, se requieren más habilidades. Así, la persona ideal para gestionar datos masivos
deberá ser capaz de comprender los procesos comerciales de la empresa, dominar Java, saber
de estadística (y además, tal vez algo de SQL). Es un perfil muy exigente. Esta es una de las
razones por las que muchos afirman que la escasez de científicos especializados en datos puede
ser un gran obstáculo en la adopción de las técnicas de gestión de datos masivos.
Realidad clave nº 2: Deberemos expresar claramente lo que buscamos obtener
Aunque es cierto que las empresas no deberán intentar reinterpretar las respuestas obtenidas a
su modo, sí que deberán tener un objetivo empresarial claro en todo momento; un objetivo
que debe cumplirse. Por ejemplo, una de las formas en las que los datos masivos permiten
mejorar la actividad de las compañías es ofrecer información más precisa, ya sea en cuanto a
datos del personal o las conductas y decisiones de compras de los clientes.
Según McKinsey, las cifras resultan simplemente asombrosas. La célebre consultora afirma que
si el sector sanitario estadounidense adoptase técnicas de gestión de datos masivos, los costes
resultantes para el sistema sanitario estatal se podrían ver reducidos en aproximadamente un
8%. Más aún, McKinsey asegura que el sector público europeo podría ahorrarse más de
100.000 millones de euros gracias a una mayor eficiencia operativa, reduciendo las
declaraciones fraudulentas y potenciando la recaudación fiscal.
Realidad clave nº 3: Las personas son los principales impulsores
Un proyecto de datos masivos necesita a alguien que lo impulse. No es una mera cuestión
tecnológica. No es una cuestión de dar con alguien con las habilidades antes mencionadas; la
clave consiste en encontrar a alguien con una lista clara de objetivos que pueda determinar qué
se necesita y cómo conseguirlo.
Para ello no se requieren destrezas de gestión especiales. Esas labores pueden quedar en
manos de los responsables financieros o tecnológicos de la compañía, o incluso en manos del
consejero delegado, pero alguien debe asumir la responsabilidad. Como apunta Priestley, “los
datos masivos no solo representan un reto tecnológico, sino también uno empresarial. Las
compañías deben ser muy conscientes de ello. El modelo de uso es clave en esta cuestión.
Pueden darse muchos usos diferentes para estas técnicas, que pueden modelarse de distintas
formas”.
Realidad clave nº 4: No es una mera cuestión de datos
El análisis de datos masivos consiste en tres elementos fundamentales: los propios datos, el
análisis de los mismos y la presentación de los resultados.
Disponer de los datos, por sí mismo, resulta intrascendente. Siempre han estado ahí. La forma
en que se gestionan, analizan y presentan es la clave que marca la diferencia y transforma estos
datos en algo de valor.
La transición a un proyecto de datos masivos conllevará una planificación muy cuidada. Suele
ser conveniente comenzar por pequeñas iniciativas y trabajar en proyectos discretos, para
posteriormente ir ascendiendo en la escala. Una vez se hayan reunido los datos, habrá llegado
el momento de analizarlos en mayor detalle.
Realidad clave nº 5: Los datos masivos son útiles para todos
Gran parte del debate en torno a los datos masivos se ha centrado en las grandes
organizaciones; esos monolitos burocráticos cuya eficacia operativa se ve entorpecida por una
abrumadora cantidad de datos. Muchas de las primeras empresas en adoptar las técnicas de los
datos masivos proceden de este sector, pero no son los únicos que pueden beneficiarse de
ellos.
Analizar datos ocultos y extraer los patrones que ocultan son habilidades que serán bienvenidas
en las empresas de cualquier tamaño. Así, hay algunas pequeñas empresas que manejan
volúmenes industriales de datos. Por ejemplo, las compañías de diseño para la Fórmula 1 son
empresas de pequeño tamaño, pero gigantescas en términos de volúmenes de datos. Incluso
las empresas más pequeñas pueden aprovechar las ventajas de utilizar los datos masivos en su
trabajo diario, ir más allá del Excel en su análisis de clientes, buscando dar con los patrones de
compra. Por ejemplo, un restaurante que cuente con un plato determinado en su menú podrá
enviar correos electrónicos a todos los clientes que lo hayan pedido, una vez figure de nuevo en
su menú. O, por otro lado, un comerciante de vinos puede contar con la opción de avisar a los
aficionados a un vino de una añada concreta cuando vaya a recibir otra remesa.
Estas compañías no tendrán que ir por la senda de los científicos especializados en datos. Ya
existen varias aplicaciones para la gestión de datos masivos que pueden ayudar a los pequeños
negocios a acercarse a sus clientes. Al fin y al cabo, es una cuestión de negocios e,
independientemente de su tamaño, los datos masivos constituyen un paso en esa dirección.
Descargar