Subido por kupermaikel

Cronologia de las tecnologias

Anuncio
CRONOLOGÍA DE LAS
TECNOLOGÍAS
CONCEPTOS BÁSICOS DEL BIG DATA
Introducción a Big Data
CRONOLOGÍA DE LAS TECNOLOGÍAS
ÍNDICE
CRONOLOGÍA DE LAS TECNOLOGÍAS .............................................................................................................. 2
INTRODUCCIÓN A BIG DATA
1
CRONOLOGÍA DE LAS TECNOLOGÍAS
CRONOLOGÍA DE LAS TECNOLOGÍAS
En este documento veremos de una forma gráfica además de explicativa cómo ha ido
evolucionando la tecnología en el siglo XXI.
En el año 2002, Doug Cutting trabajaba en el desarrollo de un buscador Nutch a gran escala. El
proyecto tenía problemas de escalabilidad ya que el sistema no era capaz de procesar todos los
datos. Para que lo entendamos, únicamente podía procesar el 15% de las webs y no podía pasar de
ese tanto por ciento.
En los años 2003 y 2004, Jeff Dean y su equipo de investigación de Google publican dos artículos
que resultan clave.
Uno describía el sistema de archivos distribuido de Google, Google File System, y el otro describía
un nuevo paradigma basado en fases Map/Reduce.
En 2004, Doug Cutting lee estos artículos e implementa NDFS, Nutch Distributed File System, una
manera económica de implementar el sistema de archivos distribuidos de Google, que solucionaba
gran parte de los problemas de escalabilidad que tenía.
Sigamos. Ya en 2006, Yahoo contrata a Doug y crea un proyecto en Apache llamado Hadoop, una
implementación del paradigma Map/Reduce. El proyecto NDFS se renombra a HDFS (Hadoop
Distributed File System), nombre por el que se le conoce hoy. Se crea la versión 1.0 de Hadoop.
Así, Yahoo usando Hadoop ordena 1,8 Terabytes en 47,9 horas, algo increíble para las tecnologías
existentes en 2006.
Al año siguiente, Yahoo Labs crean “Pig”, un sistema que permitía acceder y transformar los datos
ocultando la complejidad del paradigma Map/reduce basándose en el lenguaje de scripts.
En 2008, FaceBook crea Hive, un sistema que permite acceder y transformar los datos ocultando la
complejidad del sistema basado en SQL. Su principal función era migrar los programas en SQL al
nuevo paradigma.
También en 2008 se crea Cloudera, empresa con vocación de software libre creada por ingenieros
que trabajaban en Google, Yahoo y Facebook, enfocada a comercializar Hadoop.
Veamos la línea del tiempo en la siguiente figura:
INTRODUCCIÓN A BIG DATA
2
CRONOLOGÍA DE LAS TECNOLOGÍAS
2002
2003
2004
2006
Doug Cutting
trabaja en
Nutch
Artículos de
Google GFS
Map/Reduce
Doug Cutting
incorpora DFS
en Nutch
•Yahoo ficha
a Doug
Cutting
•Hadoop
Proyecto
Apache
Foundation
2007
Yahoo crea
Ping
2008
•Se crea
Cloudera
•Facebook
crea Hice
Continuando, al año siguiente, concretamente en 2009, Yahoo ya puede ordenar 1 Terabyte de
información ¡en 62 segundos! ¿Te imaginas? Ese mismo año, nuestro Doug Cutting se une a
Cloudera.
Vayamos a 2010. Matei Zaharia, realiza su tesis doctoral en la Universidad de Berkeley, enfocada en
proporcionar una mejor alternativa para procesar datos masivos en determinados casos en los que
MapReduce no era del todo eficiente. Su tesis se basa en el uso de la memoria en lugar de usar el
disco HDFS para el tratamiento masivo de datos. Nace Spark.
Ya en 2013, el proyecto es donado a Apache Foundation y nace Databricks, enfocada a
comercializar distribuciones basadas en Spark.
En 2015, Google libera sus librerías para aprendizaje profundo, TensorFlow, para uso mediante
licencia Open Source.
Al año siguiente, la startup DataTorrent lidera el Proyecto Apache Apex, que permite tratamiento
por lotes y en tiempo real.
Por último, en 2017, se acepta en Apache Foundation el conjunto de librerías MXNet que usa
Amazon para aprendizaje profundo.
Y por si fuera poco, todas estas tecnologías son de licencia abierta, es decir, cualquiera puede
usarlas sin coste alguno.
Bueno, ¡no está mal el recorrido! ¡Hasta pronto!
INTRODUCCIÓN A BIG DATA
3
CRONOLOGÍA DE LAS TECNOLOGÍAS
2010
2009
•Yahoo!
Ordena un
terabyte en
62 segundos
•Doug
Cutting se
une a
Cloudera
Matei Zaharia
Tesis Spark
Databrick
INTRODUCCIÓN A BIG DATA
2013
2015
2016
2017
Se crea
Databrick
Google libera
bajo licencia
open source
tensor flow
para
aprendizaje
profundo
Apache,
proyecto
liderado por
la empresa
DataTorrent
unifica el
tratamiento
en lotes y en
tiempo real
MXNet Amazon
Aprendizaje
profundo
aceptado en fase
de incubadora en
Apache
Foundation.
4
CRONOLOGÍA DE LAS TECNOLOGÍAS
INTRODUCCIÓN AL BIG DATA
INTRODUCCIÓN A BIG DATA
5
Descargar