Diapositiva 1 - Formación Hadoop

Anuncio
CURSO:
APACHE SPARK
CAPÍTULO 1: INTRODUCCIÓN
www.formacionhadoop.com
Índice
1 ¿Por qué realizar el curso de Apache Spark?
2 Requisitos previos del curso
3 Bloques del curso
4 Objetivos
5 Tutor del curso
6 Información de interés
2
ÍNDICE
¿POR QUÉ REALIZAR
EL CURSO DE APACHE
SPARK?
 Una de las tendencias tecnológicas que están haciendo más ruido es el denominado 'Big Data'.
Las firmas analistas y grandes compañías coinciden en que será uno de los pilares en torno a los
que gire el mercado en los próximos años.
 Apache Spark es el siguiente nivel de la generación en MapReduce. Spark es un poderoso motor
de procesamiento, de código abierto para los datos en el cluster Hadoop, optimizadas para la
velocidad, facilidad de uso, y la analítica avanzada. El marco Spark soporta streaming de
procesamiento de datos y complejos, algoritmos iterativos, permitiendo a las aplicaciones para
ejecutar hasta 100 veces más rápido que los programas tradicionales de Hadoop MapReduce.
 La calidad de los cursos está garantizada ya que todos los profesores son profesionales
experimentados y especializados en esta tecnología que han superado con éxito los exámenes
de certificación de Cloudera.
4
ÍNDICE
REQUISITOS
PREVIOS
DEL CURSO
Este curso está recomendado para desarrolladores que quieran aprender la tecnología de
procesamiento de datos in-memory. Los ejemplos y ejercicios del curso se presentan en Python y
Scala, por lo se requiere el conocimiento de uno de estos lenguajes de programación. Se supone
conocimientos básicos de Linux.
No se requiere conocimiento previo de Hadoop.
6
ÍNDICE
BLOQUES
DEL CURSO
El curso se encuentra dividido en 2 grandes bloques: En el primer bloque aprenderemos los
conceptos básicos de Spark, realizar pequeños programas con Spark y como interactuar con el
sistema de ficheros de Hadoop (HDFS). En el segundo bloque del curso aprenderemos a realizar
nuestras aplicaciones con Spark y como mejorar el rendimiento de las mismas.
Cada uno de los bloques está compuesto por los temas correspondientes del curso, ejercicios
prácticos para afianzar el conocimiento y material complementario para facilitar el aprendizaje.
- BLOQUE 1:
- Introducción a Apache Spark:
-¿Por qué utilizar Apache Spark?
- Spark: Conceptos básicos.
- Programación básica con Spark.
- Procesamiento de datos con RDDs.
- Spark y HDFS.
8
- BLOQUE 2:
- Spark en nuestro cluster Hadoop.
- Programación paralela con Spark.
- Cacheo y persistencia de datos.
- Escritura de aplicaciones con Spark.
- Spark Streaming.
- Rendimiento de una aplicación Spark.
9
ÍNDICE
OBJETIVOS
El objetivo del curso es aprender a construir potentes aplicaciones de
procesamiento de datos in-memory utilizando Apache Spark. A continuación
enumeramos los principales objetivos del curso:
 Conocer Apache Spark para poder utilizarlo en los momentos adecuados
 Programación básica de datos con “Resilient Distributed Datasets (RDDs)
 Como se comporta Apache Spark con el procesamiento de datos de
forma distribuida
 Como Apache Spark es capaz de interactuar con el sistema de ficheros
de Hadoop.
 Como crear aplicaciones con Spark y obtener el mejor rendimiento de
cada una de ellas
 Como procesar datos en tiempo real gracias a Spark Streaming
11
ÍNDICE
TUTOR DEL
CURSO
- El tutor del curso está especializado en las tecnologías Big Data. Con años de experiencia
como Big Data Software Engineer y como instructor de los cursos oficiales de Cloudera.
Fernando Agudo Tarancón:
- Big Data Software Engineer
- Hadoop Instructor of Cloudera:
Cloudera Developer Training for Apache Hadoop.
Cloudera Administrator Training for Apache Hadoop
Cloudera Developer Training for Apache Spark.
-Títulos y certificaciones:
Ingeniero Técnico en Informática de Gestión.
CCDH: Cloudera Certified Developer for Apache
Hadoop.
CCAA: Cloudera Certified Administrator for Apache
Hadoop.
13
ÍNDICE
INFORMACIÓN
DE INTERÉS
 El curso se desarrolla sobre la distribución de Cloudera CDH5. Es una distrubución fácil de
instalar y construida con los paquetes oficiales de Apache Hadoop Core incluyendo paquetes
adicionales de su ecosistema.
 Es una versión estable, 100% OpenSource.
 Para poder realizar los ejercicios del curso, es necesario tener instalada la anterior distribución.
 Una forma fácil y sencilla de realizar pruebas con un sistema Hadoop, es configurar nuestro
sistema de forma Pseudo-distribuida:
http://www.cloudera.com/content/cloudera-content/clouderadocs/CDH5/latest/CDH5-Quick-Start/cdh5qs_yarn_pseudo.html
15
 Cursos oficiales de Cloudera:
http://cloudera.com/content/cloudera/en/training/courses/sparktraining.html
 Para poder realizar los ejercicios del curso se recomienda descargar la máquina virtual de
Cloudera:
http://www.cloudera.com/content/cloudera/en/downloads/quickstart_vms/cdh-5-2-x.html
16
Contacto
[email protected]
www.formacionhadoop.com
TWITTER
Twitter.com/formacionhadoop
FACEBOOK
Facebook.com/formacionhadoop
LINKEDIN
linkedin.com/company/formación-hadoop
17
Descargar