Programa del Curso
Sección 1: Introducción a Hadoop
- Hadoop historia, conceptos
- Sistema ecológico
- Distribuciones
- Arquitectura de alto nivel
- Mitos hadoop
- Desafíos de hadoop
- hardware software
- Laboratorio: primer vistazo a Hadoop
Sección 2: HDFS
- Diseño y arquitectura
- Conceptos (escala horizontal, replicación, localidad de datos, conocimiento de rack)
- Daemons: Namenode, Namenode secundario, Nodo de datos
- Comunicaciones / latidos del corazón
- integridad de los datos
- Ruta de lectura / escritura
- Namenode High Availability (HA), Federación
- Laboratorios: interacción con HDFS
Sección 3: Mapa Reducir
- Conceptos y arquitectura
- Daemons (MRV1): jobtracker / tasktracker
- Fases: driver, mapper, shuffle / sort, reductor
- Mapa Reduzca Versión 1 y Versión 2 (YARN)
- Internos del Mapa Reducir
- Introducción a Java Map Reduce el programa
- Laboratorios: Ejecutar un programa MapReduce de ejemplo
Sección 4: Cerdo
- Cerdo vs java mapa reducir
- Flujo de trabajo porcino
- Lengua latina del cerdo
- ETL con cerdo
- Transformations & Joins
- Funciones definidas por el usuario (UDF)
- Laboratorios: escribir scripts Pig para analizar datos
Sección 5: Colmena
- Arquitectura y diseño
- tipos de datos
- Soporte SQL en Hive
- Creación de tablas Hive y consultas
- Particiones
- Se une
- Procesamiento de texto
- Laboratorios: varios laboratorios sobre procesamiento de datos con Hive
Sección 6: HBase
- Conceptos y arquitectura
- Hbase vs RDBMS vs cassandra
- API de Java de HBase
- Datos de series temporales de HBase
- Diseño del esquema
- Labs: Interacción con HBase usando shell; Programación en HBase Java API; Ejercicio de diseño de esquemas
Requerimientos
- Cómodo con el lenguaje de programación de Java (la mayoría de los ejercicios de programación están en java)
- Cómodo en el ambiente de Linux (ser capaz de navegar por la línea de comandos de Linux, editar archivos utilizando vi / nano)
Entorno de laboratorio
Zero Install: ¡No hay necesidad de instalar el software hadoop en las máquinas de los estudiantes! Se proporcionará un grupo de trabajo hadoop para los estudiantes.
Los estudiantes necesitarán lo siguiente
- Un cliente SSH (Linux y Mac ya tienen clientes ssh, para Windows Putty se recomienda)
- Un explorador para acceder al clúster. Recomendamos el navegador Firefox
Testimonios (4)
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Curso - Impala for Business Intelligence
The VM I liked very much The Teacher was very knowledgeable regarding the topic as well as other topics, he was very nice and friendly I liked the facility in Dubai.
Safar Alqahtani - Elm Information Security
Curso - Big Data Analytics in Health
Liked very much the interactive way of learning.
Luigi Loiacono
Curso - Data Analysis with Hive/HiveQL
I mostly liked the trainer giving real live Examples.