Programa del Curso

Sección 1: Introducción a Hadoop

  • Hadoop historia, conceptos
  • Sistema ecológico
  • Distribuciones
  • Arquitectura de alto nivel
  • Mitos hadoop
  • Desafíos de hadoop
  • hardware software
  • Laboratorio: primer vistazo a Hadoop

Sección 2: HDFS

  • Diseño y arquitectura
  • Conceptos (escala horizontal, replicación, localidad de datos, conocimiento de rack)
  • Daemons: Namenode, Namenode secundario, Nodo de datos
  • Comunicaciones / latidos del corazón
  • integridad de los datos
  • Ruta de lectura / escritura
  • Namenode High Availability (HA), Federación
  • Laboratorios: interacción con HDFS

Sección 3: Mapa Reducir

  • Conceptos y arquitectura
  • Daemons (MRV1): jobtracker / tasktracker
  • Fases: driver, mapper, shuffle / sort, reductor
  • Mapa Reduzca Versión 1 y Versión 2 (YARN)
  • Internos del Mapa Reducir
  • Introducción a Java Map Reduce el programa
  • Laboratorios: Ejecutar un programa MapReduce de ejemplo

Sección 4: Cerdo

  • Cerdo vs java mapa reducir
  • Flujo de trabajo porcino
  • Lengua latina del cerdo
  • ETL con cerdo
  • Transformations & Joins
  • Funciones definidas por el usuario (UDF)
  • Laboratorios: escribir scripts Pig para analizar datos

Sección 5: Colmena

  • Arquitectura y diseño
  • tipos de datos
  • Soporte SQL en Hive
  • Creación de tablas Hive y consultas
  • Particiones
  • Se une
  • Procesamiento de texto
  • Laboratorios: varios laboratorios sobre procesamiento de datos con Hive

Sección 6: HBase

  • Conceptos y arquitectura
  • Hbase vs RDBMS vs cassandra
  • API de Java de HBase
  • Datos de series temporales de HBase
  • Diseño del esquema
  • Labs: Interacción con HBase usando shell; Programación en HBase Java API; Ejercicio de diseño de esquemas

Requerimientos

  • Cómodo con el lenguaje de programación de Java (la mayoría de los ejercicios de programación están en java)
  • Cómodo en el ambiente de Linux (ser capaz de navegar por la línea de comandos de Linux, editar archivos utilizando vi / nano)

Entorno de laboratorio

Zero Install: ¡No hay necesidad de instalar el software hadoop en las máquinas de los estudiantes! Se proporcionará un grupo de trabajo hadoop para los estudiantes.

Los estudiantes necesitarán lo siguiente

  • Un cliente SSH (Linux y Mac ya tienen clientes ssh, para Windows Putty se recomienda)
  • Un explorador para acceder al clúster. Recomendamos el navegador Firefox
 28 Horas

Número de participantes


Precio por Participante​

Testimonios (4)

Próximos cursos

Categorías Relacionadas