Programa do Curso

Secção 1: Data Management no HDFS

  • Vários formatos de dados (JSON / Avro / Parquet)
  • Esquemas de compressão
  • Mascaramento de dados
  • Laboratórios: Analisando diferentes formatos de dados; permitindo a compressão

Secção 2: Pig avançado

  • Funções definidas pelo utilizador
  • Introdução às bibliotecas Pig (ElephantBird / Data-Fu)
  • Carregando dados estruturados complexos usando Pig
  • Ajuste do Pig
  • Laboratórios: scripting pig avançado, análise de tipos de dados complexos

Secção 3 : Avançado Hive

  • Funções definidas pelo utilizador
  • Tabelas comprimidas
  • Hive Ajuste de desempenho
  • Laboratórios: criando tabelas comprimidas, avaliando formatos de tabela e configuração

Secção 4 : HBase avançado

  • Modelagem avançada de esquemas
  • Compressão
  • Ingestão de dados em massa
  • Comparação entre tabela ampla e tabela alta
  • HBase e Pig
  • HBase e Hive
  • Ajuste de desempenho do HBase
  • Laboratórios: afinação do HBase; acesso aos dados do HBase a partir do Pig & Hive; utilização do Phoenix para modelação de dados

Requisitos

  • à vontade com Java linguagem de programação (a maior parte dos exercícios de programação são em java)
  • facilidade de utilização do ambiente Linux (ser capaz de navegar na linha de comandos Linux, editar ficheiros usando vi / nano)
  • um conhecimento prático de Hadoop.

Ambiente de laboratório

Instalação zero: Não há necessidade de instalar o software hadoop nas máquinas dos alunos! Um cluster hadoop funcional será fornecido aos alunos.

Os alunos precisarão do seguinte

  • um cliente SSH (Linux e Mac já têm clientes ssh, para Windows recomenda-se Putty )
  • um browser para aceder ao cluster. Recomendamos o browser Firefox
 21 Horas

Número de participantes


Preço por Participante

Declaração de Clientes (5)

Próximas Formações Provisórias

Categorias Relacionadas