Obrigado por enviar sua consulta! Um dos membros da nossa equipe entrará em contato com você em breve.
Obrigado por enviar sua reserva! Um dos membros da nossa equipe entrará em contato com você em breve.
Programa do Curso
- Introdução
- Hadoop história, conceitos
- Ecossistema
- Distribuições
- Arquitetura de alto nível
- Hadoop mitos
- Hadoop desafios (hardware / software)
- Laboratórios: discuta os seus Big Data projectos e problemas
- Planeamento e instalação
- Seleção de software, Hadoop distribuições
- Dimensionar o cluster, planear o crescimento
- Seleção de hardware e rede
- Topologia de rack
- Instalação
- Multi-tenancy
- Estrutura de diretórios, registos
- Benchmarking
- Laboratórios: instalação do cluster, execução de benchmarks de desempenho
- Operações do HDFS
- Conceitos (escalonamento horizontal, replicação, localidade de dados, reconhecimento de rack)
- Nós e daemons (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
- Monitorização do estado de saúde
- Administração baseada em linha de comando e navegador
- Adição de armazenamento, substituição de unidades defeituosas
- Laboratórios: familiarizar-se com as linhas de comando do HDFS
- Ingestão de dados
- Flume para logs e outros dados de ingestão no HDFS
- Sqoop para importar de bases de dados SQL para o HDFS, bem como exportar de volta para SQL
- Armazenamento de dados Hadoop com Hive
- Cópia de dados entre clusters (distcp)
- Utilização do S3 como complemento do HDFS
- Melhores práticas e arquitecturas de ingestão de dados
- Laboratórios: configuração e utilização do Flume, o mesmo para o Sqoop
- Operações e administração do MapReduce
- Computação paralela antes do mapreduce: comparação entre HPC e administração Hadoop
- Cargas de clusters MapReduce
- Nós e Daemons (JobTracker, TaskTracker)
- Apresentação da IU do MapReduce
- Configuração do Mapreduce
- Configuração de tarefas
- Otimização do MapReduce
- MR à prova de falhas: o que dizer aos seus programadores
- Laboratórios: executando exemplos de MapReduce
- YARN: nova arquitetura e novas capacidades
- Objectivos de conceção e arquitetura de implementação do YARN
- Novos actores: ResourceManager, NodeManager, Application Master
- Instalação do YARN
- Agendamento de tarefas no YARN
- Laboratórios: investigar o agendamento de trabalhos
- Tópicos avançados
- Monitorização de hardware
- Monitorização de clusters
- Adição e remoção de servidores, atualização Hadoop
- Backup, recuperação e planeamento da continuidade do negócio
- Fluxos de trabalho do Oozie
- Hadoop Alta disponibilidade (HA)
- [Federação
- Proteger o cluster com Kerberos
- Laboratórios: configurar a monitorização
- Trilhas opcionais
- Cloudera Manager para administração de clusters, monitorização e tarefas de rotina; instalação, utilização. Nesta faixa, todos os exercícios e laboratórios são realizados no ambiente de distribuição do Cloudera (CDH5)
- Ambari para administração de cluster, monitoramento e tarefas de rotina; instalação, uso. Neste curso, todos os exercícios e laboratórios são realizados no gerenciador de cluster Ambari e na Hortonworks Data Platform (HDP 2.0)
Requisitos
- conhecimentos básicos Linux de administração de sistemas
- competências básicas de scripting
Não são necessários conhecimentos de Hadoop e Computação Distribuída, mas serão introduzidos e explicados durante o curso.
Ambiente de laboratório
Instalação zero: Não há necessidade de instalar o software hadoop nas máquinas dos alunos! Um cluster hadoop funcional será fornecido aos alunos.
Os alunos precisarão do seguinte
- um cliente SSH (Linux e Mac já têm clientes ssh, para Windows recomenda-se Putty)
- um browser para aceder ao cluster. Recomendamos o browser Firefox com a extensão FoxyProxy instalada
21 Horas