Programa do Curso
Introdução
- Introdução à computação em nuvem e soluções de Big Data
- Visão geral das características e da arquitetura do Apache Hadoop
Configuração Hadoop
- Planear um cluster Hadoop (no local, na nuvem, etc.)
- Seleção do SO e da distribuição Hadoop
- Provisionamento de recursos (hardware, rede, etc.)
- Descarregar e instalar o software
- Dimensionamento do cluster para flexibilidade
Trabalhar com o HDFS
- Compreender o Hadoop Sistema de Ficheiros Distribuídos (HDFS)
- Visão geral da referência de comandos do HDFS
- Acedendo ao HDFS
- Realização de operações básicas de ficheiros no HDFS
- Usando o S3 como um complemento ao HDFS
Visão geral do MapReduce
- Compreender o fluxo de dados na estrutura MapReduce
- Mapear, baralhar, ordenar e reduzir
- Demonstração: Cálculo dos salários mais altos
Trabalhar com YARN
- Compreender a gestão de recursos em Hadoop
- Trabalhar com ResourceManager, NodeManager, Application Master
- Agendamento de trabalhos no YARN
- Agendamento para um grande número de nós e clusters
- Demonstração: Agendamento de trabalhos
Integração de Hadoop com o Spark
- Configurar o armazenamento para o Spark (HDFS, Amazon, S3, NoSQL, etc.)
- Entendendo os conjuntos de dados distribuídos resilientes (RDDs)
- Criando um RDD
- Implementando transformações de RDD
- Demonstração: Implementando um programa de pesquisa de texto para títulos de filmes
Gerir um Hadoop Cluster
- Monitorização Hadoop
- Proteção de um cluster Hadoop
- Adicionar e remover nós
- Executar um benchmark de desempenho
- Ajustar um cluster Hadoop para otimizar o desempenho
- Planeamento de cópia de segurança, recuperação e continuidade do negócio
- Garantir a alta disponibilidade (HA)
Atualização e migração de um Hadoop Cluster
- Avaliação dos requisitos de carga de trabalho
- Atualização Hadoop
- Passar do local para a nuvem e vice-versa
- Recuperação de falhas
Resolução de problemas
Resumo e conclusão
Requisitos
- Experiência em administração de sistemas
- Experiência com Linux linha de comando
- Uma compreensão dos conceitos de big data
Público
- Administradores de sistemas
- DBAs
Declaração de Clientes (5)
Muitos exemplos práticos, diferentes formas de abordar o mesmo problema e, por vezes, truques não tão óbvios para melhorar a solução atual
Rafal - Nordea
Curso - Apache Spark MLlib
Máquina Traduzida
very interactive...
Richard Langford
Curso - SMACK Stack for Data Science
Sufficient hands on, trainer is knowledgable
Chris Tan
Curso - A Practical Introduction to Stream Processing
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Curso - Impala for Business Intelligence
practice tasks