Programa do Curso

Introdução:

  • Apache Spark em Hadoop Ecossistema
  • Breve introdução para python, scala

Noções básicas (teoria):

  • Arquitetura
  • RDD
  • Transformação e Ações
  • Estágio, Tarefa, Dependências

Usando o ambiente Databricks, entenda o básico (workshop prático):

  • Exercícios usando API RDD
  • Funções básicas de ação e transformação
  • ParRDD
  • Juntar
  • Estratégias de cache
  • Exercícios usando API DataFrame
  • FaíscaSQL
  • DataFrame: selecionar, filtrar, agrupar, classificar
  • UDF (função definida pelo usuário)
  • Olhando para a API DataSet
  • Transmissão

Usando o ambiente AWS, entenda a implantação (workshop prático):

  • Noções básicas do AWS Glue
  • Entenda as diferenças entre AWS EMR e AWS Glue
  • Trabalhos de exemplo em ambos os ambientes
  • Entenda prós e contras

Extra:

  • Introdução à Apache Airflow orquestração

Requisitos

Conhecimentos de programação (de preferência python, scala)

SQL noções básicas

 21 Horas

Número de participantes


Preço por Participante

Declaração de Clientes (3)

Próximas Formações Provisórias

Categorias Relacionadas