Cursos de Talend Big Data Integration
Talend Open Studio for Big Data é uma ferramenta ETL de código aberto para o processamento de dados grandes. Inclui um ambiente de desenvolvimento para interagir com Big Data fontes e objetivos, e executar trabalhos sem ter que escrever código.
Este treinamento guiado por instrutores, ao vivo (online ou on-site) é dirigido a pessoas técnicas que desejam implantar Talend Open Studio para Big Data para simplificar o processo de leitura e crunching através Big Data.
No final do curso, os participantes poderão:
- Instale e configure Talend Open Studio para Big Data.
- Conecte-se com sistemas Big Data como Cloudera, HortonWorks, MapR, Amazon EMR e Apache.
- Entender e configurar os grandes componentes de dados e conectores do Open Studio.
- Configure parâmetros para gerar automaticamente o código MapReduce.
- Use a interface do Open Studio's drag-and-drop para executar trabalhos.
- Protótipos de grandes tubos de dados.
- Projetos de integração automática de big data.
O formato do curso
- Interação e discussão interativa.
- Muitos exercícios e práticas.
- Implementação de mão em um ambiente de laboratório ao vivo.
Opções de Customização
- Para solicitar uma formação personalizada para este curso, por favor contacte-nos para organizar.
Programa do Curso
Introdução
Visão geral do "Open Studio para Big Data" Características e arquitetura
Configurar o Open Studio para Big Data
Navegar na IU
Compreensão de Big Data Componentes e conectores
Ligação a um Hadoop Cluster
Ler e escrever dados
Processamento de dados com Hive e MapReduce
Analisar os resultados
Melhorar a qualidade de Big Data
Construir um pipeline Big Data
Gerir utilizadores, grupos, funções e projectos
Implantando o Open Studio na produção
Monitorização do Open Studio
Resolução de problemas
Resumo e conclusão
Requisitos
- Compreensão das bases de dados relacionais
- Compreensão de armazenamento de dados
- Compreensão dos conceitos de ETL (Extract, Transform, Load)
Público
- Profissionais de business intelligence
- Profissionais de bases de dados
- SQL Programadores
- Desenvolvedores de ETL
- Arquitectos de soluções
- Arquitectos de dados
- Profissionais de armazenamento de dados
- Administradores de sistemas e integradores
Os cursos de treinamento abertos exigem mais de 5 participantes.
Cursos de Talend Big Data Integration - Booking
Cursos de Talend Big Data Integration - Enquiry
Talend Big Data Integration - Solicitação de Consultoria
Solicitação de Consultoria
Declaração de Clientes (5)
Muitos exemplos práticos, diferentes formas de abordar o mesmo problema e, por vezes, truques não tão óbvios para melhorar a solução atual
Rafal - Nordea
Curso - Apache Spark MLlib
Máquina Traduzida
how the trainor shows his knowledge in the subject he's teachign
john ernesto ii fernandez - Philippine AXA Life Insurance Corporation
Curso - Data Vault: Building a Scalable Data Warehouse
During the exercises, James explained me every step whereever I was getting stuck in more detail. I was completely new to NIFI. He explained the actual purpose of NIFI, even the basics such as open source. He covered every concept of Nifi starting from Beginner Level to Developer Level.
Firdous Hashim Ali - MOD A BLOCK
Curso - Apache NiFi for Administrators
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Curso - Impala for Business Intelligence
That I had it in the first place.
Peter Scales - CACI Ltd
Curso - Apache NiFi for Developers
Próximas Formações Provisórias
Cursos Relacionados
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 HorasEste curso destina-se a programadores e cientistas de dados que pretendam compreender e implementar a IA nas suas aplicações. É dada especial atenção à análise de dados, à IA distribuída e ao processamento de linguagem natural.
Unified Batch and Stream Processing with Apache Beam
14 HorasApache Beam é um modelo de programação unificado e de código aberto para definir e executar pipelines de processamento de dados paralelos. O seu poder reside na sua capacidade de executar pipelines em lote e em fluxo contínuo, sendo a execução efectuada por um dos back-ends de processamento distribuído suportados pelo Beam: Apache Apex, Apache Flink, Apache Spark e Google Cloud Dataflow. A solução Apache Beam é útil para tarefas de ETL (Extrair, Transformar e Carregar), como mover dados entre diferentes mídias de armazenamento e fontes de dados, transformar dados em um formato mais desejável e carregar dados em um novo sistema.
Neste treinamento ao vivo conduzido por instrutor (no local ou remoto), os participantes aprenderão como implementar os SDKs Apache Beam em um aplicativo Java ou Python que define um pipeline de processamento de dados para decompor um grande conjunto de dados em pedaços menores para processamento paralelo e independente.
Ao final deste treinamento, os participantes serão capazes de:
- Instalar e configurar Apache Beam.
- Utilizar um único modelo de programação para efetuar o processamento em lote e em fluxo a partir da sua aplicação Java ou Python.
- Executar pipelines em vários ambientes.
Formato do curso
- Parte palestra, parte discussão, exercícios e muita prática
Nota
- Este curso estará disponível Scala no futuro. Por favor, contacte-nos para organizar.
Data Vault: Building a Scalable Data Warehouse
28 HorasNeste treinamento ao vivo conduzido por instrutor em Brasil, os participantes aprenderão como construir um Data Vault.
Ao final deste treinamento, os participantes serão capazes de:
- Entenda os conceitos de arquitetura e design por trás do Data Vault 2.0 e sua interação com Big Data, NoSQL e AI.
- Use técnicas de abóbada de dados para permitir a auditoria, o rastreamento e a inspeção de dados históricos em um data warehouse.
- Desenvolver um processo ETL (Extrair, Transformar, Carregar) consistente e repetível.
- Criar e implementar armazéns altamente escaláveis e repetíveis.
Apache Flink Fundamentals
28 HorasEste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto) apresenta os princípios e abordagens por trás do fluxo distribuído e do processamento de dados em lote, e orienta os participantes na criação de um aplicativo de streaming de dados em tempo real em Apache Flink.
No final deste treinamento, os participantes serão capazes de:
- Configurar um ambiente para o desenvolvimento de aplicativos de análise de dados.
- Entender como funciona a biblioteca de processamento de gráficos do Apache Flink (Gelly).
- Empacotar, executar e monitorar aplicativos de streaming de dados baseados em Flink, tolerantes a falhas.
- Gerenciar diversas cargas de trabalho.
- Realizar análises avançadas.
- Configurar um cluster Flink de vários nós.
- Medir e otimizar o desempenho.
- Integrar o Flink com diferentes sistemas Big Data.
- Comparar os recursos do Flink com os de outros frameworks de processamento de big data.
Introduction to Graph Computing
28 HorasNeste treinamento ao vivo conduzido por instrutor em Brasil, os participantes aprenderão sobre as ofertas de tecnologia e abordagens de implementação para o processamento de dados gráficos. O objetivo é identificar objetos do mundo real, suas caraterísticas e relacionamentos, depois modelar esses relacionamentos e processá-los como dados usando uma abordagem Graph Computing (também conhecida como Graph Analytics). Começamos com uma visão geral e nos concentramos em ferramentas específicas à medida que avançamos em uma série de estudos de caso, exercícios práticos e implantações ao vivo.
No final deste treinamento, os participantes serão capazes de:
- Entender como os dados do gráfico são persistidos e percorridos.
- Selecionar a melhor estrutura para uma determinada tarefa (de bancos de dados de gráficos a estruturas de processamento em lote).
- Implementar Hadoop, Spark, GraphX e Pregel para realizar a computação de gráficos em muitas máquinas em paralelo.
- Ver problemas reais de grandes volumes de dados em termos de grafos, processos e travessias.
Hortonworks Data Platform (HDP) for Administrators
21 HorasEste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto) apresenta Hortonworks Data Platform (HDP) e orienta os participantes na implantação da solução Spark + Hadoop.
Ao final deste treinamento, os participantes serão capazes de:
- Usar o Hortonworks para executar Hadoop de forma confiável em grande escala.
- Unificar os recursos de segurança, governança e operações do Hadoop com os fluxos de trabalho analíticos ágeis do Spark.
- Use a Hortonworks para investigar, validar, certificar e dar suporte a cada um dos componentes de um projeto Spark.
- Processar diferentes tipos de dados, incluindo dados estruturados, não estruturados, em movimento e em repouso.
Curso Análise de dados Hive/HiveQL
7 HorasEste curso cobre o básico sobre como utilizar a linguagem Hive SQL, para todas aquelas pessoas que querem extraír dados do Hive. O objetivo deste curso é proporcionar todas as ferramentas necessárias para que os participantes possam analizar os dados de forma clara e precisa.
Impala e a Inteligencia de Negócios
21 HorasO Cloudera Impala é um query engine SQL MPP de código aberto feito para clusters Apache Hadoop.
Ele permite aos usuarios a abertura de queries SQL de latencia baixa para todos os dados guardados no Hadoop Distributed File System e Apache Hbase sem requerir movimento de dados ou transformacao.
Este curso vai dirigido a analistas de sistemas e cientístas de dados.
Confluent KSQL
7 HorasEste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto) é destinado a desenvolvedores que desejam implementar o processamento de fluxo Apache Kafka sem escrever código.
No final deste treinamento, os participantes serão capazes de:
- Instalar e configurar o Confluent KSQL.
- Configurar um pipeline de processamento de fluxo usando apenas comandos SQL (sem codificação Java ou Python).
- Realizar filtragem de dados, transformações, agregações, junções, janelamento e sessionização inteiramente em SQL.
- Conceber e implementar consultas interactivas e contínuas para ETL de fluxo contínuo e análise em tempo real.
Apache NiFi for Administrators
21 HorasNeste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto), os participantes aprenderão como implantar e gerenciar Apache NiFi em um ambiente de laboratório ao vivo.
No final deste treinamento, os participantes serão capazes de:
- Instalar e configurar o Apachi NiFi.
- Fonte, transformar e gerenciar dados de fontes de dados díspares e distribuídas, incluindo bancos de dados e grandes lagos de dados.
- Automatizar fluxos de dados.
- Habilitar a análise de streaming.
- Aplicar várias abordagens para a ingestão de dados.
- Transformar Big Data em informações comerciais.
Apache NiFi for Developers
7 HorasNeste treinamento ao vivo conduzido por instrutor em Brasil, os participantes aprenderão os fundamentos da programação baseada em fluxo à medida que desenvolvem uma série de extensões de demonstração, componentes e processadores usando Apache NiFi.
No final deste treinamento, os participantes serão capazes de:
- Compreender a arquitetura do NiFi e os conceitos de fluxo de dados.
- Desenvolver extensões usando NiFi e APIs de terceiros.
- Desenvolver seu próprio processador Apache Nifi.
- Ingerir e processar dados em tempo real de formatos de arquivos e fontes de dados diferentes e incomuns.
Python e Spark para Big Data (PySpark)
21 HorasNeste treinamento ao vivo conduzido por instrutor em Brasil, os participantes aprenderão como usar Python e Spark juntos para analisar big data enquanto trabalham em exercícios práticos.
Ao final deste treinamento, os participantes serão capazes de:
- Aprenda a usar o Spark com Python para analisar Big Data.
- Trabalhe em exercícios que imitam casos do mundo real.
- Use diferentes ferramentas e técnicas para análise de big data usando PySpark.
Spark Streaming with Python and Kafka
7 HorasEste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto) é destinado a engenheiros de dados, cientistas de dados e programadores que desejam usar os recursos Spark Streaming no processamento e análise de dados em tempo real.
No final deste treinamento, os participantes poderão usar Spark Streaming para processar fluxos de dados ao vivo para uso em bancos de dados, sistemas de arquivos e painéis ao vivo.
Apache Spark MLlib
35 HorasO MLlib é a biblioteca de aprendizado de máquina (ML) do Spark. Seu objetivo é tornar prático o aprendizado de máquina escalável e fácil. Ele consiste em algoritmos e utilitários de aprendizado comuns, incluindo classificação, regressão, agrupamento, filtragem colaborativa, redução de dimensionalidade, além de primitivas de otimização de nível inferior e APIs de pipeline de nível superior.
Divide-se em dois pacotes:
O spark.mllib contém a API original construída sobre os RDDs.
O spark.ml fornece uma API de alto nível, construída sobre os DataFrames, para a construção de pipelines de ML.
Público
Este curso é direcionado a engenheiros e desenvolvedores que desejam utilizar uma biblioteca de máquinas integrada para o Apache Spark