Cursos de Apache Spark Fundamentals
Apache Spark é um motor de análise projetado para distribuir dados através de um cluster para processá-lo em paralelo. Contém módulos para streaming, SQL, aprendizagem de máquina e processamento de gráficos.
Este instrutor-led, treinamento ao vivo (online ou on-site) é dirigido a engenheiros que desejam implementar Apache Spark sistema para processar grandes quantidades de dados.
No final do curso, os participantes poderão:
- Instalar e configurar Apache Spark.
- Conheça a diferença entre Apache Spark e Hadoop MapReduce e quando usar qual.
- Leia rapidamente eme analise conjuntos de dados muito grandes.
- Integrar Apache Spark com outras ferramentas de aprendizagem de máquina.
O formato do curso
- Interação e discussão interativa.
- Muitos exercícios e práticas.
- Implementação de mão em um ambiente de laboratório ao vivo.
Opções de Customização
- Para solicitar uma formação personalizada para este curso, por favor contacte-nos para organizar.
Programa do Curso
Introdução
- Apache Spark vs Hadoop MapReduce
Descrição geral das características e da arquitetura do Apache Spark
Seleção de uma Programming língua
Configuração Apache Spark
Criar uma aplicação de amostra
Seleção do conjunto de dados
Executar Data Analysis nos dados
Processamento de dados estruturados com o Spark SQL
Processamento de dados em fluxo contínuo com Spark Streaming
Integração do Apache Spark com ferramentas da 3ª parte Machine Learning
Utilização de Apache Spark para processamento de gráficos
Otimização Apache Spark
Resolução de problemas
Resumo e conclusão
Requisitos
- Experiência com a linha de comandos do Linux
- Compreensão geral de processamento de dados
- Experiência de programação com Java, Scala, Python ou R
Público
- Desenvolvedores
Os cursos de treinamento abertos exigem mais de 5 participantes.
Cursos de Apache Spark Fundamentals - Booking
Cursos de Apache Spark Fundamentals - Enquiry
Apache Spark Fundamentals - Solicitação de Consultoria
Solicitação de Consultoria
Declaração de Clientes (5)
Muitos exemplos práticos, diferentes formas de abordar o mesmo problema e, por vezes, truques não tão óbvios para melhorar a solução atual
Rafal - Nordea
Curso - Apache Spark MLlib
Máquina Traduzida
very interactive...
Richard Langford
Curso - SMACK Stack for Data Science
Sufficient hands on, trainer is knowledgable
Chris Tan
Curso - A Practical Introduction to Stream Processing
Get to learn spark streaming , databricks and aws redshift
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
Curso - Apache Spark in the Cloud
practice tasks
Pawel Kozikowski - GE Medical Systems Polska Sp. Zoo
Curso - Python and Spark for Big Data (PySpark)
Próximas Formações Provisórias
Cursos Relacionados
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 HorasEste curso destina-se a programadores e cientistas de dados que pretendam compreender e implementar a IA nas suas aplicações. É dada especial atenção à análise de dados, à IA distribuída e ao processamento de linguagem natural.
Big Data Analytics with Google Colab and Apache Spark
14 HorasEste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto) é destinado a cientistas e engenheiros de dados de nível intermediário que desejam usar Go ogle Colab e Apache Spark para processamento e análise de big data.
No final deste treinamento, os participantes serão capazes de:
- Configurar um ambiente de big data usando Google Colab e Spark.
- Processar e analisar grandes conjuntos de dados de forma eficiente com Apache Spark.
- Visualize big data em um ambiente colaborativo.
- Integrar Apache Spark com ferramentas baseadas em nuvem.
Big Data Analytics in Health
21 HorasA análise de big data envolve o processo de examinar grandes quantidades de conjuntos de dados variados para descobrir correlações, padrões ocultos e outras informações úteis.
A indústria da saúde tem enormes quantidades de dados médicos e clínicos heterogêneos complexos. A aplicação de análise de big data em dados de saúde apresenta um enorme potencial para obter insights para melhorar a prestação de serviços de saúde. No entanto, a enormidade desses conjuntos de dados apresenta grandes desafios em análises e aplicações práticas para um ambiente clínico.
Neste treinamento ao vivo conduzido por instrutor (remoto), os participantes aprenderão como executar a análise de big data na área da saúde enquanto realizam uma série de exercícios práticos de laboratório ao vivo.
No final deste treinamento, os participantes serão capazes de:
- Instalar e configurar ferramentas de análise de big data, como o Hadoop MapReduce e o Spark
- Entenda as características dos dados médicos
- Aplicar técnicas de big data para lidar com dados médicos
- Estudar grandes sistemas de dados e algoritmos no contexto de aplicações de saúde
Público
- Desenvolvedores
- Cientistas de dados
Formato do Curso
- Palestra parte, parte discussão, exercícios e prática hands-on pesado.
Nota
- Para solicitar um treinamento personalizado para este curso, entre em contato conosco para agendar.
Introduction to Graph Computing
28 HorasNeste treinamento ao vivo conduzido por instrutor em Brasil, os participantes aprenderão sobre as ofertas de tecnologia e abordagens de implementação para o processamento de dados gráficos. O objetivo é identificar objetos do mundo real, suas caraterísticas e relacionamentos, depois modelar esses relacionamentos e processá-los como dados usando uma abordagem Graph Computing (também conhecida como Graph Analytics). Começamos com uma visão geral e nos concentramos em ferramentas específicas à medida que avançamos em uma série de estudos de caso, exercícios práticos e implantações ao vivo.
No final deste treinamento, os participantes serão capazes de:
- Entender como os dados do gráfico são persistidos e percorridos.
- Selecionar a melhor estrutura para uma determinada tarefa (de bancos de dados de gráficos a estruturas de processamento em lote).
- Implementar Hadoop, Spark, GraphX e Pregel para realizar a computação de gráficos em muitas máquinas em paralelo.
- Ver problemas reais de grandes volumes de dados em termos de grafos, processos e travessias.
Hadoop and Spark for Administrators
35 HorasEste treinamento ao vivo conduzido por instrutor em Brasil (online ou no local) é destinado a administradores de sistema que desejam aprender como configurar, implantar e gerenciar clusters Hadoop em sua organização.
No final desta formação, os participantes serão capazes de
- Instalar e configurar o Apache Hadoop.
- Compreender os quatro principais componentes do ecossistema Hadoop: HDFS, MapReduce, YARN e Hadoop Common.
- Usar o HDFS (Hadoop Distributed File System) para dimensionar um cluster para centenas ou milhares de nós.
- Configurar o HDFS para operar como mecanismo de armazenamento para implantações do Spark no local.
- Configurar o Spark para acessar soluções de armazenamento alternativas, como Amazon S3 e sistemas de banco de dados NoSQL, como Redis, Elasticsearch, Couchbase, Aerospike, etc.
- Realizar tarefas administrativas, como provisionamento, gerenciamento, monitoramento e segurança de um cluster Apache Hadoop.
Hortonworks Data Platform (HDP) for Administrators
21 HorasEste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto) apresenta Hortonworks Data Platform (HDP) e orienta os participantes na implantação da solução Spark + Hadoop.
Ao final deste treinamento, os participantes serão capazes de:
- Usar o Hortonworks para executar Hadoop de forma confiável em grande escala.
- Unificar os recursos de segurança, governança e operações do Hadoop com os fluxos de trabalho analíticos ágeis do Spark.
- Use a Hortonworks para investigar, validar, certificar e dar suporte a cada um dos componentes de um projeto Spark.
- Processar diferentes tipos de dados, incluindo dados estruturados, não estruturados, em movimento e em repouso.
A Practical Introduction to Stream Processing
21 HorasNeste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto), os participantes aprenderão como configurar e integrar diferentes estruturas Stream Processing com sistemas de armazenamento de big data existentes e aplicativos de software relacionados e microsserviços.
No final desta formação, os participantes serão capazes de
- Instalar e configurar diferentes Stream Processing frameworks, como Spark Streaming e Kafka Streaming.
- Compreender e selecionar a estrutura mais apropriada para o trabalho.
- Processar dados de forma contínua, simultânea e de forma registo a registo.
- Integrar Stream Processing soluções com bancos de dados existentes, data warehouses, data lakes, etc.
- Integrar a biblioteca de processamento de fluxo mais adequada com aplicativos corporativos e microsserviços.
SMACK Stack for Data Science
14 HorasEste treinamento ao vivo conduzido por instrutor em Brasil (online ou no local) é destinado a cientistas de dados que desejam usar a pilha SMACK para construir plataformas de processamento de dados para soluções de big data.
No final desta formação, os participantes serão capazes de
- Implementar uma arquitetura de pipeline de dados para processar big data.
- Desenvolver uma infraestrutura de cluster com Apache Mesos e Docker.
- Analisar dados com Spark e Scala.
- Gerenciar dados não estruturados com o Apache Cassandra.
Administration of Apache Spark
35 HorasEste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto) é destinado a administradores de sistema de nível iniciante a intermediário que desejam implantar, manter e otimizar clusters Spark.
Ao final deste treinamento, os participantes serão capazes de:
- Instalar e configurar Apache Spark em vários ambientes.
- Gerenciar recursos de cluster e monitorar aplicativos Spark.
- Otimizar o desempenho dos clusters do Spark.
- Implementar medidas de segurança e garantir alta disponibilidade.
- Depurar e solucionar problemas comuns do Spark.
Apache Spark in the Cloud
21 HorasA curva de aprendizado do Apache Spark está aumentando lentamente no início, e é preciso muito esforço para obter o primeiro retorno. Este curso tem como objetivo pular a primeira parte difícil. Depois de fazer este curso, os participantes entenderão o básico do Apache Spark , diferenciarão claramente o RDD do DataFrame, aprenderão as APIs Python e Scala , entenderão os executores e as tarefas, etc. implantação na nuvem, Databricks e AWS. Os alunos também entenderão as diferenças entre o AWS EMR e o AWS Glue, um dos últimos serviços Spark da AWS.
PÚBLICO:
Engenheiro de dados, DevOps , cientista de dados
Spark para Developers
21 HorasOBJETIVO:
Este curso apresentará o Apache Spark . Os alunos aprenderão como o Spark se encaixa no ecossistema de Big Data e como usar o Spark para análise de dados. O curso abrange o shell Shell para análise interativa de dados, internos do Spark, APIs do Spark, Spark SQL , streaming do Spark e aprendizado de máquina e graphX.
PÚBLICO :
Desenvolvedores / analistas de dados
Scaling Data Pipelines with Spark NLP
14 HorasEste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto) é destinado a cientistas de dados e desenvolvedores que desejam usar Spark NLP, construído em cima de Apache Spark, para desenvolver, implementar e dimensionar modelos e pipelines de processamento de texto em linguagem natural.
No final deste treinamento, os participantes serão capazes de:
- Configurar o ambiente de desenvolvimento necessário para começar a construir pipelines de PNL com Spark NLP.
- Compreender os recursos, a arquitetura e os benefícios do uso de Spark NLP.
- Utilizar os modelos pré-treinados disponíveis em Spark NLP para implementar o processamento de texto.
- Aprender a construir, treinar e escalar modelos de Spark NLP para projectos de nível de produção.
- Aplicar classificação, inferência e análise de sentimentos em casos de uso real (dados clínicos, insights sobre o comportamento do cliente, etc.).
Python e Spark para Big Data (PySpark)
21 HorasNeste treinamento ao vivo conduzido por instrutor em Brasil, os participantes aprenderão como usar Python e Spark juntos para analisar big data enquanto trabalham em exercícios práticos.
Ao final deste treinamento, os participantes serão capazes de:
- Aprenda a usar o Spark com Python para analisar Big Data.
- Trabalhe em exercícios que imitam casos do mundo real.
- Use diferentes ferramentas e técnicas para análise de big data usando PySpark.
Apache Spark MLlib
35 HorasO MLlib é a biblioteca de aprendizado de máquina (ML) do Spark. Seu objetivo é tornar prático o aprendizado de máquina escalável e fácil. Ele consiste em algoritmos e utilitários de aprendizado comuns, incluindo classificação, regressão, agrupamento, filtragem colaborativa, redução de dimensionalidade, além de primitivas de otimização de nível inferior e APIs de pipeline de nível superior.
Divide-se em dois pacotes:
O spark.mllib contém a API original construída sobre os RDDs.
O spark.ml fornece uma API de alto nível, construída sobre os DataFrames, para a construção de pipelines de ML.
Público
Este curso é direcionado a engenheiros e desenvolvedores que desejam utilizar uma biblioteca de máquinas integrada para o Apache Spark