Cursos de Apache Spark in the Cloud
A curva de aprendizado do Apache Spark está aumentando lentamente no início, e é preciso muito esforço para obter o primeiro retorno. Este curso tem como objetivo pular a primeira parte difícil. Depois de fazer este curso, os participantes entenderão o básico do Apache Spark , diferenciarão claramente o RDD do DataFrame, aprenderão as APIs Python e Scala , entenderão os executores e as tarefas, etc. implantação na nuvem, Databricks e AWS. Os alunos também entenderão as diferenças entre o AWS EMR e o AWS Glue, um dos últimos serviços Spark da AWS.
PÚBLICO:
Engenheiro de dados, DevOps , cientista de dados
Programa do Curso
Introdução:
- Apache Spark em Hadoop Ecossistema
- Breve introdução para python, scala
Noções básicas (teoria):
- Arquitetura
- RDD
- Transformação e Ações
- Estágio, Tarefa, Dependências
Usando o ambiente Databricks, entenda o básico (workshop prático):
- Exercícios usando API RDD
- Funções básicas de ação e transformação
- ParRDD
- Juntar
- Estratégias de cache
- Exercícios usando API DataFrame
- FaíscaSQL
- DataFrame: selecionar, filtrar, agrupar, classificar
- UDF (função definida pelo usuário)
- Olhando para a API DataSet
- Transmissão
Usando o ambiente AWS, entenda a implantação (workshop prático):
- Noções básicas do AWS Glue
- Entenda as diferenças entre AWS EMR e AWS Glue
- Trabalhos de exemplo em ambos os ambientes
- Entenda prós e contras
Extra:
- Introdução à Apache Airflow orquestração
Requisitos
Conhecimentos de programação (de preferência python, scala)
SQL noções básicas
Os cursos de treinamento abertos exigem mais de 5 participantes.
Cursos de Apache Spark in the Cloud - Booking
Cursos de Apache Spark in the Cloud - Enquiry
Apache Spark in the Cloud - Solicitação de Consultoria
Solicitação de Consultoria
Declaração de Clientes (3)
Having hands on session / assignments
Poornima Chenthamarakshan - Intelligent Medical Objects
Curso - Apache Spark in the Cloud
1. Right balance between high level concepts and technical details. 2. Andras is very knowledgeable about his teaching. 3. Exercise
Steven Wu - Intelligent Medical Objects
Curso - Apache Spark in the Cloud
Get to learn spark streaming , databricks and aws redshift
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
Curso - Apache Spark in the Cloud
Próximas Formações Provisórias
Cursos Relacionados
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 HorasEste curso destina-se a programadores e cientistas de dados que pretendam compreender e implementar a IA nas suas aplicações. É dada especial atenção à análise de dados, à IA distribuída e ao processamento de linguagem natural.
Big Data Analytics with Google Colab and Apache Spark
14 HorasEste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto) é destinado a cientistas e engenheiros de dados de nível intermediário que desejam usar Go ogle Colab e Apache Spark para processamento e análise de big data.
No final deste treinamento, os participantes serão capazes de:
- Configurar um ambiente de big data usando Google Colab e Spark.
- Processar e analisar grandes conjuntos de dados de forma eficiente com Apache Spark.
- Visualize big data em um ambiente colaborativo.
- Integrar Apache Spark com ferramentas baseadas em nuvem.
Big Data Analytics in Health
21 HorasA análise de big data envolve o processo de examinar grandes quantidades de conjuntos de dados variados para descobrir correlações, padrões ocultos e outras informações úteis.
A indústria da saúde tem enormes quantidades de dados médicos e clínicos heterogêneos complexos. A aplicação de análise de big data em dados de saúde apresenta um enorme potencial para obter insights para melhorar a prestação de serviços de saúde. No entanto, a enormidade desses conjuntos de dados apresenta grandes desafios em análises e aplicações práticas para um ambiente clínico.
Neste treinamento ao vivo conduzido por instrutor (remoto), os participantes aprenderão como executar a análise de big data na área da saúde enquanto realizam uma série de exercícios práticos de laboratório ao vivo.
No final deste treinamento, os participantes serão capazes de:
- Instalar e configurar ferramentas de análise de big data, como o Hadoop MapReduce e o Spark
- Entenda as características dos dados médicos
- Aplicar técnicas de big data para lidar com dados médicos
- Estudar grandes sistemas de dados e algoritmos no contexto de aplicações de saúde
Público
- Desenvolvedores
- Cientistas de dados
Formato do Curso
- Palestra parte, parte discussão, exercícios e prática hands-on pesado.
Nota
- Para solicitar um treinamento personalizado para este curso, entre em contato conosco para agendar.
Introduction to Graph Computing
28 HorasNeste treinamento ao vivo conduzido por instrutor em Brasil, os participantes aprenderão sobre as ofertas de tecnologia e abordagens de implementação para o processamento de dados gráficos. O objetivo é identificar objetos do mundo real, suas caraterísticas e relacionamentos, depois modelar esses relacionamentos e processá-los como dados usando uma abordagem Graph Computing (também conhecida como Graph Analytics). Começamos com uma visão geral e nos concentramos em ferramentas específicas à medida que avançamos em uma série de estudos de caso, exercícios práticos e implantações ao vivo.
No final deste treinamento, os participantes serão capazes de:
- Entender como os dados do gráfico são persistidos e percorridos.
- Selecionar a melhor estrutura para uma determinada tarefa (de bancos de dados de gráficos a estruturas de processamento em lote).
- Implementar Hadoop, Spark, GraphX e Pregel para realizar a computação de gráficos em muitas máquinas em paralelo.
- Ver problemas reais de grandes volumes de dados em termos de grafos, processos e travessias.
Hadoop and Spark for Administrators
35 HorasEste treinamento ao vivo conduzido por instrutor em Brasil (online ou no local) é destinado a administradores de sistema que desejam aprender como configurar, implantar e gerenciar clusters Hadoop em sua organização.
No final desta formação, os participantes serão capazes de
- Instalar e configurar o Apache Hadoop.
- Compreender os quatro principais componentes do ecossistema Hadoop: HDFS, MapReduce, YARN e Hadoop Common.
- Usar o HDFS (Hadoop Distributed File System) para dimensionar um cluster para centenas ou milhares de nós.
- Configurar o HDFS para operar como mecanismo de armazenamento para implantações do Spark no local.
- Configurar o Spark para acessar soluções de armazenamento alternativas, como Amazon S3 e sistemas de banco de dados NoSQL, como Redis, Elasticsearch, Couchbase, Aerospike, etc.
- Realizar tarefas administrativas, como provisionamento, gerenciamento, monitoramento e segurança de um cluster Apache Hadoop.
Hortonworks Data Platform (HDP) for Administrators
21 HorasEste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto) apresenta Hortonworks Data Platform (HDP) e orienta os participantes na implantação da solução Spark + Hadoop.
Ao final deste treinamento, os participantes serão capazes de:
- Usar o Hortonworks para executar Hadoop de forma confiável em grande escala.
- Unificar os recursos de segurança, governança e operações do Hadoop com os fluxos de trabalho analíticos ágeis do Spark.
- Use a Hortonworks para investigar, validar, certificar e dar suporte a cada um dos componentes de um projeto Spark.
- Processar diferentes tipos de dados, incluindo dados estruturados, não estruturados, em movimento e em repouso.
A Practical Introduction to Stream Processing
21 HorasNeste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto), os participantes aprenderão como configurar e integrar diferentes estruturas Stream Processing com sistemas de armazenamento de big data existentes e aplicativos de software relacionados e microsserviços.
No final desta formação, os participantes serão capazes de
- Instalar e configurar diferentes Stream Processing frameworks, como Spark Streaming e Kafka Streaming.
- Compreender e selecionar a estrutura mais apropriada para o trabalho.
- Processar dados de forma contínua, simultânea e de forma registo a registo.
- Integrar Stream Processing soluções com bancos de dados existentes, data warehouses, data lakes, etc.
- Integrar a biblioteca de processamento de fluxo mais adequada com aplicativos corporativos e microsserviços.
SMACK Stack for Data Science
14 HorasEste treinamento ao vivo conduzido por instrutor em Brasil (online ou no local) é destinado a cientistas de dados que desejam usar a pilha SMACK para construir plataformas de processamento de dados para soluções de big data.
No final desta formação, os participantes serão capazes de
- Implementar uma arquitetura de pipeline de dados para processar big data.
- Desenvolver uma infraestrutura de cluster com Apache Mesos e Docker.
- Analisar dados com Spark e Scala.
- Gerenciar dados não estruturados com o Apache Cassandra.
Apache Spark Fundamentals
21 HorasEste treinamento ao vivo conduzido por instrutor em Brasil (online ou no local) é destinado a engenheiros que desejam configurar e implantar o sistema Apache Spark para processar grandes quantidades de dados.
No final desta formação, os participantes serão capazes de
- Instalar e configurar o Apache Spark.
- Processe e analise rapidamente conjuntos de dados muito grandes.
- Compreender a diferença entre o Apache Spark e o Hadoop MapReduce e quando usar qual deles.
- Integrar o Apache Spark com outras ferramentas de aprendizado de máquina.
Administration of Apache Spark
35 HorasEste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto) é destinado a administradores de sistema de nível iniciante a intermediário que desejam implantar, manter e otimizar clusters Spark.
Ao final deste treinamento, os participantes serão capazes de:
- Instalar e configurar Apache Spark em vários ambientes.
- Gerenciar recursos de cluster e monitorar aplicativos Spark.
- Otimizar o desempenho dos clusters do Spark.
- Implementar medidas de segurança e garantir alta disponibilidade.
- Depurar e solucionar problemas comuns do Spark.
Spark para Developers
21 HorasOBJETIVO:
Este curso apresentará o Apache Spark . Os alunos aprenderão como o Spark se encaixa no ecossistema de Big Data e como usar o Spark para análise de dados. O curso abrange o shell Shell para análise interativa de dados, internos do Spark, APIs do Spark, Spark SQL , streaming do Spark e aprendizado de máquina e graphX.
PÚBLICO :
Desenvolvedores / analistas de dados
Scaling Data Pipelines with Spark NLP
14 HorasEste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto) é destinado a cientistas de dados e desenvolvedores que desejam usar Spark NLP, construído em cima de Apache Spark, para desenvolver, implementar e dimensionar modelos e pipelines de processamento de texto em linguagem natural.
No final deste treinamento, os participantes serão capazes de:
- Configurar o ambiente de desenvolvimento necessário para começar a construir pipelines de PNL com Spark NLP.
- Compreender os recursos, a arquitetura e os benefícios do uso de Spark NLP.
- Utilizar os modelos pré-treinados disponíveis em Spark NLP para implementar o processamento de texto.
- Aprender a construir, treinar e escalar modelos de Spark NLP para projectos de nível de produção.
- Aplicar classificação, inferência e análise de sentimentos em casos de uso real (dados clínicos, insights sobre o comportamento do cliente, etc.).
Python e Spark para Big Data (PySpark)
21 HorasNeste treinamento ao vivo conduzido por instrutor em Brasil, os participantes aprenderão como usar Python e Spark juntos para analisar big data enquanto trabalham em exercícios práticos.
Ao final deste treinamento, os participantes serão capazes de:
- Aprenda a usar o Spark com Python para analisar Big Data.
- Trabalhe em exercícios que imitam casos do mundo real.
- Use diferentes ferramentas e técnicas para análise de big data usando PySpark.
Apache Spark MLlib
35 HorasO MLlib é a biblioteca de aprendizado de máquina (ML) do Spark. Seu objetivo é tornar prático o aprendizado de máquina escalável e fácil. Ele consiste em algoritmos e utilitários de aprendizado comuns, incluindo classificação, regressão, agrupamento, filtragem colaborativa, redução de dimensionalidade, além de primitivas de otimização de nível inferior e APIs de pipeline de nível superior.
Divide-se em dois pacotes:
O spark.mllib contém a API original construída sobre os RDDs.
O spark.ml fornece uma API de alto nível, construída sobre os DataFrames, para a construção de pipelines de ML.
Público
Este curso é direcionado a engenheiros e desenvolvedores que desejam utilizar uma biblioteca de máquinas integrada para o Apache Spark