Cursos de Programação com BigData em R
Big Data é um termo que se refere a soluções destinadas a armazenar e processar grandes conjuntos de dados. Desenvolvido pela Go Ogle inicialmente, estes Big Data soluções evoluíram e inspirou outros projectos semelhantes, muitos dos quais estão disponíveis como código-fonte aberto. R é uma linguagem de programação popular no setor financeiro.
Programa do Curso
Introdução a Programming Big Data com R (bpdR)
- Configurando seu ambiente para usar pbdR
- Escopo e ferramentas disponíveis no pbdR
- Pacotes comumente usados com Big Data junto com pbdR
Interface de passagem de mensagens (MPI)
- Usando pbdR MPI 5
- Processamento paralelo
- Comunicação ponto a ponto
- Enviar matrizes
- Somando Matrizes
- Comunicação coletiva
- Somando Matrizes com Redução
- Dispersão / Reunião
- Outras comunicações MPI
Matrizes Distribuídas
- Criando uma matriz diagonal distribuída
- SVD de uma matriz distribuída
- Construindo uma matriz distribuída em paralelo
Statistics Aplicações
- Integração Monte Carlo
- Lendo conjuntos de dados
- Leitura em todos os processos
- Transmissão de um processo
- Lendo dados particionados
- Regressão Distribuída
- Distribuído Bootstrap
Os cursos de treinamento abertos exigem mais de 5 participantes.
Cursos de Programação com BigData em R - Booking
Cursos de Programação com BigData em R - Enquiry
Programação com BigData em R - Solicitação de Consultoria
Solicitação de Consultoria
Declaração de Clientes (2)
The subject matter and the pace were perfect.
Tim - Ottawa Research and Development Center, Science Technology Branch, Agriculture and Agri-Food Canada
Curso - Programming with Big Data in R
Michael the trainer is very knowledgeable and skillful about the subject of Big Data and R. He is very flexible and quickly customize the training meeting clients' need. He is also very capable to solve technical and subject matter problems on the go. Fantastic and professional training!.
Xiaoyuan Geng - Ottawa Research and Development Center, Science Technology Branch, Agriculture and Agri-Food Canada
Curso - Programming with Big Data in R
Próximas Formações Provisórias
Cursos Relacionados
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 HorasEste curso destina-se a programadores e cientistas de dados que pretendam compreender e implementar a IA nas suas aplicações. É dada especial atenção à análise de dados, à IA distribuída e ao processamento de linguagem natural.
Unified Batch and Stream Processing with Apache Beam
14 HorasApache Beam é um modelo de programação unificado e de código aberto para definir e executar pipelines de processamento de dados paralelos. O seu poder reside na sua capacidade de executar pipelines em lote e em fluxo contínuo, sendo a execução efectuada por um dos back-ends de processamento distribuído suportados pelo Beam: Apache Apex, Apache Flink, Apache Spark e Google Cloud Dataflow. A solução Apache Beam é útil para tarefas de ETL (Extrair, Transformar e Carregar), como mover dados entre diferentes mídias de armazenamento e fontes de dados, transformar dados em um formato mais desejável e carregar dados em um novo sistema.
Neste treinamento ao vivo conduzido por instrutor (no local ou remoto), os participantes aprenderão como implementar os SDKs Apache Beam em um aplicativo Java ou Python que define um pipeline de processamento de dados para decompor um grande conjunto de dados em pedaços menores para processamento paralelo e independente.
Ao final deste treinamento, os participantes serão capazes de:
- Instalar e configurar Apache Beam.
- Utilizar um único modelo de programação para efetuar o processamento em lote e em fluxo a partir da sua aplicação Java ou Python.
- Executar pipelines em vários ambientes.
Formato do curso
- Parte palestra, parte discussão, exercícios e muita prática
Nota
- Este curso estará disponível Scala no futuro. Por favor, contacte-nos para organizar.
Data Vault: Building a Scalable Data Warehouse
28 HorasNeste treinamento ao vivo conduzido por instrutor em Brasil, os participantes aprenderão como construir um Data Vault.
Ao final deste treinamento, os participantes serão capazes de:
- Entenda os conceitos de arquitetura e design por trás do Data Vault 2.0 e sua interação com Big Data, NoSQL e AI.
- Use técnicas de abóbada de dados para permitir a auditoria, o rastreamento e a inspeção de dados históricos em um data warehouse.
- Desenvolver um processo ETL (Extrair, Transformar, Carregar) consistente e repetível.
- Criar e implementar armazéns altamente escaláveis e repetíveis.
Apache Flink Fundamentals
28 HorasEste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto) apresenta os princípios e abordagens por trás do fluxo distribuído e do processamento de dados em lote, e orienta os participantes na criação de um aplicativo de streaming de dados em tempo real em Apache Flink.
No final deste treinamento, os participantes serão capazes de:
- Configurar um ambiente para o desenvolvimento de aplicativos de análise de dados.
- Entender como funciona a biblioteca de processamento de gráficos do Apache Flink (Gelly).
- Empacotar, executar e monitorar aplicativos de streaming de dados baseados em Flink, tolerantes a falhas.
- Gerenciar diversas cargas de trabalho.
- Realizar análises avançadas.
- Configurar um cluster Flink de vários nós.
- Medir e otimizar o desempenho.
- Integrar o Flink com diferentes sistemas Big Data.
- Comparar os recursos do Flink com os de outros frameworks de processamento de big data.
Introduction to Graph Computing
28 HorasNeste treinamento ao vivo conduzido por instrutor em Brasil, os participantes aprenderão sobre as ofertas de tecnologia e abordagens de implementação para o processamento de dados gráficos. O objetivo é identificar objetos do mundo real, suas caraterísticas e relacionamentos, depois modelar esses relacionamentos e processá-los como dados usando uma abordagem Graph Computing (também conhecida como Graph Analytics). Começamos com uma visão geral e nos concentramos em ferramentas específicas à medida que avançamos em uma série de estudos de caso, exercícios práticos e implantações ao vivo.
No final deste treinamento, os participantes serão capazes de:
- Entender como os dados do gráfico são persistidos e percorridos.
- Selecionar a melhor estrutura para uma determinada tarefa (de bancos de dados de gráficos a estruturas de processamento em lote).
- Implementar Hadoop, Spark, GraphX e Pregel para realizar a computação de gráficos em muitas máquinas em paralelo.
- Ver problemas reais de grandes volumes de dados em termos de grafos, processos e travessias.
Hortonworks Data Platform (HDP) for Administrators
21 HorasEste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto) apresenta Hortonworks Data Platform (HDP) e orienta os participantes na implantação da solução Spark + Hadoop.
Ao final deste treinamento, os participantes serão capazes de:
- Usar o Hortonworks para executar Hadoop de forma confiável em grande escala.
- Unificar os recursos de segurança, governança e operações do Hadoop com os fluxos de trabalho analíticos ágeis do Spark.
- Use a Hortonworks para investigar, validar, certificar e dar suporte a cada um dos componentes de um projeto Spark.
- Processar diferentes tipos de dados, incluindo dados estruturados, não estruturados, em movimento e em repouso.
Impala e a Inteligencia de Negócios
21 HorasO Cloudera Impala é um query engine SQL MPP de código aberto feito para clusters Apache Hadoop.
Ele permite aos usuarios a abertura de queries SQL de latencia baixa para todos os dados guardados no Hadoop Distributed File System e Apache Hbase sem requerir movimento de dados ou transformacao.
Este curso vai dirigido a analistas de sistemas e cientístas de dados.
Confluent KSQL
7 HorasEste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto) é destinado a desenvolvedores que desejam implementar o processamento de fluxo Apache Kafka sem escrever código.
No final deste treinamento, os participantes serão capazes de:
- Instalar e configurar o Confluent KSQL.
- Configurar um pipeline de processamento de fluxo usando apenas comandos SQL (sem codificação Java ou Python).
- Realizar filtragem de dados, transformações, agregações, junções, janelamento e sessionização inteiramente em SQL.
- Conceber e implementar consultas interactivas e contínuas para ETL de fluxo contínuo e análise em tempo real.
Apache NiFi for Administrators
21 HorasNeste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto), os participantes aprenderão como implantar e gerenciar Apache NiFi em um ambiente de laboratório ao vivo.
No final deste treinamento, os participantes serão capazes de:
- Instalar e configurar o Apachi NiFi.
- Fonte, transformar e gerenciar dados de fontes de dados díspares e distribuídas, incluindo bancos de dados e grandes lagos de dados.
- Automatizar fluxos de dados.
- Habilitar a análise de streaming.
- Aplicar várias abordagens para a ingestão de dados.
- Transformar Big Data em informações comerciais.
Apache NiFi for Developers
7 HorasNeste treinamento ao vivo conduzido por instrutor em Brasil, os participantes aprenderão os fundamentos da programação baseada em fluxo à medida que desenvolvem uma série de extensões de demonstração, componentes e processadores usando Apache NiFi.
No final deste treinamento, os participantes serão capazes de:
- Compreender a arquitetura do NiFi e os conceitos de fluxo de dados.
- Desenvolver extensões usando NiFi e APIs de terceiros.
- Desenvolver seu próprio processador Apache Nifi.
- Ingerir e processar dados em tempo real de formatos de arquivos e fontes de dados diferentes e incomuns.
Python e Spark para Big Data (PySpark)
21 HorasNeste treinamento ao vivo conduzido por instrutor em Brasil, os participantes aprenderão como usar Python e Spark juntos para analisar big data enquanto trabalham em exercícios práticos.
Ao final deste treinamento, os participantes serão capazes de:
- Aprenda a usar o Spark com Python para analisar Big Data.
- Trabalhe em exercícios que imitam casos do mundo real.
- Use diferentes ferramentas e técnicas para análise de big data usando PySpark.
Spark Streaming with Python and Kafka
7 HorasEste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto) é destinado a engenheiros de dados, cientistas de dados e programadores que desejam usar os recursos Spark Streaming no processamento e análise de dados em tempo real.
No final deste treinamento, os participantes poderão usar Spark Streaming para processar fluxos de dados ao vivo para uso em bancos de dados, sistemas de arquivos e painéis ao vivo.
Apache Spark MLlib
35 HorasO MLlib é a biblioteca de aprendizado de máquina (ML) do Spark. Seu objetivo é tornar prático o aprendizado de máquina escalável e fácil. Ele consiste em algoritmos e utilitários de aprendizado comuns, incluindo classificação, regressão, agrupamento, filtragem colaborativa, redução de dimensionalidade, além de primitivas de otimização de nível inferior e APIs de pipeline de nível superior.
Divide-se em dois pacotes:
O spark.mllib contém a API original construída sobre os RDDs.
O spark.ml fornece uma API de alto nível, construída sobre os DataFrames, para a construção de pipelines de ML.
Público
Este curso é direcionado a engenheiros e desenvolvedores que desejam utilizar uma biblioteca de máquinas integrada para o Apache Spark
Introduction to Data Visualization with Tidyverse and R
7 HorasO Tidyverse é uma coleção de pacotes R versáteis para limpeza, processamento, modelagem e visualização de dados. Alguns dos pacotes incluídos são: ggplot2, dplyr, tidyr, readr, purrr e tibble.
Neste treinamento ao vivo, Tidyverse por instrutor, os participantes aprenderão como manipular e visualizar dados usando as ferramentas incluídas no Tidyverse .
Ao final deste treinamento, os participantes serão capazes de:
- Realize análise de dados e crie visualizações atraentes
- Tire conclusões úteis de vários conjuntos de dados de dados de amostra
- Filtrar, classificar e resumir dados para responder a perguntas exploratórias
- Transforme dados processados em gráficos informativos de linhas, gráficos de barras, histogramas
- Importe e filtre dados de diversas fontes de dados, incluindo arquivos Excel , CSV e SPSS
Público
- Iniciantes na língua R
- Iniciantes na análise e visualização de dados
Formato do curso
- Parte palestra, parte discussão, exercícios e prática prática pesada