Programa do Curso

spark.mllib: tipos de dados, algoritmos e utilitários

  • Tipos de dados
  • Estatísticas básicas
    • estatísticas sumárias
    • correlações
    • amostragem estratificada
    • teste de hipóteses
    • teste de significância em fluxo contínuo
    • geração de dados aleatórios
  • Classificação e regressão
    • modelos lineares (SVMs, regressão logística, regressão linear)
    • Bayes ingénuo
    • árvores de decisão
    • conjuntos de árvores (Random Forests e Gradient-Boosted Trees)
    • regressão isotónica
  • Filtragem colaborativa
    • mínimos quadrados alternados (ALS)
  • Agrupamento
    • k-means
    • mistura gaussiana
    • agrupamento por iteração de potência (PIC)
    • atribuição de Dirichlet latente (LDA)
    • k-means de bissecção
    • k-means de fluxo contínuo
  • Redução da dimensionalidade
    • decomposição do valor singular (SVD)
    • análise de componentes principais (PCA)
  • Extração e transformação de caraterísticas
  • Extração de padrões frequentes
    • FP-crescimento
    • regras de associação
    • PrefixSpan
  • Métricas de avaliação
  • Exportação do modelo PMML
  • Otimização (programador)
    • descida de gradiente estocástica
    • BFGS de memória limitada (L-BFGS)

spark.ml: APIs de alto nível para pipelines ML

  • Visão geral: estimadores, transformadores e pipelines
  • Extrair, transformar e selecionar caraterísticas
  • Classificação e regressão
  • Agrupamento
  • Tópicos avançados

Requisitos

Conhecimentos de um dos seguintes domínios:

  • Java
  • Scala
  • Python
  • SparkR
 35 Horas

Número de participantes


Preço por Participante

Declaração de Clientes (1)

Próximas Formações Provisórias

Categorias Relacionadas