Programa do Curso
Introdução
Esta seção fornece uma introdução geral sobre quando usar o 'aprendizado de máquina', o que deve ser considerado e o que isso significa, incluindo os prós e os contras. Tipos de dados (estruturados/não estruturados/estáticos/transmitidos), validade/volume de dados, análise orientada por dados versus análise orientada pelo usuário, modelos estatísticos versus modelos de aprendizado de máquina/desafios de aprendizagem não supervisionada, compensação de viés-variância, iteração/avaliação, abordagens de validação cruzada , supervisionado/não supervisionado/reforço.
PRINCIPAIS TEMAS
1. Compreendendo o ingênuo Bayes
- Conceitos básicos dos métodos Bayesianos
- Probabilidade
- Probabilidade conjunta
- Probabilidade condicional com o teorema de Bayes
- O algoritmo de Bayes ingênuo
- A classificação de Bayes ingênuo
- O estimador de Laplace
- Usando características numéricas com Bayes ingênuo
2. Compreender as árvores de decisão
- Dividir e conquistar
- O algoritmo de árvore de decisão C5.0
- Escolhendo a melhor divisão
- Poda da árvore de decisão
3. Compreendendo as redes neurais
- Do neurônio biológico ao artificial
- Funções de ativação
- Topologia da rede
- O número de camadas
- A direção do fluxo de informações
- O número de nós em cada camada
- Treinando redes neurais com retropropagação
- Deep Learning
4. Compreendendo as máquinas de vetores de suporte
- Classificação com hiperplanos
- Encontrando a margem máxima
- O caso de dados linearmente separáveis
- O caso de dados não-linearmente separáveis
- Usando kernels para espaços não-lineares
5. Compreendendo o clustering
- Agrupamento como uma tarefa de aprendizado de máquina
- O algoritmo k-means para agrupamento
- Usando distância para atribuir e atualizar clusters
- Escolhendo o número apropriado de clusters
6. Medindo o desempenho para classificação
- Trabalhando com dados de previsão de classificação
- Uma olhada mais detalhada nas matrizes de confusão
- Usando matrizes de confusão para medir desempenho
- Alem da precisão – outras medidas de desempenho
- A estatística kappa
- Sensibilidade e especificidade
- Precisão e recall
- A medida F
- Visualizando tradeoffs de desempenho
- Curvas ROC
- Estimando o desempenho futuro
- O método holdout
- Validação cruzada
- Bootstrap amostragem
7. Ajustando modelos de estoque para melhor desempenho
- Usando o caret para ajuste automático de parâmetros
- Criando um modelo simples ajustado
- Personalizando o processo de ajuste
- Melhorando o desempenho do modelo com meta-aprendizado
- Entendendo ensembles
- Bagging
- Boosting
- Florestas aleatórias
- Treinando florestas aleatórias
- Avaliando o desempenho de florestas aleatórias
TÓPICOS MENORES
8. Compreender a classificação usando os vizinhos mais próximos
- O algoritmo kNN
- Cálculo de distância
- Escolhendo um k apropriado
- Preparando dados para uso com kNN
- Por que o algoritmo kNN é preguiçoso?
9. Compreender as regras de classificação
- Separar e conquistar
- O algoritmo One Rule
- O algoritmo RIPPER
- Regras a partir de árvores de decisão
10. Compreendendo a regressão
- Regressão linear simples
- A estimativa dos mínimos quadrados ordinários
- Correlações
- Regressão linear múltipla
11. Compreendendo árvores de regressão e árvores modelo
- Adicionando regressão às árvores
12. Compreender as regras de associação
- O algoritmo Apriori para aprendizado de regras de associação
- Medindo o interesse da regra – suporte e confiança
- Criando um conjunto de regras com o princípio Apriori
Extras
- Spark/PySpark/MLlib e Multi-armed bandits