Programa do Curso

Introdução aos modelos multimodais

  • Visão geral da aprendizagem automática multimodal
  • Aplicações de modelos multimodais
  • Desafios no tratamento de vários tipos de dados

Arquitecturas para modelos multimodais

  • Exploração de modelos como CLIP, Flamingo e BLIP
  • Compreender os mecanismos de atenção multimodal
  • Considerações de arquitetura para escalabilidade e eficiência

Preparação de conjuntos de dados multimodais

  • Técnicas de recolha e anotação de dados
  • Pré-processamento de texto, imagens e entradas de vídeo
  • Equilíbrio de conjuntos de dados para tarefas multimodais

Técnicas de afinação para modelos multimodais

  • Criação de pipelines de formação para modelos multimodais
  • Gerir a memória e as restrições computacionais
  • Tratamento do alinhamento entre modalidades

Aplicações de modelos multimodais aperfeiçoados

  • Resposta a perguntas visuais
  • Legendagem de imagens e vídeos
  • Geração de conteúdos utilizando entradas multimodais

Otimização e avaliação do desempenho

  • Métricas de avaliação para tarefas multimodais
  • Otimização da latência e do débito para produção
  • Garantia de robustez e consistência entre modalidades

Implementação de modelos multimodais

  • Empacotamento de modelos para implantação
  • Inferência Scalable em plataformas de nuvem
  • Aplicações e integrações em tempo real

Estudos de casos e laboratórios práticos

  • Afinação do CLIP para recuperação de imagens com base no conteúdo
  • Treinar um chatbot multimodal com texto e vídeo
  • Implementação de sistemas de recuperação multimodais

Resumo e próximos passos

Requisitos

  • Proficiência em programação Python
  • Compreensão dos conceitos de aprendizagem profunda
  • Experiência com modelos pré-treinados de ajuste fino

Público-alvo

  • Investigadores de IA
  • Cientistas de dados
  • Profissionais de aprendizagem automática
 28 Horas

Número de participantes


Preço por Participante

Próximas Formações Provisórias

Categorias Relacionadas