Programa do Curso

Introdução à IA multimodal

  • O que é a IA multimodal?
  • Principais desafios e aplicações
  • Visão geral dos principais modelos multimodais

Processamento de texto e compreensão da linguagem natural

  • Tirar partido dos LLMs para agentes de IA baseados em texto
  • Compreender a engenharia de pedidos para tarefas multimodais
  • Afinação de modelos de texto para aplicações específicas de um domínio

Reconhecimento e geração de imagens

  • Processamento de imagens com IA: classificação, legendagem e deteção de objectos
  • Geração de imagens com modelos de difusão (Stable Diffusion, DALLE)
  • Integração de dados de imagem com modelos baseados em texto

Processamento de voz e áudio

  • Reconhecimento do discurso com Whisper ASR
  • Técnicas de síntese de texto para voz (TTS)
  • Melhorar a interação do utilizador com IA baseada na voz

Integração de entradas multimodais

  • Criar condutas de IA para processar vários tipos de entrada
  • Técnicas de fusão para combinar dados de texto, imagem e voz
  • Aplicações no mundo real de agentes de IA multimodais

Implementação multimodal AI Agents

  • Criar soluções de IA multimodal orientadas para API
  • Otimização de modelos para desempenho e escalabilidade
  • Melhores práticas para implementar a IA multimodal na produção

Considerações éticas e tendências futuras

  • Preconceito e equidade na IA multimodal
  • Preocupações de privacidade com dados multimodais
  • Desenvolvimentos futuros na IA multimodal

Resumo e próximas etapas

Requisitos

  • Conhecimento dos fundamentos da aprendizagem automática
  • Experiência com programação Python
  • Familiaridade com estruturas de aprendizagem profunda (por exemplo, TensorFlow, PyTorch)

Público-alvo

  • Programadores de IA
  • Investigadores
  • Engenheiros de multimédia
 21 Horas

Número de participantes


Preço por Participante

Próximas Formações Provisórias

Categorias Relacionadas