Apollo LMM suporta até 1h de video.

O laboratório da MultiCortex começa testar os modelos Apollo da Meta que estão disponíveis em três tamanhos (1,5B, 3B e 7B) e processam até uma hora de vídeo. Eles se destacam na compreensão avançada de vídeos, respondendo a perguntas complexas, interpretando a linha temporal e sustentando diálogos sobre o conteúdo exibido. O Apollo-3B rivaliza ou supera modelos de 7B, enquanto o Apollo-7B supera até modelos de 30B+ em benchmarks de vídeo, demonstrando eficiência superior e excelente relação custo-benefício.

O Apollo LLM é uma nova geração de modelos de linguagem multimodal (LMMs) que redefine a forma como as máquinas entendem vídeos. Fruto de uma colaboração entre a Meta GenAI e a Universidade de Stanford, o Apollo se destaca por sua eficiência e inovação no campo da inteligência artificial.

Principais Diferenciais

  1. Consistência de Escalonamento (“Scaling Consistency”)
    O conceito de “Scaling Consistency” permite que decisões de design feitas em modelos menores sejam aplicadas de forma confiável a modelos maiores. Isso reduz drasticamente o custo computacional e o tempo de desenvolvimento.
  2. Otimização de Estratégias de Treinamento
    O Apollo explora cronogramas de treinamento e combinações de dados. A descoberta de que a amostragem “fps” (frames por segundo) é mais eficiente que a amostragem uniforme impacta diretamente o desempenho do modelo.
  3. Tokenização Eficiente
    O modelo encontrou o equilíbrio ideal de 8 a 32 tokens por frame, além de usar técnicas de “token integration” para integrar tokens de diferentes quadros de maneira eficaz.
  4. Benchmark Personalizado (ApolloBench)
    Para medir a eficácia dos LMMs de vídeo, o Apollo introduziu o ApolloBench, um benchmark personalizado que facilita a avaliação de diferentes modelos.
  5. Uso de Encoders de Alto Desempenho
    O SigLIP-SO400M foi identificado como o melhor encoder único, mas a combinação deste com o InternVideo2 proporcionou um desempenho geral ainda mais robusto.
  6. Aprimoramento Contínuo
    O modelo melhora a performance de seus encoders em dados de vídeo e ajusta a mistura de dados de texto e vídeo, garantindo desempenho superior em tarefas de raciocínio e percepção.

Aplicações Práticas

O Apollo LLM se destaca em tarefas que exigem entendimento multimodal, incluindo:

  • Assistentes de IA mais inteligentes
  • Análise de vídeos para segurança e vigilância
  • Interpretação de vídeos para ensino e aprendizado

Desempenho Comparado

O Apollo superou diversos concorrentes em benchmarks de raciocínio espacial, percepção e compreensão de conteúdo de vídeo. Seu desempenho foi validado em testes no TempCompass, MLVU e VideoMME.

O Apollo LLM é uma solução de ponta que promete transformar a interação homem-máquina em ambientes multimodais. Para mais detalhes, acesse o site oficial do Apollo.

https://arxiv.org/pdf/2412.10360

Deixe um comentário

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.