
A Meta anunciou, durante o evento Meta Connect 2024, o lançamento do Llama 3.2, uma atualização dos seus modelos de inteligência artificial (IA) focada em dispositivos móveis e edge computing. Com uma abordagem aberta, essa nova versão oferece modelos compactos que podem ser executados diretamente em hardwares como Qualcomm, MediaTek e processadores Arm, proporcionando maior privacidade e eficiência para desenvolvedores.
O Llama 3.2 é composto por dois tipos principais de modelos: os de visão (11B e 90B) e os modelos de texto compactos (1B e 3B). Os modelos de visão foram criados para analisar imagens, gráficos e mapas, oferecendo uma interpretação visual dos dados e fornecendo respostas contextuais. Eles apresentam uma alternativa aberta a soluções proprietárias, como o Claude 3 Haiku, sendo ideais para tarefas como reconhecimento de imagens e geração automática de legendas.
Os modelos de texto, por sua vez, são otimizados para rodar localmente em dispositivos móveis. Com suporte para até 128 mil tokens, eles são indicados para funções como sumarização de mensagens, reescrita de textos e execução de comandos por instrução, tudo sem necessidade de conexão à nuvem, garantindo assim maior privacidade, já que os dados permanecem no próprio dispositivo.
Integração com plataformas parceiras
Além do lançamento do Llama 3.2, a Meta introduziu a primeira distribuição oficial do Llama Stack, um conjunto de ferramentas que simplifica o uso e a personalização dos modelos Llama em diferentes ambientes, sejam eles na nuvem, locais ou em dispositivos móveis. Em parceria com empresas como AWS, Databricks, Dell Technologies e Infosys, a Meta busca ampliar as aplicações comerciais e empresariais do Llama 3.2.
O Llama 3.2 também possui suporte imediato para plataformas como Microsoft Azure, Google Cloud, NVIDIA, Oracle Cloud e Intel, além de empresas de tecnologia de ponta que integram a solução diretamente em seus produtos.
Desempenho dos modelos
- Os modelos de visão do Llama 3.2 competem fortemente com outros grandes modelos, como Claude 3 Haiku e GPT4o-mini, em tarefas de reconhecimento e compreensão visual de imagens.
- O modelo de texto 3B superou concorrentes como o Gemma 2 (2.6B) e o Phi 3.5-mini em tarefas como seguir instruções, sumarização e reescrita de prompts, além de execução de comandos.
- O modelo de texto 1B mostrou-se competitivo com o Gemma em diversos benchmarks.
Esses resultados foram obtidos através de mais de 150 conjuntos de dados de benchmarks em várias línguas, com foco nas capacidades de compreensão visual e raciocínio dos modelos de visão LLMs.
Os modelos do Llama 3.2 já estão disponíveis para download no site oficial da Meta e no Hugging Face, com integração pronta para as plataformas dos parceiros. A Meta reforça que sua abordagem aberta é essencial para estimular a inovação, dando a desenvolvedores ao redor do mundo acesso a ferramentas poderosas e acessíveis para criar novas soluções com IA.