
A startup francesa de inteligência artificial Mistral lançou seu primeiro modelo capaz de processar imagens e texto.
Denominado Pixtral 12B, o modelo de 12 bilhões de parâmetros tem aproximadamente 24GB de tamanho. Os parâmetros correspondem, aproximadamente, às habilidades de resolução de problemas de um modelo, e modelos com mais parâmetros geralmente apresentam melhor desempenho que aqueles com menos parâmetros.
Construído a partir de um dos modelos de texto da Mistral, o Nemo 12B, o novo modelo pode responder perguntas sobre um número arbitrário de imagens de tamanho arbitrário fornecidas por URLs ou imagens codificadas usando base64, o esquema de codificação de binário para texto. Similar a outros modelos multimodais, como a família Claude da Anthropic e o GPT-4o da OpenAI, o Pixtral 12B deveria — ao menos em teoria — ser capaz de realizar tarefas como legendagem de imagens e contagem do número de objetos em uma foto.
Disponível por meio de um link torrent no GitHub e na plataforma de desenvolvimento de IA e machine learning Hugging Face, o Pixtral 12B pode ser baixado, ajustado e usado presumivelmente sob a licença de desenvolvimento padrão da Mistral, que exige uma licença paga para aplicações comerciais, mas não para usos acadêmicos e de pesquisa.
A Mistral não esclareceu exatamente qual licença se aplica ao Pixtral 12B. A startup oferece alguns modelos sob uma licença Apache 2.0 sem restrições. Entramos em contato com a Mistral para mais informações e atualizaremos esta postagem caso tenhamos retorno.
Infelizmente, este escritor não conseguiu testar o Pixtral 12B — não havia demos web funcionando no momento da publicação. Em uma postagem no X, Sophia Yang, chefe de relações com desenvolvedores da Mistral, disse que o Pixtral 12B estará disponível para testes nas plataformas de chatbot e de serviço de API da Mistral, Le Chat e Le Platforme, em breve.
Não está claro quais dados de imagem a Mistral pode ter usado para desenvolver o Pixtral 12B.
A maioria dos modelos de IA generativa, incluindo outros modelos da Mistral, é treinada com vastas quantidades de dados públicos da web, que muitas vezes são protegidos por direitos autorais. Alguns fornecedores de modelos argumentam que os direitos de “uso justo” os autorizam a raspar qualquer dado público, mas muitos detentores de direitos autorais discordam e entraram com processos contra fornecedores maiores como OpenAI e Midjourney para interromper a prática.
O Pixtral 12B chega após a Mistral fechar uma rodada de financiamento de $645 milhões liderada pela General Catalyst, que avaliou a empresa em $6 bilhões. Com pouco mais de um ano, a Mistral — com participação minoritária da Microsoft — é vista por muitos na comunidade de IA como a resposta da Europa à OpenAI. A estratégia da empresa mais jovem até agora envolveu o lançamento de modelos “abertos” gratuitos, cobrança por versões gerenciadas desses modelos e fornecimento de serviços de consultoria para clientes corporativos.