A Mistral AI apresentou o MathΣtral, um modelo especializado de 7B projetado para raciocínio matemático avançado e exploração científica. Lançado sob a licença Apache 2.0, o MathΣtral homenageia Arquimedes por ocasião do seu aniversário de 2311 anos este ano.

O MathΣtral é adaptado para enfrentar desafios complexos de raciocínio lógico em múltiplas etapas nas áreas de STEM. Desenvolvido em colaboração com o Projeto Numina, o modelo herda capacidades do Mistral 7B, alcançando desempenho de ponta em benchmarks padrão da indústria. Notavelmente, ele atinge 56,6% no MATH e 63,47% no MMLU, demonstrando capacidades de raciocínio superiores dentro de sua categoria de tamanho.
Benchmarks detalhados destacam as robustas melhorias de desempenho do MathΣtral com aumento do cálculo no tempo de inferência. Por exemplo, o MathΣtral 7B alcança melhorias significativas de precisão, com 68,37% no MATH através de votação majoritária e 74,59% com um modelo de recompensa forte entre 64 candidatos.

O MathΣtral está disponível para uso e adaptação imediatos usando as ferramentas da Mistral AI. Os desenvolvedores podem implantar o modelo através do mistral-inference para exploração inicial e aprimorar suas capacidades com o mistral-finetune. Os pesos do modelo são acessíveis via HuggingFace, facilitando a integração direta em projetos acadêmicos e de pesquisa.
Ao disponibilizar o MathΣtral para a comunidade científica, a Mistral AI visa promover avanços na resolução de problemas matemáticos e apoiar empreendimentos acadêmicos. Esta iniciativa destaca o compromisso da Mistral AI em promover arquiteturas de modelos especializados e suas aplicações práticas na descoberta científica.
