OpenAI se rende as LLM Abertas


Depois de mais de cinco anos, a OpenAI finalmente fez um grande retorno ao cenário de modelos de código aberto com o lançamento dos modelos GPT-OSS. Este movimento marca o primeiro passo significativo da empresa para se reaproximar da comunidade Open Source desde o GPT-2 em 2019, prometendo transformar completamente o panorama da inteligência artificial

O Que São os Modelos GPT-OSS?

Os modelos GPT-OSS chegam com uma arquitetura MOI (Mixture of Experts) impressionante, apresentando 36 camadas e 128 especialistas por camada, ativando apenas quatro especialistas por token. O mais empolgante é que esses modelos vêm com uma licença Apache 2.0, o que significa que qualquer pessoa pode baixá-los, inspecioná-los, modificá-los e até mesmo utilizá-los comercialmente sem preocupações com restrições de copyleft ou riscos de patentes.

Principais Características e Capacidades:

Licença Permissiva: Crie e use livremente em suas aplicações sem pagar nada.
Projetado para Tarefas de Agente: Aproveita o uso eficiente de instruções e ferramentas dentro da cadeia de pensamento, incluindo pesquisa na web e execução de código Python.
Cadeia de Pensamento Completa: Acesse a cadeia de pensamento completa para facilitar a depuração e aumentar a confiança nas saídas do modelo.

Dois Modelos para Diferentes Necessidades

A OpenAI lançou não um, mas dois modelos de código aberto:

1. GPT-OSS 120B: Este é o modelo mais robusto e potente, projetado para ser executado em data centers ou servidores. É considerado um “modelo grande”.

2. GPT-OSS 20B: Este é um modelo de “tamanho médio”, ideal para a maioria dos desktops e laptops, sendo mais acessível para rodar em computadores domésticos

É importante notar que, para rodar o modelo 120B localmente, você precisará de uma máquina muito poderosa, quase um “PC da NASA”. No entanto, o modelo 20B é muito mais fácil de ser executado na maioria dos equipamentos com uma configuração razoável.

Acessibilidade e Segurança

A boa notícia é que você não precisa de uma super máquina para experimentar esses modelos. Ambos estão disponíveis online em plataformas como o playground da Hugging Face e via OpenRouter, permitindo que você os utilize diretamente da internet sem necessidade de download.

Para quem prefere rodar os modelos localmente, sugiro obter direto Via Hugging Face ou GitHub.

A segurança é uma prioridade para a OpenAI. Ambos os modelos passaram por treinamento e avaliação de segurança rigorosos, com testes abrangentes de versões maliciosas. Além disso, esses métodos de treinamento e testes foram revisados e informados por especialistas externos em segurança, marcando um avanço significativo nos padrões de segurança de modelos abertos.

Desempenho e Impacto

Os testes iniciais da comunidade mostram que os modelos GPT-OSS são bastante competentes e funcionam muito bem, comparáveis a modelos pagos que temos hoje no mercado. Há um comparativo que os coloca muito próximos dos modelos pagos da OpenAI, como o OpenAI GPT-3 e o OpenAI GPT-4 Mini em termos de raciocínio, o que é notável para uma tecnologia gratuita.

As possibilidades são infinitas, desde a execução de jogos como Space Invaders com código gerado pela IA, até a visualização e localização de objetos em imagens complexas, e o resumo conciso de documentos extensos (o modelo 120B levou cerca de 1 segundo para resumir 60 páginas em um parágrafo).

Muitos consideram esses dois modelos de código aberto como apenas “aperitivos” para o aguardado lançamento do GPT-5, que deve acontecer ainda esta semana…

Conclusão

O lançamento dos modelos GPT-OSS pela OpenAI é um marco significativo, reafirmando o compromisso da empresa com a comunidade open source e disponibilizando tecnologia de ponta de forma gratuita. Seja você um desenvolvedor, pesquisador ou apenas um entusiasta, esses modelos oferecem uma oportunidade incrível para experimentar, personalizar e inovar com inteligência artificial.

Links:
https://huggingface.co/openai/gpt-oss-120b
https://huggingface.co/openai/gpt-oss-20b

Deixe um comentário

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.