Já disponível na Multicortex, o Qwen3 é uma das suítes mais completas de modelos de linguagem de código aberto já lançadas. Desenvolvido pela equipe Qwen da Alibaba, ele traz desde modelos gigantes com desempenho de ponta até versões compactas que rodam localmente em hardwares mais modestos.

Neste artigo, faço um panorama geral da linha Qwen3, explico como os modelos foram treinados, analiso os principais benchmarks e mostro como começar a usá-los. Também vamos disponibilizar tutoriais sobre como rodar o Qwen3 localmente e ajustar os modelos — e este post será atualizado com os links assim que eles estiverem prontos.
Para ficar por dentro das novidades em IA, inscreva-se no nosso boletim gratuito The Median, enviado toda sexta-feira com os destaques da semana.
O que é o Qwen3?
O Qwen3 é a nova família de modelos de linguagem da Alibaba, com código aberto sob licença Apache 2.0. Um dos recursos mais inovadores é o “orçamento de raciocínio”: usuários podem ajustar diretamente o nível de raciocínio dos modelos, controlando a precisão e profundidade das respostas.

🔍 Aumentar o orçamento melhora o desempenho, especialmente em tarefas complexas como matemática, programação e ciências.
Principais modelos da linha Qwen3
| Modelo | Tipo | Comprimento do contexto | Melhor para |
| Qwen3-235B-A22B | MdE | 128K | Tarefas de pesquisa, fluxos de trabalho de agentes, cadeias de raciocínio longas |
| Qwen3-30B-A3B | MdE | 128K | Raciocínio equilibrado com menor custo de inferência |
| Qwen3-32B | Dense | 128K | Implantações de uso geral de alto nível |
| Qwen3-14B | Dense | 128K | Aplicativos de médio porte que precisam de raciocínio sólido |
| Qwen3-8B | Dense | 128K | Tarefas de raciocínio leves |
| Qwen3-4B | Dense | 32K | Aplicativos menores, inferência mais rápida |
| Qwen3-1.7B | Dense | 32K | Casos de uso móveis e incorporados |
| Qwen3-0.6B | Dense | 32K | Configurações muito leves ou restritas |
MoE = Mixture of Experts: só parte dos parâmetros é usada a cada geração, economizando recursos.
Como os modelos foram treinados
Pré-treinamento em 3 fases, com 36 trilhões de tokens:
- Habilidades básicas com 30T tokens.
- Ênfase em matemática, STEM e código (5T tokens).
- Expansão para janelas de 32K com dados de contexto longo.
Pós-treinamento em 4 etapas:
- Aprendizado passo a passo (Cold Start)
- Aprimoramento via Reforço (RL)
- Equilíbrio entre raciocínio lento e respostas rápidas
- Ajuste geral com dados de instruções e tarefas de agentes
Modelos menores são destilados dos maiores, mantendo qualidade com menos recursos.
Resultados de Benchmark
Qwen3-235B-A22B lidera ou disputa o topo em quase todos os testes:
- ArenaHard (raciocínio): 95,6 (atrás apenas do Gemini 2.5 Pro)
- AIME’24: 85,7 em matemática avançada
- CodeForces Elo: 2056 — melhor que Gemini e DeepSeek
- LiveBench: 77.1, excelente para tarefas do mundo real
Qwen3-30B-A3B também impressiona:
- ArenaHard: 91,0 — supera QwQ-32B e GPT-4o
- CodeForces Elo: 1974 — desempenho competitivo com modelos maiores
Qwen3-4B se destaca para seu tamanho:
- AIME’24: 73,8 — melhor que muitos modelos maiores
- MultiIF: 66,3 — ótimo desempenho multilíngue para um 4B
Qual modelo usar?
- Tarefas exigentes? Vá de Qwen3-235B-A22B
- Bom desempenho com custo menor? Use Qwen3-30B-A3B
- Uso geral com latência previsível? Os modelos densos (32B, 14B…) são ideais
- Aplicações leves ou embarcadas? Opte por Qwen3-1.7B ou 0.6B
Conclusão
A linha Qwen3 oferece opções de alto desempenho para uma variedade de cenários — de agentes inteligentes a aplicações embarcadas. Com código aberto, janela de 128K tokens e arquitetura moderna, eles elevam o padrão dos modelos disponíveis publicamente.