
Visão geral
Granite 4.0 1B Speech é o novo modelo de fala aberto da família Granite, da IBM, voltado para reconhecimento automatico de fala (ASR) e tradução automática de fala (AST) em múltiplos idiomas. Com cerca de 1 bilhão de parâmetros, ele foi desenhado para rodar em dispositivos com recursos limitados, mantendo desempenho competitivo frente a modelos bem maiores, inclusive em benchmarks públicos como o OpenASR.
O modelo é distribuído com pesos abertos, sob licença Apache 2.0, e já está integrado ao ecossistema de ferramentas como Hugging Face Transformers e vLLM, facilitando a adoção por desenvolvedores e empresas.
Principais capacidades
Granite 4.0 1B Speech é um modelo de linguagem de fala (“speech-language model”) capaz de:
- Reconhecimento automático de fala (ASR) em seis idiomas: inglês, francês, alemão, espanhol, português e japonês.
- Tradução automática de fala (AST) bidirecional entre esses idiomas e o inglês, além de pares adicionais como inglês–italiano e inglês–mandarim em cenário de fala-para-texto-para-texto.
- Processamento de entradas apenas de texto, reaproveitando o backbone Granite 4.0 1B como um modelo de linguagem tradicional quando não há áudio.
Além disso, a versão 4.0 introduz dois recursos bastante pedidos pela comunidade: suporte completo a ASR em japonês e “keyword list biasing”, que permite enviesar a decodificação para reconhecer melhor nomes próprios, siglas e termos específicos de domínio.
O que muda em relação ao Granite Speech 3.3
Granite 4.0 1B Speech sucede a linha Granite Speech 3.3, que incluía variantes de 2B e 8B parâmetros focadas principalmente em ASR em inglês e AST para alguns idiomas europeus e asiáticos. Enquanto o Granite Speech 3.3 8B já superava modelos abertos e fechados em tarefas de transcrição em inglês, ele exigia mais memória e poder computacional, o que limitava usos em cenários de edge ou dispositivos embarcados.
Na nova geração, a IBM reduz o número de parâmetros pela metade em relação ao granite-speech-3.3-2b, mantendo ou melhorando a acurácia em inglês e ampliando o suporte multilíngue. Isso é viabilizado por melhorias na arquitetura, na estratégia de alinhamento entre áudio e texto e no uso de técnicas de inferência como speculative decoding, que aceleram significativamente o tempo de resposta.
Arquitetura em alto nível
Granite 4.0 1B Speech segue a linha dos modelos Granite Speech anteriores: um encoder acústico especializado é acoplado a um modelo de linguagem de propósito geral (Granite 4.0 1B Base), alinhado para operar sobre embeddings de fala.
No encoder de áudio, a IBM utiliza 16 blocos Conformer treinados com CTC (Connectionist Temporal Classification) sobre um vocabulário de caracteres ASCII para idiomas europeus e um conjunto fonético de Katakana para japonês. Esse encoder incorpora block-attention com janelas de 4 segundos e self-conditioned CTC, reduzindo o custo computacional e melhorando a robustez em áudios longos.
Entre o encoder de fala e o LLM, há um adaptador de modalidade baseado em Windowed Query Transformer (Q-Former), responsável por reduzir a sequência temporal e projetar os embeddings acústicos para o espaço de embeddings de texto do Granite 4.0. O modelo de linguagem em si herda o backbone Granite 4.0 1B, que usa uma arquitetura híbrida Mamba‑2/Transformer, com foco em eficiência de memória e latência, além de oferecer contexto longo (até 128k tokens) em algumas variantes.
Desempenho em benchmarks
Apesar do tamanho relativamente pequeno, Granite 4.0 1B Speech alcançou a primeira posição no OpenASR Leaderboard, com word error rate (WER) médio em torno de 5,5%, superando modelos como Whisper Large V3, Phi-4 Multimodal e Canary 1B Flash. Esses resultados mostram que é possível combinar compacidade com alta qualidade de transcrição, algo especialmente relevante para aplicações em produção com custos de infra estrita.
Nos benchmarks de ASR em inglês, o modelo atinge WER competitivo ou superior em relação a sistemas com muito mais parâmetros, mantendo boa performance também em cenários multilíngues. Em AST, o modelo acompanha ou se aproxima de modelos maiores nos pares de idioma suportados, com destaque para traduções inglês–europeu e inglês–japonês/chinês.
Licença, governança e segurança
Assim como os demais modelos Granite 4.0, o 1B Speech é liberado sob licença Apache 2.0, o que permite uso comercial, modificações e redistribuição, desde que mantidos os avisos de copyright e licença. A IBM destaca que os modelos compactos seguem o mesmo padrão de governança, rastreabilidade de dados e certificações (incluindo conformidade com ISO 42001) adotado na família Granite maior.
Para deployments em produção, a recomendação é integrar o modelo com o Granite Guardian, camada de segurança e detecção de riscos que ajuda a mitigar abusos, vazamento de dados sensíveis e outros comportamentos indesejados. Isso é especialmente relevante em cenários regulados, como saúde, finanças e setor público, em que logs de áudio e transcrições podem conter informações altamente sensíveis.
Casos de uso típicos
Granite 4.0 1B Speech é particularmente atrativo para cenários de edge e aplicações empresariais que precisam de processamento de fala local.
Alguns exemplos de uso incluem:
- Contact centers e voicebots corporativos, com reconhecimento de fala em tempo real em múltiplos idiomas e opção de tradução on-the-fly para agentes humanos.
- Sistemas embarcados em veículos, equipamentos industriais ou dispositivos IoT, onde a comunicação por voz precisa funcionar mesmo com conectividade limitada.
- Ferramentas de produtividade, como assistentes pessoais, sistemas de tomada de notas em reuniões e legendagem automática, com possibilidade de rodar localmente em notebooks potentes ou estações de trabalho.
- Aplicações multilíngues em ambientes regulados, que exigem maior controle sobre dados de áudio e transcrições, evitando o envio de informações para serviços externos proprietários.
No contexto de desenvolvimento de agentes e pipelines RAG, o modelo também pode atuar como front-end de voz para um LLM de texto maior, convertendo áudio em texto que depois será enriquecido com contexto externo e respondido de volta ao usuário, possivelmente com síntese de voz em outro componente.
Como experimentar o modelo
O Granite 4.0 1B Speech está disponível no Hugging Face sob o identificador ibm-granite/granite-4.0-1b-speech, com documentação detalhada, exemplos de uso e instruções de inferência via Transformers e vLLM.
Um exemplo simplificado de uso com vLLM demonstra como carregar o modelo, aplicar o template de chat e enviar um áudio junto com a instrução para obter a transcrição:
from transformers import AutoTokenizerfrom vllm import LLM, SamplingParamsfrom vllm.assets.audio import AudioAssetmodel_id = "ibm-granite/granite-4.0-1b-speech"tokenizer = AutoTokenizer.from_pretrained(model_id)def get_prompt(question: str, has_audio: bool): if has_audio: question = f"<|audio|>{question}" chat = [{"role": "user", "content": question}] return tokenizer.apply_chat_template(chat, tokenize=False)model = LLM( model=model_id, max_model_len=2048, limit_mm_per_prompt={"audio": 1},)question = "can you transcribe the speech into a written format?"prompt_with_audio = get_prompt(question=question, has_audio=True)audio = AudioAsset("mary_had_lamb").audio_and_sample_rateinputs = {"prompt": prompt_with_audio, "multi_modal_data": {"audio": audio}}outputs = model.generate( inputs, sampling_params=SamplingParams(temperature=0.2, max_tokens=64),)print(outputs[0].outputs[0].text)
Além da integração com vLLM, o modelo pode ser consumido via API ou contêineres preparados por parceiros e pela própria IBM, seguindo a mesma lógica de outros modelos Granite 4.0.
Por que o Granite 4.0 1B Speech é relevante
A combinação de abertura de pesos, licença permissiva, eficiência computacional e desempenho de ponta em benchmarks públicos torna o Granite 4.0 1B Speech um candidato natural para empresas que querem construir soluções de voz sem ficarem presas a serviços proprietários. O fato de o modelo liderar rankings como o OpenASR, mesmo com apenas 1 bilhão de parâmetros, mostra que há espaço para arquiteturas mais enxutas competirem com gigantes em tarefas de ASR e AST.
Para times de engenharia, isso se traduz em custos menores de GPU/CPU, possibilidade de deployment on-premises ou no edge e mais controle sobre toda a cadeia de dados de áudio.
Para a comunidade, é mais um passo na direção de um ecossistema de IA de voz verdadeiramente aberto, no qual modelos de fala de alta qualidade podem ser auditados, adaptados e combinados com outras peças (TTS, LLMs de texto, agentes) sem barreiras artificiais.
Até o próximo post.











