Como mantenedor do OpenVINO na distribuição OpenSUSE for INNOVATORS base de tecnologia MultiCortex, disponibilizo as principais novidades desta versão.

📈 Maior cobertura em Gen AI e integração com frameworks para minimizar alterações no código:
- Novos modelos suportados: Phi-4 Mini, Jina CLIP v1 e Bce Embedding Base v1.
- O OpenVINO™ Model Server agora suporta modelos VLM, incluindo Qwen2-VL, Phi-3.5-Vision e InternVL2.
- OpenVINO GenAI agora inclui recursos de image-to-image e inpainting para pipelines baseados em transformers como Flux.1 e Stable Diffusion 3.
- Prévia: O AI Playground agora utiliza o backend do OpenVINO GenAI para inferência altamente otimizada em PCs com IA.
🧠 Suporte ampliado para LLMs e novas técnicas de compressão:
- Redução no tamanho do binário via otimização do plugin CPU e remoção do kernel GEMM.
- Novos kernels otimizados para GPU melhoram o desempenho de modelos LSTM usados em reconhecimento de fala, modelagem de linguagem e previsão de séries temporais.
- Prévia: Implementação de Token Eviction no GenAI reduz o uso de memória do KV Cache ao descartar tokens irrelevantes, útil para chatbots e geração de código.
- Aceleração por NPU agora habilitada no OpenVINO Runtime e Model Server para modelos VLM em PCs com IA de baixa concorrência.
🌍 Mais portabilidade e desempenho para executar IA na borda, na nuvem ou localmente:
- Suporte para os mais recentes processadores Intel® Core™ (série 2, codinome Bartlett Lake), Core™ 3 Processor N-series e Processor N-series (Twin Lake) no Windows.
- Otimizações de LLM em processadores Intel® Core™ Ultra 200H com melhor latência do segundo token.
- Paged Attention e Continuous Batching ativados por padrão no plugin GPU.
- Prévia: Backend OpenVINO para Executorch trará inferência acelerada em CPUs, GPUs e NPUs Intel.
OpenVINO™ Runtime
Geral
- Compressão de pesos agora pode ser feita com atraso para economizar memória.
- Registro de extensões por frontend (nova API).
- Tensors com mmap permitem leitura direta do disco com menos uso de memória (ex.: ao usar LoRa em GenAI).
Plugin de dispositivo CPU
- Quantização dinâmica de camadas Fully Connected com pesos assimétricos ativada em AVX2.
- Desempenho de LLMs com pesos comprimidos otimizado, especialmente na latência do primeiro token.
- Suporte a fusão de projeção QKV e MLP em BF16 no Windows em plataformas AMX.
- Kernel GEMM removido da biblioteca CPU.
- Suporte a modelos FP8 (f8e4m3 e f8e5m2) aprimorado.
Plugin de dispositivo GPU
- Latência do segundo token melhorada com otimizações no TLB e Group Query Attention.
- Latência do primeiro token reduzida com Paged Attention.
- Cache KV comprimido em Int8 ativado por padrão.
- Desempenho de modelos VLM melhorado com extensões XMX.
Plugin de dispositivo NPU
- Suporte a cache sem pesos e criptografia de blobs de LLMs.
- Novas APIs para carregar modelos do cache com menor uso de memória.
- Suporte a entrada/saída NF4 (4-bit NormalFloat).
- Correções de bugs: modelos com estado e erros com
zeContextDestroy.
API Python
- Agora é possível criar
Tensordiretamente a partir de uma imagem Pillow. - Redução no uso de memória em
export_model,read_model,compile_model.
API Node.js
- Bindings GenAI agora disponíveis no pacote
genai-nodeno npm.
Suporte a Frameworks
PyTorch
- Suporte ao PyTorch 2.6.
- Tradutores comuns para operações em PyTorch, TensorFlow, ONNX e JAX.
- Conversão de modelos FP8 e TTS com STFT/ISTFT ativada.
JAX
- Suporte validado para JAX 0.5.2 e Flax 0.10.4.
Keras 3
- Compatível com Keras 3.9.0.
- Testes mais granulares por operação.
TensorFlow Lite
- Suporte para modelos com tensores quantizados entre camadas em tempo de execução.
OpenVINO Model Server
Novos recursos principais:
- Suporte a modelos VLM com batching contínuo e envio de imagens no contexto do chat.
- Suporte a aceleração por NPU para geração de texto com endpoints de completions.
Melhorias gerais:
- Modelos e grafos
mediapipeagora iniciáveis via linha de comando. - Demonstração de escalabilidade com múltiplas instâncias.
- Aumento do número de stop words permitido por requisição (4 → 16).
- Integração com a extensão VS Code Continue.
- Melhorias de desempenho para cargas de alta concorrência.
Mudanças críticas:
- Servidor gRPC agora é opcional. É obrigatório passar
--portou--rest_port. - Correções em contexto de LLM (excede comprimento, erro se prompt muito longo, etc.).
- Melhorias de segurança, estabilidade e suporte ao cancelamento sem streaming.
Limitações conhecidas:
- Chat/completions só aceita imagens em base64, não em URL.
Neural Network Compression Framework (NNCF)
- Suporte preview para Treinamento Ciente de Quantização (QAT) com LoRA em PyTorch (método FQ_LORA).
- Novos métodos de compressão 4-bit para pesos em PyTorch.
- Redução no tempo e uso de memória em compressão GPTQ e mista.
- Novo tracing baseado em
TorchFunctionMode. - Várias melhorias no backend TorchFX e adoção de quantizadores personalizados.
- Suporte preview para backend OpenVINO no ExecuTorch.
- Suporte a PyTorch 2.6.
OpenVINO Tokenizers
- Suporte ao modelo de tokenização Unigram.
- Compilação com ICU opcional para reduzir binário.
- Ajuste dinâmico de
max_lengthepaddingcom classe Tokenizer. - Dependência de
fast_tokenizerremovida.
OpenVINO GenAI
- Métodos demorados liberam o GIL.
- Suporte preview a Token Eviction.
- Bindings C e JavaScript para
LLMPipeline. - suporte aos modelos
Phi-3-vision-128k-instructePhi-3.5-vision-instruct. - Novos pipelines de Image2image e Inpainting com FLUX e Stable Diffusion 3.
LLMPipelineagora usa Paged Attention por padrão.- Streaming ocorre em thread separada.
- Template de chat aplicado mesmo com modo desativado (configurável).