
Este mês de fevereiro foi lançado o openVINO 20.25.0.0, abaixo as novidades:
Maior cobertura de GenAI e integrações de frameworks para minimizar alterações no código.
- Novos modelos suportados: Qwen 2.5, Deepseek-R1-Distill-Llama-8B, DeepSeek-R1-Distill-Qwen-7B, DeepSeek-R1-Distill-Qwen-1.5B, FLUX.1 Schnell e FLUX.1 Dev.
- Modelo Whisper: Melhor desempenho em CPUs, GPUs integradas e GPUs discretas com a API GenAI.
- Prévia: Introdução do suporte a NPU para
torch.compile, permitindo que desenvolvedores usem o backend OpenVINO para executar a API do PyTorch em NPUs. Mais de 300 modelos de deep learning habilitados dos repositórios TorchVision, Timm e TorchBench.
Suporte mais amplo para Modelos de Linguagem (LLMs) e mais técnicas de compressão de modelos.
- Prévia: Adição de Prompt Lookup à API GenAI, melhorando a latência do segundo token para LLMs por meio da utilização eficaz de prompts predefinidos.
- Prévia: A API GenAI agora oferece funcionalidade de inpainting de imagem para imagem, permitindo que os modelos gerem conteúdo realista modificando partes específicas e integrando-as à imagem original.
- Compressão de Cache KV Assimétrica agora ativada para INT8 em CPUs, reduzindo o consumo de memória e melhorando a latência do segundo token, especialmente para prompts longos.
Maior portabilidade e desempenho para executar IA na borda, na nuvem ou localmente.
- Suporte aos processadores mais recentes da série Intel® Core™ Ultra 200H (codinome Arrow Lake-H).
- Integração do backend OpenVINO™ com o Triton Inference Server, melhorando a inferência em CPUs Intel.
- Prévia: Integração com o backend OpenVINO no Keras 3, permitindo inferência otimizada em CPUs, GPUs integradas, GPUs discretas e NPUs no Keras 3.8.
- O OpenVINO Model Server agora suporta implementações nativas no Windows Server, eliminando a sobrecarga de contêineres e simplificando a implantação de GPUs.
Funcionalidades Descontinuadas
- Prefixos legados
l_,w_em_foram removidos dos nomes de arquivos do OpenVINO. - O namespace de runtime para a API Python foi marcado como obsoleto e será removido na versão 2026.0.
- Método
create_compressed_model()do NNCF foi descontinuado. Agora, recomenda-se o uso denncf.quantize()para Treinamento Consciente de Quantização em modelos PyTorch e TensorFlow.
OpenVINO™ Runtime
Suporte Comum
- Habilitado suporte ao Python 3.13 no OpenVINO Runtime.
- Correção do modo de inferência AUTO, que não carregava modelos para NPU em processadores Intel® Core™ Ultra 200V.
- Correção de falhas ao sair de aplicativos com
ov::CompiledModel,ov::InferRequestouov::Modeldefinidos como variáveis estáticas.
Plugin para CPU
- Suporte completo aos processadores Intel® Core™ Ultra 200H.
- Compressão Assimétrica do Cache KV 8bit ativada por padrão para modelos de linguagem, reduzindo o consumo de memória e melhorando a inferência.
- Suporte opcional à compressão de Cache KV 4bit para economia ainda maior de memória.
- Melhoria no desempenho de modelos FP16 na 6ª geração dos Intel® Xeon®, com melhor uso do AMX FP16.
- Melhoria na performance de modelos LLM ao usar APIs GenAI do OpenVINO com batching contínuo.
- Suporte a sistemas com núcleos de CPU desativados, usados em virtualização e sistemas em tempo real.
Plugin para GPU
- Melhoria na inferência de modelos de linguagem com ScaledDotProductAttention (SDPA), otimizando prompts longos (>4k tokens).
- Suporte a modelos com estado, melhorando o desempenho do Whisper em todas as plataformas de GPU.
- Correção do problema de saída preta para modelos de geração de imagem em FP16, incluindo SDXL, SD3 e FLUX.1.
Plugin para NPU
- Otimização de desempenho para modelos LLM quantizados simetricamente em 4-bit (INT4), incluindo Llama2-7B-chat, Llama3-8B-instruct, Qwen-2-7B, Mistral-0.2-7B-Instruct, Phi-3-Mini-4K-Instruct, MiniCPM-1B.
- Prévia: Suporte a torch.compile com OpenVINO no PyTorch em NPUs.
APIs e Frameworks
OpenVINO Python API
- Ov:OpExtension agora disponível, permitindo experimentação com operadores customizados em Python.
- Classe Constant expandida, adicionando métodos
get_tensor_vieweget_stridespara manipulação avançada de tensores.
OpenVINO Node.js API
- Bindings de tokenizer para JavaScript disponíveis via npm.
Suporte ao TensorFlow
- Correções no
TensorListLength,ToBooleUniqueWithCounts.
Suporte ao PyTorch
- Prévia: Conversão de modelos PyTorch com compressão de pesos AWQ, incluindo SauerkrautLM-Mixtral-8x7B-AWQ.
Suporte ao Keras 3
- Prévia: Inferência apenas com OpenVINO no Keras 3.8. Para ativar, defina
KERAS_BACKEND=openvino.
OpenVINO Model Server
- Implementação nativa no Windows Server.
- Suporte a endpoints generativos compatíveis com OpenAI API.
- Desempenho otimizado para Intel® Arc™ B-Series Graphics.
- Migração para Ubuntu 24 e Red Hat UBI 9.
- Suporte a truncamento no endpoint de embeddings.
- Decodificação especulativa adicionada para geração de texto.
- Correção de bugs no cancelamento de geração de texto e detecção do contexto do modelo.
Compressão de Redes Neurais (NNCF)
- Redução no tempo de quantização pós-treinamento com Fast Bias Correction.
- Novo método
quantize_pt2e()para quantização precisa de modelos Torch FX. - Novo
OpenVINOQuantizerpara modelos PyTorch 2 quantizados. - Método
nncf.quantize()agora recomendado para Treinamento Consciente de Quantização (QAT).
OpenVINO Tokenizers
- Suporte aos modelos: GLM Edge, ModernBERT, BART-G2P.
- Validação UTF-8 ativada por padrão no detokenizer.
OpenVINO GenAI
- Adicionados novos modelos: FLUX.1-Schnell, Flux.1-Lite-8B-Alpha, FLUX.1-Dev e Shuttle-3-Diffusion.
- Suporte a Qwen2VL no VLMPipeline.
- Pipelines de Geração de Imagem:
Image2ImageeInpainting, otimizados para modelos baseados em Unet. - T5 Encoder adicionado ao pipeline SD3.
Problemas Conhecidos
- Conversão de modelos TensorFlow Object Detection para IR resulta em baixo desempenho. Use o MO da versão 2024.6 ou anterior.
- Erro na conversão de ONNX com
openvino-tokenizers. Solução: desinstalaropenvino-tokenizersantes da conversão. - Falha de segmentação ao quantizar modelos no Intel® Core™ Ultra 200V. Solução:
export DNNL_MAX_CPU_ISA=AVX2_VNNI. - Degradação de precisão em modelos como
YOLOv5,mobilenet-v3emodnet. Use o OpenVINO 2024.6.
Funcionalidades em Descontinuação
- Ubuntu 20.04 será descontinuado.
openvino-nightlyserá substituído pelo Simple PyPI nightly repo.- Suporte ao MacOS x86 será removido em 2025.
- Nova estrutura do namespace OpenVINO Python para 2026.
Isso cobre todas as novidades e mudanças do OpenVINO! 🚀