Este mês de fevereiro foi lançado o openVINO 20.25.0.0, abaixo as novidades:

Maior cobertura de GenAI e integrações de frameworks para minimizar alterações no código.

Novos modelos suportados: Qwen 2.5, Deepseek-R1-Distill-Llama-8B, DeepSeek-R1-Distill-Qwen-7B, DeepSeek-R1-Distill-Qwen-1.5B, FLUX.1 Schnell e FLUX.1 Dev.
Modelo Whisper: Melhor desempenho em CPUs, GPUs integradas e GPUs discretas com a API GenAI.
Prévia: Introdução do suporte a NPU para torch.compile, permitindo que desenvolvedores usem o backend OpenVINO para executar a API do PyTorch em NPUs. Mais de 300 modelos de deep learning habilitados dos repositórios TorchVision, Timm e TorchBench.

Suporte mais amplo para Modelos de Linguagem (LLMs) e mais técnicas de compressão de modelos.

Prévia: Adição de Prompt Lookup à API GenAI, melhorando a latência do segundo token para LLMs por meio da utilização eficaz de prompts predefinidos.
Prévia: A API GenAI agora oferece funcionalidade de inpainting de imagem para imagem, permitindo que os modelos gerem conteúdo realista modificando partes específicas e integrando-as à imagem original.
Compressão de Cache KV Assimétrica agora ativada para INT8 em CPUs, reduzindo o consumo de memória e melhorando a latência do segundo token, especialmente para prompts longos.

Maior portabilidade e desempenho para executar IA na borda, na nuvem ou localmente.

Suporte aos processadores mais recentes da série Intel® Core™ Ultra 200H (codinome Arrow Lake-H).
Integração do backend OpenVINO™ com o Triton Inference Server, melhorando a inferência em CPUs Intel.
Prévia: Integração com o backend OpenVINO no Keras 3, permitindo inferência otimizada em CPUs, GPUs integradas, GPUs discretas e NPUs no Keras 3.8.
O OpenVINO Model Server agora suporta implementações nativas no Windows Server, eliminando a sobrecarga de contêineres e simplificando a implantação de GPUs.

Funcionalidades Descontinuadas

Prefixos legados l_, w_ e m_ foram removidos dos nomes de arquivos do OpenVINO.
O namespace de runtime para a API Python foi marcado como obsoleto e será removido na versão 2026.0.
Método create_compressed_model() do NNCF foi descontinuado. Agora, recomenda-se o uso de nncf.quantize() para Treinamento Consciente de Quantização em modelos PyTorch e TensorFlow.

OpenVINO™ Runtime

Suporte Comum

Habilitado suporte ao Python 3.13 no OpenVINO Runtime.
Correção do modo de inferência AUTO, que não carregava modelos para NPU em processadores Intel® Core™ Ultra 200V.
Correção de falhas ao sair de aplicativos com ov::CompiledModel, ov::InferRequest ou ov::Model definidos como variáveis estáticas.

Plugin para CPU

Suporte completo aos processadores Intel® Core™ Ultra 200H.
Compressão Assimétrica do Cache KV 8bit ativada por padrão para modelos de linguagem, reduzindo o consumo de memória e melhorando a inferência.
Suporte opcional à compressão de Cache KV 4bit para economia ainda maior de memória.
Melhoria no desempenho de modelos FP16 na 6ª geração dos Intel® Xeon®, com melhor uso do AMX FP16.
Melhoria na performance de modelos LLM ao usar APIs GenAI do OpenVINO com batching contínuo.
Suporte a sistemas com núcleos de CPU desativados, usados em virtualização e sistemas em tempo real.

Plugin para GPU

Melhoria na inferência de modelos de linguagem com ScaledDotProductAttention (SDPA), otimizando prompts longos (>4k tokens).
Suporte a modelos com estado, melhorando o desempenho do Whisper em todas as plataformas de GPU.
Correção do problema de saída preta para modelos de geração de imagem em FP16, incluindo SDXL, SD3 e FLUX.1.

Plugin para NPU

Otimização de desempenho para modelos LLM quantizados simetricamente em 4-bit (INT4), incluindo Llama2-7B-chat, Llama3-8B-instruct, Qwen-2-7B, Mistral-0.2-7B-Instruct, Phi-3-Mini-4K-Instruct, MiniCPM-1B.
Prévia: Suporte a torch.compile com OpenVINO no PyTorch em NPUs.

APIs e Frameworks

OpenVINO Python API

Ov:OpExtension agora disponível, permitindo experimentação com operadores customizados em Python.
Classe Constant expandida, adicionando métodos get_tensor_view e get_strides para manipulação avançada de tensores.

OpenVINO Node.js API

Bindings de tokenizer para JavaScript disponíveis via npm.

Suporte ao TensorFlow

Correções no TensorListLength, ToBool e UniqueWithCounts.

Suporte ao PyTorch

Prévia: Conversão de modelos PyTorch com compressão de pesos AWQ, incluindo SauerkrautLM-Mixtral-8x7B-AWQ.

Suporte ao Keras 3

Prévia: Inferência apenas com OpenVINO no Keras 3.8. Para ativar, defina KERAS_BACKEND=openvino.

OpenVINO Model Server

Implementação nativa no Windows Server.
Suporte a endpoints generativos compatíveis com OpenAI API.
Desempenho otimizado para Intel® Arc™ B-Series Graphics.
Migração para Ubuntu 24 e Red Hat UBI 9.
Suporte a truncamento no endpoint de embeddings.
Decodificação especulativa adicionada para geração de texto.
Correção de bugs no cancelamento de geração de texto e detecção do contexto do modelo.

Compressão de Redes Neurais (NNCF)

Redução no tempo de quantização pós-treinamento com Fast Bias Correction.
Novo método quantize_pt2e() para quantização precisa de modelos Torch FX.
Novo OpenVINOQuantizer para modelos PyTorch 2 quantizados.
Método nncf.quantize() agora recomendado para Treinamento Consciente de Quantização (QAT).

OpenVINO Tokenizers

Suporte aos modelos: GLM Edge, ModernBERT, BART-G2P.
Validação UTF-8 ativada por padrão no detokenizer.

OpenVINO GenAI

Adicionados novos modelos: FLUX.1-Schnell, Flux.1-Lite-8B-Alpha, FLUX.1-Dev e Shuttle-3-Diffusion.
Suporte a Qwen2VL no VLMPipeline.
Pipelines de Geração de Imagem: Image2Image e Inpainting, otimizados para modelos baseados em Unet.
T5 Encoder adicionado ao pipeline SD3.

Problemas Conhecidos

Conversão de modelos TensorFlow Object Detection para IR resulta em baixo desempenho. Use o MO da versão 2024.6 ou anterior.
Erro na conversão de ONNX com openvino-tokenizers. Solução: desinstalar openvino-tokenizers antes da conversão.
Falha de segmentação ao quantizar modelos no Intel® Core™ Ultra 200V. Solução: export DNNL_MAX_CPU_ISA=AVX2_VNNI.
Degradação de precisão em modelos como YOLOv5, mobilenet-v3 e modnet. Use o OpenVINO 2024.6.

Funcionalidades em Descontinuação

Ubuntu 20.04 será descontinuado.
openvino-nightly será substituído pelo Simple PyPI nightly repo.
Suporte ao MacOS x86 será removido em 2025.
Nova estrutura do namespace OpenVINO Python para 2026.

Isso cobre todas as novidades e mudanças do OpenVINO! 🚀

Assunto NERD:

"Colaborar atrai amigos, competir atrai inimigos …"

OpenVINO 2025.0.0 lançado!

Este mês de fevereiro foi lançado o openVINO 20.25.0.0, abaixo as novidades:

Maior cobertura de GenAI e integrações de frameworks para minimizar alterações no código.

Suporte mais amplo para Modelos de Linguagem (LLMs) e mais técnicas de compressão de modelos.

Maior portabilidade e desempenho para executar IA na borda, na nuvem ou localmente.

Funcionalidades Descontinuadas

OpenVINO™ Runtime

Suporte Comum

Plugin para CPU

Plugin para GPU

Plugin para NPU

APIs e Frameworks

OpenVINO Python API

OpenVINO Node.js API

Suporte ao TensorFlow

Suporte ao PyTorch

Suporte ao Keras 3

OpenVINO Model Server

Compressão de Redes Neurais (NNCF)

OpenVINO Tokenizers

OpenVINO GenAI

Problemas Conhecidos

Funcionalidades em Descontinuação

Deixe um comentário Cancelar resposta

Este mês de fevereiro foi lançado o openVINO 20.25.0.0, abaixo as novidades:

Maior cobertura de GenAI e integrações de frameworks para minimizar alterações no código.

Suporte mais amplo para Modelos de Linguagem (LLMs) e mais técnicas de compressão de modelos.

Maior portabilidade e desempenho para executar IA na borda, na nuvem ou localmente.

Funcionalidades Descontinuadas

OpenVINO™ Runtime

Suporte Comum

Plugin para CPU

Plugin para GPU

Plugin para NPU

APIs e Frameworks

OpenVINO Python API

OpenVINO Node.js API

Suporte ao TensorFlow

Suporte ao PyTorch

Suporte ao Keras 3

OpenVINO Model Server

Compressão de Redes Neurais (NNCF)

OpenVINO Tokenizers

OpenVINO GenAI

Problemas Conhecidos

Funcionalidades em Descontinuação

Compartilhe isso:

Deixe um comentário Cancelar resposta