OpenVINO 2025.0.0 lançado!

Este mês de fevereiro foi lançado o openVINO 20.25.0.0, abaixo as novidades:

Maior cobertura de GenAI e integrações de frameworks para minimizar alterações no código.

  • Novos modelos suportados: Qwen 2.5, Deepseek-R1-Distill-Llama-8B, DeepSeek-R1-Distill-Qwen-7B, DeepSeek-R1-Distill-Qwen-1.5B, FLUX.1 Schnell e FLUX.1 Dev.
  • Modelo Whisper: Melhor desempenho em CPUs, GPUs integradas e GPUs discretas com a API GenAI.
  • Prévia: Introdução do suporte a NPU para torch.compile, permitindo que desenvolvedores usem o backend OpenVINO para executar a API do PyTorch em NPUs. Mais de 300 modelos de deep learning habilitados dos repositórios TorchVision, Timm e TorchBench.

Suporte mais amplo para Modelos de Linguagem (LLMs) e mais técnicas de compressão de modelos.

  • Prévia: Adição de Prompt Lookup à API GenAI, melhorando a latência do segundo token para LLMs por meio da utilização eficaz de prompts predefinidos.
  • Prévia: A API GenAI agora oferece funcionalidade de inpainting de imagem para imagem, permitindo que os modelos gerem conteúdo realista modificando partes específicas e integrando-as à imagem original.
  • Compressão de Cache KV Assimétrica agora ativada para INT8 em CPUs, reduzindo o consumo de memória e melhorando a latência do segundo token, especialmente para prompts longos.

Maior portabilidade e desempenho para executar IA na borda, na nuvem ou localmente.

  • Suporte aos processadores mais recentes da série Intel® Core™ Ultra 200H (codinome Arrow Lake-H).
  • Integração do backend OpenVINO™ com o Triton Inference Server, melhorando a inferência em CPUs Intel.
  • Prévia: Integração com o backend OpenVINO no Keras 3, permitindo inferência otimizada em CPUs, GPUs integradas, GPUs discretas e NPUs no Keras 3.8.
  • O OpenVINO Model Server agora suporta implementações nativas no Windows Server, eliminando a sobrecarga de contêineres e simplificando a implantação de GPUs.

Funcionalidades Descontinuadas

  • Prefixos legados l_, w_ e m_ foram removidos dos nomes de arquivos do OpenVINO.
  • O namespace de runtime para a API Python foi marcado como obsoleto e será removido na versão 2026.0.
  • Método create_compressed_model() do NNCF foi descontinuado. Agora, recomenda-se o uso de nncf.quantize() para Treinamento Consciente de Quantização em modelos PyTorch e TensorFlow.

OpenVINO™ Runtime

Suporte Comum

  • Habilitado suporte ao Python 3.13 no OpenVINO Runtime.
  • Correção do modo de inferência AUTO, que não carregava modelos para NPU em processadores Intel® Core™ Ultra 200V.
  • Correção de falhas ao sair de aplicativos com ov::CompiledModel, ov::InferRequest ou ov::Model definidos como variáveis estáticas.

Plugin para CPU

  • Suporte completo aos processadores Intel® Core™ Ultra 200H.
  • Compressão Assimétrica do Cache KV 8bit ativada por padrão para modelos de linguagem, reduzindo o consumo de memória e melhorando a inferência.
  • Suporte opcional à compressão de Cache KV 4bit para economia ainda maior de memória.
  • Melhoria no desempenho de modelos FP16 na 6ª geração dos Intel® Xeon®, com melhor uso do AMX FP16.
  • Melhoria na performance de modelos LLM ao usar APIs GenAI do OpenVINO com batching contínuo.
  • Suporte a sistemas com núcleos de CPU desativados, usados em virtualização e sistemas em tempo real.

Plugin para GPU

  • Melhoria na inferência de modelos de linguagem com ScaledDotProductAttention (SDPA), otimizando prompts longos (>4k tokens).
  • Suporte a modelos com estado, melhorando o desempenho do Whisper em todas as plataformas de GPU.
  • Correção do problema de saída preta para modelos de geração de imagem em FP16, incluindo SDXL, SD3 e FLUX.1.

Plugin para NPU

  • Otimização de desempenho para modelos LLM quantizados simetricamente em 4-bit (INT4), incluindo Llama2-7B-chat, Llama3-8B-instruct, Qwen-2-7B, Mistral-0.2-7B-Instruct, Phi-3-Mini-4K-Instruct, MiniCPM-1B.
  • Prévia: Suporte a torch.compile com OpenVINO no PyTorch em NPUs.

APIs e Frameworks

OpenVINO Python API

  • Ov:OpExtension agora disponível, permitindo experimentação com operadores customizados em Python.
  • Classe Constant expandida, adicionando métodos get_tensor_view e get_strides para manipulação avançada de tensores.

OpenVINO Node.js API

  • Bindings de tokenizer para JavaScript disponíveis via npm.

Suporte ao TensorFlow

  • Correções no TensorListLength, ToBool e UniqueWithCounts.

Suporte ao PyTorch

  • Prévia: Conversão de modelos PyTorch com compressão de pesos AWQ, incluindo SauerkrautLM-Mixtral-8x7B-AWQ.

Suporte ao Keras 3

  • Prévia: Inferência apenas com OpenVINO no Keras 3.8. Para ativar, defina KERAS_BACKEND=openvino.

OpenVINO Model Server

  • Implementação nativa no Windows Server.
  • Suporte a endpoints generativos compatíveis com OpenAI API.
  • Desempenho otimizado para Intel® Arc™ B-Series Graphics.
  • Migração para Ubuntu 24 e Red Hat UBI 9.
  • Suporte a truncamento no endpoint de embeddings.
  • Decodificação especulativa adicionada para geração de texto.
  • Correção de bugs no cancelamento de geração de texto e detecção do contexto do modelo.

Compressão de Redes Neurais (NNCF)

  • Redução no tempo de quantização pós-treinamento com Fast Bias Correction.
  • Novo método quantize_pt2e() para quantização precisa de modelos Torch FX.
  • Novo OpenVINOQuantizer para modelos PyTorch 2 quantizados.
  • Método nncf.quantize() agora recomendado para Treinamento Consciente de Quantização (QAT).

OpenVINO Tokenizers

  • Suporte aos modelos: GLM Edge, ModernBERT, BART-G2P.
  • Validação UTF-8 ativada por padrão no detokenizer.

OpenVINO GenAI

  • Adicionados novos modelos: FLUX.1-Schnell, Flux.1-Lite-8B-Alpha, FLUX.1-Dev e Shuttle-3-Diffusion.
  • Suporte a Qwen2VL no VLMPipeline.
  • Pipelines de Geração de Imagem: Image2Image e Inpainting, otimizados para modelos baseados em Unet.
  • T5 Encoder adicionado ao pipeline SD3.

Problemas Conhecidos

  • Conversão de modelos TensorFlow Object Detection para IR resulta em baixo desempenho. Use o MO da versão 2024.6 ou anterior.
  • Erro na conversão de ONNX com openvino-tokenizers. Solução: desinstalar openvino-tokenizers antes da conversão.
  • Falha de segmentação ao quantizar modelos no Intel® Core™ Ultra 200V. Solução: export DNNL_MAX_CPU_ISA=AVX2_VNNI.
  • Degradação de precisão em modelos como YOLOv5, mobilenet-v3 e modnet. Use o OpenVINO 2024.6.

Funcionalidades em Descontinuação

  • Ubuntu 20.04 será descontinuado.
  • openvino-nightly será substituído pelo Simple PyPI nightly repo.
  • Suporte ao MacOS x86 será removido em 2025.
  • Nova estrutura do namespace OpenVINO Python para 2026.

Isso cobre todas as novidades e mudanças do OpenVINO! 🚀

Deixe um comentário

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.