OpenVINO 2025.1.0 Lançado

Como mantenedor do OpenVINO na distribuição OpenSUSE for INNOVATORS base de tecnologia MultiCortex, disponibilizo as principais novidades desta versão.

📈 Maior cobertura em Gen AI e integração com frameworks para minimizar alterações no código:

  • Novos modelos suportados: Phi-4 Mini, Jina CLIP v1 e Bce Embedding Base v1.
  • O OpenVINO™ Model Server agora suporta modelos VLM, incluindo Qwen2-VL, Phi-3.5-Vision e InternVL2.
  • OpenVINO GenAI agora inclui recursos de image-to-image e inpainting para pipelines baseados em transformers como Flux.1 e Stable Diffusion 3.
  • Prévia: O AI Playground agora utiliza o backend do OpenVINO GenAI para inferência altamente otimizada em PCs com IA.

🧠 Suporte ampliado para LLMs e novas técnicas de compressão:

  • Redução no tamanho do binário via otimização do plugin CPU e remoção do kernel GEMM.
  • Novos kernels otimizados para GPU melhoram o desempenho de modelos LSTM usados em reconhecimento de fala, modelagem de linguagem e previsão de séries temporais.
  • Prévia: Implementação de Token Eviction no GenAI reduz o uso de memória do KV Cache ao descartar tokens irrelevantes, útil para chatbots e geração de código.
  • Aceleração por NPU agora habilitada no OpenVINO Runtime e Model Server para modelos VLM em PCs com IA de baixa concorrência.

🌍 Mais portabilidade e desempenho para executar IA na borda, na nuvem ou localmente:

  • Suporte para os mais recentes processadores Intel® Core™ (série 2, codinome Bartlett Lake), Core™ 3 Processor N-series e Processor N-series (Twin Lake) no Windows.
  • Otimizações de LLM em processadores Intel® Core™ Ultra 200H com melhor latência do segundo token.
  • Paged Attention e Continuous Batching ativados por padrão no plugin GPU.
  • Prévia: Backend OpenVINO para Executorch trará inferência acelerada em CPUs, GPUs e NPUs Intel.

OpenVINO™ Runtime

Geral

  • Compressão de pesos agora pode ser feita com atraso para economizar memória.
  • Registro de extensões por frontend (nova API).
  • Tensors com mmap permitem leitura direta do disco com menos uso de memória (ex.: ao usar LoRa em GenAI).

Plugin de dispositivo CPU

  • Quantização dinâmica de camadas Fully Connected com pesos assimétricos ativada em AVX2.
  • Desempenho de LLMs com pesos comprimidos otimizado, especialmente na latência do primeiro token.
  • Suporte a fusão de projeção QKV e MLP em BF16 no Windows em plataformas AMX.
  • Kernel GEMM removido da biblioteca CPU.
  • Suporte a modelos FP8 (f8e4m3 e f8e5m2) aprimorado.

Plugin de dispositivo GPU

  • Latência do segundo token melhorada com otimizações no TLB e Group Query Attention.
  • Latência do primeiro token reduzida com Paged Attention.
  • Cache KV comprimido em Int8 ativado por padrão.
  • Desempenho de modelos VLM melhorado com extensões XMX.

Plugin de dispositivo NPU

  • Suporte a cache sem pesos e criptografia de blobs de LLMs.
  • Novas APIs para carregar modelos do cache com menor uso de memória.
  • Suporte a entrada/saída NF4 (4-bit NormalFloat).
  • Correções de bugs: modelos com estado e erros com zeContextDestroy.

API Python

  • Agora é possível criar Tensor diretamente a partir de uma imagem Pillow.
  • Redução no uso de memória em export_model, read_model, compile_model.

API Node.js

  • Bindings GenAI agora disponíveis no pacote genai-node no npm.

Suporte a Frameworks

PyTorch

  • Suporte ao PyTorch 2.6.
  • Tradutores comuns para operações em PyTorch, TensorFlow, ONNX e JAX.
  • Conversão de modelos FP8 e TTS com STFT/ISTFT ativada.

JAX

  • Suporte validado para JAX 0.5.2 e Flax 0.10.4.

Keras 3

  • Compatível com Keras 3.9.0.
  • Testes mais granulares por operação.

TensorFlow Lite

  • Suporte para modelos com tensores quantizados entre camadas em tempo de execução.

OpenVINO Model Server

Novos recursos principais:

  • Suporte a modelos VLM com batching contínuo e envio de imagens no contexto do chat.
  • Suporte a aceleração por NPU para geração de texto com endpoints de completions.

Melhorias gerais:

  • Modelos e grafos mediapipe agora iniciáveis via linha de comando.
  • Demonstração de escalabilidade com múltiplas instâncias.
  • Aumento do número de stop words permitido por requisição (4 → 16).
  • Integração com a extensão VS Code Continue.
  • Melhorias de desempenho para cargas de alta concorrência.

Mudanças críticas:

  • Servidor gRPC agora é opcional. É obrigatório passar --port ou --rest_port.
  • Correções em contexto de LLM (excede comprimento, erro se prompt muito longo, etc.).
  • Melhorias de segurança, estabilidade e suporte ao cancelamento sem streaming.

Limitações conhecidas:

  • Chat/completions só aceita imagens em base64, não em URL.

Neural Network Compression Framework (NNCF)

  • Suporte preview para Treinamento Ciente de Quantização (QAT) com LoRA em PyTorch (método FQ_LORA).
  • Novos métodos de compressão 4-bit para pesos em PyTorch.
  • Redução no tempo e uso de memória em compressão GPTQ e mista.
  • Novo tracing baseado em TorchFunctionMode.
  • Várias melhorias no backend TorchFX e adoção de quantizadores personalizados.
  • Suporte preview para backend OpenVINO no ExecuTorch.
  • Suporte a PyTorch 2.6.

OpenVINO Tokenizers

  • Suporte ao modelo de tokenização Unigram.
  • Compilação com ICU opcional para reduzir binário.
  • Ajuste dinâmico de max_length e padding com classe Tokenizer.
  • Dependência de fast_tokenizer removida.

OpenVINO GenAI

  • Métodos demorados liberam o GIL.
  • Suporte preview a Token Eviction.
  • Bindings C e JavaScript para LLMPipeline.
  • suporte aos modelos Phi-3-vision-128k-instruct e Phi-3.5-vision-instruct.
  • Novos pipelines de Image2image e Inpainting com FLUX e Stable Diffusion 3.
  • LLMPipeline agora usa Paged Attention por padrão.
  • Streaming ocorre em thread separada.
  • Template de chat aplicado mesmo com modo desativado (configurável).

Deixe um comentário

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.