OpenVINO 2025.1.0 Lançado

Como mantenedor do OpenVINO na distribuição OpenSUSE for INNOVATORS base de tecnologia MultiCortex, disponibilizo as principais novidades desta versão.

📈 Maior cobertura em Gen AI e integração com frameworks para minimizar alterações no código:

Novos modelos suportados: Phi-4 Mini, Jina CLIP v1 e Bce Embedding Base v1.
O OpenVINO™ Model Server agora suporta modelos VLM, incluindo Qwen2-VL, Phi-3.5-Vision e InternVL2.
OpenVINO GenAI agora inclui recursos de image-to-image e inpainting para pipelines baseados em transformers como Flux.1 e Stable Diffusion 3.
Prévia: O AI Playground agora utiliza o backend do OpenVINO GenAI para inferência altamente otimizada em PCs com IA.

🧠 Suporte ampliado para LLMs e novas técnicas de compressão:

Redução no tamanho do binário via otimização do plugin CPU e remoção do kernel GEMM.
Novos kernels otimizados para GPU melhoram o desempenho de modelos LSTM usados em reconhecimento de fala, modelagem de linguagem e previsão de séries temporais.
Prévia: Implementação de Token Eviction no GenAI reduz o uso de memória do KV Cache ao descartar tokens irrelevantes, útil para chatbots e geração de código.
Aceleração por NPU agora habilitada no OpenVINO Runtime e Model Server para modelos VLM em PCs com IA de baixa concorrência.

🌍 Mais portabilidade e desempenho para executar IA na borda, na nuvem ou localmente:

Suporte para os mais recentes processadores Intel® Core™ (série 2, codinome Bartlett Lake), Core™ 3 Processor N-series e Processor N-series (Twin Lake) no Windows.
Otimizações de LLM em processadores Intel® Core™ Ultra 200H com melhor latência do segundo token.
Paged Attention e Continuous Batching ativados por padrão no plugin GPU.
Prévia: Backend OpenVINO para Executorch trará inferência acelerada em CPUs, GPUs e NPUs Intel.

OpenVINO™ Runtime

Geral

Compressão de pesos agora pode ser feita com atraso para economizar memória.
Registro de extensões por frontend (nova API).
Tensors com mmap permitem leitura direta do disco com menos uso de memória (ex.: ao usar LoRa em GenAI).

Plugin de dispositivo CPU

Quantização dinâmica de camadas Fully Connected com pesos assimétricos ativada em AVX2.
Desempenho de LLMs com pesos comprimidos otimizado, especialmente na latência do primeiro token.
Suporte a fusão de projeção QKV e MLP em BF16 no Windows em plataformas AMX.
Kernel GEMM removido da biblioteca CPU.
Suporte a modelos FP8 (f8e4m3 e f8e5m2) aprimorado.

Plugin de dispositivo GPU

Latência do segundo token melhorada com otimizações no TLB e Group Query Attention.
Latência do primeiro token reduzida com Paged Attention.
Cache KV comprimido em Int8 ativado por padrão.
Desempenho de modelos VLM melhorado com extensões XMX.

Plugin de dispositivo NPU

Suporte a cache sem pesos e criptografia de blobs de LLMs.
Novas APIs para carregar modelos do cache com menor uso de memória.
Suporte a entrada/saída NF4 (4-bit NormalFloat).
Correções de bugs: modelos com estado e erros com zeContextDestroy.

API Python

Agora é possível criar Tensor diretamente a partir de uma imagem Pillow.
Redução no uso de memória em export_model, read_model, compile_model.

API Node.js

Bindings GenAI agora disponíveis no pacote genai-node no npm.

Suporte a Frameworks

PyTorch

Suporte ao PyTorch 2.6.
Tradutores comuns para operações em PyTorch, TensorFlow, ONNX e JAX.
Conversão de modelos FP8 e TTS com STFT/ISTFT ativada.

JAX

Suporte validado para JAX 0.5.2 e Flax 0.10.4.

Keras 3

Compatível com Keras 3.9.0.
Testes mais granulares por operação.

TensorFlow Lite

Suporte para modelos com tensores quantizados entre camadas em tempo de execução.

OpenVINO Model Server

Novos recursos principais:

Suporte a modelos VLM com batching contínuo e envio de imagens no contexto do chat.
Suporte a aceleração por NPU para geração de texto com endpoints de completions.

Melhorias gerais:

Modelos e grafos mediapipe agora iniciáveis via linha de comando.
Demonstração de escalabilidade com múltiplas instâncias.
Aumento do número de stop words permitido por requisição (4 → 16).
Integração com a extensão VS Code Continue.
Melhorias de desempenho para cargas de alta concorrência.

Mudanças críticas:

Servidor gRPC agora é opcional. É obrigatório passar --port ou --rest_port.
Correções em contexto de LLM (excede comprimento, erro se prompt muito longo, etc.).
Melhorias de segurança, estabilidade e suporte ao cancelamento sem streaming.

Limitações conhecidas:

Chat/completions só aceita imagens em base64, não em URL.

Neural Network Compression Framework (NNCF)

Suporte preview para Treinamento Ciente de Quantização (QAT) com LoRA em PyTorch (método FQ_LORA).
Novos métodos de compressão 4-bit para pesos em PyTorch.
Redução no tempo e uso de memória em compressão GPTQ e mista.
Novo tracing baseado em TorchFunctionMode.
Várias melhorias no backend TorchFX e adoção de quantizadores personalizados.
Suporte preview para backend OpenVINO no ExecuTorch.
Suporte a PyTorch 2.6.

OpenVINO Tokenizers

Suporte ao modelo de tokenização Unigram.
Compilação com ICU opcional para reduzir binário.
Ajuste dinâmico de max_length e padding com classe Tokenizer.
Dependência de fast_tokenizer removida.

OpenVINO GenAI

Métodos demorados liberam o GIL.
Suporte preview a Token Eviction.
Bindings C e JavaScript para LLMPipeline.
suporte aos modelos Phi-3-vision-128k-instruct e Phi-3.5-vision-instruct.
Novos pipelines de Image2image e Inpainting com FLUX e Stable Diffusion 3.
LLMPipeline agora usa Paged Attention por padrão.
Streaming ocorre em thread separada.
Template de chat aplicado mesmo com modo desativado (configurável).

Assunto NERD:

"Colaborar atrai amigos, competir atrai inimigos …"

OpenVINO 2025.1.0 Lançado

🧠 Suporte ampliado para LLMs e novas técnicas de compressão:

🌍 Mais portabilidade e desempenho para executar IA na borda, na nuvem ou localmente:

OpenVINO™ Runtime

Geral

Plugin de dispositivo CPU

Plugin de dispositivo GPU

Plugin de dispositivo NPU

API Python

API Node.js

Suporte a Frameworks

PyTorch

JAX

Keras 3

TensorFlow Lite

OpenVINO Model Server

Novos recursos principais:

Melhorias gerais:

Mudanças críticas:

Limitações conhecidas:

Neural Network Compression Framework (NNCF)

OpenVINO Tokenizers

OpenVINO GenAI

Deixe um comentário Cancelar resposta

🧠 Suporte ampliado para LLMs e novas técnicas de compressão:

🌍 Mais portabilidade e desempenho para executar IA na borda, na nuvem ou localmente:

OpenVINO™ Runtime

Geral

Plugin de dispositivo CPU

Plugin de dispositivo GPU

Plugin de dispositivo NPU

API Python

API Node.js

Suporte a Frameworks

PyTorch

JAX

Keras 3

TensorFlow Lite

OpenVINO Model Server

Novos recursos principais:

Melhorias gerais:

Mudanças críticas:

Limitações conhecidas:

Neural Network Compression Framework (NNCF)

OpenVINO Tokenizers

OpenVINO GenAI

Compartilhe isso:

Deixe um comentário Cancelar resposta