Lançado openVINO 2024.2

Em 18 de junho, foi lançado a versáo 2024.2 do OpenVINO, um kit de ferramentas de código aberto para otimizar e implantar modelos de aprendizagem profunda da nuvem até a borda. Ele acelera a inferência de aprendizado profundo em vários casos de uso, como IA generativa, vídeo, áudio e linguagem com modelos de estruturas populares como PyTorch, TensorFlow, ONNX e muito mais. Converta e otimize modelos e implante em uma combinação de hardware e ambientes Intel®, no local e no dispositivo, no navegador ou na nuvem.

Abaixo as principais mudanças.

Maior cobertura nas tecnologias de IA de última geração e integrações de frameworks para minimizar mudanças de código:

  • Otimizações Llama 3 para CPUs, GPUs integradas e GPUs discretas para melhor desempenho e uso eficiente de memória.
  • Suporte para Phi-3-mini, uma família de modelos de IA que aproveita o poder de modelos de linguagem pequenos para processamento de texto mais rápido, preciso e econômico.
  • Operação Personalizada Python agora habilitada no OpenVINO, facilitando para desenvolvedores Python programarem suas operações personalizadas em vez de operações personalizadas em C++ (também suportadas). A Operação Personalizada Python permite aos usuários implementar suas próprias operações especializadas em qualquer modelo.
  • Expansão de notebooks para garantir melhor cobertura para novos modelos. Notebooks notáveis adicionados: DynamiCrafter, YOLOv10, notebook de Chatbot com Phi-3 e QWEN2.

Maior suporte a Modelos de Linguagem de Grande Escala (LLM) e mais técnicas de compressão de modelos:

  • Método GPTQ para compressão de pesos de 4 bits adicionado ao NNCF para inferência mais eficiente e desempenho melhorado de LLMs comprimidos.
  • Melhorias significativas no desempenho de LLM e redução de latência para GPUs integradas e discretas.
  • Melhoria significativa na latência do segundo token e na pegada de memória de LLMs com pesos FP16 em plataformas de CPU baseadas em AVX2 (processadores Intel® Core™ de 13ª Geração) e AVX512 (Processadores Escaláveis Intel® Xeon® de 3ª Geração), especialmente para tamanhos de lotes pequenos.

Maior portabilidade e desempenho para executar IA na borda, na nuvem ou localmente:

  • Aprimoramentos no Serviço de Modelos:
    • Prévia: OpenVINO Model Server (OVMS) agora suporta API compatível com OpenAI juntamente com Batching Contínuo e PagedAttention, permitindo throughput significativamente maior para inferência paralela, especialmente em processadores Intel® Xeon®, ao servir LLMs para muitos usuários simultâneos.
    • Backend OpenVINO para Triton Server agora suporta GPUs integradas e discretas, além de suporte a formas dinâmicas.
    • Integração do TorchServe através do backend OpenVINO torch.compile para fácil implantação de modelos, provisionamento para múltiplas instâncias, versionamento de modelos e manutenção.
  • Prévia: adição da API Generate, uma API simplificada para geração de texto usando modelos de linguagem de grande escala com apenas algumas linhas de código. A API está disponível através do novo pacote OpenVINO GenAI.
  • Suporte para Processador Intel Atom® Série X. Para mais detalhes, veja Requisitos do Sistema.
  • Prévia: Suporte para processador Intel® Xeon® 6.

Mais informações aqui: https://github.com/openvinotoolkit/openvino/releases/tag/2024.2.0

Deixe um comentário

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.