Google lança Gemma 2, sua próxima geração de modelos abertos


A inteligência artificial (IA) possui o potencial de solucionar grandes desafios globais, mas isso só será possível se as ferramentas necessárias estiverem ao alcance de todos. A família Gemma foi expandida com adições como CodeGemma, RecurrentGemma e PaliGemma, cada um com características únicas para diferentes aplicações de IA, e disponíveis através de parcerias com entidades como Hugging Face, NVIDIA e Ollama.

Agora foi lançado oficialmente o Gemma 2 para pesquisadores e desenvolvedores em todo o mundo. Disponível em tamanhos de parâmetros de 9 bilhões (9B) e 27 bilhões (27B), o Gemma 2 tem desempenho superior e é mais eficiente na inferência do que a primeira geração, com avanços de segurança significativos incorporados. para modelos com mais do que o dobro do seu tamanho, proporcionando o tipo de desempenho que só era possível com modelos proprietários até dezembro. E isso agora é possível em uma única GPU NVIDIA H100 Tensor Core ou host TPU, reduzindo significativamente os custos de implantação.

Um novo padrão de modelo aberto para eficiência e desempenho

Foi Construido o Gemma 2 em uma arquitetura redesenhada, projetada para oferecer desempenho excepcional e eficiência de inferência. Aqui está o que o destaca:

Inferência extremamente rápida em hardware: o Gemma 2 é otimizado para funcionar a uma velocidade incrível em uma variedade de hardware, desde poderosos laptops para jogos e desktops de última geração até configurações baseadas em nuvem. Experimente Gemma 2 com total precisão no Google AI Studio , desbloqueie o desempenho local com a versão quantizada com Gemma.cpp em sua CPU ou experimente em seu computador doméstico com NVIDIA RTX ou GeForce RTX por meio de Hugging Face Transformers.

Desempenho extraordinário: com 27B, o Gemma 2 oferece o melhor desempenho para sua classe de tamanho e ainda oferece alternativas competitivas para modelos com mais que o dobro do seu tamanho. O modelo 9B Gemma 2 também oferece desempenho líder na categoria, superando o Llama 3 8B e outros modelos abertos em sua categoria de tamanho. Para análises detalhadas de desempenho, confira o relatório técnico .

Eficiência e economia de custos incomparáveis: o modelo 27B Gemma 2 foi projetado para executar inferências com eficiência e precisão total em um único host Google Cloud TPU, GPU NVIDIA A100 80GB Tensor Core ou GPU NVIDIA H100 Tensor Core , reduzindo significativamente os custos e mantendo o alto desempenho. Isso permite implantações de IA mais acessíveis e econômicas.

Construído para desenvolvedores e pesquisadores

O Gemma 2 não é apenas mais poderoso, ele foi projetado para ser integrado mais facilmente aos seus fluxos de trabalho:

  • Aberto e acessível: Assim como os modelos Gemma originais, o Gemma 2 está disponível sob nossa licença Gemma comercialmente amigável , dando aos desenvolvedores e pesquisadores a capacidade de compartilhar e comercializar suas inovações.
  • Ampla compatibilidade de estrutura: use facilmente o Gemma 2 com suas ferramentas e fluxos de trabalho preferidos, graças à sua compatibilidade com as principais estruturas de IA, como Hugging Face Transformers, e JAX, PyTorch e TensorFlow por meio de Keras 3.0 nativo, vLLM, Gemma.cpp , Llama.cpp e Ollama . Além disso, o Gemma é otimizado com NVIDIA TensorRT-LLM para rodar em infraestrutura acelerada pela NVIDIA ou como um microsserviço de inferência NVIDIA NIM , com otimização para o futuro NeMo da NVIDIA . Você pode fazer o ajuste fino hoje com Keras e Hugging Face. Estamos trabalhando ativamente para permitir opções adicionais de ajuste fino com eficiência de parâmetros.1
  • Implantação sem esforço: a partir do próximo mês, os clientes do Google Cloud poderão implantar e gerenciar facilmente o Gemma 2 no Vertex AI .

Explore o novo Gemma Cookbook , uma coleção de exemplos práticos e receitas para guiá-lo na construção de seus próprios aplicativos e no ajuste fino de modelos Gemma 2 para tarefas específicas. Descubra como usar facilmente o Gemma com as ferramentas de sua preferência, inclusive para tarefas comuns, como geração de recuperação aumentada.

Desenvolvimento responsável de IA

A Google tem o compromisso de fornecer aos desenvolvedores e pesquisadores os recursos necessários para criar e implantar IA de maneira responsável, inclusive por meio de nosso kit de ferramentas de IA generativa responsável . O LLM Comparator, de código aberto recentemente, ajuda desenvolvedores e pesquisadores na avaliação aprofundada de modelos de linguagem. A partir de hoje, você pode usar a biblioteca Python complementar para executar avaliações comparativas com seu modelo e dados e visualizar os resultados no aplicativo. Além disso, estamos trabalhando ativamente para abrir o código-fonte de nossa tecnologia de marca d’água de texto, SynthID , para modelos Gemma.

Ao treinar o Gemma 2, seguimos nossos robustos processos internos de segurança, filtrando dados de pré-treinamento e realizando testes e avaliações rigorosos em relação a um conjunto abrangente de métricas para identificar e mitigar possíveis preconceitos e riscos. Publicamos nossos resultados em um grande conjunto de benchmarks públicos relacionados à segurança e danos representacionais.

O modelo também é otimizado para operar eficientemente em uma variedade de hardware, reduzindo o tempo e o custo de implementação. Esta otimização ajuda a tornar tecnologias de ponta mais acessíveis e práticas para desenvolvedores em todo o mundo. Para mais informações, você pode acessar o blog do Google.

Deixe um comentário

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.