Acabo de disponibilizar oficialmente o modelo Tucano na tecnologia de inferência openVINO. O modelo de linguagem Tucano agora esta disponível com a tecnologia openVINO, assim permitindo que o modelo seja executado eficientemente em CPUs sem necessidade de GPUs. Esta compatibilidade torna o modelo acessível para utilização em computadores lançados em 2016 ou mais recentes, democratizando o acesso a tecnologias de processamento de linguagem natural avançadas e expandindo sua aplicabilidade a uma variedade maior de hardware.
O modelo “Tucano” é um modelo de linguagem desenvolvido especificamente para entender e processar texto em português. Baseado na arquitetura de transformadores, ele é treinado com uma vasta quantidade de textos em português para captar nuances linguísticas e contextuais, tornando-se uma ferramenta poderosa para tarefas de processamento de linguagem natural, como resumo de textos e geração de conteúdo em português.
Utilizando técnicas avançadas como o “Supervised Fine-Tuning” (SFT) e “Direct Preference Optimization” (DPO), os modelos da série Tucano buscam otimizar a performance em cenários instrucionais. Isso permite que o modelo não apenas entenda e gere texto, mas também execute tarefas com instruções específicas, tornando-o ideal para aplicações de inteligência artificial que requerem interações precisas e contextuais em português.
Pesquisadores da Universidade de Bonn na Alemanha desenvolveram o “Gigaverbo”, o maior banco de dados público em português destinado ao treinamento de modelos de inteligência artificial (IA) como os LLMs. Este banco de dados inclui 145 milhões de documentos, totalizando 200 bilhões de tokens. Este recurso foi criado para ajudar a democratizar o acesso à tecnologia de IA em português, oferecendo uma ferramenta aberta que também serve para preservar a cultura linguística e brasileira.
Exemplo: https://github.com/cabelo/Tucano-2b4-Instruct-openvino
Modelo: https://huggingface.co/cabelo/Tucano-2b4-Instruct-fp16-ov
