Todos os posts de Cabelo

Avatar de Desconhecido

Sobre Cabelo

Sócio fundador da empresa OITI/NETi TECNOLOGIA fundada em 1996, teve seu primeiro contato com tecnologia em 1983 com 11 anos de idade na cidade de Bebedouro (interior de SP). Leva o Linux a sério, pesquisa e trabalha com biometria e visão computacional desde 1998. Experiência com biometria facial desde 2003, redes neurais artificiais e neurotecnologia desde 2009. Inventor da tecnologia CERTIFACE, da imagem Linux LiMobile e OSAR, mais de 79 palestras ministradas, 14 artigos impressos publicados, mais de 8 milhões de acessos nos 113 artigos publicados no Viva O Linux. Mantendor de projetos opensource, rpm oficiais e o guia FOCA Linux mobile (ePUb) desde 2010, Embaixador openSUSE, membro oficial: Viva O Linux desde 2003, openSUSE desde 2010, OWASP desde 2016 e Mozillians desde 2017.

Experimentar roupas antes de comprar na Internet.

Em breve, graças à Inteligência Artificial, será possível experimentar de maneira virtual as roupas vendidas na internet antes de comprar. Para comprovar a teoria, busquei um projeto no github, e o coloquei em funcionamento na minha maquina. Após, entrei no site Véi Nerd ( https://www.veinerd.com/produto/camiseta-linux ). Escolhi uma camiseta que gostei e salvei na minha maquina. Ao submeter as duas imagens de referencia ao sistema, o resultado foi muito animador e tudo aconteceu de maneira automática.

No teste foi possível gerar imagens com um alto grau de consistência de vestuário em cenários reais. Mesmo com fundos complexos ou poses diversas das pessoas, é possível gerar imagens de alta qualidade.

O projeto IDM-VTON é a experimentação virtual baseada em imagens, que produz uma imagem de uma pessoa usando uma peça de vestuário selecionada, a partir de um par de imagens que retratam, respectivamente, a pessoa e a vestimenta. Tecnologia anteriores adaptaram modelos de difusão baseados em exemplos existentes para a experimentação virtual, a fim de melhorar a naturalidade das imagens geradas em comparação com outros métodos (como os baseados em GAN), mas não conseguiram preservar a identidade das vestimentas.

Para superar este obstáculo, o projeto IDM-VTON propões um modelo de difusão inovador que melhora a fidelidade da vestimenta e gera imagens autênticas de experimentação virtual. Pois utiliza dois módulos diferentes para codificar a semântica da imagem da vestimenta; com base no UNet do modelo de difusão,

1) a semântica de alto nível extraída de um codificador visual é fundida à camada de atenção cruzada, e então 2) os recursos de baixo nível extraídos do UNet paralelo são fundidos à camada de autoatenção. Além disso, é fornecido prompts textuais detalhados para as imagens tanto da vestimenta quanto da pessoa, a fim de realçar a autenticidade das visuais geradas. Então é constatado um método de personalização usando um par de imagens de pessoa-vestimenta, que melhora significativamente a fidelidade e autenticidade

Os meus testes experimentais demonstram que o método supera as abordagens anteriores (tanto baseadas em difusão quanto em GAN) na preservação dos detalhes da vestimenta e na geração de imagens autênticas de experimentação virtual, tanto qualitativa quanto quantitativamente. Além disso, o método de personalização proposto demonstra sua eficácia em um cenário real. Mais visualizações estão disponíveis na página do projeto: https://github.com/yisol/IDM-VTON

Transferência de material com IA.

Esta é a implementação oficial do ZeST: Zero-Shot Material Transfe a partir de uma Única Imagem. Com ZeST, é possível transferir o material de uma imagem exemplar para outra imagem de entrada. Por exemplo, a partir de uma foto de uma maçã e uma imagem de um exemplar de uma tigela dourada, o ZeST consegue aplicar o material de ouro da tigela na maçã. Esse processo é feito mantendo as pistas de iluminação precisas e assegurando que todos os outros aspectos permaneçam consistentes.

A tecnologia permite que características específicas de um material sejam replicadas em diferentes objetos em novas imagens de forma convincente. Isto é feito sem a necessidade de múltiplas imagens do mesmo material, utilizando apenas uma imagem exemplar. O resultado é uma integração visualmente harmoniosa do novo material, como ouro, em objetos tão comuns como uma maçã, respeitando as nuances de iluminação e textura originais do objeto.

Fonte: https://github.com/ttchengab/zest_code

Lançado openVINO 2024.1

OpenVINO é um kit de ferramentas de código aberto para otimizar e implantar modelos de aprendizagem profunda da nuvem até a borda. Ele acelera a inferência de aprendizado profundo em vários casos de uso, como IA generativa, vídeo, áudio e linguagem com modelos de estruturas populares como PyTorch, TensorFlow, ONNX e muito mais. Converta e otimize modelos e implante em uma combinação de hardware e ambientes Intel®, no local e no dispositivo, no navegador ou na nuvem.

  • Maior cobertura de IA generativa e integrações de frameworks para minimizar mudanças no código.
    • Modelos Mixtral e URLNet otimizados para melhorias de desempenho em processadores Intel® Xeon®.
    • Modelos Stable Diffusion 1.5, ChatGLM3-6B e Qwen-7B otimizados para velocidade de inferência aprimorada em processadores Intel® Core™ Ultra com GPU integrada.
    • Suporte para Falcon-7B-Instruct, um modelo de chat/instrução de Large Language Model (LLM) da GenAI pronto para uso com métricas de desempenho superiores.
    • Novos Jupyter Notebook adicionados: YOLO V9, Detecção de Caixas Delimitadoras Orientadas YOLO V8 (OOB), Stable Diffusion em Keras, MobileCLIP, RMBG-v1.4 Remoção de Fundo, Magika, TripoSR, AnimateAnyone, LLaVA-Next, e sistema RAG com OpenVINO e LangChain.
  • Suporte mais amplo para Large Language Model (LLM) e mais técnicas de compressão de modelos.
    • Tempo de compilação do LLM reduzido através de otimizações adicionais com incorporação comprimida. Desempenho aprimorado do primeiro token dos LLMs nas 4ª e 5ª gerações de processadores Intel® Xeon® com Extensões Avançadas de Matriz Intel® (Intel® AMX).
    • Melhor compressão do LLM e desempenho aprimorado com suporte oneDNN, INT4 e INT8 para GPUs Intel® Arc™.
    • Redução significativa de memória para modelos GenAI menores selecionados em processadores Intel® Core™ Ultra com GPU integrada.
  • Mais portabilidade e desempenho para executar IA na borda, na nuvem ou localmente.
    • O plugin NPU de prévia para processadores Intel® Core™ Ultra agora está disponível no repositório GitHub de código aberto OpenVINO, além do pacote principal OpenVINO no PyPI.
    • A API JavaScript agora está mais acessível através do repositório npm, permitindo aos desenvolvedores de JavaScript acesso sem interrupções à API OpenVINO.
    • Inferência FP16 em processadores ARM agora habilitada por padrão para a Rede Neural Convolucional (CNN).

VIDU o INCRÍVEL Rival do Sora! Gera 16s de vídeo HDTV com prompt de texto.

Estou surpreso com a rapidez com que a tecnologia de texto para vídeo está avançando. A China acabou de anunciar seu concorrente ao Sora da OpenAI: “Vidu” pode gerar um vídeo de 16 segundos em 1080p com apenas um clique.

Desenvolvido pela empresa de IA chinesa Shengshu Technology e pela Universidade de Tsinghua, a capacidade do Vidu reside em sua arquitetura de Transformer Universal de Visão (U-ViT). O U-ViT combina as forças dos modelos de texto para vídeo baseados em difusão e transformadores.

Isso permite que o Vidu produza cenas altamente realistas e criativas a partir de simples comandos de texto.

Minha conclusão: Ainda temos um caminho a percorrer para alcançar a qualidade de Hollywood, mas estou extremamente impressionado com o quanto a tecnologia de texto para vídeo avançou no último ano.

INFORMAÇOES EM: https://www.shengshu-ai.com/home

Snowflake Arctic: Um IA para o setor empresarial

Dia 24/04 a Snowflake, empresa fornecedora de nuvem de dados, lançou recentemente o Arctic, um novo modelo de linguagem grande e de código aberto, projetado para permitir que usuários desenvolvam aplicações e modelos de inteligência artificial (IA) de nível empresarial. Esse lançamento ocorre pouco depois que a concorrente Databricks apresentou o DBRX, outro modelo de linguagem grande e de código aberto, visando facilitar o uso de IA para decisões empresariais.

A introdução do Arctic também segue a recente mudança na liderança da Snowflake, com a saída do CEO Frank Slootman e a nomeação de Sridhar Ramaswamy, ex-executivo da Neeva, uma empresa de motores de busca impulsionada por IA gerativa, adquirida pela Snowflake. A chegada de Ramaswamy sinaliza um foco renovado da empresa em IA, incluindo a IA gerativa.

O Arctic foi desenvolvido para ser particularmente eficaz em aplicações empresariais, como a geração de código SQL e a execução de instruções, respondendo às necessidades específicas das empresas e não do público geral. Isso se contrasta com modelos como o ChatGPT da OpenAI e o Google Gemini, que, embora treinados com dados públicos e capazes de responder perguntas complexas sobre eventos históricos, não têm conhecimento específico sobre os dados empresariais sem treinamento adicional.

O Arctic oferece vantagens significativas, como a integração segura dentro do mesmo ambiente em que os dados são armazenados, reduzindo os riscos de violações de dados ao evitar a necessidade de transferir dados para entidades externas. Essa integração e segurança aprimoradas são cruciais, conforme destacado por analistas de mercado.

Além disso, o modelo promete eficiência em termos de custos de treinamento, devido à sua arquitetura que ativa um número reduzido de parâmetros, tornando o treinamento de modelos personalizados mais acessível. Embora a Snowflake ainda não forneça uma documentação independente dos testes de benchmark do Arctic, a empresa afirma que seu desempenho é comparável a outros modelos de código aberto em tarefas como geração de código, seguindo instruções e aplicando conhecimentos gerais.

O lançamento do Arctic também destaca a corrida competitiva no desenvolvimento de IA gerativa entre as plataformas de dados. Empresas como AWS, Google Cloud, IBM, Microsoft e Oracle também estão investindo em capacidades de IA acopladas às suas plataformas de dados, com a expectativa de que essas capacidades se tornem um ponto crucial de controle dentro de suas contas de clientes.

Em resumo, o Arctic não apenas adiciona uma nova opção de LLM ao mercado, mas também exemplifica a estratégia da Snowflake de fornecer ferramentas que ajudam os usuários a tomar decisões empresariais informadas e desenvolver aplicações de IA de maneira segura e eficiente, alinhando-se com a direção estratégica sob a liderança de Ramaswamy.

Código Fonte: https://github.com/Snowflake-Labs/snowflake-arctic

E modelo: https://huggingface.co/Snowflake/snowflake-arctic-instruct

OpenVoice: Clonagem de voz

O OpenVoice é uma abordagem versátil de clonagem instantânea de voz que requer apenas um breve trecho de áudio do locutor de referência para replicar sua voz e gerar fala em múltiplos idiomas. O OpenVoice permite um controle granular sobre estilos de voz, incluindo emoção, sotaque, ritmo, pausas e entonação, além de replicar a cor tonal do locutor de referência. O projeto também realiza clonagem de voz interlingual em modo zero-shot para idiomas que não estão incluídos no conjunto de treinamento com grande quantidade de falantes. Além disso, o sistema é computacionalmente eficiente, custando dezenas de vezes menos do que as APIs comerciais disponíveis que oferecem desempenho até inferior. O relatório técnico e o código-fonte podem ser encontrados em https://research.myshell.ai/open-voice

Apple lança novo modelo de IA opensource.

A Apple recentemente introduziu no mercado o OpenELM, uma inovadora linha de modelos de linguagem de código aberto. Esta novidade marca um passo significativo na direção da reprodutibilidade e transparência no campo da inteligência artificial, ao mesmo tempo que assegura a confiabilidade dos resultados gerados e possibilita análises mais profundas dos modelos. O OpenELM é descrito em um estudo divulgado pela empresa, o qual ressalta sua abordagem de escalonamento em camadas para uma alocação eficiente de parâmetros nos diversos níveis de um modelo transformer, contribuindo para uma precisão superior se comparado a outros modelos conhecidos.

Em testes realizados, o OpenELM demonstrou ser mais preciso que o modelo OLMo, registrando um aumento de 2,36% em precisão com aproximadamente 1 bilhão de parâmetros. Este resultado foi alcançado mesmo com o uso de metade dos tokens de pré-treinamento usualmente necessários, evidenciando assim a eficiência notável deste novo modelo.

Os modelos OpenELM foram desenvolvidos usando extensos conjuntos de dados públicos, entre eles RedefineWeb, PILE, RedPajama e Dolma. Estes conjuntos incluem textos de diversas origens, como livros, artigos e websites, proporcionando uma base rica e variada para o treinamento. O artigo detalha também a quantidade de tokens utilizada, reforçando o compromisso da Apple com a transparência na apresentação de seus dados e métodos.

Um dos grandes diferenciais do OpenELM é seu caráter de código aberto. A Apple não apenas disponibilizou os modelos, mas também os códigos e os dados utilizados para o pré-treinamento, permitindo que outros pesquisadores e desenvolvedores possam não só utilizar esses recursos, mas também contribuir para seu aprimoramento. Esta abertura é parte do esforço da empresa para fomentar uma colaboração mais ampla e efetiva na comunidade de desenvolvimento de inteligência artificial.

Além dos modelos, a Apple lançou a CoreNet, uma biblioteca de redes neurais profundas destinada especificamente ao treinamento do OpenELM. Esta biblioteca já está disponível no GitHub, oferecendo aos usuários acesso ao código fonte e instruções detalhadas para implementação e uso dos modelos. Adicionalmente, informações complementares, incluindo os modelos pré-treinados e os guias de instrução, podem ser encontradas na plataforma Hugging Face, destacando a disposição da Apple em facilitar o acesso e a utilização de seus recursos.

Mais informções aqui: https://huggingface.co/apple/OpenELM

Phi-3, todo dia uma nova IA em casa.

A rápida evolução dos modelos de inteligência artificial (IA) está revolucionando o campo da tecnologia, e os recentes lançamentos pela Meta e Microsoft são testemunhos dessa transformação. Na sexta-feira, dia 18 de abril, a Meta introduziu ao mercado o Llama 3, uma geração avançada de seu modelo de IA generativa de código aberto, que promete ultrapassar os limites do que essas tecnologias podem alcançar. Com dois modelos distintos, o Llama 3 8B e o Llama 3 70B, a companhia posiciona-se firmemente na vanguarda da inovação, apresentando modelos treinados em clusters com 24.000 GPUs personalizados, estabelecendo novos padrões de desempenho em comparação com suas versões anteriores.

A Meta afirma que o Llama 3 representa um “salto significativo” em termos de capacidades, com o modelo de 8 bilhões de parâmetros e seu irmão maior, o de 70 bilhões, projetados para oferecer um desempenho superior aos seus predecessores e concorrentes. A empresa pretende, com esses lançamentos, democratizar o acesso a ferramentas de IA de ponta, permitindo que desenvolvedores e empresas possam criar soluções inovadoras e personalizadas em diversas áreas.

Enquanto isso, na segunda-feira, dia 23 de abril, a Microsoft lançou o Phi-3, marcando sua entrada no campo com uma proposta ligeiramente diferente. Com um foco em versatilidade e acessibilidade, o Phi-3 começa com o modelo Mini, que possui 3,8 bilhões de parâmetros. Esta versão é seguida por outras mais robustas, como o Phi-3 Small e o Phi-3 Medium, com 7 e 14 bilhões de parâmetros, respectivamente. A estratégia da Microsoft parece inclinar-se para a flexibilização do uso da IA, com modelos que não só operam eficazmente em plataformas robustas de nuvem, como Azure e Hugging Face, mas também em dispositivos pessoais, tornando a tecnologia mais acessível ao público geral.

O desenvolvimento de modelos mais leves e eficientes, como evidenciado pelo Phi-3 Mini, não só reduz os custos de operação, como também melhora a experiência de usuário em dispositivos com capacidades computacionais limitadas. Este movimento em direção a modelos mais econômicos e eficientes é especialmente significativo no contexto atual, onde a eficiência energética e a sustentabilidade se tornam prioridades.

A Microsoft também está investindo em nichos específicos de aplicação de IA, como demonstra o desenvolvimento do Orca-Math, focado em resolver problemas matemáticos. Esta especialização indica uma abordagem mais focada na solução de desafios específicos, permitindo que a IA seja mais diretamente aplicável e útil em contextos educacionais e profissionais.

O cenário que se desdobra com esses lançamentos destaca uma corrida tecnológica em que grandes corporações buscam não apenas avançar na capacidade computacional, mas também tornar essas tecnologias mais integradas e úteis no dia a dia das pessoas. A abertura dos códigos e a possibilidade de customização por parte dos desenvolvedores são passos importantes para a evolução e adaptação das IAs às necessidades específicas dos usuários finais.

Ao observarmos esse panorama, é evidente que estamos no limiar de uma nova era, onde a inteligência artificial não é apenas uma ferramenta de nicho para grandes corporações, mas um componente integral de inovação acessível a um espectro mais amplo de usuários e desenvolvedores. As implicações dessas tecnologias são vastas, prometendo transformações significativas em todos os setores da economia e da sociedade.

Testes:

Algumas vezes o LLAMA 3 8B errou na simples equação 55+55-(53*5+3)?

O mesmo não aconteceu com Phi-3:

Técnica simples faz LLAMA 3 agir sem ética.

Apesar das extensas medidas de segurança, o modelo de código aberto recentemente lançado pela Meta, Llama 3, pode ser induzido a gerar conteúdo prejudicial através de um simples “jailbreak”.

A Meta afirma ter feito esforços significativos para proteger o Llama 3, incluindo testes extensivos para usos inesperados e técnicas para corrigir vulnerabilidades nas versões iniciais do modelo, como o ajuste fino de exemplos de respostas seguras e úteis a prompts arriscados. Llama 3 se sai bem em benchmarks de segurança padrão.

Mas um jailbreak surpreendentemente simples demonstrado pelos laboratórios Haize mostra que isso pode não significar muito. É suficiente apenas “preparar” o modelo com um prefixo malicioso, ou seja, preparar o modelo injetando um pequeno pedaço de texto após o prompt e antes da resposta do Llama, o que influencia a resposta do modelo.

Normalmente, graças ao treinamento de segurança da Meta, Llama 3 se recusaria a gerar um prompt malicioso. No entanto, se o Llama 3 receber o início de uma resposta maliciosa, o modelo frequentemente continuará a conversa sobre o tema.

Os laboratórios Haize dizem que o Llama 3 é “tão bom em ser útil” que suas proteções aprendidas não são eficazes neste cenário.

Esses prefixos maliciosos nem mesmo precisam ser criados manualmente. Em vez disso, um modelo LLM “ingênuo” otimizado para ser útil, como o Mistral Instruct, pode ser usado para gerar uma resposta maliciosa e, em seguida, passá-la como um prefixo para o Llama 3, disseram os pesquisadores.

O comprimento do prefixo pode afetar se o Llama 3 realmente gera texto prejudicial. Se o prefixo for muito curto, o Llama 3 pode recusar-se a gerar uma resposta maliciosa. Se o prefixo for muito longo, o Llama 3 responderá apenas com um aviso sobre excesso de texto, seguido por uma rejeição. Prefixos mais longos são mais bem-sucedidos em enganar o Llama.

A partir disso, os laboratórios Haize derivam um problema fundamental que afeta a segurança da IA como um todo: os modelos de linguagem, apesar de todas as suas capacidades e o hype que os cerca, podem não entender o que estão dizendo.

O modelo carece da capacidade de auto-reflexão e análise do que está dizendo enquanto fala. “Isso parece ser um problema bastante grande”, disseram os jailbreakers.

As medidas de segurança para LLMs podem muitas vezes ser contornadas com meios relativamente simples. Isso é verdade tanto para modelos fechados e proprietários quanto para modelos de código aberto. Para modelos de código aberto, as possibilidades são maiores porque o código está disponível.

Alguns críticos dizem que, por isso, os modelos de código aberto são, portanto, menos seguros do que os modelos fechados. Um contra-argumento, também utilizado pela Meta, é que a comunidade pode encontrar e corrigir tais vulnerabilidades mais rapidamente.

Prova de conceito: https://github.com/haizelabs/llama3-jailbreak