Gaze-LLE: Estimativa de alvo.

A estimativa do alvo do olhar, ou prever para onde uma pessoa está olhando em uma cena, é um desafio importante na pesquisa de inteligência artificial. Essa tarefa exige a integração de informações como a orientação da cabeça e o contexto visual. No entanto, métodos tradicionais enfrentam limitações, como altos custos computacionais e a necessidade de grandes volumes de dados rotulados, tornando difícil a implementação em tempo real e a escalabilidade dessas soluções.

Para superar essas barreiras, pesquisadores do Georgia Institute of Technology e da University of Illinois Urbana-Champaign desenvolveram o Gaze-LLE, uma arquitetura eficiente e simplificada para estimativa de olhar. Baseado em um codificador visual DINOv2 estático e um decodificador minimalista, o Gaze-LLE reduz em 95% os cálculos necessários, eliminando arquiteturas complexas de múltiplas ramificações. Essa abordagem compacta é altamente eficiente sem sacrificar a precisão.

O Gaze-LLE utiliza dois componentes principais: um codificador visual congelado que extrai recursos robustos e um decodificador leve que combina informações da cena com a posição da cabeça. Esse sistema produz mapas de calor que identificam possíveis alvos de olhar e realiza classificações rápidas, utilizando uma perda simples de entropia cruzada pixel a pixel para treinamento direto. Testado em conjuntos de dados como GazeFollow e ChildPlay, o modelo apresentou resultados notáveis em eficiência e precisão, superando métodos anteriores.

Os benchmarks do Gaze-LLE confirmam sua superioridade, com métricas como AUC de 0,958 e erro L2 de 0,099 no GazeFollow, além de tempos de treinamento significativamente reduzidos, alcançando convergência em menos de 1,5 horas de GPU. A arquitetura também se destaca pela forte generalização em diferentes conjuntos de dados sem necessidade de ajuste fino. Esses avanços reforçam o potencial de modelos otimizados para aplicações de estimativa de olhar precisas e flexíveis no campo da IA.

Fonte: https://github.com/fkryan/gazelle

Assunto NERD:

"Colaborar atrai amigos, competir atrai inimigos …"

Gaze-LLE: Estimativa de alvo.

Deixe um comentário Cancelar resposta

Compartilhe isso:

Deixe um comentário Cancelar resposta