
A estimativa do alvo do olhar, ou prever para onde uma pessoa está olhando em uma cena, é um desafio importante na pesquisa de inteligência artificial. Essa tarefa exige a integração de informações como a orientação da cabeça e o contexto visual. No entanto, métodos tradicionais enfrentam limitações, como altos custos computacionais e a necessidade de grandes volumes de dados rotulados, tornando difícil a implementação em tempo real e a escalabilidade dessas soluções.
Para superar essas barreiras, pesquisadores do Georgia Institute of Technology e da University of Illinois Urbana-Champaign desenvolveram o Gaze-LLE, uma arquitetura eficiente e simplificada para estimativa de olhar. Baseado em um codificador visual DINOv2 estático e um decodificador minimalista, o Gaze-LLE reduz em 95% os cálculos necessários, eliminando arquiteturas complexas de múltiplas ramificações. Essa abordagem compacta é altamente eficiente sem sacrificar a precisão.

O Gaze-LLE utiliza dois componentes principais: um codificador visual congelado que extrai recursos robustos e um decodificador leve que combina informações da cena com a posição da cabeça. Esse sistema produz mapas de calor que identificam possíveis alvos de olhar e realiza classificações rápidas, utilizando uma perda simples de entropia cruzada pixel a pixel para treinamento direto. Testado em conjuntos de dados como GazeFollow e ChildPlay, o modelo apresentou resultados notáveis em eficiência e precisão, superando métodos anteriores.
Os benchmarks do Gaze-LLE confirmam sua superioridade, com métricas como AUC de 0,958 e erro L2 de 0,099 no GazeFollow, além de tempos de treinamento significativamente reduzidos, alcançando convergência em menos de 1,5 horas de GPU. A arquitetura também se destaca pela forte generalização em diferentes conjuntos de dados sem necessidade de ajuste fino. Esses avanços reforçam o potencial de modelos otimizados para aplicações de estimativa de olhar precisas e flexíveis no campo da IA.


