
Nos últimos anos, a convergência de três frentes de pesquisa — gaze estimation, detecção de esqueleto e análise facial — redefiniu a forma como monitoramos o comportamento do consumidor no ponto de venda. Ao combinar esses algoritmos em um fluxo único de processamento, conseguimos responder a duas perguntas cruciais para quem gerencia vitrines e gôndolas:
- Onde exatamente as pessoas estão olhando?
- Quem são essas pessoas em termos de perfil demográfico?
1. Detecção de esqueleto com OpenPose 📐
O OpenPose continua sendo referência quando precisamos rastrear pose corporal em tempo real. Ele identifica até 25 pontos-chave do corpo humano, fornecendo as coordenadas dos ombros, quadris, joelhos, pés e, principalmente, da cabeça. Ao mapear essas articulações é possível:
- Calcular a distância do shopper até a prateleira
- Estimar o ângulo da cabeça (fundamental para a etapa de gaze)
- Identificar o lado do corpo que está voltado para a gôndola
Esse contexto espacial evita falsos positivos típicos de câmeras instaladas em diagonal ou distâncias variáveis.
2. Gaze estimation 👀
Vários modelos open-source ( https://github.com/fkryan/gazelle ) evoluíram bastante em robustez a iluminação adversa. Uma vez conhecido o vetor de pose da cabeça (via OpenPose), o modelo de gaze refina a estimativa calculando a orientação das pupilas dentro da órbita ocular. A saída é um vetor 3D que, projetado no plano da câmera, aponta para um ponto na gôndola.
Agrupando esses pontos ao longo do tempo, geramos mapas de calor que revelam:
- Prateleiras com maior tempo médio de fixação
- Padrões de atenção ao lançar um novo layout ou preço promocional
- Focos de desvio do olhar quando há ruído visual (ex.: excesso de wobblers)
3. Análise facial para demografia 🧑🏾🤝🧑🏼
Modelos de classificação facial leves ou variantes com MobileNet — adicionam a camada demográfica sem comprometer o FPS do pipeline. Mesmo com baixa resolução (por exemplo, 120 × 120 px), os classificadores informam faixas etárias, gênero provável e grupos étnicos majoritários, tudo em conformidade com as salvaguardas de privacidade vigentes (GDPR/LGPD).
4. Da visão ao insight acionável 📊
Quando unificamos as três saídas (pose + gaze + demografia) em um data lake de tempo real, surge uma visão 360° do público-alvo:
| Métrica | Exemplo de insight |
|---|---|
| Tempo médio de fixação (seg) por faixa etária | Jovens adultos (18-24 anos) dedicam 2,3× mais tempo à seção de snacks proteicos |
| Ponto focal dominante | 65 % do olhar converge para prateleiras ao nível dos olhos, reforçando a necessidade de planograma premium nesse espaço |
| Conversão olhar → ação | Mulheres 25-34 anos que olham para produtos sem glúten convertem 1,8× mais em compra do que a média |
Essas correlações orientam testes A/B de layout, campanhas de preço dinâmico e reposicionamento instantâneo de mercadoria — tudo baseado em evidência, não intuição.
5. Desafios éticos e operacionais ⚖️
- Privacidade : anonimização on-device (blur/embedding) antes de enviar dados a qualquer servidor.
- Viés algorítmico : treinar e validar modelos em dados representativos da população local.
- Latência : GPUs compactas (Jetson Orin, Intel ARC) ou aceleração OpenVINO/ONNX RT são essenciais para manter 30 FPS em múltiplas câmeras.
Conclusão
A sinergia entre gaze estimation, OpenPose e análise facial abre portas para uma era de merchandising guiado por dados em tempo real. Se antes dependíamos de pesquisas de campo demoradas ou estimativas subjetivas, hoje é viável ajustar displays, messaging e mix de produtos quase instantaneamente, maximizando engajamento e conversão. Para quem opera no varejo, investir nessa stack tecnológica não é mais futurismo — é vantagem competitiva tangível.