Pix2Seq: Nova interface de linguagem para detecção de objetos

A detecção de objetos é uma antiga do setor de visão computacional tem o objetivo de reconhecer e localizar todos os objetos de interesse em uma imagem. A complexidade é enorme em diversos aspectos.

Conforme descrito no paper, é possivel incorporar o conhecimento prévio específico da tarefa com uma técnica de aumento de sequência. Assim surgiu o projeto “Pix2Seq: A Language Modeling Framework for Object Detection”, publicado na ICLR 2022, foi proposto / apresentamos um método simples e genérico que trata a detecção de objetos de uma perspectiva completamente diferente comparado a tudo que conhecemos até o presente momento. Ao contrário dos projetos existentes que são específicas da tarefa, foi proposto a detecção de objetos como uma tarefa de modelagem de linguagem condicionada às entradas de pixel observadas.

Os resultados demonstrados pelo projeto Pix2Seq são animadores e competitivos ao projetos/algoritmos de detecção altamente especializados e bem otimizados existentes. O desempenho do Pix2Seq pode ser melhorado ainda mais com o pré-treinamento de dataset de objetos maior. O projeto foi disponibilizado para comunidade de desenvolvedor/pesquisadores no link : https://github.com/google-research/pix2seq

Conceito do Pix2Seq

A tecnologia é baseada na intuição se uma rede neural sabe onde e quais são os objetos em uma imagem. ( Veja na imagem de teste acima, a dedução de um controle remoto e um copo em minhas mãos ). Durante o aprendizado, o modelo pode aprender a fundamentar as descrições em observações de pixels, levando a representações úteis de objetos. Ao submeter uma imagem, o modelo Pix2Seq gera uma sequência de descrições de objetos, onde cada objeto é retornado usando cinco parâmetros: as coordenadas da região de interesse [ymin, xmin, ymax, xmax] e um rótulo de classe de objetos.

O Pix2Seq propõe uma quantização e serialização que converte as regiões de interesse e nome da classe em sequências de tokens discretos (semelhantes a legendas) e dispara uma arquitetura de codificador-decodificador para entender as entradas de pixel e gerar a sequência de descrições de objetos.

Em breve mais novidades.

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

Conectando a %s

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.