14 de fevereiro de 2020



SEM CATEGORIA, TECNOLOGIA

Um novo modelo para recuperar imagens com base em esboços

Nos últimos anos, os pesquisadores desenvolveram técnicas computacionais cada vez mais avançadas, como algoritmos de aprendizado profundo, para concluir uma variedade de tarefas. Uma tarefa que eles estão tentando resolver é conhecida como “recuperação de imagem baseada em esboço” (SBIR).

As tarefas do SBIR envolvem a recuperação de imagens de um objeto ou conceito visual específico em uma ampla coleção ou banco de dados com base em esboços feitos por usuários humanos. Para automatizar essa tarefa , os pesquisadores tentam desenvolver ferramentas que possam analisar esboços humanos e identificar imagens relacionadas ao esboço ou que contenham o mesmo objeto.

Apesar dos resultados promissores alcançados por algumas dessas ferramentas, o desenvolvimento de técnicas com desempenho consistente nas tarefas do SBIR até agora se mostrou desafiador. Isso se deve principalmente às diferenças visuais entre desenhos abstratos e imagens reais. Por exemplo, esboços feitos por humanos são frequentemente deformados e abstratos, o que os torna mais difíceis de se relacionar com objetos em imagens reais.

Para superar esse desafio, pesquisadores da Universidade de Tianjin e da Universidade de Correios e Telecomunicações de Pequim na China desenvolveram recentemente uma arquitetura baseada em rede neural que aprende representações discriminatórias entre recursos de vários domínios para tarefas de recuperação de imagem baseada em esboço (SBIR). A técnica que eles criaram, apresentada em um artigo pré-publicado no arXiv , combina uma variedade de técnicas computacionais, incluindo mapeamento de recursos semi-heterogêneos, incorporação semântica conjunta e modelos de co-atenção.

“O insight principal está em como cultivamos os relacionamentos sutis e mútuos entre os esboços, imagens naturais e mapas de borda”, escreveram os pesquisadores em seu artigo. “O mapeamento de recursos semi-heterogêneos foi desenvolvido para extrair os recursos inferiores de cada domínio, onde os ramos do esboço e do mapa de borda são compartilhados enquanto o ramo da imagem natural é heterogêneo para outros ramos”.

O modelo projetado pelos pesquisadores é uma rede de incorporação de três vias semi-heterogênea (Semi3-Net). Além do mapeamento semi-heterogêneo, ele usa uma técnica conhecida como incorporação semântica conjunta. A incorporação semântica permite que a rede incorpore recursos de diferentes domínios (por exemplo, esboços ou fotografias) em um espaço semântico de alto nível comum. O Semi3-Net também incorpora um modelo de co-atenção, projetado para recalibrar os recursos extraídos dos dois domínios diferentes.

Finalmente, os pesquisadores projetaram um mecanismo de perda híbrida que pode calcular a correlação entre esboços, mapas de borda e imagens naturais. Esse mecanismo permite que o modelo Semi3-Net aprenda representações invariantes nos dois domínios (ou seja, esboços e imagens tiradas usando câmeras).

Os pesquisadores treinaram e avaliaram o Semi3-Net em dados da Sketchy e da TU-Berlin Extension, dois conjuntos de dados amplamente utilizados em estudos focados nas tarefas SBIR. O banco de dados do Sketchy contém 75.471 esboços e 12.500 imagens naturais, enquanto o TU-Berlin Extension contém 204.489 imagens naturais e 20.000 esboços desenhados à mão.

Até agora, o Semi3-Net teve um desempenho notavelmente bom em todos os experimentos realizados pelos pesquisadores, superando outros modelos de ponta para o SBIR. A equipe agora planeja continuar trabalhando no modelo e aprimorar ainda mais seu desempenho, talvez até adaptando-o para resolver outros problemas que exigem conexão de dados de diferentes domínios.

“No futuro, focaremos em estender a rede entre domínios proposta para recuperação de imagem refinada e aprender a correspondência dos detalhes refinados para pares esboço- imagem”, escreveram os pesquisadores em seu artigo.