Campo DC | Valor | Idioma |
dc.contributor.advisor | Campos, Teófilo Emídio de | - |
dc.contributor.author | Pereira, Tiago de Carvalho Gallo | - |
dc.date.accessioned | 2022-07-15T22:04:01Z | - |
dc.date.available | 2022-07-15T22:04:01Z | - |
dc.date.issued | 2022-07-15 | - |
dc.date.submitted | 2022-03-11 | - |
dc.identifier.citation | PEREIRA, Tiago de Carvalho Gallo. Unsupervised domain adaptation for real world person re-identification. 2022. xv, 79 f., il. Dissertação (Mestrado Profissional em Computação Aplicada) — Universidade de Brasília, Brasília, 2022. | pt_BR |
dc.identifier.uri | https://repositorio.unb.br/handle/10482/44278 | - |
dc.description | Dissertação (Mestrado Profissional em Computação Aplicada) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, Brasília, 2022. | pt_BR |
dc.description.abstract | Os avanços da tecnologia e a globalização da industrialização democratizaram o acesso
a equipamentos de alta qualidade. Câmeras de segurança seguem essa tendência e se
um dia elas foram consideradas um equipamento de luxo utilizado apenas por grandes
empreendimentos ou condomínios, hoje não é mais assim. Qualquer pequeno comércio ou
residência já possuem um conjuto de câmeras para monitorar os seus arredores.
No entanto, as câmeras por si só não conseguem prover um monitoramento inteligente,
elas apenas geram dados que podem ser analisados, em tempo real ou posteriormente.
Uma vez que alocar pessoas para monitorar as câmeras em tempo real é custoso, algoritmos de visão computacional são a solução para extrair informações em tempo real dos
dados coletados.
Métodos de visão computacional como re-identificação de pessoas, reconhecimento de
ações suspeitas e reconhecimento facial são fundamentais para auxiliar nesse monitoramento inteligente de ambientes. Em específico, a re-identificação de pessoas é um método
que visa indicar se duas imagens são da mesma pessoa ou não. Dessa forma, esse é um
método extremamente valioso para grandes empreendimentos como shoppings ou aeroportos, pois ele permite manter um histórico da movimentação de cada pessoa dentro da
área monitorada. Caso houvesse alguma ocorrência de segurança, o responsável pelo monitoramento do ambiente não precisaria rever os vídeos de todas as câmeras para entender
o ocorrido, ele poderia apenas verificar a movimentação do infrator.
A grande maioria dos métodos propostos para esses algoritmos não visa a utilização
desses em ambientes reais, mas sim em otimizar os resultados em bases de dados criadas
para fazer benchmarks. Logo, quando esses algoritmos são utilizados em situações reais,
eles apresentam performance muito inferiores às apresentadas nos testes. Há três caminhos
possíveis para resolver essa diferença de performance: a) criar uma base de dados do
ambiente real e especializar o algoritmo nessa base de dados, b) criar algortimos robustos
a variações de ambiente ou c) criar métodos que adaptem esses algoritmos para novos
ambientes de forma automatizada. Independente do caminho escolhido para solucionar
esse problema, o insumo necessário para criar tal solução são imagens de pessoas passando
em frente a câmeras de segurança. | pt_BR |
dc.description.sponsorship | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES). | pt_BR |
dc.language.iso | Português | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.title | Unsupervised domain adaptation for real world person re-identification | pt_BR |
dc.type | Dissertação | pt_BR |
dc.subject.keyword | Visão computacional | pt_BR |
dc.subject.keyword | Aprendizado profundo | pt_BR |
dc.subject.keyword | Aprendizado de métricas | pt_BR |
dc.subject.keyword | Adaptação de domínio | pt_BR |
dc.rights.license | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data. | pt_BR |
dc.description.abstract1 | In the world where big data reigns and there is plenty of hardware prepared to gather a
huge amount of non structured data, data acquisition is no longer a problem. Surveillance
cameras are ubiquitous and they capture huge numbers of people walking across different
scenes. However, extracting value from this data is challenging, specially for tasks that
involve human images, such as face recognition and person re-identification. Annotation of
this kind of data is a challenging and expensive task. In this work we propose Unsupervised
Domain Adaptation (UDA) methods for person Re-Identification (Re-ID) that rely on
target domain samples to model the marginal distribution of the data. To deal with the
lack of target domain labels, UDA methods leverage information from labelled source
samples and unlabelled target samples.
Firstly, we propose a baseline method that may use Resnet-50 or AlignedReID++ as
backbone, trained using a Triplet loss with batch hard. The domain adaptation is done
in two phases: 1) using a GAN generated intermediate dataset that leverages from the
source domain labels and approximate the source samples appearance to be similar to
the target domain samples, and 2) using pseudo-labels generated with an unsupervised
learning strategy.
Next, we realised that the quality of the clusters clearly plays a major role in the
method’s performance, however this point has been overlooked by the majority of methods, including our first approach. Therefore, we propose a multi-step pseudo-label refinement method to select the best possible clusters and keep improving them so that these
clusters become closer to the class divisions without knowledge of the class labels. Our
refinement method includes a cluster selection strategy and a camera-based normalisation method which reduces the within-domain variations caused by the use of multiple
cameras in person Re-ID. This allows our method to reach state-of-the-art UDA results
on DukeMTMC → Market1501 (source → target). We surpass state-of-the-art for UDA
Re-ID by 1.6% on Market1501 → DukeMTMC datasets, which is a more challenging
adaptation setup because the target domain (DukeMTMC) has eight distinct cameras.
Furthermore, the camera-based normalisation method causes a significant reduction in
the number of iterations required for training convergence. Our results show that domain adaptation techniques really improve the model performance when applied in the target domain. Also, these techniques unlock the person
Re-ID use for real world problems, once they may be automated to adapt a model for
new unseen scenarios while maintaining its original performance. Num mundo dominado pelo Big Data a aquisição de dados não é mais um problema,
pois há inúmeros equipamentos preparados para captar uma grande quantidade de dados
não estruturados. Câmeras de segurança são onipresentes e capturam várias imagens de
pessoas andando pelos mais diversos cenários. No entanto, extrair valor de dados não
estruturados é desafiador, especialmente para tarefas que envolvem imagens de pessoas.
A anotação desses dados é um processo extremamente complexo e caro, portanto a criação
de bases de dados específicas para cada ambiente não é vista com bons olhos.
A criação de algoritmos robustos a variações de ambiente seria a solução ideal, no
entanto as pesquisas desse tema apontam que ainda estamos muito distantes de alcançar
tal feito. Logo, técnicas de adaptação de domínio que permitam adaptar os algoritmos
para novos cenários de forma automatizada têm sido muito estudadas tanto na academia
quanto na indústria.
Nesse trabalho, propomos técnicas não supervisionadas de adaptação de domínio para
a re-identificação de pessoas, visando reduzir a lacuna de performance entre a pesquisa
de re-identificação de pessoas e as aplicações reais. Essas técnicas buscam modelar a
distribuição dos dados do domínio alvo (ambiente de aplicação), utilizando apenas imagens
provenientes desse novo cenário, sem ter acesso as anotações dessas imagens. Para lidar
com essa falta de anotações no domínio alvo, os métodos de adaptação de domínio também
utilizam imagens e anotações de um domínio fonte (base de dados anotada) para auxiliar
no aprendizado dos algoritmos.
Os métodos de re-identificação de pessoas utilizados nesse trabalho usam redes neurais
convolucionais para extrair features das imagens das pessoas. O treinamento dessas redes
neurais é realizado de forma que as features extraídas das imagens pertençam a um espaço
vetorial Euclidiano, onde features provenientes de imagens de uma mesma pessoa estão
próximas e features provenientes de imagens de pessoas distintas estão distantes.
Ao treinar a rede neural em uma base de dados, ela aprende características específicas
daquela base de dados para resolver o problema em questão, por isso ao aplicar essas
redes em novas bases a performance decai. No caso específico da re-identificação de
pessoas, uma das principais características que a rede neural precisa ter é a capacidade
de diferenciar o que é o fundo da imagem do que é uma pessoa. Por exemplo, uma base
de dados pode ter várias imagens que apresentam grama no fundo, logo a rede neural
aprende a diferenciar grama de pessoas. Ao aplicar essa rede neural em um ambiente
onde o fundo das imagens apresenta paredes, essa rede pode ter problemas de diferenciar
o que é informação de parede do que é informação de pessoas. O reflexo disso na reidentificação de pessoas é que o espaço Euclidiano da saída da rede tenderá a agrupar
features de imagens proveninete da mesma câmera, ao invés de features provenientes de
imagens da mesma pessoa. Em nossa primeira abordagem, propomos um método agnostico a arquitetura de redes
neurais utilizada como base. Portanto, utilizamos a arquitetura clássica Resnet-50 e a
arquitetura AlignedReID++ proposta por Luo et al. em nossos experimentos para analisar
como diferentes arquiteturas se comportam frente ao nosso método. Em ambos os casos
realizamos o treinamento utilizando a função de custo Triplet com a estratégia batch hard
para gerarmos esse espaço vetorial Euclidiano com a features de saída das redes neurais.
A adaptação de domínio proposta é feita em duas etapas:
• 1) Uma GAN (rede neural especializada em gerar imagens) é utilizada para alterar
a aparência das imagens do domínio fonte de forma que elas se aparentem com
as imagens do domínio alvo. Desta forma criamos um domínio intermediário que
contém as anotações do domínio fonte e imagens com aparências próximas as do
domínio alvo;
• 2) Métodos de clusterização não supervisionados são utilizados para gerar pseudo
anotações (clusters) no domínio alvo. A partir dessas pseudo anotações somos capazes de retreinar a nossa rede neural nas imagens reais do domínio alvo.
Com essa primeira abordagem conseguimos melhorar a performance dos algoritmos ao
aplicarmos em novos domínios. No entanto, não nos atentamos a qualidade das pseudo
anotações (clusters) gerada. Portanto, não fomos capazes de extrair todo o potencial do
método e atingirmos resultados que se aproximassem do estado da arte.
Ao percebermos que a qualidade dos clusters são cruciais para a performance do método, por mais que esse fator tenha sido subestimado pela maioria dos métodos existentes.
Nós propomos um novo método para refinar as pseudo anotações utilizando múltiplas etapas, que consistem em selecionar os melhores clusters possíveis e continuar melhorando a
qualidade deles para que eles se aproximem da real anotação dos dados. Nosso método
de refinamento consiste em uma estratégia de seleção de clusters e em uma normalização
guiada pelas câmeras que reduz a variância intra-domínio causada pelo uso de múltiplas
câmeras na re-identificação de pessoas.
Esse novo método elevou nossos resultados a um novo patamar, com ele alcançamos
o estado da arte da adaptação de domínio não supervisionada para re-identificação de
pessoas nas bases de dados DukeMTMC → Market1501 (fonte → alvo). Para as bases
de dados Market1501 → DukeMTMC nós ultrapassamos o estado da arte em 1.6%, essa
combinação de bases de dados representa um desafio maior de adaptação, pois o domínio
alvo (DukeMTMC) conta com oito câmeras distintas. Além do mais, nossa normalização
guiada por câmeras gera uma redução significante na quantidade de iterações necessárias
para atingir a convergência durante o treinamento. Nossos resultados mostram que as técnicas de adaptação de domínio são capazes de
melhorar significativamente a performance dos modelos quando aplicados no domínio alvo.
Ademais, essas técnicas permitem que a re-identificação de pessoas possa ser usada em
casos reais, pois elas automatizam o processo de adaptação do modelo para novos cenários
enquanto mantém a performance muito próxima a do original do modelo. | pt_BR |
dc.description.unidade | Instituto de Ciências Exatas (IE) | pt_BR |
dc.description.unidade | Departamento de Ciência da Computação (IE CIC) | pt_BR |
dc.description.ppg | Programa de Pós-Graduação em Computação Aplicada, Mestrado Profissional | pt_BR |
Aparece nas coleções: | Teses, dissertações e produtos pós-doutorado
|