Human action recognition in image sequences based on a two-stream convolutional neural network classifier

Silva, Vinícius de Oliveira

Use este identificador para citar ou linkar para este item: http://repositorio.unb.br/handle/10482/25201

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
2017_ViníciusdeOliveiraSilva.pdf		11,79 MB	Adobe PDF	Visualizar/Abrir

Título:	Human action recognition in image sequences based on a two-stream convolutional neural network classifier
Autor(es):	Silva, Vinícius de Oliveira
Orientador(es):	Romariz, Alexandre Ricardo Soares
Assunto:	Redes neurais (Computação) Aprendizado do computador Redes neurais artificiais
Data de publicação:	7-Nov-2017
Data de defesa:	7-Ago-2017
Referência:	SILVA, Vinícius de Oliveira. Human action recognition in image sequences based on a two-stream convolutional neural network classifier. 2017. xiii, 66 f., il. Dissertação (Mestrado em Engenharia Elétrica)—Universidade de Brasília, Brasília, 2017.
Resumo:	A evolução tecnológica nas últimas décadas contribuiu para a melhoria de computadores com excelente capacidade de processamento, armazenamento e câmeras com maior qualidade digital. Os dispositivos de geração de vídeo têm sido mais fáceis de manipular, mais portáteis e com preços mais baixos. Isso permitiu a geração, armazenamento e transmissão de grandes quantidades de vídeos, o que demanda uam forma de análise automática de informações, independente de assistência humana para avaliação e busca exaustiva de vídeos. Existem várias aplicações que podem se beneficiar de técnicas de inteligência computacional, tais como realidade virtual, robótica, telemedicina, interface homemmáquina, tele-vigilância e assistência aos idosos em acompanhamento constante. Este trabalho descreve um método para o Reconhecimento de Ações Humanas em sequências de imagens usando duas Redes (canais) Neurais Convolutivas (RNCs). O Canal Espacial é treinado usando quadros de uma sequência de imagens com técnicas de transferência de aprendizagem a partir da rede VGG16 (pré-treinada para classificação de objetos). O outro canal, Canal Temporal, recebe pilhas de Fluxo Óptico Denso (FOD) como entrada e é treinado com pesos inicais aleatórios. A técnica foi testada em dois conjuntos de dados públicos de ações humanas: Weizmann e UCF Sports. Na abordagem do Canal Espacial, conseguimos 84,44% de precisão no conjunto de dados Weizmann e 78,46% no conjunto de dados UCF Sports. Com os canais temporal e espacial combinados, obtivemos uma taxa de precisão de 91,11% para o conjunto de dados Weizmann. Mostramos que quadros estáticos pertencentes a uma certa sequência de imagens curiosamente possibilitam classificar a ação realizada em tal seqüência. Acreditamos que, uma vez que a rede VGG16 foi pré-treinada para um conjunto de dados de 1000 classes de objetos diferentes e algumas ações estão associadas a certos tipos de objetos, isso contribuiu significativamente para a aprendizagem da rede espacial. Isso indica que a técnica de transferência de aprendizado foi usada de forma eficiente para reconhecer ações humanas, usando uma rede previamente treinada para reconhecer objetos.
Abstract:	The technological evolution in the last decades has contributed to the improvement of computers with excellent processing and storage capacity and cameras with higher digital quality. Nowadays, video generation devices are simpler to manipulate, more portable and with lower prices. This allowed easy generation, storage and transmission of large amounts of videos, which demands a form of automatic analysis, independent of human assistance for evaluation and exhaustive search of videos. There are several applications that can benefit from such techniques such as virtual reality, robotics, tele-medicine, humanmachine interface, tele-surveillance and assistance to the elderly in timely caregiving. This work describes a method for human action recognition in a sequence of images using two convolutional neural networks (CNNs). The Spatial network stream is trained 1using frames from a sequence of images with transfer learning techniques from the VGG16 network (pre-trained for classification of objects). The other stream channel, Temporal stream, receives stacks of Dense Optical Flow (DOF) as input and it is trained from scratch. The technique was tested in two public action video datasets: Weizmann and UCF Sports. In the Spatial stream approach we achieve 84.44% of accuracy on Weizmann dataset and 78.46% on UCF Sports dataset. With the Temporal and Spatial streams combined, we obtained an accuracy rate of 91.11% for the Weizmann dataset. We showed that still frames belonging to a certain sequence of images curiously make it possible to classify the action performed in such a sequence. We believe that, since the VGG16 network was pre-trained for a dataset of 1000 classes of different objects and some actions are associated with certain types of objects, this contributed significantly to the learning of the spatial network. This indicates that the transfer learning technique was used efficiently to recognize human actions, using a previously trained network to recognize objects.
Unidade Acadêmica:	Faculdade de Tecnologia (FT) Departamento de Engenharia Elétrica (FT ENE)
Informações adicionais:	Dissertação (mestrado)—Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, 2017.
Programa de pós-graduação:	Programa de Pós-Graduação em Engenharia Elétrica
Licença:	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
DOI:	http://dx.doi.org/10.26512/2017.08.D.25201
Aparece nas coleções:	Teses, dissertações e produtos pós-doutorado

Mostrar registro completo do item Visualizar estatísticas