http://repositorio.unb.br/handle/10482/24650
Fichero | Descripción | Tamaño | Formato | |
---|---|---|---|---|
2017_RenéOctavioQueirozDias.pdf | 17,33 MB | Adobe PDF | Visualizar/Abrir |
Título : | A computer vision system for recognizing plant species in the wild using convolutional neural networks |
Autor : | Dias, René Octavio Queiroz |
Orientador(es):: | Borges, Díbio Leandro |
Assunto:: | Aprendizagem de máquina Inteligência artificial Visão computacional Plantas - classificação |
Fecha de publicación : | 26-sep-2017 |
Data de defesa:: | 3-jul-2017 |
Citación : | DIAS, René Octavio Queiroz. A computer vision system for recognizing plant species in the wild using convolutional neural networks. 2017. xv, 64 f., il. Dissertação (Mestrado em Sistemas Mecatrônicos)—Universidade de Brasília, Brasília, 2017. |
Resumen : | Classificação de plantas tem sido um problema recorrente na comunidade de Visão Computacional. Visualmente, as plantas apresentam uma variabilidade muito grande, decorrente principalmente de efeitos sazonais, idade e fundos. Sistemas de classificação mais antigos tinham problemas para lidar com estas variações e seus bancos de dados usavam imagens mais simples com apenas partes desmembradas de plantas (como folhas e flores) e fundo branco. Com o advento das Redes Neurais Profundas, que demostraram ser bastante competitivas como classificadores de propósito geral, o objetivo é testá-las com um banco de dados de propósito mais específico, que podem tencionar mais estes classificadores tentando classificar espécies de plantas similares em poses bastante diferentes. Construiu-se um banco de dados que é focado em como o usuário comum tira retratos de plantas. Este novo banco de dados, chamado Plantas, foi feito para ter poucas restrições. Inicialmente, há 50 espécies diferentes que são usados comumente em jardinagem, e há mais de 33.000 imagens. Estas fotos foram tiradas in loco e da Internet. Depois, treinou-se com técnicas recentes do estado da arte, como os Métodos de Codificação e Redes Neurais Profundas. Nos Métodos de Codificação, são usados três codificadores: Saco de Palavras Visuais (BoVW), Vetores Fisher (FV) e Vetores de Descritores Linearmente Agregados (VLAD). Nos Métodos de Codificação, há duas fases: uma aprendizagem sem-supervisão e em seguida uma supervisionada. Em todos os métodos, o processo é parecido. Na fase sem-supervisão, obtêm-se os descritores SIFT, retira-se uma amostra destes descritores, faz uma aprendizagem da projeção da Análise de Componentes Principais e usa-se k-médias para agregar estas características em k grupos, que são o número de palavras. Aqui se separa o treinamento de BoVW e VLAD dos Vetores Fisher. Para os primeiros, cria-se uma árvore k-d para facilitar o posterior processo de pesquisa. Para os Vetores Fisher, usa-se os grupos como inicialização dos Modelos de Mistura de Distribuições Normais. Na fase de aprendizagem supervisionada, passa-se uma imagem pelos processos de obtenção dos descritores SIFT, amostragem e PCA. Então, para cada característica de uma imagem, pesquisase o grupo a qual pertencente. Para BoVW, obtém-se um histograma que conta cada palavra da imagem que tem o equivalente no dicionário. Para VLAD, obtém-se o desvio à média destas palavras, e com Vetores Fisher, além do desvio à média, calcula-se o desvio à covariância. Estes, representam os descritores finais que são posteriormente treinados com uma Máquina de Vetores de Suporte Linear (Linear-SVM). Nas redes neurais, são treinadas diferentes arquiteturas recentes como AlexNet, CaffeNet, GoogLeNet e ResNet. Elas contêm técnicas que exploram a estrutura espacial das imagens, como as camadas de convoluções, e usam técnicas de regularização que evitam sobreajuste—que era algo especialmente comum em redes com muitos parâmetros—como Dropout e Normalização em Lotes. Também foi a primeira vez em que se usou uma função de ativação que não sofre problemas de saturação, a Unidade Linear Retificada (ReLU) que tomou o lugar de Sigmóides e Tangentes Hiperbólicas. Usando estas arquiteturas, faz-se experimentos para saber como elas respondem ao novo banco de dados, e quais são as melhores especificações para obter-se a melhor acurácia e quais as razões que uma escolha é melhor que a outra. Nestes experimentos, funções de ativações mais recentes como a Unidade Linear Retificada Parametrizada (PReLU) e a Unidade Linear Exponencial (ELU) foram testadas. Também, usa-se técnicas de ajuste fino em que se reutiliza parâmetros de uma rede treinada para um certo banco de dados em outro, também conhecido como transferência de conhecimento. |
Abstract: | Classifying plant species has been a recurrent topic in the Computer Vision community. Visually, plants present a high level of variability, mostly because of seasonal effects, age and background. Early classification systems had difficulties to deal with this variability and early databases relied on simple images, using dismembered parts of the plants, such as leaves and flowers, and a distinctive background (usually white). With the advent of Deep Neural Networks, which proved to be very competitive as a generalpurpose classifier, we aim to assess them with a more specific-purpose database, which can be further strained by trying to classify similar plant species in some very different poses. We created a new database that focus on how the common user takes plant pictures. This database, named Plantas, is meant to be highly unconstrained. Initially, it contains 50 common different species and cultivars used in gardening worldwide, and more than 33,000 images. These images were taken on site and download from the Internet. Then, we train this database with the latest state of the art techniques, such as Encoding Methods and Deep Neural Networks. We further explore neural networks by testing some recent activation functions and also fine-tuning. |
metadata.dc.description.unidade: | Faculdade de Tecnologia (FT) Departamento de Engenharia Mecânica (FT ENM) |
Descripción : | Dissertação (mestrado)—Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Mecânica, 2017. |
metadata.dc.description.ppg: | Programa de Pós-Graduação em Sistemas Mecatrônicos |
Licença:: | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data. |
Aparece en las colecciones: | Teses, dissertações e produtos pós-doutorado |
Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.