http://repositorio.unb.br/handle/10482/48209
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
ViniciusLimaDeMiranda_TESE.pdf | 7,7 MB | Adobe PDF | Visualizar/Abrir |
Título: | Inovações para identificação automática de triatomíneos (Hemiptera: Reduviidae) baseada no processamento de imagens por aprendizado de máquina |
Autor(es): | Miranda, Vinícius Lima de |
Orientador(es): | Gonçalves, Rodrigo Gurgel |
Assunto: | Aprendizagem de máquina Doença de Chagas Inseto nocivo |
Data de publicação: | 6-Jun-2024 |
Data de defesa: | 28-Ago-2023 |
Referência: | MIRANDA, Vinícius Lima de. Inovações para identificação automática de triatomíneos (Hemiptera: Reduviidae) baseada no processamento de imagens por aprendizado de máquina . 2023. 223 f., il. Tese (Doutorado em Zoologia) - Universidade De Brasília, Universidade de Brasília, Brasília, 2023. |
Resumo: | Os triatomíneos são insetos hemípteros (Reduviidae), transmissores de Trypanosoma cruzi, agente etiológico da doença de Chagas. A identificação automática de triatomíneos pode fortalecer a vigilância e o controle da transmissão vetorial da doença de Chagas. Essa tese apresenta três capítulos com inovações para identificação automática de triatomíneos. No primeiro capítulo, avaliamos o desempenho de cinco algoritmos de aprendizado de máquina para identificação de três gêneros de triatomíneos com base em imagens em diferentes ângulos ou posições obtidas com uma câmera de celular. Analisamos imagens de 730 insetos (13 espécies) fotografados em nove ângulos representando três posições. Dividimos o banco de dados de 6570 imagens em conjuntos de treinamento (80%) e de teste (20%) e, em seguida, treinamos e testamos uma rede neural convolucional prétreinada (AlexNet, AN), três classificadores (AdaBoost, AB; Gradient Boosting, GB; Histogram-based Gradient Boosting, HB) e um modelo discriminante linear (LD). Avaliamos a acurácia e a especificidade da identificação com modelos generalizados lineares mistos. Os resultados mostraram que as diferenças de desempenho entre os algoritmos foram impulsionadas pela acurácia e especificidade essencialmente perfeitas da AN, independentemente do ângulo ou posição. As acurácias previstas de HB variaram de ~0,987 (Panstrongylus) a >0,999 (Triatoma). A acurácia do AB foi ruim para Rhodnius (~0,224-0,282) e Panstrongylus (~0,664-0,729), mas razoável para Triatoma (~0,988-0,991). Para Panstrongylus, LD e GB previram acurácias na faixa de ~0,970-0,984. AB classificou erroneamente ~57% de Rhodnius e Panstrongylus como Triatoma, enquanto as estimativas de especificidade variaram de ~0,92 a ~1,0 para as demais combinações de gênero-algoritmo. No segundo capítulo, avaliamos o 2 desempenho da rede AN na identificação de espécies de triatomíneos a partir de imagens dorsais de alta resolução e obtidas de celulares comuns. Analisamos fotos dorsais de 6397 triatomíneos pertencentes a 65 espécies de 7 gêneros, a partir de um conjunto de dados de treinamento (70%) e teste (20%). Os 10% restantes foram utilizados para a validação interna do algoritmo durante o treinamento, realizado no MATLAB. Realizamos dois experimentos, um com todas as espécies e outro com as espécies com registro em casas e infecção natural por T. cruzi. Os resultados mostraram que AN apresentou uma acurácia de ~0,93 (IC95%, 0,913-0,941) para identificar 65 espécies de triatomíneos. A acurácia específica alcançou valor máximo para 21 espécies, principalmente as espécies dos gêneros Rhodnius e Panstrongylus. O desempenho foi melhorado (~0,97, IC95%: 0,930-0,958) quando foram consideradas apenas as espécies com maior capacidade vetorial. No terceiro capítulo, avaliamos o desempenho da AN na identificação de imagens de ninfas de triatomíneos até o nível de gênero. A abordagem metodológica foi similar ao capítulo 2, porém foram realizados 3 experimentos. No primeiro, treinamos a rede AN para diferenciar ninfas de triatomíneos e espécimes não-triatomíneos (adultos e ninfas de percevejos heterópteros). No segundo, a tarefa foi diferenciar ninfas de triatomíneos de ninfas de heterópteros não-triatomíneos. No terceiro, a tarefa foi diferenciar ninfas dos três gêneros de triatomíneos mais relevantes em saúde pública, Panstrongylus, Rhodnius e Triatoma. Os resultados mostraram que a acurácia média para identificação de ninfas de triatomíneos x outros heterópteros (ninfas e/ou adultos) variou de 0,97 a 1,00. Os valores de acurácia também foram altos para identificação de ninfas dos gêneros Triatoma (~0,99, IC95%: 0,947-0,998) e Rhodnius (~1,00, IC95%: 0,816-1,000), sendo menores para Panstrongylus (~0,58, IC95%:0,360- 0,784). As seguintes conclusões derivam dessa tese: 1) quando algoritmos de aprendizado de máquina como AN são usados, os ângulos ou posições em que os insetos são fotografados não são relevantes para identificar corretamente imagens de celulares de triatomíneos em nível de gênero, com acurácia e especificidade essencialmente perfeitas. 2) A rede AN apresentou ótimo desempenho para identificação automática de espécies de triatomíneos baseada em um conjunto amplo de imagens dorsais de adultos. 3) AN apresentou ótimo desempenho para identificar ninfas de triatomíneos, diferenciando de ninfas e adultos de heterópteros em geral, ninfas de triatomíneos e não triatomíneos e ninfas de Rhodnius e Triatoma. Finalmente, a tese fornece a base para o desenvolvimento de um sistema 3 automatizado de identificação dos vetores da doença de Chagas com participação comunitária em larga escala, o que poderá contribuir para a ciência cidadã. |
Abstract: | Triatomines bugs (Reduviidae) are vectors of Trypanosoma cruzi, the etiologic agent of Chagas disease. Automated identification of triatomine bugs could strengthen the control/surveillance of vector-borne transmission of Chagas disease. This thesis presents three chapters with innovations for automatic identification of triatomines. In the first chapter, we assess the performance of five machine-learning algorithms at identifying the three main triatomine genera based on bugs pictured at different angles/positions with an ordinary cellphone camera. Each of 730 bugs (13 species) was pictured at nine angles representing three positions. We randomly split the 6570- picture database into training (80%) and testing sets (20%), and then trained and tested a pre-trained convolutional neural network (AlexNet, AN); three boosting-based classifiers (AdaBoost, AB; Gradient Boosting, GB; and Histogram-based Gradient Boosting, HB); and a linear discriminant model (LD). We assessed identification accuracy and specificity with generalized linear mixed models. Differences in performance across algorithms were mainly driven by AN’s essentially perfect accuracy and specificity, irrespective of picture angle or bug position. HB predicted accuracies ranged from ~0.987 (Panstrongylus) to >0.999 (Triatoma). AB accuracy was poor for Rhodnius (~0.224-0.282) and Panstrongylus (~0.664-0.729), but fair for Triatoma (~0.988-0.991). For Panstrongylus, LD and GB had predicted accuracies in the ~0.970-0.984 range. AB misclassified ~57% of Rhodnius and Panstrongylus as Triatoma, whereas specificity estimates ranged from ~0.92 to ~1.0 for the remaining algorithm-genus combinations. In the second chapter, we evaluated the performance of the AN network in identifying triatomine species based on dorsal pictures obtained from ordinary cellphone camera and high-quality images. We analyzed dorsal pictures of 6397 triatomines belonging to 65 species of seven genera, from a training (70%) and test (20%) dataset. The remaining 10% dataset were used for the internal validation of AN network during training in MATLAB. We carried out two experiments, one with all species and the other with species registered in houses and naturally infected by T. cruzi. AN presented an accuracy of ~0.93 (95%CI, 0.913-0.941) to identify 65 triatomine species. The specific accuracy reached a maximum value for 21 species, mainly Rhodnius and Panstrongylus species. Performance was improved (~0.97, 95%CI: 0.930-0.958) in the analysis including only species with greater vectorial capacity. In the third chapter, we evaluated the performance of AN in identifying images of triatomine nymphs. The methodological approach was similar to Chapter 2, but three experiments were performed. In the first, we train the AN network to differentiate between triatomine nymphs and non-triatomine specimens (adults and nymphs of heteropterans). In the second, the task was to differentiate triatomine nymphs from non-triatomine nymphs. In the third, the task was to differentiate nymphs from the three most relevant triatomine genera in public health, Panstrongylus, Rhodnius and Triatoma. The results showed that the mean accuracy for identifying triatomine nymphs x other heteropterans (nymphs and/or adults) ranged from 0.97 to 1.00. Accuracy values were also high for identifying nymphs of the genera Triatoma (~0.99, 95%CI: 0.947-0.998) and Rhodnius (~1.00, 95%CI: 0.816-1.000), being lower for Panstrongylus (~0.58, 95%CI: 0.360-0.784). The following conclusions derive from this thesis: 1) when machine learning algorithms such as AN are used, the angles or positions at which insects are photographed are not relevant to correctly identify cellphone images of triatomine bugs at the genus level, with accuracy and specificity essentially perfect. 2) the AN network showed excellent performance for the automatic identification of species based on a large set of dorsal images of adult triatomines. 3) AN showed excellent performance in identifying triatomine nymphs from other heteropterans (adults or nymphs), triatomine and non-triatomine nymphs, and nymphs of Rhodnius and Triatoma. Finally, the thesis provides the basis for the development of an automated system for identifying Chagas disease vectors with large-scale community participation, which could contribute to citizen science. |
Unidade Acadêmica: | Instituto de Ciências Biológicas (IB) |
Informações adicionais: | Tese (doutorado)—Universidade de Brasília, Programa de Pós-Graduação em Zoologia, 2023. |
Programa de pós-graduação: | Programa de Pós-Graduação em Zoologia |
Licença: | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data. |
Aparece nas coleções: | Teses, dissertações e produtos pós-doutorado |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.