Aprendizado profundo aplicado a classificação de textos longos com poucos dados : o caso do PPF

Rocha, Carlos Alberto Alvares

Use este identificador para citar ou linkar para este item: http://repositorio2.unb.br/jspui/handle/10482/49066

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
CarlosAlbertoAlvaresRocha_DISSERT.pdf		9,27 MB	Adobe PDF	Visualizar/Abrir

Título:	Aprendizado profundo aplicado a classificação de textos longos com poucos dados : o caso do PPF
Autor(es):	Rocha, Carlos Alberto Alvares
E-mail do autor:	carlosrochacaar@gmail.com
Orientador(es):	Weigang, Li
Assunto:	Aprendizado profundo Classificação de texto Métricas de regulação Transparência governamental
Data de publicação:	19-Jul-2024
Data de defesa:	16-Mar-2023
metadata.dc.subject.theme:	Aprendizagem de máquina
Referência:	ROCHA, Carlos Alberto Alvares. Aprendizado profundo aplicado a classificação de textos longos com poucos dados: o caso do PPF. 2023. 12708 f., il. Dissertação (Mestrado em Sistemas Mecatrônicos) — Universidade de Brasília, Brasília, 2023.
Resumo:	O processamento de linguagem natural (PLN) é uma área da inteligência artificial que vem ganhando bastante atenção nos últimos anos. Os grandes avanços recentes atraíram a atenção do Ministério de Ciência, Tecnologia e Inovações (MCTI) para a execução de um projeto com o objetivo de localizar financiamento internacional para pesquisa e desenvolvimento acessível aos pesquisadores brasileiros por meio do seu Portfólio de Produtos Financeiros (PPF). A classificação aparece como um desafio para essa solução devido a ausência de dados rotulados de alta qualidade, que são requisitos para a maioria das implementações estado da-arte na área. Este trabalho explora diferentes estratégias de aprendizado de máquina para classificar os textos longos, não estruturados e irregulares, obtidos através da raspagem de websites de instituições de financiamento, para, através de uma abordagem incremental, encontrar um método adequado com um bom desempenho. Devido a limitada quantidade de dados disponível para o treinamento supervisionado, foram empregadas soluções de pré treinamento para aprender o contexto das palavras a partir de outros conjuntos de dados, com grande similaridade e maior tamanho. Em seguida, utilizando as informações adquiridas, foi aplicada uma transferência de aprendizado associada a modelos de aprendizado profundo para aprimorar a compreensão de cada sentença. Para diminuir o impacto da irregularidade dos textos, foram realizados experimentos de pré-processamento para a identificação das melhores técnicas a serem utilizadas para esse tipo de conteúdo. Em comparação com a baseline do trabalho, foi possível alcançar um novo patamar de resultados, excedendo 90% de acurácia em grande parte dos modelos treinados. Destacam-se os modelos Longformer + CNN que atingiu 94% de acurácia com 100% de precisão e o modelo Word2Vec + CNN com 93,55% de acurácia. As descobertas do estudo representam uma aplicação bem-sucedida de inteligência artificial na administração pública.
Abstract:	Natural language processing (NLP) is an area of artificial intelligence that has been gaining much attention in recent years. The great recent advances attracted the attention of the Ministry of Science, Technology, and Innovations (MCTI) to the execution of a project to locate international funding for research and development accessible to Brazilian researchers through its Research Financing Products Portfolio (FPP). Classification presents a challenge for this solution due to the absence of high-quality labeled data, a requirement for most state-of-the-art implementations in the field. This work explores different machine learning strategies to classify long, unstructured, and irregular texts obtained by scraping websites of funding institutions to, through an incremental approach, find a suitable method with good performance. Due to the limited data available for supervised training, pre-training solutions were employed to learn the context of words from other datasets with significant similarity and larger sizes. Then, using the acquired information, a transfer of learning associated with deep learning models was applied to improve the understanding of each sentence. In order to reduce the impact of text irregularity, pre-processing experiments were carried out to identify the best techniques for this type of content. Compared to the baseline of the work, it was possible to reach a new level of results, exceeding 90% accuracy in most of the trained models. The Longformer + CNN model reached 94% accuracy with 100% precision, and the Word2Vec + CNN model achieved 93.55% accuracy. The study’s findings represent a successful application of artificial intelligence in public administration.
Informações adicionais:	Dissertação (mestrado) — Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Mecânica, Programa de Pós-Graduação em Sistemas Mecatrônicos, 2023.
Aparece nas coleções:	Teses, dissertações e produtos pós-doutorado

Mostrar registro completo do item Visualizar estatísticas