Aprendizado profundo aplicado a classificação de textos longos com poucos dados : o caso do PPF

Rocha, Carlos Alberto Alvares

Registro completo de metadados

Campo DC	Valor	Idioma
dc.contributor.advisor	Weigang, Li	-
dc.contributor.author	Rocha, Carlos Alberto Alvares	-
dc.date.accessioned	2024-07-19T22:26:37Z	-
dc.date.available	2024-07-19T22:26:37Z	-
dc.date.issued	2024-07-19	-
dc.date.submitted	2023-03-16	-
dc.identifier.citation	ROCHA, Carlos Alberto Alvares. Aprendizado profundo aplicado a classificação de textos longos com poucos dados: o caso do PPF. 2023. 12708 f., il. Dissertação (Mestrado em Sistemas Mecatrônicos) — Universidade de Brasília, Brasília, 2023.	pt_BR
dc.identifier.uri	http://repositorio2.unb.br/jspui/handle/10482/49066	-
dc.description	Dissertação (mestrado) — Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Mecânica, Programa de Pós-Graduação em Sistemas Mecatrônicos, 2023.	pt_BR
dc.description.abstract	O processamento de linguagem natural (PLN) é uma área da inteligência artificial que vem ganhando bastante atenção nos últimos anos. Os grandes avanços recentes atraíram a atenção do Ministério de Ciência, Tecnologia e Inovações (MCTI) para a execução de um projeto com o objetivo de localizar financiamento internacional para pesquisa e desenvolvimento acessível aos pesquisadores brasileiros por meio do seu Portfólio de Produtos Financeiros (PPF). A classificação aparece como um desafio para essa solução devido a ausência de dados rotulados de alta qualidade, que são requisitos para a maioria das implementações estado da-arte na área. Este trabalho explora diferentes estratégias de aprendizado de máquina para classificar os textos longos, não estruturados e irregulares, obtidos através da raspagem de websites de instituições de financiamento, para, através de uma abordagem incremental, encontrar um método adequado com um bom desempenho. Devido a limitada quantidade de dados disponível para o treinamento supervisionado, foram empregadas soluções de pré treinamento para aprender o contexto das palavras a partir de outros conjuntos de dados, com grande similaridade e maior tamanho. Em seguida, utilizando as informações adquiridas, foi aplicada uma transferência de aprendizado associada a modelos de aprendizado profundo para aprimorar a compreensão de cada sentença. Para diminuir o impacto da irregularidade dos textos, foram realizados experimentos de pré-processamento para a identificação das melhores técnicas a serem utilizadas para esse tipo de conteúdo. Em comparação com a baseline do trabalho, foi possível alcançar um novo patamar de resultados, excedendo 90% de acurácia em grande parte dos modelos treinados. Destacam-se os modelos Longformer + CNN que atingiu 94% de acurácia com 100% de precisão e o modelo Word2Vec + CNN com 93,55% de acurácia. As descobertas do estudo representam uma aplicação bem-sucedida de inteligência artificial na administração pública.	pt_BR
dc.language.iso	por	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.title	Aprendizado profundo aplicado a classificação de textos longos com poucos dados : o caso do PPF	pt_BR
dc.type	Dissertação	pt_BR
dc.subject.keyword	Aprendizagem profunda	pt_BR
dc.subject.keyword	Classificação de texto	pt_BR
dc.subject.keyword	Métricas de regulação	pt_BR
dc.subject.keyword	Transparência governamental	pt_BR
dc.description.abstract1	Natural language processing (NLP) is an area of artificial intelligence that has been gaining much attention in recent years. The great recent advances attracted the attention of the Ministry of Science, Technology, and Innovations (MCTI) to the execution of a project to locate international funding for research and development accessible to Brazilian researchers through its Research Financing Products Portfolio (FPP). Classification presents a challenge for this solution due to the absence of high-quality labeled data, a requirement for most state-of-the-art implementations in the field. This work explores different machine learning strategies to classify long, unstructured, and irregular texts obtained by scraping websites of funding institutions to, through an incremental approach, find a suitable method with good performance. Due to the limited data available for supervised training, pre-training solutions were employed to learn the context of words from other datasets with significant similarity and larger sizes. Then, using the acquired information, a transfer of learning associated with deep learning models was applied to improve the understanding of each sentence. In order to reduce the impact of text irregularity, pre-processing experiments were carried out to identify the best techniques for this type of content. Compared to the baseline of the work, it was possible to reach a new level of results, exceeding 90% accuracy in most of the trained models. The Longformer + CNN model reached 94% accuracy with 100% precision, and the Word2Vec + CNN model achieved 93.55% accuracy. The study’s findings represent a successful application of artificial intelligence in public administration.	pt_BR
dc.contributor.email	carlosrochacaar@gmail.com	pt_BR
dc.subject.theme	Aprendizagem de máquina	pt_BR
Aparece nas coleções:	Teses, dissertações e produtos pós-doutorado