Campo DC | Valor | Idioma |
dc.contributor.advisor | Weigang, Li | - |
dc.contributor.author | Rocha, Carlos Alberto Alvares | - |
dc.date.accessioned | 2024-07-19T22:26:37Z | - |
dc.date.available | 2024-07-19T22:26:37Z | - |
dc.date.issued | 2024-07-19 | - |
dc.date.submitted | 2023-03-16 | - |
dc.identifier.citation | ROCHA, Carlos Alberto Alvares. Aprendizado profundo aplicado a classificação de textos longos com poucos dados: o caso do PPF. 2023. 12708 f., il. Dissertação (Mestrado em Sistemas Mecatrônicos) — Universidade de Brasília, Brasília, 2023. | pt_BR |
dc.identifier.uri | http://repositorio2.unb.br/jspui/handle/10482/49066 | - |
dc.description | Dissertação (mestrado) — Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Mecânica, Programa de Pós-Graduação em Sistemas Mecatrônicos, 2023. | pt_BR |
dc.description.abstract | O processamento de linguagem natural (PLN) é uma área da inteligência artificial que vem
ganhando bastante atenção nos últimos anos. Os grandes avanços recentes atraíram a atenção
do Ministério de Ciência, Tecnologia e Inovações (MCTI) para a execução de um projeto
com o objetivo de localizar financiamento internacional para pesquisa e desenvolvimento
acessível aos pesquisadores brasileiros por meio do seu Portfólio de Produtos Financeiros
(PPF). A classificação aparece como um desafio para essa solução devido a ausência de dados
rotulados de alta qualidade, que são requisitos para a maioria das implementações estado da-arte na área. Este trabalho explora diferentes estratégias de aprendizado de máquina para
classificar os textos longos, não estruturados e irregulares, obtidos através da raspagem de
websites de instituições de financiamento, para, através de uma abordagem incremental,
encontrar um método adequado com um bom desempenho. Devido a limitada quantidade
de dados disponível para o treinamento supervisionado, foram empregadas soluções de pré treinamento para aprender o contexto das palavras a partir de outros conjuntos de dados, com
grande similaridade e maior tamanho. Em seguida, utilizando as informações adquiridas, foi
aplicada uma transferência de aprendizado associada a modelos de aprendizado profundo
para aprimorar a compreensão de cada sentença. Para diminuir o impacto da irregularidade
dos textos, foram realizados experimentos de pré-processamento para a identificação das
melhores técnicas a serem utilizadas para esse tipo de conteúdo. Em comparação com a
baseline do trabalho, foi possível alcançar um novo patamar de resultados, excedendo 90%
de acurácia em grande parte dos modelos treinados. Destacam-se os modelos Longformer +
CNN que atingiu 94% de acurácia com 100% de precisão e o modelo Word2Vec + CNN com
93,55% de acurácia. As descobertas do estudo representam uma aplicação bem-sucedida de
inteligência artificial na administração pública. | pt_BR |
dc.language.iso | por | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.title | Aprendizado profundo aplicado a classificação de textos longos com poucos dados : o caso do PPF | pt_BR |
dc.type | Dissertação | pt_BR |
dc.subject.keyword | Aprendizagem profunda | pt_BR |
dc.subject.keyword | Classificação de texto | pt_BR |
dc.subject.keyword | Métricas de regulação | pt_BR |
dc.subject.keyword | Transparência governamental | pt_BR |
dc.description.abstract1 | Natural language processing (NLP) is an area of artificial intelligence that has been gaining
much attention in recent years. The great recent advances attracted the attention of the
Ministry of Science, Technology, and Innovations (MCTI) to the execution of a project to
locate international funding for research and development accessible to Brazilian researchers
through its Research Financing Products Portfolio (FPP). Classification presents a challenge
for this solution due to the absence of high-quality labeled data, a requirement for most
state-of-the-art implementations in the field. This work explores different machine learning
strategies to classify long, unstructured, and irregular texts obtained by scraping websites of
funding institutions to, through an incremental approach, find a suitable method with good
performance. Due to the limited data available for supervised training, pre-training solutions
were employed to learn the context of words from other datasets with significant similarity
and larger sizes. Then, using the acquired information, a transfer of learning associated with
deep learning models was applied to improve the understanding of each sentence. In order
to reduce the impact of text irregularity, pre-processing experiments were carried out to
identify the best techniques for this type of content. Compared to the baseline of the work, it
was possible to reach a new level of results, exceeding 90% accuracy in most of the trained
models. The Longformer + CNN model reached 94% accuracy with 100% precision, and
the Word2Vec + CNN model achieved 93.55% accuracy. The study’s findings represent a
successful application of artificial intelligence in public administration. | pt_BR |
dc.contributor.email | carlosrochacaar@gmail.com | pt_BR |
dc.subject.theme | Aprendizagem de máquina | pt_BR |
Aparece nas coleções: | Teses, dissertações e produtos pós-doutorado
|