Framework híbrido com aprendizado de máquina profundo para desambiguação de nomes de autores

Rodrigues, Natan de Souza

Use este identificador para citar ou linkar para este item: http://repositorio.unb.br/handle/10482/53209

Arquivos associados a este item:

Arquivo	Tamanho	Formato
NatanDeSouzaRodrigues_TESE.pdf	66,98 MB	Adobe PDF	Visualizar/Abrir

Título:	Framework híbrido com aprendizado de máquina profundo para desambiguação de nomes de autores
Autor(es):	Rodrigues, Natan de Souza
Orientador(es):	Ralha, Célia Ghedini
Assunto:	Aprendizado de máquina Desambiguação de nomes de autores Processamento de linguagem natural (Computação) Repositório bibliográfico Redes convolucionais de grafos
Data de publicação:	24-Nov-2025
Data de defesa:	11-Ago-2025
Referência:	RODRIGUES, Natan de Souza. Framework Híbrido com Aprendizado de Máquina Profundo para Desambiguação de Nomes de Autores. 2025. 141 f., il. Tese (Doutorado em Informática) — Universidade de Brasília, Brasília, 2025.
Resumo:	A desambigua¸c˜ao de nomes de autores (Author Name Disambiguation – AND) ´e uma tarefa desafiadora em reposit´orios bibliogr´aficos digitais, marcada por ambiguidade nominal, varia¸c˜oes lingu´ısticas e metadados incompletos. Esta tese prop˜oe o framework h´ıbrido ADAN (Automatic Disambiguation Author Name), o qual combina aprendizado de m´aquina profundo com um algoritmo de agrupamento hier´arquico aglomerativo aprimorado por grafos (Graph-enhanced Hierarchical Agglomerative Clustering - GHAC). Utiliza t´ecnicas de Processamento de Linguagem Natural (PLN) com modelos baseados em transformers como SciBERT e MiniLM, e Redes Convolucionais de Grafos (RCG). O framework ADAN foi definido arquiteturalmente com quatro camadas: entrada e pr´eprocessamento, extra¸c˜ao de embeddings e constru¸c˜ao da rede heterogˆenea, aprendizado com RCG e clusteriza¸c˜ao com GHAC. A camada de entrada conta com uma interface gr´afica de usu´ario (Graph User Interface - GUI) que permite carregar os dados, configurar os parˆametros do modelo e visualizar os resultados da tarefa de AND. O framework ADAN ´e configur´avel, possibilitando adapta¸c˜ao a diferentes bases e n´ıveis de complexidade estrutural e semˆantica. Os experimentos foram realizados utilizando trˆes conjuntos de dados comuns na literatura: AMiner-12, DBLP e LAGOS-AND. Em cen´arios com metadados limitados, tal como o AMiner-12, o ADAN apresenta resultados competitivos atingindo m´edia de pF1 de 0,6717 e K-Metric de 0,8981, superando trabalhos de referˆencia em at´e 37,6% em Average Cluster Purity (ACP) e 20,21% em K-Metric. Com o conjunto de dados DBLP, o ADAN apresentou ganhos expressivos e valores estatisticamente significativos segundo as m´edias e intervalos de confian¸ca obtidos, com 33,9% em pF1 e 29,8% em K-Metric e demais m´etricas permanecendo dentro dos intervalos de confian¸ca de 95% inferior e superior. Utilizando o LAGOS-AND, os resultados apresentam B-cubed F1 de 90,8, superando em at´e 21,43% as abordagens anteriores com o mesmo conjunto de dados. Os resultados indicam que o framework ADAN oferece uma solu¸c˜ao eficaz e adapt´avel para a tarefa de AND, apresentando desempenho consistente em cen´arios com alta ambiguidade e diversidade estrutural.
Abstract:	Author Name Disambiguation (AND) is a challenging task in digital bibliographic repositories, marked by name ambiguity, linguistic variations, and incomplete metadata. This thesis proposes the hybrid framework ADAN (Automatic Disambiguation Author Name), which combines deep machine learning with a Graph-enhanced Hierarchical Agglomerative Clustering (GHAC) algorithm. It integrates Natural Language Processing (NLP) techniques using transformer-based models such as SciBERT and MiniLM, along with Graph Convolutional Networks (GCNs). The ADAN framework is architecturally defined with four layers: input and preprocessing, embedding extraction and heterogeneous network construction, learning with GCNs, and clustering with GHAC. The input layer includes a Graphical User Interface (GUI) that allows users to upload data, configure model parameters, and visualize the results of the AND task. The ADAN framework is configurable, allowing for adaptation to datasets with different levels of structural and semantic complexity. Experiments were conducted using three commonly used datasets in the literature: AMiner-12, DBLP, and LAGOS-AND. In scenarios with limited metadata, such as AMiner-12, ADAN presented competitive results with pF1 average of 0,6717 and K-Metric of 0,8981, outperforming the reference works in 37,6% of Average Cluster Purity (ACP) and 20,21% in K-Metric. On the DBLP dataset, ADAN presented significant gains and statistically significant values according to the means and confidence intervals, with 33,9% of pF1 and 29,8% of K-Metric, and other metrics remaining within the lower and upper 95% confidence intervals. Using LAGOS-AND, ADAN achieved a B-cubed F1 of 90.8, outperforming previous approaches by up to 21.43%. These results indicate that the ADAN framework offers an effective and adaptable solution for the AND task, showing consistent performance in scenarios with high ambiguity and structural diversity.
Unidade Acadêmica:	Instituto de Ciências Exatas (IE) Departamento de Ciência da Computação (IE CIC)
Informações adicionais:	Tese (doutorado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, Programa de Pós-Graduação em Informática, 2025.
Programa de pós-graduação:	Programa de Pós-Graduação em Informática
Licença:	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
Aparece nas coleções:	Teses, dissertações e produtos pós-doutorado

Mostrar registro completo do item Visualizar estatísticas