Skip navigation
Use este identificador para citar ou linkar para este item: http://repositorio.unb.br/handle/10482/53214
Arquivos associados a este item:
Arquivo TamanhoFormato 
VitorVasconcelosDeOliveira_DISSERT.pdf3,34 MBAdobe PDFVisualizar/Abrir
Título: Estudo sobre redes neurais de grafos bipartidos com palavra-chave e atenção para classificação transdutiva de texto
Autor(es): Oliveira, Vitor Vasconcelos de
Orientador(es): Faleiros, Thiago de Paulo
Assunto: Inteligência artificial
Grafos heterogêneos
Processamento de linguagem natural (Computação)
Redes convolucionais de grafos
Redes Neurais de Grafos
Classificação semisupervisionada
Data de publicação: 24-nov-2025
Referência: OLIVEIRA, Vitor Vasconcelos de. Estudo sobre Redes Neurais de Grafos Bipartidos com Palavra-Chave e Atenção para Classificação Transdutiva de Texto. 2025. 117 f., il. Dissertação (Mestrado em Informática) — Universidade de Brasília, Brasília, 2025.
Resumo: Na atualidade, o Processamento de Linguagem Natural (NLP) evoluiu rapidamente em uma ampla gama de tarefas, especialmente graças aos avanços do Aprendizado de Máquina (ML) e do Aprendizado Profundo (DL) ao longo dos anos. No entanto, devido à alta complexidade e aos diversos pré-requisitos dessas tecnologias, as metodologias convencionais de classificação de texto de NLP geralmente exigem uma grande quantidade documentos rotulados e alto poder computacional. Este trabalho investiga três técnicas para abordar e solucionar esses desafios. Primeiramente e mais significativamente, está o uso de abordagens baseadas em grafos transdutivos para a tarefa de classificação de texto, visando reduzir a quantidade necessária de dados rotulados. Para este processo inicial, emprega-se o já renomado modelo de Graph Convolutional Networks (GCN) e o modelo mais contemporâneo de Graph Attention Networks (GAT), ambos utilizando uma nova estrutura de grafos bipartidos de documento-conceito que usam Keyphrases (conceitos) para aquisição de conhecimento de tópicos e enriquecimento de informações dos modelos. A segunda técnica utilizada, constitui na aplicação de coarsening para promover a redução dos grafos, reduzindo assim os custos computacionais. Por fim, emprega-se Large Language Models (LLM) como rotuladores de baixo custo, removendo ou reduzindo a necessidade de rotuladores humanos. Os resultados mostram que o modelo GAT teve o melhor desempenho para tarefas de classificação de texto transdutivo usando a abordagem de grafos bipartidos de documento-conceito, sendo este um desempenho comparável aos de modelos indutivos tradicionais mesmo usando apenas de 1 a 30 documentos rotulados por classe. Referente a aplicação de coarsening, ocorreu uma redução de 40%-50% no tamanho dos grafos preservando em média 82% do desempenho dos modelos, variando de 68% a 95% em vários conjuntos de dados. LLMs foram capazes de treinar vários modelos eficientes, mas quando comparados a modelos treinados usando dados rotulados por humanos apresentaram resultados inferiores, demonstrando que o aprendizado transdutivo favorece pequenas quantidades de dados muito precisos em alternativa de uma quantidade abundante de dados moderadamente precisos.
Abstract: In contemporary times, Natural Language Processing (NLP) has swiftly evolved in a wide range of tasks, especially thanks to Machine Learning (ML), and Deep Learning (DL) great advancements over the years. However, due to these technologies’ complexity and data prerequisites, current conventional NLP text classification methodologies often require large numbers of labeled documents and large computational power. This work mainly investigates three techniques to address such challenges. Firstly and most significantly, the use of transductive graph-based approaches for the text classification task aims to reduce the amount of required labeled data. For this initial process, we employ the classic and well-established Graph Convolutional Networks (GCN) and the more contemporary Graph Attention Networks (GAT), on a novel document-concept bipartite graph framework that uses Keyphrase(concepts) for topic knowledge acquisition and model information enrichment. The second technique is applying coarsening for graph reduction, hence reducing computational costs. Lastly, we aim to employ Large Language Models (LLM) as low-cost labelers effectively removing or reducing the need for human labelers. Results show GAT as the best performing model for transductive text classification tasks using the document-concept bipartite graph approach, GAT showed that it can perform on equal levels to traditional inductive models despite using only 1 to 30 labeled documents per class. The coarsening application presented 40%-50% graph size reduction while maintaining 82% of the model performance at average, ranging from 68% to 95% on various datasets. LLMs were able to train several efficient models, but compared to models trained on human-labeled data revealed inferior results, demonstrating that transductive learning favors small amounts of highly accurate data rather than a large quantity of moderately accurate data.
Unidade Acadêmica: Instituto de Ciências Exatas (IE)
Departamento de Ciência da Computação (IE CIC)
Informações adicionais: Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, Programa de Pós-Graduação em Informática, 2025.
Programa de pós-graduação: Programa de Pós-Graduação em Informática
Licença: A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
Agência financiadora: Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) e Fundação de Apoio à Pesquisa do Distrito Federal (FAP/DF).
Aparece nas coleções:Teses, dissertações e produtos pós-doutorado

Mostrar registro completo do item Visualizar estatísticas



Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.