Skip navigation
Por favor, use este identificador para citar o enlazar este ítem: http://repositorio.unb.br/handle/10482/53214
Ficheros en este ítem:
Fichero Tamaño Formato  
VitorVasconcelosDeOliveira_DISSERT.pdf3,34 MBAdobe PDFVisualizar/Abrir
Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.contributor.advisorFaleiros, Thiago de Paulopt_BR
dc.contributor.authorOliveira, Vitor Vasconcelos dept_BR
dc.date.accessioned2025-11-24T16:52:33Z-
dc.date.available2025-11-24T16:52:33Z-
dc.date.issued2025-11-24-
dc.date.submitted2025-02-20-
dc.identifier.citationOLIVEIRA, Vitor Vasconcelos de. Estudo sobre Redes Neurais de Grafos Bipartidos com Palavra-Chave e Atenção para Classificação Transdutiva de Texto. 2025. 117 f., il. Dissertação (Mestrado em Informática) — Universidade de Brasília, Brasília, 2025.pt_BR
dc.identifier.urihttp://repositorio.unb.br/handle/10482/53214-
dc.descriptionDissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, Programa de Pós-Graduação em Informática, 2025.pt_BR
dc.description.abstractNa atualidade, o Processamento de Linguagem Natural (NLP) evoluiu rapidamente em uma ampla gama de tarefas, especialmente graças aos avanços do Aprendizado de Máquina (ML) e do Aprendizado Profundo (DL) ao longo dos anos. No entanto, devido à alta complexidade e aos diversos pré-requisitos dessas tecnologias, as metodologias convencionais de classificação de texto de NLP geralmente exigem uma grande quantidade documentos rotulados e alto poder computacional. Este trabalho investiga três técnicas para abordar e solucionar esses desafios. Primeiramente e mais significativamente, está o uso de abordagens baseadas em grafos transdutivos para a tarefa de classificação de texto, visando reduzir a quantidade necessária de dados rotulados. Para este processo inicial, emprega-se o já renomado modelo de Graph Convolutional Networks (GCN) e o modelo mais contemporâneo de Graph Attention Networks (GAT), ambos utilizando uma nova estrutura de grafos bipartidos de documento-conceito que usam Keyphrases (conceitos) para aquisição de conhecimento de tópicos e enriquecimento de informações dos modelos. A segunda técnica utilizada, constitui na aplicação de coarsening para promover a redução dos grafos, reduzindo assim os custos computacionais. Por fim, emprega-se Large Language Models (LLM) como rotuladores de baixo custo, removendo ou reduzindo a necessidade de rotuladores humanos. Os resultados mostram que o modelo GAT teve o melhor desempenho para tarefas de classificação de texto transdutivo usando a abordagem de grafos bipartidos de documento-conceito, sendo este um desempenho comparável aos de modelos indutivos tradicionais mesmo usando apenas de 1 a 30 documentos rotulados por classe. Referente a aplicação de coarsening, ocorreu uma redução de 40%-50% no tamanho dos grafos preservando em média 82% do desempenho dos modelos, variando de 68% a 95% em vários conjuntos de dados. LLMs foram capazes de treinar vários modelos eficientes, mas quando comparados a modelos treinados usando dados rotulados por humanos apresentaram resultados inferiores, demonstrando que o aprendizado transdutivo favorece pequenas quantidades de dados muito precisos em alternativa de uma quantidade abundante de dados moderadamente precisos.pt_BR
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) e Fundação de Apoio à Pesquisa do Distrito Federal (FAP/DF).pt_BR
dc.language.isoporpt_BR
dc.rightsAcesso Abertopt_BR
dc.titleEstudo sobre redes neurais de grafos bipartidos com palavra-chave e atenção para classificação transdutiva de textopt_BR
dc.typeDissertaçãopt_BR
dc.subject.keywordInteligência artificialpt_BR
dc.subject.keywordGrafos heterogêneospt_BR
dc.subject.keywordProcessamento de linguagem natural (Computação)pt_BR
dc.subject.keywordRedes convolucionais de grafospt_BR
dc.subject.keywordRedes Neurais de Grafospt_BR
dc.subject.keywordClassificação semisupervisionadapt_BR
dc.rights.licenseA concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.pt_BR
dc.description.abstract1In contemporary times, Natural Language Processing (NLP) has swiftly evolved in a wide range of tasks, especially thanks to Machine Learning (ML), and Deep Learning (DL) great advancements over the years. However, due to these technologies’ complexity and data prerequisites, current conventional NLP text classification methodologies often require large numbers of labeled documents and large computational power. This work mainly investigates three techniques to address such challenges. Firstly and most significantly, the use of transductive graph-based approaches for the text classification task aims to reduce the amount of required labeled data. For this initial process, we employ the classic and well-established Graph Convolutional Networks (GCN) and the more contemporary Graph Attention Networks (GAT), on a novel document-concept bipartite graph framework that uses Keyphrase(concepts) for topic knowledge acquisition and model information enrichment. The second technique is applying coarsening for graph reduction, hence reducing computational costs. Lastly, we aim to employ Large Language Models (LLM) as low-cost labelers effectively removing or reducing the need for human labelers. Results show GAT as the best performing model for transductive text classification tasks using the document-concept bipartite graph approach, GAT showed that it can perform on equal levels to traditional inductive models despite using only 1 to 30 labeled documents per class. The coarsening application presented 40%-50% graph size reduction while maintaining 82% of the model performance at average, ranging from 68% to 95% on various datasets. LLMs were able to train several efficient models, but compared to models trained on human-labeled data revealed inferior results, demonstrating that transductive learning favors small amounts of highly accurate data rather than a large quantity of moderately accurate data.pt_BR
dc.description.unidadeInstituto de Ciências Exatas (IE)pt_BR
dc.description.unidadeDepartamento de Ciência da Computação (IE CIC)pt_BR
dc.description.ppgPrograma de Pós-Graduação em Informáticapt_BR
Aparece en las colecciones: Teses, dissertações e produtos pós-doutorado

Mostrar el registro sencillo del ítem " class="statisticsLink btn btn-primary" href="/handle/10482/53214/statistics">



Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.