Skip navigation
Veuillez utiliser cette adresse pour citer ce document : http://repositorio.unb.br/handle/10482/53208
Fichier(s) constituant ce document :
Fichier TailleFormat 
MayaraChewMarinho_DISSERT.pdf5,19 MBAdobe PDFVoir/Ouvrir
Titre: Reconhecimento de entidades nomeadas multilíngue : um estudo de Design sobre documentos acadêmicos e institucionais
Autre(s) titre(s): Multilingual Named Entity recognition : a Design study on academic and institutional documents
Auteur(s): Marinho, Mayara Chew
Orientador(es):: Borges, Vinícius Ruela Pereira
Assunto:: Processamento de linguagem natural (Computação)
Reconhecimento de entidades nomeadas
Textos multilíngues
Modelos de linguagem
Modelos de linguagem grande
Transformers
Construção de corpus
Date de publication: 24-nov-2025
Référence bibliographique: MARINHO, Mayara Chew. Reconhecimento de Entidades Nomeadas Multilíngue: Um Estudo de Design sobre Documentos Acadêmicos e Institucionais. 2025. 130 f., il. Dissertação (Mestrado em Informática) — Universidade de Brasília, Brasília, 2025.
Résumé: Documentos acadêmicos e institucionais desempenham um papel importante nas instituições de ensino superior, uma vez que são registros formais das trajetórias acadêmicas dos estudantes, das decisões institucionais e do cumprimento de normas regulatórias. Dada a grande quantidade de documentos produzidos e armazenados ao longo do tempo, o uso de Reconhecimento de Entidades Nomeadas (NER) torna-se uma tarefa essencial de Processamento de Linguagem Natural para extrair informações de textos não estruturados e melhorar os processos de busca nos sistemas de informação dessas instituições. O objetivo do NER é identificar e classificar palavras de acordo com categorias predefinidas de entidades, permitindo-se transformar texto bruto em dados estruturados. Documentos acadêmicos podem conter palavras em mais de um idioma, como nomes de eventos internacionais, atividades de pesquisa e localizações, o que caracteriza o NER multilíngue. Esta pesquisa de mestrado aborda o NER multilíngue em documentos acadêmicos em cenários que envolvem textos longos, disponibilidade limitada de dados rotulados e presença de entidades de baixa frequência. Diversas abordagens de NER, incluindo métodos clássicos e modelos baseados em LLMs, são comparadas e avaliadas com o uso de métricas quantitativas. A inexistência de corpora de documentos acadêmicos rotulados disponíveis publicamente demandou a criação de corporas multilíngues anotados para NER. Foram realizados experimentos com o objetivo de avaliar a qualidade dos corpora construídos e comparar o desempenho de modelos NER, como CRF, BiLSTM, CNN-BiLSTM, BERT, LLaMA e DeepSeek ajustados. Os resultados indicaram que CRF e BERT apresentaram os melhores desempenhos no corpus multilíngue desenvolvido, com macro F1-score superior a 0,9. As métricas Krippendorff’s Alpha e Cohen’s Kappa demonstraram que os rótulos atribuídos às entidades são confiáveis e que o corpus possui alta qualidade. Por fim, uma ferramenta foi proposta para visualizar entidades nomeadas, inluindo entidades aninhadas, permitindo uma análise detalhada dos resultados dos modelos de NER.
Abstract: Academic and institutional documents play a central role in higher education institutions, serving as formal records of students’ academic trajectories, institutional decisions, and regulatory compliance. Given the large volume of documents produced and stored over time, Named Entity Recognition (NER) can be an essential Natural Language Processing (NLP) task for extracting information from unstructured documents and improving search processes within electronic information systems in educational institutions. The goal of NER is is to identify and classify text spans according to predefined categories of real-world entities, enabling the conversion of raw text into a structured format. Brazilian academic documents may contain terms in different languages, such as international events, research related activities, and locations, steering research towards multilingual NER. In this context, this research addresses multilingual NER in academic documents in scenarios of long documents, limited availability of labeled data, and the presence of low frequency entities. Several NER approaches, encompassing the classical methods and those based on Large Language Models (LLMs), have their performances compared and evaluated using quantitative metrics. Moreover, the lack of publicly available academic documents required the construction of labeled corpora for multilingual NER. Experiments were conducted to evaluate the quality of the constructed corpora and to compare the performance of state-of-the-art NER models, including CRF, BiLSTM, CNN-BiLSTM, BERT, fine-tuned LLaMA, and fine-tuned DeepSeek. The results indicated that CRF and BERT achieved the best performance on the developed multilingual corpus, with macro F1-scores above 0.9. Krippendorff’s Alpha and Cohen’s Kappa metrics demonstrated that the entity labels are reliable and that the corpus has high quality. Finally, to enable the analysis of the predicted categories, a visualization tool for named entities was proposed to display NER and nested NER entities.
metadata.dc.description.unidade: Instituto de Ciências Exatas (IE)
Departamento de Ciência da Computação (IE CIC)
Description: Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, Programa de Pós-Graduação em Informática, 2025.
metadata.dc.description.ppg: Programa de Pós-Graduação em Informática
Licença:: A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
Agência financiadora: Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES).
Collection(s) :Teses, dissertações e produtos pós-doutorado

Affichage détaillé " class="statisticsLink btn btn-primary" href="/handle/10482/53208/statistics">



Tous les documents dans DSpace sont protégés par copyright, avec tous droits réservés.