Skip navigation
Use este identificador para citar ou linkar para este item: http://repositorio.unb.br/handle/10482/53208
Arquivos associados a este item:
Arquivo TamanhoFormato 
MayaraChewMarinho_DISSERT.pdf5,19 MBAdobe PDFVisualizar/Abrir
Registro completo de metadados
Campo DCValorIdioma
dc.contributor.advisorBorges, Vinícius Ruela Pereirapt_BR
dc.contributor.authorMarinho, Mayara Chewpt_BR
dc.date.accessioned2025-11-24T16:52:31Z-
dc.date.available2025-11-24T16:52:31Z-
dc.date.issued2025-11-24-
dc.date.submitted2025-08-22-
dc.identifier.citationMARINHO, Mayara Chew. Reconhecimento de Entidades Nomeadas Multilíngue: Um Estudo de Design sobre Documentos Acadêmicos e Institucionais. 2025. 130 f., il. Dissertação (Mestrado em Informática) — Universidade de Brasília, Brasília, 2025.pt_BR
dc.identifier.urihttp://repositorio.unb.br/handle/10482/53208-
dc.descriptionDissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, Programa de Pós-Graduação em Informática, 2025.pt_BR
dc.description.abstractDocumentos acadêmicos e institucionais desempenham um papel importante nas instituições de ensino superior, uma vez que são registros formais das trajetórias acadêmicas dos estudantes, das decisões institucionais e do cumprimento de normas regulatórias. Dada a grande quantidade de documentos produzidos e armazenados ao longo do tempo, o uso de Reconhecimento de Entidades Nomeadas (NER) torna-se uma tarefa essencial de Processamento de Linguagem Natural para extrair informações de textos não estruturados e melhorar os processos de busca nos sistemas de informação dessas instituições. O objetivo do NER é identificar e classificar palavras de acordo com categorias predefinidas de entidades, permitindo-se transformar texto bruto em dados estruturados. Documentos acadêmicos podem conter palavras em mais de um idioma, como nomes de eventos internacionais, atividades de pesquisa e localizações, o que caracteriza o NER multilíngue. Esta pesquisa de mestrado aborda o NER multilíngue em documentos acadêmicos em cenários que envolvem textos longos, disponibilidade limitada de dados rotulados e presença de entidades de baixa frequência. Diversas abordagens de NER, incluindo métodos clássicos e modelos baseados em LLMs, são comparadas e avaliadas com o uso de métricas quantitativas. A inexistência de corpora de documentos acadêmicos rotulados disponíveis publicamente demandou a criação de corporas multilíngues anotados para NER. Foram realizados experimentos com o objetivo de avaliar a qualidade dos corpora construídos e comparar o desempenho de modelos NER, como CRF, BiLSTM, CNN-BiLSTM, BERT, LLaMA e DeepSeek ajustados. Os resultados indicaram que CRF e BERT apresentaram os melhores desempenhos no corpus multilíngue desenvolvido, com macro F1-score superior a 0,9. As métricas Krippendorff’s Alpha e Cohen’s Kappa demonstraram que os rótulos atribuídos às entidades são confiáveis e que o corpus possui alta qualidade. Por fim, uma ferramenta foi proposta para visualizar entidades nomeadas, inluindo entidades aninhadas, permitindo uma análise detalhada dos resultados dos modelos de NER.pt_BR
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES).pt_BR
dc.language.isoporpt_BR
dc.rightsAcesso Abertopt_BR
dc.titleReconhecimento de entidades nomeadas multilíngue : um estudo de Design sobre documentos acadêmicos e institucionaispt_BR
dc.title.alternativeMultilingual Named Entity recognition : a Design study on academic and institutional documentspt_BR
dc.typeDissertaçãopt_BR
dc.subject.keywordProcessamento de linguagem natural (Computação)pt_BR
dc.subject.keywordReconhecimento de entidades nomeadaspt_BR
dc.subject.keywordTextos multilínguespt_BR
dc.subject.keywordModelos de linguagempt_BR
dc.subject.keywordModelos de linguagem grandept_BR
dc.subject.keywordTransformerspt_BR
dc.subject.keywordConstrução de corpuspt_BR
dc.rights.licenseA concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.pt_BR
dc.description.abstract1Academic and institutional documents play a central role in higher education institutions, serving as formal records of students’ academic trajectories, institutional decisions, and regulatory compliance. Given the large volume of documents produced and stored over time, Named Entity Recognition (NER) can be an essential Natural Language Processing (NLP) task for extracting information from unstructured documents and improving search processes within electronic information systems in educational institutions. The goal of NER is is to identify and classify text spans according to predefined categories of real-world entities, enabling the conversion of raw text into a structured format. Brazilian academic documents may contain terms in different languages, such as international events, research related activities, and locations, steering research towards multilingual NER. In this context, this research addresses multilingual NER in academic documents in scenarios of long documents, limited availability of labeled data, and the presence of low frequency entities. Several NER approaches, encompassing the classical methods and those based on Large Language Models (LLMs), have their performances compared and evaluated using quantitative metrics. Moreover, the lack of publicly available academic documents required the construction of labeled corpora for multilingual NER. Experiments were conducted to evaluate the quality of the constructed corpora and to compare the performance of state-of-the-art NER models, including CRF, BiLSTM, CNN-BiLSTM, BERT, fine-tuned LLaMA, and fine-tuned DeepSeek. The results indicated that CRF and BERT achieved the best performance on the developed multilingual corpus, with macro F1-scores above 0.9. Krippendorff’s Alpha and Cohen’s Kappa metrics demonstrated that the entity labels are reliable and that the corpus has high quality. Finally, to enable the analysis of the predicted categories, a visualization tool for named entities was proposed to display NER and nested NER entities.pt_BR
dc.description.unidadeInstituto de Ciências Exatas (IE)pt_BR
dc.description.unidadeDepartamento de Ciência da Computação (IE CIC)pt_BR
dc.description.ppgPrograma de Pós-Graduação em Informáticapt_BR
Aparece nas coleções:Teses, dissertações e produtos pós-doutorado

Mostrar registro simples do item Visualizar estatísticas



Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.