Skip navigation
Por favor, use este identificador para citar o enlazar este ítem: http://repositorio.unb.br/handle/10482/53497
Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
2025_DarioPereiraDosSantos_DISSERT.pdf3,65 MBAdobe PDFVisualizar/Abrir
Título : Avaliação de grandes modelos de linguagem (LLMs) para a tipificação de documentos
Otros títulos : Application of Large Language Models (LLMs) for automatic document typification
Autor : Santos, Dário Pereira dos
Orientador(es):: Silva, Daniel Alves da
Assunto:: Modelos de linguagem de grande escala
Classificação de documentos
Linguagem natural - processamento
Fecha de publicación : 22-dic-2025
Citación : SANTOS, Dário Pereira dos. Avaliação de grandes modelos de linguagem (LLMs) para a tipificação de documentos. 2025. 87 f., il. Dissertação (Mestrado Profissional em Engenharia Elétrica) — Universidade de Brasília, Brasília, 2025.
Resumen : O avanço dos Modelos de Linguagem de Grande Escala (LLMs) tem impulsionado significativamente aplicações em Processamento de Linguagem Natural (PLN), especialmente em tarefas como a classificação textual e a organização de grandes volumes de documentos. Este trabalho apresenta um estudo comparativo entre diferentes LLMs aplicados à tipificação automática de documentos digitais. Foram avaliados oito modelos baseados em arquiteturas transformer da família LLaMA, Mistral, Gemma e DeepSeek, acessados via chamadas assíncronas por API. As análises se basearam em métricas clássicas de desempenho, como acurácia, precisão, revocação, F1-score, perplexidade e log-likelihood, considerando o comportamento dos modelos na classificação multiclasse de textos oriundos de diferentes domínios. Os resultados mostram que o modelo LLaMA 3 apresentou o melhor desempenho geral, seguido de suas variantes ajustadas. A pesquisa destaca ainda a importância da escolha do modelo de linguagem conforme o contexto e a necessidade da tarefa, contribuindo com evidências empíricas para adoção de LLMs em sistemas de gestão documental automatizada.
Abstract: The advancement of Large Language Models (LLMs) has significantly driven applications in Natural Language Processing (NLP), especially in tasks such as text classification and the organization of large volumes of documents. This work presents a comparative study of different LLMs applied to the automatic typification of digital documents. Eight transformer-based models were evaluated, from the LLaMA, Mistral, Gemma, and DeepSeek families, accessed via asynchronous API calls. The analyses were based on standard performance metrics such as accuracy, precision, recall, F1- score, perplexity, and log-likelihood, considering the models’ behavior in multiclass classification of texts from different domains. The results show that the LLaMA 3 model achieved the best overall performance, followed by its fine-tuned variants. The research further emphasizes the importance of choosing the appropriate language model according to the context and task requirements, contributing empirical evidence to support the adoption of LLMs in automated document management systems.
metadata.dc.description.unidade: Faculdade de Tecnologia (FT)
Departamento de Engenharia Elétrica (FT ENE)
Descripción : Dissertação (mestrado) — Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, Programa de Pós-Graduação em Engenharia Elétrica, 2025.
metadata.dc.description.ppg: Programa de Pós-Graduação em Engenharia Elétrica, Mestrado Profissional
Licença:: A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
Aparece en las colecciones: Teses, dissertações e produtos pós-doutorado

Mostrar el registro Dublin Core completo del ítem " class="statisticsLink btn btn-primary" href="/handle/10482/53497/statistics">



Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.