Avaliação de grandes modelos de linguagem (LLMs) para a tipificação de documentos

Santos, Dário Pereira dos

Veuillez utiliser cette adresse pour citer ce document : http://repositorio.unb.br/handle/10482/53497

Fichier(s) constituant ce document :

Fichier	Description	Taille	Format
2025_DarioPereiraDosSantos_DISSERT.pdf		3,65 MB	Adobe PDF	Voir/Ouvrir

Titre:	Avaliação de grandes modelos de linguagem (LLMs) para a tipificação de documentos
Autre(s) titre(s):	Application of Large Language Models (LLMs) for automatic document typification
Auteur(s):	Santos, Dário Pereira dos
Orientador(es)::	Silva, Daniel Alves da
Assunto::	Modelos de linguagem de grande escala Classificação de documentos Linguagem natural - processamento
Date de publication:	22-déc-2025
Data de defesa::	15-aoû-2025
Référence bibliographique:	SANTOS, Dário Pereira dos. Avaliação de grandes modelos de linguagem (LLMs) para a tipificação de documentos. 2025. 87 f., il. Dissertação (Mestrado Profissional em Engenharia Elétrica) — Universidade de Brasília, Brasília, 2025.
Résumé:	O avanço dos Modelos de Linguagem de Grande Escala (LLMs) tem impulsionado significativamente aplicações em Processamento de Linguagem Natural (PLN), especialmente em tarefas como a classificação textual e a organização de grandes volumes de documentos. Este trabalho apresenta um estudo comparativo entre diferentes LLMs aplicados à tipificação automática de documentos digitais. Foram avaliados oito modelos baseados em arquiteturas transformer da família LLaMA, Mistral, Gemma e DeepSeek, acessados via chamadas assíncronas por API. As análises se basearam em métricas clássicas de desempenho, como acurácia, precisão, revocação, F1-score, perplexidade e log-likelihood, considerando o comportamento dos modelos na classificação multiclasse de textos oriundos de diferentes domínios. Os resultados mostram que o modelo LLaMA 3 apresentou o melhor desempenho geral, seguido de suas variantes ajustadas. A pesquisa destaca ainda a importância da escolha do modelo de linguagem conforme o contexto e a necessidade da tarefa, contribuindo com evidências empíricas para adoção de LLMs em sistemas de gestão documental automatizada.
Abstract:	The advancement of Large Language Models (LLMs) has significantly driven applications in Natural Language Processing (NLP), especially in tasks such as text classification and the organization of large volumes of documents. This work presents a comparative study of different LLMs applied to the automatic typification of digital documents. Eight transformer-based models were evaluated, from the LLaMA, Mistral, Gemma, and DeepSeek families, accessed via asynchronous API calls. The analyses were based on standard performance metrics such as accuracy, precision, recall, F1- score, perplexity, and log-likelihood, considering the models’ behavior in multiclass classification of texts from different domains. The results show that the LLaMA 3 model achieved the best overall performance, followed by its fine-tuned variants. The research further emphasizes the importance of choosing the appropriate language model according to the context and task requirements, contributing empirical evidence to support the adoption of LLMs in automated document management systems.
metadata.dc.description.unidade:	Faculdade de Tecnologia (FT) Departamento de Engenharia Elétrica (FT ENE)
Description:	Dissertação (mestrado) — Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, Programa de Pós-Graduação em Engenharia Elétrica, 2025.
metadata.dc.description.ppg:	Programa de Pós-Graduação em Engenharia Elétrica, Mestrado Profissional
Licença::	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
Collection(s) :	Teses, dissertações e produtos pós-doutorado

Affichage détaillé " class="statisticsLink btn btn-primary" href="/handle/10482/53497/statistics">