http://repositorio.unb.br/handle/10482/53497| Arquivo | Descrição | Tamanho | Formato | |
|---|---|---|---|---|
| 2025_DarioPereiraDosSantos_DISSERT.pdf | 3,65 MB | Adobe PDF | Visualizar/Abrir |
| Título: | Avaliação de grandes modelos de linguagem (LLMs) para a tipificação de documentos |
| Outros títulos: | Application of Large Language Models (LLMs) for automatic document typification |
| Autor(es): | Santos, Dário Pereira dos |
| Orientador(es): | Silva, Daniel Alves da |
| Assunto: | Modelos de linguagem de grande escala Classificação de documentos Linguagem natural - processamento |
| Data de publicação: | 22-dez-2025 |
| Data de defesa: | 15-ago-2025 |
| Referência: | SANTOS, Dário Pereira dos. Avaliação de grandes modelos de linguagem (LLMs) para a tipificação de documentos. 2025. 87 f., il. Dissertação (Mestrado Profissional em Engenharia Elétrica) — Universidade de Brasília, Brasília, 2025. |
| Resumo: | O avanço dos Modelos de Linguagem de Grande Escala (LLMs) tem impulsionado significativamente aplicações em Processamento de Linguagem Natural (PLN), especialmente em tarefas como a classificação textual e a organização de grandes volumes de documentos. Este trabalho apresenta um estudo comparativo entre diferentes LLMs aplicados à tipificação automática de documentos digitais. Foram avaliados oito modelos baseados em arquiteturas transformer da família LLaMA, Mistral, Gemma e DeepSeek, acessados via chamadas assíncronas por API. As análises se basearam em métricas clássicas de desempenho, como acurácia, precisão, revocação, F1-score, perplexidade e log-likelihood, considerando o comportamento dos modelos na classificação multiclasse de textos oriundos de diferentes domínios. Os resultados mostram que o modelo LLaMA 3 apresentou o melhor desempenho geral, seguido de suas variantes ajustadas. A pesquisa destaca ainda a importância da escolha do modelo de linguagem conforme o contexto e a necessidade da tarefa, contribuindo com evidências empíricas para adoção de LLMs em sistemas de gestão documental automatizada. |
| Abstract: | The advancement of Large Language Models (LLMs) has significantly driven applications in Natural Language Processing (NLP), especially in tasks such as text classification and the organization of large volumes of documents. This work presents a comparative study of different LLMs applied to the automatic typification of digital documents. Eight transformer-based models were evaluated, from the LLaMA, Mistral, Gemma, and DeepSeek families, accessed via asynchronous API calls. The analyses were based on standard performance metrics such as accuracy, precision, recall, F1- score, perplexity, and log-likelihood, considering the models’ behavior in multiclass classification of texts from different domains. The results show that the LLaMA 3 model achieved the best overall performance, followed by its fine-tuned variants. The research further emphasizes the importance of choosing the appropriate language model according to the context and task requirements, contributing empirical evidence to support the adoption of LLMs in automated document management systems. |
| Unidade Acadêmica: | Faculdade de Tecnologia (FT) Departamento de Engenharia Elétrica (FT ENE) |
| Informações adicionais: | Dissertação (mestrado) — Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, Programa de Pós-Graduação em Engenharia Elétrica, 2025. |
| Programa de pós-graduação: | Programa de Pós-Graduação em Engenharia Elétrica, Mestrado Profissional |
| Licença: | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data. |
| Aparece nas coleções: | Teses, dissertações e produtos pós-doutorado |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.