Enhancing large language models for portuguese language : lexical normalisation case study

Oliveira, Vinícius di

Veuillez utiliser cette adresse pour citer ce document : http://repositorio.unb.br/handle/10482/54197

Fichier(s) constituant ce document :

Fichier	Taille	Format
ViniciusDiOliveira_TESE.pdf	4,57 MB	Adobe PDF	Voir/Ouvrir

Titre:	Enhancing large language models for portuguese language : lexical normalisation case study Aprimorando LLMs para língua portuguesa : caso de estudo da normalização lexical
Auteur(s):	Oliveira, Vinícius di
Orientador(es)::	Weigang, Li
Assunto::	Grandes modelos de linguagem (LLMs) Geração aumentada por recuperação Linguagem natural - processamento Processamento da língua portuguesa Engenharia de Prompt
Date de publication:	5-mar-2026
Data de defesa::	12-déc-2025
Référence bibliographique:	OLIVEIRA, Vinícius di. Enhancing large language models for portuguese language: lexical normalisation case study. 2025. 145 f. Tese (Doutorado em Informática) — Universidade de Brasília, Brasília, 2025.
Résumé:	Esta tese de doutorado aborda o desafio premente de aprimorar o desempenho e a confiabilidade de Modelos de Linguagem de Grande Escala (LLMs) em tarefas complexas de classificação e normalização no contexto da língua portuguesa. O trabalho foca especificamente na normalização lexical de descrições de mercadorias e de dados de endereçamento (CEP), essenciais para sistemas fiscais e logísticos. O problema central estudado reside na dificuldade de classificar mercadorias de forma eficaz conforme a Nomenclatura Comum do Mercosul (NCM) e de padronizar códigos postais (CEP) a partir de descrições textuais livres. No contexto da língua portuguesa, a escassez de recursos e de modelos de linguagem otimizados para o idioma apresenta obstáculos significativos. Modelos tradicionais enfrentam dificuldades consideráveis para lidar com a especificidade e a complexidade inerentes a essas tarefas, especialmente em linguagens não-inglesas. A maior parte dos LLMs proeminentes é treinada predominantemente em inglês, o que restringe o desempenho em contextos técnicos e de domínio específico, como a fiscalização tributária. A tarefa de normalização lexical, que consiste em converter texto não-padrão ou irregular em uma forma canônica e uniforme, é crucial neste cenário. Descrições de produtos ou endereços apresentam grande variabilidade textual, incluindo abreviações, inconsistências e erros ortográficos. Por exemplo, um produto pode aparecer de múltiplas formas em uma Nota Fiscal Eletrônica (NFe), como “T. Pap. FDupla” em vez de “Toalha de Papel Folha Dupla”. Sem uma normalização eficaz, sistemas que dependem de correspondência exata falham na classificação. A relevância do problema transcende o processamento linguístico puro. A classificação precisa dos códigos, como os códigos NCM (compostos por oito dígitos), afeta diretamente a conformidade fiscal, as estatísticas de comércio internacional e o monitoramento da receita pública. Erros na atribuição do código NCM podem resultar em perdas financeiras, alterações nos cálculos de tarifas, atrasos no desembaraço aduaneiro e penalidades regulatórias decorrentes de declaração incorreta. Esta tese, portanto, busca desenvolver uma solução que não apenas processe o português de forma eficiente, mas também melhore a precisão e a relevância das saídas de classificação em domínios especializados e de alto risco. Para enfrentar essas limitações, a pesquisa propõe uma arquitetura híbrida inovadora, denominada Tri-Layered Intelligent Framework for LLMs (TRINITY-LLM). Essa estrutura modular e integrada visa combinar o ajuste fino eficiente, a geração aumentada por recuperação de informações (Retrieval Augmented Generation - RAG) e a avaliação estatisticamente robusta. O TRINITY-LLM é composto por três estágios complementares, cada um correspondendo a uma inovação metodológica desenvolvida na tese: 1) Modelo Simplificado Lógico Inteligente de Ajuste Fino com Geração Aumentada por Recuperação de Informações (SLIM-RAFT): focado no ajuste fino custo-eficiente e na normalização lexical em português. 2) Geração Aumentada por Recuperação em Dois Passos (Two-Step RAG): que aprimora a precisão da recuperação de informações por meio da filtragem contextual orientada por metadados. 3) Modelos Mistos Integrados com Análise em Bootstrap (IMMBA): que estabelece uma estrutura estatística rigorosa para a avaliação de LLMs, quantificando a variabilidade de desempenho. O SLIM-RAFT foi concebido para superar o viés linguístico anglocêntrico e as exigências computacionais das pipelines tradicionais de ajuste fino. Ele estende os princípios do Retrieval-Augmented Fine-Tuning (RAFT), que treina o modelo para utilizar informações externas recuperadas durante o fine-tuning. O RAFT original, no entanto, é quase inviável devido à dependência de outro LLM de alta capacidade para construir o corpus de treinamento baseado na Cadeia de Pensamento (Chain-of-Thought - CoT). O SLIM-RAFT simplifica a fase de geração de dados por meio do paradigma de raciocínio Sequence-of-Sets (SoS) no prompt de treinamento, criado e desenvolvido neste trabalho. O SoS representa o raciocínio como sequências lógicas ordenadas entre conjuntos, espelhando a inferência dedutiva: a ∈ A, A ⊆ B,∴a ∈ B. Isso reduz drasticamente o custo de criação do conjunto de dados de ajuste fino, mantendo a consistência de aprendizado. O fine-tuning foi realizado em modelos leves, como o TeenyTinyLLaMA (TTL), que já é pré-treinado nativamente em português brasileiro, utilizando a técnica de Low-Rank Adaptation (LoRA), que reduz o custo computacional. O conjunto de dados extenso utilizado incluiu mais de 240.000 registros da NCM provenientes de notas fiscais eletrônicas (NFe’s). O Two-Step RAG aborda a limitação central dos sistemas RAG convencionais, que dependem fortemente da similaridade semântica, o que frequentemente resulta em ruído quando os prompts são vagos. Ele organiza a recuperação contextual em duas fases explícitas: 1) Recuperação Comum (R1): Uma busca ampla e irrestrita, garantindo alto recall e fornecendo um conjunto inicial de candidatos. 2) Extração e Aplicação de Metadados (M e R2): Um LLM é solicitado a extrair atributos estruturados (metadados, como NCM ou rótulo) diretamente do prompt original. Esses atributos são usados para refinar a recuperação por meio de uma filtragem direcionada aos candidatos semânticos iniciais. Essa abordagem equilibra amplitude e precisão, distinguindo-se de métodos como o MultiMeta-RAG, que dependem de esquemas rígidos de metadados. A formulação matemática do Two-Step RAG inclui: i) Função de Recuperação Comum. ii) Função de Extração de Metadados. iii) Função de Filtragem. O Integrated Mixed Models with Bootstrap Analysis (IMMBA) é uma estrutura estatística que garante a avaliação rigorosa, interpretável e reprodutível dos LLMs. Ele utiliza modelos lineares multivariados mistos em combinação com o reescalonamento bootstrap não-paramétrico (com 1000 iterações). A formulação hierárquica do LMM decompõe a variância observada em fontes sistemáticas e aleatórias: Var(Y ) = σ 2 f + σ 2 P + σ 2 e onde Var(Y ) é a variância total, σ 2 f é a variância explicada por efeitos fixos (arquitetura do modelo, método de recuperação), σ 2 P representa a variabilidade devida ao fraseado do prompt (efeito aleatório), e σ 2 e captura o erro residual, ou seja, aquilo não explicado pelas variáveis anteriores. A avaliação dos modelos foi baseada em quatro dimensões principais, pontuadas em uma escala ordinal de 0 a 10: Qualidade, Acordo (alinhamento semântico), Precisão (correção factual) e Alucinação (penalização de conteúdo não suportado). Os resultados empíricos validaram a eficácia da abordagem proposta. O modelo SLIMRAFT (aplicado ao TTL de 160M de parâmetros) apresentou desempenho comparável ao de modelos de ponta na classificação NCM. O SLIM-RAFT alcançou uma precisão média de 8,63 (0 a 10), o que representa um aumento significativo em relação aos modelos observados. Notavelmente, superou o ChatGPT 4.0 (modelo proprietário de bilhões de parâmetros), que alcançou uma média de 4,5 (0 a 10) no mesmo protocolo de avaliação, e o TTL base, que marcou apenas 0,2. O sucesso foi replicado no domínio do CEP: o modelo SLIM-RAFT-CEP (160M parâmetros) obteve uma média de 1,92, um desempenho comparável ao do modelo de ponta GPT-4.o mini (1,90). Isso confirma que a metodologia SoS e o ajuste fino direcionado são suficientes para capturar a lógica de domínio específico, mesmo em arquiteturas compactas. Os experimentos com o Two-Step RAG compararam seu desempenho com o RAG Convencional em cinco arquiteturas de LLMs (incluindo Mistral-7B, Deepseek-chat e GPT-4o-mini). Os resultados confirmaram que a recuperação orientada por metadados é eficaz. O Two-Step RAG melhorou a Qualidade em 2,20×, o Acordo em 2,63× e a Precisão em 2,91×, em média, em comparação com a abordagem RAG comum. O modelo Mistral-7B teve o maior ganho relativo em Precisão (×4, 54), mas seu desempenho absoluto permaneceu inferior ao dos modelos de ponta. Em contraste, o RAG Comum reduziu significativamente a Qualidade média (2,73 vs 5,30) e a Precisão (2,12 vs 4,70), resultando em taxas de Alucinação mais altas (4,67 vs 3,93 para Two-Step RAG). Isso reforça a necessidade de refinamento contextual. A análise de correlação de Spearman ρ, que é o indicador numérico que mede a força e a direção da relação entre duas variáveis, revelou associações positivas fortes e monotônicas entre Qualidade, Acordo e Precisão (ρ ∈ [0, 955; 0, 977]), e correlações negativas fracas, mas consistentes, com Alucinação (aproximadamente −0, 28). O framework IMMBA forneceu a base estatística para interpretar esses resultados com confiança. A análise de decomposição da variância revelou as fontes de incerteza no desempenho dos LLMs: i) Efeitos Fixos (arquitetura do modelo, método RAG, etc.): 23,2% da variância total (σ 2 f = 2, 14). ii) Variabilidade do Prompt (efeito aleatório): 7,2% da variância total (σ 2 P = 0, 66). iii) Erro Residual e Ruído Estocástico: 69,6% da variância total (σ 2 e = 6, 42). Essa grande proporção de variância não explicada pelos fatores controlados reforça a necessidade de metodologias estatísticas robustas, como o bootstrap, para inferir a confiabilidade dos resultados. O uso do bootstrap aumentou a estabilidade das estimativas e produziu intervalos de confiança mais estreitos, o que comprova que as melhorias reportadas são estatisticamente significativas e robustas. O trabalho faz uma contribuição significativa ao campo do processamento de linguagem natural multilíngue, particularmente para a língua portuguesa. As contribuições metodológicas incluem a técnica de ajuste fino SLIM-RAFT, a estratégia de prompting Sequence-of-Sets (SoS), a metodologia de recuperação avançada Two-Step RAG, e o framework estatístico IMMBA. O sucesso em adaptar modelos compactos (160M) para alcançar o desempenho de modelos proprietários massivos (GPT-4o mini) em tarefas de domínio específico no âmbito do processamento de linguagem natural, por meio de estratégias de fine-tuning e de recuperação otimizadas, sugere um caminho promissor para o desenvolvimento de inteligência artificial sustentável e linguisticamente inclusiva. O TRINITY-LLM oferece uma solução completa e estatisticamente fundamentada para enfrentar o desafio de alto risco da normalização lexical e da classificação de dados fiscais em português.
Abstract:	This thesis addresses the challenge of enhancing the performance and reliability of Large Language Models (LLMs) for lexical normalisation of short Portuguese texts, focusing on structured classification tasks such as the Nomenclatura Comum do Mercosul (NCM) and postal codes (CEP). Traditional language models, typically trained on corpora predominantly in English, encounter significant difficulties in handling the specificity, ambiguity, and linguistic variability (including abbreviations and spelling errors) inherent to specialised Portuguese tasks such as tax auditing and logistics. Inaccuracies in the classification of mandatory fiscal codes, such as the NCM in Brazilian electronic invoices, can lead to financial losses and operational inefficiencies. To overcome these limitations, this research proposes an integrated and innovative architecture — the Three-Layer Intelligent Framework for LLMs (TRINITYLLM). The proposed model is structured into three interdependent components, each representing a core study within this thesis: 1) Simplified Logical Intelligent FineTuning Model with Retrieval-Augmented Generation (SLIM-RAFT) — a costefficient fine-tuning method specifically designed for adaptation to technical Portuguese domains. SLIM-RAFT extends the logic of Retrieval-Augmented Fine-Tuning (RAFT) by simplifying the data generation phase, replacing lengthy narrative explanations with a new reasoning paradigm termed Sequence-of-Sets (SoS). The SoS prompting technique represents reasoning as a set of ordered logical relations, preserving the interpretability of the Chain-of-Thought (CoT). This component focuses on the lexical normalisation of nonstandard descriptions. 2) Two-Step RAG for Advanced Retrieval and Metadata Filtering — an enhanced retrieval methodology that overcomes the limitations of conventional RAG systems. The Two-Step RAG operates in two explicit phases: (i) Common Retrieval (R1), a broad, unfiltered search for high recall; and (ii) Metadata Extraction and Application (M and R2), in which an LLM dynamically extracts structured attributes from the original prompt to refine the search and filter the initial semantic candidates. This design effectively decouples semantic retrieval from metadata application. 3) Integrated Mixed Models with Bootstrap Analysis (IMMBA) — a rigorous statistical framework providing a robust and transparent basis for LLM evaluation. IMMBA em ploys linear mixed models combined with non-parametric bootstrap resampling, enabling the decomposition of observed variability into fixed and random sources. The methodology involved extensive experimentation with open-source models, including the 160M-parameter TeenyTinyLLaMA (TTL), fine-tuned on domain-specific Portuguese data. More than 240,000 NCM records were extracted from Brazilian electronic invoices (Notas Fiscais Eletrônicas – NFes) for model development. Empirical results validate the effectiveness of the proposed approach. The SLIMRAFT model (TTL 160M fine-tuned) achieved a mean NCM classification score of 8.63 (standard deviation 2.30), significantly outperforming GPT-4.0 (4.5) and the baseline TTL (0.2) under the same evaluation protocol. These results demonstrate that SoS logic is sufficient to capture domain reasoning even in compact models. SLIM-RAFT also generalised successfully to the CEP classification task, achieving performance comparable to GPT-4o-mini despite its dramatically smaller size. The Two-Step RAG method consistently improved performance metrics over conventional RAG, achieving on average a 2.20× gain in quality, 2.63× in agreement, and 2.91× in accuracy across all tested models. This enhancement in contextual retrieval precision led to reduced hallucination rates. Statistical analysis through IMMBA confirmed the robustness of the evaluation: decomposition of total variance revealed that fixed factors (architecture, retrieval method, and decoding parameters) accounted for 23.2% of overall variability, random factors associated with prompt phrasing contributed 7.2%, and the remaining 69.6% was attributed to residual stochasticity and experimental noise. These insights highlight the need for statistically grounded frameworks to quantify and interpret uncertainty in LLM performance. This research makes a significant contribution to the field of multilingual Natural Language Processing. The TRINITY-LLM framework offers not only a practical solution for improving product classification according to the NCM, but also establishes a precedent for how hybrid models — combining efficient fine-tuning, metadata-augmented retrieval, and rigorous statistical evaluation — can enhance the reliability and transparency of language models in specialised and high-stakes domains such as regulatory auditing.
metadata.dc.description.unidade:	Instituto de Ciências Exatas (IE) Departamento de Ciência da Computação (IE CIC)
Description:	Tese (Doutorado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, Programa de Pós-Graduação em Informática, 2025.
metadata.dc.description.ppg:	Programa de Pós-Graduação em Informática
Licença::	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
Collection(s) :	Teses, dissertações e produtos pós-doutorado

Affichage détaillé " class="statisticsLink btn btn-primary" href="/handle/10482/54197/statistics">