| Campo DC | Valor | Idioma |
| dc.contributor.advisor | Weigang, Li | pt_BR |
| dc.contributor.author | Oliveira, Vinícius di | pt_BR |
| dc.date.accessioned | 2026-03-05T17:13:52Z | - |
| dc.date.available | 2026-03-05T17:13:52Z | - |
| dc.date.issued | 2026-03-05 | - |
| dc.date.submitted | 2025-12-12 | - |
| dc.identifier.citation | OLIVEIRA, Vinícius di. Enhancing large language models for portuguese language: lexical normalisation case study. 2025. 145 f. Tese (Doutorado em Informática) — Universidade de Brasília, Brasília, 2025. | pt_BR |
| dc.identifier.uri | http://repositorio.unb.br/handle/10482/54197 | - |
| dc.description | Tese (Doutorado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, Programa de Pós-Graduação em Informática, 2025. | pt_BR |
| dc.description.abstract | Esta tese de doutorado aborda o desafio premente de aprimorar o desempenho e a confiabilidade de Modelos de Linguagem de Grande Escala (LLMs) em tarefas complexas de
classificação e normalização no contexto da língua portuguesa. O trabalho foca especificamente na normalização lexical de descrições de mercadorias e de dados de endereçamento
(CEP), essenciais para sistemas fiscais e logísticos. O problema central estudado reside
na dificuldade de classificar mercadorias de forma eficaz conforme a Nomenclatura Comum do Mercosul (NCM) e de padronizar códigos postais (CEP) a partir de descrições
textuais livres. No contexto da língua portuguesa, a escassez de recursos e de modelos de linguagem otimizados para o idioma apresenta obstáculos significativos. Modelos
tradicionais enfrentam dificuldades consideráveis para lidar com a especificidade e a complexidade inerentes a essas tarefas, especialmente em linguagens não-inglesas. A maior
parte dos LLMs proeminentes é treinada predominantemente em inglês, o que restringe o
desempenho em contextos técnicos e de domínio específico, como a fiscalização tributária.
A tarefa de normalização lexical, que consiste em converter texto não-padrão ou irregular em uma forma canônica e uniforme, é crucial neste cenário. Descrições de produtos
ou endereços apresentam grande variabilidade textual, incluindo abreviações, inconsistências e erros ortográficos. Por exemplo, um produto pode aparecer de múltiplas formas em
uma Nota Fiscal Eletrônica (NFe), como “T. Pap. FDupla” em vez de “Toalha de Papel
Folha Dupla”. Sem uma normalização eficaz, sistemas que dependem de correspondência exata falham na classificação. A relevância do problema transcende o processamento
linguístico puro. A classificação precisa dos códigos, como os códigos NCM (compostos
por oito dígitos), afeta diretamente a conformidade fiscal, as estatísticas de comércio internacional e o monitoramento da receita pública. Erros na atribuição do código NCM
podem resultar em perdas financeiras, alterações nos cálculos de tarifas, atrasos no desembaraço aduaneiro e penalidades regulatórias decorrentes de declaração incorreta. Esta
tese, portanto, busca desenvolver uma solução que não apenas processe o português de
forma eficiente, mas também melhore a precisão e a relevância das saídas de classificação
em domínios especializados e de alto risco. Para enfrentar essas limitações, a pesquisa propõe uma arquitetura híbrida inovadora, denominada Tri-Layered Intelligent Framework for LLMs (TRINITY-LLM). Essa estrutura modular e integrada visa combinar o ajuste fino eficiente, a geração aumentada por
recuperação de informações (Retrieval Augmented Generation - RAG) e a avaliação estatisticamente robusta. O TRINITY-LLM é composto por três estágios complementares,
cada um correspondendo a uma inovação metodológica desenvolvida na tese: 1) Modelo
Simplificado Lógico Inteligente de Ajuste Fino com Geração Aumentada por Recuperação
de Informações (SLIM-RAFT): focado no ajuste fino custo-eficiente e na normalização lexical em português. 2) Geração Aumentada por Recuperação em Dois Passos (Two-Step
RAG): que aprimora a precisão da recuperação de informações por meio da filtragem contextual orientada por metadados. 3) Modelos Mistos Integrados com Análise em Bootstrap
(IMMBA): que estabelece uma estrutura estatística rigorosa para a avaliação de LLMs,
quantificando a variabilidade de desempenho.
O SLIM-RAFT foi concebido para superar o viés linguístico anglocêntrico e as exigências computacionais das pipelines tradicionais de ajuste fino. Ele estende os princípios
do Retrieval-Augmented Fine-Tuning (RAFT), que treina o modelo para utilizar informações externas recuperadas durante o fine-tuning. O RAFT original, no entanto, é
quase inviável devido à dependência de outro LLM de alta capacidade para construir o
corpus de treinamento baseado na Cadeia de Pensamento (Chain-of-Thought - CoT). O
SLIM-RAFT simplifica a fase de geração de dados por meio do paradigma de raciocínio
Sequence-of-Sets (SoS) no prompt de treinamento, criado e desenvolvido neste trabalho.
O SoS representa o raciocínio como sequências lógicas ordenadas entre conjuntos, espelhando a inferência dedutiva: a ∈ A, A ⊆ B,∴a ∈ B. Isso reduz drasticamente o custo de
criação do conjunto de dados de ajuste fino, mantendo a consistência de aprendizado.
O fine-tuning foi realizado em modelos leves, como o TeenyTinyLLaMA (TTL), que já
é pré-treinado nativamente em português brasileiro, utilizando a técnica de Low-Rank
Adaptation (LoRA), que reduz o custo computacional. O conjunto de dados extenso utilizado incluiu mais de 240.000 registros da NCM provenientes de notas fiscais eletrônicas
(NFe’s).
O Two-Step RAG aborda a limitação central dos sistemas RAG convencionais, que
dependem fortemente da similaridade semântica, o que frequentemente resulta em ruído
quando os prompts são vagos. Ele organiza a recuperação contextual em duas fases explícitas: 1) Recuperação Comum (R1): Uma busca ampla e irrestrita, garantindo alto recall
e fornecendo um conjunto inicial de candidatos. 2) Extração e Aplicação de Metadados (M e R2): Um LLM é solicitado a extrair atributos estruturados (metadados, como
NCM ou rótulo) diretamente do prompt original. Esses atributos são usados para refinar
a recuperação por meio de uma filtragem direcionada aos candidatos semânticos iniciais.
Essa abordagem equilibra amplitude e precisão, distinguindo-se de métodos como o MultiMeta-RAG, que dependem de esquemas rígidos de metadados. A formulação matemática
do Two-Step RAG inclui: i) Função de Recuperação Comum. ii) Função de Extração de
Metadados. iii) Função de Filtragem.
O Integrated Mixed Models with Bootstrap Analysis (IMMBA) é uma estrutura estatística que garante a avaliação rigorosa, interpretável e reprodutível dos LLMs. Ele utiliza
modelos lineares multivariados mistos em combinação com o reescalonamento bootstrap
não-paramétrico (com 1000 iterações). A formulação hierárquica do LMM decompõe
a variância observada em fontes sistemáticas e aleatórias: Var(Y ) = σ
2
f
+ σ
2
P
+ σ
2
e onde
Var(Y ) é a variância total, σ
2
f
é a variância explicada por efeitos fixos (arquitetura do
modelo, método de recuperação), σ
2
P
representa a variabilidade devida ao fraseado do
prompt (efeito aleatório), e σ
2
e
captura o erro residual, ou seja, aquilo não explicado pelas
variáveis anteriores. A avaliação dos modelos foi baseada em quatro dimensões principais,
pontuadas em uma escala ordinal de 0 a 10: Qualidade, Acordo (alinhamento semântico),
Precisão (correção factual) e Alucinação (penalização de conteúdo não suportado).
Os resultados empíricos validaram a eficácia da abordagem proposta. O modelo SLIMRAFT (aplicado ao TTL de 160M de parâmetros) apresentou desempenho comparável ao
de modelos de ponta na classificação NCM. O SLIM-RAFT alcançou uma precisão média de 8,63 (0 a 10), o que representa um aumento significativo em relação aos modelos
observados. Notavelmente, superou o ChatGPT 4.0 (modelo proprietário de bilhões de
parâmetros), que alcançou uma média de 4,5 (0 a 10) no mesmo protocolo de avaliação, e
o TTL base, que marcou apenas 0,2. O sucesso foi replicado no domínio do CEP: o modelo SLIM-RAFT-CEP (160M parâmetros) obteve uma média de 1,92, um desempenho
comparável ao do modelo de ponta GPT-4.o mini (1,90). Isso confirma que a metodologia
SoS e o ajuste fino direcionado são suficientes para capturar a lógica de domínio específico,
mesmo em arquiteturas compactas.
Os experimentos com o Two-Step RAG compararam seu desempenho com o RAG
Convencional em cinco arquiteturas de LLMs (incluindo Mistral-7B, Deepseek-chat e
GPT-4o-mini). Os resultados confirmaram que a recuperação orientada por metadados é eficaz. O Two-Step RAG melhorou a Qualidade em 2,20×, o Acordo em 2,63× e a
Precisão em 2,91×, em média, em comparação com a abordagem RAG comum. O modelo Mistral-7B teve o maior ganho relativo em Precisão (×4, 54), mas seu desempenho
absoluto permaneceu inferior ao dos modelos de ponta. Em contraste, o RAG Comum
reduziu significativamente a Qualidade média (2,73 vs 5,30) e a Precisão (2,12 vs 4,70),
resultando em taxas de Alucinação mais altas (4,67 vs 3,93 para Two-Step RAG). Isso
reforça a necessidade de refinamento contextual. A análise de correlação de Spearman ρ,
que é o indicador numérico que mede a força e a direção da relação entre duas variáveis,
revelou associações positivas fortes e monotônicas entre Qualidade, Acordo e Precisão (ρ ∈ [0, 955; 0, 977]), e correlações negativas fracas, mas consistentes, com Alucinação
(aproximadamente −0, 28).
O framework IMMBA forneceu a base estatística para interpretar esses resultados
com confiança. A análise de decomposição da variância revelou as fontes de incerteza
no desempenho dos LLMs: i) Efeitos Fixos (arquitetura do modelo, método RAG, etc.):
23,2% da variância total (σ
2
f
= 2, 14). ii) Variabilidade do Prompt (efeito aleatório):
7,2% da variância total (σ
2
P
= 0, 66). iii) Erro Residual e Ruído Estocástico: 69,6% da
variância total (σ
2
e = 6, 42). Essa grande proporção de variância não explicada pelos fatores
controlados reforça a necessidade de metodologias estatísticas robustas, como o bootstrap,
para inferir a confiabilidade dos resultados. O uso do bootstrap aumentou a estabilidade
das estimativas e produziu intervalos de confiança mais estreitos, o que comprova que as
melhorias reportadas são estatisticamente significativas e robustas.
O trabalho faz uma contribuição significativa ao campo do processamento de linguagem natural multilíngue, particularmente para a língua portuguesa. As contribuições
metodológicas incluem a técnica de ajuste fino SLIM-RAFT, a estratégia de prompting Sequence-of-Sets (SoS), a metodologia de recuperação avançada Two-Step RAG, e o
framework estatístico IMMBA. O sucesso em adaptar modelos compactos (160M) para
alcançar o desempenho de modelos proprietários massivos (GPT-4o mini) em tarefas de
domínio específico no âmbito do processamento de linguagem natural, por meio de estratégias de fine-tuning e de recuperação otimizadas, sugere um caminho promissor para
o desenvolvimento de inteligência artificial sustentável e linguisticamente inclusiva. O
TRINITY-LLM oferece uma solução completa e estatisticamente fundamentada para enfrentar o desafio de alto risco da normalização lexical e da classificação de dados fiscais
em português. | pt_BR |
| dc.language.iso | eng | pt_BR |
| dc.rights | Acesso Aberto | pt_BR |
| dc.title | Enhancing large language models for portuguese language : lexical normalisation case study | pt_BR |
| dc.title | Aprimorando LLMs para língua portuguesa : caso de estudo da normalização lexical | pt_BR |
| dc.type | Tese | pt_BR |
| dc.subject.keyword | Grandes modelos de linguagem (LLMs) | pt_BR |
| dc.subject.keyword | Geração aumentada por recuperação | pt_BR |
| dc.subject.keyword | Linguagem natural - processamento | pt_BR |
| dc.subject.keyword | Processamento da língua portuguesa | pt_BR |
| dc.subject.keyword | Engenharia de Prompt | pt_BR |
| dc.rights.license | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data. | pt_BR |
| dc.description.abstract1 | This thesis addresses the challenge of enhancing the performance and reliability of Large
Language Models (LLMs) for lexical normalisation of short Portuguese texts, focusing
on structured classification tasks such as the Nomenclatura Comum do Mercosul (NCM)
and postal codes (CEP). Traditional language models, typically trained on corpora predominantly in English, encounter significant difficulties in handling the specificity, ambiguity, and linguistic variability (including abbreviations and spelling errors) inherent
to specialised Portuguese tasks such as tax auditing and logistics. Inaccuracies in the
classification of mandatory fiscal codes, such as the NCM in Brazilian electronic invoices,
can lead to financial losses and operational inefficiencies.
To overcome these limitations, this research proposes an integrated and innovative
architecture — the Three-Layer Intelligent Framework for LLMs (TRINITYLLM). The proposed model is structured into three interdependent components, each
representing a core study within this thesis: 1) Simplified Logical Intelligent FineTuning Model with Retrieval-Augmented Generation (SLIM-RAFT) — a costefficient fine-tuning method specifically designed for adaptation to technical Portuguese
domains. SLIM-RAFT extends the logic of Retrieval-Augmented Fine-Tuning (RAFT)
by simplifying the data generation phase, replacing lengthy narrative explanations with
a new reasoning paradigm termed Sequence-of-Sets (SoS). The SoS prompting technique
represents reasoning as a set of ordered logical relations, preserving the interpretability of
the Chain-of-Thought (CoT). This component focuses on the lexical normalisation of nonstandard descriptions. 2) Two-Step RAG for Advanced Retrieval and Metadata
Filtering — an enhanced retrieval methodology that overcomes the limitations of conventional RAG systems. The Two-Step RAG operates in two explicit phases: (i) Common
Retrieval (R1), a broad, unfiltered search for high recall; and (ii) Metadata Extraction
and Application (M and R2), in which an LLM dynamically extracts structured attributes
from the original prompt to refine the search and filter the initial semantic candidates.
This design effectively decouples semantic retrieval from metadata application. 3) Integrated Mixed Models with Bootstrap Analysis (IMMBA) — a rigorous statistical
framework providing a robust and transparent basis for LLM evaluation. IMMBA em ploys linear mixed models combined with non-parametric bootstrap resampling, enabling
the decomposition of observed variability into fixed and random sources.
The methodology involved extensive experimentation with open-source models, including the 160M-parameter TeenyTinyLLaMA (TTL), fine-tuned on domain-specific Portuguese data. More than 240,000 NCM records were extracted from Brazilian electronic
invoices (Notas Fiscais Eletrônicas – NFes) for model development.
Empirical results validate the effectiveness of the proposed approach. The SLIMRAFT model (TTL 160M fine-tuned) achieved a mean NCM classification score of 8.63
(standard deviation 2.30), significantly outperforming GPT-4.0 (4.5) and the baseline
TTL (0.2) under the same evaluation protocol. These results demonstrate that SoS logic
is sufficient to capture domain reasoning even in compact models. SLIM-RAFT also
generalised successfully to the CEP classification task, achieving performance comparable
to GPT-4o-mini despite its dramatically smaller size.
The Two-Step RAG method consistently improved performance metrics over conventional RAG, achieving on average a 2.20× gain in quality, 2.63× in agreement, and 2.91×
in accuracy across all tested models. This enhancement in contextual retrieval precision
led to reduced hallucination rates. Statistical analysis through IMMBA confirmed the
robustness of the evaluation: decomposition of total variance revealed that fixed factors
(architecture, retrieval method, and decoding parameters) accounted for 23.2% of overall
variability, random factors associated with prompt phrasing contributed 7.2%, and the
remaining 69.6% was attributed to residual stochasticity and experimental noise. These
insights highlight the need for statistically grounded frameworks to quantify and interpret
uncertainty in LLM performance.
This research makes a significant contribution to the field of multilingual Natural Language Processing. The TRINITY-LLM framework offers not only a practical solution for
improving product classification according to the NCM, but also establishes a precedent
for how hybrid models — combining efficient fine-tuning, metadata-augmented retrieval,
and rigorous statistical evaluation — can enhance the reliability and transparency of
language models in specialised and high-stakes domains such as regulatory auditing. | pt_BR |
| dc.description.unidade | Instituto de Ciências Exatas (IE) | pt_BR |
| dc.description.unidade | Departamento de Ciência da Computação (IE CIC) | pt_BR |
| dc.description.ppg | Programa de Pós-Graduação em Informática | pt_BR |
| Aparece nas coleções: | Teses, dissertações e produtos pós-doutorado
|