SCAN-NF : a machine learning system for invoice product trasaction classification through short-text processing

Kieckbusch, Diego Santos

Please use this identifier to cite or link to this item: http://repositorio.unb.br/handle/10482/46750

Files in This Item:

File	Description	Size	Format
2022_DiegoSantosKieckbusch.pdf		1,75 MB	Adobe PDF	View/Open

Title:	SCAN-NF : a machine learning system for invoice product trasaction classification through short-text processing
Other Titles:	SCAN-NF : um sistema de aprendizado de máquina para classificação de notas fiscais de transações de produtos atráves do processamento de textos curtos
Authors:	Kieckbusch, Diego Santos
metadata.dc.contributor.email:	diegokieck@gmail.com
Orientador(es)::	Weigang, Li
Assunto::	Aprendizado profundo Redes convolucionais Classificação de textos curtos
Issue Date:	25-Oct-2023
Data de defesa::	8-Dec-2022
Citation:	KIECKBUSCH, Diego Santos. SCAN-NF: a machine learning system for invoice product trasaction classification through short-text processing. 2022. 76 f., il. Dissertação (Mestrado em Engenharia de Sistemas Eletrônicos e Automação) — Universidade de Brasília, Brasília, 2022.
Abstract:	Nota Fiscal Eletrônica (NF-e) é um documento que reporta as transações de bens e serviços de forma eletrônica, tanto na transferência quanto no armazenamento. A utilização de notas fiscais eletrônicas é uma tendencia emergente e apresenta uma valiosa fonte de informação para diversas áreas. No entanto, o processamento dessas notas é uma tarefa desafiadora. A informação reportada está geralmente incompleta ou apresenta erros. Antes que qualquer processamento significativo possa ser feito, é necessária identificar o produto representado em cada documento. A literatura disponível indica que são necessárias arquiteturas especializadas para lidar com este tipo de informação. Este trabalho propõe SCAN-NF, uma arquitetura para a classificação das transações de produtos contidas em notas fiscais eletronicas. A arquitetura modela o problema de processamento de notas ficais como um problema de processamento de textos curtos com o objetivo de identificar o produto de cada transação. A solução tem o intuito de auxiliar as tarefas de auditoria manual feita por auditores fiscais sobre grandes massas de dados não rotulados ou mal rotulados presente no contexto de notas fiscais. Para validar a arquitetura proposta, este trabalho apresenta tanto um framework contextual para o processamento de notas fiscais quanto um caso de estudo utilizando dados reais de notas fiscais. Modelos tradicionais baseados em frequência de termos foram comparados a modelos de classificação de sentenças baseado em redes convulsionais artificiais. Experimentos demonstram que embora o texto presente em notas fiscais seja breve e apresente erros e falhas de escrita, modelos simples baseados em frequência de termos apresentam bons resultados para a etiquetagem de código de produtos, atingindo acurácia de até 98% entre as classes de produtos estudadas. Mostramos ainda, que é possível a utilização de transferencia de conhecimento entre os dados de notas fiscais destinadas ao consumidor e notas fiscais de transações entre empresas.
Abstract:	An electronic invoice (E-invoice) is a document that records the transactions of goods and services electronically, both in storage and exchanges. E-invoice is an emerging practice and presents a valuable source of information for many areas. Processing these invoices is often a challenging task. Information reported is often incomplete or presents mistakes. Before any meaningful processing of these invoices, it is necessary to identify the product represented in each document. The available literature indicates that specialized architectures are necessary to deal with this type of information. This work proposes SCAN-NF, an architecture for invoice product transaction classification. The architecture models the invoice classification problem as a short-text classification problem, in which the goal is to identify the type of product in each transaction based on its short-text description. This solution is intended to aid tax auditors in the analysis of large unlabeled or poorly labeled invoice data. To validate the proposed architecture, this work provides both a contextual framework for invoice processing and a study case utilizing real-world invoice data. We compare traditional term frequency models to sentence classification models based on convolutional neural networks. Experiments demonstrate that even though invoice text descriptions are brief and present many mistakes and typos, simple term frequency models can achieve high baseline results on product code assignment, reaching accuracy scores up to 98% in studied product classes. We have also shown that it is possible to utilize transfer learning between retail invoice data and business to business invoice data.
metadata.dc.description.unidade:	Instituto de Ciências Exatas (IE) Departamento de Ciência da Computação (IE CIC)
Description:	Dissertação (mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2022.
metadata.dc.description.ppg:	Programa de Pós-Graduação em Informática
Agência financiadora:	Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES).
Appears in Collections:	Teses, dissertações e produtos pós-doutorado

Show full item record " class="statisticsLink btn btn-primary" href="/jspui/handle/10482/46750/statistics">