Campo DC | Valor | Idioma |
dc.contributor.advisor | Weigang, Li | - |
dc.contributor.author | Kieckbusch, Diego Santos | - |
dc.date.accessioned | 2023-10-25T21:53:30Z | - |
dc.date.available | 2023-10-25T21:53:30Z | - |
dc.date.issued | 2023-10-25 | - |
dc.date.submitted | 2022-12-08 | - |
dc.identifier.citation | KIECKBUSCH, Diego Santos. SCAN-NF: a machine learning system for invoice product trasaction classification through short-text processing. 2022. 76 f., il. Dissertação (Mestrado em Engenharia de Sistemas Eletrônicos e Automação) — Universidade de Brasília, Brasília, 2022. | pt_BR |
dc.identifier.uri | http://repositorio2.unb.br/jspui/handle/10482/46750 | - |
dc.description | Dissertação (mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2022. | pt_BR |
dc.description.abstract | Nota Fiscal Eletrônica (NF-e) é um documento que reporta as transações de bens e serviços de forma eletrônica, tanto na transferência quanto no armazenamento. A utilização
de notas fiscais eletrônicas é uma tendencia emergente e apresenta uma valiosa fonte de
informação para diversas áreas. No entanto, o processamento dessas notas é uma tarefa desafiadora. A informação reportada está geralmente incompleta ou apresenta erros.
Antes que qualquer processamento significativo possa ser feito, é necessária identificar o
produto representado em cada documento. A literatura disponível indica que são necessárias arquiteturas especializadas para lidar com este tipo de informação. Este trabalho
propõe SCAN-NF, uma arquitetura para a classificação das transações de produtos contidas em notas fiscais eletronicas. A arquitetura modela o problema de processamento
de notas ficais como um problema de processamento de textos curtos com o objetivo de
identificar o produto de cada transação. A solução tem o intuito de auxiliar as tarefas de
auditoria manual feita por auditores fiscais sobre grandes massas de dados não rotulados
ou mal rotulados presente no contexto de notas fiscais. Para validar a arquitetura proposta, este trabalho apresenta tanto um framework contextual para o processamento de
notas fiscais quanto um caso de estudo utilizando dados reais de notas fiscais. Modelos
tradicionais baseados em frequência de termos foram comparados a modelos de classificação de sentenças baseado em redes convulsionais artificiais. Experimentos demonstram
que embora o texto presente em notas fiscais seja breve e apresente erros e falhas de
escrita, modelos simples baseados em frequência de termos apresentam bons resultados
para a etiquetagem de código de produtos, atingindo acurácia de até 98% entre as classes
de produtos estudadas. Mostramos ainda, que é possível a utilização de transferencia de
conhecimento entre os dados de notas fiscais destinadas ao consumidor e notas fiscais de
transações entre empresas. | pt_BR |
dc.description.sponsorship | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES). | pt_BR |
dc.language.iso | eng | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.title | SCAN-NF : a machine learning system for invoice product trasaction classification through short-text processing | pt_BR |
dc.title.alternative | SCAN-NF : um sistema de aprendizado de máquina para classificação de notas fiscais de transações de produtos atráves do processamento de textos curtos | pt_BR |
dc.type | Dissertação | pt_BR |
dc.subject.keyword | Aprendizado profundo | pt_BR |
dc.subject.keyword | Redes convolucionais | pt_BR |
dc.subject.keyword | Classificação de textos curtos | pt_BR |
dc.description.abstract1 | An electronic invoice (E-invoice) is a document that records the transactions of goods and
services electronically, both in storage and exchanges. E-invoice is an emerging practice
and presents a valuable source of information for many areas. Processing these invoices is
often a challenging task. Information reported is often incomplete or presents mistakes.
Before any meaningful processing of these invoices, it is necessary to identify the product
represented in each document. The available literature indicates that specialized architectures are necessary to deal with this type of information. This work proposes SCAN-NF,
an architecture for invoice product transaction classification. The architecture models the
invoice classification problem as a short-text classification problem, in which the goal is to
identify the type of product in each transaction based on its short-text description. This
solution is intended to aid tax auditors in the analysis of large unlabeled or poorly labeled
invoice data. To validate the proposed architecture, this work provides both a contextual framework for invoice processing and a study case utilizing real-world invoice data.
We compare traditional term frequency models to sentence classification models based
on convolutional neural networks. Experiments demonstrate that even though invoice
text descriptions are brief and present many mistakes and typos, simple term frequency
models can achieve high baseline results on product code assignment, reaching accuracy
scores up to 98% in studied product classes. We have also shown that it is possible to
utilize transfer learning between retail invoice data and business to business invoice data. | pt_BR |
dc.contributor.email | diegokieck@gmail.com | pt_BR |
dc.description.unidade | Instituto de Ciências Exatas (IE) | pt_BR |
dc.description.unidade | Departamento de Ciência da Computação (IE CIC) | pt_BR |
dc.description.ppg | Programa de Pós-Graduação em Informática | pt_BR |
Aparece nas coleções: | Teses, dissertações e produtos pós-doutorado
|