Campo DC | Valor | Idioma |
dc.contributor.advisor | Ladeira, Marcelo | pt_BR |
dc.contributor.author | Silva, Eric Hans Messias da | pt_BR |
dc.date.accessioned | 2024-02-21T21:36:22Z | - |
dc.date.available | 2024-02-21T21:36:22Z | - |
dc.date.issued | 2024-02-21 | - |
dc.date.submitted | 2023-07-13 | - |
dc.identifier.citation | SILVA, Eric Hans Messias da. Sumarização abstrativa de documentos longos utilizados em fiscalizações e instruções processuais. 2023. xiv, 87, 5 f., il. Dissertação (Mestrado Profissional em Computação Aplicada)—Universidade de Brasília, Brasília, 2023. | pt_BR |
dc.identifier.uri | http://repositorio2.unb.br/jspui/handle/10482/47830 | - |
dc.description | Dissertação (mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2023. | pt_BR |
dc.description.abstract | O Tribunal de Contas da União tem seu trabalho organizado por processos e, ao longo do
ciclo de vida deles, cada processo chega geralmente a conter de dezenas a centenas de peças
processuais. Cada peça atinge facilmente algumas dezenas de páginas. A quantidade de
processos e documentos só tende a crescer ao longo do tempo, o que gera uma quantidade
enorme de material para leitura e com conteúdo bem rico, mas de difícil consumo, pois é
necessário um tempo considerável para a leitura de cada processo. Os processos costumam
ser lidos para verificar se possuem conteúdo relevante para alguma fiscalização ou instrução
processual em curso. Além do custo alto para ler um processo, parte desse conteúdo
é descartado pelo auditor por não estar atrelado ao seu trabalho corrente, o que gera
um desperdício de tempo nesta atividade. Para melhorar a eficiência deste processo, é
proposto neste trabalho o desenvolvimento de uma solução de sumarização automática
de texto usando aprendizado de máquina aplicado ao processamento de linguagem natural. Essa solução utiliza a abordagem de sumarização híbrida (extrativa combinada
com abstrativa) aplicada a documentos longos e com conteúdo jurídico. A solução foi
disponibilizada como uma aplicação Web com microsserviço para melhor integração com
aplicações que compõem o processo de trabalho do auditor. Os resumos gerados pelos
modelos foram avaliados principalmente por métricas que foquem mais na semântica do
texto gerado e, em decorrência disso, têm uma melhor aderência ao conteúdo desejado. | pt_BR |
dc.description.sponsorship | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES). | pt_BR |
dc.description.sponsorship | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES). | pt_BR |
dc.language.iso | por | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.title | Sumarização abstrativa de documentos longos utilizados em fiscalizações e instruções processuais | pt_BR |
dc.type | Dissertação | pt_BR |
dc.subject.keyword | Processamento de linguagem natural (Computação) | pt_BR |
dc.subject.keyword | Sumarização | pt_BR |
dc.subject.keyword | Aprendizagem de máquina | pt_BR |
dc.subject.keyword | Documentos jurídicos | pt_BR |
dc.rights.license | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data. | pt_BR |
dc.description.abstract1 | The Brazilian Federal Court of Accounts organizes its work by processes and, throughout
their life cycle, each of them usually contains from tens to hundreds of legal documents.
Each document easily reaches a few dozen pages. The number of processes and documents
only tends to grow over time, which generates a huge amount of material for reading
and with a very rich content, but difficult to consume, as it takes considerable time
to read each process. The processes are usually read to verify if they have relevant
content for any fiscalization or procedural instruction in progress. In addition to the high
cost of reading a process, part of this content is discarded by the auditor because it is
not linked to their current work, which generates a waste of time in this activity. To
improve the efficiency of this process, we proposed in this work the development of an
automatic text summarization solution using machine learning applied to natural language
processing. This solution uses the hybrid summarization approach (extractive combined
with abstractive) applied to long documents with legal content. The solution was made
available as a Web application with microservice for better integration with applications
that make up the auditor’s work process. The summaries generated by the models were
evaluated mainly by metrics that focus more on the semantics of the generated text and,
as a result, have better adherence to the desired content. | pt_BR |
dc.description.unidade | Instituto de Ciências Exatas (IE) | pt_BR |
dc.description.unidade | Departamento de Ciência da Computação (IE CIC) | pt_BR |
dc.description.ppg | Programa de Pós-Graduação em Computação Aplicada, Mestrado Profissional | pt_BR |
Aparece nas coleções: | Teses, dissertações e produtos pós-doutorado
|