Campo DC | Valor | Idioma |
dc.contributor.advisor | Pedrosa, Glauco Vitor | pt_BR |
dc.contributor.author | Costa, Wagner Miranda | pt_BR |
dc.date.accessioned | 2024-02-21T21:36:21Z | - |
dc.date.available | 2024-02-21T21:36:21Z | - |
dc.date.issued | 2024-02-21 | - |
dc.date.submitted | 2023-12-21 | - |
dc.identifier.citation | COSTA, Wagner Miranda. Similaridade semântica entre acórdãos para apoio na formulação de jurisprudência do TCU. 2023. xiv, 55 f., il. Dissertação (Mestrado Profissional em Computação Aplicada) — Universidade de Brasília, Brasília, 2023. | pt_BR |
dc.identifier.uri | http://repositorio2.unb.br/jspui/handle/10482/47825 | - |
dc.description | Dissertação (mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2023. | pt_BR |
dc.description.abstract | Jurisprudência se refere ao conjunto de decisões reiteradas sobre determinado assunto,
constituindo uma espécie de precedente judicial. No âmbito do Tribunal de Contas da
União (TCU), órgão responsável por exercer o controle externo da Administração Pública
Federal, a jurisprudência representa as interpretações consolidadas das normas aplicáveis
à fiscalização financeira e operacional das contas públicas dos órgãos e entidades da União.
Uma vez que a elaboração da jurisprudência é definida a partir de um agrupamento de
acórdãos similares, é relevante desenvolver ferramentas automatizadas que auxiliem os
especialistas responsáveis por esta atividade. Porém, essa é uma tarefa desafiadora para
a área da computação, devido às especificidades do vocabulário presente nos textos dos
acórdãos e ao volume massivo de dados a serem processados. Sendo assim, é necessário
desenvolver abordagens escaláveis, eficazes e eficientes, e que possuam baixo custo computacional. Este trabalho apresenta o estudo e implementação de algumas abordagens
para a representação desses documentos textuais, tanto em nível de palavra quanto em
nível de conceito. Como contribuição, foi proposta uma nova abordagem denominada
BoC-Th (Bag of Concepts with Thesaurus), que gera histogramas ponderados de conceitos
definidos a partir da distância das palavras do documento ao seu respectivo termo similar
dentro de um tesauro. Esta abordagem permite enfatizar palavras com maior significado no contexto, gerando, assim, vetores mais discriminativos. Realizaram-se avaliações
experimentais comparando a abordagem proposta com as abordagens tradicionais para
representação de documentos. O método proposto obteve resultados superiores entre as
técnicas avaliadas para recuperação de documentos jurisprudenciais. O BoC-Th aumentou a precisão média em comparação às abordagens tradicionais, incluindo a versão original BoC (Bag of Concepts), ao mesmo tempo que foi mais rápido que as representações
tradicionais BoW, BM25 e TF-IDF. A abordagem proposta contribuiu para enriquecer
uma área com características peculiares, fornecendo um recurso para recuperação de informações textuais de forma mais precisa e rápida do que outras técnicas baseadas em
processamento de linguagem natural. | pt_BR |
dc.description.sponsorship | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES). | pt_BR |
dc.language.iso | por | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.title | Similaridade semântica entre acórdãos para apoio na formulação de jurisprudência do TCU | pt_BR |
dc.type | Dissertação | pt_BR |
dc.subject.keyword | Processamento de linguagem natural (Computação) | pt_BR |
dc.subject.keyword | Recuperação da informação | pt_BR |
dc.subject.keyword | Representação vetorial de documentos | pt_BR |
dc.subject.keyword | Jurisprudência | pt_BR |
dc.subject.keyword | Word EmbeddingsTribunal de Contas da União (TCU) | pt_BR |
dc.rights.license | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data. | pt_BR |
dc.description.abstract1 | Jurisprudence refers to the set of repeated decisions on a given subject, constituting a
type of judicial precedent. Within the scope of the Federal Audit Court (TCU), the body
responsible for exercising external control of the Federal Public Administration, jurisprudence represents the consolidated interpretations of the rules applicable to the financial
and operational supervision of the public accounts of the Union’s bodies and entities.
Since the elaboration of jurisprudence is defined based on a grouping of similar rulings,
it is important to develop automated tools that assist the specialists responsible for this
activity. However, this is a challenging task for the area of computing, due to the specificities of the vocabulary present in the texts of the rulings and the massive volume of
data to be processed. Therefore, it is necessary to develop scalable, effective and efficient approaches that have low computational cost. This work presents the study and
implementation of some approaches for representing these textual documents, both at the
word level and at the concept level. As a contribution, a new approach called BoC-Th
(Bag of Concepts with Thesaurus) was proposed, which generates weighted histograms of
concepts defined based on the distance of the words in the document to their respective
similar term within a thesaurus. This approach allows us to emphasize words with greater
meaning in the context, thus generating more discriminative vectors. Experimental evaluations were carried out comparing the proposed approach with traditional approaches
for document representation. The proposed method obtained superior results among the
techniques evaluated for recovering jurisprudential documents. BoC-Th increased average
accuracy compared to traditional approaches, including the original BoC (Bag of Concepts), while also being faster than traditional BoW, BM25, and TF-IDF representations.
The proposed approach contributed to enriching an area with peculiar characteristics,
providing a resource for retrieving textual information more accurately and quickly than
other techniques based on natural language processing. | pt_BR |
dc.description.unidade | Instituto de Ciências Exatas (IE) | pt_BR |
dc.description.unidade | Departamento de Ciência da Computação (IE CIC) | pt_BR |
dc.description.ppg | Programa de Pós-Graduação em Computação Aplicada, Mestrado Profissional | pt_BR |
Aparece nas coleções: | Teses, dissertações e produtos pós-doutorado
|