Clusterização de textos aplicada ao tratamento de dados jurídicos desbalanceados

Freitas, Lucas Jose Gonçalves

Registro completo de metadados

Campo DC	Valor	Idioma
dc.contributor.advisor	Rodriques, Thaís Carvalho Valadares	-
dc.contributor.author	Freitas, Lucas Jose Gonçalves	-
dc.date.accessioned	2024-07-13T05:01:35Z	-
dc.date.available	2024-07-13T05:01:35Z	-
dc.date.issued	2024-07-13	-
dc.date.submitted	2023-02-09	-
dc.identifier.citation	FREITAS, Lucas Jose Gonçalves. Clusterização de textos aplicada ao tratamento de dados jurídicos desbalanceados. 2023. 96 f., il. Dissertação (Mestrado em Estatística) - Universidade de Brasília, Brasília, 2023.	pt_BR
dc.identifier.uri	http://repositorio2.unb.br/jspui/handle/10482/48841	-
dc.description	Dissertação (mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Estatística, 2023.	pt_BR
dc.description.abstract	O Supremo Tribunal Federal (STF), instância máxima do sistema judiciário brasileiro, produz, assim como tribunais de outras instâncias, imensa quantidade de dados organizados em forma de texto, por meio de decisões, petições, liminares, recursos e outros documentos legais. Tais documentos são classificados e agrupados por servidores públicos especializados em autuação e catalogação de processos judiciais, que em casos específicos usam ferramentas tecnológicas de apoio. Alguns processos que chegam ao STF, por exemplo, são classificados em um ou mais objetivos de desenvolvimento sustentável (ODS) da Agenda 2030 da Organização das Nações Unidas (ONU). Como se trata de uma tarefa repetitiva e relacionada à detecção de padrões, é possível desenvolver ferramentas baseadas em aprendizagem de máquina para tal finalidade. Neste trabalho, são propostos modelos de Processamento de Linguagem Natural (NLP) para agrupamento de processos, com objetivo de aumentar a base de dados em determinados objetivos de desenvolvimento sustentável (ODS) com poucas entradas naturalmente. A atividade de clusterização ou agrupamento, que tem enorme importância por si só, também é capaz de reunir entradas sem etiqueta em torno de processos já classificados por funcionários do tribunal, permitindo, assim, que novas etiquetas sejam alocadas em processos similares. Os resultados obtidos mostram que os conjuntos aumentados por clusterização podem ser utilizados em fluxos de aprendizagem supervisionada para auxílio na classificação processual, especialmente em contextos com dados desbalanceados.	pt_BR
dc.language.iso	por	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.title	Clusterização de textos aplicada ao tratamento de dados jurídicos desbalanceados	pt_BR
dc.type	Dissertação	pt_BR
dc.subject.keyword	Agenda 2030	pt_BR
dc.subject.keyword	Aprendizagem de máquina	pt_BR
dc.description.abstract1	The Federal Supreme Court (STF), the highest instance of the Brazilian judicial system, produces, as well as courts of other instances, an immense amount of data organized in text form, through decisions, petitions, injunctions, appeals and other legal documents. Such do cuments are classified and grouped by public employees specialized in cataloging of judicial processes, which in specific cases use technological support tools. Some processes in the STF, for example, are classified under one or more sustainable development goals (SDGs) of the United Nations (UN) 2030 Agenda. As it is a repetitive task related to pattern recognition, it is possible to develop tools based on machine learning for this purpose. In this work, Natural Language Processing (NLP) models are proposed for clustering processes, in order to increase the database on certain sustainable development goals (SDGs) with few inputs naturally. The activity of clustering, which is of enormous importance in its own right, is also able to gather unlabeled entries around cases already classified by court officials, thus allowing new labels to be allocated to similar cases. The results of the work show that cluster-augmented sets can be used in supervised learning flows to aid in the classification of legal texts, especially in contexts with unbalanced data.	-
dc.description.unidade	Instituto de Ciências Exatas (IE)	pt_BR
dc.description.unidade	Departamento de Estatística (IE EST)	pt_BR
dc.description.ppg	Programa de Pós-Graduação em Estatística	pt_BR
Aparece nas coleções:	Teses, dissertações e produtos pós-doutorado