Skip navigation
Please use this identifier to cite or link to this item: http://repositorio.unb.br/handle/10482/48841
Files in This Item:
File Description SizeFormat 
LucasJoseGoncalvesFreitas_DISSERT.pdf4,48 MBAdobe PDFView/Open
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorRodriques, Thaís Carvalho Valadares-
dc.contributor.authorFreitas, Lucas Jose Gonçalves-
dc.date.accessioned2024-07-13T05:01:35Z-
dc.date.available2024-07-13T05:01:35Z-
dc.date.issued2024-07-13-
dc.date.submitted2023-02-09-
dc.identifier.citationFREITAS, Lucas Jose Gonçalves. Clusterização de textos aplicada ao tratamento de dados jurídicos desbalanceados. 2023. 96 f., il. Dissertação (Mestrado em Estatística) - Universidade de Brasília, Brasília, 2023.pt_BR
dc.identifier.urihttp://repositorio.unb.br/handle/10482/48841-
dc.descriptionDissertação (mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Estatística, 2023.pt_BR
dc.description.abstractO Supremo Tribunal Federal (STF), instância máxima do sistema judiciário brasileiro, produz, assim como tribunais de outras instâncias, imensa quantidade de dados organizados em forma de texto, por meio de decisões, petições, liminares, recursos e outros documentos legais. Tais documentos são classificados e agrupados por servidores públicos especializados em autuação e catalogação de processos judiciais, que em casos específicos usam ferramentas tecnológicas de apoio. Alguns processos que chegam ao STF, por exemplo, são classificados em um ou mais objetivos de desenvolvimento sustentável (ODS) da Agenda 2030 da Organização das Nações Unidas (ONU). Como se trata de uma tarefa repetitiva e relacionada à detecção de padrões, é possível desenvolver ferramentas baseadas em aprendizagem de máquina para tal finalidade. Neste trabalho, são propostos modelos de Processamento de Linguagem Natural (NLP) para agrupamento de processos, com objetivo de aumentar a base de dados em determinados objetivos de desenvolvimento sustentável (ODS) com poucas entradas naturalmente. A atividade de clusterização ou agrupamento, que tem enorme importância por si só, também é capaz de reunir entradas sem etiqueta em torno de processos já classificados por funcionários do tribunal, permitindo, assim, que novas etiquetas sejam alocadas em processos similares. Os resultados obtidos mostram que os conjuntos aumentados por clusterização podem ser utilizados em fluxos de aprendizagem supervisionada para auxílio na classificação processual, especialmente em contextos com dados desbalanceados.pt_BR
dc.language.isoporpt_BR
dc.rightsAcesso Abertopt_BR
dc.titleClusterização de textos aplicada ao tratamento de dados jurídicos desbalanceadospt_BR
dc.typeDissertaçãopt_BR
dc.subject.keywordAgenda 2030pt_BR
dc.subject.keywordAprendizagem de máquinapt_BR
dc.rights.licenseA concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.pt_BR
dc.description.abstract1The Federal Supreme Court (STF), the highest instance of the Brazilian judicial system, produces, as well as courts of other instances, an immense amount of data organized in text form, through decisions, petitions, injunctions, appeals and other legal documents. Such do cuments are classified and grouped by public employees specialized in cataloging of judicial processes, which in specific cases use technological support tools. Some processes in the STF, for example, are classified under one or more sustainable development goals (SDGs) of the United Nations (UN) 2030 Agenda. As it is a repetitive task related to pattern recognition, it is possible to develop tools based on machine learning for this purpose. In this work, Natural Language Processing (NLP) models are proposed for clustering processes, in order to increase the database on certain sustainable development goals (SDGs) with few inputs naturally. The activity of clustering, which is of enormous importance in its own right, is also able to gather unlabeled entries around cases already classified by court officials, thus allowing new labels to be allocated to similar cases. The results of the work show that cluster-augmented sets can be used in supervised learning flows to aid in the classification of legal texts, especially in contexts with unbalanced data.-
dc.description.unidadeInstituto de Ciências Exatas (IE)pt_BR
dc.description.unidadeDepartamento de Estatística (IE EST)pt_BR
dc.description.ppgPrograma de Pós-Graduação em Estatísticapt_BR
Appears in Collections:Teses, dissertações e produtos pós-doutorado

Show simple item record " class="statisticsLink btn btn-primary" href="/handle/10482/48841/statistics">



Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.