Skip navigation
Veuillez utiliser cette adresse pour citer ce document : http://repositorio.unb.br/handle/10482/52680
Fichier(s) constituant ce document :
Fichier TailleFormat 
MarceloAnselmoDeSouzaFilho_DISSERT.pdf2,86 MBAdobe PDFVoir/Ouvrir
Affichage complet
Élément Dublin CoreValeurLangue
dc.contributor.advisorRibas, Bruno Césarpt_BR
dc.contributor.authorSouza Filho, Marcelo Anselmo dept_BR
dc.date.accessioned2025-10-13T21:00:44Z-
dc.date.available2025-10-13T21:00:44Z-
dc.date.issued2025-10-13-
dc.date.submitted2025-06-27-
dc.identifier.citationSOUZA FILHO, Marcelo Anselmo de. Inteligência Artificial no MPF: Uma Solução Baseada em IA para Pseudonimização de Dados Pessoais. 2025. 74 f., il. Dissertação (Mestrado profissional em Computação Aplicada) — Universidade de Brasília, Brasília, 2025.pt_BR
dc.identifier.urihttp://repositorio.unb.br/handle/10482/52680-
dc.descriptionDissertação (mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, Programa de Pós-Graduação em Computação Aplicada, 2025.pt_BR
dc.description.abstractA evolução tecnológica tem transformado a sociedade, impactando o modo de vida das pessoas e o funcionamento das organizações. Desde a Revolução Industrial até a era da informação, essas mudanças moldaram atividades cotidianas e a estrutura institucional. O Ministério Público, como defensor dos direitos constitucionais, também tem sido influenciado por essas inovações. Diariamente no Ministério Público Federal (MPF) são inseridos milhares de registros por mais de 10 mil usuários em todo o país. Uma etapa relevante é manter os dados dos cidadãos seguros e protegidos. A Lei Geral de Proteção de Dados Pessoais (LGPD) do Brasil, em vigor desde 2020, estabelece diretrizes para a coleta, armazenamento e tratamento de dados pessoais, visando proteger a privacidade e a segurança dos cidadãos. Atualmente, a pseudonimização manual no MPF é complexa e sujeita a erros. Técnicas automatizadas utilizando IA são fundamentais para eficiência e segurança. Portanto este trabalho visa apresentar o LEGAL-BERT-LGPD, um modelo baseado em BERT especializado em tarefas de pseudonimização de dados pessoais em conformidade com a LGPD. Partindo da arquitetura BERT, a abordagem proposta concentra-se na identificação e substituição de informações pessoais brasileiras em textos jurídicos por meio de tarefas de Reconhecimento de Entidades Nomeadas (Named Entity Recognition - NER). O estudo compara a performance do BERT proposto (GPU e CPU) com quatro grandes modelos de linguagem (LLMs): executados localmente, DeepSeek-R1 8B e DeepSeek-R1 32B, e em nuvem, GPT-4o-mini e GPT-4.1. Os experimentos mostraram que o LEGAL-BERTLGPD alcançou uma posição equilibrada entre os modelos avaliados, ficando apenas à frente do DeepSeek-R1 8B. Percebemos que nosso modelo, mesmo com poucos parâmetros, consegue competir com grandes modelos. Portanto, a escolha do modelo deve refletir a criticidade dos dados: LLMs oferecem ganhos de qualidade em contextos menos restritivos, enquanto o LEGAL-BERT-LGPD se destaca em cenários de alta sensibilidade à privacidade.pt_BR
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES).pt_BR
dc.language.isoporpt_BR
dc.rightsAcesso Abertopt_BR
dc.titleInteligência artificial no MPF : uma solução baseada em IA para pseudonimização de dados pessoaispt_BR
dc.typeDissertaçãopt_BR
dc.subject.keywordPseudonimização de dadospt_BR
dc.subject.keywordReconhecimento de entidade nomeadapt_BR
dc.subject.keywordPrivacidade da informaçãopt_BR
dc.subject.keywordInformação jurídicapt_BR
dc.subject.keywordProteção de dadospt_BR
dc.subject.keywordLei Geral de Proteção de Dados (LGPD)pt_BR
dc.rights.licenseA concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.pt_BR
dc.description.abstract1Technological evolution has been transforming society, impacting both people’s lifestyles and the functioning of organizations. From the Industrial Revolution to the Information Age, these changes have shaped daily activities and institutional structures. The Federal Prosecution Service (Ministério Público Federal - MPF), as a defender of constitutional rights, has also been influenced by these innovations. Every day at the Federal Prosecution Service (MPF), thousands of records are entered by more than 10,000 users across the country. A key step is ensuring that citizens’ data is kept secure and protected. Brazil’s General Data Protection Law (LGPD), in force since 2020, establishes guidelines for the collection, storage, and processing of Personally Identifiable Information (PII), aiming to protect citizens’ privacy and security. Currently, manual pseudonymization at the MPF is complex and prone to errors. Automated techniques using AI are essential for ensuring both efficiency and security. Therefore, this work aims to present LEGAL-BERT-LGPD, a BERT-based model specialized in pseudonymization tasks for personal data in compliance with the LGPD. Based on the BERT architecture, the proposed approach focuses on identifying and replacing Brazilian personal information in legal texts through Named Entity Recognition (NER) tasks. The study compares the performance of the proposed BERT model (on GPU and CPU) with four large language models (LLMs): two running locally, DeepSeek-R1 8B and DeepSeek-R1 32B, and two cloud-based, GPT-4o-mini and GPT-4.1. Experiments showed that LEGAL-BERT-LGPD achieved a balanced position among the evaluated models, ranking just ahead of DeepSeek-R1 8B. We observed that our model, even with fewer parameters, is capable of competing with larger models. Therefore, model selection should reflect the criticality of the data: LLMs deliver quality gains in less restrictive contexts, while LEGAL-BERT-LGPD excels in highly privacy-sensitive scenarios.pt_BR
dc.description.unidadeInstituto de Ciências Exatas (IE)pt_BR
dc.description.unidadeDepartamento de Ciência da Computação (IE CIC)pt_BR
dc.description.ppgPrograma de Pós-Graduação em Computação Aplicada, Mestrado Profissionalpt_BR
Collection(s) :Teses, dissertações e produtos pós-doutorado

Affichage abbrégé " class="statisticsLink btn btn-primary" href="/handle/10482/52680/statistics">



Tous les documents dans DSpace sont protégés par copyright, avec tous droits réservés.