Skip navigation
Use este identificador para citar ou linkar para este item: http://repositorio.unb.br/handle/10482/54551
Arquivos associados a este item:
Arquivo TamanhoFormato 
DanielLinharesLim-apo_DISSERT.pdf3,3 MBAdobe PDFVisualizar/Abrir
Registro completo de metadados
Campo DCValorIdioma
dc.contributor.advisorCanedo, Edna Diaspt_BR
dc.contributor.authorLim-apo, Daniel Linharespt_BR
dc.date.accessioned2026-06-01T17:50:38Z-
dc.date.available2026-06-01T17:50:38Z-
dc.date.issued2026-06-01-
dc.date.submitted2026-04-23-
dc.identifier.citationLIM-APO, Daniel Linhares. Privacy-preserving techniques for preparing texts for use in artificial intelligence models: leveraging semantic similarity with vector data search and ai agents. 2026. 120 f., il. Dissertação (Mestrado profissional em Computação Aplicada) — Universidade de Brasília, Brasília, 2026.pt_BR
dc.identifier.urihttp://repositorio.unb.br/handle/10482/54551-
dc.descriptionDissertação (mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, Programa de Pós-Graduação em Computação Aplicada, 2026.pt_BR
dc.description.abstractProcessos que visam extrair valor da informação a partir de dados armazenados estão ganhando destaque. Entre os diversos tipos de dados não estruturados, os dados textuais constituem uma parcela significativa da informação produzida em contextos do mundo real. Considerações éticas e leis de proteção de dados aumentaram a pressão sobre a privacidade de conteúdo sensível. Os riscos de divulgação associados a dados textuais, considerando a privacidade diferencial, são influenciados pela raridade e similaridade dos textos dentro de um conjunto de dados. Textos raros podem aumentar a probabilidade de reidentificação. A Inteligência Artificial (IA) e o Aprendizado de Máquina (ML) têm demanda crescente por dados e, juntamente com a estatística e as técnicas clássicas de processamento de linguagem natural, essas técnicas estão sendo cada vez mais exploradas para implementar mecanismos de preservação da privacidade, oferecendo soluções técnicas para mitigar os riscos à privacidade. Objetivo: O objetivo é descobrir técnicas de ponta para a preservação da privacidade no processamento de dados textuais, permitindo o emprego de técnicas para proteger a privacidade em dados não estruturados, especificamente em textos e na implementação de técnicas de similaridade textual. Método: Para atingir esse objetivo, foi pesquisado em busca do estado da arte quanto a técnicas de preservação de privacidade, por meio de uma revisão bibliográfica, e o estudo propôs a aplicação de técnicas selecionadas. Os conceitos de privacidade diferencial, bancos de dados vetoriais, similaridade textual e eventos raros foram considerados na metodologia e nos estudos de casos propostos, juntamente com o uso de sistemas de IA multiagentes e LLMs. Resultados: Uma contribuição fundamental deste estudo foi identificar as técnicas de ponta para preservação da privacidade aplicadas na análise de dados textuais e similaridade de textos, incluindo como a Ciência de Dados, Modelos de Linguagem em Larga Escala (LLM) e a Inteligência Artificial (IA) baseada em agentes são utilizadas para implementar mecanismos de preservação da privacidade, bem como as técnicas empregadas para similaridade semântica e detecção de eventos raros em domínios textuais. Além disso, foram apresentadas aplicações práticas em dois estudos de casos para o uso desse conhecimento. Conclusão: Este estudo oferece uma síntese estruturada dos estudos existentes por meio de um Mapeamento Sistemático de Estudos (MSE) e uma perspectiva prática através de estudos de caso, destacando técnicas de preservação da privacidade na análise de texto. Ele ressalta a possibilidade de usar métodos de similaridade semântica e representações vetoriais na identificação de eventos raros em contextos sob restrições de privacidade. A integração de Modelos de Linguagem (LLMs) e Agentes de Inteligência Artificial (IA) revela-se promissora, mas, por outro lado, apresenta desafios e complexidades específicos para o processamento com foco na privacidade, particularmente em áreas como segurança pública. Este estudo forneceu uma visão geral da implementação e do uso prático, aplicado em um estudo de caso, de técnicas de similaridade semântica entre textos, que, conforme revelado no MSE, possuem uma presença forte e consolidada na literatura. Dada a escassez de abordagens similares na literatura pesquisada, este trabalho ajuda a preencher esta lacuna e busca contribuir para pesquisas futuras focadas em conciliar métodos de IA com aplicações éticas e que preservem a privacidade.pt_BR
dc.language.isoporpt_BR
dc.rightsAcesso Abertopt_BR
dc.titlePrivacy-preserving techniques for preparing texts for use in artificial intelligence models : leveraging semantic similarity with vector data search and ai agentspt_BR
dc.typeDissertaçãopt_BR
dc.subject.keywordPrivacidadept_BR
dc.subject.keywordPrivacidade diferencialpt_BR
dc.rights.licenseA concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.pt_BR
dc.description.abstract1Processes that aim to extract value from stored data are gaining prominence. Among various types of unstructured data, textual data constitutes a significant proportion of the information produced in real-world settings. Ethical considerations and data protection laws have increased the pressure over the privacy of sensitive content. The disclosure risks associated with textual data, considering differential privacy, are influenced by the rarity and the similarity of texts within a dataset. Rare texts can increase the likelihood of re-identification. Artificial Intelligence (AI) and Machine Learning (ML) have growing demand for data and side by side with statistics and classic natural language processing techniques, those techniques are increasingly being explored for implementing privacy-preserving mechanisms, offering technical solutions to mitigate privacy risks. Goal: The objective was to identify state-of-the-art techniques for privacy-preserving processing of textual data. The focus is on enabling the application of methods that protect privacy in unstructured data, particularly text, and in the implementation of text similarity approaches. Method: To achieve this goal, state-of-the-art privacy preservation techniques were researched, in a literature review, and the study proposed the application of selected techniques. The concepts of differential privacy, vector databases, text similarity and rare events were taken into account in the proposed methodology and case study, along with the use of multi-agent Artificial Intelligence (AI) systems and Large Language Models (LLMs). Results: A key contribution of this study was to identify the state of art techniques for the privacy-preserving that are applied in textual data analysis and text similarity, including as how Data Science, LLM and Agent-Based AI techniques are used to implement privacy-preserving mechanisms and the techniques that are employed for semantic similarity and rare events detection in text domains. And also, a purposed applications in two case studies for the use of that knowledge. Conclusion: This study offers both a structured synthesis of existing studies through a Systematic Mapping Study (SMS) and a practical perspective via a case study, highlighting privacy-preserving techniques in text analysis. It highlights the possibility of using semantic similarity methods and vector-based representations in identifying rare events in contexts under privacy constraints. The integration of LLMs and AI agents reveals promising but on the other hand there are specific challenges and complexity for privacy-aware processing, particularly in areas like public security. This study provided an overview of the implementation and practical use, applied in a case study, of semantic similarity techniques between texts, which were revealed in Systematic Mapping Study (SMS) to have a strong and mature presence in the literature and a second case study explored the use of Latent Dirichlet Allocation (LDA) in a practical application from a Requirements Engineering (RE) perspective in the analysis of AI training data. Given the scarcity of similar approaches in the surveyed literature, this work addresses a contribution to help minimize this notable gap and try to contribute for future research focused on reconciling AI methods with ethical, privacy-preserving applications.pt_BR
dc.description.unidadeInstituto de Ciências Exatas (IE)pt_BR
dc.description.unidadeDepartamento de Ciência da Computação (IE CIC)pt_BR
dc.description.ppgPrograma de Pós-Graduação em Computação Aplicada, Mestrado Profissionalpt_BR
Aparece nas coleções:Teses, dissertações e produtos pós-doutorado

Mostrar registro simples do item Visualizar estatísticas



Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.