Privacy-preserving techniques for preparing texts for use in artificial intelligence models : leveraging semantic similarity with vector data search and ai agents

Lim-apo, Daniel Linhares

Por favor, use este identificador para citar o enlazar este ítem: http://repositorio.unb.br/handle/10482/54551

Ficheros en este ítem:

Fichero	Tamaño	Formato
DanielLinharesLim-apo_DISSERT.pdf	3,3 MB	Adobe PDF	Visualizar/Abrir

Título :	Privacy-preserving techniques for preparing texts for use in artificial intelligence models : leveraging semantic similarity with vector data search and ai agents
Autor :	Lim-apo, Daniel Linhares
Orientador(es)::	Canedo, Edna Dias
Assunto::	Privacidade Privacidade diferencial
Fecha de publicación :	1-jun-2026
Data de defesa::	23-abr-2026
Citación :	LIM-APO, Daniel Linhares. Privacy-preserving techniques for preparing texts for use in artificial intelligence models: leveraging semantic similarity with vector data search and ai agents. 2026. 120 f., il. Dissertação (Mestrado profissional em Computação Aplicada) — Universidade de Brasília, Brasília, 2026.
Resumen :	Processos que visam extrair valor da informação a partir de dados armazenados estão ganhando destaque. Entre os diversos tipos de dados não estruturados, os dados textuais constituem uma parcela significativa da informação produzida em contextos do mundo real. Considerações éticas e leis de proteção de dados aumentaram a pressão sobre a privacidade de conteúdo sensível. Os riscos de divulgação associados a dados textuais, considerando a privacidade diferencial, são influenciados pela raridade e similaridade dos textos dentro de um conjunto de dados. Textos raros podem aumentar a probabilidade de reidentificação. A Inteligência Artificial (IA) e o Aprendizado de Máquina (ML) têm demanda crescente por dados e, juntamente com a estatística e as técnicas clássicas de processamento de linguagem natural, essas técnicas estão sendo cada vez mais exploradas para implementar mecanismos de preservação da privacidade, oferecendo soluções técnicas para mitigar os riscos à privacidade. Objetivo: O objetivo é descobrir técnicas de ponta para a preservação da privacidade no processamento de dados textuais, permitindo o emprego de técnicas para proteger a privacidade em dados não estruturados, especificamente em textos e na implementação de técnicas de similaridade textual. Método: Para atingir esse objetivo, foi pesquisado em busca do estado da arte quanto a técnicas de preservação de privacidade, por meio de uma revisão bibliográfica, e o estudo propôs a aplicação de técnicas selecionadas. Os conceitos de privacidade diferencial, bancos de dados vetoriais, similaridade textual e eventos raros foram considerados na metodologia e nos estudos de casos propostos, juntamente com o uso de sistemas de IA multiagentes e LLMs. Resultados: Uma contribuição fundamental deste estudo foi identificar as técnicas de ponta para preservação da privacidade aplicadas na análise de dados textuais e similaridade de textos, incluindo como a Ciência de Dados, Modelos de Linguagem em Larga Escala (LLM) e a Inteligência Artificial (IA) baseada em agentes são utilizadas para implementar mecanismos de preservação da privacidade, bem como as técnicas empregadas para similaridade semântica e detecção de eventos raros em domínios textuais. Além disso, foram apresentadas aplicações práticas em dois estudos de casos para o uso desse conhecimento. Conclusão: Este estudo oferece uma síntese estruturada dos estudos existentes por meio de um Mapeamento Sistemático de Estudos (MSE) e uma perspectiva prática através de estudos de caso, destacando técnicas de preservação da privacidade na análise de texto. Ele ressalta a possibilidade de usar métodos de similaridade semântica e representações vetoriais na identificação de eventos raros em contextos sob restrições de privacidade. A integração de Modelos de Linguagem (LLMs) e Agentes de Inteligência Artificial (IA) revela-se promissora, mas, por outro lado, apresenta desafios e complexidades específicos para o processamento com foco na privacidade, particularmente em áreas como segurança pública. Este estudo forneceu uma visão geral da implementação e do uso prático, aplicado em um estudo de caso, de técnicas de similaridade semântica entre textos, que, conforme revelado no MSE, possuem uma presença forte e consolidada na literatura. Dada a escassez de abordagens similares na literatura pesquisada, este trabalho ajuda a preencher esta lacuna e busca contribuir para pesquisas futuras focadas em conciliar métodos de IA com aplicações éticas e que preservem a privacidade.
Abstract:	Processes that aim to extract value from stored data are gaining prominence. Among various types of unstructured data, textual data constitutes a significant proportion of the information produced in real-world settings. Ethical considerations and data protection laws have increased the pressure over the privacy of sensitive content. The disclosure risks associated with textual data, considering differential privacy, are influenced by the rarity and the similarity of texts within a dataset. Rare texts can increase the likelihood of re-identification. Artificial Intelligence (AI) and Machine Learning (ML) have growing demand for data and side by side with statistics and classic natural language processing techniques, those techniques are increasingly being explored for implementing privacy-preserving mechanisms, offering technical solutions to mitigate privacy risks. Goal: The objective was to identify state-of-the-art techniques for privacy-preserving processing of textual data. The focus is on enabling the application of methods that protect privacy in unstructured data, particularly text, and in the implementation of text similarity approaches. Method: To achieve this goal, state-of-the-art privacy preservation techniques were researched, in a literature review, and the study proposed the application of selected techniques. The concepts of differential privacy, vector databases, text similarity and rare events were taken into account in the proposed methodology and case study, along with the use of multi-agent Artificial Intelligence (AI) systems and Large Language Models (LLMs). Results: A key contribution of this study was to identify the state of art techniques for the privacy-preserving that are applied in textual data analysis and text similarity, including as how Data Science, LLM and Agent-Based AI techniques are used to implement privacy-preserving mechanisms and the techniques that are employed for semantic similarity and rare events detection in text domains. And also, a purposed applications in two case studies for the use of that knowledge. Conclusion: This study offers both a structured synthesis of existing studies through a Systematic Mapping Study (SMS) and a practical perspective via a case study, highlighting privacy-preserving techniques in text analysis. It highlights the possibility of using semantic similarity methods and vector-based representations in identifying rare events in contexts under privacy constraints. The integration of LLMs and AI agents reveals promising but on the other hand there are specific challenges and complexity for privacy-aware processing, particularly in areas like public security. This study provided an overview of the implementation and practical use, applied in a case study, of semantic similarity techniques between texts, which were revealed in Systematic Mapping Study (SMS) to have a strong and mature presence in the literature and a second case study explored the use of Latent Dirichlet Allocation (LDA) in a practical application from a Requirements Engineering (RE) perspective in the analysis of AI training data. Given the scarcity of similar approaches in the surveyed literature, this work addresses a contribution to help minimize this notable gap and try to contribute for future research focused on reconciling AI methods with ethical, privacy-preserving applications.
metadata.dc.description.unidade:	Instituto de Ciências Exatas (IE) Departamento de Ciência da Computação (IE CIC)
Descripción :	Dissertação (mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, Programa de Pós-Graduação em Computação Aplicada, 2026.
metadata.dc.description.ppg:	Programa de Pós-Graduação em Computação Aplicada, Mestrado Profissional
Licença::	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
Aparece en las colecciones:	Teses, dissertações e produtos pós-doutorado

Mostrar el registro Dublin Core completo del ítem " class="statisticsLink btn btn-primary" href="/handle/10482/54551/statistics">