Detecção de tráfego de rede malicioso utilizando vetorização e aprendizado de máquina aplicados a fluxos de dados

Oliveira, Claudio Henrique Marques de

Please use this identifier to cite or link to this item: http://repositorio.unb.br/handle/10482/54554

Files in This Item:

File	Size	Format
ClaudioHenriqueMarquesDeOliveira_DISSERT.pdf	1,74 MB	Adobe PDF	View/Open

Title:	Detecção de tráfego de rede malicioso utilizando vetorização e aprendizado de máquina aplicados a fluxos de dados
Authors:	Oliveira, Claudio Henrique Marques de
Orientador(es)::	Gondim, João José Costa
Assunto::	Detecção de intrusão Aprendizado de máquina Análise de redes Cibersegurança Processamento de dados
Issue Date:	1-Jun-2026
Data de defesa::	12-Jan-2026
Citation:	OLIVEIRA, Claudio Henrique Marques de. Detecção de tráfego de rede malicioso utilizando vetorização e aprendizado de máquina aplicados a fluxos de dados. 2026. 124 f. Dissertação (Mestrado profissional em Computação Aplicada) — Universidade de Brasília, Brasília, 2026.
Abstract:	A detecção de ameaças cibernéticas representa um desafio crescente frente ao avanço tecnológico e à sofisticação constante dos métodos de ataque. Esta pesquisa propõe uma metodologia integrada para refinamento na detecção de tráfego malicioso, combinando a análise de tráfego de rede com o monitoramento de perfis em redes sociais. A abordagem fundamenta-se em técnicas de vetorização para representação de dados, algoritmos de aprendizado de máquina para classificação de padrões, e análise de redes complexas para identificação de comunidades de interesse em plataformas sociais. Em relação ao tráfego de rede, foram utilizados conjuntos de dados do repositório malware-traffic-analysis.net, extraindo características de pacotes e fluxos de comunicação para treinamento e validação de modelos classificadores (Random Forest, K-Nearest Neighbors e XGBoost). Complementarmente, postagens coletadas da plataforma "X" (antigo Twitter) foram analisadas a partir de dados da plataforma Zone-H, aplicando-se técnicas de processamento de linguagem natural e análise de redes complexas para identificar usuários associados a atividades hacktivistas. A implementação da metodologia utilizou o banco de dados vetorial Qdrant e processamento paralelo com Dask para garantir escalabilidade e desempenho em tempo real. Os resultados demonstraram alta eficácia na identificação de tráfego malicioso, com acurácia de 97,36% utilizando o algoritmo KNN, e ROC-AUC de 0,9928, incluindo para classes raras (0,9855). A integração das duas fontes de dados - tráfego de rede e postagens em redes sociais - permitiu a identificação precoce de ameaças e potenciais alvos, contribuindo significativamente para o desenvolvimento de estratégias proativas de cibersegurança. A pesquisa demonstrou que a combinação dessas abordagens pode refinar substancialmente os sistemas de detecção de intrusão, fornecendo respostas mais ágeis e precisas frente a cenários de ameaças emergentes.
Abstract:	The detection of cyber threats represents a growing challenge in the face of technological advancement and the constant sophistication of attack methods. This research proposes an integrated methodology for refining malicious traffic detection, combining network traffic analysis with monitoring of profiles on social networks. The approach is based on vectorization techniques for data representation, machine learning algorithms for pattern classification, and complex network analysis for identifying communities of interest on social platforms.Regarding network traffic, datasets from the malware-traffic-analysis.net repository were used, extracting characteristics from packets and communication flows for training and validating classifier models (Random Forest, K-Nearest Neighbors, and XGBoost). Complementarily, posts collected from the “X” platform (formerly Twitter) were analyzed using data from the Zone-H platform, applying natural language processing techniques and complex network analysis to identify users associated with hacktivist activities. The implementation of the methodology used the Qdrant vector database and parallel processing with Dask to ensure scalability and real-time performance.The results demonstrated high effectiveness in identifying malicious traffic, with an accuracy of $97.36\%$ using the KNN algorithm, and ROC-AUC of $0.9928$, including for rare classes ($0.9855$). The integration of the two data sources, network traffic and social network posts allowed for the early identification of threats and potential targets, significantly contributing to the development of proactive cybersecurity strategies. The research demonstrates that the combination of these approaches can substantially refine intrusion detection systems, providing more agile and accurate responses to emerging threat scenarios.
metadata.dc.description.unidade:	Instituto de Ciências Exatas (IE) Departamento de Ciência da Computação (IE CIC)
Description:	Dissertação (mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, Programa de Pós-Graduação em Computação Aplicada, 2026.
metadata.dc.description.ppg:	Programa de Pós-Graduação em Computação Aplicada, Mestrado Profissional
Licença::	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
Appears in Collections:	Teses, dissertações e produtos pós-doutorado

Show full item record " class="statisticsLink btn btn-primary" href="/handle/10482/54554/statistics">