Towards cybersecurity dataset creation an LLM-assisted approach for named entity recognition in threat intelligence

Maia, Yuri do Amaral Nobre

Use este identificador para citar ou linkar para este item: http://repositorio.unb.br/handle/10482/53500

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
2025_YuriDoAmaralNobreMaia_DISSERT.pdf		2,15 MB	Adobe PDF	Visualizar/Abrir

Título:	Towards cybersecurity dataset creation an LLM-assisted approach for named entity recognition in threat intelligence
Autor(es):	Maia, Yuri do Amaral Nobre
Orientador(es):	Silva Filho, Demétrio Antônio da
Coorientador(es):	Albuquerque, Robson de Oliveira
Assunto:	Inteligência de ameaças cibernética Linguagem natural - processamento Cibersegurança
Data de publicação:	22-dez-2025
Data de defesa:	31-jul-2025
Referência:	MAIA, Yuri do Amaral Nobre. Towards cybersecurity dataset creation an LLM-assisted approach for named entity recognition in threat intelligence. 2025. 70 f., il. Dissertação (Mestrado Profissional em Engenharia Elétrica) — Universidade de Brasília, Brasília, 2025.
Resumo:	O número crescente de relatórios de cibersegurança representa um desafio para a recuperação e o compartilhamento eficientes de Inteligência de Ameaças Cibernéticas (CTI). No entanto, conjuntos de dados de cibersegurança publicamente disponíveis para Processamento de Linguagem Natural (PLN) permanecem escassos, dificultando o avanço na produção automatizada de inteligência. Para enfrentar este desafio, este artigo apresenta o Yet Another Cybersecurity Database (YACSDB), um conjunto de dados projetado para aprimorar o Reconhecimento de Entidades Nomeadas (REN) utilizando entidades Structured Threat Information Expression (STIX) para interoperabilidade. Nosso pipeline extrai Objetos de Domínio STIX de relatórios não estruturados, aproveitando os modelos Gemini do Google e Bidirectional Encoder Representations from Transformers (BERT) para auxiliar na rotulagem e reduzir a necessidade de recursos. O conjunto de dados emprega a notação Inside–Outside–Beginning (IOB) para facilitar o fine-tuning em tarefas de etiquetagem de sequências. Os relatórios foram selecionados visando a representatividade ao longo de diferentes anos. Pelo nosso conhecimento, este é um dos maiores conjuntos de dados de REN em cibersegurança com informações temporais, anotado por um único anotador assistido por máquina. Para avaliar o conjunto de dados, realizamos o fine-tuning de sete modelos BERT para demonstrar sua eficácia para REN. Os resultados enfatizam a importância de conjuntos de dados específicos de domínio em PLN de cibersegurança e destacam desafios importantes. O YACSDB serve como um benchmark para comparação de modelos, desenvolvimento de soluções e geração de grafos de conhecimento. Ele está publicamente disponível para fomentar pesquisas futuras em PLN de cibersegurança.
Abstract:	The increasing number of cybersecurity reports poses a challenge to efficiently retrieving and sharing Cyber Threat Intelligence. However, publicly available cybersecurity datasets for Natural Language Processing (NLP) remain scarce, hindering progress in automated intelligence production. To tackle this challenge, this article presents Yet Another Cybersecurity Database (YACSDB), a dataset designed to enhance Named Entity Recognition (NER) using Structured Threat Information Expression (STIX) entities for interoperability. Our pipeline extracts STIX Domain Objects from unstructured reports, leveraging Google’s Gemini and Bidirectional Encoder Representations from Transformers (BERT) model to assist in labeling and reduce resource needs. The dataset uses Inside–Outside–Beginning (IOB) notation to facilitate fine-tuning in sequence tagging tasks. Reports were selected for representativeness across different years. To the best of our knowledge, it is among the largest cybersecurity NER datasets with temporal information annotated by a single machine-assisted annotator. To evaluate the dataset, we fine-tuned seven BERT models to demonstrate its effectiveness for NER. The results emphasize the importance of domain-specific datasets in cybersecurity NLP and highlight key challenges. YACSDB serves as a benchmark for model comparison, solution development, and knowledge graph generation. It is publicly available to foster future research in cybersecurity NLP.
Unidade Acadêmica:	Faculdade de Tecnologia (FT) Departamento de Engenharia Elétrica (FT ENE)
Informações adicionais:	Dissertação (mestrado) — Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, Programa de Pós-Graduação em Engenharia Elétrica, 2025.
Programa de pós-graduação:	Programa de Pós-Graduação em Engenharia Elétrica, Mestrado Profissional
Licença:	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
Aparece nas coleções:	Teses, dissertações e produtos pós-doutorado

Mostrar registro completo do item Visualizar estatísticas