Towards cybersecurity dataset creation an LLM-assisted approach for named entity recognition in threat intelligence

Maia, Yuri do Amaral Nobre

Full metadata record

DC Field	Value	Language
dc.contributor.advisor	Silva Filho, Demétrio Antônio da	-
dc.contributor.author	Maia, Yuri do Amaral Nobre	-
dc.date.accessioned	2025-12-22T16:36:58Z	-
dc.date.available	2025-12-22T16:36:58Z	-
dc.date.issued	2025-12-22	-
dc.date.submitted	2025-07-31	-
dc.identifier.citation	MAIA, Yuri do Amaral Nobre. Towards cybersecurity dataset creation an LLM-assisted approach for named entity recognition in threat intelligence. 2025. 70 f., il. Dissertação (Mestrado Profissional em Engenharia Elétrica) — Universidade de Brasília, Brasília, 2025.	pt_BR
dc.identifier.uri	http://repositorio.unb.br/handle/10482/53500	-
dc.description	Dissertação (mestrado) — Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, Programa de Pós-Graduação em Engenharia Elétrica, 2025.	pt_BR
dc.description.abstract	O número crescente de relatórios de cibersegurança representa um desafio para a recuperação e o compartilhamento eficientes de Inteligência de Ameaças Cibernéticas (CTI). No entanto, conjuntos de dados de cibersegurança publicamente disponíveis para Processamento de Linguagem Natural (PLN) permanecem escassos, dificultando o avanço na produção automatizada de inteligência. Para enfrentar este desafio, este artigo apresenta o Yet Another Cybersecurity Database (YACSDB), um conjunto de dados projetado para aprimorar o Reconhecimento de Entidades Nomeadas (REN) utilizando entidades Structured Threat Information Expression (STIX) para interoperabilidade. Nosso pipeline extrai Objetos de Domínio STIX de relatórios não estruturados, aproveitando os modelos Gemini do Google e Bidirectional Encoder Representations from Transformers (BERT) para auxiliar na rotulagem e reduzir a necessidade de recursos. O conjunto de dados emprega a notação Inside–Outside–Beginning (IOB) para facilitar o fine-tuning em tarefas de etiquetagem de sequências. Os relatórios foram selecionados visando a representatividade ao longo de diferentes anos. Pelo nosso conhecimento, este é um dos maiores conjuntos de dados de REN em cibersegurança com informações temporais, anotado por um único anotador assistido por máquina. Para avaliar o conjunto de dados, realizamos o fine-tuning de sete modelos BERT para demonstrar sua eficácia para REN. Os resultados enfatizam a importância de conjuntos de dados específicos de domínio em PLN de cibersegurança e destacam desafios importantes. O YACSDB serve como um benchmark para comparação de modelos, desenvolvimento de soluções e geração de grafos de conhecimento. Ele está publicamente disponível para fomentar pesquisas futuras em PLN de cibersegurança.	pt_BR
dc.language.iso	eng	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.title	Towards cybersecurity dataset creation an LLM-assisted approach for named entity recognition in threat intelligence	pt_BR
dc.type	Dissertação	pt_BR
dc.subject.keyword	Inteligência de ameaças cibernética	pt_BR
dc.subject.keyword	Linguagem natural - processamento	pt_BR
dc.subject.keyword	Cibersegurança	pt_BR
dc.rights.license	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.	pt_BR
dc.contributor.advisorco	Albuquerque, Robson de Oliveira	-
dc.description.abstract1	The increasing number of cybersecurity reports poses a challenge to efficiently retrieving and sharing Cyber Threat Intelligence. However, publicly available cybersecurity datasets for Natural Language Processing (NLP) remain scarce, hindering progress in automated intelligence production. To tackle this challenge, this article presents Yet Another Cybersecurity Database (YACSDB), a dataset designed to enhance Named Entity Recognition (NER) using Structured Threat Information Expression (STIX) entities for interoperability. Our pipeline extracts STIX Domain Objects from unstructured reports, leveraging Google’s Gemini and Bidirectional Encoder Representations from Transformers (BERT) model to assist in labeling and reduce resource needs. The dataset uses Inside–Outside–Beginning (IOB) notation to facilitate fine-tuning in sequence tagging tasks. Reports were selected for representativeness across different years. To the best of our knowledge, it is among the largest cybersecurity NER datasets with temporal information annotated by a single machine-assisted annotator. To evaluate the dataset, we fine-tuned seven BERT models to demonstrate its effectiveness for NER. The results emphasize the importance of domain-specific datasets in cybersecurity NLP and highlight key challenges. YACSDB serves as a benchmark for model comparison, solution development, and knowledge graph generation. It is publicly available to foster future research in cybersecurity NLP.	pt_BR
dc.description.unidade	Faculdade de Tecnologia (FT)	pt_BR
dc.description.unidade	Departamento de Engenharia Elétrica (FT ENE)	pt_BR
dc.description.ppg	Programa de Pós-Graduação em Engenharia Elétrica, Mestrado Profissional	pt_BR
Appears in Collections:	Teses, dissertações e produtos pós-doutorado