Skip navigation
Use este identificador para citar ou linkar para este item: http://repositorio.unb.br/handle/10482/53500
Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
2025_YuriDoAmaralNobreMaia_DISSERT.pdf2,15 MBAdobe PDFVisualizar/Abrir
Título: Towards cybersecurity dataset creation an LLM-assisted approach for named entity recognition in threat intelligence
Autor(es): Maia, Yuri do Amaral Nobre
Orientador(es): Silva Filho, Demétrio Antônio da
Coorientador(es): Albuquerque, Robson de Oliveira
Assunto: Inteligência de ameaças cibernética
Linguagem natural - processamento
Cibersegurança
Data de publicação: 22-dez-2025
Referência: MAIA, Yuri do Amaral Nobre. Towards cybersecurity dataset creation an LLM-assisted approach for named entity recognition in threat intelligence. 2025. 70 f., il. Dissertação (Mestrado Profissional em Engenharia Elétrica) — Universidade de Brasília, Brasília, 2025.
Resumo: O número crescente de relatórios de cibersegurança representa um desafio para a recuperação e o compartilhamento eficientes de Inteligência de Ameaças Cibernéticas (CTI). No entanto, conjuntos de dados de cibersegurança publicamente disponíveis para Processamento de Linguagem Natural (PLN) permanecem escassos, dificultando o avanço na produção automatizada de inteligência. Para enfrentar este desafio, este artigo apresenta o Yet Another Cybersecurity Database (YACSDB), um conjunto de dados projetado para aprimorar o Reconhecimento de Entidades Nomeadas (REN) utilizando entidades Structured Threat Information Expression (STIX) para interoperabilidade. Nosso pipeline extrai Objetos de Domínio STIX de relatórios não estruturados, aproveitando os modelos Gemini do Google e Bidirectional Encoder Representations from Transformers (BERT) para auxiliar na rotulagem e reduzir a necessidade de recursos. O conjunto de dados emprega a notação Inside–Outside–Beginning (IOB) para facilitar o fine-tuning em tarefas de etiquetagem de sequências. Os relatórios foram selecionados visando a representatividade ao longo de diferentes anos. Pelo nosso conhecimento, este é um dos maiores conjuntos de dados de REN em cibersegurança com informações temporais, anotado por um único anotador assistido por máquina. Para avaliar o conjunto de dados, realizamos o fine-tuning de sete modelos BERT para demonstrar sua eficácia para REN. Os resultados enfatizam a importância de conjuntos de dados específicos de domínio em PLN de cibersegurança e destacam desafios importantes. O YACSDB serve como um benchmark para comparação de modelos, desenvolvimento de soluções e geração de grafos de conhecimento. Ele está publicamente disponível para fomentar pesquisas futuras em PLN de cibersegurança.
Abstract: The increasing number of cybersecurity reports poses a challenge to efficiently retrieving and sharing Cyber Threat Intelligence. However, publicly available cybersecurity datasets for Natural Language Processing (NLP) remain scarce, hindering progress in automated intelligence production. To tackle this challenge, this article presents Yet Another Cybersecurity Database (YACSDB), a dataset designed to enhance Named Entity Recognition (NER) using Structured Threat Information Expression (STIX) entities for interoperability. Our pipeline extracts STIX Domain Objects from unstructured reports, leveraging Google’s Gemini and Bidirectional Encoder Representations from Transformers (BERT) model to assist in labeling and reduce resource needs. The dataset uses Inside–Outside–Beginning (IOB) notation to facilitate fine-tuning in sequence tagging tasks. Reports were selected for representativeness across different years. To the best of our knowledge, it is among the largest cybersecurity NER datasets with temporal information annotated by a single machine-assisted annotator. To evaluate the dataset, we fine-tuned seven BERT models to demonstrate its effectiveness for NER. The results emphasize the importance of domain-specific datasets in cybersecurity NLP and highlight key challenges. YACSDB serves as a benchmark for model comparison, solution development, and knowledge graph generation. It is publicly available to foster future research in cybersecurity NLP.
Unidade Acadêmica: Faculdade de Tecnologia (FT)
Departamento de Engenharia Elétrica (FT ENE)
Informações adicionais: Dissertação (mestrado) — Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, Programa de Pós-Graduação em Engenharia Elétrica, 2025.
Programa de pós-graduação: Programa de Pós-Graduação em Engenharia Elétrica, Mestrado Profissional
Licença: A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
Aparece nas coleções:Teses, dissertações e produtos pós-doutorado

Mostrar registro completo do item Visualizar estatísticas



Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.