| Campo DC | Valor | Idioma |
| dc.contributor.advisor | Silva Filho, Demétrio Antônio da | - |
| dc.contributor.author | Maia, Yuri do Amaral Nobre | - |
| dc.date.accessioned | 2025-12-22T16:36:58Z | - |
| dc.date.available | 2025-12-22T16:36:58Z | - |
| dc.date.issued | 2025-12-22 | - |
| dc.date.submitted | 2025-07-31 | - |
| dc.identifier.citation | MAIA, Yuri do Amaral Nobre. Towards cybersecurity dataset creation an LLM-assisted approach for named entity recognition in threat intelligence. 2025. 70 f., il. Dissertação (Mestrado Profissional em Engenharia Elétrica) — Universidade de Brasília, Brasília, 2025. | pt_BR |
| dc.identifier.uri | http://repositorio.unb.br/handle/10482/53500 | - |
| dc.description | Dissertação (mestrado) — Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, Programa de Pós-Graduação em Engenharia Elétrica, 2025. | pt_BR |
| dc.description.abstract | O número crescente de relatórios de cibersegurança representa um desafio para a recuperação e o compartilhamento eficientes de Inteligência de Ameaças Cibernéticas (CTI). No entanto, conjuntos de dados de
cibersegurança publicamente disponíveis para Processamento de Linguagem Natural (PLN) permanecem
escassos, dificultando o avanço na produção automatizada de inteligência. Para enfrentar este desafio,
este artigo apresenta o Yet Another Cybersecurity Database (YACSDB), um conjunto de dados projetado
para aprimorar o Reconhecimento de Entidades Nomeadas (REN) utilizando entidades Structured Threat
Information Expression (STIX) para interoperabilidade. Nosso pipeline extrai Objetos de Domínio STIX
de relatórios não estruturados, aproveitando os modelos Gemini do Google e Bidirectional Encoder Representations from Transformers (BERT) para auxiliar na rotulagem e reduzir a necessidade de recursos.
O conjunto de dados emprega a notação Inside–Outside–Beginning (IOB) para facilitar o fine-tuning em
tarefas de etiquetagem de sequências. Os relatórios foram selecionados visando a representatividade ao
longo de diferentes anos. Pelo nosso conhecimento, este é um dos maiores conjuntos de dados de REN em
cibersegurança com informações temporais, anotado por um único anotador assistido por máquina. Para
avaliar o conjunto de dados, realizamos o fine-tuning de sete modelos BERT para demonstrar sua eficácia
para REN. Os resultados enfatizam a importância de conjuntos de dados específicos de domínio em PLN
de cibersegurança e destacam desafios importantes. O YACSDB serve como um benchmark para comparação de modelos, desenvolvimento de soluções e geração de grafos de conhecimento. Ele está publicamente
disponível para fomentar pesquisas futuras em PLN de cibersegurança. | pt_BR |
| dc.language.iso | eng | pt_BR |
| dc.rights | Acesso Aberto | pt_BR |
| dc.title | Towards cybersecurity dataset creation an LLM-assisted approach for named entity recognition in threat intelligence | pt_BR |
| dc.type | Dissertação | pt_BR |
| dc.subject.keyword | Inteligência de ameaças cibernética | pt_BR |
| dc.subject.keyword | Linguagem natural - processamento | pt_BR |
| dc.subject.keyword | Cibersegurança | pt_BR |
| dc.rights.license | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data. | pt_BR |
| dc.contributor.advisorco | Albuquerque, Robson de Oliveira | - |
| dc.description.abstract1 | The increasing number of cybersecurity reports poses a challenge to efficiently retrieving and sharing Cyber
Threat Intelligence. However, publicly available cybersecurity datasets for Natural Language Processing
(NLP) remain scarce, hindering progress in automated intelligence production. To tackle this challenge,
this article presents Yet Another Cybersecurity Database (YACSDB), a dataset designed to enhance Named
Entity Recognition (NER) using Structured Threat Information Expression (STIX) entities for interoperability. Our pipeline extracts STIX Domain Objects from unstructured reports, leveraging Google’s Gemini
and Bidirectional Encoder Representations from Transformers (BERT) model to assist in labeling and reduce resource needs. The dataset uses Inside–Outside–Beginning (IOB) notation to facilitate fine-tuning
in sequence tagging tasks. Reports were selected for representativeness across different years. To the best
of our knowledge, it is among the largest cybersecurity NER datasets with temporal information annotated by a single machine-assisted annotator. To evaluate the dataset, we fine-tuned seven BERT models to
demonstrate its effectiveness for NER. The results emphasize the importance of domain-specific datasets in
cybersecurity NLP and highlight key challenges. YACSDB serves as a benchmark for model comparison,
solution development, and knowledge graph generation. It is publicly available to foster future research in
cybersecurity NLP. | pt_BR |
| dc.description.unidade | Faculdade de Tecnologia (FT) | pt_BR |
| dc.description.unidade | Departamento de Engenharia Elétrica (FT ENE) | pt_BR |
| dc.description.ppg | Programa de Pós-Graduação em Engenharia Elétrica, Mestrado Profissional | pt_BR |
| Aparece nas coleções: | Teses, dissertações e produtos pós-doutorado
|