Framework para classificação de TTP baseado em transformadas BERT

Alves, Paulo Magno de Melo Rodrigues

Use este identificador para citar ou linkar para este item: http://repositorio.unb.br/handle/10482/47950

Arquivos associados a este item:

Arquivo	Tamanho	Formato
PauloMagnoDeMeloRodriguesAlves_DISSERT.pdf	2,37 MB	Adobe PDF	Visualizar/Abrir

Título:	Framework para classificação de TTP baseado em transformadas BERT
Autor(es):	Alves, Paulo Magno de Melo Rodrigues
Orientador(es):	Gonçalves, Vinícius Pereira
Coorientador(es):	Rocha Filho, Geraldo Pereira
Assunto:	Processamento de linguagem natural (Computação) Inteligência cibernética Aprendizagem de máquina
Data de publicação:	28-Fev-2024
Data de defesa:	27-Jun-2023
Referência:	ALVES, Paulo Magno de Melo Rodrigues. Framework para classificação de TTP baseado em transformadas BERT. 2023. viii, 61 f., il. Dissertação (Mestrado Profissional em Engenharia Elétrica) — Universidade de Brasília, Brasília, 2023.
Resumo:	Informações relativas às Táticas Técnicas e Procedimentos (TTP) observados em um ataque são importantes para os profissionais de segurança cibernética. Contudo, elas são costumeiramente disseminadas na forma de textos não estruturados, dificultando a acesso e, portanto, o trabalho dos ciberanalistas. Esse trabalho apresenta um framework para o enfrentamento desse problema por meio do BERT (Bidirectional Encoder Representations from Transformers), modelo de NLP derivado da Arquitetura de Tranformadas. Assim, foram utilizadas 11 variantes BERT, estado da arte no campo de NLP, para classificar sentenças de acordo com o framework MITRE ATT&CK para TTP. O dataset utilizado inicialmente foi a base de sentenças do instituto MITRE, sendo uma parte usada no treinamento e outra na avaliação dos modelos. Posteriormente foi realizada validação em um conjunto de sentenças manualmente anotadas extraído de relatórios de CTI (Cyber Threat Intelligence) públicos. Investigou-se também os efeitos de alguns hiperparâmeros escolhidos no treinamento de ajuste fino dos modelos. O objetivo foi identificar o modelo e a combinação de hiperparâmetros que melhor se adequariam à tarefa de classificação proposta. Como resultado, verificou-se que os melhores modelos apresentaram acurácia de 0,8264 e 0,7875 nos dois conjuntos de dados utilizados, demonstrando a viabilidade e o potencial do uso dos modelos BERT nessa complexa tarefa do domínio cibernético. Por fim, realiza-se análise qualitativa de algumas das sentenças erroneamente classificadas pelo framework, de modo a compreender melhor porque o modelo erra e obter insights que potencialmente ajudem a melhorar a performance.
Abstract:	Information upon Tactics, Techniques and Procedures (TTP) observed in an attack are important to cybersecurity defenders. However, they are mostly disseminated through unstructured text, hindering access and the job of ciberanalysts. This work presents a framework for tackling this problem by using BERT (Bidirectional Encoder Representations from Transformers), a model derived from the Transformers Architecture. We use 11 variants of BERT, a state-of-the-art approach in Natural Language Processing, to classify sentences according to MITRE ATT&CK framework for TTP. The dataset used is MITRE’s database of sentences (examples) and part of it is used in training and part in the models evaluation. Validation is also done against a set of manually annotated sentences extracted from public CTI reports. The effect of some chosen hyperparameters on the fine-tuning of the models are also investigated. The purpose is to identify the best model and the finest combination of hyperparameters for the proposed classification task. As a result, we observed that the best models presented an accuracy of 82.64% and 78.75% on the two datasets tested, demonstrating the feasibility and potential of the application of BERT models in the complex task of TTP classification. At last, we analyze some of the sentences misclassified by the framework to better understand why the models are missing and thus gather insights about possibilites to further improve performance.
Unidade Acadêmica:	Faculdade de Tecnologia (FT) Departamento de Engenharia Elétrica (FT ENE)
Informações adicionais:	Dissertação (mestrado) — Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, Programa de Pós-Graduação em Engenharia Elétrica, 2023.
Programa de pós-graduação:	Programa de Pós-Graduação em Engenharia Elétrica, Mestrado Profissional
Licença:	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
Aparece nas coleções:	Teses, dissertações e produtos pós-doutorado

Mostrar registro completo do item Visualizar estatísticas