Campo DC | Valor | Idioma |
dc.contributor.advisor | Faleiros, Thiago de Paulo | - |
dc.contributor.author | Joaquim, Carlos Eduardo de Lima | - |
dc.date.accessioned | 2022-09-12T22:12:00Z | - |
dc.date.available | 2022-09-12T22:12:00Z | - |
dc.date.issued | 2022-09-12 | - |
dc.date.submitted | 2022-04-29 | - |
dc.identifier.citation | JOAQUIM, Carlos Eduardo de Lima. BERT self-learning approach with limited labels for document classification of a Brazilian Army’s administrative documentary set. 2022. xvi, 68 f., il. Dissertação (Mestrado Profissional em Computação Aplicada) — Universidade de Brasília, Brasília, 2022. | pt_BR |
dc.identifier.uri | https://repositorio.unb.br/handle/10482/44785 | - |
dc.description | Dissertação (Mestrado Profissional em Computação Aplicada) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, Brasília, 2022. | pt_BR |
dc.description.abstract | O considerável aumento na velocidade de produção documental e, consequentemente, no
volume de dados não estruturados armazenados nas instalações do Exército Brasileiro,
especificamente na forma de documentos administrativos, acrescido da necessidade de
consciência situacional por parte dos Comandos, além da observação da legislação arquivística vigente, impõe a execução de processos capazes de classificar documentos.
Neste diapasão, o Processamento de Linguagem Natural (NLP) surge como um importante recurso na persecução dos objetivos relativos à classificação documental, mostrandose meio adequado para o desenvolvimento de pesquisa que vise à classificação de documentos considerando a realidade da produção documental atual, onde sobeja considerável
número de amostras documentais não rotuladas.
Observado o fato de que os mais poderosos modelos NLP desenvolvidos baseiam-se em
técnicas de aprendizado supervisionado, as quais exigem considerável número de amostras
rotuladas, resta o desafio de encontrar modelo capaz de classificar conjunto de dados
de uma Organização Militar (OM), parcialmente rotulado, de acordo com o Modelo de
Requisitos para Sistemas Informatizados de Gestão Arquivística de Documentos (e-ARQ
Brasil), alcançando performance equivalente ao nível humano.
Objetivou-se desenvolver, durante a condução da presente pesquisa, a expansão do
modelo BERT, com a substituição do estágio supervisionado de ajuste fino por um método de autoaprendizagem, realizando-se a mensuração da performance resultante para
porcentagens específicas do conjunto de dados, inicialmente compreendidas entre 3% e
30% do total de amostras rotuladas.
Os resultados obtidos permitiram vislumbrar a aplicabilidade do método proposto nas
bases de dados de documentos do Exército Brasileiro. Concomitantemente, no estudo de
caso em tela, foi possível verificar performance compatível com as necessidades existentes,
sendo o método proposto capaz de classificar de forma equivalente à capacidade humana,
apresentando melhores resultados que os experimento de referência, com ganhos maiores
à medida em que o número de amostras rotuladas disponíveis decresce. | pt_BR |
dc.description.sponsorship | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES). | pt_BR |
dc.language.iso | Inglês | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.title | BERT self-learning approach with limited labels for document classification of a Brazilian Army’s administrative documentary set | pt_BR |
dc.type | Dissertação | pt_BR |
dc.subject.keyword | Aprendizado semissupervisionado | pt_BR |
dc.subject.keyword | Processamento de linguagem natural (Computação) | pt_BR |
dc.subject.keyword | Autoaprendizado | pt_BR |
dc.subject.keyword | Exército brasileiro | pt_BR |
dc.rights.license | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data. | pt_BR |
dc.description.abstract1 | The remarkable acceleration in the production speed of documents and, consequently,
in the volume of unstructured data stored at the Brazilian Army facilities, specifically
in the form of administrative documents, plus the need of situational awareness by the
Commanders, in addition to the observation of the archival legislation, requires processes
that enable the capacity of classifying documents.
In this sense, Natural Language Processing (NLP) stands as an important asset in the
pursuit of objectives related to document classification, proving to be an adequate means
for developing research that aims to classify documents considering the reality of current document production, where there is a considerable number of unlabeled document
samples.
Given the fact that the most powerful NLP models are based on supervised learning
techniques, which require a considerable number of labeled samples, the challenge remains
to find a model capable of classifying a partially labeled set of data from a Military
Organization (OM), according to the Requirements Model for Computerized Document
Management Systems (e-ARQ Brazil), reaching a human-level performance.
It was intended to develop, during the course of this research, the expansion of the
BERT model, with the substitution of the supervised fine-tuning stage by a self-learning
method, analyzing the resulting performance for specific percentages of the dataset, initially ranging from 3% to 30% of the total labeled samples.
The achieved results allowed us to perceive that the proposed method is applicable to
the Brazilian Army’s document databases. Concomitantly, in the case study in question,
it was possible to verify that the performance of the proposed method is compatible with
the existing needs, being able to perform classifications equivalent to the human capacity,
presenting better results than the experiments of reference, with greater gains as the
number of available labeled samples decreases. | pt_BR |
dc.description.unidade | Instituto de Ciências Exatas (IE) | pt_BR |
dc.description.unidade | Departamento de Ciência da Computação (IE CIC) | pt_BR |
dc.description.ppg | Programa de Pós-Graduação em Computação Aplicada, Mestrado Profissional | pt_BR |
Aparece nas coleções: | Teses, dissertações e produtos pós-doutorado
|