Algoritmo de Fatoração de Matrizes Não-negativas para Aprendizado positivo não-supervisionado

Nunes, Lucas Souza Sampaio

Registro completo de metadados

Campo DC	Valor	Idioma
dc.contributor.advisor	Faleiros, Thiago de Paulo	pt_BR
dc.contributor.author	Nunes, Lucas Souza Sampaio	pt_BR
dc.date.accessioned	2024-12-18T17:48:00Z	-
dc.date.available	2024-12-18T17:48:00Z	-
dc.date.issued	2024-12-18	-
dc.date.submitted	2024-09-02	-
dc.identifier.citation	NUNES, Lucas Souza Sampaio. Algoritmo de Fatoração de Matrizes Não-negativas para Aprendizado positivo não-supervisionado. 2024. 103 f., il. Dissertação (Mestrado em Informática) — Universidade de Brasília, Brasília, 2024.	pt_BR
dc.identifier.uri	http://repositorio.unb.br/handle/10482/51222	-
dc.description	Dissertação (Mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2024.	pt_BR
dc.description.abstract	A rotulagem de dados para treinamento de modelos de aprendizado de máquina está se tornando cada vez mais inviável devido ao alto volume de dados disponíveis e continuamente sendo produzidos. Portanto, pesquisas atuais se concentram na análise e investigação de técnicas de resolução do problema de Positive Unlabeled Learning (PUL), que podem produzir um desempenho satisfatório de classificação, mesmo com uma pequena porção de dados rotulados. Neste trabalho, é proposta uma adaptação estrutural do algoritmo de Non-negative Matrix Factorization (NMF), aplicada a problemas de PUL e denominada NMFPUL, a fim de aprimorar o desempenho da classificação de dados textuais. O NMF é uma técnica usada para a fatoração de matrizes e geralmente é utilizada para redução de dimensionalidade. Além disso, foi investigada uma variação do algoritmo NMF no aprendizado profundo, o Deep Non-Negative Matrix Factorization ou Deep NMF. Esta pesquisa aplica o algoritmo proposto em vários conjuntos de dados textuais, contendo milhares de documentos e termos, considerando diferentes quantidades de dados rotulados, variando de 1 a 30 documentos rotulados na classe positiva. Para os conjuntos de dados menores, o algoritmo proposto apresentou desempenho de classificação próximo às outras técnicas de ponta, enquanto, nos conjuntos de dados maiores, o desempenho do NMFPUL se destacou, obtendo uma melhoria de 10% a 30% em relação às outras técnicas, sendo a maior diferença observada quando há uma menor quantidade de documentos rotulados. O uso do NMF envolve a aplicação de uma função objetivo para convergir a matriz documentopalavra ao produto das matrizes documento-tópico e tópico-palavra. Essas técnicas de convergência podem ser utilizadas em métodos de aprendizado profundo, desdobrando as iterações do algoritmo em camadas da rede.	pt_BR
dc.description.sponsorship	Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES).	pt_BR
dc.language.iso	Português	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.title	Algoritmo de Fatoração de Matrizes Não-negativas para Aprendizado positivo não-supervisionado	pt_BR
dc.type	Dissertação	pt_BR
dc.subject.keyword	Classificação de texto	pt_BR
dc.subject.keyword	Positive Unlabeled Learning (PUL)	pt_BR
dc.subject.keyword	Aprendizagem de máquina	pt_BR
dc.subject.keyword	Fatoração de Matriz Não-Negativa	pt_BR
dc.rights.license	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.	pt_BR
dc.description.abstract1	The data labeling for machine learning models training is more and more impracticable, in a manual way, due to the high volume of data available and that is continuously produced. So, the current research stick to the analysis and investigation of Positive Unlabeled Learning (PUL) problem solving techniques, which can produces satisfactory classification performance, even having a small portion of data labeled. In this work, a structural adaptation to the Non-Negative Matrix Factorization (NMF) algorithm applied to PUL, denominated NMFPUL, is proposed in order to enhance the performance of text data classification. NMF is a technique used for matrix factorization and usually used to reduce dimensionality. This research applies the algorithm proposed in several text datasets, containing thousands of documents and terms, considering different amount of labeled data, varying from 1 to 30 labeled documents on the positive class. For the smallest datasets, the proposed algorithm had performance of classification close to those other state-of-the-art techniques, while, on larger datasets, the performance of NMFPUL stood out, having a 10% to 30% over other techniques, having the biggest difference when there are less quantity of labeled documents. The use of NMF involves applying a objective function to converge the matrix document-term to the product of document-topic and topic-term matrices. Those convergence techniques could be used in deep learning methods, unrolling the algorithm iterations into layers of the network. So, also, in this work, a variation of NMF for deep learning, the Deep Non-Negative Matrix Factorization or Deep NMF, is developed and applied to PU data, to compare with others state-ofthe-art techniques in order to identify improvements to the performance of textual data classification.	pt_BR
dc.description.unidade	Instituto de Ciências Exatas (IE)	pt_BR
dc.description.unidade	Departamento de Ciência da Computação (IE CIC)	pt_BR
dc.description.ppg	Programa de Pós-Graduação em Informática	pt_BR
Aparece nas coleções:	Teses, dissertações e produtos pós-doutorado