Skip navigation
Use este identificador para citar ou linkar para este item: http://repositorio.unb.br/handle/10482/51222
Arquivos associados a este item:
Arquivo TamanhoFormato 
LucasSouzaSampaioNunes_DISSERT.pdf2,28 MBAdobe PDFVisualizar/Abrir
Registro completo de metadados
Campo DCValorIdioma
dc.contributor.advisorFaleiros, Thiago de Paulopt_BR
dc.contributor.authorNunes, Lucas Souza Sampaiopt_BR
dc.date.accessioned2024-12-18T17:48:00Z-
dc.date.available2024-12-18T17:48:00Z-
dc.date.issued2024-12-18-
dc.date.submitted2024-09-02-
dc.identifier.citationNUNES, Lucas Souza Sampaio. Algoritmo de Fatoração de Matrizes Não-negativas para Aprendizado positivo não-supervisionado. 2024. 103 f., il. Dissertação (Mestrado em Informática) — Universidade de Brasília, Brasília, 2024.pt_BR
dc.identifier.urihttp://repositorio.unb.br/handle/10482/51222-
dc.descriptionDissertação (Mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2024.pt_BR
dc.description.abstractA rotulagem de dados para treinamento de modelos de aprendizado de máquina está se tornando cada vez mais inviável devido ao alto volume de dados disponíveis e continuamente sendo produzidos. Portanto, pesquisas atuais se concentram na análise e investigação de técnicas de resolução do problema de Positive Unlabeled Learning (PUL), que podem produzir um desempenho satisfatório de classificação, mesmo com uma pequena porção de dados rotulados. Neste trabalho, é proposta uma adaptação estrutural do algoritmo de Non-negative Matrix Factorization (NMF), aplicada a problemas de PUL e denominada NMFPUL, a fim de aprimorar o desempenho da classificação de dados textuais. O NMF é uma técnica usada para a fatoração de matrizes e geralmente é utilizada para redução de dimensionalidade. Além disso, foi investigada uma variação do algoritmo NMF no aprendizado profundo, o Deep Non-Negative Matrix Factorization ou Deep NMF. Esta pesquisa aplica o algoritmo proposto em vários conjuntos de dados textuais, contendo milhares de documentos e termos, considerando diferentes quantidades de dados rotulados, variando de 1 a 30 documentos rotulados na classe positiva. Para os conjuntos de dados menores, o algoritmo proposto apresentou desempenho de classificação próximo às outras técnicas de ponta, enquanto, nos conjuntos de dados maiores, o desempenho do NMFPUL se destacou, obtendo uma melhoria de 10% a 30% em relação às outras técnicas, sendo a maior diferença observada quando há uma menor quantidade de documentos rotulados. O uso do NMF envolve a aplicação de uma função objetivo para convergir a matriz documentopalavra ao produto das matrizes documento-tópico e tópico-palavra. Essas técnicas de convergência podem ser utilizadas em métodos de aprendizado profundo, desdobrando as iterações do algoritmo em camadas da rede.pt_BR
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES).pt_BR
dc.language.isoPortuguêspt_BR
dc.rightsAcesso Abertopt_BR
dc.titleAlgoritmo de Fatoração de Matrizes Não-negativas para Aprendizado positivo não-supervisionadopt_BR
dc.typeDissertaçãopt_BR
dc.subject.keywordClassificação de textopt_BR
dc.subject.keywordPositive Unlabeled Learning (PUL)pt_BR
dc.subject.keywordAprendizagem de máquinapt_BR
dc.subject.keywordFatoração de Matriz Não-Negativapt_BR
dc.rights.licenseA concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.pt_BR
dc.description.abstract1The data labeling for machine learning models training is more and more impracticable, in a manual way, due to the high volume of data available and that is continuously produced. So, the current research stick to the analysis and investigation of Positive Unlabeled Learning (PUL) problem solving techniques, which can produces satisfactory classification performance, even having a small portion of data labeled. In this work, a structural adaptation to the Non-Negative Matrix Factorization (NMF) algorithm applied to PUL, denominated NMFPUL, is proposed in order to enhance the performance of text data classification. NMF is a technique used for matrix factorization and usually used to reduce dimensionality. This research applies the algorithm proposed in several text datasets, containing thousands of documents and terms, considering different amount of labeled data, varying from 1 to 30 labeled documents on the positive class. For the smallest datasets, the proposed algorithm had performance of classification close to those other state-of-the-art techniques, while, on larger datasets, the performance of NMFPUL stood out, having a 10% to 30% over other techniques, having the biggest difference when there are less quantity of labeled documents. The use of NMF involves applying a objective function to converge the matrix document-term to the product of document-topic and topic-term matrices. Those convergence techniques could be used in deep learning methods, unrolling the algorithm iterations into layers of the network. So, also, in this work, a variation of NMF for deep learning, the Deep Non-Negative Matrix Factorization or Deep NMF, is developed and applied to PU data, to compare with others state-ofthe-art techniques in order to identify improvements to the performance of textual data classification.pt_BR
dc.description.unidadeInstituto de Ciências Exatas (IE)pt_BR
dc.description.unidadeDepartamento de Ciência da Computação (IE CIC)pt_BR
dc.description.ppgPrograma de Pós-Graduação em Informáticapt_BR
Aparece nas coleções:Teses, dissertações e produtos pós-doutorado

Mostrar registro simples do item Visualizar estatísticas



Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.