Métodos estatísticos em aprendizado de máquinas para problemas de classificação

Azevêdo, Luana Lúcia Alves de

Registro completo de metadados

Campo DC	Valor	Idioma
dc.contributor.advisor	Silva, Cibele Queiroz da	-
dc.contributor.author	Azevêdo, Luana Lúcia Alves de	-
dc.date.accessioned	2018-11-09T21:25:30Z	-
dc.date.available	2018-11-09T21:25:30Z	-
dc.date.issued	2018-11-09	-
dc.date.submitted	2018-06-29	-
dc.identifier.citation	AZEVÊDO, Luana Lúcia Alves de. Métodos estatísticos em aprendizado de máquinas para problemas de classificação. 2018. x, 131 f., il. Dissertação (Mestrado em Estatística)—Universidade de Brasília, Brasília, 2018.	pt_BR
dc.identifier.uri	http://repositorio.unb.br/handle/10482/33025	-
dc.description	Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Estatística, 2018.	pt_BR
dc.description.abstract	As técnicas de aprendizado de máquina são amplamente utilizadas em tarefas de classificação de dados. Neste trabalho, são apresentados três métodos de aprendizagem supervisionadas que são adequadas à classificação de indivíduos. Estes métodos foram aplicados a dois conjuntos de dados, com características distintas, e realizados estudos de simulação para comparações entre os resultados. O método RDA destacou-se por obter o melhor desempenho de classificação em dados massivos e caso de n n p. Por sua vez, as técnicas FA e SVM obtiveram o melhor desempenho quando aplicadas ao conjunto de dados em que nop. As técnicas de validação cruzada (VC) são úteis para a definição dos valores ótimos dos hiper-parâmetros dos modelos. Neste trabalho utilizou-se três técnicas de VC: Stratified Cross Validate (SCV), Leave-One-Out Cross Validation (LOOCV) e Shuffle and Split (SS). Para as comparações entre os resultados foram realizadas diversas análises, dentre elas, gráficos das curvas ROC, taxas de má classificação e EQMs. A avaliação final, utilizada para a escolha do melhor método de classificação, deu-se por meio do Erro Médio de Teste (Average Test Error - AVTE). As simulações e análises foram realizadas utilizando o software R.	pt_BR
dc.language.iso	Português	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.title	Métodos estatísticos em aprendizado de máquinas para problemas de classificação	pt_BR
dc.type	Dissertação	pt_BR
dc.subject.keyword	Aprendizagem de máquina	pt_BR
dc.subject.keyword	Validação cruzada	pt_BR
dc.subject.keyword	Análise discriminante	pt_BR
dc.subject.keyword	Florestas aleatórias	pt_BR
dc.subject.keyword	Classificação de objetos	pt_BR
dc.subject.keyword	Máquinas de vetores de suporte	pt_BR
dc.rights.license	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.	pt_BR
dc.contributor.advisorco	Fokoué, Ernest	-
dc.description.abstract1	Machine learning techniques are widely used in data classification tasks. In this paper, we present three supervised learning methods that are suitable for the classification of individuals. These methods were applied to two sets of data, with different characteristics, and simulation studies were carried out to compare the results. The RDA method was distinguished by obtaining the best performance of classification in massive data and case of n n p. On the other hand, the techniques FA and SVM obtained the best performance when applied to the dataset where n o p. Cross-validation (VC) techniques are useful for defining the optimum values of the hyper-parameters of the models. In this work three VC techniques were used: Stratified Cross Validate (SCV), Leave-One-Out Cross Validation (LOOCV) and Shuffle and Split (SS). For the comparisons between the results, several analyzes were carried out, among them, graphs of ROC curves, misclassification rates and EQMs. The final evaluation, used to choose the best classification method, was done through the Average Test Error (AVTE). Simulations and analyzes were performed using software R.	pt_BR
dc.description.unidade	Instituto de Ciências Exatas (IE)	pt_BR
dc.description.unidade	Departamento de Estatística (IE EST)	pt_BR
dc.description.ppg	Programa de Pós-Graduação em Estatística	pt_BR
Aparece nas coleções:	Teses, dissertações e produtos pós-doutorado