Forecasting inflation in Brazil with machine learning methods : integrating shrinkage method for variable selection with Shapley value interpretation

Pereira, Felipe Gonçalves

Registro completo de metadados

Campo DC	Valor	Idioma
dc.contributor.advisor	Souza, João Gabriel de Moraes	pt_BR
dc.contributor.author	Pereira, Felipe Gonçalves	pt_BR
dc.date.accessioned	2024-11-19T16:12:53Z	-
dc.date.available	2024-11-19T16:12:53Z	-
dc.date.issued	2024-11-18	-
dc.date.submitted	2024-05-20	-
dc.identifier.citation	PEREIRA, Felipe Gonçalves. Forecasting inflation in Brazil with machine learning methods : integrating shrinkage method for variable selection with Shapley value interpretation. 2024. 109 f., il. Dissertação (Mestrado Profissional em Computação Aplicada) — Universidade de Brasília, Brasília, 2024.	pt_BR
dc.identifier.uri	http://repositorio.unb.br/handle/10482/50957	-
dc.description	Dissertação (mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2024.	pt_BR
dc.description.abstract	Esta dissertação busca identificar o modelo de apredizagem de máquina (ML) não linear mais eficaz na previsão do Índice de Preços ao Consumidor (IPCA) mensal usando um método de seleção prévio de variáveis baseado em modelo de encolhimento para escolher os preditores mais significantes. Além disso, o estudo visou analisar os resultados da previsão usando um método de inteligência artificial explicável (XAI) indepedente de modelo chamado Shapely Value, que pode fornecer informações sobre as previsões do modelo de ML não linear. Foi utilizado um conjunto de dados abrangendo o período de agosto de 2010 a janeiro de 2024, com 156 preditores. A partir dessa base de dados, foi realizada a seleção dos preditores mais significativos através de um loop que aplica a eliminação recursiva de variáveis (Recursive Feature Elimination - RFE) utilizando o modelo ElasticNet em cada mês do período de treinamento. Ao todo, foram realizadas 156 execuções do algoritmo de RFE, isolando os 30 preditores mais frequentes, aplicados aos modelos não lineares de ML. Os resultados das previsões evidenciaram o Gradient Boosting como o modelo mais eficaz, apresentando os melhores indicadores de acurácia e significância no teste de hipótese. A incorporação do Shapley Value aprimorou significativamente a interpretabilidade do modelo vencedor, oferencendo insights sobre as contribuições individuais de variáveis e mitigando a natureza de "caixa preta" dos modelos de ML. Os resultados evidenciaram a importância dos proxies para a variável-alvo nas previsões com contribuições significativas quando comparados com outros indicadores econômicos utilizados.	pt_BR
dc.language.iso	Português	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.title	Forecasting inflation in Brazil with machine learning methods : integrating shrinkage method for variable selection with Shapley value interpretation	pt_BR
dc.title.alternative	Previsão de inflação no Brasil com métodos de aprendizado de máquina : integrando método de encolhimento para seleção de variáveis com interpretação por meio do valor de Shapley	pt_BR
dc.type	Dissertação	pt_BR
dc.subject.keyword	Inflação - previsão	pt_BR
dc.subject.keyword	Inflação	pt_BR
dc.subject.keyword	Aprendizagem de máquina	pt_BR
dc.subject.keyword	Seleção de variáveis	pt_BR
dc.subject.keyword	Inteligência Artificial Explicável (XAI)	pt_BR
dc.rights.license	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.	pt_BR
dc.description.abstract1	This dissertation seeks to identify the most effective non-linear machine learning (ML) model for forecasting the monthly Brazilian Consumer Price Index (IPCA). It employs a prior feature selection (variable selection) method based on a shrinkage model to choose the most significant predictors. Additionally, the study aims to analyze prediction results using a model-agnostic explainable artificial intelligence (XAI) method called Shapley Value, which provides insights into non-linear model predictions. A dataset covering the period from August 2010 to January 2024 was utilized, containing 156 predictors. From this database, the most significant predictors were selected through a recursive feature elimination (RFE) process using the ElasticNet model for each month of the training period. In total, 156 executions of the RFE algorithm were performed, isolating the 30 most frequent predictors to be applied to non-linear ML models. The prediction results indicated that Gradient Boosting was the most effective model, demonstrating the best accuracy and significance indicators in hypothesis testing. The incorporation of Shapley Value significantly enhanced the interpretability of the winning model, providing insights into the contributions of individual variables and mitigating the “black box” nature of ML models. The results highlighted the importance of proxies for the target variable in predictions, with significant contributions compared to other economic indicators used.	pt_BR
dc.description.unidade	Instituto de Ciências Exatas (IE)	pt_BR
dc.description.unidade	Departamento de Ciência da Computação (IE CIC)	pt_BR
dc.description.ppg	Programa de Pós-Graduação em Computação Aplicada, Mestrado Profissional	pt_BR
Aparece nas coleções:	Teses, dissertações e produtos pós-doutorado