Aplicação de técnicas de machine learning na análise de contratos de empréstimos comerciais para empresas do segmento de crédito comercial atacado

Ferreira, Sabrina Alencar

Veuillez utiliser cette adresse pour citer ce document : http://repositorio2.unb.br/jspui/handle/10482/44128

Fichier(s) constituant ce document :

Fichier	Description	Taille	Format
2022_SabrinaAlencarFerreira_PARCIAL.pdf		7,57 MB	Adobe PDF	Voir/Ouvrir

Titre:	Aplicação de técnicas de machine learning na análise de contratos de empréstimos comerciais para empresas do segmento de crédito comercial atacado
Auteur(s):	Ferreira, Sabrina Alencar
Assunto::	Aprendizagem de máquina Crédito comercial Capital de giro Poder preditivo
Date de publication:	6-jui-2022
Data de defesa::	28-avr-2022
Référence bibliographique:	FERREIRA, Sabrina Alencar. Aplicação de técnicas de machine learning na análise de contratos de empréstimos comerciais para empresas do segmento de crédito comercial atacado. 2022. 127 f., il. Dissertação (Mestrado em Economia) — Universidade de Brasília, Brasília, 2022.
Résumé:	O presente estudo aplica técnicas supervisionadas de Machine Learning (ML) e compara sua performance em problemas de classificação para predizer respostas de interesse para o processo de monitoramento de contratos de crédito comercial no segmento atacado, modalidade de capital de giro. Verificou-se a necessidade de resolver a problemática das classes desbalanceadas, portanto Subamostras aleatórios simples foram geradas de modo que os grupos de análises estivessem balanceados em torno da variável resposta. Além de utilizar técnicas tradicionais de classificação, tais como Logistic Regression, este estudo explorou as técnicas de Decision Tree, Bagging Classifiser, Random Forest, AdaBoost e Gradiente Boosting para a previsão do atraso, ou seja, inadimplência pelo não pagamento das prestações devidas em prazo superior ou igual a 30, 60 e 90 dias. Além de features/variáveis relacionadas aos contratos e aos tomadores de crédito, foram inseridas variáveis macroeconômicas no aprendizado nos modelos, pois modelos que observam estas variáveis têm produzido melhores preditores para o risco de crédito. Para o subgrupo "Atraso ≥ 30 dias", o melhor desempenho foi atribuído ao algoritmo Random Forest que demonstrou uma predição aceitável, acima do nível de inadimplência da carteira analisada. Já para subgrupo "Atraso ≥ 60 dias"não foi possível identificar qual o melhor algoritmo, pois cada Subamostra gerada diversificou o desempenho dos modelos, já o subgrupo "Atraso ≥ 90 dias"dias apresentou algoritmos com os melhores desempenho dentro as simulações realizadas com destaque para o algoritmo Adaboost. A aplicação de técnicas para seleção de variáveis permitiu reduzir o dataset utilizado em cada simulação, o que implicou em melhor desempenho mais os modelos.
Abstract:	The present study applies supervised Machine Learning (ML) techniques and compares their performance in classification problems to predict responses of interest for the process of monitoring commercial credit contracts in the wholesale segment, working capital modality. The need to solve the problem of unbalanced classes was verified, therefore Simple random subsamples were generated so that the analysis groups were balanced around the response variable. In addition to using traditional classification techniques, such as Logistic Regression, this study explored Decision Tree, Bagging Classifiser, Random Forest, AdaBoost and Gradient Boosting techniques for the prediction of arrears, i.e., default by non-payment of installments due in 30, 60 and 90 days or more. In addition to eatures/variables related to contracts and borrowers, macroeconomic variables were inserted into the learning in the models, as models that observe these variables have produced better predictors for credit risk. For the subgroup "Delay ≥ 30 days", the best performance was attributed to the Random Forest algorithm, which demonstrated an acceptable prediction, above the default level of the analyzed portfolio. For the subgroup "Delay ≥ 60 days" it was not possible to identify the best algorithm, since each subsample generated diversified the models’ performance, but the subgroup "Delay ≥ 90 days" presented algorithms with the best performances in the simulations performed, especially the Adaboost algorithm. The application of techniques for variable selection allowed the reduction of the dataset used in each simulation, which implied a better performance for the models.
Description:	Dissertação (mestrado) — Universidade de Brasília, Faculdade de Economia, Administração e Contabilidade, Departamento de Economia, Programa de Pós-Graduação em Ciências Econômicas, 2022. Texto parcialmente liberado pelo autor. Conteúdo restrito: Capítulo 2.
Licença::	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
Collection(s) :	Teses, dissertações e produtos pós-doutorado

Affichage détaillé " class="statisticsLink btn btn-primary" href="/jspui/handle/10482/44128/statistics">