Skip navigation
Veuillez utiliser cette adresse pour citer ce document : http://repositorio.unb.br/handle/10482/55028
Fichier(s) constituant ce document :
Fichier Description TailleFormat 
IanCaetanoQuadrado_TESE.pdf2,57 MBAdobe PDFVoir/Ouvrir
Titre: Machine learning em saúde pública : variáveis-chave associadas ao acidente vascular cerebral na população brasileira
Auteur(s): Quadrado, Ian Caetano
Orientador(es):: Carmo, Jake Carvalho do
Coorientador(es):: Nascimento, Francisco Assis de Oliveira
Assunto:: Acidente vascular cerebral
Pesquisa Nacional de Saúde (PNS)
Aprendizado de máquina
Desigualdades regionais
Vigilância em saúde
Date de publication: 23-jui-2026
Référence bibliographique: QUADRADO, Ian Caetano. Machine learning em saúde pública : variáveis-chave associadas ao acidente vascular cerebral na população brasileira. 2025. 160 f., il. Tese (Doutorado em Educação Física) — Universidade de Brasília, Brasília, 2025.
Résumé: O Acidente Vascular Cerebral (AVC) permanece como uma das principais causas de mortalidade e incapacidade no Brasil, com forte heterogeneidade territorial e determinantes que extrapolam o clínico-biológico. Métodos tradicionais capturam parcialmente essa complexidade; por outro lado, abordagens de ciência de dados — em especial o aprendizado de máquina — permitem integrar múltiplas dimensões e revelar padrões latentes úteis à vigilância e à gestão. Nesse contexto, o objetivo desta tese foi verificar a viabilidade de hierarquizar e predizer a presença autorreferida de AVC a partir de marcadores sociodemográficos, clínicos, funcionais, comportamentais e de uso de serviços, utilizando técnicas de aprendizado de máquina aplicadas aos microdados da PNS2019. A base analítica compreendeu 293.727 respondentes e 1.114 variáveis/categorias após limpeza, recodificação e padronização; o desfecho foi definido pela pergunta de diagnóstico médico prévio de AVC. As preditoras cobriram blocos de características individuais e domiciliares (idade, renda per capita, composição e densidade domiciliar), condições e comportamentos de saúde (HAS/DM autorreferidos, tabagismo, álcool, alimentação), funcionalidade e reabilitação (fisioterapia, limitações nas atividades, uso de dispositivos), uso de serviços e prevenção (consultas, exames de colesterol/glicemia, medicamentos contínuos) e temas contemporâneos (sexualidade/reprodução, violência/cuidado informal, digitalização do cotidiano). O treinamento foi conduzido por Unidade da Federação para capturar especificidades locais, tendo a Random Forest como modelo principal para estimar importância de variáveis; A avaliação interna baseou-se no erro out-of-bag (OOB) e na estabilidade do ranking em rodagens repetidas. Dois níveis analíticos foram considerados: top-10 variáveis por estado e top-30 para leitura contextual ampliada. Os resultados evidenciaram um “núcleo nacional” comum, demonstrando a estabilidade do processo — idade, renda domiciliar per capita e perguntas relacionadas diretamente com AVC (faz dieta por conta do AVC? Faz fisioterapia por conta do AVC?) — e, simultaneamente, peculiaridades locais que refletem contextos regionais: padrões alimentares e acesso (Norte), climatério/vida sexual e planejamento reprodutivo (Sul/Sudeste), organização do cuidado e reabilitação (Sudeste/Sul), violência e cuidado informal (Centro-Oeste/Nordeste) e determinantes associados à digitalização do cotidiano (tempo de telas, telessaúde). Esses achados sugerem vias diretas (cardiometabólicas e de manejo pós-evento) e indiretas (acesso e continuidade do cuidado, tempo e trabalho, estrutura domiciliar) na explicação do desfecho, reforçando a natureza multifatorial e socialmente mediada do AVC. Do ponto de vista translacional, a abordagem mostrou capacidade de priorizar preditores com valor programático; iluminar desigualdades territoriais com granularidade estadual; e aproximar vigilância, clínica e gestão, oferecendo insumos para prevenção e linhas de cuidado pós-AVC (APS forte com controle de HAS/DM, reabilitação oportuna, suporte ao cuidador e estratégias sobre determinantes sociais). Como limitações, destacam-se o desenho transversal e o desfecho autorreferido, que limitam inferências causais e podem incorporar viés de informação; além disso, parte das variáveis de alta importância reflete condições pós-evento, sendo particularmente úteis à vigilância e ao planejamento, mais do que à prognosticação individual. Conclusão: é viável e útil empregar aprendizado de máquina sobre a PNS2019 para mapear fatores associados ao AVC com granularidade estadual, produzindo evidências acionáveis para o SUS e abrindo agenda para validação externa (bases clínicas/administrativas), análises longitudinais e monitoramento temporal em novas edições de inquéritos.
Abstract: Stroke (Cerebrovascular Accident, CVA) remains one of the leading causes of mortality and disability in Brazil, marked by strong territorial heterogeneity and determinants that go beyond clinical-biological factors. Traditional methods capture this complexity only partially; on the other hand, data science approaches—especially machine learning—allow for the integration of multiple dimensions and the unveiling of latent patterns that are useful for surveillance and management. In this context, the objective of this thesis was to assess the feasibility of ranking and predicting self-reported stroke based on sociodemographic, clinical, functional, behavioral, and healthcare utilization markers, using machine learning techniques applied to microdata from the 2019 National Health Survey (PNS-2019). The analytical base comprised 293,727 respondents and 1,114 variables/categories after cleaning, recoding, and standardization; the outcome was defined by the question on prior medical diagnosis of stroke. Predictors spanned blocks of individual and household characteristics (age, per capita income, household composition and density), health conditions and behaviors (self-reported hypertension/diabetes, smoking, alcohol, diet), functionality and rehabilitation (physical therapy, activity limitations, device use), healthcare utilization and prevention (consultations, cholesterol/glucose testing, continuous medication), and contemporary issues (sexuality/reproduction, violence/informal care, digitalization of daily life). Training was conducted by Federative Unit to capture local specificities, with Random Forest as the main model to estimate variable importance. Internal evaluation was based on out-of-bag (OOB) error and ranking stability across repeated runs. Two analytical levels were considered: top-10 variables per state and top-30 for broader contextual interpretation. The results revealed a common “national core,” demonstrating process stability—age, per capita household income, and stroke-specific questions (e.g., “Do you follow a diet because of stroke?” “Do you attend physical therapy because of stroke?”)—while also highlighting local peculiarities reflecting regional contexts: dietary patterns and access (North), menopause/sexual life and reproductive planning (South/Southeast), organization of care and rehabilitation (Southeast/South), violence and informal care (Midwest/Northeast), and determinants related to the digitalization of daily life (screen time, telehealth). These findings suggest both direct pathways (cardiometabolic and post-event management) and indirect ones (access and continuity of care, time and work demands, household structure) in explaining the outcome, reinforcing the multifactorial and socially mediated nature of stroke. From a translational perspective, the approach demonstrated the ability to prioritize predictors with programmatic value; shed light on territorial inequalities with state-level granularity; and bridge surveillance, clinical practice, and management, providing insights for prevention and post-stroke care pathways (strong PHC with hypertension/diabetes control, timely rehabilitation, caregiver support, and strategies addressing social determinants). As limitations, the cross-sectional design and self-reported outcome restrict causal inferences and may introduce information bias; moreover, some of the highimportance variables reflect post-event conditions, being particularly useful for surveillance and planning rather than for individual prognostication. Conclusion: It is feasible and useful to apply machine learning to PNS-2019 data to map stroke-associated factors with state-level granularity, generating actionable evidence for the Brazilian Unified Health System (SUS) and opening an agenda for external validation (clinical/administrative datasets), longitudinal analyses, and temporal monitoring in future survey editions.
metadata.dc.description.unidade: Faculdade de Educação Física (FEF)
Description: Tese (Doutorado) — Universidade de Brasília, Faculdade de Educação Física, Programa de Pós-Graduação em Educação Física, 2025.
metadata.dc.description.ppg: Programa de Pós-Graduação em Educação Física
Collection(s) :Teses, dissertações e produtos pós-doutorado

Affichage détaillé " class="statisticsLink btn btn-primary" href="/handle/10482/55028/statistics">



Tous les documents dans DSpace sont protégés par copyright, avec tous droits réservés.