| Campo DC | Valor | Lengua/Idioma |
| dc.contributor.advisor | Carmo, Jake Carvalho do | - |
| dc.contributor.author | Quadrado, Ian Caetano | - |
| dc.date.accessioned | 2026-06-23T18:45:24Z | - |
| dc.date.available | 2026-06-23T18:45:24Z | - |
| dc.date.issued | 2026-06-23 | - |
| dc.date.submitted | 2025-10-24 | - |
| dc.identifier.citation | QUADRADO, Ian Caetano. Machine learning em saúde pública : variáveis-chave associadas ao acidente vascular cerebral na população brasileira. 2025. 160 f., il. Tese (Doutorado em Educação Física) — Universidade de Brasília, Brasília, 2025. | pt_BR |
| dc.identifier.uri | http://repositorio.unb.br/handle/10482/55028 | - |
| dc.description | Tese (Doutorado) — Universidade de Brasília, Faculdade de Educação Física, Programa de Pós-Graduação em Educação Física, 2025. | pt_BR |
| dc.description.abstract | O Acidente Vascular Cerebral (AVC) permanece como uma das principais
causas de mortalidade e incapacidade no Brasil, com forte heterogeneidade territorial
e determinantes que extrapolam o clínico-biológico. Métodos tradicionais capturam
parcialmente essa complexidade; por outro lado, abordagens de ciência de dados —
em especial o aprendizado de máquina — permitem integrar múltiplas dimensões e
revelar padrões latentes úteis à vigilância e à gestão.
Nesse contexto, o objetivo desta tese foi verificar a viabilidade de hierarquizar
e predizer a presença autorreferida de AVC a partir de marcadores
sociodemográficos, clínicos, funcionais, comportamentais e de uso de serviços,
utilizando técnicas de aprendizado de máquina aplicadas aos microdados da PNS2019.
A base analítica compreendeu 293.727 respondentes e 1.114
variáveis/categorias após limpeza, recodificação e padronização; o desfecho foi
definido pela pergunta de diagnóstico médico prévio de AVC. As preditoras cobriram
blocos de características individuais e domiciliares (idade, renda per capita,
composição e densidade domiciliar), condições e comportamentos de saúde
(HAS/DM autorreferidos, tabagismo, álcool, alimentação), funcionalidade e
reabilitação (fisioterapia, limitações nas atividades, uso de dispositivos), uso de
serviços e prevenção (consultas, exames de colesterol/glicemia, medicamentos
contínuos) e temas contemporâneos (sexualidade/reprodução, violência/cuidado
informal, digitalização do cotidiano).
O treinamento foi conduzido por Unidade da Federação para capturar
especificidades locais, tendo a Random Forest como modelo principal para estimar
importância de variáveis; A avaliação interna baseou-se no erro out-of-bag (OOB) e
na estabilidade do ranking em rodagens repetidas. Dois níveis analíticos foram
considerados: top-10 variáveis por estado e top-30 para leitura contextual ampliada.
Os resultados evidenciaram um “núcleo nacional” comum, demonstrando a
estabilidade do processo — idade, renda domiciliar per capita e perguntas
relacionadas diretamente com AVC (faz dieta por conta do AVC? Faz fisioterapia por
conta do AVC?) — e, simultaneamente, peculiaridades locais que refletem contextos
regionais: padrões alimentares e acesso (Norte), climatério/vida sexual e
planejamento reprodutivo (Sul/Sudeste), organização do cuidado e reabilitação (Sudeste/Sul), violência e cuidado informal (Centro-Oeste/Nordeste) e determinantes
associados à digitalização do cotidiano (tempo de telas, telessaúde). Esses achados
sugerem vias diretas (cardiometabólicas e de manejo pós-evento) e indiretas (acesso
e continuidade do cuidado, tempo e trabalho, estrutura domiciliar) na explicação do
desfecho, reforçando a natureza multifatorial e socialmente mediada do AVC. Do
ponto de vista translacional, a abordagem mostrou capacidade de priorizar preditores
com valor programático; iluminar desigualdades territoriais com granularidade
estadual; e aproximar vigilância, clínica e gestão, oferecendo insumos para prevenção
e linhas de cuidado pós-AVC (APS forte com controle de HAS/DM, reabilitação
oportuna, suporte ao cuidador e estratégias sobre determinantes sociais).
Como limitações, destacam-se o desenho transversal e o desfecho
autorreferido, que limitam inferências causais e podem incorporar viés de informação;
além disso, parte das variáveis de alta importância reflete condições pós-evento,
sendo particularmente úteis à vigilância e ao planejamento, mais do que à
prognosticação individual.
Conclusão: é viável e útil empregar aprendizado de máquina sobre a PNS2019 para mapear fatores associados ao AVC com granularidade estadual,
produzindo evidências acionáveis para o SUS e abrindo agenda para validação
externa (bases clínicas/administrativas), análises longitudinais e monitoramento
temporal em novas edições de inquéritos. | pt_BR |
| dc.language.iso | por | pt_BR |
| dc.rights | Acesso Aberto | pt_BR |
| dc.title | Machine learning em saúde pública : variáveis-chave associadas ao acidente vascular cerebral na população brasileira | pt_BR |
| dc.type | Tese | pt_BR |
| dc.subject.keyword | Acidente vascular cerebral | pt_BR |
| dc.subject.keyword | Pesquisa Nacional de Saúde (PNS) | pt_BR |
| dc.subject.keyword | Aprendizado de máquina | pt_BR |
| dc.subject.keyword | Desigualdades regionais | pt_BR |
| dc.subject.keyword | Vigilância em saúde | pt_BR |
| dc.contributor.advisorco | Nascimento, Francisco Assis de Oliveira | - |
| dc.description.abstract1 | Stroke (Cerebrovascular Accident, CVA) remains one of the leading causes of
mortality and disability in Brazil, marked by strong territorial heterogeneity and
determinants that go beyond clinical-biological factors. Traditional methods capture
this complexity only partially; on the other hand, data science approaches—especially
machine learning—allow for the integration of multiple dimensions and the unveiling
of latent patterns that are useful for surveillance and management.
In this context, the objective of this thesis was to assess the feasibility of ranking
and predicting self-reported stroke based on sociodemographic, clinical, functional,
behavioral, and healthcare utilization markers, using machine learning techniques
applied to microdata from the 2019 National Health Survey (PNS-2019).
The analytical base comprised 293,727 respondents and 1,114
variables/categories after cleaning, recoding, and standardization; the outcome was
defined by the question on prior medical diagnosis of stroke. Predictors spanned
blocks of individual and household characteristics (age, per capita income, household
composition and density), health conditions and behaviors (self-reported
hypertension/diabetes, smoking, alcohol, diet), functionality and rehabilitation
(physical therapy, activity limitations, device use), healthcare utilization and prevention
(consultations, cholesterol/glucose testing, continuous medication), and contemporary
issues (sexuality/reproduction, violence/informal care, digitalization of daily life).
Training was conducted by Federative Unit to capture local specificities, with
Random Forest as the main model to estimate variable importance. Internal evaluation
was based on out-of-bag (OOB) error and ranking stability across repeated runs. Two
analytical levels were considered: top-10 variables per state and top-30 for broader
contextual interpretation.
The results revealed a common “national core,” demonstrating process
stability—age, per capita household income, and stroke-specific questions (e.g., “Do
you follow a diet because of stroke?” “Do you attend physical therapy because of
stroke?”)—while also highlighting local peculiarities reflecting regional contexts:
dietary patterns and access (North), menopause/sexual life and reproductive planning
(South/Southeast), organization of care and rehabilitation (Southeast/South), violence
and informal care (Midwest/Northeast), and determinants related to the digitalization
of daily life (screen time, telehealth). These findings suggest both direct pathways (cardiometabolic and post-event management) and indirect ones (access and
continuity of care, time and work demands, household structure) in explaining the
outcome, reinforcing the multifactorial and socially mediated nature of stroke. From a
translational perspective, the approach demonstrated the ability to prioritize predictors
with programmatic value; shed light on territorial inequalities with state-level
granularity; and bridge surveillance, clinical practice, and management, providing
insights for prevention and post-stroke care pathways (strong PHC with
hypertension/diabetes control, timely rehabilitation, caregiver support, and strategies
addressing social determinants).
As limitations, the cross-sectional design and self-reported outcome restrict
causal inferences and may introduce information bias; moreover, some of the highimportance variables reflect post-event conditions, being particularly useful for
surveillance and planning rather than for individual prognostication.
Conclusion: It is feasible and useful to apply machine learning to PNS-2019
data to map stroke-associated factors with state-level granularity, generating
actionable evidence for the Brazilian Unified Health System (SUS) and opening an
agenda for external validation (clinical/administrative datasets), longitudinal analyses,
and temporal monitoring in future survey editions. | pt_BR |
| dc.description.unidade | Faculdade de Educação Física (FEF) | pt_BR |
| dc.description.ppg | Programa de Pós-Graduação em Educação Física | pt_BR |
| Aparece en las colecciones: | Teses, dissertações e produtos pós-doutorado
|