http://repositorio.unb.br/handle/10482/49963
File | Description | Size | Format | |
---|---|---|---|---|
JosueNascimentoDaSilva_DISSERT.pdf | 35,56 MB | Adobe PDF | View/Open |
Title: | Geração automática de laudos em exames de raios-x de torax com explicabilidade baseada em atenção aplicada a uma rede neural recorrente |
Authors: | Silva, Josué Nascimento da |
metadata.dc.contributor.email: | josuetk63@gmail.com |
Orientador(es):: | Mendes, Cristiano Jacques Miosso Rodrigues |
Assunto:: | Radiologia Geração textual Inteligência artificial |
Issue Date: | 16-Aug-2024 |
Data de defesa:: | 29-Sep-2023 |
Citation: | SILVA, Josué Nascimento da. Geração automática de laudos em exames de raios-x de torax com explicabilidade baseada em atenção aplicada a uma rede neural recorrente. 2023. 77 f., il. Dissertação (Mestrado em Engenharia Biomédica) — Brasília, 2023. |
Abstract: | Problemas específicos relacionados à análise de exames radiológicos tˆem sido amplamente documentados por pelo menos 50 anos. Entre as principais circunstˆancias que levam a erros de diagnóstico, destacam-se avaliações realizadas por médicos em estágios iniciais de carreira,comunicação inadequada entre membros da equipe, jornadas noturnas, mudanças de turno e raciocínio falho.Neste sentido, o uso de inteligˆencia artificial como ferramenta para tomada de decisão e diagnóstico tem o potencial de auxiliar os profissionais de saúde a obter maior precisão e sensibilidade em suas análises, melhorando o tratamento dos pacientes. Nesse contexto,o objetivo deste trabalho é desenvolver uma arquitetura de modelo de inteligˆencia artificial do tipo encoder-decoder capaz de gerar automaticamente laudos médicos com informações específicas extraídas das imagens dos exames. A ideia é que essas informações nas imagens reflitam os aspectos que orientam as decisões e análises indicadas no texto do laudo, representando uma contribuição em relação às abordagens predominantes na literatura, que geralmente se limitam apenas ao texto em si.Com esse objetivo, foram utilizadas imagens de raio-X juntamente com seus respectivos laudos. Foi desenvolvida uma rede encoder baseada na arquitetura Densenet 121 para extrair características dos exames, que são posteriormente traduzidas por um decoder baseado em transformers, permitindo aprender as relações semˆanticas entre as palavras, juntamente com a técnica de long short term memory Long Short Term Memory (LSTM) para a geração dos laudos. Para relacionar as regiões das imagens com as palavras geradas, foi aplicada a técnic de spatial attention, que captura as regiões mais relevantes para a produção de palavras específicas pelo modelo. Esse processo foi aplicado em cinco condições: lung hypoinflation, lung hyperdistention, cardiomegaly, aorta tortuous e spine degenerative, resultando em cinco redes encoder-decoder. Durante o treinamento, foram obtidos valores de F1-score de 76%e área sob a curva (AUC) de 80% para o encoder. Os encoders foram avaliados utilizando validação cruzada para verificar sua capacidade de generalização em relação aos dados utilizados. Quanto ao decoder, na produção dos laudos, foram avaliados utilizando a métrica recall-oriented understudy for gisting evaluation (ROUGE), obtendo valores médios de 0.32.Conclui-se que a arquitetura proposta é capaz de gerar laudos e marcações nas imagens dos exames, podendo servir como suporte para tomadas de decisões médicas. No entanto,é importante ressaltar uma limitação deste trabalho, que está relacionada ao escopo das patologias abordadas. A rede desenvolvida demonstrou eficácia nas condições específicas para as quais foi treinada, ou seja, lung hypoinflation, lung hyperdistention, cardiomegaly, aorta tortuous, e spine degenerative. No entanto, é fundamental reconhecer que a aplicabilidade do modelo permanece restrita a essas condições e não se estende a uma variedade mais ampla de patologias médicas. Esta limitação deve ser cuidadosamente ponderada ao avaliar os resultados e ao considerar a aplicação do modelo em ambientes clínicos. Portanto, um dos principais objetivos em trabalhos futuros é a expansão do escopo das patologias abordadas, visando tornar o modelo mais abrangente e versátil em sua capacidade de auxiliar os profissionais de saúde em diagnósticos médicos diversos. |
Abstract: | Specific issues related to the analysis of radiological exams have been extensivelydocumented for at least 50 years. Among the primary circumstances contributing todiagnostic errors are evaluations conducted by early-career physicians, inadequate communication among team members, night shifts, shift changes, and flawed reasoning.In this context, the use of artificial intelligence as a tool for decision-making anddiagnosis has the potential to assist healthcare professionals in achieving greater accuracyand sensitivity in their analyses, thereby improving patient treatment. In this regard, the aim of this work is to develop an artificial intelligence model architecture of theencoder-decoder type capable of automatically generating medical reports with specific information extracted from exam images. The idea is for the information in the imagesto reflect the aspects guiding the decisions and analyses indicated in the report text,representing a contribution compared to prevailing approaches in the literature, whichtypically focus solely on the text itself.To achieve this goal, X-ray images were used alongside their respective reports. Anencoder network based on the Densenet 121 architecture was developed to extract featuresfrom the exams, which are subsequently translated by a decoder based on transformers,allowing the model to learn the semantic relationships between words, along with thelong short-term memory (LSTM) technique for report generation.To link image regions with generated words, the spatial attention technique wasapplied, capturing the most relevant regions for producing specific words by the model.This process was applied under five conditions: lung hypoinflation, lung hyperdistention,cardiomegaly, aorta tortuous, and spine degenerative, resulting in five encoder-decodernetworks. During training, F1-score values of 76% and an area under the curve (AUC) of80% were achieved for the encoder. The encoders were evaluated using cross-validation toassess their generalization capacity with respect to the data used. Regarding the decoder,for report generation, evaluations were performed using the recall-oriented understudyfor gisting evaluation (ROUGE) metric, obtaining average values of 0.32.In conclusion, the proposed architecture is capable of generating reports and annotations on exam images, potentially serving as a support tool for medical decision-making.However, it is important to highlight a limitation of this work, which is related to thescope of the addressed pathologies. The developed network has demonstrated effectiveness in specific conditions for which it was trained, namely lung hypoinflation, lunghyperdistention, cardiomegaly, aorta tortuous, and spine degenerative. However, it is essential to recognize that the model’s applicability remains restricted to these conditionsand does not extend to a broader range of medical pathologies. This limitation should. |
metadata.dc.description.unidade: | Faculdade UnB Gama (FGA) |
Description: | Dissertação (mestrado) — Universidade de Brasília, Faculdade UnB Gama, Programa de Pós-Graduação em Engenharia Biomédica, 2023. |
metadata.dc.description.ppg: | Programa de Pós-Graduação em Engenharia Biomédica |
Appears in Collections: | Teses, dissertações e produtos pós-doutorado |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.