원문정보
Comparative Study of Deep Learning-based Automatic Generation of Radiology Report
초록
영어
Research on deep learning-based automatic generation of radiology reports has seen significant advancements in recent years, with a primary focus on the integration of vision and language models. These advancements are expected to enhance the efficiency of medical professionals, improve diagnostic consistency, and reduce errors. In this paper, we introduce recent studies that combine natural language processing and medical image analysis techniques to automatically generate radiology reports for chest X-rays. Using key deep learning models and public datasets, including MIMIC-CXR and IU-Xray, we conducted a comparative performance evaluation. The analysis shows that on the MIMIC-CXR dataset, the RGRG model achieved superior performance with a BLEU-4 score of 0.126, while on the IU-Xray dataset, the COMG model recorded a BLEU-4 score of 0.206. Our findings reveal that while each model excels in specific evaluation metrics, limitations such as data imbalance and privacy concerns persist. Based on these findings, we propose future research directions and discuss the potential for these technologies to be practically applied in clinical settings.
한국어
딥러닝 기반 의료 영상 판독 소견서 생성 연구는 최근 몇 년간 의료 영상 분석 분야에서 중요한 발전을 이루었으며, 주로 비전 모델과 언어 모델의 융합에 초점을 맞춰왔다. 이러한 연구는 의료 전문가들의 업무 효율성을 높이고, 진 단의 일관성을 향상시키며 오류를 줄이는 데 기여할 것으로 기대된다. 본 논문에서는 자연어 처리 기술과 의료 영상 분석 기술의 융합을 통해 흉부 방사선 영상에 대한 판독 소견서를 자동으로 생성하는 최근 연구들을 소개하고, 이를 위한 주요 딥러닝 모델과 공용 데이터셋인 MIMIC-CXR 및 IU-Xray를 활용하여 성능 비교를 수행하였다. 성능 분석 결과, MIMIC-CXR 데이터셋에서는 RGRG 모델이 BLEU-4에서 0.126의 점수로 우수한 성능을 보였으며, IU-Xray 데이터셋에서는 COMG 모델이 BLEU-4에서 0.206을 기록하였다. 연구 결과, 각 모델이 특정 지표에서 강점을 보이는 반면, 데이터 불균형 및 개인정보 보호 문제와 같은 한계가 존재함을 확인하였다. 이를 바탕으로 향 후 연구의 발전 방향을 제시하며, 이러한 기술이 임상 현장에서 실질적으로 적용될 수 있는 가능성을 논의한다.
목차
Abstract
1. 서론
2. 데이터셋
2.1 MIMIC-CXR
2.2 IU-Xray
3. 의료 영상 판독 소견서 자동 생성 연구동향
3.1 Dynamic Graph Enhanced Contrastive Learning for Chest X-ray Report Generation (DCL)
3.2 Interactive and Explainable Region-Guided Radiology Report Generation(RGRG)
3.3 Complex Organ Mask Guided Radiology Report Generation (COMG)
3.4 Improving Medical Report Generation with Adapter Tuning and Knowledge Enhancement in Vision-Language Foundation Model (MAKEN)
3.5 Knowledge-injected U-Transformer for Radiology Report Generation(KiUT)
3.6 Radiology Report Generation by Transformer with Multiple Learnable Expert Tokens (METransformer)
4. 평가 지표
4.1 Bilingual Evaluation Understudy(BLEU)
4.2 Metric for Evaluation of Translation with Explicit ORdering (METEOR)
4.3 Recall-Oriented Understudy for Gisting Evaluation (ROGUE)
4.4 Consensus-based Image Description Evaluation (CIDer)
5. 성능 비교
6. 결론
Acknowledgement
참고문헌