원문정보
Fine-tuning of Stable Diffusion Models for Image Data Synthesis on Bicycle Roads
초록
영어
The growing use of bicycles has heightened the importance of video-based monitoring for preventing accidents and detecting hazardous situations on bicycle roads. However, collecting video data that adequately reflects variations in season, illumination, and weather requires substantial time, and the high cost of data labeling further limits the development of effective object-detection models. To address these challenges, this study proposes an image synthesis method that simultaneously incorporates structural constraints and style adaptation. The proposed approach integrates Stable Diffusion with ControlNet and Low-Rank Adaptation (LoRA), enabling unified control of scene structure through mask images and fine-grained style adjustment. A dataset was constructed using real CCTV footage, and three Stable Diffusion–based backbone models were evaluated for their synthesis performance. Fréchet Inception Distance and CLIP-score were used for quantitative assessment, demonstrating that the proposed method achieves superior realism and semantic alignment between images and text. Furthermore, the model successfully generated images reflecting seasonal and weather variations solely through prompt manipulation. This research provides an efficient solution for generating diverse environmental conditions that are difficult to capture in practice, thereby alleviating data scarcity in bicycle-road monitoring and supporting the advancement of nextgeneration object-detection and safety-management technologies.
한국어
자전거 이용 증가와 함께 자전거도로의 사고 예방 및 위험 상황에 대한 영상 기반 모니터링 의 중요성이 더욱 부각되고 있다. 그러나 계절·조도·기상 변화가 충분히 반영된 영상 데이터를 확보하는 데에는 많은 시간이 소요되고, 설상 가상으로 라벨링 비용 또한 높아 객체 탐지 모델 개발에 제약이 발생한다. 본 연구는 이러한 문제를 해결하기 위해 구조적 제약과 스타일 적응 을 동시에 반영하는 영상 합성 기법을 제안하였다. 제안한 방법은 Stable Diffusion 기반 모델에 ControlNet과 Low-Rank Adaptation을 결합하여, 마스크 영상을 통한 구조 제어와 스타일 미세조 정을 통합적으로 수행한다. 실제 CCTV 영상을 기반으로 데이터세트를 구축하고, 세 가지 Stable Diffusion 계열 기저 모델을 대상으로 합성 성능을 비교하였다. 성능 평가는 Fréchet Inception Distance와 CLIP-score를 활용하였으며, 그 결과 제안한 방법이 사실성과 텍스트 정합 성 측면에서 우수한 합성 품질을 달성함을 확인하였다. 또한 텍스트 프롬프트 조작만으로 계 절 및 기상 조건을 반영한 영상 생성이 가능함을 검증하였다. 본 연구는 촬영이 어려운 다양한 환경 조건의 데이터를 효율적으로 생성할 수 있어 자전거도로 모니터링을 위한 데이터 부족 문제 해결에 기여하며, 향후 객체 탐지 및 안전관리 기술의 고도화에 효과적으로 활용될 수 있다.
목차
ABSTRACT
Ⅰ. 서론
1. 자전거 도로 영상 데이터의 필요성
2. 영상 데이터의 증강 및 합성 기법
Ⅱ. 자전거 도로 데이터 합성을 위한 미세 조정 방법
1. 자전거 도로 영상 데이터 세트 구성
2. 영상 합성을 위한 Stable Diffusion 미세 조정 기법
3. 학습 환경 구성
Ⅲ. 실험 결과 분석 및 논의
1. 실험 계획 및 평가 방식
2. 실험 결과 및 분석
Ⅳ. Conclusion
ACKNOWLEDGEMENTS
REFERENCES
