원문정보
Performance Optimization of Reinforcement Learning in Line Tracking Robots using ML-Agents: A Comparative Study of Reward Strategies and Learning Parameters
초록
영어
Digital twin-based reinforcement learning enables minimizing physical costs and risks by using virtual models that accurately reflect real systems. This study analyzes various learning parameter combinations to optimize line tracking robots based on Unity ML-Agents. Through 48 experiments with randomly generated paths, we evaluated the impact of PPO Curiosity, network depth, negative rewards, previous action observation, and ΔAction Value Limit. Of the experiments, 31% successfully completed learning within tens of minutes. Without ΔAction Value constraints, success rates reached 33% but with frequent abrupt turns; with constraints applied, rates decreased to 29% while improving driving stability. Results showed optimal performance was achieved with no Curiosity, network depth of 1, and negative reward of 0.00003, providing the best driving and learning stability. Our findings demonstrate that reinforcement learning approaches are practical even when processing real-time camera inputs with only CPU resources, suggesting superior adaptability and performance potential compared to traditional PID control methods across varied conditions.
한국어
디지털 트윈 기반 강화학습(Reinforcement Learning) 접근법을 통해 실제 시스템의 동작을 정밀하게 반영한 가상 모델을 설계하고 시뮬레이션 기반 실험을 반복 수행함으로써 물리적 비용과 위험을 최소화할 수 있는 장점이 있다. 본 연구는 Unity ML-Agents 기반 라인 추적 로봇의 강화학습 성능 최적화를 위해 다양한 학습 변수 조합을 분석했다. 무작위 생성된 라인 환경에서 총 48건의 실험을 통해 PPO Curiosity, 네트워크 깊이, Negative 보상, 이전 행동값 관측, ΔAction Value Limit의 영향을 평가했다. 전체 실험 중 15건(31%)이 수십 분 내에 학습에 성공했으며, Δ Action Value Limit 제약이 없을 경우 33%의 높은 학습 성공률을 보였으나 리워드 최대화를 위한 급회전이 빈번했다. 반면 제약 적용 시 성공률은 29%로 감소했지만 주행 안정성이 향상되었다. 실험 결과, Curiosity를 사용하지 않고, 네트 워크 깊이 1, Negative 보상 0.00003 조합이 주행과 학습 안정성 측면에서 최적의 성능을 보였다. 이는 실시간 카메라 입력을 CPU만으로 처리하는 환경에서도 강화학습 접근법이 실용적임을 보여주며, 기존 PID 제어 방식 대비 강화학습 기반 제어가 다양한 조건에서 뛰어난 적응성과 성능 잠재력을 지님을 시사한다.
목차
Abstract
Ⅰ. 서론
Ⅱ. 관련 연구
1. 라인추적/경로추적 관련 연구
2. 강화학습 알고리즘 비교 및 최적화 연구
3. 환경 다변화 연구
Ⅲ. 시스템 설계 및 구현
1. 디지털 트윈 환경 구현
2. 랜덤 라인 생성 로직 및 관측 처리
3. 충돌 검사
4. 강화학습 환경 설정
Ⅳ. 실험 및 결과
1. 실험 환경 설정
2. 보상 전략 및 하이퍼파라미터에 따른 학습 효율 분석
3. 주행 안정성을 고려한 분석
Ⅴ. 결론
References
