
숭실대학교 전자정보공학부 권민혜 교수 연구팀이 자율주행차 학습 과정에 ‘오프라인-투-온라인 강화학습(Offline-to-online Reinforcement Learning)’ 방식을 적용한 새로운 인공지능 기술을 개발했다고 2일 밝혔다. 이번 기술은 실제 도로 주행에서 대규모 데이터를 새로 수집하지 않아도, 소량의 추가 데이터만으로 성능을 즉시 보정할 수 있어 보다 안전하고 효율적인 주행이 가능하다.
기존 자율슬롯 커뮤니티 AI는 특정 상황에 최적화돼 있어 새로운 환경에서는 성능이 급격히 떨어지는 한계가 있었다. 연구팀은 단일 정책(policy)으로 다양한 슬롯 커뮤니티 환경을 학습할 수 있는 통합 의사결정 모델을 제안해, 환경 변화에도 안정적이고 유연한 대응이 가능하도록 했다.
또한, 강화학습 기반 자율슬롯 커뮤니티 AI는 방대한 도로 슬롯 커뮤니티 데이터를 필요로 해 비용 부담과 안전사고 위험이 존재했다. 이를 보완하기 위해 권 교수 연구팀은 기존 오프라인 학습과 온라인 학습을 결합한 오프라인-투-온라인 강화학습 방식을 도입했다. 차량은 축적된 데이터로 기본 슬롯 커뮤니티 능력을 학습한 뒤, 실제 슬롯 커뮤니티에서 확보한 소량의 데이터만으로 성능을 즉시 보정할 수 있다.
연구팀은 ▲Q함수 재초기화 ▲Q적응 ▲정책 분산 재초기화 등 세 가지 핵심 기술을 적용해 온라인 보정 단계에서 흔히 발생하는 불안정한 성능 저하를 막고 안정적인 성능 향상을 달성했다. 시뮬레이션 결과, 해당 기술은 기존 강화학습 대비 슬롯 커뮤니티 안전성과 효율성을 모두 개선했으며, 데이터 품질이 낮아도 안정적인 성능 유지가 가능함을 확인했다.
권민혜 교수는 “이번 연구는 자율주행차가 단 한 번에 완벽해지지 않아도, 실제 운행 중 확보한 소량의 데이터만으로 지속적인 보정과 발전이 가능하다는 점에서 의미가 크다”며 “피지컬AI 시대에 필수적인 ‘학습 비용 절감’과 ‘안전성 강화’라는 두 가지 목표를 동시에 충족시킬 수 있을 것”이라고 말했다.
이번 연구 성과는 「Scenario-Free Autonomous Driving With Multi-Task Offline-to-Online Reinforcement Learning」이라는 제목으로 국제 저명 학술지 ‘IEEE Transactions on Intelligent Transportation Systems’ 9월호에 게재됐다.