동적 스케줄링을 위한 풀 스케일 양자 강화학습 시스템 개발
직책: 연구 책임자
기간: 2025.08-2028.08
연구 필요성
- 제조공정 스케줄링은 한정된 설비와 인력을 효율적으로 활용하기 위해 작업 순서와 시간을 결정하는 조합 최적화 문제이며, 제품과 설비 수가 증가할수록 경우의 수가 기하급수적으로 늘어나는 NP-hard 특성을 가진다. 메타 휴리스틱은 이러한 방대한 탐색 공간과 복잡한 공정 제약을 충분히 반영하기 어려워 전역 최적해 도달에 한계가 있어, 방대한 상태–행동 조합을 탐색 및 활용 메커니즘으로 학습하는 강화학습이 주요 대안으로 부상하고 있다.
- 제조 현장은 설비 고장 및 긴급 주문 등 예측이 어려운 변수가 빈번한 동적 환경으로, 생산 도중 계획을 반복적으로 변경해야 하므로 복잡한 조합 최적화를 실시간으로 해결해야 한다. 강화학습은 폭발적인 상태–행동 공간을 실시간으로 연산하는 데 한계가 있으나, 양자컴퓨팅은 중첩 및 얽힘을 통해 방대한 조합을 병렬적으로 탐색함으로써 변화된 상황에서도 빠르게 최적 계획을 산출할 수 있다.
- 현재의 NISQ 환경에서 사용되는 고전–양자 하이브리드 강화학습 구조는 양자 컴퓨터와 고전 컴퓨터 간 데이터 및 학습 파라미터 전송 과정이 병목으로 작용한다. 이러한 구조적 제약은 양자 연산의 장점을 충분히 활용하지 못하게 하므로, 강화학습의 핵심 과정을 양자 회로 내부에서 모두 처리하는 풀 스케일 양자 강화학습이 필요하다.
연구 목표
- 제조공정의 복잡성과 불확실성을 반영해 스케줄링을 실시간으로 최적화할 수 있는 풀 스케일 양자 강화학습 기반 스케줄링 시스템을 개발하고자 한다.
- 이를 위해 실제 제조 데이터를 기반으로 공정 변동 요인을 정량화한 몬테카를로 시뮬레이터와 다양한 공정 환경에 대응 가능한 고전 기반 강화학습 모델을 구축한다.
- 공정 변동 요인을 큐비트로 인코딩한 양자 시뮬레이터와 보상, 에이전트, 정책 갱신을 모두 양자 회로로 설계한 풀 스케일 양자 강화학습 모델을 구현한다.
- 양자 전이학습 및 QXAI를 적용해 모델의 범용성과 해석력을 확보하고 IBM 127큐비트 양자컴퓨터 실험을 통해 적용 가능성을 검증한다.
활용 방안 및 기대 효과
본 연구에서 개발한 제조공정 맞춤형 시뮬레이터는 실제 공정을 모사한 고품질 에피소드를 생성함으로써 데이터 확보가 어려운 제조 기업에도 안정적인 학습 환경을 제공할 수 있다.
또한, 풀 스케일 양자 강화학습을 위해 설계된 양자 회로들은 제조 스케줄링을 넘어 국방·제약 등 초대규모 조합 최적화 문제 해결에도 범용적으로 활용될 수 있다.
나아가 고전–양자 하이브리드 방식의 구조적 제약을 극복하고 실제 양자컴퓨팅 환경에서 성능을 검증함으로써 양자 이득의 실현 가능성과 제조 산업 전반의 Quantum Transformation을 촉진하는 기술적 기반을 마련할 것으로 기대된다.