동적 스케줄링을 위한 풀 스케일 양자 강화학습 시스템 개발

직책: 연구 책임자

기간: 2025.08-2028.08

연구 필요성

제조공정 스케줄링은 한정된 설비와 인력을 효율적으로 활용하기 위해 작업 순서와 시간을 결정하는 조합 최적화 문제이며, 제품과 설비 수가 증가할수록 경우의 수가 기하급수적으로 늘어나는 NP-hard 특성을 가진다. 메타 휴리스틱은 이러한 방대한 탐색 공간과 복잡한 공정 제약을 충분히 반영하기 어려워 전역 최적해 도달에 한계가 있어, 방대한 상태–행동 조합을 탐색 및 활용 메커니즘으로 학습하는 강화학습이 주요 대안으로 부상하고 있다.
제조 현장은 설비 고장 및 긴급 주문 등 예측이 어려운 변수가 빈번한 동적 환경으로, 생산 도중 계획을 반복적으로 변경해야 하므로 복잡한 조합 최적화를 실시간으로 해결해야 한다. 강화학습은 폭발적인 상태–행동 공간을 실시간으로 연산하는 데 한계가 있으나, 양자컴퓨팅은 중첩 및 얽힘을 통해 방대한 조합을 병렬적으로 탐색함으로써 변화된 상황에서도 빠르게 최적 계획을 산출할 수 있다.
현재의 NISQ 환경에서 사용되는 고전–양자 하이브리드 강화학습 구조는 양자 컴퓨터와 고전 컴퓨터 간 데이터 및 학습 파라미터 전송 과정이 병목으로 작용한다. 이러한 구조적 제약은 양자 연산의 장점을 충분히 활용하지 못하게 하므로, 강화학습의 핵심 과정을 양자 회로 내부에서 모두 처리하는 풀 스케일 양자 강화학습이 필요하다.

연구 목표

제조공정의 복잡성과 불확실성을 반영해 스케줄링을 실시간으로 최적화할 수 있는 풀 스케일 양자 강화학습 기반 스케줄링 시스템을 개발하고자 한다.

이를 위해 실제 제조 데이터를 기반으로 공정 변동 요인을 정량화한 몬테카를로 시뮬레이터와 다양한 공정 환경에 대응 가능한 고전 기반 강화학습 모델을 구축한다.

공정 변동 요인을 큐비트로 인코딩한 양자 시뮬레이터와 보상, 에이전트, 정책 갱신을 모두 양자 회로로 설계한 풀 스케일 양자 강화학습 모델을 구현한다.

양자 전이학습 및 QXAI를 적용해 모델의 범용성과 해석력을 확보하고 IBM 127큐비트 양자컴퓨터 실험을 통해 적용 가능성을 검증한다.

활용 방안 및 기대 효과

본 연구에서 개발한 제조공정 맞춤형 시뮬레이터는 실제 공정을 모사한 고품질 에피소드를 생성함으로써 데이터 확보가 어려운 제조 기업에도 안정적인 학습 환경을 제공할 수 있다.

또한, 풀 스케일 양자 강화학습을 위해 설계된 양자 회로들은 제조 스케줄링을 넘어 국방·제약 등 초대규모 조합 최적화 문제 해결에도 범용적으로 활용될 수 있다.

나아가 고전–양자 하이브리드 방식의 구조적 제약을 극복하고 실제 양자컴퓨팅 환경에서 성능을 검증함으로써 양자 이득의 실현 가능성과 제조 산업 전반의 Quantum Transformation을 촉진하는 기술적 기반을 마련할 것으로 기대된다.

Ongoing

Tags:No Tag

동적 스케줄링을 위한 풀 스케일 양자 강화학습 시스템 개발

연구 필요성

연구 목표

활용 방안 및 기대 효과

CONTACT US