▲ GIST AI대학원 안창욱 교수(좌) 이동현 박사과정생(우)

광주과학기술원(GIST)은 AI대학원 안창욱 교수 연구팀이 몬테카를로 트리 탐색(MCTS) 기법을 실시간 게임 환경에서 구현하는데 성공했다고 밝혔다.

몬테카를로 방법은 함수의 값을 확률적으로 계산하는 알고리즘으로, 카지노와 도박으로 유명한 모나코 공국의 '몬테카를로' 지역에서 유래한 말이다. 이를 기반으로 한 몬테카를로 트리 탐색(MCTS)는 복잡하고 불확실성이 있는 환경에서 의사 결정을 위한 체험적 탐색 알고리즘이다. 게임을 할 때 주로 적용됐으나, 무작위 시뮬레이션을 기반으로 상황 예측에 대한 기댓값을 추정하는 만큼 실행 시간이 오래 걸리고 복잡해 높은 연산량이 요구되는 실시간 전략 게임에 적용하는 데 한계가 있었다.

그러나 안창욱 교수 연구팀은 새로운 강화학습법을 활용해 가상으로 재현된 게임 데이터를 학습, 대체 모델을 구축한 뒤 시뮬레이션의 일부 결과만으로 예측에 대한 기댓값을 추정할 수 있는 대체 모델 기반 MCTS를 개발했다. 이를 활용해 몇 분에서 몇 시간 단위로 걸리던 시뮬레이션 추론 시간을 밀리초~초 단위로 단축하는 것에 성공했다.

이와 더불어 연구팀은 연구 확장성과 재현성을 높이기 위해 대체 모델 학습을 위한 데이터 수집과 스타크래프트2에서 데이터 분석이 가능한 자체 소프트웨어도 구현했다. 수집된 데이터를 기반으로 대체 모델을 학습한 후 적용한 결과, 게임의 진행 결과를 기존 MCTS 대비 1만 배 빠르게 예측했다.

RTS 게임의 대표작 중 하나인 스타크래프트2는 각 게임 참여자가 제한된 환경 관측만 가능한 여건에서 자원 확보 및 상대의 종족, 동태 등을 종합적으로 고려해 게임을 운영해야 하는 만큼 복잡성이 매우 높은 게임이다. 이러한 복잡한 환경에서 기존 모델 대비 1만 배 빠르게 예측한 만큼, 이번 연구 성과로 게임뿐만 아니라 실세계 문제에도 적용할 수 있을 것으로 기대된다.

▲ 대체 모델 기반 MCTS 동작 개념도

안창욱 교수는 “이번 연구 성과는 몬테카를로 트리 탐색 기법의 활용이 불가능하던 실시간 게임 환경에서 각 개체의 실시간 행동(예, 공격, 후퇴 등) 결정을 가능하게했다는 데 의의가 있다”며 “향후 상충하는 이해관계 갖는 실세계 응용 문제(자율주행, 주식거래 등)에 있어 실시간 의사결정을 내리는 데 활용될 수 있을 것으로 기대된다”고 말했다.

이번 연구는 한국연구재단 중견연구자지원사업과 정보통신기획평가원(IITP) 인공지능대학원 사업의 지원을 받아 수행되었으며, 연구 결과는 다학제 공학 분야 상위 2.5% 국제학술지 《Engineering Applications of Artificial Intelligence》에 2024년 7월 1일 게재되었다.