머신러닝 기법 중에서 강화학습은 중요한 하나의 학습방법이다. 용어 자체는 대단히 강력하고 빈틈없는 방법을 익힐 것 같은데 그렇지 않다.
한마디로 막무가내적인 방법인데, 우리가 어떤 일을 할때 계획을 차분히 세운뒤에 실행을 하게된다. 하지만 강화학습은 일단 무조건 해보는 방식이다.
참 어처구니없고 무식한 학습 방법이지만 일단은 머리를 들이밀고 부딪쳐보는 식이다.
어떤 한곳에서 출발해서 목표지점이 있다고 할때, 중간 중간에 함정들이 있다. 최종 목표지점에 도착하게 되었다면 그 성공지점의 전 단계에서 초콜렛과 같은 보상을 주는 이벤트를 한다.
이것이 기록이 되어진다. 또다시 출발하여 목표를 찾았을때 처음 보상받은 지점의 그 전단계에서 다시 초콜렛 보상을 준다. 이런식으로 계속 찾다보면 처음보다 훨씬 빨리 목표지점에 도달하게 된다.
이렇듯 좀 간단한 경로를 가진 코스를 찾아가는 것은 단순하기에 성공할 확률은 높은 편이다. 하지만, 우리가 사는 실제 환경들은 어떤가.
예를 들은 경로 찾기처럼 단순하지만은 않다. 찾아가는 동안 곳곳에 어떤 함정과 돌발상황들이 있을지는 모든 경우의 수를 예측하기가 어렵다.
매번 같은 길 또는 가본 곳만 가리라는 보장은 없다. 강화학습은 이처럼 인공지능이 더욱 똑똑해져가는 하나의 학습방법이지만, 백프로 완벽할 수는 없을 것이다.
그 수많은 경우의 수와 돌발상황들을 모두 다 인공지능에다가 학습하는 것은 거의 불가능에 가깝지 않을까 한다. 강화학습이 많이 쓰이는 곳으로는 바둑계에서의 알파고, 로봇산업, 게임 그리고 자동차의 자율주행 등에 적용이 된다.
보상을 준다는 것은 결국, 피드백인데 수많은 시행착오를 통해서 좀더 숙달이 되고 능숙해지는 것을 의미한다. 요즘에 매스컴에 등장하는 로봇들은 사람들이 육체적으로 해내는 모든 작업들을 거의 능숙하게 해내고, 이젠 그 이상의 어려운 동작들도 거리낌없이 보여준다.
미래엔 어디까지 발전할지는 모르지만, 아마도 인간을 뛰어넘는 지능과 육체적인 면을 볼 수 있지 않을까 한다. 무섭기도 하고 두려워진다.
현재의 로봇은 강화학습을 했다고 하더라도, 많은 환경앞에서 모두 다 대응할지는 미지수다. 평탄한 도로에서 걷다가 갑자기 흙이나 진흙탕 같은 곳이 나타났을때 과연 어떻게 대처를 할지 강화학습으로만 가능할지 알 수 없다.
그렇다고 강화학습이 결코 미래에 더 이상 쓰여지지 않을 구시대적인 구닥다리 학습 법은 아닐 것이다. 오히려 그런 한계가 더 큰 발전된 학습을 위한 밑바탕이 되리라 생각된다.
인공지능은 방대한 데이터를 가지고 처리하는 대규모 학습을 요한다. 강화학습이 더 활용될 수 있는 잠재력은 어느 때보다 더 크다고 볼 수 있다. 미래의 AI가 더욱 기대되는 바이다.