선형회귀와 틀린 가설식으로 손실값을 구해보자.

선형회귀는 영어로 linear regression이고 이것은 어떠한 현상들을 이어서 그리는 선처럼 선형적으로 나타냄을 의미한다. 머신러닝이라는 것은 컴퓨터의 계산기로 딱 정해서 답을 내는 방식은 아니다.

추정과정을 거쳐서 근사값을 좁혀가면서 그 정답을 차근차근 찾아가는 과정인 것이다.
모델로 예측을 한다는 것은 단순계산식이 아닌, 그 해결방법이 매우 복잡하기 때문에 확률을 이용해서 최종적으로 추측해내는 것이다.

생각해보건대, 간단한 문제라면 계산기를 이용하면 되지, 굳이 머신러닝을 사용할 이유가 없다. 선형회귀는 우리가 어렸을적에 배웠던 함수인 일차함수를 이용하게 된다. Y=WX+B 와 같은 식이다.

바나나 한개값이 천원이라면, 한개씩 살때마다 천원씩이 곱해지게 된다. 결국 10개를 사면 만원이다. 컴퓨터는 위의 일차함수의 가설식을 가지고 계산을 한다. 사람은 암산으로 10개값이 만원인 것을 금방 계산할것이다.

컴퓨터는 스스로 판단하는 능력이 없기에, 바나나를 한개씩 살때마다, 천원, 이천원, 삼천원 등등의 데이터를 일단, 제공해서 보여준후 컴퓨터가 함수로 제공된 가설식을 가지고 정답을 향한 최적의 답을 찾아가게 된다.

위의 과정을 거치면서, 가설식으로 인해 그 손실이 나는 비용을 산출하게 된다. 상단의 일차함수에서 W와 B 값은 처음에는 랜덤하게 아무값이나 설정하게 된다. 그럴 경우 최종 목표한 값(가설값)보다 적거나 많게 나타난다.

그 차이들이 바로 손실 비용이다. 영어로 COST와 LOSS 라고 보면된다. 예측되는 값과 정답과의 차이가 그것이다. 위에서 도출된 수식으로 만들어진 값들을 그래프로 그려보면 U 자와 같은 모양의 이차함수가 그려진다.

U자 그래프의 제일 하단 가운데가 COST 값이 0 인데 이 제로 값을 찾아가도록 하는게 우리의 인공지능의 목표이다. 0 보다 마이너스쪽에 있거나 플러스 쪽에 있는 것들은 바로 미분을 통한 기울기를 구해서 표시된다.

이른바, 이 법칙이 경사하강법이라고 불린다. COST가 제로인 지점을 기계가 자동으로 학습하면서 찾아가는 것이 AI의 끝자락이다. 이런 자동화의 과정이 결국은 인간보다 훨씬 일처리를 깔끔하게 수행해 내는 비결인 것이다.

인공지능의 핵심적인 기술원리라고 볼 수 있다. 단순한 계산으로 한번에 답을 딱 하고 내는 것이 아니라, 많은 실제 데이터의 유형을 학습해서 정답을 서서히 조여 나가서 최종 결론에 도착한 답이 어찌보면 훨씬 신빙성이 있고 믿을만한 것이라고 느껴진다.

이런 접근 방법은 인터넷의 초기 등장과도 같은 획기적인 발상이라 전율이 온몸을 감싼다. 정말 미래에 어떤 멋진 세계가 펼쳐질지 가슴 벅차다.