인공지능의 학습은 인간의 말, 즉 단어 하나하나를 수치화 하는데에 있다.
컴퓨터라는 기계는 말 그대로 기계이기에, 사람처럼 생각하는 기능이 없으므로 모든 단어를 3차원이라는 공간을 가지고 좌표화한다.
단어마다 토씨하나마다 고유의 3차원의 실수값으로 변환하기에 유일하다고 할 수 있다.
중고등학교에서 배웠던 가로와 세로를 가진 좌표를 생각할 수 있는데, 그런 2차원에서 공간을 확대해서 3차원의 벡터값을 가지는 도형을 가지게된다.
마치 우주의 공간과도 같은 무한 공간에 유일한 단어들이 둥둥 떠있다고 상상이 된다.
인공지능의 알고리즘인 BERT나 GPT 등은 그 차원 수가 몇천 차원이라고 하니 입이 떡 벌어진다.
LLM 이라고 불리우는 대규모 언어모델은 마치 레고 블록과도 같다.
어떤 이미지를 보고 무엇인지 판단하는 모델이 있다고 할때, 그 모델을 가지고 그 가중치 값을 다른 모델에 전이 할 수가 있다.
전이는 마치 복사할 수 있다는 개념과도 같은데, 고양이를 인식할 수 있는 모델을 기본으로 바탕에 깔아놓고, 개를 인식할 수 있는 모듈을 그 위에 얹어서 학습시킬 수 있다는 말이다.
기존 전산에서도 소프트웨어의 개념이 블록과 같아서, 이는 컴포넌트라고도 불리우지만, 하나하나 덩어리를 만들 수 있다.
인공지능 모델도 그와 유사하여, 기본 모델을 기계쪽에서 비유하면, 모터라고 했을때, 모터에 흡입기를 달면 청소기가 되고, 모터에 톱을 달면 전기톱이 되는 식이다.
하지만, 모델을 그대로 가져다 쓴다기 보다는 그 가중치의 값들을 어느 정도 미세하게 조정을 통해서 실제 새로운 모델을 탄생시킬 수 있는 것이다.