인공지능이 사용가능한 데이터를 구분해보고 쓰레기입력을 가공하자.

정형데이터와 비정형 데이터로 나눌수가 있다. 정형은 말그대로 일정한 형식으로 엑셀에 테이블형태로 존재하는것이 예가 될수있다.
우리가 흔히 회사나 집에서 정리해 놓는 자료들이 대부분인 것이다. 매월 들어가는 각종 돈에 대한 내역을 기재하는 가계부가 바로 정형데이터이다.

비정형은 말 그대로 정형화 되지 않은 형태의 데이터로 그야말로 규칙이 없는 데이터이다.
정해진 형식이 없으며, 인터넷에 돌아다니는 모든 글들이 해당된다. 각종 커뮤니티에 올라오는 글들과 동영상 그리고 사진들이 그것이다.
또한, 정형과 비정형의 중간단계인 반정형 데이터도 존재한다.

반정형은 인터넷의 화면 구조를 만들어주는 HTML이 대표적이다. 특히, 로그파일과 같이 텍스트로 중간에 특수한 문자로 구분을 해놓은 것도 해당된다.
반만 정형인지라, 정말로 마구잡이가 아닌 적절한 규칙이 내포되어 있음을 알수 있다.

인공지능은 이렇게 3가지의 데이터들을 모두 취하여 학습할 수 있다. 이왕이면, 정형의 형태로 변환하여 사용됨이 일반적이다.

최초의 데이터는 결코 양질의 데이터는 아니다. 그만큼 쓰레기와 같은 정형화 되지 않은 데이터들이 마구 쌓여있다.
특히나 제일 일반적인 데이터 형식은 바로 날짜이다. 우리가 흔히 접해볼수 있는 형태는 년월일 인데 “2025-01-02” 와 같은 표현이다.

그런데, 쌓여있는 데이터들을 들여다보면 요상하리 만치 특이한 형태가 많다. 일례를 들면, “02-JAN-25” 와 같은 경우이다.
한국식이라기 보다는 미국이나 유럽식 표기법(?) 이라고 할지 여튼 저렇다. 년월일 대신에 일월년 으로 완전히 반대로 데이터가 생성되어 있는것이다.

이러한, 데이터들을 일일히 확인해서 년월일로 표기하기로 했다면, 모두 그렇게 변환해주어야 하는 것이다. 이는 실로, 꼼꼼하게 틀리지 않도록
모두 이상없이 변환을 해줘야 제대로된 데이터로써 활용이 가능한 것이다.

전산 상에서는 null (널) 이라는 것이 있는데, 이는 전혀 빈공간도 아닌 데이터이다. 이 널처리가 전산에서는 참 골치아프다.
실제, 조회를 했을시 포함되느냐 안되느냐에 따라서 통계상의 수치가 바뀌기 때문이다.

요런, 오류성 데이터들을 얼마나 잘 파악해서 정제를 다시 해놓는가에 따라서 신뢰할 수 있는 좋은 정보를 얻을 수 있을 것이다.

댓글 남기기 응답 취소