Statistical Learning(이하 SL)에 대한 개념을 익히기에 앞서 익숙한 Machine Learning(ML)에 대해 잠깐 이야기해보겠다.
Machine Learning은 문자 그대로 기계를 "학습"시키는 것이다. 기계를 학습시킨다는 것은 무슨 뜻일까? 먼저 학습에 대해 익숙한 예를 들어보면 우리가 수학을 배우는 학생이라고 생각해보자.
우리는 먼저 방향을 잡고 기본 개념을 배우기 위해 주변에 수학을 잘 하는 사람과 개념이 잘 써있는 책을 찾을 것이다. 이를 통해 어느 정도 개념에 익숙해지면 본격적으로 문제 풀이를 하며 다양한 유형의 문제를 접하게 되고 그것들과 분투하다 어느 순간 풀어보지 않았던 새롭고 응용된 문제도 해결할 수 있는 능력을 얻게 된다.
이런 방법으로 수학적 문제를 해결할 수 있는 능력을 습득하게 된다. 즉, 수학을 배우기 위해선 수학을 먼저 배운 선생님, 지식이 들어있는 교과서, 연습을 할 수 있는 문제집 등 수학에 관해 잘 알고있는 사람, 혹은 잘 쓰여있는 자료가 필요하다.
이렇게 주어진 자료들로 열심히 훈련을 겪으면 접해보지 못했던 문제도 해결할 수 있는 능력을 습득하게 된다.
이는 자료가 좋을 수록, 다양할 수록 좋은 성과를 얻게 된다.
이런 과정을 우리는 "학습"이라고 말한다. 기계학습도 이와 마찬가지이다.
기계를 "학습" 시키기 위해선 학습시키고자 하는 주제에 관한 다양하고 많은, 그리고 좋은 자료가 필요하다.
이 주어진 자료들을 가지고 훈련을 통해 자료들 간의 연관성을 찾고 이를 토대로 새로운 자료에 대해 연관된 결과를 예측하는 것이 기계학습의 원리이며 목적이다.
우리가 배우고자 하는 Statistical Learning은 이런 자료들 간의 관계를 통계학적인 방법들을 통해 찾는 것이다.
역시 이해를 위해 실질적인 예를 들어보겠다.
200개의 매장에서 제품을 판매하는 회사가 있다고 하자.
이들은 TV, radio 그리고 신문이라는 광고매체를 통해 판매수익을 얻고 있으며 (수입을 높이는 다른 사유는 없다고 가정), 판매량을 높이기 위해 우리에게 상담을 요청한 상태라고 했을 때, 우리는 무엇을 해야할까?
먼저, 각 매체가 판매량에 어떤 영향을 미치는지 그 경향을 파악해야 한다.
경향을 파악하기 위해 실제 제품이 납품되고 있는 매장마다 매체사용량, 제품의 판매량에 대해 조사하고, 조사한 자료들을 통해 연관관계를 찾으려 할 것이다.
그렇게 연관관계를 찾게 되면 우리는 가장 판매량을 높여주는 매체의 예산을 늘릴 것을 조언할 수 있다.
여기서 우린 원하는 결과를 예측하기 위해서 자료들이 갖는 연관관계를 찾는 것이 중요하다는 것을 깨달을 수 있다.
이런 관계를 가장 간단한 방법으로,
$$ Y = f(X)+\epsilon $$
이렇게 표현할 수 있다.
여기서 X는 알고있는 자료 속 정보이고, Y는 이 정보와 f의 연관관계를 갖는 다른 정보이며 \(\epsilon\)은 f의 연관관계에서 실제 값들 사이의 차이, 즉 실제 값과 연관관계사이의 오차이다.
이 X, Y, $\epsilon$은 각각 predictor, response, error라고 부를 것이다.
이때 X는 서로 독립적인 값이며, Y는 X에 의존하는 값이다. $\epsilon$은 X에 무관한 임의의 값이다.
이때 Statistical Learning은 f를 estimate하는 접근 방법이다.
Supervised VS Unsupervised Learning
대부분의 SL은 Supervised Learning과 Unsupervised Learning으로 나눌 수 있다.
Supervied Learning이란 이미 알고 있는 predictor와 response를 가지고 훈련을 시켜서 그들 사이의 연관성과 미래의 reponse값을 예측하는 Learning이다.
반면에 Unsupervised Learning은 response set이 주어지지 않고 training을 시키는 것이다.
예를 들어 당신이 축구 구단을 구입한 구단주라고 하자. 당신의 목표는 당신의 축구팀을 우승시키는 것이다.
그렇게 하기 위해서 당신은 축구에 대한 지식이 해박한 축구감독을 스카웃했고, 그 감독은 여러 후보들의 실력을 진단해보고, 각 선수들의 역량에 맞게 position을 정해주고 감독의 경험을 토대로 훈련을 시켰다.
이렇게 훈련시킨 축구팀의 우승확률은 감독의 경험을 토대로 예측가능하다 말할 수 있다.
또한 각 선수의 훈련된 상태를 통해 선수마다 우승확률에 기여하는 정도도 미리 예측할 수 있을 것이다.
이와 다른 방법으로 당신은 감독을 두지 않고 랜덤으로 팀을 만든 후 시합을 진행해서 토너먼트로 우승한 팀을 뽑아내는 방식으로 팀을 구성한다고 해보자.
여기서 당신이 관여한 것이라곤 우승한 팀을 뽑는다는 최소한의 조건이다.
각 선수들은 우승을 하기 위해서 어떠한 축구에 대한 지식도 없이 단지 골을 넣기 위해, 또는 골을 막기 위해 무작위로 움직였을 것이다.
때문에 당신은 이들의 움직임을 예측할 수 없고, 이에 따른 경기에 대한 승패도 예측하기 어렵다.
이 두가지 예제는 이해를 쉽게하기 위해 일부러 단어가 같은 감독으로 예를 들어보았다.
느껴지듯이 위의 예제는 실제로 감독이 있는 Supervised Learning의 예제이며, 두번째 예제는 감독이 없는(감독되지 않는) Unsupervised Learning에 대한 예제이다.
Regression VS Classification Problems
Variables(Predictor and Response)는 Quantitative 와 Qualitative(Categorical)라는 두가지 성질을 가지고 있다.
Quantitative variables는 크기를 가늠할 수 있는 variables라고 생각하면 된다.
예를 들어 키, 몸무게, 판매 수익, 가격등 숫자로 크기를 가늠할 수있는 것이다.
Qualitative Variables란 여러개의 categories를 가진 class이다.
예를 들어 성별이라는 Class는 여성 또는 남성이라는 카테고리를 갖는다.
이 두 변수는 뚜렷하게 다른 성질을 가지고 있다.
그리고 이 변수들을 사용하는 방법 또한 뚜렷하게 다른데, linear regression이 Quantitative reponse를, Classification이 Qualitative Response를 사용한다.