Chapter6. 머신러닝 입문
머신러닝이란?
머신러닝은 어떤 데이터를 분류해내거나 값을 예측하는 것으로, 크게 지도기계학습, 비지도 기계학습, 그리고 강화학습으로 나눈다.
지도 기계학습이란 컴퓨터에게 정답을 알려주면서 학습시키는 방법이다. 예를 들어 고객 데이터를 주며 이러한 고객군이 구매할 가능성이 높은 고객그룹(정답지)를 제시한 후, 새로운 고객 자료를 주면서 구매 가능성이 높은 고객들을 분류하도록 요청하는 방식으로 동작한다. 그러므로 지도 기계학습에는 학습 데이터가 필요하다. 지도 기계학습에 사용하는 대표적인 알고리즘에는 선형 회귀, 의사결정 트리, 베이즈 추론 등이 있다.
비지도 기계학습은 미리 학습 데이터를 제공하지 않아도 알고리즘이 알아서 다양한 분류 기준으로 비슷한 데이터를 군집화하는 방법을 의미한다. 이를테면 컴퓨터에게 확보한 고객 구매 데이터를 제공하면, 그 데이터 패턴에서 유사한 특징들을 지닌 고객 그룹들을 묶어서 군집화된 데이터를 제공한다. 비지도 기계학습에 사용하는 대표적인 알고리즘으로는 K-평균 알고리즘이나 여러 차원이나 요인들을 공통된 성질로 묶는 요인분석 등이 있다.
베이즈 추론이란?
통계학에는 전통 통계학이라고 지칭하는 피어슨 통계학과 이번 챕터에서 다루고자 하는 베이즈 통계학이 있다. 앞서 배운 기술통계와 확률론, 추론 통계는 모두 피어슨 통계학에 해당한다. 피어슨 통계학을 다른 말로는 객관확률 기반의 통계학이라고 한다. 반면 베이즈 통계학은 사전 확률을 설정하고, 취득한 정보에 따라서 사후 확률을 업데이트하여 가능성을 검증하기 때문에 조건부 확률이라고 부르기도 한다. 사전 확률, 사후 확률, 취득한 정보에 따라서 확률 값이 변한다는 점에서 주관 확률 기반의 통계학이라고도 한다.
베이즈통계 입문 : 빼빼로데이에 초콜릿을 건낸 그 남자의 진정성 추정하기
사람의 속마음을 수치화 하는 일에는 객관성이 전혀 없으나 베이즈 추론은 이러한 문제에도 확률적인 접근이 가능하다는 것이 강점이다.
베이즈 추론의 기본 원칙은 '정보를 얻으면 확률이 바뀐다'는 것이다.
베이즈 추론은 사전 확률, 조건부 확률, 관측에 의한 정보 입수, 사후 확률 순서로 진행한다. 먼저 주관적으로 당신을 마음에 두고 있는가에 대한 사전 확률을 설정해야 한다. 사전 확률이란 어떤 정보가 들어오기 전 각 타입의 비율을 의미한다. 이 경우에는 ‘당신을 마음에 두고 있다’는 타입과 ‘당신에게는 가볍게 초콜릿을 건넷다’는 타입으로 나눌 수 있다. 줄여서 진심과 논외로 구분하자. 이 상황은 통계적 현상이 아닌 사람의 마음을 추측하는 경우이므로 사전 확률을 구할 데이터가 없다. 이러한 경우에는 이유 불충분의 원리를 사용하면 사전 확률을 설정할 수 있다.
이유 불충분의 원리란 그 남자가 당신을 진심으로 생각한다는 근거도 없고, 논외로 생각한다는 근거 역시 없기 때문에 일단 두 타입은 모두 대등하다고 생각하는 원리이다.
이처럼 베이즈 추론은 주관적 추정을 수치로 나타낼 수 있다는 장점을 가지나, 아무리 이유 불충분의 원리를 적용한다고 해도 사전 확률을 5 대 5로 설정하는 것이 비합리적일 수도 있다. 그런 경우에는 사전 확률을 자유롭게 설정할 수 있다는 점에서 베이즈 추론은 매우 유연하다고 할 수 있다.
베이즈통계 : 단지 문제 해결 방식
베이즈 추정은 가설검정과 유의 수준의 설정이 없으므로 어떤 환경이든 추정이 가능하다. 하지만 어느 한 쪽으로 판정을 내리기보다 양쪽 가능성을 비율 관계로 제시할 뿐이므로, 수치를 보고 판단을 내리는 일은 오롯이 통계가의 몫이다.
베이즈 추론과 피어슨 추론의 가장 큰 차이는 유의 수준 유무이다. 피어슨 추론에서 유의 수준은 리스크 지표, 즉 틀릴 확률이다. 예를 들어 유의 수준을 5%로 설정했다면, 같은 방법으로 가설 검정을 되풀이 할 경우 5% 확률로 잘못된 결론을 내린다는 뜻이다. 이때 5%라는 리스크는 결론 자체가 틀릴 확률이 아니다. ‘5%의 리스크가 있는 방법으로 내린 결론’ 이라는 의미이다. 반대로 베이즈 추정에 따른 결론은 사후 확률 자체로 리스크를 평가할 수 있다.
베이즈 통계 : 스팸메일 필터 구현하기
베이즈 추론은 정보를 많이 얻을수록 진가가 드러나는 추론 방법이다. 활용하는 정보의 양이 많을수록 추정 정확도가 급속도로 높아지기 때문이다.
베이즈 통계 : 축차 합리성
여러 조건을 확률의 승법 공식을 이용하여 한 번에 계산한 값과, 조건을 한 번에 하나만 설정하면서 계산한 사후 확률을 다시 다음 조건 확률을 계산할 때 사전 확률로 설정하고 계산한 값이 동일하다는 듯이다. 이렇게 하면 조건이 매우 많은 환경에서 중간 계산값 과정을 보관할 필요 없이 사후 확률 데이터만들 다음 조건 계산 시 사전 확률로 설정해서 활용할 수 있기 때문에 매우 효율적인 연산 처리가 가능해진다.
확률 추측에는 언제나 방대한 정보를 사용한다. 그런데 매번 모든 정보를 일일이 총동원해서 추측해야 한다면 굉장히 번거롭고, 저장 용량도 많이 필요할 것이다. 반면 계산이 끝날 때마다 필요한 정보만 남겨 재사용하고, 나머지 정보를 삭제할 수 있다면 많은 에너지를 절약할 수 있다. 이것이 베이즈 추정의 힘이다. 또한 사후 확률이라는 학습 결과물을 다시 학습에 사용한다는 점에서 베이즈 추정을 자동으로 똑똑해지는 알고리즘이라고도 부를 수도 있다.
* 해당 글은 <비전공자도 배워서 바로 쓰는 비즈니스 데이터 분석 입문, 김진 외 2인> 을 읽으며 요약 정리한 글입니다.
'데이터분석' 카테고리의 다른 글
빅데이터분석기사 준비 - 1. 빅데이터 분석 기획 :: 데이터 분석 계획 (0) | 2022.03.22 |
---|---|
빅데이터분석기사 준비 - 1. 빅데이터 분석 기획 :: 빅데이터의 이해 (0) | 2022.03.22 |
비즈니스 데이터 분석 입문 5. 비즈니스 데이터 분석 실무 (0) | 2022.03.16 |
비즈니스 데이터 분석 입문 4. 데이터 분석과 통계 - 추론 통계 (2) (0) | 2022.03.16 |
비즈니스 데이터 분석 입문 4. 데이터 분석과 통계 - 추론 통계 (1) (0) | 2022.03.11 |