본문 바로가기

데이터분석

비즈니스 데이터 분석 입문 3. 데이터 분석과 통계 - 통계의 이해 (2)

Chapter3. 데이터 분석과 통계 - 통계의 이해

몬테카를로 실험 설계 및 실행

 몬테카를로 실험은 무작위 추출 실험을 무수히 많이 반복한 결과의 확률적 분포를 알아내는 실험법으로, 수학자 스타니스와프 울람이 모나코의 그랑 카지노 도박 게임 승률 계산법에서 착안하여 만들었다. 몬테카를로 실험은 비용이 지나치게 많이 들거나 불확실성이 너무 클 때, 혹은 미래 예측의 해석적인 약점을 극복하기 어려울 때 주로 사용한다. 

 동전 던지기를 예로 들어보자. 5번, 10번 던진 실험보다 1000번, 50000번 던진 실험이 50% 확률에 훨씬 가깝다는 사실을 확인 할 수 있다. 즉, 만일 동전을 무한대로 던진다면 앞면과 뒷면이 나올 확률은 각각 50%가 되는 것이다. 실험 횟수가 증가할 수록 그래프의 분포가 점점 정규분포에 가까워짐을 확인할 수 있다. 

 정리해보면 다음과 같다. 동전을 10개 던지면 매번 다른 수가 나온다. 여기서 결과값은 추출한 표본의 추정값이 모인 표본분포이다. 그리고 실험 횟수를 늘리면 점점 5를 중심으로 좌우대칭을 이루는 정규분포가 나타난다. 즉, 표본이 많을수록 믿을 만한 결과가 나오며, 표본과 모집단의 평균이 유사해진다. 또한, 실험 횟수가 일정한 선을 넘어서면 합계의 비중이 크게 변하지 않으므로 어느 정도의 표본만으로도 모집단의 패턴 예측이 가능해진다. 

 

중심 극한 정리 

 중심 극한 정리에 의하면, 모집단의 분포와 상관없이 표본들의 평균은 정규 분포를 나타낸다. 예를 들어, 정육면체 주사위를 던졌을 때 평균은 3.5 분산은 2.92이며, 주사위를 열 개씩 던지면 평균 3.5를 중심으로 정규분포를 띈다. 중심 극한 정리를 표본 평균이 이루는 표본 분포와 모집단 간의 관계를 증명하므로 데이터 분석에서 매우 중요한 개념이다. 

 중심 극한 정리에 의하면, 모집단의 분포가 무엇이든지 표본 평균의 분포는 항상 정규 분포로 수렴한다. 이 점을 활용하면 Z-Score를 기반으로 모든 경우의 수에 대한 수학적 확률을 계산할 수 있다. 이를 수학적 확률 판단 추적이 가능하다고 말한다. 즉, 어떤 일이 발생할 가능성이 몇 퍼센트인지 수치로 설명할 수 있다는 뜻이다. 

 사회 현상은 보통 평균에 많은 데이터가 몰리고, 평균에서 멀어질수록 분포가 감소하기 때문에 대부분 정규분포를 보인다. 

 

Population Table을 활용한 표본 개수 의사 결정

 모집단을 예측하는데 필요한 적절한 표본 개수를 어떻게 결정할 수 있을까? Population Table이라는 표를 해석해서 적절한 표본숫자를 결정하면 된다. 예를 들어, 모집단이 100명일 때, 신뢰 수준 95%로 의사 결정을 내리고 싶다면 표본은 80명이 필요하며, 신뢰 수준을 99%로 높이려면 표본 88명을 구해야 한다. 

 하지만 표본을 도출할 Population Table 숫자만 고려해서는 된다. 랜덤 샘플링을 통해 표본 추출 관찰자의 편견이 개입되지 않도록 해야한다. 오프라인 서베이에서 관찰자 개입을 없애기 위해서 표본의 랜덤 샘플링을 만들기 위해서, 흔히 시계법이라는 방법을 사용하기도 한다. 시계법이란, 시계를 보고 정확히 1분이 지나면 고개를 들어 바로 앞에 있는 사람한테 서베이를 요청하는 방식이다. 방법을 사용하면 상대방이 누구인지에 관계없이 무작위로 설문을 요청할 있다. 이처럼 올바른 모집단 특성 예측을 위한 표본 마련에는 무작위 추출과 적절한 표본 규모 설계가 매우 중요하다. 

 

 

* 해당 글은 <비전공자도 배워서 바로 쓰는 비즈니스 데이터 분석 입문, 김진 외 2인> 을 읽으며 요약 정리한 글입니다.