Chapter3. 데이터 분석과 통계 - 통계의 이해

기술통계
통계학은 크게 피어슨 통계와 베이즈 통계로 구분되며, 피어슨 통계는 다시 크게 기술통계, 확률론, 추론통계로 구성된다. 데이터 분석이란 다른 말로 '데이터를 요약하는 기술'로 표현할 수 있다. 수천 개의 표본 데이터나 수억 개의 빅데이터를 확보한 후 원본 데이터 자체에서는 어떠한 인사이트도 얻어내기 어렵다. 따라서, 인사이트 도출을 위해 데이터를 요약하는 것에서 데이터 분석이 시작되는데, 기술통계가 바로 데이터를 통계량이나 그래프로 요약하는 방법을 의미한다.
표본 데이터에는 다양한 데이터가 존재하고, 이렇게 다양한 수치로 나타나는 현상을 '분포한다'고 표현하는데, 분포 현상이 나타나는 이유는 각 수치 이면에 불확실성이 작용하기 때문이다. 그리고, 데이터에서 특정한 특징이 반복해서 나타나는 현상을 '분포의 특성'이라고 한다.
확보한 데이터에서 분포의 특징을 찾기 위해서 축약이라는 방식으로 데이터를 요약한다. 축약이란 수많은 숫자 데이터를 기준을 정하여 정리함으로써, 의미 있는 정보를 추출하는 행위다. 대표적인 축약 방법에는 값으로 요약해 내는 통계량과 그림으로 요약해내는 그래프가 있다.
데이터와 통계량
통계량이란 전체 데이터에서 나타나는 특징을 숫자로 요약한 값이다. 대표적인 통계량으로는 평균, 중앙값, 편차, 분산, 표준편차 등이 있다.
분산과 표준편차
분산과 표준편차는 데이터가 평균에서 떨어져 있는 정도인 산포도를 나타내는 값이다. 예를들어, 여성 대학생의 키가 모두 정확하게 145cm라면 산포도는 0이 되고, 산포도가 0일 때, 히스토그램은 특정 데이터에만 값이 집중되는 모양이다. 경험 법칙에 의하면 데이터 집합이 대칭을 이루는 흙더미 모양일 경우, 평균에서 표준편차의 1배 이내에 68%의 데이터가 들어 있고, 표준편차의 2배 이내에는 95%의 데이터가 들어 있다.
이에 따라 표준편차를 기준으로 데이터의 특수성을 평가할 수 있게 되는데, 표준편차의 1배 이내에 있는 68%의 데이터는 평범한 데이터라고 볼 수 있으며 2배 범위인 95% 바깥의 데이터는 특수한 데이터라고 해석할 수 있다.
(사례) A 스토어는 최우수 고객을 특별 관리하는 마케팅 프로그램을 시작하려고 한다. 상위 1% 결재자를 최우수 고객으로 분류하기 위해 단골 고객 3만명의 데이터를 분석한 결과, 고객당 평균 결제액이 50만 원이고 표준편차가 25만 원이었다. 이때, 대다수의 고객이 지출한 규모와 최우수 고객 기준은 아래와 같이 계산할 수 있다.
우선, 고객 중 70%가 표준편차의 1배 범위 안에 있어야 하므로 대부분의 고객이 지출한 규모는 25만원(50만원-25만원)~75만원(50만원+25만원) 사이라고 볼 수 있다. 그리고 표준편차의 3배 안에 99%의 데이터가 위치하므로 상위 1%를 구분하는 기준은 평균인 50만원에서 표준편차의 3배인 75를 더한 125만원이 된다. 따라서 A 스토어는 상위 1% 고객을 도출하려면 125만원 이상 지출하는 사람들을 최우수 고객으로 분류해낼 수 있다. 이처럼 데이터에서 일반적인 행동 패턴과 특별한 행동 패턴을 구분하는 기준으로 표준편차를 활용한다.
표본과 모집단의 관계
경제성과 최신성을 지키면서 의사 결정에 기여할 수 있는 적절한 표본 개수를 얻어내는 일은 데이터 분석 과정에서 매우 중요하다.
* 해당 글은 <비전공자도 배워서 바로 쓰는 비즈니스 데이터 분석 입문, 김진 외 2인> 을 읽으며 요약 정리한 글입니다.
'데이터분석' 카테고리의 다른 글
| 비즈니스 데이터 분석 입문 4. 데이터 분석과 통계 - 추론 통계 (2) (0) | 2022.03.16 |
|---|---|
| 비즈니스 데이터 분석 입문 4. 데이터 분석과 통계 - 추론 통계 (1) (0) | 2022.03.11 |
| 비즈니스 데이터 분석 입문 3. 데이터 분석과 통계 - 통계의 이해 (2) (0) | 2022.03.10 |
| 비즈니스 데이터 분석 입문 2. 현실 세계의 데이터 모델링 (0) | 2022.03.08 |
| 비즈니스 데이터 분석 입문 1. 메가 트렌드와 데이터 분석 (0) | 2022.03.08 |