Chapter4. 데이터 분석과 통계 - 추론 통계

논리적 추론과 피어슨 추론
데이터 기반 추론에는 대표적으로 논리적 추론과 피어슨 추론이 있다.
논리적 추론은 다음과 같다. A 상자에는 레몬 10개, B 상자에는 토마토 10개가 있다. 여기서 우리가 알 수 있는 사실은 다음과 같다.
- 상자에는 A 상자와 B 상자가 있다.
- A 상자에서 나오는 과일은 모두 레몬이다.
- B 상자에서 나오는 과일은 모두 토마토이다.
이때 어떤 물음표 상자에서 과일을 꺼냈더니 토마토가 나왔다면, 이 상자는 어떤 상자일까? 모두 토마토가 나오는 상자는 B 상자이므로 '물음표 상자는 B 상자다'라는 결론을 낼 수 있다. 이러한 추론이 바로 논리적 추론이다.
하지만 내용이 조금 수정된 상황에서의 문제를 살펴보자. 우리가 알 수 있는 사실이 다음과 같이 변경되었다.
- 상자에는 A 상자와 B 상자가 있다.
- A 상자에서 나오는 과일은 대체로 레몬이다.
- B 상자에서 나오는 과일은 대체로 토마토이다.
여전히 상자에는 A 상자와 B 상자가 있지만, 이번에는 A 상자에서 나오는 과일이 대체로 레몬이라고 한다. 상자에서 나온 과일이 레몬일 수도, 아닐 수도 있다는 뜻이다. 여기서 피어슨 추론 방식을 사용하면 어떻게 될까? 피어슨 추론은 '대체로'라는 단어 대신에 이를 P값, 즉 틀릴 확률로 표현한다.
피어슨 추론 방식에서 P값을 어떻게 활용하는지 살펴보자. 우리가 알 수 있는 사실을 다음과 같이 표현하였다.
- 상자에는 A 상자와 B 상자가 있다.
- A 상자에는 레몬이 9개, 토마토가 1개 들어있다.
- B 상자에는 토마토가 9개, 레몬이 1개 들어있다.
두 상자는 A 상자 또는 B 상자이고 A 상자에서 나오는 과일은 레몬이다. 이때 A 상자에 레몬이 9개, 토마토가 1개 들어 있다면 여기서 나온 과일이 레몬이 아닐 확률, 즉 틀릴 확률은 10%이다. 이 경우 'A 상자에서 나온 과일은 레몬이다'라는 사실에 따라 물음표 상자에서는 레몬이 나와야 하고, 그 경우의 틀릴 확률은 10%가 된다. 따라서 피어슨 추론은 이러한 틀릴 확률을 P=0.1이라고 표현한다.
- 피어슨 추론으로 도출한 결론: '? 상자는 B다' (p = 0.1)
이러한 방식으로 표현했을 때의 장점은 주장의 선명성이 더욱 잘 부각되며, 틀릴 확률을 수치로 표현함으로써 주장이 틀렸을 경우에도 신뢰도를 유지할 수 있다는 점이다(거짓말을 한 것이 아니라는점).
피어슨 추론은 우선, 가설을 수립하고 가설이 틀릴 확률을 계산한다. 그리고 틀릴 확률에 따라 가설이 참이라고 주장한다. 이때 틀릴 확률은 %로 표시하며, 이를 P값, 혹은 유의 확률이라고 부른다. P값은 추론통계에서 매우 중요한 수치이다.
유의성 검정 원리
보편적인 상황에도 불구하고 무언가 극단적인 결과가 실제로 관측될 가능성을 유의 확률이라고 하며, 다른 말로는 P값(P-Value)이라고도 한다. 다른 말로는, 하필이면 관찰한 표본이 사실상 발생하기 힘든 우연한 상황일 가능성으로 아주 특이한 상황일 가능성을 말한다.
유의 확률과 함께 이해해야 하는 개념인 유의 수준에 대해 알아보자. 유의 수준은 a로 표현하며, 1종 오류의 최대허용 한계이다. 1종 오류란, 위 사례에서 사실 친구가 축구경기를 본다고 하더라도 한국팀의 승무패는 차이가 없는데, 내 주장이 틀렸다고 잘못 판단하는 오류를 의미한다. 즉, 표본의 데이터를 취합해서 내린 결론이 틀렸을 때 감당할 수 있는 한계를 유의 수준이라고 한다. 사회 과학 분야에서는 유의 수준 0.05(5%)를 기준으로 의사결정을 많이 하고, 일반적인 상황에서도 보편적으로 활용한다.
데이터 분석에서는 표본 데이터를 취합해서 도출한 유의 확률과 유의 수준을 비교하는 방식으로 주장을 검증할 수 있다. 유의 확률 P가 유의 수준 a보다 크다면, 보편적 현상을 결론으로 채택할 확률이 크다고 볼 수 있으며, 반대로 P값이 유의 수준보다 작으면 표본 데이터를 취합한 결과 데이터가 보편적 현상으로 해석하기 힘든 이상한 상황이라고 해석할 수 있게 된다.
귀무가설이란 보편적으로 알려진 기존 사실을 주장으로 표현하는 것("모집단의 특성에 대해서 옳다고 제안하는 잠정적 주장")을 말하는데, 다른 말로는 0가설 또는 무효화 가설이라고 한다. 'A와 B는 차이가 없다', 'A와 B는 관계가 없다', 'A는 B에 영향을 주지 않는다'는 방식으로 귀무가설을 주로 표현한다. 예를 들어, 중학교 3학년 학생의 평균 키는 170.5cm라는 주장을 통계적으로 검정하려고 한다면, 이에 대한 귀무가설은 "중학교 3학년 학생의 평균키는 170.5cm와 같다.
반대로 대립가설은 귀무가설이 거짓이라면 대안적으로 참이 되는 가설을 말한다. '모집단의 모수는 00과 다르다'고 표현하거나 "모집단의 모수는 00과 차이가 있다'는 방식으로 대립가설을 주로 표현한다. 예를 들어 중학교 3학년 학생의 평균 키는 170.5cm라는 주장에 대한 대립가설은 "중학교 3학년 학생의 평균 키는 170.5cm와 다르다."가 될 것이다.
유의성 검정 기본 원리를 간단히 정리해 보자. 데이터에서 증명하고자 하는 내용을 도출하여 가설로 세운다. 이 가설이 맞는지 판단하기 위해 통계량을 구한다. 유의성 검정으로 통계량에서 해당 가설이 틀릴 확률을 파악한다. 즉, P값이 유의 수준 0.05보다 큰지 작은지 여부로 가설의 채택 여부를 결정하는 과정이 바로 유의성 검정 원리라고 이해하면 된다.
목적에 맞는 유의성 검정
우리가 현실에서 접하는 다양한 비즈니스 문제를 해결할 때 유의성 검정 도구를 활용할 수 있다.
유의성 검정에는 세 가지 기본 모형이 있다. 성별에 따른 주류 선호도를 판단하려면 문자와 문자 데이터 간 관련성을 검증하는 카이제곱검정을 선택한다. 그리고 성별에 따른 음주 선호도를 1부터 5까지 숫자로 나타낸 후 차이가 있는지 알아보려면 문자와 숫자 데이터 간 관련성을 검증하는 T-검정을 사용한다. 마지막으로, 음주 선호도와 음주 빈도에 어떤 관계가 있는지 알아보려면 숫자와 숫자 데이터 간 관련성을 검증하는 회귀분석을 사용한다.
* 해당 글은 <비전공자도 배워서 바로 쓰는 비즈니스 데이터 분석 입문, 김진 외 2인> 을 읽으며 요약 정리한 글입니다.
'데이터분석' 카테고리의 다른 글
| 비즈니스 데이터 분석 입문 5. 비즈니스 데이터 분석 실무 (0) | 2022.03.16 |
|---|---|
| 비즈니스 데이터 분석 입문 4. 데이터 분석과 통계 - 추론 통계 (2) (0) | 2022.03.16 |
| 비즈니스 데이터 분석 입문 3. 데이터 분석과 통계 - 통계의 이해 (2) (0) | 2022.03.10 |
| 비즈니스 데이터 분석 입문 3. 데이터 분석과 통계 - 통계의 이해(1) (0) | 2022.03.08 |
| 비즈니스 데이터 분석 입문 2. 현실 세계의 데이터 모델링 (0) | 2022.03.08 |