Chapter4. 데이터 분석과 통계 - 추론통계 (2)
카이제곱검정이란?
문자와 문자 데이터, 즉 범주형 변수간의 관련성을 검증하는 방법이다. 이 검정 방법은 수집한 자료와 빈도가 이론상 기대 빈도와 통계적으로 다른지 판단하고자 할 때 사용하는 추론 통계 방식이다.
카이제곱검정 방법은 다음과 같다.
1. 각 범주의 데이터를 취합한다. (관찰값을 구한다)
2. 각 범주에 대한 기댓값을 구한다.
3. 범주별 카이제곱 을 구한다.
4. 구한 값을 합하여 전체 카이제곱값을 구한다.
5. 카이제곱의 자유도를 구한다.
6. 이를 유의 수준에 해당하는 카이제곱 값과 비교하여 결론을 도출한다.
카이제곱검정 : 월마트(Walmart) 영수증
월마트는 고객이 어떤 상품을 함께 구매하는지 알아내고자 했다. 매장에 상품을 진열할 때 고객이 동시에 구매할 가능성이 높은 상품을 가까이 두면 고객의 편의성도 높이고, 마트의 매출도 높일 수 있기 때문이다. 그래서 월마트는 수많은 고객의 구매 영수증을 분석하였다.
먼저, 탐색적 데이터 분석을 거쳐 '맥주 구매와 기저귀 구매 사이에는 관련성이 없다'라는 귀무가설을 도출했다. 이제 이 귀무가설을 기각할지, 아니면 채택할지를 판단해야 한다. 판단을 위해 카이제곱검정을 실시한 결과, 유의 확률 P값이 0.005가 나왔다. 유의 수준 0.5를 기준으로 의사 결정을 내리면, P값이 유의 수준보다 작으므로 귀무가설을 기각한다. 따라서 '맥주 구매와 기저귀 구매 사이에는 관련성이 있다'라는 대립가설을 채택하고, 맥주와 기저귀를 근접하게 배치하여 매출을 증가시키면 된다.
T검정이란?
T-검정은 두 집단 간에 평균의 차이가 있는지, 있다면 통계적으로 유의한 차이인지를 분석하는 검증 방법이다. T-검정을 활용하는 간단한 사례로는 강남권과 비강남권 학생들의 성적 차이를 비교하는 경우가 있다.
T검정 : 이메일 모금 실험
T-검정은 남녀 간 음주 선호도 차이나 지역별 성적 차이, 청년층과 노년층의 임금 차이 등 문자 데이터와 숫자 데이터 간 관련성을 검증할 때 활용한다. 검정 순서는 다른 검정 방법과 유사하다. 먼저 '관측된 값은 차이가 없다'는 귀무가설과 '관측된 값은 차이가 있다'는 대립가설을 세운다. 가설을 검증하기 위한 통계랑을 확보하고 P값을 계산한다. 마지막으로 계산한 P값에 따라서 귀무가설과 대립가설 중 하나를 채택한다.
차이점은 P값을 계산하는 과정에서 두 집단이 등분산인지 이분산인지 판단하는 등분산 검정을 진행해야 한다는 점이다. 각 유형은 적용하는 수학 공식이 달라 유의 확률 계산 결과가 다르게 나온다. 등분산은 두 표본집단의 분산이 같은 경우이며, 이분산은 두 표본집단의 분산이 다른 경우이다. 가령, '남녀 성별에 따른 주종 선호도'는 집단 간 차이가 크지 않으므로 등분산일 가능성이 높고, '소득 수준에 따른 평균 지출 규모'는 저소득층과 고소득층이라는 집단 자체의 특성상 지출 규모의 차이가 매우 클 가능성이 높아서 이분산으로 분류될 가능성이 높다.
회귀분석이란?
회귀분석은 숫자와 숫자로 이루어진 변수 사이에서 나타나는 경향성을 설명한다. 변수 사이에 있을 법한 관계를 바탕으로 세운 여러 가설을 회귀 모형이라고 한다. 그리고 회귀 모형을 기반으로 데이터의 영향, 가설 실혐, 인과 관계 모델링 등 통계적 예측에 회귀식을 적용할 수 있다.
* 해당 글은 <비전공자도 배워서 바로 쓰는 비즈니스 데이터 분석 입문, 김진 외 2인> 을 읽으며 요약 정리한 글입니다.
'데이터분석' 카테고리의 다른 글
비즈니스 데이터 분석 입문 6. 머신러닝 입문 (0) | 2022.03.16 |
---|---|
비즈니스 데이터 분석 입문 5. 비즈니스 데이터 분석 실무 (0) | 2022.03.16 |
비즈니스 데이터 분석 입문 4. 데이터 분석과 통계 - 추론 통계 (1) (0) | 2022.03.11 |
비즈니스 데이터 분석 입문 3. 데이터 분석과 통계 - 통계의 이해 (2) (0) | 2022.03.10 |
비즈니스 데이터 분석 입문 3. 데이터 분석과 통계 - 통계의 이해(1) (0) | 2022.03.08 |