본문 바로가기

데이터분석

빅데이터 분석기사 준비 - 2. 빅데이터 탐색 :: 통계기법 이해

2과목 빅데이터 탐색 키워드 정리

제3장 통계기법 이해

 

데이터 요약 값

 데이터 분석을 위해 간단한 기초 통계량을 중심으로 제시된 값

 

표본 추출

  • 모집단의 부분 집합을 추출한 것
  • 추출된 표본(Sample)은 모집단과 같은 대표성을 가진다고 가정
  • 모집단 전체에 대한 분석이 사실상 불가능한 제약으로 표본 이용
  • 전체 대상의 특성을 대표할 수 있는지의 여부 확인
  • 표본의 대표성이 중요

 

확률적 표본 추출 방법

  • 단순 무작위 추출 : 표본이 추출될 확률이 동일한 경우
  • 층화 표본 추출 : 두 개 이상의 층으로 나누고 각 층마다 독립적으로 단순 임의 추출
  • 집락(군집) 표본 추출 : 이질적인 군집으로 구분, 무작위로 몇 개의 군집을 표본 추출
  • 계통 표본 추출 : 모집단 목록에서 일정한 순서에 따라 요소 추출

 

비확률적 표본추출 방법

  • 할당 표본 추출 : 모집단을 일정한 카테고리로 나눈 후 각 카테고리에서 정해진 표본 수만큼 작위적으로 추출
  • 유의 표본 추출 : 연구자가 연구목적의 달성에 도움이 되는 구성요소를 의도적으로 추출
  • 임의 표본 추출 : 정해진 표본 선출 시까지 모집단의 일정 단위 또는 사례 표집
  • 누적 표본 추출 : 소수 인원을 조사원으로 활용하여 주위 사람들을 조사

 

확률변수와 확률분포

  • 확률변수(Random Variable) : 표본 공간의 근원 사상을 정수나 실수로 표현하여 나타낸 변수
  • 확률분포(Probability Distribution) : 확률변수를 중심으로 확률변수의 특성에 따라 확률로 표현한 분포

 

이산 확률분포

  • 확률변수가 일정한 수로 나타나는 경우
  • 베르누이 시행 : 확률변수가 성공 아니면 실패로 표본 공간이 이루어진 경우
  • 이항 분포 : 성공확률이 p인 베르누이 시행을 n번 독립적으로 반복할 때의 성공 횟수
  • 포아송 분포 : 단위 시간당 또는 단위면적당 사건의 평균 횟수가 몇 번인지를 확률변수로 정의
  • 초기하 분포 : 유한 모집단에서 비 복원 추출의 경우 성공의 수를 확률변수로 정의
  • 기하 분포 : 첫 번째 성공이 일어날 때까지의 베르누이 시행 횟수
  • 음이항 분포 : 성공확률이 P인 베르누이 시행을 n번 독립적으로 반복할 때 K번 성공하기까지의 시행 횟수
  • 다항 분포 : 여러 번의 독립 시행에서 각각의 값이 특정 횟수가 나타날 횟수

연속 확률분포

  • 확률변수가 연속적인 수로 나타나는 경우
  • 정규분포 : 모수인 평균과 표준편차에 의해 모양 결정, 평균을 중심으로 종모양의 분포 
  • 표준 정규분포 : 평균 = 0, 표준편차 =1인 정규분포 
  • t분포 : 표준 정규분포를 따르는 확률변수가 표준편차를 알 수 없어 추정 값을 사용하거나 표본의 크기가 작을 때 이용. 자유도에 따라 모양이 변함
  • 카이제곱 분포 : 확률변수들이 각각 표준 정규분포를 따르고 서로 독립일 때 확률변수의 제곱의 합의 분포 
  • F분포 : 두 정규 모집단에서 추출된 표본으로부터 두 모집단 분산에 대한 검정 시 사용

 

표본 분포와 통계량

  • 표본분포 : 추출된 표본(통계량)의 확률분포, 모집단에서 일부분을 추출하여 표본을 만들고 추출된 표본을 이용하여 분포에 대한 추론을 수행함
  • 통계량 : 표본집단의 특성 값, 모평균을 추론하기 위해 표본 평균을 활용함

 

중심 극한 정리

 표본의 크기가 큰 경우에 표본 평균의 분포는 모집단의 분포와 무관하게 정규분포를 따름

 

점추정

  • 모수를 하나의 값으로 추정하여 나타냄
  • 모평균 추정을 위한 표본 평균값
  • 모분산 추정을 위한 표본 분산
  • 모비율 추정을 위한 표본집단의 비율 등
  • 추정량(Estimato) : 모수를 추정하기 위해 만들어진 표본 통계량
  • 추정치(Estimate) : 주어진 관측값으로부터 계산된 통계량 값
  • 표준오차 : 추정량의 정확도를 추정하는 도구. 추정량의 표준편차 이용

 

구간 추정

  • 신뢰구간 : 추정량의 분포를 이용해서 표본으로부터 모수 값을 포함할 것으로 예상되는 구간
  • 신뢰 수준 : 신뢰구간이 모수를 포함할 확률

 

표본의 최소 크기

 적정한 신뢰구간을 이용하여 표본의 크기를 구함. 일반적으로 모집단에 대한 분포의 가정이 없을 때 중심 극한 정리를 만족하도록 하기 위해서 표본의 크기는 30 이상이 되도록 함

 

추정량의 성질

  • 불편성(비 편향성) : 추정량의 기댓값과 모수의 실제값이 같아야 함
  • 효율성(유효성) : 추정량의 분산이 작아야 함
  • 일치성 : 표본의 크기가 커질수록 추정량이 모수에 일치해야 함
  • 충분성 : 동일한 표본으로부터 얻은 추정량이 모집단의 모수에 대한 정보를 더 많이 제공해야 함

 

가설 검정

  • 모집단의 모수에 대한 추정 값에 대한 검정
  • 통계적 가설 : 표본의 특성을 나타내는 모수에 대한 주장
  • 귀무가설 : 모집단의 모수에 대해 어떤 조건을 가정하여 설정된 가설(거짓이 명확히 규명될 때까지 참인 것으로 인정되는 주장)
  • 대립가설 : 귀무가설의 반대되는 가설(모수에 차이가 있다는 것을 나타냄. 효과가 있다는 주장)

 

유의 수준

  • 유의 수준 : 귀무가설이 참인데 참인 귀무가설을 기각하면서 생기는 오류(제1종 오류)
  • 유의 수준을 기준으로 기각과 채택을 결정함
  • 유의 확률 : 주어진 통계량에서 귀무가설을 기각할 수 있는 최소의 유의 수준 값
  • 검정 통계량 : 모집단의 부분집합인 표본으로부터 검정에 대한 결론을 내리고 귀무가설을 기각하거나 채택하는 결정을 내리는 데 활용되는 표본의 함수
  • 채택역 : 귀무가설을 채택하는 검정 통계량의 영역
  • 기각역 : 귀무가설을 기각하는 검정 통계량의 영역

 

가설 검정 절차

 가설 수립 -> 유의수준 결정 -> 검정 통계량 계산 -> 기각역 설정