2과목 빅데이터 탐색 키워드 정리

제3장 통계기법 이해
데이터 요약 값
데이터 분석을 위해 간단한 기초 통계량을 중심으로 제시된 값
표본 추출
- 모집단의 부분 집합을 추출한 것
- 추출된 표본(Sample)은 모집단과 같은 대표성을 가진다고 가정
- 모집단 전체에 대한 분석이 사실상 불가능한 제약으로 표본 이용
- 전체 대상의 특성을 대표할 수 있는지의 여부 확인
- 표본의 대표성이 중요
확률적 표본 추출 방법
- 단순 무작위 추출 : 표본이 추출될 확률이 동일한 경우
- 층화 표본 추출 : 두 개 이상의 층으로 나누고 각 층마다 독립적으로 단순 임의 추출
- 집락(군집) 표본 추출 : 이질적인 군집으로 구분, 무작위로 몇 개의 군집을 표본 추출
- 계통 표본 추출 : 모집단 목록에서 일정한 순서에 따라 요소 추출
비확률적 표본추출 방법
- 할당 표본 추출 : 모집단을 일정한 카테고리로 나눈 후 각 카테고리에서 정해진 표본 수만큼 작위적으로 추출
- 유의 표본 추출 : 연구자가 연구목적의 달성에 도움이 되는 구성요소를 의도적으로 추출
- 임의 표본 추출 : 정해진 표본 선출 시까지 모집단의 일정 단위 또는 사례 표집
- 누적 표본 추출 : 소수 인원을 조사원으로 활용하여 주위 사람들을 조사
확률변수와 확률분포
- 확률변수(Random Variable) : 표본 공간의 근원 사상을 정수나 실수로 표현하여 나타낸 변수
- 확률분포(Probability Distribution) : 확률변수를 중심으로 확률변수의 특성에 따라 확률로 표현한 분포
이산 확률분포
- 확률변수가 일정한 수로 나타나는 경우
- 베르누이 시행 : 확률변수가 성공 아니면 실패로 표본 공간이 이루어진 경우
- 이항 분포 : 성공확률이 p인 베르누이 시행을 n번 독립적으로 반복할 때의 성공 횟수
- 포아송 분포 : 단위 시간당 또는 단위면적당 사건의 평균 횟수가 몇 번인지를 확률변수로 정의
- 초기하 분포 : 유한 모집단에서 비 복원 추출의 경우 성공의 수를 확률변수로 정의
- 기하 분포 : 첫 번째 성공이 일어날 때까지의 베르누이 시행 횟수
- 음이항 분포 : 성공확률이 P인 베르누이 시행을 n번 독립적으로 반복할 때 K번 성공하기까지의 시행 횟수
- 다항 분포 : 여러 번의 독립 시행에서 각각의 값이 특정 횟수가 나타날 횟수
연속 확률분포
- 확률변수가 연속적인 수로 나타나는 경우
- 정규분포 : 모수인 평균과 표준편차에 의해 모양 결정, 평균을 중심으로 종모양의 분포
- 표준 정규분포 : 평균 = 0, 표준편차 =1인 정규분포
- t분포 : 표준 정규분포를 따르는 확률변수가 표준편차를 알 수 없어 추정 값을 사용하거나 표본의 크기가 작을 때 이용. 자유도에 따라 모양이 변함
- 카이제곱 분포 : 확률변수들이 각각 표준 정규분포를 따르고 서로 독립일 때 확률변수의 제곱의 합의 분포
- F분포 : 두 정규 모집단에서 추출된 표본으로부터 두 모집단 분산에 대한 검정 시 사용
표본 분포와 통계량
- 표본분포 : 추출된 표본(통계량)의 확률분포, 모집단에서 일부분을 추출하여 표본을 만들고 추출된 표본을 이용하여 분포에 대한 추론을 수행함
- 통계량 : 표본집단의 특성 값, 모평균을 추론하기 위해 표본 평균을 활용함
중심 극한 정리
표본의 크기가 큰 경우에 표본 평균의 분포는 모집단의 분포와 무관하게 정규분포를 따름
점추정
- 모수를 하나의 값으로 추정하여 나타냄
- 모평균 추정을 위한 표본 평균값
- 모분산 추정을 위한 표본 분산
- 모비율 추정을 위한 표본집단의 비율 등
- 추정량(Estimato) : 모수를 추정하기 위해 만들어진 표본 통계량
- 추정치(Estimate) : 주어진 관측값으로부터 계산된 통계량 값
- 표준오차 : 추정량의 정확도를 추정하는 도구. 추정량의 표준편차 이용
구간 추정
- 신뢰구간 : 추정량의 분포를 이용해서 표본으로부터 모수 값을 포함할 것으로 예상되는 구간
- 신뢰 수준 : 신뢰구간이 모수를 포함할 확률
표본의 최소 크기
적정한 신뢰구간을 이용하여 표본의 크기를 구함. 일반적으로 모집단에 대한 분포의 가정이 없을 때 중심 극한 정리를 만족하도록 하기 위해서 표본의 크기는 30 이상이 되도록 함
추정량의 성질
- 불편성(비 편향성) : 추정량의 기댓값과 모수의 실제값이 같아야 함
- 효율성(유효성) : 추정량의 분산이 작아야 함
- 일치성 : 표본의 크기가 커질수록 추정량이 모수에 일치해야 함
- 충분성 : 동일한 표본으로부터 얻은 추정량이 모집단의 모수에 대한 정보를 더 많이 제공해야 함
가설 검정
- 모집단의 모수에 대한 추정 값에 대한 검정
- 통계적 가설 : 표본의 특성을 나타내는 모수에 대한 주장
- 귀무가설 : 모집단의 모수에 대해 어떤 조건을 가정하여 설정된 가설(거짓이 명확히 규명될 때까지 참인 것으로 인정되는 주장)
- 대립가설 : 귀무가설의 반대되는 가설(모수에 차이가 있다는 것을 나타냄. 효과가 있다는 주장)
유의 수준
- 유의 수준 : 귀무가설이 참인데 참인 귀무가설을 기각하면서 생기는 오류(제1종 오류)
- 유의 수준을 기준으로 기각과 채택을 결정함
- 유의 확률 : 주어진 통계량에서 귀무가설을 기각할 수 있는 최소의 유의 수준 값
- 검정 통계량 : 모집단의 부분집합인 표본으로부터 검정에 대한 결론을 내리고 귀무가설을 기각하거나 채택하는 결정을 내리는 데 활용되는 표본의 함수
- 채택역 : 귀무가설을 채택하는 검정 통계량의 영역
- 기각역 : 귀무가설을 기각하는 검정 통계량의 영역
가설 검정 절차
가설 수립 -> 유의수준 결정 -> 검정 통계량 계산 -> 기각역 설정
'데이터분석' 카테고리의 다른 글
| 빅데이터 분석기사 준비 - 3. 빅데이터 모델링 :: 분석기법 적용 (0) | 2022.03.31 |
|---|---|
| 빅데이터 분석기사 준비 - 3. 빅데이터 모델링 :: 분석모형 설계 (0) | 2022.03.27 |
| 빅데이터 분석기사 준비 - 2. 빅데이터 탐색 :: 데이터 탐색 (0) | 2022.03.26 |
| 빅데이터 분석기사 준비 - 2. 빅데이터 탐색 :: 데이터 전처리 (0) | 2022.03.24 |
| 빅데이터 분석기사 준비 - 1. 빅데이터 분석 기획 :: 데이터 수집 및 저장 (0) | 2022.03.23 |