2과목 빅데이터 탐색 키워드 정리
제2장 데이터 탐색
데이터 탐색(EDA : Explorartory Data Analysis)
- 쌓여 있는 데이터를 기반으로 연구 목적에 맞는 가설을 세우고 데이터를 분석하는 작업으로 데이터의 구조와 특징을 파악하고 분석을 통해 얻은 정보를 토대로 통계적 분석 모형을 만듦
- 목적 : 데이터 이해, 연구목적에 맞는 데이터 탐색, 시각화를 통해 다음 단계 필요한 데이터 생성, 데이터에 포함된 변동성 유형 파악, 변수들 사이 공통 변동 파악, 이상점 파악 및 분석
EDA 절차
데이터 속성 파악 -> 데이터 결측치 확인 -> 데이터 이상치 확인
상관관계 분석
두 변수 사이에 얼마나 선형적인 관계가 있는지를 파악하기 위해서 사용되는 통계적 방법
산점도(산포도)
두 개의 변수가 짝을 이루는 경우 두 변수 사이의 관계를 그림으로 표현한 것
상관계수
- 두 변수의 직선화 정도를 파악할 수 있는 통계량
- 피어슨 상관계수 : 두 변수가 연속형 자료인 경우 두 변수 사이의 연관성 정도 파악
- 스피어만 상관계수 : 분석하려는 데이터가 순위를 나타내는 순위형 자료(서열 척도)인 경우
통계학
- 기술 통계학 : 자료의 특성을 쉽게 파악할 수 있도록 자료의 대푯값을 구하고 자료를 간단히 그래프로 표현하여 분석
- 추측 통계학 : 자료에 있는 불확실한 사실에 대한 추론을 하는 것으로 모집단에서 표본을 추출해서 선출된 표본으로 모집단의 특성 파악
- 모집단 : 관심의 대상이 되는 전체 집합
- 표본집단 : 모집단에서 추출된 일부
- 모수 : 모집단의 특성을 수치로 나타낸 것
- 통계량 : 표본집단의 특성을 수치로 나타낸 것
중심위치의 기초 통계량
산술평균, 가중 산술평균, 기하평균, 조화 평균, 중위수, 최빈값, 사분위수 등
흩어짐(퍼짐) 정도를 나타내는 기초 통계량
범위, 분산, 표준편차, 변동계수(표본평균/표본편차), 사분위 범위 등
분포의 모양을 나타내는 척도
- 왜도(Skewness) : 자료 분포의 비대칭도 파악. 왜도 = 0 이면 대칭 분포, 왜도가 +이면 왼쪽으로 기울고 -이면 오른쪽으로 기울어진 분포 모양
- 첨도(Kurtosis) : 분포가 중심에서 얼마나 뾰족한지를 나타내는 통계량. 3보다 작으면 정규분포보다 뾰족한 모양. 3보다 크면 정규분포보다 완만한 모양을 나타냄
시각적 데이터 탐색
- 시각 이해의 계층도를 통해 데이터, 정보, 지식, 지혜 사이의 계층적 관계 설명
- 데이터 사이의 관계 등을 찾아 정보를 발견하고 정보가 좀 더 조직화되었을 때 지식이 되며, 정보가 구조화되어 적용되었을 때 지혜가 됨
시공간 데이터
- 공간적 객체에 시간의 개념이 추가된 것. 시간에 따라 위치나 형상이 변하는 데이터
- 데이터를 공간과 시간의 흐름상에 위치시킬 수 있는 거리 및 시간 속성을 가짐
- 시공간 데이터를 저장하기 위한 공간 데이터 타입은 객체의 기하학적인 특성을 기준으로 저장됨(포인트, 라인, 폴리곤, 폴리 라인 등)
- 이산적 변화 : 시간의 흐름에 따라 시와 군의 통합으로 인해 상호간의 행정경계가 변화
- 연속적 변화 : 일정한 주기로 수집된 기상정보를 이용하여 기상전선의 변화를 나타냄
다변량 데이터 분석
- 많은 수의 케이스를 특성이 비슷한 몇 가지 집단으로 분류하여 전체 케이스가 가지고 있는 의미를 분류된 몇 개의 집단으로 설명
- 변수의 차원을 줄이는 방법 : 다변량 회귀 분석, 다변량 분산 분석, 주성분 분석, 요인 분석, 정준상관 분석
- 케이스의 차원을 줄이는 방법 : 군집 분석, 판별 분석, 다차원 척도법
비정형 데이터 탐색
일반적으로 비정형 데이터 탐색 및 정련 과정을 통해 정형 데이터로 만든 후 분류, 군집화, 회귀분석, 요약, 이상 감지 분석 등의 데이터 마이닝을 통해 의미 있는 정보를 발굴한다.
비정형 데이터 탐색 및 분석 방법
- 통계기반의 데이터 분석 도구 사용
- OLAP(Online Analytical Processing) 분석
- 데이터 내에 숨겨진 관계, 패턴, 경향 등을 추출
- 텍스트 마이닝, 오피니언 마이닝, 웹 마이닝, 소셜 네트워크 마이닝 기법 등 활용
'데이터분석' 카테고리의 다른 글
빅데이터 분석기사 준비 - 3. 빅데이터 모델링 :: 분석모형 설계 (0) | 2022.03.27 |
---|---|
빅데이터 분석기사 준비 - 2. 빅데이터 탐색 :: 통계기법 이해 (0) | 2022.03.26 |
빅데이터 분석기사 준비 - 2. 빅데이터 탐색 :: 데이터 전처리 (0) | 2022.03.24 |
빅데이터 분석기사 준비 - 1. 빅데이터 분석 기획 :: 데이터 수집 및 저장 (0) | 2022.03.23 |
빅데이터분석기사 준비 - 1. 빅데이터 분석 기획 :: 데이터 분석 계획 (0) | 2022.03.22 |