본문 바로가기

데이터분석

빅데이터 분석기사 준비 - 2. 빅데이터 탐색 :: 데이터 탐색

2과목 빅데이터 탐색 키워드 정리

제2장 데이터 탐색

 

데이터 탐색(EDA : Explorartory Data Analysis)

  • 쌓여 있는 데이터를 기반으로 연구 목적에 맞는 가설을 세우고 데이터를 분석하는 작업으로 데이터의 구조와 특징을 파악하고 분석을 통해 얻은 정보를 토대로 통계적 분석 모형을 만듦
  • 목적 : 데이터 이해, 연구목적에 맞는 데이터 탐색, 시각화를 통해 다음 단계 필요한 데이터 생성, 데이터에 포함된 변동성 유형 파악, 변수들 사이 공통 변동 파악, 이상점 파악 및 분석

 

EDA 절차 

 데이터 속성 파악 -> 데이터 결측치 확인 -> 데이터 이상치 확인

 

상관관계 분석

 두 변수 사이에 얼마나 선형적인 관계가 있는지를 파악하기 위해서 사용되는 통계적 방법

 

산점도(산포도)

 두 개의 변수가 짝을 이루는 경우 두 변수 사이의 관계를 그림으로 표현한 것

 

상관계수

  • 두 변수의 직선화 정도를 파악할 수 있는 통계량
  • 피어슨 상관계수 : 두 변수가 연속형 자료인 경우 두 변수 사이의 연관성 정도 파악
  • 스피어만 상관계수 : 분석하려는 데이터가 순위를 나타내는 순위형 자료(서열 척도)인 경우

 

통계학

  • 기술 통계학 : 자료의 특성을 쉽게 파악할 수 있도록 자료의 대푯값을 구하고 자료를 간단히 그래프로 표현하여 분석
  • 추측 통계학 : 자료에 있는 불확실한 사실에 대한 추론을 하는 것으로 모집단에서 표본을 추출해서 선출된 표본으로 모집단의 특성 파악
  • 모집단 : 관심의 대상이 되는 전체 집합
  • 표본집단 : 모집단에서 추출된 일부
  • 모수 : 모집단의 특성을 수치로 나타낸 것
  • 통계량 : 표본집단의 특성을 수치로 나타낸 것

 

중심위치의 기초 통계량

 산술평균, 가중 산술평균, 기하평균, 조화 평균, 중위수, 최빈값, 사분위수 등

 

흩어짐(퍼짐) 정도를 나타내는 기초 통계량

 범위, 분산, 표준편차, 변동계수(표본평균/표본편차), 사분위 범위 등

 

분포의 모양을 나타내는 척도

  • 왜도(Skewness) : 자료 분포의 비대칭도 파악. 왜도 = 0 이면 대칭 분포, 왜도가 +이면 왼쪽으로 기울고 -이면 오른쪽으로 기울어진 분포 모양
  • 첨도(Kurtosis) : 분포가 중심에서 얼마나 뾰족한지를 나타내는 통계량. 3보다 작으면 정규분포보다 뾰족한 모양. 3보다 크면 정규분포보다 완만한 모양을 나타냄

 

시각적 데이터 탐색

  • 시각 이해의 계층도를 통해 데이터, 정보, 지식, 지혜 사이의 계층적 관계 설명
  • 데이터 사이의 관계 등을 찾아 정보를 발견하고 정보가 좀 더 조직화되었을 때 지식이 되며, 정보가 구조화되어 적용되었을 때 지혜가 됨

 

시공간 데이터

  • 공간적 객체에 시간의 개념이 추가된 것. 시간에 따라 위치나 형상이 변하는 데이터
  • 데이터를 공간과 시간의 흐름상에 위치시킬 수 있는 거리 및 시간 속성을 가짐
  • 시공간 데이터를 저장하기 위한 공간 데이터 타입은 객체의 기하학적인 특성을 기준으로 저장됨(포인트, 라인, 폴리곤, 폴리 라인 등)
  • 이산적 변화 : 시간의 흐름에 따라 시와 군의 통합으로 인해 상호간의 행정경계가 변화
  • 연속적 변화 : 일정한 주기로 수집된 기상정보를 이용하여 기상전선의 변화를 나타냄

 

다변량 데이터 분석

  • 많은 수의 케이스를 특성이 비슷한 몇 가지 집단으로 분류하여 전체 케이스가 가지고 있는 의미를 분류된 몇 개의 집단으로 설명
  • 변수의 차원을 줄이는 방법 : 다변량 회귀 분석, 다변량 분산 분석, 주성분 분석, 요인 분석, 정준상관 분석
  • 케이스의 차원을 줄이는 방법 : 군집 분석, 판별 분석, 다차원 척도법

 

비정형 데이터 탐색

 일반적으로 비정형 데이터 탐색 및 정련 과정을 통해 정형 데이터로 만든 후 분류, 군집화, 회귀분석, 요약, 이상 감지 분석 등의 데이터 마이닝을 통해 의미 있는 정보를 발굴한다. 

 

비정형 데이터 탐색 및 분석 방법

  • 통계기반의 데이터 분석 도구 사용
  • OLAP(Online Analytical Processing) 분석
  • 데이터 내에 숨겨진 관계, 패턴, 경향 등을 추출
  • 텍스트 마이닝, 오피니언 마이닝, 마이닝, 소셜 네트워크 마이닝 기법 활용