본문 바로가기

데이터분석

빅데이터 분석기사 준비 - 3. 빅데이터 모델링 :: 분석기법 적용

3과목 빅데이터 모델링 키워드 정리

 

제2장 분석기법 적용

 

회귀 분석(Regression Analysis)

  • 변수들 사이에 함수적인 관계를 알아보기 위해서 수행하는 통계적 기법으로 독립변수와 종속변수 사이의 함수식 유도, 독립변수들 값을 이용해서 종속변수의 값을 예측
  • 단순 회귀 분석 : 독립변수와 종속변수가 각각 1개인 경우
  • 다중회귀 분석 : 독립변수의 수가 2개 이상, 종속변수가 1개인 경우
  • 결정계수(Coefficient of Determination) : 총 변동 중에서 회귀식에 의하여 설명되는 변동의 비율로 회귀모형의 설명력 나타냄, 단순 회귀 분석모형의 경우 결정계수의 값이 1에 가까울수록 점들이 직선 주위에 밀집되어 나타나게 되어 회귀에 의한 설명이 잘 됨을 뜻함
  • 단순 회귀 분석모형의 가정 : 선형성, 등분산성, 독립성, 정규성
  • 독립변수 선택 방법 : 전진 선택, 후진 제거, 단계별 선택, 일반적 회귀식 이용
  • 절차 : 독립 및 종속변수 결정 -> 선형 관계 확인 -> 회귀계수 추정(최소 제곱 법) -> 유의성 검정 -> 독립변수별 회귀계수의 유의성 검정(분산 분석표 활용)
  • 회귀 분석의 조율 : 단순, 다중, 다향, 비선형 회귀 분석 등

 

다중공선성 (Multicollinearity)

 회귀 분석을 실시할 경우 독립변수들 사이에 강한 상관관계가 나타나는 문제. 분산 팽창 지수를 구하여 독립변수들 사이의 상관관계 판정(분상 팽창 지수가 10 이상이면 독립변수 간에 상관관계 존재)

 

분산 분석(ANOVA, Analysis of Variance)

 세 개 이상의 집단 간 평균에 대한 검정을 위해 사용하는 기법으로 분산을 기반으로 하여 통계적인 평균을 비교, 집단 내 분산과 집단 간 분산비(F검정통계량)를 구하여 통계적인 차이가 있는지를 검정. 종속변수의 수가 1개인 경우 단일 변량 분산분석(독립변수가 1개인 경우 일원 분산 분석 2개인 경우 이원 분산 분석), 2개 이상인 경우 다변량 분산 분석 이용

 

로지스틱 회귀 분석(Logistic Regression) 

  • 독립변수와 종속변수 사이의 관계를 함수로 나타낼 때, 종속변수가 범주형으로 주어진 자료의 경우 새로운 자료가 어느 범주에 속하게 될지를 예측
  • 로지스틱 회귀모형식 : 이항형 로지스틱 회귀모형을 위해 시그모이드(Sigmoid) 함수 이용. 독립변수는 연속형 형태의 자료 종속변수는 (성공, 실패), (가능, 불가능), (합격, 불합격) 등의 범주(이항) 형
  • 의료, 통신, 데이터 마이닝 등의 분야에서 분류와 예측에 활용

 

의사결정 나무(Decision Tree)

  • 의사결정 구조를 나무 모형으로 나타내는 것으로 과거에 수집된 자료를 분석해서 이들 사이에 존재하는 패턴을 나타내며, 분류 모형에 주로 사용. 전체 자료를 몇 개의 소집단 분류하거나 예측을 수행하는 데 활용
  • 트리 구조 형성 알고리즘 : CHAID(Chi-squared Automatic Interaction Detection, 이산형 목표 변수의 경우 카이제곱, 연속형인 경우 F검정 통계량을 이용하여 분리 구조 생성), CART(Classification and Regression Tree, Gini Index 이용), C4.5(ㄷEntropy Index 이용) 등 기업 부도 예측, 주가 상한가 종목 예측, 환율 예측, 경제 전망 등에 활용

 

인공신경망(Artificial Neural Network)

  • 사람의 뇌 구조(Neuron)에 모티브를 얻어 인공 뉴런(노드)의 네트워크 구성, 다층 신경망 생성
  • 초기 인공지능은 전문가 시스템, 사례기반 추론(과거 사례를 기반으로 새로운 사례의 결과 예측), 퍼지 이론 등을 이용한 문제 해결에 초점
  • 최근 컴퓨팅 속도가 빨라지고 빅데이터 분석 기술이 발전하면서 인공신경망을 이용한 문제 해결(딥러닝 알고리즘 등)이 가능하게 됨
  • 복잡한 분류, 비선형 및 수치예측 등에 호라용

 

서포트 벡터 머신(Support Vector Machine)

  • 서로 다른 분류에 속한 데이터들 사이의 간격(Margin)이 최대화되는 평면을 찾아 이를 기준으로 분류 결과를 찾아냄
  • 텍스트 분류, 패턴인식, 다양한 분류 및 회귀에 주로 사용
  • 선형 분류뿐만 아니라 Kernel Trick (커널 트릭) 이라 불리는 입력자료의 다차원 공간상으로의 Mapping 기법을 사용하여 비선형 분류에도 효율적으로 사용

 

연관성 분석(Association Analysis)

  • 군집 분석을 통해 나누어진 클러스터를 대상으로 각 그룹에 대한 특성을 분석
  • 연관관계 규칙의 측정지표 : 지지도(Support, 전체 거래 중에서 상품 A, B 동시에 구매하는 거래 비율), 신뢰도(Confidence, 품목 A 포함된 거래 중에서 품목 B 포함하는 거래의 비율), 향상도(Lift, 품목 B 구매한 고객 대비 품목 A 구매한 , 품목 B 구매한 구매한 고객에 대한 비율)