2과목 빅데이터 탐색 키워드 정리

제1장 데이터 전처리
데이터 오류
- 결측치(Missing Value) : 측정된 데이터 샘플에서 누락된 변숫값, 샘플 제거, 해당 변수 제거, 결측치 무시, 결측치 추정 등의 방법 사용
- 잡음(Noise) : 데이터 측정 시 개입되는 임의적 요소, 본래의 참값에서 벗어나게 하는 오류, 구간화, 군집화, 회귀모형 변환 등을 이용한 잡음 제거
- 이상치(Outlier) : 대부분의 다른 측정값들과 현저한 차이를 보이는 샘플 혹은 변숫값, 오류인 경우 이상치 제거 또는 무시, 특이값인 경우 관심을 두고 분석 수행
빅데이터 정제
데이터를 불완전하게 만드는 요소를 제거하기 위한 업무, 데이터 변환, 교정 및 통합
ETL(Extract, Transforam, Load) 주요 기능
논리적 데이터 변환, 도메인 검증, DBMS 간 데이터 변환, 기본값 생성, 데이터 요약, 불필요한 데이터 또는 중복 데이터 삭제, 레코드 통합 등
데이터 정제 및 처리 솔루션
대화형 처리, 배치 처리, 실시간 처리 등을 위한 Cloudera, Hortonworks, Azure, MapReduce, Pig, AWS 등
데이터 세분화(Segmentation)
데이터를 유의미한 기준에 따라 나누는 작업으로서 정형 데이터의 경우 큰 문제가 없으나 비정형 및 반정형 데이터의 경우 데이터 형식 변환 기준에 따른 세분화 작업이 요구됨
데이터 결측값 종류
- 완전 무작위 결측 (MCAR : Missing Completely At Random) : 어떤 변수 상에 결측 데이터가 관측된 혹은 관측되지 않은 변수와 아무 연관이 없음
- 무작위 결측(MAR : Missing At Random) : 어떤 변수 상에 결측 데이터가 관측된 다른 변수와 연관되어 있지만, 그 자체의 비 관측된 값들과는 연관되어 있지 않음
- 비무작위 결측(NMAR : Not Missing At Random) : 어떤 변수의 결측 데이터가 완전 무작위 또는 무작위 결측이 아닌 경우로 소득, 성별, 나이 데이터 등
결측값 대체 방법
결측치가 있는 경우 제거하거나 시계열 자료인 경우 같은 시기의 데이터로 대체, 평균값, 최빈값 등으로 대체 사용 (평균치 삽입법, 보삽법, 평가치 추정법 등 사용)
데이터 이상값
- 입력 오류, 데이터 처리 오류 등의 이유로 특정 범위에서 데이터 값, 속성의 값이 일반적인 값보다 편차가 큰 값, 특정 범위를 벗어난 자료
- 주어진 자료에 대해서 데이터의 분포나 자료의 형태를 보고 이상치 판정
이상값 검출 방법
Variance, Likelihood, Nearest-neighbor, Density, Clustering, Box-plot 등
이상값 처리 방법
하한 및 상한 값, 평균의 표준편차, 평균의 절대 편차, 극 백분위수 등으로 대체
변수
- 관심의 대상이 되는 사물이나 사건의 속성으로 보통 서로 다른 두 개 이상의 값을 가짐
- 컴퓨터 프로그래밍에서의 변수 : 아직 알려지지 않거나 어느 정도까지만 알려져 있는 양이나 정보에 대한 상징적 이름
속성에 따른 변수
이산, 연속, 더미 변수 등
기능에 따른 변수
독립, 종속, 통제, 매개, 외생, 억압 변수 등
차원 축소 (Dimensionality Reduction)
- 분석대상이 되는 여러 변수들의 주요 정보는 최대한 유지하면서 데이터 세트 변수의 개수를 줄이는 일련의 탐색적 데이터 분석기법
- 주요 알고리즘 : 주성분, 독립성, 특이값 분해, 요인, 다차원 척도법 등
파생변수 (유도 변수, Derived Variable)
- 기존 변수에 특정 조건 또는 함수 등을 이용하여 새롭게 재정의한 변수
- 생성 방법 : 단위 및 척도 변환, 표현 형식, 요약 통계량 이용, 변수 결합 등
변수 변환
- 수학적 의미에서 보면, 어떤 변수(들)로 나타낸 식을 다른 변수(들)로 바꿔 나타내는 기법
- 구간화, 평활화, 클러스터링, 타깃 변수 예측을 위한 의사결정 나무 등 이용
불균형 데이터
어떤 데이터에서 각 클래스(주로 범주형 변수)가 갖고 있는 데이터의 양에 차이가 큰 경우 발생
불균형 데이터 처리방법
- Undersampling : 다수 클래스 데이터에서 일부만 사용, 무작위로 정상 데이터 일부 선택
- Oversampling : 소수 클래스 데이터를 증가시키는 방법, 무작위로 소수 데이터 복제
'데이터분석' 카테고리의 다른 글
| 빅데이터 분석기사 준비 - 2. 빅데이터 탐색 :: 통계기법 이해 (0) | 2022.03.26 |
|---|---|
| 빅데이터 분석기사 준비 - 2. 빅데이터 탐색 :: 데이터 탐색 (0) | 2022.03.26 |
| 빅데이터 분석기사 준비 - 1. 빅데이터 분석 기획 :: 데이터 수집 및 저장 (0) | 2022.03.23 |
| 빅데이터분석기사 준비 - 1. 빅데이터 분석 기획 :: 데이터 분석 계획 (0) | 2022.03.22 |
| 빅데이터분석기사 준비 - 1. 빅데이터 분석 기획 :: 빅데이터의 이해 (0) | 2022.03.22 |