본문 바로가기

데이터분석

빅데이터 분석기사 준비 - 1. 빅데이터 분석 기획 :: 데이터 수집 및 저장

1과목 빅데이터 분석 기획 키워드 정리 

제3장 데이터 수집 및 저장 계획

데이터 수집 시 고려사항

 데이터 분석의 목적, 데이터 수집 가능성, 데이터 보안, 데이터 정확성, 수집 난이도 및 비용 고려 

 

데이터 위치 

  • 내부 데이터 : 대부분 정형 데이터로 존재, 조직 내부의 데이터 담당자와 수집 주기 및 방법 협의, 수집 난이도가 낮음
  • 외부 데이터 : 대부분 반정형 및 비정형 형태로 존재, 특정 기관의 담당자와 협의, 전문업체를 통해 수집, 수집 인터페이스 협의, 수집 난이도가 높음

 

데이터 수집 절차

 데이터 유형 파악 -> 수집기술 검토 -> 수집 솔루션 확인 -> 하드웨어 구축 -> 실행환경 검토 

 

데이터 수집 기술

  • 정형 데이터 : 대용량 데이터 전송 솔루션이용(Sqoop, Hiho 등) 
  • 반정형 데이터(로그 데이터 등) : 로그 파일 수집기 이용(Flume, Scribe, Chukwa 등)
  • 비정형 데이터 : 크롤링, Open API, RSS 이용

 

웹에서의 데이터 수집 방법 : HTML, XML, JSON 등 이용

  • Web Crawling : 자동화 Bot인 Web Crawler가 정해진 규칙에 따라 복수의 웹페이지 자료수집
  • Web Scraping : 웹사이트의 원하는 부분에 위치한 정보를 자동 추출 및 수집
  • Web Mining : 인터넷을 이용한 웹서비스의 다양한 패턴을 발견하기 위해 사용되는 기술

스크립트 언어를 이용한 데이터 수집

 Python, Ruby 등 이용

 

데이터 수집 시 관련 내규 검토 

 개인정보보호 업무처리 지침서, 보안 약점 및 개인정보 사전 제거, 보안 가이드 검토 

 

데이터 적절성 검증

데이터 누락 및 결측(데이터 재수집), 데이터 정확성, 개인정보 유무 파악, 데이터 저작권 및 법률적 문제 검토 

 

빅데이터 시스템 운영 업무

시스템 구성 및 변경 관리, 운영 상태 관리, 성능 관리, 보안 관리

 

데이터 수집 불가의 원인 및 대처 방안

  • 시스템 오류 : 시스템 구성 및 프로그램 수정, 네트워크 확인
  • 보안 : 암호화된 데이터의 경우 인증서 이용, 폐쇄망 데이터의 경우 사전 관리자 승인
  • 저장 용량 : 시스템 용량 산정 재검토, 저장 공간 확보

 

데이터 수집 보고서의 주요 내용

 데이터 유형, 데이터 위치, 데이터 저장 시스템, 수집 기술, 수집 비용

 

데이터 유형

  • 정형 데이터 : 정형화된 스키마 구조를 갖고 있으며 스프레드 시트, csv 형태의 데이터
  • 반정형 데이터 : 내부에 데이터 구조에 대한 메타 정보를 갖고 있으며 HTML, XML, JSON 로그 형태의 데이터
  • 비정형 데이터 : 구조가 일정하지 않은 데이터로서 텍스트, 영상, 이미지, 음성 등의 데이터 

 

데이터 측정

 일정한 규칙에 따라서 사물 또는 현상에 숫자를 부여하는 행위로써 추상적 개념을 경험적으로 관찰 가능한 것으로 바꾸는 과정

 

데이터 속성

  • 측정을 통해서 대상의 특정 속성과 연관된 값을 데이터의 속성값이라고 정의함
  • 계량적 변수 : 정량 데이터, 수치로 측정할 수 있는 데이터 저장, 연속적인 모든 값을 가짐, 연속형 변수, 비율 및 등간 척도
  • 비계량적 변수 : 정성 데이터, 수치로 측정할 수 없는 데이터 저장, 정수 값만을 가짐, 이산형 변수, 명목, 서열 및 등간 척도 

 

데이터 측정 척도

  • 명목 척도(범주형) : 측정대상이 어느 집단에 속하는지 분류 (예 : 성별, 이메일 주소, 인터넷 계정, 옷 색깔 등)
  • 서열 척도(순서형) : 측정대상이 서열관계를 갖는 척도 (예: 고객등급, 순위, 직급, 평점, 선호도 등)
  • 등간 척도(상대적 크기) : 측정대상이 갖고 있는 속성의 양 측정. 또는 (구간 척도) 서열과 의미 있는 차이를 가지는 척도. 결과는 숫자로 표현 (예 : 온도, 지능, 지수 등)
  • 비율 척도(절대영점 존재) : 절대적인 영점 존재, 두 측정값의 비율이 의미가 있음 (예 : 몸무게, 매출액, 질량, 나이, 길이 등)

 

데이터 변환

 데이터의 특정 변수를 정해진 법칙에 따라 바꿔주는 것

 

데이터 변환 방법

  • 표준화(변수변환) : 집단 간의 측정 변수들에 대한 값의 차이를 서로 비교할 때 용이. 표준 정규 분포 등을 이용
  • 총계(개수 축소) : 두 개 이상의 샘플을 하나의 샘플로 합산하여 데이터 변환
  • 평활(범주화) : 데이터 집합에 존재하는 잡음으로 인해 거칠게 분포된 데이터를 매끄럽게 만드는 기법(구간화, 군집화 등)
  • 비정형 데이터 변환 : 가능한 정형 데이터로 분석, 텍스트의 경우 단어들의 빈도 표현

 

데이터 비식별화

  • 개인을 식별할 수 있는 잠재성을 가진 데이터를 식별할 수 없거나 식별하기 어려운 데이터로 가공하는 일련의 과정
  • 절차 : 사전검토 -> 비식별조치 -> 적정성 평가 -> 사후관리 

 

데이터 비식별화 방법

 가명처리, 총계 처리, 데이터 값 제거, 범주화, 데이터 마스킹

 

데이터 품질

 데이터 분석의 목적을 달성하고 최종 사용자의 기대를 만족시키기 위해 데이터가 확보하고 있어야 하는 성질

 

데이터 품질 검증 절차

  • 데이터 품질 : 데이터 정확성, 완전성, 적시성, 일관성
  • 데이터 무결성 : 개체, 참조, 속성, 키, 도메인, 사용자 정의 무결성
  • 데이터 비식별화 : 가명 처리, 총계 처리, 데이터 값 제거, 범주화, 데이터 마스킹

 

데이터 품질검증 및 진단계획 수립절차

 프로젝트 정의 -> 조직 정의 및 편성 -> 품질진단 절차 정의 -> 세부 시행계획 확정 -> 품질기준 및 진단대상 정의 

 

데이터 품질관리

 비즈니스 목표에 부합한 데이터 분석을 위해 가치성, 유용성 있는 데이터를 확보하고 신뢰성 있는 데이터를 유지하는 데 필요한 관리 활동, 분석 결과의 신뢰성 확보를 위해 중요 

 

데이터 품질관리 모형의 3가지 관점

  • 미시적 관점 : 데이터 품질관리의 요소 확인, 요소별 데이터 품질 향상 방안 도출
  • 거시적 관점 : 전사적 조직 측면에서 데이터 관리의 성숙도 단계 정의
  • 부가가치적 관점 : 데이터 품질관리의 비용/효과/위험 모형 개발

 

데이터 품질검증 결과 보고서 주요 내용

 품질기준에 따른 테스트 결과, 수집 데이터 오류 수정 방안, 데이터 변경 보완 등의 데이터 품질개선 방안

 

 

<2021 빅데이터 분석기사 한 권으로 끝내기>, 정혜정 저 / 시대고시기획 을 정리한 내용입니다.