Chapter2. 현실 세계의 데이터 모델링

데이터 사이언스 프로세스란?
데이터 사이언스 프로세스는 우리가 속한 현실 세계를 어떻게 데이터로 표현해낼 것인가에서부터 시작한다. 여기서 현실 세계를 데이터화 하는 일을 데이터 모델링 과정으로 표현할 수 있다.
데이터 모델링 이후 단계는 데이터 취합인데, 확보하려는 목표 데이터를 설정하고, 데이터 수집을 진행하는 단계이다. 주로 서베이라고 부르는 설문조사를 통해 데이터를 확보하거나 웹에 있는 데이터를 가져오는 등의 방법을 활용한다.
다음은 확보한 데이터를 가공하는 데이터 전처리 단계다. 전처리란 빈 데이터를 결측치로, 이상한 데이터를 이상치로 분류하고 확보한 전체 데이터에 발생하는 문제를 바로잡는 일을 가리킨다. 데이터 전처리 단계를 거친 깨끗한 데이터 셋을 마스터 데이터 셋이라고 부른다. 이후 마스터 데이터 셋을 선입견 없이 다양하게 들여다보기 위해 탐색적 데이터 분석(EDA)을 진행한다. EDA를 효율적으로 진행하려면 탐색하려는 데이터에 대한 기반 지식으로 다양한 분석 모델과 알고리즘을 잘 이해해야 한다.
데이터 사이언스 프로세스의 최종 단계는 의미 있는 통찰인 인사이트를 도출하고 실행에 옮기는 일이다. 이때, 도출한 인사이트를 집단 구성원끼리 쉽게 공유하고 이해하기 위해 시각화 보고서를 작성하며, 이 시각화 보고서를 토대로 더 나은 의사 결정을 내린다.
데이터란 무엇인가?
데이터는 정보를 구성하는 가장 작은 단위로, 문자 또는 숫자로 이루어진다. 성별이나 출신 학교처럼 문자로 나타낼 수 있는 데이터를 문자 데이터, 영화 평점이나 연봉 등 숫자로 나타낼 수 있는 데이터를 숫자 데이터라고 한다. 다만 분석 도구나 서적에 따라 문자 데이터를 명목 변수나 범주형 변수로, 숫자 데이터를 연속 변수 혹은 양적 변수라고 지칭하는 경우도 있다. 자료의 정보화 자료의 정보화란 의사 결정을 목표로 하여 질문을 생성하고, 답을 찾기 위해 숫자 및 문자 데이터를 확보하고 분류해서 인사이트를 도출하는 과정이라 할 수 있다.
1차 자료와 설문 조사 방식(Survey) 데이터 수집에는 직접 데이터를 만들어 내거나, 이미 세상에 존재하는 데이터를 수집하여 사용하는 두 가지 방법이 있다. 분석자가 처음부터 직접 수집하는 자료를 1차 자료(Primary Data)라고 한다. 한편 시장에 필요한 재료를 골라서 구입하는 일을 2차 자료(Secondary Data)라고 한다. 과거에 이미 다른 목적이나 용도로 수집했던 데이터를 가져가 사용하는 경우에 해당하며, 검색을 통해 얻는 정보나 업계 정보, 경쟁사 정보, 회사 정보 등이 있다.
설문 조사 방식을 활용한 데이터 수집
구글 서베이 도구를 활용하여 데이터를 수집한다.
* 해당 글은 <비전공자도 배워서 바로 쓰는 비즈니스 데이터 분석 입문, 김진 외 2인> 을 읽으며 요약 정리한 글입니다.
'데이터분석' 카테고리의 다른 글
| 비즈니스 데이터 분석 입문 4. 데이터 분석과 통계 - 추론 통계 (2) (0) | 2022.03.16 |
|---|---|
| 비즈니스 데이터 분석 입문 4. 데이터 분석과 통계 - 추론 통계 (1) (0) | 2022.03.11 |
| 비즈니스 데이터 분석 입문 3. 데이터 분석과 통계 - 통계의 이해 (2) (0) | 2022.03.10 |
| 비즈니스 데이터 분석 입문 3. 데이터 분석과 통계 - 통계의 이해(1) (0) | 2022.03.08 |
| 비즈니스 데이터 분석 입문 1. 메가 트렌드와 데이터 분석 (0) | 2022.03.08 |