본문 바로가기

분류 전체보기

(20)
빅데이터 분석기사 준비 - 3. 빅데이터 모델링 :: 분석기법 적용 3과목 빅데이터 모델링 키워드 정리 제2장 분석기법 적용 회귀 분석(Regression Analysis) 변수들 사이에 함수적인 관계를 알아보기 위해서 수행하는 통계적 기법으로 독립변수와 종속변수 사이의 함수식 유도, 독립변수들 값을 이용해서 종속변수의 값을 예측 단순 회귀 분석 : 독립변수와 종속변수가 각각 1개인 경우 다중회귀 분석 : 독립변수의 수가 2개 이상, 종속변수가 1개인 경우 결정계수(Coefficient of Determination) : 총 변동 중에서 회귀식에 의하여 설명되는 변동의 비율로 회귀모형의 설명력 나타냄, 단순 회귀 분석모형의 경우 결정계수의 값이 1에 가까울수록 점들이 직선 주위에 밀집되어 나타나게 되어 회귀에 의한 설명이 잘 됨을 뜻함 단순 회귀 분석모형의 가정 : 선형..
빅데이터 분석기사 준비 - 3. 빅데이터 모델링 :: 분석모형 설계 3과목 빅데이터 모델링 키워드 정리 제1장 분석모형 설계 분석모형 선정 통계 분석 : 객관적인 근거에 기반을 두고 데이터 수집, 처리, 분류, 분석하여 의사결정 지원, 모집단에서 표본을 추출하고 추론 및 가설 검정 실시 데이터 마이닝 : 수학이나 통계적 기술을 활용하여 데이터 분석, 새로운 상관관계나 추세를 파악하고 예측 및 분류 등에 활용 데이터 유형, 변수, 속성을 파악하고 연구 목적에 맞게 데이터 분석모형 선정 빅데이터 분석 프로세스의 핵심 업무 적합한 분석모형 선정, 분석모형 적용, 성능 및 적합성 평가, 안정성 평가 빅데이터 분석 방법(분석대상과 분석방법의 유무에 따른 분류) 최적화(Optimization) : 목적함수, 제약조건 정의 후 문제해결 솔루션(Solution) : 분석 대상은 알면서..
빅데이터 분석기사 준비 - 2. 빅데이터 탐색 :: 통계기법 이해 2과목 빅데이터 탐색 키워드 정리 제3장 통계기법 이해 데이터 요약 값 데이터 분석을 위해 간단한 기초 통계량을 중심으로 제시된 값 표본 추출 모집단의 부분 집합을 추출한 것 추출된 표본(Sample)은 모집단과 같은 대표성을 가진다고 가정 모집단 전체에 대한 분석이 사실상 불가능한 제약으로 표본 이용 전체 대상의 특성을 대표할 수 있는지의 여부 확인 표본의 대표성이 중요 확률적 표본 추출 방법 단순 무작위 추출 : 표본이 추출될 확률이 동일한 경우 층화 표본 추출 : 두 개 이상의 층으로 나누고 각 층마다 독립적으로 단순 임의 추출 집락(군집) 표본 추출 : 이질적인 군집으로 구분, 무작위로 몇 개의 군집을 표본 추출 계통 표본 추출 : 모집단 목록에서 일정한 순서에 따라 요소 추출 비확률적 표본추출 ..
빅데이터 분석기사 준비 - 2. 빅데이터 탐색 :: 데이터 탐색 2과목 빅데이터 탐색 키워드 정리 제2장 데이터 탐색 데이터 탐색(EDA : Explorartory Data Analysis) 쌓여 있는 데이터를 기반으로 연구 목적에 맞는 가설을 세우고 데이터를 분석하는 작업으로 데이터의 구조와 특징을 파악하고 분석을 통해 얻은 정보를 토대로 통계적 분석 모형을 만듦 목적 : 데이터 이해, 연구목적에 맞는 데이터 탐색, 시각화를 통해 다음 단계 필요한 데이터 생성, 데이터에 포함된 변동성 유형 파악, 변수들 사이 공통 변동 파악, 이상점 파악 및 분석 EDA 절차 데이터 속성 파악 -> 데이터 결측치 확인 -> 데이터 이상치 확인 상관관계 분석 두 변수 사이에 얼마나 선형적인 관계가 있는지를 파악하기 위해서 사용되는 통계적 방법 산점도(산포도) 두 개의 변수가 짝을 이..
빅데이터 분석기사 준비 - 2. 빅데이터 탐색 :: 데이터 전처리 2과목 빅데이터 탐색 키워드 정리 제1장 데이터 전처리 데이터 오류 결측치(Missing Value) : 측정된 데이터 샘플에서 누락된 변숫값, 샘플 제거, 해당 변수 제거, 결측치 무시, 결측치 추정 등의 방법 사용 잡음(Noise) : 데이터 측정 시 개입되는 임의적 요소, 본래의 참값에서 벗어나게 하는 오류, 구간화, 군집화, 회귀모형 변환 등을 이용한 잡음 제거 이상치(Outlier) : 대부분의 다른 측정값들과 현저한 차이를 보이는 샘플 혹은 변숫값, 오류인 경우 이상치 제거 또는 무시, 특이값인 경우 관심을 두고 분석 수행 빅데이터 정제 데이터를 불완전하게 만드는 요소를 제거하기 위한 업무, 데이터 변환, 교정 및 통합 ETL(Extract, Transforam, Load) 주요 기능 논리적 ..
빅데이터 분석기사 준비 - 1. 빅데이터 분석 기획 :: 데이터 수집 및 저장 1과목 빅데이터 분석 기획 키워드 정리 제3장 데이터 수집 및 저장 계획 데이터 수집 시 고려사항 데이터 분석의 목적, 데이터 수집 가능성, 데이터 보안, 데이터 정확성, 수집 난이도 및 비용 고려 데이터 위치 내부 데이터 : 대부분 정형 데이터로 존재, 조직 내부의 데이터 담당자와 수집 주기 및 방법 협의, 수집 난이도가 낮음 외부 데이터 : 대부분 반정형 및 비정형 형태로 존재, 특정 기관의 담당자와 협의, 전문업체를 통해 수집, 수집 인터페이스 협의, 수집 난이도가 높음 데이터 수집 절차 데이터 유형 파악 -> 수집기술 검토 -> 수집 솔루션 확인 -> 하드웨어 구축 -> 실행환경 검토 데이터 수집 기술 정형 데이터 : 대용량 데이터 전송 솔루션이용(Sqoop, Hiho 등) 반정형 데이터(로그 데..
빅데이터분석기사 준비 - 1. 빅데이터 분석 기획 :: 데이터 분석 계획 1과목 빅데이터 분석 기획 - 키워드 정리 제2장 데이터 분석 계획 작업 분할 구조도 (WBS : Work Breakdown Structure) 프로젝트 관리와 시스템 공학 분야에서 프로젝트의 더 작은 요소로 분해시킨 Deliverable 지향 분업 구조 프로젝트 팀이 프로젝트 목표를 달성하고 필요한 인도물을 산출하기 위해 실행하는 작업을 인도물 중심의 계층 구조로 세분해 놓은 것 작성 절차 : 프로젝트 소요비용 배분 -> 프로젝트 WBS 수립 -> 프로젝트 업무분장 계획 및 배분 빅데이터 분석 프로세스 5단계(NCS) : 도메인 이슈 도출 -> 분석 목표 수립 -> 프로젝트 계획 수립 -> 보유 데이터 자산 확인 -> 빅데이터 분석 결과 시각화 6단계 : 문제인식 -> 관련 연구조사 -> 모형화(변수 ..
빅데이터분석기사 준비 - 1. 빅데이터 분석 기획 :: 빅데이터의 이해 1과목 빅데이터 분석 기획 키워드 정리 제1장. 빅데이터의 이해 빅데이터(Big Data) 기존 데이터베이스 관리 도구의 능력을 넘어서는 대량의 정형 또는 심지어 데이터베이스 형태가 아닌 비정형의 데이터 집합까지 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술(빅데이터 분석 및 시각화 기술도 포함한 개념으로 이해) 빅데이터의 주요 특징 Volume(규모), Variety(다양성), Velocity(처리속도), Value(가치), Veracity(정확성), Validity(유효성), Volatility(휘발성) 빅데이터의 유형 정형 (Structured) : 정해진 규칙에 맞게 저장된 데이터, 구조화되어 있음 반정형 (Semi-structured) : 어의적 요소(단어, 말)를 분리시키고 태그나 ..
구글 애널리틱스 입문 4. 구글 애널리틱스 생태계의 이해 *해당 글은 을 읽으며 요약 정리한 글입니다. Chapter 4. 구글 애널리틱스 생태계의 이해 구글 애널리틱스와 관련된 역할들 구글 애널리틱스의 사용자는 서비스 기획/운영자이거나, 마케팅 Agency 담당자, 현업 마케팅 담당자, 아니면 Front-End 개발자 중 하나일 가능성이 높다. 구글 애널리틱스 아키텍처 웹 서비스를 이용하는 방식은 다음과 같다. 유저가 브라우저로 웹 서버에 접속을 하면, 웹 서버는 브라우저 쪽에 HTML을 전달한다. 브라우저는 전달받은 HTML을 다운로드한 후 HTML 문서를 해석해서 화면에 내용을 보여준다. 그런데 현재 구글 애널리틱스 서버는 분석 대상 웹 서버를 알지 못하는 상태이기 때문에, 웹 사이트 분석가가 구글 애널리틱스에게 분석 대상 웹 서버를 알려주는 셋업을 진행..
구글 애널리틱스 입문 3.분석 방법론 Chapter 3. 분석 방법론 실질적 성과를 창출하는 분석 프레임워크 데이터 분석에 대한 전체적인 개념을 파악하기 위해서, 회사의 데이터 분석 업무에 적용 가능한 분석 프레임워크(분석 프로세스)부터 알아보도록 하자. 첫째, 분석 방법론을 확립하고, 둘째로 사업 목표와 연계된 적절한 KPI체계를 수립해야 한다. 사업 목표와 KPI를 수립한 이후에는 KPI 체계를 측정하고 자동으로 결과 확인이 가능한 보고서 체계를 구축해야 한다. 이러한 보고서 시스템을 구축할 때 구글 애널리틱스와 같은 분석 도구를 활용한다. 다음으로 구축한 분석 시스템을 활용해서 목표 중심의 인사이트를 얻는 데이터 분석을 진행해야 하는데, 대부분의 회사에서는 보고서 시스템을 구축하는 것으로 분석 프로세스를 끝내는 경우가 많다. 그러나 데..