본문 바로가기

전체 글

(20)
비즈니스 데이터 분석 입문 4. 데이터 분석과 통계 - 추론 통계 (1) Chapter4. 데이터 분석과 통계 - 추론 통계 논리적 추론과 피어슨 추론 데이터 기반 추론에는 대표적으로 논리적 추론과 피어슨 추론이 있다. 논리적 추론은 다음과 같다. A 상자에는 레몬 10개, B 상자에는 토마토 10개가 있다. 여기서 우리가 알 수 있는 사실은 다음과 같다. 상자에는 A 상자와 B 상자가 있다. A 상자에서 나오는 과일은 모두 레몬이다. B 상자에서 나오는 과일은 모두 토마토이다. 이때 어떤 물음표 상자에서 과일을 꺼냈더니 토마토가 나왔다면, 이 상자는 어떤 상자일까? 모두 토마토가 나오는 상자는 B 상자이므로 '물음표 상자는 B 상자다'라는 결론을 낼 수 있다. 이러한 추론이 바로 논리적 추론이다. 하지만 내용이 조금 수정된 상황에서의 문제를 살펴보자. 우리가 알 수 있는 사..
비즈니스 데이터 분석 입문 3. 데이터 분석과 통계 - 통계의 이해 (2) Chapter3. 데이터 분석과 통계 - 통계의 이해 몬테카를로 실험 설계 및 실행 몬테카를로 실험은 무작위 추출 실험을 무수히 많이 반복한 결과의 확률적 분포를 알아내는 실험법으로, 수학자 스타니스와프 울람이 모나코의 그랑 카지노 도박 게임 승률 계산법에서 착안하여 만들었다. 몬테카를로 실험은 비용이 지나치게 많이 들거나 불확실성이 너무 클 때, 혹은 미래 예측의 해석적인 약점을 극복하기 어려울 때 주로 사용한다. 동전 던지기를 예로 들어보자. 5번, 10번 던진 실험보다 1000번, 50000번 던진 실험이 50% 확률에 훨씬 가깝다는 사실을 확인 할 수 있다. 즉, 만일 동전을 무한대로 던진다면 앞면과 뒷면이 나올 확률은 각각 50%가 되는 것이다. 실험 횟수가 증가할 수록 그래프의 분포가 점점 정..
비즈니스 데이터 분석 입문 3. 데이터 분석과 통계 - 통계의 이해(1) Chapter3. 데이터 분석과 통계 - 통계의 이해 기술통계 통계학은 크게 피어슨 통계와 베이즈 통계로 구분되며, 피어슨 통계는 다시 크게 기술통계, 확률론, 추론통계로 구성된다. 데이터 분석이란 다른 말로 '데이터를 요약하는 기술'로 표현할 수 있다. 수천 개의 표본 데이터나 수억 개의 빅데이터를 확보한 후 원본 데이터 자체에서는 어떠한 인사이트도 얻어내기 어렵다. 따라서, 인사이트 도출을 위해 데이터를 요약하는 것에서 데이터 분석이 시작되는데, 기술통계가 바로 데이터를 통계량이나 그래프로 요약하는 방법을 의미한다. 표본 데이터에는 다양한 데이터가 존재하고, 이렇게 다양한 수치로 나타나는 현상을 '분포한다'고 표현하는데, 분포 현상이 나타나는 이유는 각 수치 이면에 불확실성이 작용하기 때문이다. 그리..