전 편에서 평균과 분산, 표준편차를 정리해보았다. 앞서 기술하였듯 평균, 분산, 표준편차와 같이 자료의 형태를 포괄적으로 설명할 수 있는 것을 한마디로 하면 분포 라고 한다. 분포라고 하면 정규분포, 표준 정규분포, 포아송 분포등과 함께 각각 대응하는 그래프 모양이 떠오를 것이다. 그 그래프는 왜 그리고, 우리가 분포를 알아야하는 이유는 무엇일까?
1. 확률 분포
상술했던 것과 같이 분포는 어떤 자료의 평균과 분산등을 총칭하는 의미이다.
확률 분포는 자료에서 특정 값이 나올 확률에 대한 분포라고 생각하면된다.
예를 들어 5개 기업의 기대 수익이 200만원, 300만원, 300만원, 400만원, 500만원이라고 했을 때 이들의 평균은 340만원이라할 수 있고, 이를 히스토그램으로 나타내면 아래와 같을 것이다.
만약에 이 중 한 기업을 뽑았을 때 각 기대 수익의 확률값은 얼마가 될까?
해당 값들을 (=확률변수) 표나 그래프로 정리한 것을 확률 분포라고 한다.
※ 확률분포의 정의: 확률 변수가 특정한 값을 가질 확률을 도수 분포표나 그래프로 정리한 것
상기 예시에서 확률 변수는 각 기업의 기대 수익 {200만원, 300만원, 400만원, 500만원}에 대응한 확률은
각각 {0.2, 0.4, 0.2, 0.2} 이다.
그래프의 y축이 히스토그램일때엔 관측 빈도였는데 확률분포에서는 확률값으로 바뀌었으며
히스토그램에서는 평균이라는 단어가 확률분포에서는 기대값이라는 이름으로 치환된것을 알 수 있다.
쉽게 생각하면 히스토그램은 자료 가공 없이 있는 자료 그대로 빈도수에 대해 그래프를 그린거고
확률분포는 해당 관측치의 발생확률을 계산해서 그래프를 그린것이다.
2. 확률 분포가 중요한 이유
1) 분포를 확률 분포로 만듦으로써 우리는 눈 감고 하나의 기업을 찍엇을 때 얻을 수 있는 기대 수익을 점쳐볼 수 있다.
위 경우 300만원을 얻을 확률이 40%로 가장 높은 확률을 보인다.
2) 확률계산이 가능해진다.
예를 들어 위 예시에서 300만원 이상의 기대 수익을 얻을 수 있는 확률은 얼마나 되는가? (80% 이다)
300만원 미만의 기대수익을 얻을 확률은? (20% 이다.) 이러한 내용으로 우리는 의사결정에 도움을 받을 수 있을 것이다.
3) 표준화된 평가기준을 만들 수 있다.
히스토그램의 경우 관측 빈도가 y 축이기 때문에 y축의 범위를 특정할 수 없다. 그러나 확률분포는 y축이 0에서 1까지 고정되어있고
그래프의 총 면적이 1으로 고정되어있다. 스케일링 또는 표준화가 되어있는 것이다. 따라서 내가 가진 자료에 대한 평가 기준으로써
확률 분포를 활용할 수 있다라고 볼 수 있다.
3. 통계적 관점에서의 확률변수와 확률 분포
현실 세계에서 우리는 모집단 전체 데이터를 알기는 매우 어렵다. 따라서 일부 샘플을 추출해서 표본 통계량을 내는데, 이 자체가 확률적 개념을 포함하는 것이다. 따라서 표본 통계량은 대표적인 확률변수이자 확률 분포라고 할 수 있다. 또, 대부분의 통계는 이러한 분포를 이용해서 추정이나 가설 검정을 진행한다. 따라서 통계적 관점에서 추정이나 검정을 하기 위해서는 데이터의 분포를 확인하는 것이 선결 조건이라고 할 수 있다.
4. 확률분포의 종류
확률분포는 그 값이 정수로 떨어지는 이산확률분포과 실수형태인 연속 확률 분포로 나뉜다. 아래의 예시를 참고해보자.
1) 이산확률분포 : 이항분포, 초기하분포, 포아송 분포
2) 연속확률분포 : 카이제곱 분포, t분포, 정규분포, 표준 정규 분포 , F분포
Takeaways
내가 토익시험을 쳤는데 900점을 받았다. 잘 친걸까 ? 못 친걸까? 평가를 할 수 있는가?
만약 이번 점수 분포가 아래와 같다면?
만약 이번 점수 분포가 아래와 같다면?
어떤 데이터를 평가하기 위해서는 그 데이터의 전체 그림 즉 분포를 알아야 한다는 것이 이번 편에서 가장 강조하고 싶은 내용이다.
'통계 | 데이터과학 | R' 카테고리의 다른 글
7. 모수에 대한 구간추정과 가설검정 (2) (0) | 2020.05.16 |
---|---|
7. 모수에 대한 구간추정과 가설검정 (1) (0) | 2020.04.22 |
6-1. 중심극한정리 with R (0) | 2020.04.13 |
6. 중심극한 정리 (0) | 2020.04.13 |
5. 모집단의 분산을 유추하기 (0) | 2020.04.13 |
4. 모집단의 평균을 유추하기 (0) | 2020.04.13 |
3. 정규분포와 표준정규분포 (0) | 2020.04.12 |
1. 기술 통계량 (0) | 2020.04.10 |