4장, 5장에서 표본에서 모평균과 모분산을 추정하는 방법을 다루었다. 우리가 표본으로 모평균과 모분산을 구하고자 하는 이유가 무엇일까?
해당 추정치를 기준으로 어떤 자료를 판단 (평균이하네 / 중박은 치는구나 / 오 상위권이네) 하기위함일 것이다.
그러기 위해서는 2장에서 언급했던 것처럼 모집단의 분포를 알아야한다. 하지만 모집단의 분포를 알아내는 것은 매우 어려운 일이다.
애초에 모집단의 분포를 안다면 표본을 뽑을 이유도 없다.
따라서 추정의 마지막 관문인 모집단 분포에 대한 추정이 필요하다.
1. 중심극한정리란
몇 가지 대표적인 확률 분포를 제외하고는 (임의로 동전을 던졌을 때 앞면이 나올 확률 분포 등) 확률변수의 특성에 따라 분포곡선을 파악하여 확률 밀도 함수를 구하는 것은 쉽지 않다. 그런데 모평균을 추정할 때에는 중심극한 정리에 기초하여 Z분포 또는 t분포를 활용할 수 있다.
중심극한정리란 모집단에서 추출한 표본의 평균은 (xbar) 모집단의 분포와는 관계없이 모집단의 평균(μ)을 중심으로 구릉이나 종모양의 분포를 한다는 것이다. 일반적으로 표본의 크기가 30이 넘으면 정규분포하는 것으로 간주해도 무방하다.
예를들어 100명의 모집단에서 일부만 표본만 추출해서 평균에 대한 분포를 그린다고 생각해보자.
5명씩 무작위로 뽑아 평균에 대한 분포를 그리는 것 대비하여 99명씩 무작위롤 뽑아 평균에 대한 분포를 그리면 어떤 그림이 그려질까?
5명 대비 99명의 표본일 때 모집단 평균을 중심으로 데이터 대부분이 종 모양으로 몰려 있을 것이다.
모집단 100명 중 대부분의 인원을 뽑아서 평균을 냈으니 표본들의 평균치가 모평균 근처에 있을 수 밖에 없다.
모집단 분포는 모르나, n 수가 충분한 표본의 평균은 모평균에 수렴하므로 모평균에 대한 분포는 그릴 수 있는 것으로 생각하면 될 듯하다.
아래 이미지와 같이 어떤 모집단 분포이든 표본평균에 대한 분포는 정규분포를 띄는 것을 알 수 있다.
이런 중심극한정리로 인해 모집단 평균에 대한 통계적 추정이나 가설검정이 가능한 것이다.
2. 데이터 과학 관점에서 중심극한정리
중심극한정리는 전통적인 통계 교과서에서 중요하게 다뤄지는 가설검정과 신뢰구간에 대한 밑바탕이 되기 때문에 데이터 과학자들도 이 중요성을 알고 있어야한다. 하지만 형식적인 가설검정이나 신뢰구간이 데이터 과학에서는 이 정도로 중요하지는 않다. 대부분의 경우 부트스트랩*을 사용할 수 있기 때문에 데이터 과학의 관점에서는 중심극한정리가 그렇게 중요하지는 않다.
Takeaways
중심극한정리가 있어서 모집단의 분포를 몰라도 표본에서 모평균을 추정할 수 있다.
참고자료
1. 이훈영, 이훈영교수의 통계학 3판, 청람, 199~202p
2. 피터 브루스, 앤드루 브루스, 데이터 과학을 위한 통계, 한빛미디어, 76~77p
*부트스트랩: Resampling 방법의 일종으로 가설 검증(Test)을 하거나 통계 메트릭(Metric)을 계산하기 전에 Random Sampling with replacement(복원추출법(중복허용))을 적용하는 방법 (https://wikidocs.net/33014)
'통계 | 데이터과학 | R' 카테고리의 다른 글
7. 모수에 대한 구간추정과 가설검정 (3) (0) | 2020.05.18 |
---|---|
7. 모수에 대한 구간추정과 가설검정 (2) (0) | 2020.05.16 |
7. 모수에 대한 구간추정과 가설검정 (1) (0) | 2020.04.22 |
6-1. 중심극한정리 with R (0) | 2020.04.13 |
5. 모집단의 분산을 유추하기 (0) | 2020.04.13 |
4. 모집단의 평균을 유추하기 (0) | 2020.04.13 |
3. 정규분포와 표준정규분포 (0) | 2020.04.12 |
2. 분포 / 확률분포 (0) | 2020.04.12 |