본문 바로가기

통계 | 데이터과학 | R

5. 모집단의 분산을 유추하기

 


이전편에서 표본평균으로부터 모평균을 추정하는 방법을 다루었다. 

표본평균의 평균 = 모평균

표본평균의 분산 = 모분산 / 표본 수  

표본평균의 평균은 모평균과 같고, 표본 수가 증가할 수록 표본평균은 모평균에 가까워지므로 우리는 모평균을 추정할 때 표본평균을 사용한다.

이번 편에서는 모분산을 추정하는 법을 다뤄보고자 한다. 내가 가진 표본 통계량을 가지고 어떻게 모분산을 추론할 수 있을까?

 


 

 

1. 모분산과 표본분산의 정의 및 공식

 

먼저 모집단의 분산을 어떻게 구했는지 다시 떠올려보자. 각 변량에 평균값을 뺀 것을 모두 제곱합 한 후 변량 수로 나눈것이 모분산이었다.

 

그렇다면 표본집단의 분산은 어떻게 구할까? 기본 구조는 모분산과 같다. 다만 다른 점이 있다면 분모가 N이 아니라 n-1이라는 점이다. 

 

왜 n-1 일까? 과거에는 표본분산의 분모도 n이었다고 한다.  그런데 통계학자들이 검증을 해보니, n으로 나눈 표본분산이 모분산을 잘 대표하지 못한다는 것이었다. 그래서 모분산은 더 잘 추정할 수 있는 방법을 고안한 끝에 표본분산의 분모를 n 대신 n-1로 만드는게 모분산을 잘 설명할 수 있는 방법이라는 것을 알게되었다고 한다. (유식하게 말해보자면 n 대신 n-1로 나누는게 모분산의 불편추정량*이라는 것을 알게되었다고 한다)

 

 

 

 

2. n이 아니라 n-1로 나누는 이유 

참고로 작성자는 완벽하게 이해하지 못했다. 그러나 여러 서적과 온라인 자료를 뒤져본결과 대부분 자료에서 아래와 같이 3가지 이유를 들어 설명하고있음을 확인했다. 

 

 

(1) 일반적으로 표본분산은 모분산보다 작은 경향을 띄므로, 분모를 작게함으로써 표본분산이 커지게 보정함

출처 하단 참고**

 

상기 이미지처럼 14개의 원소를 가지고 있는 모집단이 있다고 해보자.

우리가 표본을 뽑게되면 해당 표본집단 내에서 평균이 정해지고 해당 표본 집단 내 평균을 기준으로 분산이 계산된다. 

상기 이미지의 3개 청록색 원을 뽑았다고 가정했을 시, 해당 분산은 필연적으로 모평균보다 작을 수 밖에 없다. 

따라서 분모를 n-1로 작게 만듦으로써 표본분산을 조금 더 커지게 보정을 해 주는것이다.

 

 

 

(2) 자유도의 제약으로 인해 n-1로 나눈다

왜 n-1인가? n-2, n-3 도 아니고?? 라는 의문이 당연히 들 수 있다. (자료를 찾아보니 경험적으로 n-1이 가장 모분산을 잘 설명하는 수치라고 검증이 되어있더라.)

또 개념적으로 n-1이 될 수 밖에 없는 이유는 '자유도' 라는 개념때문이다. 

분산의 정의를 다시 살펴보면 (변량-평균)의 제곱합 / N 이다. 우리가 모든 데이터를 손에 쥐고 있을 때에는 해당 식으로 분산을 구하면 된다.

하지만 표본을 뽑게될 경우 '평균'에서 제약이 하나 생긴다.

E(X) = μ 라는 제약 때문에 X1, X2, X3, .... X13 까지는 아무 숫자나 들어오더라도 마지막 변량 X14는 μ 를 만들 수 있는 값이어야하기 때문에 선택권이 없는 변량이된다. 

 

(자유도를 조금 더 풀어써 보자면 3개의 카드 평균이 5라고 할 때 카드 더미에서 첫번째, 두번째 카드는 아무거나 뽑아도 되지만 마지막 카드는 무조건 합이 15를 만들어 주는 숫자를 뽑아야한다. 예를 들어 첫번째 카드를 3, 두번째 카드를 10을 뽑았다면 평균이 5가 되기위해선 마지막 카드는 무조건 2를 뽑아야하므로 선택의 여지가 없는 카드이다. 이 경우 자유도는 3-1, 즉 2가 된다) 

 

다시 본론으로 돌아와서,  (변량-평균)의 제곱합 / N 에서   평균 모평균과 맞춰주기 위해 이미 하나의 변량은 사용 불가한 변량이 되었다.

따라서 실제 사용 가능한 변량 수는 N이 아니라 N-1 이 되는 것이다. 

 

 

 

 

(3) 수리적 접근

 아래와 같다고 한다(..)

출처 하단참고***

 

 

 

 

 

3. 데이터 과학 입장에서의 표본분산

일반적으로 n 수가 30개만 넘어도 n과 n-1간 차이가 크지 않다고 한다. 빅데이터를 다루는 사람이라면 사실 n이나 n-1의 차이를 개의치 않아도 무방할듯하다.  

 

 


Takeaways

표본분산은 분모가 n-1

 

 

 

 

참고자료

*불편추정량 : 편향이 0인 추정량. 즉 어느쪽으로 치우치지 않고 모수를 잘 대표하는 추정량을 말한다.

예를 들어 우리가 표본집단으로 모평균을 추정할때 평균, 중위수, 최빈수 등 어느 수를 두고 추정해도 되지만 E(X) = μ 라는 성질때문에, 즉 표본평균이 모평균의 불편추정량이기 때문에 흔히 표본 평균을 대표적으로 사용하는 것이다. 

 

**출처 : https://ko.khanacademy.org/math/statistics-probability/summarizing-quantitative-data/more-on-standard-deviation/v/review-and-intuition-why-we-divide-by-n-1-for-the-unbiased-sample-variance

 

편향되지 않은 표본분산에 대해 왜 n-1로 나누는지에 대한 복습과 직관 (동영상) | 칸아카데미

모평균, 표본평균, 모분산, 표본분산에 대한 복습과 함께 편향되지 않은 표본분산을 구할 땐 왜 n-1로 나누는지에 대한 직관을 길러 봅시다.

ko.khanacademy.org

***출처 : http://www.tmath.or.kr/kin/qna/detail.asp?qnaNum=297