통계 | 데이터과학 | R

4. 모집단의 평균을 유추하기

monigram 2020. 4. 13. 05:53

 


여태껏 다뤘던 내용은 모집단 분포에 대한 내용 즉, 모수에 대한 내용이었다. (평균 = μ , 표준 편차 = σ )

현실 세계에서 모집단 전수 조사가 안될 경우엔 어쩔 수 없이 일부 샘플로 모집단을 유추해야한다.

이번편에서는 어떻게 샘플(=표본)에서 모집단의 평균 유추하는지 다뤄보고자 한다.

 


1. 표본분포

어떤 사건의 가능성을 통계적으로 계산할 때, 우리는 해당 사건의 분포를 알아야한다.

주사위 던지기 시행 시 나오는 눈 수에 대한 분포와 같이 일반적으로 생각해도 모집단의 분포가 그려지는 경우도 있겠으나 우리나라 기혼자의 소득 같이 감이 아예 안 잡히는 분포도 있을 것이다.

이런 경우 전수조사로 분포를 확인하는게 바람직하겠으나 현실적인 문제 - 시간 문제, 비용 문제 - 때문에 우리는 일부 표본을 뽑은 후 나온 통계량이 모집단을 대표한다고 본다. 이러한 추론과정을 가능하게 하는 것이 표본분포이다.

 

 

표본분포는 그 단어가 주는 직관적인 의미와는 다소 다른 개념을 의미한다. 표본분포를 처음 들으면 왜인지 내가 뽑은 표본에 대한 분포를 뜻하는 것 같다. 

그러나 표본분포가 의미하는 것은 모집단에서 n 회 표본을 추출했을 때 나오는 값들의 분포를 의미한다. (1 ~ 100의 숫자가 적혀있는 뽑기통에서 10개의 공을 무작위로 뽑은 후 그 평균을 내는 작업을 30번 반복 후 분포를 그리는 것이 표본 분포이다)  

 

일반적인 분포는 '어떤 사건이 발생할 확률'에 대한 분포라고 한다면 표본분포는 '어떤 표본의 대표값(평균 또는 분산) 이 발생할 확률'에 대한 분포라고 생각하면 좀 더 이해가 쉬울 것 같다. 

 

우리나라에 5명의 인구만 있고 이들의 평균 소득을 알고 싶다고 가정해보자.

아래  Case1 처럼 5명을 전수조사하게 되면 평균 소득은 240만원, 분산은 22,400가 된다. 

 

그런데 여건이 안되서 이 중 일부만 뽑아서 나온 평균 값으로 모집단 평균을 추정한다고 생각해보자. 

 

Case 2처럼 5명중 2명만 뽑아서 평균을 낸다고 했을 때 평균값은 작게는 100만원 (A,B 로 뽑았을 때) , 크게는 400만원 (D,E로 뽑았을 때) 까지 나올 수 있다. 그러나 모든 조합에 대한 평균월급을 평균을 냈을 때는 모집단 평균과 같은 240만원이 나온다. 

 

Case3처럼 5명 중 4명을 뽑게되면 작게는 175만원 크게는 275만원까지 평균 값이 나올 수 있고, 이 모든 경우의 수의 평균 역시 모집단 평균과 같은 240만원이다. 

 

 

 

우리는 이와 같은 케이스에서 두가지 사실을 알 수 있다.

 

1) 표본평균의 분포는 표본 조합의 결과에 대한 분포이다. 

모집단 평균은 A, B, C, D, E 의 월급에대한 분포이다. 즉 전수 조사를 하여 나온 분포이므로 불변이다. 

표본평균의 분포는 Case 2의 경우 5명중 2명을 뽑아서 나올 수 있는 경우의 수 10가지에 대한 평균값의 분포이다. Case 3의 경우 5명 중 4명을 뽑아서 나올 수 있는 경우의 수 5가지에 대한 평균값의 분포이다.

즉 표본분포는 '경우의 수'라는 개념이 들어간 분포라고 생각하면 된다.

 

 

2) n 수가 커질 수록 어떤 조합으로 뽑든 모집단 평균에 근사할 확률이 높아진다. (왜냐? 표본평균의 분산이 줄어드니까)

Case2와 Case3을 비교해보면 Case3이 Case2에 비해 어떤 조합을 뽑더라도 모집단 평균 240만원에 가까운 조합을 뽑을 확률이 높아진게 보인다.

왜냐하면 5명 중 2명을 뽑는거보다 5명 중 4명을 뽑는게 모집단을 더 많이 커버하기 때문에 어떻게 뽑아도 평균값에 근사할 확률이 높기 때문이다.

 

실제로 표본 평균들의 분산을 보면 Case2는 9,333 이고 Case3은 1,400으로 분산이 확 줄어든걸 볼 수 있다. 이는 다시 말하면 각 조합의 평균값이 실제 모집단 평균 근처에 분포해있다라는 뜻이다. 이론적으로 n수가 무한대이면 분산은 0에 수렴하여 표본 평균의 신뢰도가 올라간다. (즉 어떤 뽑기를 뽑더라도 모집단의 평균이 나온다는 뜻이다.)

 

 

3) 표본평균의 표준편차를 표준 오차라고 한다.

 

Case 1의 분산과 Case 2와 Case3의 분산이 헷갈릴수 있는데 이 둘은 같은 컨셉에서 출발하지만 의미하는 바는 전혀 다르다. 

Case 1의 분산은 모집단 전체 데이터를 기준으로 했을 때 각 데이터가 평균 값에서 얼마나 떨어져 있냐라는 개념이다.

Case1의 경우 모든 데이터를 가지고 계산을 했기 때문에 평균과 분산은 바뀌지 않는다. 


Case2와 3의 분산은 전체 데이터 중 일부를 표본으로 뽑고 그 표본의 평균을 계산 했을 때 각 표본 조합이 평균값에서 얼마나 떨어져 있냐는 개념이다.

즉 뽑기를 했을 때 실제 평균값에서 얼마나 떨어진 뽑기를 했느냐에 대한 이야기다.

이 경우 뽑기에 따라 평균 값은 달라지고 우리는 그 오차를 인정하는 것이다. 

이를 정의하는 단어가 표준오차이다. 표준오차는 표본 평균들의 표준 편차이다.

 

예를 들어 누군가  "이번 조사에서 30대 평균 소득은 240 만원이고 표준 편차는 100만원 인것으로 확인됩니다." 라고 말한다면 30대의 모든 소득을 조사를한 후 평균을 내보니 240만원이었고, 240만원에서 ±100만원 사이에 소득이 분포해있다라는 뜻이다. 

 

만약 "이번 조사에서 30대 평균 소득은 240 만원이고 표준 오차는 100만원 입니다." 하고 한다면 30대 인구 중 일부를 뽑아서 평균을 내보니 240만원이었는데 이 평균이 틀릴 수도 있음. 만약 틀리는거 까지 감안한다면 아마 140만원 ~ 340만원 사이에 평균이 위치해 있을거임. 이라는 뜻이다. 

 

 

 

 

2. 표본평균의 수리기호적 접근

 

1) 위 사례에서 확인한 것처럼 모집단의 평균은 표본평균의 평균과 같다.  내가 뽑은 하나의 뽑기가 모집단의 평균을 설명하지는 못하더라도 뽑기들의 기대값은 (뽑기를 무한히 한 후 평균을 내보면) 모집단의 평균과 같다는 것이다. 이를 수식으로 풀면 아래와 같다.

 

2) 표본평균들의 분산은 모집단 분산을 표본 수로 나눈것과 같다. 즉 표본수가 커지면 커질 수록 표본평균의 분산은 작아져 표본 평균의 정확성 또는 신뢰도가 올라간다고 보면 된다. 

3) 표본평균들의 분산의 제곱근을 구하면 표준 오차가된다. 

 


Takeaways

표본분포는 내가 뽑은 표본들의 분포가 아니라 뽑을 수 있었던 모든 가능성이 있는 표본의 조합에 대한 분포임을 기억하자.

모수를 알 수 없는 경우 어쩔 수 없이 표본의 통계량으로부터 모수를 추정해야하는데 n 수가 클수록 나의 통계량이 모수를 잘 대표할 가능성이 올라간다.