본문 바로가기

통계 | 데이터과학 | R

7. 모수에 대한 구간추정과 가설검정 (1)


아마 우리는 크게 두 가지 목적으로 통계를 활용할 것이다.

1. 진리가 무엇인지 찾는 것. (대한민국 여성의 평균 키는 얼마인가?)

2. 이미 나온 진리를 검증하는 것 (대한민국 여성의 평균 키가 162cm 라는데 맞는가? 내 추론으로는 165cm는될 것 같은데?)

-

즉 진리를 찾거나 이미 나온 진리에 대해 검증/반박하기위해 통계를 활용하는 것이다. 

이를 통계언어로 풀이하면 전자는 추정이라하고 후자를 가설검정이라고 한다. 

-

이번편에서는 추정에대해 정리해보고자 한다. 

 


1. 추정이란

추정이란 모집단에 대한 어떤 정보도 없는 상태에서, 모집단을 대표할 수있는 표본을 추출하여 통계량을 구한 다음 이를 이용하여 모집단의 모수를 예측하는것을 말한다. [각주:1]

우리나라 여성의 평균신장에대한 표본통게량을 구한다고 해보자.  아마 표본 100명을 뽑아보니 '우리나라 평균 여성 신장은 162cm입니다.' 라고 말할 수 있을 것이다.  또는 '95% 신뢰수준에서 평균 여성신장은 162cm ± 2.5cm 입니다.' 라고도 말할 수 있을 것이다.

위 예시에서 전자를 점추정이라고 하고 후자를 구간추정이라고 한다.  두 가지 추정법 중 어떤 추정이 더 바람직하다고 할 수 있을까?

점추정의 경우 딱 부러진 하나의 수치를 특정하므로 뭔가 자신에 차보이는 듯 해보이긴 하지만 사실상 추정이 틀릴 가능성이 높다. 왜냐하면 앞선 포스팅에서 언급했 듯 우리는 수많은 표본조합 중 일부만 확인을 한 것이므로 뽑을 때마다 표본평균치가 다를 것이기 때문이다. 따라서 현실적으로는 표본을 뽑을 때의 오차까지 반영하여 구간 추정을 하는것이 보다 바람직하다고 할 수 있다. 

 

 

2. 구간 추정의 구성요소

구간 추정에는 다음과 같은 네가지 요소가 있다.

 

1) 신뢰수준 : 진정한 모수가 추정 구간에 있을 확률을 말한다. (보통 90%, 95%,  99% 를 사용) 예를 들어 신뢰수준 95% 라는 것은 연구자가 추정한 방법론대로 100번을 실험을 했을 때 95번은 연구자가 추정하는 구간 속에 진짜 모수가 존재한다는 것을 말한다. 

 

2) 신뢰구간:  모수가 포함되어 있을 것으로 추정되는 구간이다.  95% 신뢰수준에서 평균 여성신장은 162cm ± 2.5cm 일 때,  신뢰구간은 159.5cm ~ 164.5cm이다.

 

3)  표본평균 :  현 조사에서 나온 표본들의 평균값을 뜻한다. 

 

4)  표준오차 : 평균의 오차범위를 뜻한다. 보통 평균 옆에 ± XX 로 표기된다. '95% 신뢰수준에서 평균 여성신장은 162cm ± 2.5cm 입니다.' 라고  할 때  표준오차는 2.5cm이다. 

 

 

+ 신뢰수준과 신뢰구간

 

출처 : minitab

신뢰수준과 신뢰구간에대해 잘 표현된 자료가 있어서 들고왔다.  모평균(μ) 라는 고정불변의 수치가 검은색 실선으로 표현되어있다.  연구자는 모평균을 추정하기위해 표본을 뽑아서 표본평균과 그에대한 신뢰구간을 구한다. 그것이 각각의 파란색, 빨간색 세로선이다. 총 20개의 세로선 중 19개의 파란 신뢰구간은 모수를 포함하고, 1개의 빨간 신뢰구간은 모수를 포함하지 않는다. 즉 20회의 조사 중 19회의 구간 추정이 실제 모수를 포함했다. 이를 백분율로 나타내면 95%의 구간 추정이 모수를 포함했다고 설명할 수 있다. 이 개념이 신뢰수준이다. 

 

 

 

3. 평균에 대한 구간 추정하는 법

표본에서 뽑은 평균으로 구간추정을 하는 방식은 기본적으로 정규분포의 컨셉을 활용한다.

평균의 경우 앞서 다룬 것 처럼  E(X bar) =  μ 이면서 중심극한정리에 따라 모집단이 어떤 분포를 하든 평균에 한해서는 정규분포를 따르므로 이 둘은 닮은 꼴을 하고 있기 때문이다. 

 

즉 표본평균의 분포는 정규분포와 아래와 같이 대응한다고 말할 수 있다.                     

● 모집단분포는 정규분포를 이룬다 ≒ 표본평균의 분포는 중심극한정리에 의해 정규분포를 이룬다
● 모집단분포의 평균 ≒ 표본평균의 평균 ; 표본평균   [ E(X bar) = μ ]
● 모집단분포의 표준편차  ≒ 표본평균의 표준편차 ; 표준오차 [ s / √n ] 

 

아래 이미지를 보자. 상단 이미지는 정규분포 그래프이고 하단 이미지는 표본평균에 대한 그래프이다. 

표준오차는 표본평균들의 표준편차이며 원래는 모표준편차를 n의 제곱근으로 나눠준 것을 의미한다. (σ/ √n)

그런데 현실적으로 우리가 모분산을 알 수가 없으니 모표준편차의 불편추정량인 표본분산 s 로 대체하여 계산한다. ( s/ √n ) 이전편 다시보기 

 

 

 

이제 우리는 모평균의 68.3% (±1σ) ,  95.4% (±2σ),  99.7%(±3σ) 가 속해있는 구간을 추정할 수 있다. 

● 모평균의  68.3% 가 속한 추정구간 
      표본평균 -  1 * s/ √n  ≤  모평균  ≤ 표본평균 +  1 * s/ √n 

● 모평균의  95.4% 가 속한 추정구간 
      표본평균 -  2 * s/ √n  ≤  모평균  ≤ 표본평균 +  2 * s/ √n 

● 모평균의  99.7% 가 속한 추정구간 
      표본평균 -  3 * s/ √n  ≤  모평균  ≤ 표본평균 +  3 * s/ √n 

 

 

참고로 실제로는 계산의 편의성을 위해 t 분포의 t 값으로 대체하여  계산한다.  

예를들어 표본 수가 100인 모평균의 95.0%가 포함되어있는 구간은 아래와 같이 계산한다. 


     표본평균 - t값 *  s/ √n   ≤  모평균  ≤ 표본평균 +  t값 * s/ √n 

= 표본평균 - 1.98 *  s/ √n   ≤  모평균  ≤ 표본평균 +  1.98 * s/ √n 

 

t값은 t분포표에서 자유도를 이용해서 구할 수 있으며, 자세한 내용은 t-test를 다룰때 함께 정리하겠다. 

 

추가적으로 동일한 신뢰수준일 때 n 수가 클 수록 추정 구간은 좁아져 보다 정확한 예측이 가능해진다. 상기 수식을 뜯어보면 직관적으로 이해할 수 있다.  

또 본 포스팅에서는 평균에 대한 구간추정에 대해서만 작성하였으나 모집단 비율, 모집단 분산에 대한 구간 추정도 있는 점 참고하자. 

 


Takeaways

추정에는 점추정과 구간 추정이 있고 평균에대한 구간추정은 정규분포 컨셉에 기초한다. 

 

 

 

 

참고자료

1. 이훈영, 이훈영교수의 통계학 3판, 청람

2. 우치다 마나부 외, 퇴근시간이 빨라지는 비즈니스 통계 입문, 시그마북스

 

 

  1. 이훈영 교수의 통게학, 210p [본문으로]