본문 바로가기

통계 | 데이터과학 | R

7. 모수에 대한 구간추정과 가설검정 (3)


지난편에서는 가설검정의 개념에 대해 기술하였다.

이번 포스트에서는 가설검정의 실제 절차를 정리해보고자 한다. 


 

1. 가설 검정 절차

가설  검정은 아래와 같은 절차를 따른다.

- Step 1. 가설 설정

- Step 2. 유의 수준 설정

- Step 3. 표본조사 후 표본 통계량을 귀무가설 분포에 대입 

- Step 4. 귀무가설 기각 여부 결정

 

 

(1) Step 1. 가설 설정

연구자가 관심을 가지고 있는 사건에 대한 가설인 연구가설과 그 반대인 - 연구가설과 대립되는 가설; 보통 현재까지 일반적으로 알려져 있는 의견 -  세운다.  보통 귀무가설을 H0, 연구 가설을 H1이라고 표기한다. 예를 들어 아래와 같이 가설을 세울 수 있다.

 

H0 : 대한민국 여성의 평균 신장은 162cm 이다.

H1 : 대한민국 여성의 평균 신장은 162cm가 아니다. 

 

(2) Step 2. 유의 수준 설정

유의수준은 귀무가설이 옳다면 나오기 힘든 극단치가 존재하는 구간을 말한다. 어떤 이론적 근거에 기반한 수치라기보다는 통상적으로 5%, 1% 를 적용한다. 이는 귀무가설을 따르는 분포에서 상,하위 또는 상하위 도합 5%, 1%에 해당하는 구간을 말하며 다시 말해 그만큼 확률적으로 나오기 힘든 구간 (이상치)이다. 만약 표본조사 결과가 해당 구역에 속하는 수치가 나왔다면, 이는 귀무가설이 맞다는 전제하에서는 설명이 힘든 수치가 나온것을 뜻하여, 귀무가설을 지지하는 힘을 의심할 수 있는 근거가 된다.

예를들어 귀무가설이 주장하는 여성 평균 신장에 대한 분포가 위와 같다고 해보자.  A는 신뢰구간 영역이다.  즉 표본 조사 결과 모수가 있을 것으로 추정되는 구간이다.  상기 분포에서 B 구역이 바로 이상치로 보는 구역이 되겠다. (위 그림의 경우 상위 2.5%, 하위 2.5% 도합 5%에 해당하는 구간을 이상치로 본다). 이를 간단하게 말하면 유의 수준이 0.05 라고 말 할 수 있고 표기는 α = 0.05 라고 하면된다. 

 

(3) Step 3. 표본조사 후 표본 통계량을 귀무가설 분포에 대입

대한민국 여성의 평균 신장이 162cm이라는 귀무가설이 맞는지 유의 수준 0.05로 검정을 해보자.

연구자가 100명의 표본을 추출하여 조사한 결과 표본 평균은 164cm, 표본분산이 (1.5cm)² 가 나왔다. 이제 이 통계량을 귀무가설에 대입해 분포를 그려보자. '평균'에 대한 검정이기 때문에 중심극한정리에 따라 분포 모양은 정규분포 형태를 띌 것이다. 

 

그런데 표본 평균은 164cm가 나왔다. 이는 샘플링에 의해 발생한 납득할만한 수준의 오차일까 아니면 귀무가설이 틀린걸까? 이를 검증하기위해 귀무가설의 평균을 기준으로 신뢰구간을 구한다.  지난편에서 다루었던 신뢰구간을 구하는 공식을 다시 보자. 

신뢰구간 공식 : 표본평균 - t값 *  s/ √n   ≤  모평균  ≤ 표본평균 +  t값 * s/ √n 

표본 수 100일 때 95% 신뢰구간: 표본평균 - 1.98 *  s/ √n   ≤  모평균  ≤ 표본평균 +  1.98 * s/ √n 

 

위 공식을 활용하면 다음과 같이 정리할 수 있다.

162 - 1.98 * 1.5/100 ≤  162 162 + 1.98 * 1.5/100

이를 계산해 보면  161.7 ≤ 162 ≤ 162.3 이 나온다.

 

이 말인 즉슨, 다른 사람이 조사를 했을 때 100번 중 95번은 여성 평균 신장이 161.7cm ~ 162.3 cm 사이에 나와야 귀무가설이 타당하다고 볼 수 있다는 것이다.  그런데 실제 표본 평균은 164cm였다. 이는 귀무가설이 틀리고 연구가설이 맞을 가능성이 상당히 높음을 뜻한다. 

 

표본평균이 이상치 구간에 있다

 

(4) Step 4. 귀무가설 기각여부 결정

위 결과에 따르면 연구자의 표본 평균 통계량인 164cm 는 귀무가설 환경하에서는 나오기 극히 힘든 수치임이 확인되었다. 따라서 귀무가설을 기각하고 연구가설을 채택할 수 있다. 

 

 

지금까지 가설검정의 절차에 대해 다루어보았다. 위 내용은 가설검정을 어떻게 진행하는지 그 배경에 대해 설명한 것으로 현실에서는 통계프로그램을 돌리면 뚝딱 결과가 나온다는 점 참고 부탁드린다.  (아래와 같이 명령어 한 줄이면 결과가 뚝딱 나온다..)

t.test(height, mu = 162, alternative = 'two.sided')

# result-------------------------------------------------

	One Sample t-test

data:  height
t = 13.238, df = 99, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 162
95 percent confidence interval:
163.6988 164.2979
sample estimates:
mean of x 
163.9984 

 


Takeaways

"네가 (귀무가설) 주장하는것에 대해  나도 조사를 해봤는데, 네 말과는 다른 결과가 나왔어. 그것도 아주 극단적으로 다른 수치가. 아무래도 네 생각이 틀린 것 같아." 가 가설검정의 핵심이다.

 

 

 

 

참고자료

1. 이훈영, 이훈영교수의 통계학 3판, 청람, 241~251p