본문 바로가기

통계 | 데이터과학 | R

7. 모수에 대한 구간추정과 가설검정 (2)

 


지난편에서 알려지지 않은 진리를 찾을 때 '추정'을 활용한다는 것과 구간추정을 하는 방법을 다루었다.

이번 포스트에서는 추정과 연결되어있는 개념인 가설검정을 다루고자 한다. 

만약 30년 전에 어떤 사람이 대한민국 여성의  평균 신장이 162cm 라는 조사결과가 나와 모든 사람들이 그걸 믿는다고 해보자.

그런데 내 주변 여성들은 모두 키가 큰 것 같다. 그래서 대한민국 여성의 평균 신장이 162cm가 맞는지 의문이 든다. 

이런 상황에서 활용할 수 있는 것이 바로 가설 검정이다. 

 


1. 가설검정이란 (정석적인 설명)

가설이란 두 개 이상의 변수 또는 현상 간의 관계를 검정 가능한 형태로 서술한 문장으로 과학적 조사에 의하여 검정이 가능한 사실을 말한다. 가설에는 연구자가 새로이 주장하여 검정하고자하는 연구가설(대립가설)과 이에 반하여 기존에 일반적인 사실로 받이들여지고 있는 내용을 나타내는 귀무가설이 있다. 일반적으로 새로운 주장(연구가설)은 그것이 객관적으로 명백하게 입증되지 않으면 쉽게 받아들여지지 않는다. 따라서 귀무가설을 기각하고 연구가설이 채택되기 위해서는 기존의 지식을 나타내는 귀무가설이 분명하게 잘못되었음을 입증하여야 한다.

 

일반적으로 가설검정은 표본을 추출하여 얻은 표본통계량으로 모집단의 모수에 대한 새로운 예상과 가설등이 옳다고 판단할 수 있는지를 평가하는 것을 말한다. 예를들어 국내 여성 평균 신장이 162cm라고 알려져 있다. 그러나 연구자가 생각하기엔 여성 평균 신장이 162cm보다 클 것이라고 생각한다. 이 경우 연구자가 입증하고자하는 연구가설은 '대한민국 여성 평균 신장은 162cm보다 크다' 이며 귀무가설은 '대한민국 여성 평균 신장은 162cm이다' 가 된다. 이렇게 가설을 세운 후 대한민국 여성을 대상으로 표본조사를 실시하여 가설의 통계적 유의성을 검정하는 것이 바로 가설검정이다. 

 

가설검정은 모집단에 대해서 알려진 일반적인 정보나 상식을 나타내는 귀무가설이 옳다는 전제하에 이루어진다.  즉, 귀무가설이 기각되기 전까지는 귀무가설이 옳다는 전제하에서 모든 가설검정이 진행된다. 그러나 표본조사 결과로부터 얻은 통계량 값이 귀무가설이 옳다는 전제하에서 쉽게 얻을 수 없는 매우 극단적이고 예외적인 값이 나오면, 무언가 귀무가설에서 주장하는 바가 잘못되었음을 짐작할 수 잇다. 이러한 경우에야 비로소 귀무가설에서 주장하는 바가 잘못되었음을 짐작할 수 있으며 따라서 귀무가설을 기각하고 연구가설을 채택한다. [각주:1]

 

 

2. 가설검정이란 (쉬운 설명)

어떤 현상에 대해 보편적으로 알려져 있는 사실이 있을 것이다.  평균 신장, 평균 수명,  평균 소득, 넷플릭스 이용률 등등.. 

만약 이렇게 알려져 있는 사실에 대해 의문을 품게되어 그 사실이 진짜 맞는지 '검증'하고 싶거나 또는 내가 생각하는 바가 맞다고 '입증'하고 싶을 때 가설검정을 진행한다.  일반적으로 알려져 있는 사실은 귀무가설이라고 부르고 내가 검증하거나 입증하고 싶은 사실은 연구가설이라고 부른다. 

그렇다면 어떻게 내 생각이 맞는지 검증/입증할 수 있을까? 한마디로 정리하면 아래와 같다.

 

"네가 (귀무가설) 주장하는것에 대해  나도 조사를 해봤는데, 네 말과는 다른 결과가 나왔어. 그것도 아주 극단적으로 다른 수치가. 아무래도 네 생각이 틀린 것 같아." 

 

조금 더 풀어보자면, 연구가설 결과가 유효하고 귀무가설은 잘못된 수치임을 밝혀내기위해선 귀무가설과 연구가설의 데이터 비교 기준을 맞춰야한다.

이 때문에 귀무가설이 맞다고 가정하고 귀무가설의 분포에 연구가설 통계량이 어느 위치에 있는지 비교하는 방법으로 가설 검정을 진행하는 것이다.

예를 들자면, 내가 아무리 생각해도 대한민국 여성 평균 신장은 162cm가 넘는거 같은데 이 사실을 어떻게 입증할 수 있을까?

162cm인 여성을 기준으로 세워두고 전국 모든 다른 여성을 옆에 서게 해서 키가 얼마나 차이나는지 확인한 후 평균을 내면 된다. 

즉 귀무가설의 데이터(분포)를 기준으로 내 데이터를 비교해서 그게 만약 이상치에 가까우면 귀무가설이 틀렸다고 판단하는 것이라고 보면 된다. 

 

보통 인강같은데를 보면 '가설 검정 방식은 특이하게 귀무가설이 맞다는 전제하에 연구가설에 대한 실험을 진행 한 후 귀무가설이 틀렸다는 것을 입증하는 방식으로 진행합니다'  라고만 간단하게 설명하던데 그 배경에 대해 이해하면 가설검정 방식을 외울 필요가 없다. 

 


Takeaways

가설검정이란 귀무가설의 분포에 나의 통계량을 비교하여 그 수치가 이상치인지 아닌지 확인하는 일이다. 

 

 

 

 

참고자료

1. 이훈영, 이훈영교수의 통계학 3판, 청람, 241~251p 

 

 

  1. 이훈영 교수의 통계학 3판, 241p ~ 243p [본문으로]