아마 우리는 크게 두 가지 목적으로 통계를 활용할 것이다.
1. 진리가 무엇인지 찾는 것. (대한민국 여성의 평균 키는 얼마인가?)
2. 이미 나온 진리를 검증하는 것 (대한민국 여성의 평균 키가 162cm 라는데 맞는가? 내 추론으로는 165cm는될 것 같은데?)
-
즉 진리를 찾거나 이미 나온 진리에 대해 검증/반박하기위해 통계를 활용하는 것이다.
이를 통계언어로 풀이하면 전자는 추정이라하고 후자를 가설검정이라고 한다.
-
이번편에서는 추정에대해 정리해보고자 한다.
1. 추정이란
추정이란 모집단에 대한 어떤 정보도 없는 상태에서, 모집단을 대표할 수있는 표본을 추출하여 통계량을 구한 다음 이를 이용하여 모집단의 모수를 예측하는것을 말한다. 1
우리나라 여성의 평균신장에대한 표본통게량을 구한다고 해보자. 아마 표본 100명을 뽑아보니 '우리나라 평균 여성 신장은 162cm입니다.' 라고 말할 수 있을 것이다. 또는 '95% 신뢰수준에서 평균 여성신장은 162cm ± 2.5cm 입니다.' 라고도 말할 수 있을 것이다.
위 예시에서 전자를 점추정이라고 하고 후자를 구간추정이라고 한다. 두 가지 추정법 중 어떤 추정이 더 바람직하다고 할 수 있을까?
점추정의 경우 딱 부러진 하나의 수치를 특정하므로 뭔가 자신에 차보이는 듯 해보이긴 하지만 사실상 추정이 틀릴 가능성이 높다. 왜냐하면 앞선 포스팅에서 언급했 듯 우리는 수많은 표본조합 중 일부만 확인을 한 것이므로 뽑을 때마다 표본평균치가 다를 것이기 때문이다. 따라서 현실적으로는 표본을 뽑을 때의 오차까지 반영하여 구간 추정을 하는것이 보다 바람직하다고 할 수 있다.
2. 구간 추정의 구성요소
구간 추정에는 다음과 같은 네가지 요소가 있다.
1) 신뢰수준 : 진정한 모수가 추정 구간에 있을 확률을 말한다. (보통 90%, 95%, 99% 를 사용) 예를 들어 신뢰수준 95% 라는 것은 연구자가 추정한 방법론대로 100번을 실험을 했을 때 95번은 연구자가 추정하는 구간 속에 진짜 모수가 존재한다는 것을 말한다.
2) 신뢰구간: 모수가 포함되어 있을 것으로 추정되는 구간이다. 95% 신뢰수준에서 평균 여성신장은 162cm ± 2.5cm 일 때, 신뢰구간은 159.5cm ~ 164.5cm이다.
3) 표본평균 : 현 조사에서 나온 표본들의 평균값을 뜻한다.
4) 표준오차 : 평균의 오차범위를 뜻한다. 보통 평균 옆에 ± XX 로 표기된다. '95% 신뢰수준에서 평균 여성신장은 162cm ± 2.5cm 입니다.' 라고 할 때 표준오차는 2.5cm이다.
+ 신뢰수준과 신뢰구간
신뢰수준과 신뢰구간에대해 잘 표현된 자료가 있어서 들고왔다. 모평균(μ) 라는 고정불변의 수치가 검은색 실선으로 표현되어있다. 연구자는 모평균을 추정하기위해 표본을 뽑아서 표본평균과 그에대한 신뢰구간을 구한다. 그것이 각각의 파란색, 빨간색 세로선이다. 총 20개의 세로선 중 19개의 파란 신뢰구간은 모수를 포함하고, 1개의 빨간 신뢰구간은 모수를 포함하지 않는다. 즉 20회의 조사 중 19회의 구간 추정이 실제 모수를 포함했다. 이를 백분율로 나타내면 95%의 구간 추정이 모수를 포함했다고 설명할 수 있다. 이 개념이 신뢰수준이다.
3. 평균에 대한 구간 추정하는 법
표본에서 뽑은 평균으로 구간추정을 하는 방식은 기본적으로 정규분포의 컨셉을 활용한다.
평균의 경우 앞서 다룬 것 처럼 E(X bar) = μ 이면서 중심극한정리에 따라 모집단이 어떤 분포를 하든 평균에 한해서는 정규분포를 따르므로 이 둘은 닮은 꼴을 하고 있기 때문이다.
즉 표본평균의 분포는 정규분포와 아래와 같이 대응한다고 말할 수 있다.
● 모집단분포는 정규분포를 이룬다 ≒ 표본평균의 분포는 중심극한정리에 의해 정규분포를 이룬다 |
아래 이미지를 보자. 상단 이미지는 정규분포 그래프이고 하단 이미지는 표본평균에 대한 그래프이다.
표준오차는 표본평균들의 표준편차이며 원래는 모표준편차를 n의 제곱근으로 나눠준 것을 의미한다. (σ/ √n)
그런데 현실적으로 우리가 모분산을 알 수가 없으니 모표준편차의 불편추정량인 표본분산 s 로 대체하여 계산한다. ( s/ √n ) 이전편 다시보기
이제 우리는 모평균의 68.3% (±1σ) , 95.4% (±2σ), 99.7%(±3σ) 가 속해있는 구간을 추정할 수 있다.
● 모평균의 68.3% 가 속한 추정구간 ● 모평균의 95.4% 가 속한 추정구간
|
참고로 실제로는 계산의 편의성을 위해 t 분포의 t 값으로 대체하여 계산한다.
예를들어 표본 수가 100인 모평균의 95.0%가 포함되어있는 구간은 아래와 같이 계산한다.
표본평균 - t값 * s/ √n ≤ 모평균 ≤ 표본평균 + t값 * s/ √n
= 표본평균 - 1.98 * s/ √n ≤ 모평균 ≤ 표본평균 + 1.98 * s/ √n
t값은 t분포표에서 자유도를 이용해서 구할 수 있으며, 자세한 내용은 t-test를 다룰때 함께 정리하겠다.
추가적으로 동일한 신뢰수준일 때 n 수가 클 수록 추정 구간은 좁아져 보다 정확한 예측이 가능해진다. 상기 수식을 뜯어보면 직관적으로 이해할 수 있다.
또 본 포스팅에서는 평균에 대한 구간추정에 대해서만 작성하였으나 모집단 비율, 모집단 분산에 대한 구간 추정도 있는 점 참고하자.
Takeaways
추정에는 점추정과 구간 추정이 있고 평균에대한 구간추정은 정규분포 컨셉에 기초한다.
참고자료
1. 이훈영, 이훈영교수의 통계학 3판, 청람
2. 우치다 마나부 외, 퇴근시간이 빨라지는 비즈니스 통계 입문, 시그마북스
- 이훈영 교수의 통게학, 210p [본문으로]
'통계 | 데이터과학 | R' 카테고리의 다른 글
8. p-value (유의확률) (0) | 2020.06.17 |
---|---|
7. 모수에 대한 구간추정과 가설검정 (3) (0) | 2020.05.18 |
7. 모수에 대한 구간추정과 가설검정 (2) (0) | 2020.05.16 |
6-1. 중심극한정리 with R (0) | 2020.04.13 |
6. 중심극한 정리 (0) | 2020.04.13 |
5. 모집단의 분산을 유추하기 (0) | 2020.04.13 |
4. 모집단의 평균을 유추하기 (0) | 2020.04.13 |
3. 정규분포와 표준정규분포 (0) | 2020.04.12 |