분류 전체보기 (12) 썸네일형 리스트형 8. p-value (유의확률) 가설검정은 간단히 말해 귀무가설의 분포에서 연구자의 표본통계량이 나올 확률이 얼마인지 검증하는 절차이다. 귀무가설의 분포에서 표본통계량이 나올 가능성이 유의수준(α ; 기각역)보다 작으면 연구자의 가설을 채택할 수 있다. 지난편에서는 t 값으로 검증절차를 설명했는데 실제로는 p-value 라는 통일된 지표를 많이 활용한다. 따라서 이번 편에서는 p-value의 개념과 주의점을 다루고자한다. 1. p-value (유의확률) 정의 우리가 가설 검정을 하려면 귀무가설의 분포를 알아야한다. 문제는 t 분포,Z 분포, 카이제곱분포, F 분포... 등 어떤 분포를 따르는지에 따라서 표본 통계량에 대한 확률을 계산하는 방식이 달라진다. 즉 유의 수준 5% 에 대한 각각의 Z값과 t 값, 카이제곱 값, F 값들이 각각.. 7. 모수에 대한 구간추정과 가설검정 (3) 지난편에서는 가설검정의 개념에 대해 기술하였다. 이번 포스트에서는 가설검정의 실제 절차를 정리해보고자 한다. 1. 가설 검정 절차 가설 검정은 아래와 같은 절차를 따른다. - Step 1. 가설 설정 - Step 2. 유의 수준 설정 - Step 3. 표본조사 후 표본 통계량을 귀무가설 분포에 대입 - Step 4. 귀무가설 기각 여부 결정 (1) Step 1. 가설 설정 연구자가 관심을 가지고 있는 사건에 대한 가설인 연구가설과 그 반대인 - 연구가설과 대립되는 가설; 보통 현재까지 일반적으로 알려져 있는 의견 - 세운다. 보통 귀무가설을 H0, 연구 가설을 H1이라고 표기한다. 예를 들어 아래와 같이 가설을 세울 수 있다. H0 : 대한민국 여성의 평균 신장은 162cm 이다. H1 : 대한민국 여성.. 7. 모수에 대한 구간추정과 가설검정 (2) 지난편에서 알려지지 않은 진리를 찾을 때 '추정'을 활용한다는 것과 구간추정을 하는 방법을 다루었다. 이번 포스트에서는 추정과 연결되어있는 개념인 가설검정을 다루고자 한다. 만약 30년 전에 어떤 사람이 대한민국 여성의 평균 신장이 162cm 라는 조사결과가 나와 모든 사람들이 그걸 믿는다고 해보자. 그런데 내 주변 여성들은 모두 키가 큰 것 같다. 그래서 대한민국 여성의 평균 신장이 162cm가 맞는지 의문이 든다. 이런 상황에서 활용할 수 있는 것이 바로 가설 검정이다. 1. 가설검정이란 (정석적인 설명) 가설이란 두 개 이상의 변수 또는 현상 간의 관계를 검정 가능한 형태로 서술한 문장으로 과학적 조사에 의하여 검정이 가능한 사실을 말한다. 가설에는 연구자가 새로이 주장하여 검정하고자하는 연구가설(.. 통계 예측 도서 추천: 신호와 소음 신호와 소음 | 네이트 실버 | 더퀘스트 무려 600쪽에 달하는 예측에 관한 책이다. 스포츠, 포커, 기후, 지진, 주식 등 다양한 주제에 대한 예측과 그 한계성, 더 나아가야 할 길을 다루고 있다. 실제 분석업무에 적용할 수 있는 실용적인 내용보다는 예측의 본질과 철학을 소개하는 교양서적이다. 특히 저자는 베이즈 주의가 우리가 앞으로 나아가야할 예측의 길이라고 소개하며 베이즈 주의에 대해 자세히 다루었다. 여담으로 이 책은 2012년도에 출간됐는데 그 때부터도 '빅데이터'라는 단어를 사용하고 있었다. 늦게 시작한만큼 부지런하게 트렌드를 따라가야겠다는 생각이 들었다. 들어가며 | 신호와 소음 구텐베르크의 활판인쇄술이 개발된 후 기록의 축적이 가능하게되면서 정보의 양이 폭발적으로 증가했다. 현대에는 우리의.. 7. 모수에 대한 구간추정과 가설검정 (1) 아마 우리는 크게 두 가지 목적으로 통계를 활용할 것이다. 1. 진리가 무엇인지 찾는 것. (대한민국 여성의 평균 키는 얼마인가?) 2. 이미 나온 진리를 검증하는 것 (대한민국 여성의 평균 키가 162cm 라는데 맞는가? 내 추론으로는 165cm는될 것 같은데?) - 즉 진리를 찾거나 이미 나온 진리에 대해 검증/반박하기위해 통계를 활용하는 것이다. 이를 통계언어로 풀이하면 전자는 추정이라하고 후자를 가설검정이라고 한다. - 이번편에서는 추정에대해 정리해보고자 한다. 1. 추정이란 추정이란 모집단에 대한 어떤 정보도 없는 상태에서, 모집단을 대표할 수있는 표본을 추출하여 통계량을 구한 다음 이를 이용하여 모집단의 모수를 예측하는것을 말한다. 우리나라 여성의 평균신장에대한 표본통게량을 구한다고 해보자. .. 6-1. 중심극한정리 with R 이번편에서는 R로 실제 중심극한정리가 어떻게 구현되는지 포스팅하고자 한다. 1. 유니폼 분포에서 중심극한 정리 확인하기 10000개의 유니폼 분포를 따르는 자료에서 5개의 표본을 10000개 뽑아서 그 평균에 대한 분포를 확인해보자. 0에서 10까지 유니폼 분포를 따르는 자료를 하나 생성하여 히스토그램을 그려본다 hist(runif(10000)*10, main = "") means 변수에 10000개의 숫자 공간을 입력한 후 해당 변수에 5개 표본의 평균 값을 적재한 후 means 변수의 히스토그램을 그린다. means 변수는 평균을 기준으로 종 모양의 정규분포 형태를 띄는 것을 알 수 있다. means 6. 중심극한 정리 4장, 5장에서 표본에서 모평균과 모분산을 추정하는 방법을 다루었다. 우리가 표본으로 모평균과 모분산을 구하고자 하는 이유가 무엇일까? 해당 추정치를 기준으로 어떤 자료를 판단 (평균이하네 / 중박은 치는구나 / 오 상위권이네) 하기위함일 것이다. 그러기 위해서는 2장에서 언급했던 것처럼 모집단의 분포를 알아야한다. 하지만 모집단의 분포를 알아내는 것은 매우 어려운 일이다. 애초에 모집단의 분포를 안다면 표본을 뽑을 이유도 없다. 따라서 추정의 마지막 관문인 모집단 분포에 대한 추정이 필요하다. 1. 중심극한정리란 몇 가지 대표적인 확률 분포를 제외하고는 (임의로 동전을 던졌을 때 앞면이 나올 확률 분포 등) 확률변수의 특성에 따라 분포곡선을 파악하여 확률 밀도 함수를 구하는 것은 쉽지 않다. 그런데 모.. 5. 모집단의 분산을 유추하기 이전편에서 표본평균으로부터 모평균을 추정하는 방법을 다루었다. 표본평균의 평균 = 모평균 표본평균의 분산 = 모분산 / 표본 수 표본평균의 평균은 모평균과 같고, 표본 수가 증가할 수록 표본평균은 모평균에 가까워지므로 우리는 모평균을 추정할 때 표본평균을 사용한다. 이번 편에서는 모분산을 추정하는 법을 다뤄보고자 한다. 내가 가진 표본 통계량을 가지고 어떻게 모분산을 추론할 수 있을까? 1. 모분산과 표본분산의 정의 및 공식 먼저 모집단의 분산을 어떻게 구했는지 다시 떠올려보자. 각 변량에 평균값을 뺀 것을 모두 제곱합 한 후 변량 수로 나눈것이 모분산이었다. 그렇다면 표본집단의 분산은 어떻게 구할까? 기본 구조는 모분산과 같다. 다만 다른 점이 있다면 분모가 N이 아니라 n-1이라는 점이다. 왜 n-1.. 이전 1 2 다음