본문 바로가기

통계

(4)
7. 모수에 대한 구간추정과 가설검정 (2) 지난편에서 알려지지 않은 진리를 찾을 때 '추정'을 활용한다는 것과 구간추정을 하는 방법을 다루었다. 이번 포스트에서는 추정과 연결되어있는 개념인 가설검정을 다루고자 한다. 만약 30년 전에 어떤 사람이 대한민국 여성의 평균 신장이 162cm 라는 조사결과가 나와 모든 사람들이 그걸 믿는다고 해보자. 그런데 내 주변 여성들은 모두 키가 큰 것 같다. 그래서 대한민국 여성의 평균 신장이 162cm가 맞는지 의문이 든다. 이런 상황에서 활용할 수 있는 것이 바로 가설 검정이다. 1. 가설검정이란 (정석적인 설명) 가설이란 두 개 이상의 변수 또는 현상 간의 관계를 검정 가능한 형태로 서술한 문장으로 과학적 조사에 의하여 검정이 가능한 사실을 말한다. 가설에는 연구자가 새로이 주장하여 검정하고자하는 연구가설(..
통계 예측 도서 추천: 신호와 소음 신호와 소음 | 네이트 실버 | 더퀘스트 무려 600쪽에 달하는 예측에 관한 책이다. 스포츠, 포커, 기후, 지진, 주식 등 다양한 주제에 대한 예측과 그 한계성, 더 나아가야 할 길을 다루고 있다. 실제 분석업무에 적용할 수 있는 실용적인 내용보다는 예측의 본질과 철학을 소개하는 교양서적이다. 특히 저자는 베이즈 주의가 우리가 앞으로 나아가야할 예측의 길이라고 소개하며 베이즈 주의에 대해 자세히 다루었다. 여담으로 이 책은 2012년도에 출간됐는데 그 때부터도 '빅데이터'라는 단어를 사용하고 있었다. 늦게 시작한만큼 부지런하게 트렌드를 따라가야겠다는 생각이 들었다. 들어가며 | 신호와 소음 구텐베르크의 활판인쇄술이 개발된 후 기록의 축적이 가능하게되면서 정보의 양이 폭발적으로 증가했다. 현대에는 우리의..
2. 분포 / 확률분포 전 편에서 평균과 분산, 표준편차를 정리해보았다. 앞서 기술하였듯 평균, 분산, 표준편차와 같이 자료의 형태를 포괄적으로 설명할 수 있는 것을 한마디로 하면 분포 라고 한다. 분포라고 하면 정규분포, 표준 정규분포, 포아송 분포등과 함께 각각 대응하는 그래프 모양이 떠오를 것이다. 그 그래프는 왜 그리고, 우리가 분포를 알아야하는 이유는 무엇일까? 1. 확률 분포 상술했던 것과 같이 분포는 어떤 자료의 평균과 분산등을 총칭하는 의미이다. 확률 분포는 자료에서 특정 값이 나올 확률에 대한 분포라고 생각하면된다. 예를 들어 5개 기업의 기대 수익이 200만원, 300만원, 300만원, 400만원, 500만원이라고 했을 때 이들의 평균은 340만원이라할 수 있고, 이를 히스토그램으로 나타내면 아래와 같을 것이..
1. 기술 통계량 통계는 왜 나왔을까? 내 생각에는 어떠한 정보를 정확하게 전달하고자 나온 게 아닌가 싶다. 통계가 없었다면 우리는 내가 한 달에 돈을 얼마나 쓰는지, 이번 달 쓴 돈이 말도 안 되는 금액이기 때문에 반성이 필요할지, 또는 5월과 6월에 쓴 금액이 내가 신경 써야 할 정도로 차이가 심한지 등등에 대한 판단을 정확하게 할 수 있었을까? (요지는 '정확하게'에 있는 것 같다. 누구든 어림잡을 수 있지만, 실제의 정확함에 다가가기 위해 노력하는 학문이 통계라고 생각한다.) 통계에는 여러 가지 분야가 있는 것 같은데 공부와 거리가 멀었던 나는 일단 실생활에서 많이 쓰이는 통계, 즉 기술 통계부터 정리를 해 보고자 한다. 1. 히스토그램 *배경: 어떤 수치형 데이터가 있을 때, 어느 데이터가 많고, 어느 데이터가 ..