본문 바로가기

통계 | 데이터과학 | R

(11)
3. 정규분포와 표준정규분포 전 편에서 분포의 개념과 분포의 중요성을 다루었다. 이번편에서는 분포중의 분포, 통계학과가 아니더라도 아는 바로 그 분포인 정규분포와 표준정규분포의 정의 및 표준정규분포 도출 과정을 다뤄보고자 한다. 1. 정규분포 흔히 일반 자연현상에서 가장 많이 관측되는 분포가 정규분포라고 한다. 정규분포의 주요한 특징은 아래와 같다. 평균을 중심으로 좌우대칭인 종 모양을 하고 있다. X축과 그래프 사이의 면적값을 적분해서 확률값을 얻을 수 있다. 평균을 중심으로 좌우 각각 50%의 데이터가 분포해있다. 평균을 중심으로 ±σ 사이에 68.3% 의 데이터가 포함되어있고, ±2σ 사이에 95.4%가, ±3σ 사이에 99.7%가 포함되어있다. (σ 는 표준편차를 뜻하고 시그마로 읽는다) 평균은 분포의 위치를, 분산은 종의 ..
2. 분포 / 확률분포 전 편에서 평균과 분산, 표준편차를 정리해보았다. 앞서 기술하였듯 평균, 분산, 표준편차와 같이 자료의 형태를 포괄적으로 설명할 수 있는 것을 한마디로 하면 분포 라고 한다. 분포라고 하면 정규분포, 표준 정규분포, 포아송 분포등과 함께 각각 대응하는 그래프 모양이 떠오를 것이다. 그 그래프는 왜 그리고, 우리가 분포를 알아야하는 이유는 무엇일까? 1. 확률 분포 상술했던 것과 같이 분포는 어떤 자료의 평균과 분산등을 총칭하는 의미이다. 확률 분포는 자료에서 특정 값이 나올 확률에 대한 분포라고 생각하면된다. 예를 들어 5개 기업의 기대 수익이 200만원, 300만원, 300만원, 400만원, 500만원이라고 했을 때 이들의 평균은 340만원이라할 수 있고, 이를 히스토그램으로 나타내면 아래와 같을 것이..
1. 기술 통계량 통계는 왜 나왔을까? 내 생각에는 어떠한 정보를 정확하게 전달하고자 나온 게 아닌가 싶다. 통계가 없었다면 우리는 내가 한 달에 돈을 얼마나 쓰는지, 이번 달 쓴 돈이 말도 안 되는 금액이기 때문에 반성이 필요할지, 또는 5월과 6월에 쓴 금액이 내가 신경 써야 할 정도로 차이가 심한지 등등에 대한 판단을 정확하게 할 수 있었을까? (요지는 '정확하게'에 있는 것 같다. 누구든 어림잡을 수 있지만, 실제의 정확함에 다가가기 위해 노력하는 학문이 통계라고 생각한다.) 통계에는 여러 가지 분야가 있는 것 같은데 공부와 거리가 멀었던 나는 일단 실생활에서 많이 쓰이는 통계, 즉 기술 통계부터 정리를 해 보고자 한다. 1. 히스토그램 *배경: 어떤 수치형 데이터가 있을 때, 어느 데이터가 많고, 어느 데이터가 ..