통계는 왜 나왔을까? 내 생각에는 어떠한 정보를 정확하게 전달하고자 나온 게 아닌가 싶다.
통계가 없었다면 우리는 내가 한 달에 돈을 얼마나 쓰는지, 이번 달 쓴 돈이 말도 안 되는 금액이기 때문에 반성이 필요할지,
또는 5월과 6월에 쓴 금액이 내가 신경 써야 할 정도로 차이가 심한지 등등에 대한 판단을 정확하게 할 수 있었을까?
(요지는 '정확하게'에 있는 것 같다. 누구든 어림잡을 수 있지만, 실제의 정확함에 다가가기 위해 노력하는 학문이 통계라고 생각한다.)
통계에는 여러 가지 분야가 있는 것 같은데 공부와 거리가 멀었던 나는 일단 실생활에서 많이 쓰이는 통계, 즉 기술 통계부터 정리를 해 보고자 한다.
1. 히스토그램
*배경: 어떤 수치형 데이터가 있을 때, 어느 데이터가 많고, 어느 데이터가 적은지 궁금할 수 있다. But, 만약 이 데이터로 막대그래프를 그리고 싶어도, 아마 관찰 빈도수가 1인 경우가 굉~장히 많을 것이고 그러면 의미도 없다. 예를 들어 내 소비 금액에 대한 히스토그램을 그리려고 했을 때, 정확하게 470원을 쓴 날이 몇 일이나 될 것인가? 때문에 '일정구간' 을 나눠서 그래프를 그린게 히스토그램이다.
히스토그램 정의
수치형 자료를 일정한 구간으로 나눈 후 그 구간의 관측치 (빈도수 또는 빈도율)을 그래프로 나타낸 것.
2. 대푯값 : 평균, 중위수, 최빈값, 절사평균
*배경: 어떤 수치형 자료를 내가 다른사람에게 설명하고 싶다. 어떻게 설명할 것인가? 내가 평소에는 200만원만 쓰는데 이번달에 명품백을 질러서 대략 500만원을 사용했다고 했을 때 나의 소비 수준은 200만원인가? 500만원인가? 아니면 200만원과 500만원 사이의 어디쯤일까?
이걸 꼭 일일이 히스토그램을 그려 보여줘야하는가?
실전에서는 데이터가 너무 많아서 자료수를 일일이 확인할 수 없다. 따라서 대표값 (평균, 중위수, 최빈값, 절사 평균) 등을 통해 자료의 형태를 추론한다.
1) 평균: 수치형 자료의 총합 / 자료 수
- 장점: 모두가 안다. 편하다.
- 단점: 이상치에 영향을 많이 받는다.
2) 중위수 : 수치형 자료를 오름차순 또는 내림차순으로 정리한 후 순서상 중간에 위치한 수치
- 장점: 이상치에 영향를 덜 받는다. 평균과 중위수를 비교함으로써 이상치 존재 유무를 확인할 수도 있다.
- 단점: 아직까지는 본 자료가 없음. 추후 업뎃 예정
3) 최빈값 : 수치형 자료에서 가장 많이 나온 수치
- 장점: 히스토그램을 연상했을 때 가장 막대기가 높은 구간 (여기서는 수치) 를 보는 차원에서 도움이될 듯.
- 단점: 모든 수치가 유니크할 때 최빈값은 없는 것으로 나오기 때문에 자료에따라 의미가 없을 수 있다.
4) 절사 평균: 양 극단 몇% 에 해당하는 자료를 제거하고 난 후의 평균.
올림픽등에서 최고점, 최저점을 제출한 심사위원의 점수는 제하고 점수를 매기는걸 떠올리면 될 듯.
3. 분산, 표준 편차
*배경: 자영업을 하는 윤씨와 직장인인 강씨는 모두 한 달 평균 300만원을 번다.
[월별 수입]
윤씨: 50만원, 400만원, 450만원, 300만원
강씨: 250만원, 250만원, 400만원, 300만원
이 두 명 모두 친구인 금씨에게 100만원을 빌려달라고 했다. 금씨는 이번달에 여유자금 100만원이 있긴하지만 꼭 다음달에는 돌려받아야한다. 금씨는 누구에게 돈을 빌려주어야 돈을 회수할 확률이 높을까?
분산과 표준편차는 평균(대표값)이 설명할 수 없는 '평균을 기준으로 각 데이터가 퍼져있는 정도'를 알려주는 지표이다.
분산과 표준편차를 알면, 금씨는 강씨에게 100만원을 빌려줄 수 있게된다.
직관적으로 생각했을 때에도 윤씨는 수입이 50만원 ~ 450만원으로 그 격차가 큰 편이지만 강씨의 경우 250만원 ~ 400만원 사이로 윤씨보다 안정적인 수입을 가지고 있다.
정확하게 계산을 해보면 윤씨의 분산은 23,750 표준편차는 154 만원이고 강씨의 분산은 3,750 표준편차는 61만원으로 강씨의 분산과 표준편차가 윤씨보다 작음을 알 수 있다. (분산은 단위를 붙일 수 없지만 표준편차는 원본 데이터 단위를 붙일 수 있으므로 의사결정에 보다 도움이되는 지표라 할 수 있다.)
참고로 표준편차 해석은 윤씨의 경우 월평균 300만원의 수입에 ±154만원의 편차가 있다라고 해석하면된다.
1) 분산과 표준편차의 기본 컨셉
˙평균에서 각 데이터가 얼마나 떨어져있는지 계산하고, 그 크기가 클 수록 분산이 크다고 판단한다. 이를 편차라고 한다.
˙ 편차는 자료 수만큼 나오기 때문에 해당 편차를 한마디로 정의할 대표값이 필요하다.
따라서 편차의 평균을 내게 되는데 편차를 다 더하면 0이되기 때문에 편차를 제곱하여 평균을 낸다. 이것이 분산이다.
˙ 분산은 편차를 제곱한 값이기 때문에 해석하기가 애매하다. 따라서 다시 원본 데이터의 단위로 돌려주기 위해 루트를 씌운다. 이것이 표준편차다.
˙ 분산이 작다는 것은 각 데이터가 평균에서 크게 벗어나지 않는다는 것이므로 보다 자신 있게 이 데이터는 대표적으로 XX 수치라고 볼 수 있습니다!
라고 말 할 수 있음을 뜻한다.
2) 분산과 표준편차의 수식적 표기
Takeaways
수많은 데이터에 대한 정보를 누군가에게 전달하고 싶을 때, 우리는 두가지의 지표로 설명할 수 있다. 첫번째는 자료의 중심 (또는 자료가 가장 많이 모여 있는 지점) 을 뜻하는 평균, 두번째는 각 자료가 평균에서 얼마나 떨어져 있는지를 뜻하는 분산이다. 다음편에서 다루겠지만 이러한 자료들의 특성을 포괄적으로 설명할 수 있는 것을 분포라고 한다.
'통계 | 데이터과학 | R' 카테고리의 다른 글
7. 모수에 대한 구간추정과 가설검정 (2) (0) | 2020.05.16 |
---|---|
7. 모수에 대한 구간추정과 가설검정 (1) (0) | 2020.04.22 |
6-1. 중심극한정리 with R (0) | 2020.04.13 |
6. 중심극한 정리 (0) | 2020.04.13 |
5. 모집단의 분산을 유추하기 (0) | 2020.04.13 |
4. 모집단의 평균을 유추하기 (0) | 2020.04.13 |
3. 정규분포와 표준정규분포 (0) | 2020.04.12 |
2. 분포 / 확률분포 (0) | 2020.04.12 |