신호와 소음 | 네이트 실버 | 더퀘스트
무려 600쪽에 달하는 예측에 관한 책이다.
스포츠, 포커, 기후, 지진, 주식 등 다양한 주제에 대한 예측과 그 한계성, 더 나아가야 할 길을 다루고 있다.
실제 분석업무에 적용할 수 있는 실용적인 내용보다는 예측의 본질과 철학을 소개하는 교양서적이다.
특히 저자는 베이즈 주의가 우리가 앞으로 나아가야할 예측의 길이라고 소개하며
베이즈 주의에 대해 자세히 다루었다.
여담으로 이 책은 2012년도에 출간됐는데 그 때부터도 '빅데이터'라는 단어를 사용하고 있었다.
늦게 시작한만큼 부지런하게 트렌드를 따라가야겠다는 생각이 들었다.
들어가며 | 신호와 소음
- 구텐베르크의 활판인쇄술이 개발된 후 기록의 축적이 가능하게되면서 정보의 양이 폭발적으로 증가했다.
- 현대에는 우리의 뇌가 저장할 수 있는 3 테라바이트의 100만 배의 정보가 매일 쏟아져 나오고 있다.
- 우리는 그 정보를 잘 꾀고 있지 못하고 있을 뿐만 아니라 넘쳐나는 정보 중 유용한 정보를 선별햐해야하는 과제에 당면했다.
Ⅰ. 예측에 대한 근본적인 의문들
1. 경제 | 경제붕괴, 왜 전문가들은 예상하지 못했는가 : 표본 외 문제를 조심하라
- 2007년 ~ 2008년 사이에 발생한 서브프라임 모기지 사태는 세계 금융 위기를 촉발한 사건이다. 신용평가사를 비롯한 각계의 전문가들은 대체 왜 이러한 비극을 예측하지 못했는가? 핵심은 표본 외 문제 (out-of-sample)이기 때문이었다.
- 표본 외 문제란 과거에 참고할만한 샘플이 없는 문제를 말한다. 예를 들어 30년 동안 2만 회를 운전한 운전자가 단 두 번의 접촉사고만 일으켰다고 했을 때, 해당 운전자는 자신의 운전실력을 믿고 술을 먹은 후 운전을 해도 되는가? 답은 '아니다'이다. 왜냐면 그 운전자는 2만 회의 운전기록 동안 단 한 번도 술을 먹고 운전한 적이 없었기 때문에 음주운전의 표본수는 2만 회가 아니라 0회이다.
- 모기지 사태의 경우 신용평가사들은 과거에 모기지 상품에 대한 평가를 단 한번도 해본 적이 없었으나 다른 금융상품 평가 로직을 차용하여 실제 위험보다도 훨씬 낮게 위험을 측정을 했다. 이와 같은 전형적인 표본 외 문제는 신용평가사외에도 그 당시 다양한 영역에서 발생했으며 결국 세계금융위기가 발발하는 원인이 되었다.
2. 정치 | 내가 선거 결과를 맞힌 비법 : 예측 속에 들어있는 불확실성을 표현하고 계량화하는 방법을 배워야한다.
- 저자는 2008년 대선에서 미국의 50개 주 중 49개 주의 결과를 정확히 예측했고, 총선에서도 상원 당선자 35명 전원을 맞힌 이력이 있다. 이 때문에 저자는 미국에서 엄청난 유명세를 타게 되었다.
- 확률적으로 생각하라 : 예측은 도 아니면 모 식으로 단정할 수 있는 영역이 아니다. 저자는 달랑 수치 하나만 내놓고서 무엇이 일어날지 정확하게 안다고 주장하지 않고, 결과가 일어날 가능성을 범위로 제시했다.
- 날마다 새로운 예측을 하라 : 예측가로서 올바른 태도는 오늘은 오늘 할 수 있는 최선의 예측을 하겠다는 마음가짐이다. 1주, 1달, 1년 전에 자기가 했던 예측이나 말은 머리에서 지워버려야 한다. 어제한 예측이 잘못된 것이라고 생각할 이유가 분명히 존재한다면 어제의 예측에 매달릴 이유가 없다.
- 집단지성을 활용하라 : 예외사항이 존재하긴 하지만 집단예측이 개인 예측보다 보통 10 ~ 25퍼센트 정확하다. 1
3. 야구 | 야구경기는 왜 모든 예측의 모델이되는가: 양적자료만큼 질적자료도 중요하다.
- 야구는 데이터베이스가 잘 구축되어있으며 복잡성과 비선형성에 영향을 받는 문제들이 상대적으로 적고 우연한 사건은 쉽게 걸러낼 수 있어 예측이 용이한 스포츠다. 따라서 시장에는 다양한 야구 경기 예측 모델이 나와 있다.
- 그런데 저자가 개발한 예측 프로그램인 페코타보다 스카우터들의 예측이 15% 더 정확한 것으로 나타났다. 페코타와 스카우터 모두 선수의 타율이나 평균 자책점을 볼 수 있는 점에서는 같지만 스카우터는 현장에서 직접 투수의 구속을 재고, 베이스 러닝 속도를 기록하며, 그의 가족관계를 알아낸다. 즉 질적 자료를 알아낸다.
- 정확한 예측을 하는 열쇠는 순전이 계량적이기만한 정보에 의존하는 게 아니라 모든 유형의 정보를 적절한 맥락 속에서 파악하는 좋은 의사결정 과정을 구축하는 것이다.
Ⅱ. 움직이는 과녁을 맞혀라!
4. 기상 | 예측의 진보, 허리케인과 카오스의 원뿔 : 카오스에 대처할 수 있는 겸손한 자세를 갖춰야 한다.
- 기상 예측은 꾸준히, 그러나 느리게 개선되고 있다. 예측의 질이 빠르게 개선되지 못하는 이유는 첫 째, 예측 지역을 좁힐수록 (예 : 도시 단위 > 구 단위) 요구되는 컴퓨팅 파워는 기하급수적으로 증가하기 때문이다. 예를 들어 1개의 도시를 두 지역으로 나눌 경우 필요한 계산 수는 2배가 아니라 4배로 증가한다. (가로 1 단위, 세로 1 단위에서 가로 2 단위, 세로 2 단위로 증가). 둘째, 카오스이론 에 영향을 받는다. 기상의 경우 이전 경로의 아주 미세한 차이가 크게 다른 결과에 다다르게 할 수 있다. 2
- 카오스이론에 기반하여 기상 예측은 크게 어긋날 확률이 높다. 따라서 오차보정이 매우 중요하다. 오차보정이란 동일 사건에 대해 과거에 발생했던 확률과 현재 자신이 예측하는 발생확률 사이의 차이를 보정하는 것을 말한다. 예를들어 지난 10년간 서울시 7월 1일 강수확률이 50% 였는데 올해 예측치가 90%로 나왔다면 40%p 의 오차가 어디서 발생했는지 확인 후 납득할만한 근거가 없으면 보정을하는 것이 바람직하다.
5. 지진 | 라퀼라의 재앙을 아무도 예상하지 못하다 : 회의주의는 우리의 호기심이 상황을 오판하지 않게끔 만든다.
- 지진은 전문가들조차 예측에 실패하는 분야 중 하나다. 변수가 너무 많고 (즉 소음이 많고), 완성된 이론이 부족하기 (즉 도메인 지식이 부족하기) 때문이다. 이런 경우 예측의 과잉적합이 일어나기 쉽다.
- 지진과 같이 대규모의 피해를 일으킬 수 있는 재난일수록 과잉적합을 조심해야한다. 과잉적합은 지진이 발생할 가능성을 터무니 없이 낮게 책정할 수 있다. 아래 그림1.처럼 빨간 추세선 상으로는 진도 9.5의 지진이 발생할 확률이 아주 없다고 할 수 없으나 검은색 선인 과잉적합 모델은 진도 9.0 의 지진확률을 거의 0%로 보고하고 있다.
- 과잉적합은 (과거 데이터에 대한 적중률이 높으니)반짝반짝거려보이고, 시장에서 받아들이기 쉽지만, 그래서 우리는 과잉적합 모델 합리화를 하기 쉽지만, 결국, 그 모델은 범용적인 경우에서 틀린다.
6. 평균과 불확실성 | 숫자에 속지 마라 : 불확실성에 대해 예측하라
- 선거 예측은 오차범위를 제시하는 반면, 경제 예측은 오차범위를 내놓지 않는다. 이는 예측이 많이 빗나갈 수밖에 없는 원인이다. 다시 말해 경제예측은 불확실성에 대해 정확하게 예측하지 않는다.
- 통계예측이란 특성 수치를 제시하는게 아니라 가능한 수를 모두 열거하고 그 가능성 (확률)을 말하는 것이다.
- 통계모델은 대부분 독립변수와 종속변수가 엄격하게 독립이다 라는 가정에서 출발하나 현실적으로 경제는 원인과 결과가 모두 뒤엉켜있으며 이 때문에 예측이 쉽지 않다.
7. 전염병 | 신종플루부터 에이즈까지: 오도를 조심하라
- 외삽은 흔한 예측방법론이지만 '현재 추세가 유지된다'라는 가정 때문에 그 한계가 존재한다. 특히 전염병처럼 기하급수적으로 증가하는 자료는 외삽으로는 거의 예측이 불가하다. 3
- 또한 질병예측의 경우 추정치가 오도될 가능성이 있다. 예를 들어 뉴욕의 경우 경찰신고를 온라인으로 접수받지 않지만 샌프란시스코에서는 온라인 접수를 받는다. 이 때문에 샌프란시스코의 범죄율은 다른 지역보다 높게 나타난다. (코로나 바이러스 감염율이 국별로 다르게 보고되는 것도 집계상의 차이로 인해 발생한 부분도 일정 있다)
Ⅲ. 미래를 내 손에 움켜쥐는 법
8. 베이즈 정리 | 이기는 도박꾼은 어떻게 베팅하는가 : 사전 확률은 당신이 기꺼이 돈을 걸 수 있는 승산이다.
- 기본적으로 베이즈 정리는 '인식론적' 불확실성, 즉 우리의 지식의 한계를 다룬다. 즉 진리는 존재하지만 인간이 그것을 온전히 이해 하지 못하는 것이며 우리가 증거를 더 많이 모으면 모을수록 진리에 조금씩 더 다가갈 수 있다는 것이다. 예를 들어 해 뜨는 모습을 처음 보는 사람은 해가 뜨는 일이 매일 반복되는 현상인지 아니면 그 순간에만 나타난 특이 현상인지 알지 못한다. 하지만 이 사람은 그 뒤 아침이면 언제나 해가 떠오르는 것을 본다. 해 뜨는 현상이 자연의 영원한 특성일 거라는 그의 믿음은 점점 커진다. 이와 같은 통계적 추론을 통해 내일도 해가 다시 떠오를 것이라는 예측에 그가 부여하는 확률은 100%에 가까워지며 '매일 해가 뜬다'라는 진리에 다가가게 된다.
- 베이즈주의의 핵심은 '사전확률' 이라는 발상인데 이 개념이 너무 주관적이라는 문제가 제기되면서 피셔를 필두하여 빈도주의가 탄생한다. 그래서 그들은 어떤 편견으로부터도 오염되지 않게해줄 통계적 방법론 개발에 나섰으며 통계적 유의성 검증이라는 용어를 만들어낸다. (실험 전에 어떤 것이 발생할 가능성을 미리 정해둬야한다니, 그것도 주관적으로! 이런 설정이 과학의 객관성을 어떻게 회손하지 않겠는가? )
- 빈도주의의 통계 철학은 실험의 객관적 순수성이다. 이와 같은 통계철학은 통계적 유의성을 중시하는 연구 풍조를 만들었다.
- 빈도주의는 다음과 같은 특징을 가진다. 첫째, 오류는 인적 오류, 샘플링 오류, 적은 표본 수에 의한 오류에 의해 발생하는 것으로 본다. 따라서 빈도주의 방법론은 자료를 더 많이 모을수록 오차는 0에 수렴한다고 본다. 그러나 만약 자료를 올바르게 사용하지 않는다면 오류는 여전히 발생할 것이다. (아무리 상관관계가 높다고 해도 미국의 1인당 마요네즈 소비량이 이혼율에 영향을 미친다고 할 수 없다.) 둘째, 일반적으로 정규분포에 근거해 이론을 전개한다. 빈도주의는 수많은 가정을 전제로 예측을 한다. 때문에 현실에서 실제로 적용하기에 많은 제약이 따른다. 셋째, 연구자의 편견을 배제하고 정규화된 검증 절차를 따른다. 그런데 이와 같이 연구자의 편견에 절대로 오염될 수 없는 깨끗한 통계적 절차를 추구함을로써, 연구자들을 실제 세상과 차단한다. 이 방법론은 연구자가 설정한 가설에 내제하는 가능성과 전체 맥락 속의 의미를 고려하지 못하게끔 가로막는다. (이 때문에 두꺼비들이 지진을 예측하거나 호주의 대형 할인매장 Target이 인종적 증오심에 불타는 집단이 원인이라거나 하는 나름 진지한 논문들이 나타나게된다.) 이와 같은 논문들은 빈도주의적인 검증을 통해 '통계적으로 유의미'하지만 우스꽝스럽기 짝이 없는 발견을 생산한다.
9. 체스 | 컴퓨터가 인간처럼 미래를 내다볼 수 있을까 : Garbage In Garbage Out을 기억하라.
- 컴퓨터 연산 기능이 발전하면서 이른바 빅데이터 처리가 가능해졌다. 그러니 지금은 컴퓨터가 예측과 그 밖의 여러 분야에서 인간에게 무엇을 해 줄 수 있고 없는지 더 조심스럽게 생각할 때이다.
- 컴퓨터와 인간의 체스게임은 1997년 IBM의 딥블루와의 대결 전에는 늘 인간이 이겼으나 그 후엔 경기의 양상이 크게 달라졌다. IBM의 딥블루는 스스로를 초당 2억번의 말 이동을 할 수 있으나 당스 딥블루의 상대인 카스타로프는 초당 3번의 말 이동밖에 생각할 수 없다라고 홍보했다고 한다.
- 컴퓨터와 인간의 체스 게임은 사실상 컴퓨터와 인간의 휴리스틱 대결이라할 수 있다. 컴퓨터의 휴리스틱은 체스게임 데이터베이스를 기반으로 승률을 계산하여 수를 두는 것이다. IBM 은 이에 대해 '카스카로프는 컴퓨터와 체스를 두는 것이 아니라 체스 고수의 유령과 체스를 두는셈이다'라고 했다고 한다. 4
- 기본적으로 경기 초반에는 컴퓨터의 게임 능력이 약하다. 수십만가지의 경우의 수가 있기 때문이며 만약 인간이 데이터가 충분하지 않는 수를 둔다던가 일부러 악수를 두는 함정전략을 펼칠 때 이에 대응할 수 있는 능력이 없기 때문이다. 하지만 게임이 중반에 접어들면서는 컴퓨터가 점점 유리해진다. 말의 수가 적어지므로 상대적으로 적은 경우의 수를 인간보다 빠르게 연산할 수 있기 때문이다.
- 결국 핵심은 컴퓨터는 개발자가 주입한 데이터베이스와 알고리즘으로 작동하기 때문에 스스로 생각할 수 없다는 것이다. 따라서 컴퓨터는 빠르고 정확하게 작동하지만 그래서 컴퓨터가 더 나은 예측을 한다고 할 수는 없다.
10. 포커 | 상대방의 허풍을 간파하는 법 : 운의 힘이 강한 곳은 예측의 힘이 약해진다
- 포커는 워낙 불확실성이 큰 게임이라 솜씨 좋은 선수도 몇 달 연속으로 또는 심지어 일 년 내내 돈을 잃을 수도 있다. 거꾸로 솜씨가 형편없는 선수도, 자기가 사실은 형편없는 선수임을 뼈저리게 느끼지 전까지, 오랜 기간 연속해서 돈을 딸 수 있다. 승패를 가늠하기 위해 패에 대한 예측뿐만 아니라 자신의 실력과 포커판에 참여한 상대방의 실력을 추정해야 하기 때문이다.
- 예를 들어 <포커의 수학>에서 묘사된 베이즈주의적 방법론은 $100/$200의 제한 베팅 텍사스 홀덤 게임의 경우 처음 1만 판에서 3만 달러를 딴 선수는, 비록 그때까지 땄다고 해도 장기적 승자가 되지 못할 가능성이 더 크다고 결론 내린다.
Ⅳ. 보이지 않는 손이 세상을 움직인다.
11. 주식 | 개인은 절대 시장을 이길 수 없을까 : 주식시장은 소음으로 덮인 영역이다.
- 결론부터 말하면 개인은 시장 또는 기관투자자를 이길 수 없다. 기관투자자들이 거래를 지배하는 오늘날의 주식시장에서 평균적 트레이더는 입이 다물어지지 않을 정도의 스펙과 경험이 있는 사람들과 개인 투자자는 싸워야 한다.어쨌거나 큰 노력을 기울이지 않더라도 평균 수준만큼은 수익을 올릴 수 있는데 S&P 500 지수를 기준으로 삼는 인덱스펀드에 투자하기만 하면 된다. 이렇게 해서 하버드대학교 MBA 학위가 있는 트레이더에서부터 소음 트레이더 그리고 헤지펀드 운용자를 망라하는 다른 모든 트레이더의 평균적 포트폴리오를 그대로 복제하는 셈이 된다.
- 효율적 시장 가설 이론에 따르면 주식시장에서의 거래는 비이성적인 행위이다. 투자자 사이의 제로섬 게임에 거래 수수료가 발생하니 보다 작은 파이를 가지고 제로섬 게임을 하는 꼴이되기 때문이다. 그럼에도 불구하고 주식 거래가 활발한 이유는 '소음 트레이더'의 역할이 크다. (책에서 다루지는 않지만, 예를 들어 기관투자자가 차익을 얻기위해 주가가 상승할 이유가 없는 회사에 투자를 큰 폭으로 하면 그 때문에 다른 일반 투자자가 추가로 투자를 하고 이윤 대부분은 기관투자자들에게 돌아갈 것이다. 이런 현상은 결코 시장 원리에 기반한 신호라 할 수 없으며 소음 트레이더가 만들어내는 소음이라고밖에 할 수 없을것이다.)
- 집단예측만으로 예측의 오차는 보통 15%~20% 줄어들지만 그 예외의 경우도 있다. 첫째, GDP와 같은 거시경제학적 예측의 경우이다. 기반 지식이 부족하거나 매커니즘이 복잡하고 동적인 분야는 사실상 모든 예측이 틀릴 수 있다. 그렇다면 그 예측을 평균내봤자 의미가 없는 것이다. 둘째, '대중의 지혜' 원칙은 모든 예측이 각기 독립적으로 진행될 때 유효하다. 주식시장과 같이 사람들이 타인의 행동에 따라 대응할 수 있는, 즉 구성원들이 동적으로 행동하게되는 조건이라면 예측이 어려워진다. 셋째, 해당 분야에서 조사체계가 정확한 기관이 있다며 그 기관이 굳이 다른 아마추어 예측을 참고할 필요는 없다.
- 주식시장의 구성원은 각각 독립적으로 행동하지 않기 때문에 예측은 어려워질 수밖에 없다. 예를들어 당신이 특별한 패턴을 포착한다면, 또 그 패턴이 명백한 것으로 보인다면 다른 투자자들도 그 패턴을 발견했을 가능성이 크며, 따라서 그 신호는 신호이기를 포기하기 시작하거나 이미 완전한 소음이 되어있을 것이다.
12. 지구온난화 | 얄팍한 선동인가 과학적 진리인가 : 도메인 지식이 중요하다.
- 온실효과는 대다수의 과학자들이 동의하는 이론이다. 하지만 지구온난화가 발생하고 있으며 그 원인이 온실효과라는 주장에는 과학자들 사이에서 의견 대립이 있는 상황이다. 실제로 양쪽 측은 각자의 이론과 논거를 가지고 싸우고 있다. 기후변화는 장기간에 걸친 현상이며 불확실성이 큰 분야이므로 어느쪽의 주장이 맞는지 현재로서는 알 수 없는 상황이다. 5
- 기후를 정확하게 예측하기위해선 무엇이 필요한가. 예측과 과학은 본질적으로 그리고 긴밀하게 연결되어 있다. 그 분야의 과학에 대해 별 신경을 쓰지 않는 예측가는 '음식에 신경을 쓰지 않는 요리사'나 마찬가지이다. 관심의 초점이 오로지 방법론이나 좌우명 또는 모델에만 집중될 때 예측은 빗나갈 수 밖에 없다. (실제로 어떤 예측가는 기후예측에 대해 하원 청문회에서 이런 말을 했다고 한다. '나는 기후변화에 대해 많은걸 배우려고 하지 않았습니다. 난 그저 예측을 하는 사람이지 기후학자가 아니기 때문입니다')
- 허리케인 예측의 경우 과거에는 데이터베이스에 기반한 통계적 방법 위주로 사용했으나 과잉적합의 문제가 있었다. 현재는 물리적 역학 시뮬레이션을 기반으로 만든 모델을 통해 허리케인 경로를 예측하고 있고 이 예측 성공률은 매우 높다고 한다. (1980년대 이후로 허리케인 경로 추적의 정확성은 세배정도 높아졌다). 순수한 통계학적 예측 기법은 더 정확한 예측을 뒷받침하는 보조수단으로만 활용된다.
13. 테러 | 진주만 공습과 9/11 테러의 공통점 : 멱법칙 분포에 경각심을 가져라.
- 진주만 공습과 9/11 테러는 모두 그런방식으로 테러가 일어날 줄 몰랐다는 점에서 공통점이 있다. 또 다른 공통점은 테러가 일어난 후 사건 전의 테러 징후들이 쏟아져나오면서 이를 막지 못한 것에 대한 비난이 거셌다는 것이다.
- 그러나 문제 사건이 일어난 다음에 타당하지 않는 신호에서 타당한 신호를 찾아내는 일은 훨씬 쉽다. 반대로 말하면 수많은 신호 중에 테러의 원인이 되는 신호를 사전에 알아내는 것은 쉽지 않다는 것이다. 한 전문가는 '테러 음모를 포착하기란 건초더미에서 바늘을 찾아내기보다 훨씬 어려운 일이다. 건초더미만큼 쌓인 바늘 무더기에서 특정한 하나의 바늘을 찾아내야하는 일이다'라고 했다.
- 이와 같은 상황에서 문제되는것은 신호를 포착하는 역량이 아니라 타당한 신호를 골라내는 능력, 다시 말해 신호를 분석하는 능력이다. 문제가 일어나기도 전에 문제를 일으킬 신호를 찾는 것은 쉽지 않는 일이다. 따라서 저자는 테러와같이 발생 시 피해가 걷잡을 수 없는 영역에 더 많은 분석 노력을 기울여야한다고 이야기 하고 있다.
- 테러는 지진과 같이 멱법칙 분포 패턴을 따른다. 멱법칙 분포의 특징 중 하나는 이중로그 스케일에 대입할 때 음의 직선관계(가 나타난다는 것이다. 이는 대규모 피해를 일으키는 재앙이 작은 확률이지만 결국은 일어난다라는 것을 내포한다. 멱법칙 분포는 100만명을 살해할 수 있는 사건, 이를테면 타임스퀘어 광장에서 원자폭탄이 터지는 사건이 일어날 가능성은 1년에 약 1/1600 밖에 되지 않는다고 한다. 이를 다시 말하면 1600년에 한번씩 100만명이 죽는다는 말인데 결국 1년에 625명씩 죽는다는 말과 같다. 이 사망자 수는 1979년 이후 북대서양조약기구 회원국에 테러로 생긴 연평균 사망자 180명보다 훨씬 많다. 이러한 사안은 일어날 가능성이 희박하다하여 무시하는게 아니라 신호 포착에 전략적 우선순위를 가져야한다.
나오며 | 예측은 어떻게 가능한가
- 빅데이터 분석에 관한 가장 흔한 오해는 데이터가 많을수록 더 정확한 결과를 얻는다는 것이다. 하지만 데이터를 많이 모으는 일보다 ' 잘 버리는 것'이 더 중요하다.
- 정보량은 기하급수적으로 늘어나고 있다. 그러나 유용한 정보는 상대적으로 적다. 즉, 소음에 대한 신호의 비율이 점점 작아지고 있다. 우리에게는 이 둘을 구분할 수 있는 더 나은 방법이 필요하다.
- 베이즈 정리는 세상은 본질적으로 불확실한 대상이 아니라고 말한다. 그러나 세상에 대해 당신이 보는 주관적 인식이 사실은 진리에 대한 어림짐작에 지나지 않음을 인정하라고 요구한다.
- 우리는 베이즈주의에 익숙해질 필요가 있다. 확률적으로 생각하는 것의 미덕은, 확률적으로 생각하면 무조건 앞으로만 나아가는게 아니라, 잠시 걸음을 멈추고 서서 자료를 살펴보게되는데 있다.즉 자신의 믿음에 잘못된 게 없는지 생각할 수 있다는 것이다.
- 우리는 베이즈 정리 아래에서 우리가 가지고 있는 편견을 줄여나가야만 한다. 자기 믿음(편견)을 분명히 말하는 것, 다시 말하면 사전확률을 생각하는 것, 즉 '바로 여기가 내가 시작하는 지점이다'라고 말하는 것은 상당한 수준의 확신으로 '예측'을 하는 일이다.
- 기존의 통계학이 멈춰있는 과녁을 맞히는 거라면 베이즈주의 통계학은 움직이는 과녁을 맞히는 것이다.
- 베이즈 정리는 시행착오를 반복하라 주문한다. 새로운 정보가 나타날때마다 예측을 업데이트해야하기 때문이다. 구글처럼 빅데이터를 다루는 기업은 예측모델 구축에 그다지 많은 시간을 들이지 않는다. 대신 해마다 수천가지 실험을 진행하며 실제 고객을 대상으로 자신의 생각을 검증한다. (자기 모델이 과거 자료에 얼마나 많이 들어맞는지 몰두하는 것이 예측모델에 지나치게 많은 시간을 들이고 있다는 말이다. 예측을 '미래 사건에 엄격하게 적용되는 어떤 것'이라고 확실하게 정의하는 것만이 이런 오류를 저지를 위험을 줄여준다)
- 우리가 예측할 수 없는 것에 대한 겸손함, 예측할 수 있는 것을 예측할 수 있는 용기, 그리고 이 둘 사이의 차이를 아는 지혜가 필요하다.
- 여러곳에서 나온 예측들의 평균을 낸 것. 반대로 개인 예측은 개개인이 개별적으로 하나의 예측을 뜻한다. [본문으로]
- 체계가 동적이다. 즉 어떤 한 시점에서 발생한 행동이 미래에 하게 될 행동에 영향을 미친다. 또는 체계가 비선형적이다. 즉 덧셈이 아니라 기하급수적으로 증폭되는 관계를 따른다. [본문으로]
- 자료에 나와있지 않은 부분을 그 부분에 가까운 것을 이용해 추정하는 방법론 [본문으로]
- 어림짐작; 불충분한 시간이나 정보로 인하여 합리적인 판단을 할 수 없거나, 또는 그럴 필요가 없는 상황에서 사람이 빠르게 사용하는 어림짐작 방법 [본문으로]
- 태양의 열이 지구로 들어와서 나가지 못하는 현상. 이산화탄소, 수증기, 메탄가스 등이 온실효과를 야기한다고 알려져있다. [본문으로]