제가 초기 회사 생활을 하면서, 가장 인상 깊게 들어서, 항상 마음에 새기고 살았던 조언이 몇 가지 있었습니다. 그 중에 하나는 다음과 같은 것입니다.
측정할 수 없으면, 개선할 수 없다.
무엇이든 정량화하고, 순위를 매기고, 척도를 만들고, 범주를 나눔으로써 소통이 쉬워지고, 애매모호한 것이 명확해지고, 취약점이 드러나고, 데이터에 기반한 정당한 의사 결정이 이루어진다고 믿어왔습니다. 그런 맹목적인 "수(number)"에 대한 권위 부여는, 숫자가 빠진 의사 소통에 대해서는 객관적이지 않고, 비과학적이며, 확실하지 않은 것으로 간주하게 만듭니다. 통계학자인 폴 굿윈의 《숫자는 어떻게 생각을 바꾸는가》에서는 두 가지 측면에서 숫자와 관련된 우리의 실수를 짚어줍니다.
전반부에서는 숫자가 잘못 쓰이거나 지나치게 강조되어 현실을 왜곡할 가능성에 대해 다룹니다. 숫자, 지표, 측정치를 만드는 것도 사람이고, 이것을 발표하고, 공유하고, 읽고, 해석하고, 의사결정하는 것도 사람이기 때문에 그 모든 과정에서 왜곡과 오류가 발생할 가능성이 있습니다. 일일이 열거하기에는 정말 많은 역사적 에피소드와 현실 사례들이 나옵니다. 후반부에서는 정확하고 정직한 숫자가 제시되어도, 그것을 놓치고, 외면하고, 무시하게 되는 이유와 위험에 대해 다룹니다.
1장에서는 순위에 대해 다룹니다. 입학, 졸업, 입사, 성과 평가, 입찰, 선거, 오디션, 베스트셀러 선정, 올해의 배우 등 우리는 순위에 의해 희비가 엇갈리는 많은 사건들을 경험하게 됩니다. 과연 이것을 순위로 매기는 것이 타당한가? 라는 의문이 생기는 경우도 매우 많습니다. 충격적이었던 것은 케네스 애로우의 불가능성 정리(impossibility theorem)였습니다. 세 개 이상의 서로 다른 대안이 있을 때, 투표권을 가진 심사위원들의 공통된 선호 순위를 잘 반영하는 투표 시스템을 구성하는 것이 불가능하다는 것을 수학적으로 증명한 것입니다. 특히 여러 가지 지표를 종합한 종합 순위를 매기고, 그것을 정말 중대한 곳에 활용하는 것의 문제점이 잘 나와 있습니다. 그런 종합 순위 대신에 왜곡의 가능성이 적은 개별 척도(hot indicator)에 대한 이야기도 나옵니다.
2장에서는 프록시 지표에 대해 다룹니다. 우리가 어떤 것을 직접적으로 측정하기 어려울 때, 대상의 속성을 반영할 것으로 보이는 간접적인 측정치를 프록시 지표라고 합니다. 프록시 자체의 타당성도 문제이지만, 지표 자체가 목표가 되어 부정적인 결과를 나을 수 있다는 것이 굿하트의 법칙(Goodhart's law)입니다. 폭스바겐은 배기가스 배출 기준이라는 지표만을 만족시키기 위해, 극단적으로 소프트웨어를 조작하는 부정까지 저지르게 된 것이 대표적인 사례입니다. 프록시 지표로서 오랫동안 확고한 지위를 누려온 국내 총생산(GDP), 지능지수(IQ)에 대한 문제점, 오용된 사례들도 나옵니다.
3장에서는 대표성(representativeness) 문제를 다룹니다. 가장 많이 쓰이는 "평균"이라는 대표값은 사실 집단 구성원 누구도 대변하지 못하는 것일 수 있습니다. 평균값을 근거로 집단의 특성을 간편하게 특징짓고, 유형화(stereotype)하는 것의 위험을 이야기합니다. 2018년에 보았던 토드 로즈의 《평균의 종말》이라는 책이 떠올랐습니다. 전투기 좌석을 설계할 때, 모든 조종사들의 평균 체형을 고려하여 만든 결과, 어떤 조종사에게도 맞지 않은 좌석이 나왔다는 이야기가 인상적이었습니다. 어쨌든, 복잡하고 다면적이고, 개별적인 개체들을 단 하나의 대표값으로 단순화해서 의사소통할 때에는 항상 조심해야 하겠습니다.
4장에서는 범주화(categorization)와 경계(border, boundary) 문제를 이야기합니다. 논문을 쓸 때, 연구자들은 통계적인 유의 수준(significant level)으로 피셔가 제안한 0.01 또는 0.05를 많이 사용합니다. 그래서 영가설이 참일 때, 이런 실험 결과가 나올 확률은 5%나 1%보다 낮으니, 영가설을 기각한다라는 논리를 사용합니다. 저도 논문 쓸 때, 유의미한 극단적인 확률값이 나오면, "별이 떴다!"라고 하면서 좋아했던 기억이 납니다. 그런데 이 5%, 1%라는 기준은 아무런 근거가 없습니다. 그리고 임의의 경계선 안에 들어가기 위해 합법적이거나 편법적인 방법으로 데이터를 조작하고 싶은 유혹에 쉽게 빠집니다. 89.5로 B 학점을 받은 사람과 90점으로 A학점을 받은 사람은 완전히 다른 범주로 분류되고 큰 차이로 지각되지만, 99점을 받은 사람과 90점으로 A를 받은 사람은 같은 범주로 묶이게 됩니다.
5장에서는 특이하게 라이프트래커, 라이프로깅 이야기가 나옵니다. 스마트워치와 같이 24시간 나와 함께 하는 디바이스의 등장으로 나의 많은 신체 활동과 상태를 숫자로 기록할 수 있게 되었습니다. 그런데, 그런 숫자들이 나의 다채롭고 복잡한 삶에, 무슨 의미가 있는지 의문을 제기하고 있습니다.
6장에서는 여론 조사 이야기가 나옵니다. 여론 조사는 원칙적으로 무작위 샘플링을 해야 하지만, 현실적으로 거의 불가능합니다. 게다가 질문 상황, 답변하는 과정에서 수많은 오염과 왜곡이 생깁니다. 보통은 조사 기관에서 밝히는 오차 범위보다 훨씬 큰 오차 범위를 갖는 경우가 많습니다. 언론에서는 사소하게 발생할 수 변화에 대해 과도한 서사를 붙여서 여론을 왜곡하거나 유도할 수도 있습니다. 게다가 언더독 효과, 밴드왜건 효과, 헤딩(herding) 효과 등 여론 조사 결과를 왜곡시킬 수 있는 심리사회적인 기제들도 많습니다.
7장은 주관적인 판단에 의존하는 행복도, 삶의 질, 고통의 정도 등의 지표에 대해 다룹니다. 전세계에서 가장 행복한 나라 1위부터 후순위에 있는 나라까지 발표되면, 각 나라 정부와 정치인들은 자기에게 유리한 방향으로 순위를 해석하고, 정책을 세우게 됩니다. 그런데 과연 "행복"이 무엇인지에 대해 응답자들은 비슷한 생각을 공유하고는 있었던 것일까요? 순간적인 다른 변수에 의해 응답이 매우 달라질 수도 있는 불안정하고 불분명한 것에 대해 현미경을 들이대어, 소수 세째 자리로 갈리는 행복도 순위는 무슨 의미인지 생각해볼 필요가 있습니다. 요즘 오픈AI의 이사진들이 지향했었다는 (피터 싱어의) 효율적 이타주의의 이야기도 잠깐 나옵니다. 자선단체에 기부하는 것과 같은 이타주의를 실행하는 데에 있어서도 정량화된 지표에 기반해서, 가장 "효율적"이고 효과가 큰 곳에 기부해야 한다는 이야기입니다. 그 효율성을 타당하게 어떻게 정량화하느냐 문제가 제기됩니다.
8장은 많은 사람들이 무시하고 있는, 사전 확률에 대한 고려를 이야기합니다. 즉, 베이즈 정리(Bayes' theorem) 이야기입니다. 검사의 오류(presecutor's fallacy) 이야기를 보니, 잘못된 확률 판단으로 인해 유무죄를 판단하는 형사법정에서는 한 사람의 인생을 망치는 판결이 나올 수도 있더군요. 코로나19 백신의 효과, 음주 운전자의 식별, 범죄 용의자나 테러리스트의 식별, 거짓말 탐지기의 효과와 같이 매우 민감하고, 치명적인 곳에서 기저 확률을 고려하지 않은 확률 판단에 오류가 생길 경우, 그 여파는 심각할 수 있습니다.
9장에서는 정확한 숫자가 제시되어도 우리의 기존 신념에 반하는 경우, 왜 우리는 그것을 종종 무시하고 받아들이지 않는지를 다룹니다. 수학적으로 말하면, 사전 확률을 0 또는 1로 놓은 상태에서는 아무리 새로운 증거가 제시되어도, 우리의 믿음을 바꿀 수 없게 됩니다. 이것은 교육 수준이 높거나 과학적인 사고를 훈련받은 사람들에게서도 발견되어 노벨병(Nobel disease)라고도 불립니다. 또, 역화 효과(backfire effect)는 기존 믿음을 반박하는 사실(예: 이라크에 대량 살상 무기가 없었다!)이 나와도, 기존 믿음이 오히려 더 견고해지는 현상을 말합니다. 때로는 집단이 객관적인 정보를 무시하고, 집단 사고(group thinking)에 빠질 경우, 케네디 대통령의 쿠바 피그스만 침공과 같은 역사적인 사건에서 보듯이 극단적인 위험에 노출될 수도 있다고 합니다. 최근에는 부산 엑스포 유치에 대한 과장된 기대와 유치 실패의 원인을 집단사고로 설명하기도 합니다.
10장에서는 과장된 공포 마케팅에 대한 이야기입니다. 여러 가지 지표들은 현대 사회가 옛날보다 나아졌다고 말합니다. 그러나, 미디어에서 주목하는 것은 낮은 확률이지만 극적으로 보이는 비행기 사고, 끔찍한 흉악 범죄들입니다. 공포를 조장해 이득을 보는 세력들과, 부정적인 뉴스에 더 주의를 쏟게 되는 우리의 뇌가 함께 작용하여 세상이 점점 더 험악해지고, 미래는 더 어둡다고 생각하게 됩니다. 공포 마케팅은 언론, 기업, 종교, 선동적인 정치인들이 즐겨 사용하여, 때로는 잘못된 투표 결과로 이어지기도 합니다. 그러니 정확한 숫자와 사실을 파악하기 위해 노력하고, 그런 메시지가 나오게 된 동기를 잘 살펴봐야 합니다.
11장에서는 통계적 사고의 중요성을 이야기합니다. 의심스런 통계치나 숫자를 대할 때에 직관적이고 즉각적인 판단(시스템 1 사고)과 함께, 느리고 깊게 생각해보는 시스템 2 사고를 병행해야 한다고 이야기합니다. 정보가 한결같이 편향되어 있어도, 일관성이 있고, 명쾌하게 일치할 때 우리는 타당하다는 착각(타당성 착각, illusion of validity)에 빠진다고 합니다.
어쩌다보니 책의 내용의 주요 부분을 인용 부호 없이 거의 인용, 요약해버렸습니다. 그만큼 곱씹어보고 싶은 내용이 정말 많았습니다. 이 책은 서점에서 "자연과학", 수학 관련 책으로 분류되어 있지만, 숫자가 많이 나오지 않고도 숫자 이야기를 쉽게 전해줍니다. 그리고 사실, 숫자를 만들고, 가공하고, 조작하고, 읽어들이고, 해석하고, 공유하고, 적용하는 인간의 특성에 대한 이야기가 더 많이 나옵니다. 그런 면에서 훌륭한 심리학 서적입니다. 2023년을 시작할 때 서강대학교 하영원 교수의《결정하는 뇌》를 재미있게 보았던 기억이 납니다. 수많은 의사 결정(decision making)을 해야 하는 우리 인간은, 매우 많은 실수를 하고, 합리적이지 않고, 편향에 휘둘린 결정을 합니다. 숫자가 중요한 이유는, 숫자를 기반으로 의사 결정을 하는 경우가 많기 때문입니다. 인간의 제한적인 특성을 이해하고, 또 드러난 숫자 뒤에 숨겨진 숫자와 의도, 의미를 파악하려고 더 노력하면, 조금은 더 합리적인 의사 결정을 할 수 있지 않을까 생각해봅니다.
댓글 없음:
댓글 쓰기