전제
지식은 간단하다. 지식을 활용하는 일이 어렵다. “여덟시간 정도의 수면을 취하고, 충분히 야채를 먹고 적당히 운동도 하는게 좋다.”라는 사실을 아는 것과 활용하는 것은 다르다. 비슷한 느낌으로 충분히 알고 있지만, 활용하지 못하는 것에 대한 이야기.
제가 오늘 확률론 책에서 “평균과 분산”에 대해 공부했기 때문입니다 !!~!~!~!~!~!~
다른 사람의 생각이 내 생각이라고 생각하게 된다.
추천 시스템을 연구하고 있어서 유난히 눈에 띄는 걸지도 모르겠다. 음악 취향은 순전히 우연에 의해서 정해지는 것 같다고 생각했다. 예를 들면 길에서 몇번 들었던 노래의 제목을 우연히 알게 되었을 때, 그 노래와 그 노래를 부른 가수를 “발견”했다는 느낌을 받게 됬었다.
이런 “발견”의 대부분이 온라인으로 옮겨 온 현재엔, 이런 “발견”은 대체로 간단한 알고리즘에 지배당하게 된다. 그리고, 이런 모든 알고리즘은 (적어도 현재까지 가장 좋은 것이라도) Popularity bias에 dominate되어 있다. 다른 얘기로, 내 취향과 신념은 알게 모르게 Majority Voting에 의해 결정되고 있으며, 이는 사실 죄다 Clickbait이다.
사소한 것부터 시작하자면, 음악취향. 나는 내가 취향이 정말 마이너한 십덕색기인 줄 알았지만, 씹덕음악을 좋아하는 특정 집단 내로 놓고 보면 나의 취향은 꽤 주류이다. 얼마나 주류냐면, 추천 시스템이 특별히 이러한 집단을 고려해 추천을 만들 정도로는 주류인 것 같다. 그래서 내가 듣는 음악은 유투브가 추천해주는 playlist에서 크게 벗어나지 않는다. 음악에 위에 적은 우연한 “발견”보다, 추천 알고리즘의 Serendipity가 더 높다고 생각은 들지만, 어떤 음악을 듣고 좋아하게 될 지에 대해 아직 정해지지 않은 줄 알았지만 사실은 알고리즘에 의해 정해져 있었다는 사실은 약간 슬프다.
음악 취향에 대해서는 곰곰히 생각해보면 약간 슬프지만, 어떤 음악을 듣던 기분만 좋아지면 된다. 같은 부류면서 더 중요한 문제는…
나는 단순히 자주 노출되는 의견을 믿게 되는데, 이러한 의견들엔 논리적/통계적 근거가 별로 없다는 점이다.
노출 효과는 사람만 친밀하게 되는 현상이 아니다. 자주 들었던 생각은 사실인 것 같아진다. 잘 생각해 봤을 때, 굳이 믿을 가치가 없는데 자연스럽게 믿게 되어버린 것들이 있다.
(딱히 내 얘기는 아니지만)
- 인터넷을 많이 보다 보니 부적절하게 이성/전라도 사람에게 안좋은 편견이 생긴 것 같다.
- 범죄에 대해 과도하게 불안해한다.
인터넷에서 남들의 관심을 충분히 끌 만한 사건은 long tail에 존재한다. 낮은 확률로 발생하기 때문에 내 주변에서 흔히 일어날 수 없는 사례지만, 전국적으로 보면 당연히 존재할 수 밖에 없는 사건들이다. 극히 일부의 여성이 남성을 무고로 고소하는 것이다. 예를 들면, 극히 일부의 전라도 사람이 뒤통수를 치고, 남 욕을 하고 다니는 것이다. 인터넷에서 “여혐충전글”을 하루에 하나씩 매일매일 10년동안 본다고 사례는 겨우 3650건이며, 샘플의 편향을 고려하면 20대 여성으로 일반화하기엔 무리가 있을 것이다. 뭔가 너무 여자를 옹호하는 것 같아서, 반대로 얘기해도 마찬가지다. 극히 일부의 남성이 강력범죄를 저지른다. 극히 일부의 남성이 데이트폭력을 한다. 인터넷에서 백날 “한남 패는 글”을 본다고 해도, 이 사례들의 총합은 20대 남성을 일반화하기엔 사례가 너무 적다.
이런 “사건들”은 빈도보다는 확률로 이해해야 하지만, 인간은 사건을 빈도로 이해한다. 대한민국에 남자가 딱 5명 있고, 그 중 2명이 성범죄를 저지르는 것과, 대한민국에 2천만명 이상의 남성이 있는데 그 중 2명이 성범죄를 저지르는 것을 언론의 헤드라인도, 인간의 뇌도 잘 구분하지 못한다. 게다가, 표본은 popularity에 bias되어 draw된다.
- 최근 카카오 이슈 관련해서, 블라인드 앱을 설치만 해두다가 눈팅을 하게 됬다. 익명 게시판에는 항상 남과 비교를 하는 사람이 있기 때문에 자연스럽게 듣게 된 이야기.
- 좋은 대학을 나와야 한다.
- 여자는 서른이 넘으면 상폐다.
- 서울, 못해도 수도권에 집이 있어야 한다.
- 남자가 키가 작거나, 못생기거나, 직업이 좋지 않으면 쓰레기다.
이런 주장들은 평균적으로, 혹은 최빈값을 놓고 보면 개연성이 높은 주장일 수도 있다. 다만, 복잡계에서 평균, 그리고 최빈값은 그리 큰 의미를 가지지 않는다. $Unif(-80, 100)$의 평균값은 20이고, $Unif(15, 25)$의 평균도 20이다. 일평균 기온 분포가 $Unif(-80, 100)$인 곳이라면 나는 곧 죽겠지만, $Unif(15, 25)$인 곳에선 행복하게 잘 살 것이다. 서울대 나온 사람들을 전부 모아다 소득을 평균내면, 성균관대 나온 사람을 전부 모아 소득을 평균낸 것보다야 높겠지만, 이 정보는 서울대생 A씨와 성균관대생 B씨 개개인을 비교할 때에는 그다지 의미있는 정보가 되지 않는다. A, B의 2계 이상 moment가 너무 커서 평균에 대한 정보는 개별 샘플에 대한 정보를 별로 주지 못한다.
\[P[ \vert P(A > B | \{E[A] > E[B] \}) - P(A > B) \vert < \epsilon] \simeq 1\]집단 사이의 평균의 차는, 집단 내의 분산을 고려하면 무의미할 정도로 작다(고 나는 믿을 생각이다.). 따라서,
- 내가 속한 집단이 나를 대표할 확률은 작다. 또한, 내가 속한 집단으로 나에 대해 어떠한 인과를 가질 확률은 작다.
- “나는 키가 작으므로 불행하다”는 사실은 참인지 거짓인지 판단할 수 없음.
- “나는 카카오에 다니고 있으므로 행복하다”는 사실은 참인지 거짓인지 판단할 수 없음.
- “소득이 1억 이하라, 돈을 잘 못 벌기 때문에, 결혼을 하면 불행할 것”도 참인지 사실인지 판단할 수 없음.
생각해보면 반례를 어렵지 않게 떠올릴 수 있는 편견들이, 어느샌가 내 생각이 되어가고 그렇게 살아가게 된다. 곰곰히 생각해보지 않으면 참이 아닌 생각을 들고 살게 되는 셈이다. 사실 이래도 행복할 수는 있다. 음악 취향이 결국 중요하지 않은 것처럼, 아무래도 좋을 부분에선 괜찮다. 그래서는 안 될 것 같은 부분에서도 그럴지도 모른다. 전라도 사람을 싫어하다가, 한국 여자가 싫어서 어떤 외국 여성을 만나서 서른 전에 결혼한다던가, 뭐 나는 서울에 집에 있으니 별 상관이 없다던가.
나는 그렇게 살고싶지는 않다. 나는 쓸데없는 생각을 더 많이 하고 싶다. 많이 배우고 싶고, 머릿속엔 내 의견으로 꽉꽉 채우고 싶다. 고통스럽지만, 행복하게도 살고 싶다. 내 인생이, 내 가치가, 140자 이내로 재단되는 것이 아니라, 몇 시간, 몇 주, 몇 년에 걸쳐 알려지고 싶은 것이다.
나오며
- 인간관계도 기업처럼 끊고 맺으려 하는 것 같다. 이런 생각이 내게 옮아서 문득문득 다른 사람이 내게 도움이 될 사람인지 판단하려는 내 자신이 가끔 소름끼친다.
- 수학은 계량의 도구가 아니라, 생각의 도구일지도 모른다.
- 인터넷에서는 극히 소수가 의견을 주도하는데, 우리는 frequency만 고려하기 때문에 이상한 의견이 주류라 착각하는 것 같다.