빅데이터 인문학: 진격의 서막작품 소개

<빅데이터 인문학: 진격의 서막> 데이터의 우아한 곡선, 인문학을 가로지르다

2007년의 어느 날 하버드의 두 젊은 과학자가
구글이 구축한 디지털 바벨의 도서관으로 걸어 들어갔다
그들은 클릭 한 번으로 800만 권의 책을 검색하는 ‘구글 엔그램 뷰어’를 개발했다
검색창에 단어 하나를 입력하고, 엔터!
데이터가 그리는 아름다운 곡선이 전 세계 인문학계를 발칵 뒤집어놓았다

깜짝 놀랄 만큼 뛰어나고, 사랑스러울 정도로 겸손하며, 무한한 창의력을 지닌 두 젊은 과학자가 아이디어의 세계에서 지난 수십 년간 가장 흥미진진한 발전 가운데 하나를 위풍당당하게 내놓았다. _ 스티븐 핑커(하버드대학교 교수, 『타임』 선정 ‘가장 영향력 있는 100인’)

굉장히 잘된 스토리텔링이다. 무협지 같은 서사가 있다. 이 책이 시금석이 되어 인문학과 기술이 만난다면, 좀 더 높은 수준의 협업이 가능해질 것이다. _ 송길영((주)다음소프트 부사장)

빅데이터가 일으킬 인문학 혁명
오늘날 우리의 일거수일투족은 디지털 기록으로 남는다. 교통카드와 신용카드 사용 내역, 페이스북에서 누른 ‘좋아요’, 구글 검색, 이메일과 문자 메시지, 그리고 이 모든 것을 찍고 있는 CCTV. 이 기록들만으로도 우리의 하루를 재구성할 수 있을 만큼, 현대인은 수없이 많은 디지털 지문과 발자국을 남기며 살고 있다. 뿐만 아니라 도서관이나 박물관에서 잠자고 있던 옛 문헌들, 그림과 지도, 심지어 유물과 유적까지 과거인의 삶도 속속들이 디지털 세계로 진입하고 있다. 짧은 시간에 기하급수적으로 불어나는, 형태도 제각각이고 가치나 질도 제각각인 이 엄청난 양의 디지털 기록, 즉 빅데이터가 바로 인문학이 새롭게 맞닥뜨린 기록의 현장이다. 인간을 이해하기 위해서는 이제 책을 넘어서 데이터를 읽어야 하는 시대가 온 것이다. 디지털 시대의 인문학은 곧 데이터를 읽는 눈이다.
『빅데이터 인문학: 진격의 서막』은 지금까지 인간이 축적해온 기록 유산과는 규모 면에서 비교가 불가능한 어마어마한 양의 디지털 기록, 즉 빅데이터라는 새로운 환경에서 인문학이 맞이하게 될 혁명적인 변화를 보여주는 책이다. 30대 초반의 과학자인 두 저자는 첨단 과학기술이 제공하는 도구를 사용한다면, 인문학이 인간에 관해 지금껏 알지 못했던 새로운 사실들을 밝혀낼 수 있으리라 전망한다. 빅데이터는 그동안 물리적, 기술적 한계 때문에 접근할 수 없었던 많은 영역을 열어젖히며 인문학을 확장해나갈 것이다.

구글의 기원, 세상의 모든 책을 한 곳에!
이미 많은 연구자들이 빅데이터의 가능성에 눈뜨고 상아탑에서 빠져나와 페이스북, 구글, 아마존과 공동 작업을 시작했다. 이 책의 저자 에레즈 에이든과 장바티스트 미셸은 세상의 모든 책을 디지털화하겠다고 선언한 ‘구글 북스 라이브러리 프로젝트Google Books Library Project’의 빅데이터로 새로운 실험을 벌였다. 구글은 2004년부터 지금까지 3000만 권 이상의 책을 디지털화했다. 이는 구텐베르크 이후 출간된 책 네 권 가운데 한 권 꼴이다(2010년 추산 전 세계에는 1억 3천만 권의 책이 있다).
사이버 공간에 세상의 모든 책을 모아 자유롭게 검색하고, 책과 책 사이를 넘나들 수 있게 하자는 것은 구글의 모태가 된 아이디어였다. 1996년 스탠퍼드의 두 대학원생 래리 페이지와 세르게이 브린은 ‘스탠퍼드 디지털 도서관 테크놀로지 프로젝트’를 통해 책들의 세계를 통합하는 미래의 도서관을 구상하고 있었다. 그러나 디지털화된 책이 적었던 당시로서는 실현되기 어려운 일이었고, 결국 그들은 한 텍스트에서 다른 텍스트로 이동하게 해주는 아이디어와 테크놀로지를 작은 검색 엔진으로 전환했다. 이것이 바로 오늘날의 ‘구글’이다.
세상의 모든 책이 모여 있는 거대한 도서관은 구글의 두 설립자만 꾸었던 꿈이 아니다. 고대 이집트의 알렉산드리아 도서관에서부터 보르헤스가 상상한 ‘바벨의 도서관’, 인류의 모든 문화적 생산물을 디지털화하여 공유하는 자발적 활동인 ‘구텐베르크 프로젝트’, 유럽의 48개 공공도서관을 통합 검색할 수 있는 ‘유러피언 라이브러리’, 그리고 더 넓게는 ‘위키피디아’까지 세상의 모든 책, 모든 지식을 한 곳에 모으는 것은 인류의 오랜 꿈이었다. ‘전 세계의 정보를 조직화해 누구나 접근할 수 있는 유용한 것으로 만들겠다’는 구글의 사명에도 이런 생각이 반영되어 있다. 래리 페이지는 2004년 자신의 ‘첫사랑’인 도서관으로 돌아갔고, 그 후로 10년 동안 구글은 이 ‘보편 도서관universal library’의 꿈을 디지털 세계에 실현하기 위해 부지런히 책을 스캔해왔다.
이 책의 저자들은 외부에 쉽게 공개하지 않는 구글 북스의 데이터를 최초로 다룬 인물들로, 이들의 연구는 구글이 구축한 디지털 도서관이 단지 한 기업의 이익만을 위한 것이 아니라 인류의 지적 세계가 진일보하는 데 기여할 수 있다는 것을 보여주었다.

클릭 한 번으로 800만 권의 책을 읽는다면
2010년 12월 16일, 이 책의 두 저자와 스티븐 핑커, 마틴 노왁 등의 하버드 연구진, 구글, 아메리칸 헤리티지 사전, 브리태니커 백과사전의 전문가들이 모여 작성한 「수백만 권의 디지털화된 책들을 이용한 문화의 정량적 분석Quantitative analysis of culture using millions of digitized books」이라는 논문이 『사이언스』의 표지를 장식했다. 그와 동시에 두 저자가 개발한 구글 엔그램 뷰어 웹사이트books.google.com/ngrams가 공개되었다. 이 웹사이트는 24시간 동안 300만 명 이상이 방문하며 전 세계적인 화제가 되었다. 검색창에 단어를 입력하고 클릭 한 번이면, 순식간에 800만 권의 책을 검색해 그려내는 매끄러운 곡선의 그래프. 이는 책 읽기와 인문학 연구, 나아가 세상을 읽는 방식의 변화를 암시하는 매우 의미심장한 그림이었다. 이후 이들의 작업은 그 중요성을 인정받아 과학 전문 저널 『네이처』를 비롯해 『뉴욕 타임스』, 『보스턴 글로브』 등의 주요 매체에 커버 기사로 실리기도 했다.
‘구글 엔그램 뷰어Google Ngram Viewer’는 구글이 디지털화한 책들 가운데 800만 권(『사이언스』 발표 당시엔 500만 권이었으나 2012년 800만 권으로 업데이트됨)을 추려, 그 속의 8000억 개의 단어가 1520~2012년까지 사용된 빈도의 추이를 그래프로 보여주는 프로그램이다. 이 800만 권의 책은 전 세계 모든 책의 6퍼센트에 해당하는 양으로 영어, 프랑스어, 독일어, 스페인어, 중국어, 러시아어, 이탈리아어, 히브리어 등 8개 언어를 포함하고 있다. 저자들은 구글 엔그램 뷰어를 이용해 디지털화된 대량의 텍스트를 정량적으로 분석하는 연구 방법을 ‘컬처로믹스Culturomics’라고 명명했다. 이 용어는 유전체학geonomics에서 따온 것으로 생물학에서 DNA 염기 서열의 대규모 집합이 어떤 패턴을 드러내는 것처럼, 방대한 양의 어휘 데이터도 인간의 문화를 분석하는 데 도움을 줄 수 있다는 생각을 담고 있다.
어휘의 빈도를 통해 역사와 문화를 들여다보겠다는 아이디어는 의미의 해석을 추구해온 인문학에 데이터 과학이라는 방법론을 제안하는 것이다. 클릭 한 번으로 수백만 권의 책을 읽는 기술은 한 사람이 기껏해야 수십, 수백 권의 책을 읽으며 연구하던 방식으로는 발견할 수 없던 사실들을 새롭게 찾아낼 수 있을 것이다.
TED 강연: 500만 권의 책에서 배울 수 있는 것들
www.ted.com/talks/what_we_learned_from_5_million_books

빅데이터로 보는 문화사: 1800~2000
이 책의 부록 ‘빅데이터로 보는 문화사: 1800~2000(253~277쪽)’에 실려 있는 21개 분야, 48개의 그래프는 지난 200년간의 문화사를 문장 하나 없이, 매우 압축적이지만 풍부한 함의를 지닌, 완벽하게 새로운 방식으로 보여주고 있다. 가로축과 세로축 사이를 가르는 두 개의 곡선만으로도 우리는 인간의 역사와 문화에 대해 다양한 추론과 상상을 해볼 수 있다.
19세기 말 니체는 “신은 죽었다”라고 말했다. 정말 그럴까? 구글 엔그램 뷰어를 통해 확인해보자.

(①번 그래프 참조)

19세기 초 1000단어 당 1회 정도 언급되던 ‘신God’은 19세기 말에 이르러 언급되는 횟수가 절반 이하로 줄었다. 그래도 여전히 적은 횟수는 아니다. 그러나 1973년을 기점으로, 등장한 지 얼마 되지도 않은 ‘데이터data’에게 우위를 내주었으니 한 시대를 지배했던 신으로서는 치욕스러운 일이 아닐 수 없다. 니체의 말을 위의 그래프에 맞게 조금 수정해본다면 “신은 죽지 않았다. 다만 우리에게 데이터보다 덜 중요할 뿐이다.”
‘사회주의socialism’와의 경쟁 끝에 세계를 제패한 ‘자본주의capitalism’, 구글의 800만 권의 책에서도 이를 확인할 수 있을까?

(②번 그래프 참조)

초반에는 사회주의가 우위를 점했다. 1848년 마르크스와 엥겔스의 『공산당 선언』 출판 이후 점차 상승하기 시작한 사회주의는 1917년 러시아 혁명 직후 소폭 하락했다가 다시 상승세를 이어갔으나 1929년 대공황 무렵 자본주의에 추월당했다. 사람들이 책에서 자본주의에 대해 더 많이 쓰기 시작한 것이다. 그러다가 냉전이 시작되면서 다시 사회주의가 많이 언급되었으나, 1970년대 후반 자본주의가 다시 우세를 띄기 시작했고 1989년 베를린 장벽 붕괴 이후로는 그 간극이 더 벌어져 현재까지 자본주의의 현격한 우세가 지속되고 있다.
이 밖에도 언제부터 사람들은 ‘사랑을 나누는make love’ 대신 ‘섹스를 하기have sex’ 시작했는지(③번 그래프 참조), ‘금gold’보다 ‘석유oil’가 중요해졌는지, ‘프랑스France’보다 ‘중국China’에 대해 많이 말하기 시작했는지 등 지난 200년간 인류의 문화가 어떤 시기에 어떤 크기의 변화를 맞게 되었는지를 명쾌하게 확인해볼 수 있다. 더 매력적인 사실은 누구나 구글 엔그램 뷰어 사이트에 접속해 단어 한두 개만 입력하면, 이 거대한 변화를 손쉽게 확인해볼 수 있다는 것이다.
구글 엔그램 뷰어(구글 크롬에서 실행) books.google.com/ngrams

인문학, 더 커지고 더 빨라진다
‘구글 엔그램 뷰어’가 공개되던 날, 스티븐 핑커는 『뉴욕 타임스』와의 인터뷰에서 이렇게 말했다. “인문학의 한 구석에서는 여전히 정량적 분석에 저항을 보이지만 엔그램 뷰어 및 그와 유사한 도구들이 보편적인 것이 되리라 확신한다.” 스탠퍼드대학교 영문과 교수이자 비교문학 연구자인 프랑코 모레티는 세계문학을 개별 텍스트에 지나치게 의존하기보다는 세계지도 위에서 대량의 텍스트를 놓고 시각화와 양적 분석을 통해 바라봐야 한다며 ‘꼼꼼히 읽기close reading’에서 ‘원거리 읽기distant reading’로의 전환을 주장했다. 이처럼 인문학의 최전선에서는 이와 같은 새로운 방식의 책 읽기와 연구가 한창 진행 중이다.
이 책의 저자들은 앞으로 인문학이 거대과학 스타일의 작업을 할 수 있는 전례 없는 기회를 맞을 것이라고 전망한다. 인류가 오랜 시간 축적해온 역사 기록이 빠른 속도로 디지털화되고 있고, 그 거대한 데이터를 신속하게 분석할 수 있는 기술 또한 눈부시게 발전하고 있다. 인문학과 과학이 만나 우리가 과거에 접근하는 방식, 과거를 관찰하고 이해하는 방식을 바꾸고 있다. 이 책의 원제처럼 ‘누구도 밟지 않은uncharted’ 미지의 영역이 열리고 있는 것이다. “곧 거대 인문학이 일어날 것이다.”

한국어판 특별 좌담 - 빅데이터 전문가와 인문학 연구자의 행복한 만남
그렇다면 우리나라에서는 빅데이터가 어떻게 이해되고, 활용되고 있을까? 빅데이터가 인문학 연구에 가져올 혁명적인 변화와 가능성에 대해 국내 인문학 연구자들은 어느 정도 공감하고 있을까? 사계절출판사에서는 한국 인문학의 빅데이터 활용 현황과 향후 전망을 담기 위해 한국어판 특별 좌담을 마련했다.
이 좌담에는 국내 최고의 빅데이터 전문가인 ㈜다음소프트의 송길영 부사장, 국내 인문학계에서 새로운 문제의식과 다양한 시도로 주목받아온 성균관대학교 국어국문학과의 천정환 교수, 근현대 신문과 잡지의 디지털 데이터의 양적 분석을 통해 개념사 연구의 새 장을 연 한림대학교 한림과학원의 허수 교수가 참여했다. 이 자리에서는 국내 산업계와 공공부문에서 빅데이터가 활용되는 양상, 인문학계의 데이터 구축 현황과 활용 정도, 데이터에 기반한 정량적 분석에 대한 국내 인문학계의 반응, 빅데이터가 인문학계와 사회 전반에 열어줄 가능성과 한계 등 다양한 주제에 관한 깊이 있는 대화가 오갔다. 데이터를 읽는 데 필요한 인문학적 통찰이 강조되는 시대지만, 실제로 빅데이터 전문가와 인문학 연구자가 만나 데이터를 가공하고 해석하는 작업에 대해 구체적인 대화를 나눈 예는 없었다. 이 좌담은 ‘빅데이터=마케팅 툴’이라는 인식에서 벗어나, 역사와 문화를 읽는 데도 빅데이터가 유용한 수단이 될 수 있음을 보여주는 인상적인 계기가 될 것이다.
좌담 이외에도 한국어판에서만 찾아볼 수 있는 특별한 요소가 하나 더 있다. 바로 최근 빅데이터와 짝을 이뤄 급부상한 인포그래픽이다. 인포그래픽은 숫자로 표현하기에도 벅찰 만큼 어마어마한 양의 데이터를 시각적으로 간명하게 전달해야 할 필요성 때문에 주목받게 되었다. 이 책에서도 정보의 직관적 이해를 돕고, 아울러 시각적 즐거움을 주기 위해 각 장의 별면에 인포그래픽을 배치했다. 간결하면서도 유머러스한 6개의 인포그래픽은 인문학과 과학기술이 만나는 지점에서 다소 낯선 메시지를 전하는 이 책을 독자들이 친근하게 받아들일 수 있게 도울 것이라 기대된다.

＜추천사＞

깜짝 놀랄 만큼 뛰어나고, 사랑스러울 정도로 겸손하며, 무한한 창의력을 지닌 두 젊은 과학자가 아이디어의 세계에서 지난 수십 년간 가장 흥미진진한 발전 가운데 하나를 위풍당당하게 내놓았다. _ 스티븐 핑커(하버드대학교 교수, 『타임』 선정 ‘가장 영향력 있는 100인’)

인문학에 대한 과학기술의 영향력은 이미 티핑 포인트를 넘어섰다. 과학기술이 제공하는 도구와 방법론을 무시하기란 더 이상 불가능해질 것이다. _ 『네이처』

구글 엔그램 뷰어는 지금껏 정량적 분석을 기피해온 인문학 연구자들에게 다양하고 맛있는 뷔페와도 같은 풍부한 아이디어를 제공한다. 이 단어 창고는 이전에는 불가능했던 방식으로 문화적 영향을 통계적으로 분석할 수 있게 해준다. _ 『뉴욕 타임스』

에이든과 미셸은 인문학이 그 자신에 대해 생각하는 방법을 완전히 뒤바꿔놓은 빅데이터의 개척자들이다. 이 책은 황홀하고, 재미있고, 신속하고, 유익한 읽을거리다. 모든 페이지가 놀라운 통찰과 유머로 가득하다. _ 케네스 쿠키어(『빅데이터가 만드는 세상』 저자, 『이코노미스트』 편집자)

굉장히 잘된 스토리텔링이다. 무협지 같은 서사가 있다. 이 책이 제시하는 아이디어가 인간의 심리나 행동, 사회현상을 설명하는 일을 좀 더 ‘과학’에 가까워지게 하는 데 굉장히 좋은 툴이 아닐까 생각한다. 이 책이 시금석이 되어 인문학과 기술이 만난다면, 좀 더 높은 수준의 협업이 가능해질 것이다. _ 송길영((주)다음소프트 부사장)

데이터를 선택하고 가공할 수 있는 능력과 함께 가공된 데이터를 비판적으로 바라볼 수 있는 인문학적 통찰이 필요한 시대다. 이 책은 빅데이터를 활용한 인문학, 그 새로운 세계로 진입하는 문턱에 무엇이 있는지를 보여주고 있다. _ 천정환(성균관대학교 국어국문학과 교수)

빅데이터는 이제 거부할 수 없는 환경이 되었다. 예전의 정성적인 방법만으로는 불충분하다. 이 책을 읽으며 한국 인문학에서도 빅데이터를 활용해 거시적인 연구를 할 수 있겠다는 생각이 들었다. _ 허수(한림대학교 한림과학원 교수)

구글 북스 라이브러리 프로젝트는 이제 인문학의 전 영역을 과학으로 만들어나갈 것이다. 1967년의 브라운 말뭉치를 계기로 언어학이 수치로 검증 가능한 형태의 과학이 된 것처럼. 800만 권의 책이라니! 말 그대로 미증유의 데이터를 만질 수 있었던 저자들이 책을 읽는 내내 부러웠다._ 정철(다음카카오 지식서비스기획팀장)

＜주요 내용＞

책보다 데이터! 로봇 역사학자의 등장
마케팅이나 공공정책과 관련하여 이야기되는 대부분의 빅데이터는 최근의 기록들이다. 데이터의 생성이 인터넷 혁신에 의해 촉진되었기 때문이다. 한편 구글 북스의 데이터, 즉 디지털화한 책들의 상당수는 최신이 아니다. 16세기부터 21세기까지 5세기에 걸쳐 출간된 다양한 주제의 책들을 고루 포함하고 있다. 말하자면, 인류의 문명이 오랜 시간 변화해온 과정을 담고 있는 빅데이터이자 롱데이터long data인 것이다.
문자 언어로만 이루어진 장기간의 데이터로 해볼 수 있는 가장 기초적인 작업은 바로 말의 변화에 담긴 역사적 의미를 추적하는 일이다. 미국인들은 언제부터 ‘The United States are’가 아니라 ‘The United States is’라고 말하기 시작했을까? 역사학자들이라면 아마도 전설적인 역사학자 제임스 맥퍼슨의 『자유의 함성』을 인용하며, 남북전쟁을 계기로 ‘The United States’를 복수가 아니라 단수로 말하기 시작했다고 답할 것이다. 실제로 많은 미국인들이 그렇게 알고 있다. 그러나 ‘구글 엔그램 뷰어’는 조금 다른 답을 내놓는다.

(④번 그래프 참조)

위 그래프를 보면, 복수에서 단수로의 전환은 어느 한순간이 아니라 150년이 넘는 기간 동안 점진적으로 일어났다. 전쟁이 이런 흐름에 가속을 붙이긴 했지만, ‘The United States is’가 우세해진 것은 남북전쟁이 끝나고도 15년이 지난 후였다. 이처럼 아무리 저명한 역사학자라도 물리적 한계 때문에 해낼 수 없던 일을 이 ‘로봇 역사학자’, 즉 800만 권의 책을 순식간에 읽는 ‘구글 엔그램 뷰어’는 손쉽게 해낼 수 있다. 갈릴레오의 망원경이 근대 세계의 탄생을 가져왔듯이, 새로운 도구는 세상을 보는 방식을 바꾼다. 빅데이터와 그것을 분석하는 여러 도구들은 우리가 인간을 이해하는 방식, 즉 인문학 연구 방법에 혁명적인 변화를 가져올 것이다.

언어는 어떻게 진화하는가: 불규칙동사의 배신
한 프랑스 젊은이가 모국에서 영어를 배우며, 일부 동사는 과거 시제를 만들 때 뒤에 ‘-ed’를 붙이는 게 아니라 철자가 바뀐다는 사실을 알게 되었다. ‘burn-burnt-burnt’ 그는 이런 단어, 즉 불규칙동사의 목록을 꿋꿋이 외웠다. 영어에 통달했다는 자신감에 가득 차 미국 땅을 밟은 그는 신문의 헤드라인을 보고 깜짝 놀랐다. ‘기진맥진한 펠프스Burned-Out Phelps’라니! 그 외에도 그가 불규칙동사라고 배웠던 많은 동사들이 뒤에 ‘-ed’를 붙이는 규칙동사가 되어 있었다.
왜 어떤 불규칙동사는 살아남고, 어떤 불규칙동사는 많은 영어 학습자들을 배신하고 규칙화의 길을 가게 되었을까? 언어학자들의 가설은 불규칙동사들이 빈도가 높기 때문에, 다시 말해서 자주 쓰이기 때문에 살아남았다는 것이다. 만약 이것이 사실이라면 언어, 넓게는 인류의 문화 역시 자연선택에 의해 진화한다는 명백한 증거가 될 것이다. 저자들은 구글 엔그램 뷰어를 통해 고대부터 현재까지 영어 동사의 사용 빈도와 규칙화의 상관관계를 조사했다. 그 결과 영어에서 빈도가 가장 높은 12개의 동사는 규칙화의 길을 가지 않았다는 사실이 드러났다. 사용 빈도가 생존을 결정하는 가장 중요한 요소였던 것이다. 이를 통해 저자들은 단어의 사용 빈도를 세는 일로 긴 시간에 걸친 문화적 변화를 추적할 수 있다는 확신을 얻었다.

데이터로 사전 만들기
불규칙동사를 세는 일은 상대적으로 쉽다. 빈도가 매우 높기 때문이다. 그러나 대부분의 단어는 극도로 희귀하다. 일례로 새스콰치Sasquatch라는 단어는 거의 1000만 단어에 한 번 정도 등장한다. 이런 단어들을 추적하려면 마음대로 쓸 수 있는 수백만 권의 책, 즉 빅데이터가 필요하다. 이런 데이터를 가진 곳은 단 하나, 바로 구글이었다. 저자들은 데이터를 쉽사리 내주지 않는 구글을 설득하기 위해 책에 등장하는 모든 단어와 구절을 추출해 나열하는 엔그램n-gram 방식의 데이터세트를 만들어 ‘빈도’만을 보기로 했다. 데이터를 법적으로 민감하게 만드는 것은 맥락이다. 이런 방식으로 맥락을 배제한다면, 이 데이터는 누구의 권리도 침해하지 않고 누구나 이용 가능한 강력한 자료가 될 수 있다. 이렇게 해서 그들은 구글의 데이터를 손에 넣었다. 역사상 가장 큰 단어들의 집합에 접근하게 된 것이다.
그렇다면 단어란 무엇인가? 저자들의 계산에 따르면, 현대 영어의 텍스트에서 대략 10억 단어당 1회 정도 출현한다면 단어로 인정할 만하다. 저자들은 이 기준에 의거해 1990~2000년 사이에 출간된 책들에서 100만 개가 넘는 단어를 추출해냈다. 이는 영어 사전 가운데 가장 큰 『옥스퍼드 영어 사전』이 수록한 단어의 두 배가 넘는다. 사전들은 이 많은 단어를 싣지 않고 그동안 무엇을 하고 있었단 말인가?
사전들이 실수를 한 이유는 바로 빈도 때문이다. 사전들은 빈도가 높은 단어들은 거의 완벽하게 찾아내지만 희귀한 것들이 나오면 어려움을 겪는다. 문제는 거의 모든 단어가 정말로 드물게 쓰인다는 것이다. 그러므로 사전들이 드문 단어를 놓친다면 거의 대부분의 단어를 놓치는 셈이다. 저자들의 분석 결과 영어로 된 책에서 사용된 단어의 대다수, 즉 영어의 52퍼센트가 사전이 발견하지 못한 ‘어휘의 암흑물질’인 것으로 드러났다. 영어는 아직도 상당 부분이 전인미답의 대륙이다. 이처럼 사전편찬학의 한계가 갈수록 명백해지면서 전통적인 사전들도 하나둘씩 빅데이터의 세계로 뛰어들고 있다.

사람은 어떻게 유명해지는가
명성이란 무엇인가? 바로 사람들이 얼마나 자주 그 이름을 언급하느냐이다. 이는 또한 상당 부분 사람들이 책에서 얼마나 자주 그 이름을 언급하느냐이기도 하다. 그러므로 명성은 특정 단어의 장기간에 걸친 사용 빈도의 추이를 보여주는 ‘구글 엔그램 뷰어’로 측정하기에 매우 적합한 대상이다. 저자들은 1800년부터 1950년까지 매년 해당 연도에 태어난 사람 가운데 가장 유명한 50인을 추출해 목록을 만들었다. 한 집단의 구성원 50명 가운데 절반이 데뷔 무대에 오르는 시점, 즉 사전에 등재될 만큼 언급되는 나이를 살펴보자. 1800년 집단의 경우는 43세였다. 그러나 1950년 집단은 절반이 이미 29세에 사전 수준의 언급 빈도에 도달했다. 명성을 얻는 시점이 점차 앞당겨지고 있는 것이다. 당신이 아직 20대라면 몇 년의 여유가 있지만, 30대 이상이라면 이미 뒤처져 있다는 것을 명심하라.
30대 이상의, 아직 유명해지지 못한 이들에게 희소식이 있다. 직업을 잘 선택한다면, 당신에게도 아직 기회가 있다. 저자들은 1800년에서 1920년 사이에 태어난 유명인사들을 배우, 작가, 정치인, 과학자, 예술가, 수학자 등 여섯 가지 직업으로 나누어 살펴보았다.

(⑤번 그래프 참조)

당신이 젊었을 때 유명해지고 싶다면 배우가 돼라. 배우는 20대 말이나 30대 초에 유명해져 사는 내내 명성을 즐긴다. 만약 당신이 그 희열을 잠시 미룰 수 있다면 작가, 아주 오랫동안 미룰 수 있다면 정치인이 되는 편이 낫다. 정치인은 5, 60대까지도 별로 유명하지 않다가 선거에 당선되면서 한순간에 배우나 작가의 명성을 추월한다. 반면에 과학자나 예술가, 수학자는 명성을 얻기까지 너무 오래 걸리는 데다가, 그렇게 해서 얻은 명성이 배우나 정치인의 절반에도 미치지 못하니 웬만하면 안 하는 편이 낫다.
그렇다면, 지난 200년 동안 가장 큰 명성을 누린 인물은 누구일까? 놀랍게도 우리의 엔그램 데이터가 내놓은 열 명의 명단, 그 가장 윗자리에 있는 인물은 아돌프 히틀러였다. 뿐만 아니라 이 명단에는 스탈린, 무솔리니까지 대량 학살자가 세 명이나 포함되어 있다. 이렇게 살인과 명성은 긴밀하게 연관되어 있다. 극도로 사악한 행동이 명성을 만들어내는 가장 효율적인 방법이라는 것은 우리 시대의 깊은 어둠 가운데 하나다. 이것이 뜻하는 바가 무엇인지는 우리 모두가 깊이 생각해보아야 할 것이다.

침묵의 소리: 빅데이터가 말하는 억압과 검열의 역사
엔그램 데이터는 억압과 검열이라는 악행의 세계를 들여다보는 데도 유용한 도구가 된다. 이 어두운 현실을 들여다보기에 가장 적합한 인물은 화가 마르크 샤갈이다. 히틀러와 나치 정권은 1920년대 독일에서 한창 피어나던 현대 미술의 여러 사조들을 ‘퇴폐 미술’이라 칭하며 수천 점의 작품을 압수해 폐기하거나 〈퇴폐 미술전〉이라는 전시회를 열어 전 사회적인 조롱거리로 만들었다. 유대인이자 초현실주의 표현주의자였던 샤갈은 그 공격의 정중앙에 놓였다. 그의 작품들은 독일에서 사라졌고, 그의 이름 역시 독일 문화에서 빠르게 지워졌다. 1936년에서 1943년 사이 독일어로 된 책들에서 마르크 샤갈이라는 이름은 딱 한 번 등장할 뿐이다.
나치의 탄압이 극단적인 사례이긴 하지만 유일한 사례는 아니다. 이와 유사한 일은 천안문 광장에서 현대사의 큰 사건을 두 차례나 겪은 중국에서도 일어났다.

(⑥번 그래프 참조)

1976년 저우언라이 총리의 사망으로 자극을 받은 10만 군중이 천안문 광장에 모였다. ‘4인방’은 이 대중적 애도를 무력으로 탄압했지만, 이 사건은 중국의 엔그램 기록에 거대한 지문을 남겼다. 1989년 후야오방 총서기의 사망을 애도하는 100만 명의 사람들이 또다시 광장을 점령했다. 중국 정부는 30만 명의 군대를 동원해 폭력적인 진압을 펼쳤고, 수천 명에 달하는 사망자를 냈다. 사건이 이렇게 끝났다면 1989년 이후 ‘천안문 광장’의 중국어 엔그램 데이터는 급격히 치솟았을 것이다. 그러나 중국 정부는 신속하고 엄격한 검열과 정보 억압을 펼쳤다. 수많은 신문사와 출판사가 문을 닫았고, 오늘날까지도 중국 정부의 입장과 일치하지 않는 내용은 인쇄 매체에 실리지 못한다. 인터넷에서 ‘천안문 광장’을 검색했을 때 나오는 정보 역시 정부의 세심한 검열을 거친 것들이다.
이처럼 ‘구글 엔그램 뷰어’의 검열-탐지 기술은 우리가 알고 있는 역사적 사실과 질적으로 비슷한 결과를 가져다준다. 역사학자들보다 훨씬 빠른 속도로 말이다. 그러므로 빅데이터는 거대한 정보 속에 스며든 억압과 검열의 흔적, 편견의 효과 등을 파악하는 데 강력한 대안이 될 수 있다. 실제로 위키피디아에서는 각 항목을 서술하고 편집하는 데 개입될 수 있는 편견과 문제들을 파악하기 위해 통계적 방법론과 엔그램 데이터를 도입하려 시도하고 있다.

사회는 점점 더 빨리 배우고 있다
책은 정보를 전달하는 중요한 방법이지만, 쓰고 출판하는 데 오랜 시간이 걸리기 때문에 뉴스 속보를 전하기에는 너무 느리다. 그보다는 수년, 수십 년, 수세기에 걸쳐 진행되는 일을 추적하기에 적합하다. 이를테면 발명 같은 것 말이다. 발명은 한 사회가 만들어낸 새로운 지식이 기술적, 경제적, 사회문화적 장애를 극복하고 사회 전반에 확산되기까지의 기나긴 과정을 포함한다. 그러므로 발명품들의 엔그램 데이터를 통해 우리는 한 사회가 특정 지식을 배우고 익히는 집단학습의 과정과 속도를 살펴볼 수 있다.

(⑦번 그래프 참조)

1835년에 발명된 리볼버는 1918년에 영향력이 최고치에 달해 100만 단어당 6회의 빈도를 보였다. 최고치의 4분의 1 지점에 도달한 시점은 1859년으로, 24년이 걸렸다. 셀로판도 비슷하게 25년 정도가 걸렸고, 청바지는 103년이 걸렸다. 한편, 1978년에 발명된 소니의 워크맨은 영향력이 최고치의 4분의 1 지점에 도달하기까지 10년밖에 안 걸렸고, 애플의 아이팟도 비슷했다. 저자들은 새로운 기술이 하루가 다르게 우리의 일상을 바꿔놓는 오늘날, 집단학습의 속도에 어떤 변화가 있는지를 알아보기 위해 147가지 기술을 발명된 날짜순으로 정렬해 19세기 초기, 19세기 중엽, 세기 전환기 등 세 시기로 묶었다. 19세기 초기의 기술들은 영향력이 최고치의 4분의 1에 도달하기까지 65년이 걸렸다. 세기 전환기의 발명품들은 겨우 26년이 걸렸다. 집단학습 곡선은 10년마다 2.5년씩 줄어들며 갈수록 짧아지고 있다. 사회는 점점 더 빨리 배우고 있다.

저자 프로필

저자
- 에레즈 에이든
- 장바티스트 미셸
번역
- 김재중

에레즈 에이든 Erez Aiden

국적 미국
출생 1980년
학력 HST(Health Science & Technology) 박사
예시바대학교 역사 석사
프린스턴대학교 수학, 물리학, 철학 학사
경력 2015년 베일러 의과대학교 조교수
구글 방문연구원
수상 미국 물리학회 최우수 박사학위 논문상
링크 공식 사이트

2015.03.09. 업데이트 작가 프로필 수정 요청

대표 저서

상세페이지 바로가기

4.0점9명참여

저자 소개

저자 - 에레즈 에이든
2010년 하버드와 MIT의 의학·공학 통합 프로그램인 HSTHealth Science and Technology에서 박사학위를 받았다. 그의 학위논문은 새로운 기술의 발명과 수학, 물리학 이론을 통합한 공로를 인정받아 ‘허츠Hertz 논문상’과 ‘미국 물리학회가 주는 최우수 박사학위 논문상’을 수상했다. 2011년에는 동료들과 함께 HI-C라는 신기술로 인간 게놈의 3차원적 구조를 규명해낸 논문이 『사이언스』의 표지를 장식했고, ‘젊은 과학자에게 수여하는 미국 대통령상’을 받았다.
수학, 분자생물학, 언어학, 웨어러블 컴퓨팅, 고분자물리학 등 여러 영역을 넘나들어 ‘과학계의 르네상스인’으로 불리는 그는 2009년 『MIT 테크놀로지 리뷰』에서 “전 세계 35세 이하 혁신가 TOP 35”로 선정되었고, 2010년에는 최고의 학생 발명가에게 주는 레멜슨-MIT 학생상을 수상했다. 수년간 하버드 명예 교우회의 특별 연구원과 구글의 방문 연구원을 지낸 뒤 현재 베일러 의과대학교의 조교수로 재직 중이다.

저자 - 장바티스트 미셸
2011년 『포브스』에서 선정하는 ‘30세 이하의 주목할 만한 30인’으로 뽑혔고, 2012년 전 세계 다양한 분야의 혁신가와 개척자들의 네트워크인 ‘테드 펠로우TED Fellow’로 선정되었다. 2012년 2월 TED에서 강연한 ‘역사의 수학The Mathematics of History’은 수학이 역사의 숨은 패턴을 드러내는 데 매우 유용한 도구가 될 수 있음을 보여주며 100만에 가까운 조회 수를 기록하고 있다.
2005년 프랑스 파리의 에콜 폴리테크니크를 졸업했고, 이후 하버드대학교에서 응용수학으로 석사학위를, 시스템생물학으로 박사학위를 받았다. 세계적 석학 마틴 노왁 하버드대 교수가 이끄는 ‘진화생물학의 기초적인 질문Foundational Questions in Evolutionary Biology’ 프로젝트의 참여 연구원이자 구글의 방문 연구원을 지냈다. 인간의 삶과 밀접한 관련이 있는 현상들을 수량화하는 데 관심이 있는 그는 데이터 과학을 기반으로 한 회사인 ‘Quantified Labs’를 설립해 과학자이자 기업가로 활동하고 있다.

역자 - 김재중
고려대학교 영어영문학과를 졸업하고, 국제정치 석사학위를 받았다. 2001년부터 경향신문 기자로 활동하고 있다. 지은 책으로 『세계 금융위기 이후』(공저), 옮긴 책으로 『당신의 계급 사다리는 안전합니까?』(공역)가 있다.

리뷰

구매자 별점

4.0 점

점수비율

5
4
3
2
1

9명이 평가함

리뷰 작성 영역

이 책을 평가해주세요!

내가 남긴 별점 0.0

별로예요

그저 그래요

보통이에요

최고예요

별점 취소

별 1개 별 2개 별 3개 별 4개 별 5개

스포일러가 있습니다.

구매자 표시 기준은 무엇인가요?

'구매자' 표시는 리디에서 유료도서 결제 후 다운로드 하시거나 리디셀렉트 도서를 다운로드하신 경우에만 표시됩니다.

무료 도서 (프로모션 등으로 무료로 전환된 도서 포함): '구매자'로 표시되지 않습니다.
시리즈 도서 내 무료 도서: '구매자’로 표시되지 않습니다. 하지만 같은 시리즈의 유료 도서를 결제한 뒤 리뷰를 수정하거나 재등록하면 '구매자'로 표시됩니다.
영구 삭제: 도서를 영구 삭제해도 ‘구매자’ 표시는 남아있습니다.
결제 취소: ‘구매자’ 표시가 자동으로 사라집니다.

소장	종이책 정가	22,000원
	전자책 정가	30%15,400원
	판매가	15,400원

빅데이터 인문학: 진격의 서막