'빅데이터는 거품이다' 리뷰
대한민국에서 대다수 사람이 믿고 지지하는 어떤 것이 틀렸다고 말할 때는 상당한 용기가 필요합니다. 민, 관, 학계가 모두 따르고 신봉(맹신)하는 그 시대의 키워드가 잘못된 것이고, 가치가 없는 허상이라고 현직 대학교수가 말하는 것은 더 어렵습니다. 이 책의 저자는 작심하고 2016년 빅데이터의 모든 관련 종사자들을 모두까기합니다. 최근에 빅데이터라는 키워드는 AI 속에 묻혀버린 느낌입니다. AI가 빅데이터를 압도한다기보다는 AI의 기본 요소로 빅데이터가 포함되어 크게 주목받지 못하는 것 같습니다. 그러나 이 책이 출간된 2016년에는 빅데이터와 클라우드 키워드가 세상을 장악했고, 알파고 태풍이 막 시작하던 시기였습니다. 빅데이터를 말하지 않으면 경쟁력이 없는 것처럼 여겨지던 시기에, 빅데이터는 허상이고, 과대 포장된 미신이라고 주장하는 책을 저술한 김동환 교수님께 우선 감사의 말을 전하고 싶습니다.
대한민국 빅데이터 모두까기
물론 저자의 빅데이터 모두까기가 약간 지나친 부분이 있습니다. 그러나 저자의 특정 분야(유비쿼터스)에 대한 편향을 제외한다면, 저자의 논리와 시각에 대해 저는 대부분 동의합니다. 우리 사회는 선진국 특히 미국에 대한 사대주의적인 추종이 있습니다. 국내 일류 기업은 선진국(특히 미국)의 성공 사례를 국내에 최초로 적용하는 것을 경쟁력으로 생각하는 경향이 있습니다. 또한 실패를 극단적으로 두려워합니다. 이렇다 보니 새로운 기획이나 도전보다는 “글로벌 성공사례”에 집착합니다. 대한민국은 정부 주도의 성장 전략과 예산 투자가 많은 편이고, 대기업 혹은 업계 1위 기업은 중소기업 혹은 업계 후발 업체들이 따라가는 모델이 됩니다. 이런 이유로 특정 기술이 주류가 되면 오랜 기간 지속하는 경향을 보입니다. 주류 기술의 인프라 구축, 애플리케이션 개발 프로젝트, 2차 고도화, 인력 양성, 3차 고도화, 유지 보수와 같은 순서로 5년 ~ 10년간 계속 유지됩니다.
이런 우리 사회 시스템이 빅데이터라는 키워드에 어떻게 반응했는지, 적나라하게 짚어가는 과정이 정말 재미있습니다. 기술 키워드가 서구에서 유입되고, 기술이 종교가 되고, 국가적인 투자와 정책이 만들어지고, 부족한 성과와 결과를 해결하기 위해서 교육 사업과 새로운 프로젝트로 확장되다가 다른 키워드로 교체되는 과정을 자세하게 다룹니다. 또한 구글 독감 예측과 오바마 선거 사례를 실제와 다르게 이용하면서, 기술이 종교가 되고 맹신이 되는 과정을 저자의 독특한 시각으로 기술합니다.
기술 사대주의와 미국의 주주 자본주의
왜 구글이 빅데이터와 AI를 그렇게 부각하고 있는지, 때로는 과도하게 평가하는지를 미국 경제의 특징인 주주 자본주의 입장에서 설명하는 내용도 재미있습니다. 미국 기업은 고객의 소비로부터 발생하는 실적 보다, 주주가 평가하는 회사의 주식 가격이 가장 중요하며, 자사의 주주에게 높은 평가를 받기 위해서 다양한 시도와 미래가치를 부풀리고 포장해야 한다는 이야기도 흥미롭습니다.
저자가 인정하는 성공사례와 앞으로 가능성
저자는 빅데이터는 미래를 예측하는 것이 아니라 과거의 기록으로부터 상관관계를 찾아내는 것일 뿐, 미래를 예측하는 인과관계를 찾지는 못한다고 강조합니다. 2016년까지 빅데이터와 미래예측이라는 맹신으로 실패한 여러 사례를 소개하면서, 마지막에 대표적인 성공 사례로 심야버스 운행노선 선정 프로젝트와 2016년 보건복지부가 10개 기관에서 수집한 19종 정보를 기반으로 신규 복지대상자를 선정을 소개합니다. 그리고 향후 사물인터넷과 빅데이터의 결합을 통해서 새로운 가능성을 얘기합니다.
이 책을 추천하는 이유
이 책은 2016년 12월에 출간된 책입니다. 2018년 12월 현재 국내 업계에서 빅데이터를 바라보는 시각은 이 책에서 저자가 말하는 데이터의 본질로 바라보는 시각, 그리고 비정형 데이터에서 분석 가능한 정형 데이터를 추출하고, 분석하여 인사이트를 얻으려는 데이터 분석의 본질적인 모습으로 많이 돌아서고 있습니다. 이 책의 내용을 2018년 12월에 적용하는 것은 상당히 가혹하고 지나칩니다. 그러나 2016년 이 책이 출간된 시점을 생각해 보면, 이 책의 내용은 상당히 정확하고 그 시기에 놓치거나 간과했던 부분을 정확하게 지적하고 있습니다.
제 경험상 특정 시기를 관통하는 키워드는 그 기술이 갖는 순수한 가치와 중요도 만으로 만들어지지 않습니다. 여러 이해 당사자들의 이해관계와 여러 가지 복잡한 인과관계로 만들어지고, 급성장하고, 다른 키워드에 병합되거나 소멸됩니다. 2011년부터 지금까지 우리 사회를 강타하고 있는 빅데이터라는 키워드의 시작과 과대포장 그리고 종교로써의 맹신과 교육시장으로의 파급 과정을 잘 묘사하는 책입니다.
이 책은 IT 분야의 흐름을 이해하고자 하시는 분들에게 꼭 추천하는 책입니다. IT 분야에서 종사하다 보면 특정 기술이나 키워드의 본질을 보기 보다는 아름답게 포장된 미사어구에 취하여 빠져들기 쉽습니다. 그리고 그 트랜드 교체 주기가 빨라서 매번 변화하는 키워드 속에서 방황하기 쉽습니다. 따라서 IT 종사자는 현재 주류 키워드를 비판적으로 바라보고 본질을 분석하는 저자의 방식을 배울 필요가 있습니다.
당연한 사실(구글 독감)을 원본 문서로 검증하고 본래의 취지가 무엇인지를 확인하거나, 빅데이터가 주류를 이루던 시기에 Small Data와 데이터 분석의 본질과 보니니의 역설1을 고민하거나, 한국이나 미국에서 지적 유행이 만들어지는 과정을 고민하는 저자의 모습은 기술과 정보의 쓰나미 속에서 매년 허덕이는 엔지니어와 개발자에게 필요한 것입니다.
데이터 분석에 새로 입문하시는 분이나 다양한 분야의 IT 기술에 호기심과 관심이 넘쳐서 한 달 이상 하나에 집중하기가 어려운 분들에게 강추하는 책입니다.
책 정리 자료
다음 링크에서 빅데이터는 거품이다의 주요 요약을 확인할 수 있습니다.
- Bonini’s Paradox, 모델이 복잡할수록 예측력이 떨어진다. 모델이 커질수록 가치가 떨어진다. [return]