블로그
2014년 11월 07일 12시 22분 KST | 업데이트됨 2015년 01월 07일 14시 12분 KST

빅 데이터란 무엇인가?

빅 데이터가 시대적 화두의 지위를 점할 수 있었던 까닭은, 데이터를 통해 사람들의 마음을 읽을 수 있으리라는 기대 때문이었다. 그러니 거대기업들이 독자적 빅 데이터 분석방법을 만들기 위해 그렇게나 노력했던 것. 아직까지 뚜렷한 성과를 낸 기업은 없지만, 그럼에도 독심술 판타지가 주는 환상은 여전히 강력하다. 당장 빅 데이터 관련 기사만 검색해 보더라도 거의 모든 내용이 독심술 판타지다. 전자상거래 기업이 노리는 바 "당신이 아마도 사고 싶어질 물건들", 프로든 아마추어든 금용업계가 노리는 바 "미래의 투자 시나리오", 정치계에서 노리는 바 "다음 선거판의 민심 동향" 등등등.

도대체 빅 데이터란 무엇이고 무엇이어야 하는가? (1/3)

유행은 늘 조급하니 벌써 철 지난 감이 없잖아 많긴 하나 '빅 데이터'는 여전히 큰 시대적 화두다. 하지만 "도대체 빅 데이터란 무엇이며 무엇이어야 하는가?" 최초 질문에 여태껏 아무도 제대로 답해 주지 않았다. 결국 기술도 아니요 철학도 아닌 실속 없는 마케팅 프로파간다만 요란하고 사람들은 흐릿한 추상성 사이를 둥둥 떠다닐 뿐이다. 그래서? 그래서 빅 데이터가 뭔데?

이에 도대체 빅 데이터란 무엇이며 무엇이어야 하는지, 상식에 준하여 더듬어 보자.

"Big Data!", 일단 데이터가 크다는 뜻이다. 굳이 'Big'이라고 따로 이름 붙인 까닭이 아주 없진 않을 테니 아마도 기존의 처리방법으로는 감당하기 힘들 정도로 큰 데이터를 말하는 것일 테고.

흔히 빅 데이터 처리를 이야기할 때 예로 드는 사례를 보면, 930GB의 텍스트 파일을 검색해 특정 단어를 찾아내는 기존 유닉스 명령어를 실행하면 13일이나 걸리지만 이를 분산 및 병렬 처리가 가능한 파일 시스템 '하둡(Hadoop)'을 이용해 1746개의 노드로 분산해 각 노드 당 8개의 스레드로 처리했더니 150초밖에 안 걸린다, 카더라. 이러한 맥락으로 보자면 빅 데이터는 '빅 데이터 프로세싱(Big data processing)'의 준말로 볼 수 있고 실제로 그런 용법으로 제한해 쓰는 경우도 많다.

따라서 빅 데이터의 첫번째 특성은,

"고속을 위한 분산/병렬 처리를 요하는 대용량 데이터"

데이터가 크기만 하면 무조건 빅 데이터인가? 데이터의 성질 또한 따져 볼 필요가 있다. 우선 데이터 기술의 맏형 격인 '관계형 데이터베이스 관리 시스템(Relational Database Management System, RDBMS)'에 대해.

신조류의 유행과 더불어 한물간 퇴물 취급을 받고 있긴 하나 아주 부당한 대접인 까닭은, 여전히 RDBMS는 오늘날 지식정보사회의 척추와도 같은 존재다. 키와 값의 관계를 행과 열을 가진 테이블 모양으로 형상화한 매우 간단한 전산정보 처리방식(이라고 하면 어째 좀 애매하니 '엑셀 같이 생겼다'고 생각해도 대충 무방함)에 불과하지만 그 활용의 범위는 실로 어마어마하다.

정치 경제 사회 문화 세계 생활 과학 기술 등등등, 사회 전 분야에 미치는 RDBMS의 영향은 컴퓨터 활용에 대해 웬만큼 안다고 자신하는 일반 상식인의 상상범위를 훨씬 초월할 정도로 지대하다. 지금도 그러하고, 어떤 현란한 이름을 자랑하는 소위 '차세대 뭐뭐뭐'가 등장한다더라도 RDBMS는 그 어떤 전산도구에 비하더라도 우리 삶에 가장(!) 큰 영향을 미칠 것이다. 그러나,

RDBMS로 처리하기 애매한 데이터가 있다. 이른바 '비정형적 데이터(Unstructured Data)'인데, 일단 체계가 없이 산만하다. 예를 들어 텍스트, 음원, 정지영상, 동영상 등 저작물들은 대개 완전한 비정형 구조다. 반면 '빅 데이터 활용사례' 기사에서 흔히 "이것이 빅 데이터다!" 예시하는 위치정보, 각종 센서 데이터 등은 오히려 매우 엄격하게 정형화되어 있는 정형적 데이터. 늘 그렇듯 어떤 개념의 정착 실패는 그냥 막 일어나는 일이 아니다.

관계형 데이터베이스라 함은 말 그대로 데이터와 데이터 사이의 관계를 통해 데이터를 처리하겠다는 뜻이니, 행과 열로 나뉘는 관계를 정의하기 애매한 것들을 비정형적 데이터라 할 수 있고, 따라서 RDBMS로 처리하기 어려우니까 기존과 다른 방법이 필요하기 때문에..

기존과 다른 빅 데이터의 두번째 특성이 도출된다.

"비정형적 데이터"

어떤 데이터가 아주 크다. 기존 방법으로 처리하려면 너무 오래 걸린다. 그래서, 새 기술이 필요하다. 어떤 데이터가 어지럽다. 기존 데이터베이스에 넣으려니 도대체 관계 설정이 되질 않는다. 그래서, 새 기술이 필요하다. 그게 끝인가? 그랬다면 빅 데이터는 지금처럼 높은 사회적 관심을 받지 못했을 것이다. 사실 데이터가 크든 작든 체계가 있든 없든 절대다수 사람들의 관심 밖의 일이다. 그저 엔지니어들끼리의 대화 소재로 그치고 말았겠지.

미국의 다국적 증권사(였는데 지금은 뱅크 오브 아메리카가 매수한) Merrill Lynch는 1998년에 이미 "기업이 보유한 사용 가능한 비즈니스 정보 중 80-90%는 구조화되지 않은 비정형적 데이터"라 말했다. 정확한 통계 작업 없이 직관적으로 발언한 내용이지만 실제로도 대충 들어맞는 숫자다.

지금껏 기업은 10-20%에 불과한 정형적 데이터에만 집중했다. 왜? '가시성' 때문. 정형적 데이터의 양은 10-20%에 불과하지만 그게 어떤 데이터인지 그리고 그 데이터로부터 어떤 정보를 얻어낼 수 있을지 파악할 수 있기 때문에 '가치' 있다. 데이터가 많으면 뭐 하나, 데이터로부터 유의미한 정보를 뽑아낼 수 있어야 한다.

빅 데이터가 시대적 화두의 지위를 점할 수 있었던 까닭은, 데이터를 통해 사람들의 마음을 읽을 수 있으리라는 기대 때문이었다. 그러니 거대기업들이 독자적 빅 데이터 분석방법을 만들기 위해 그렇게나 노력했던 것. 아직까지 뚜렷한 성과를 낸 기업은 없지만, 그럼에도 독심술 판타지가 주는 환상은 여전히 강력하다. 당장 빅 데이터 관련 기사만 검색해 보더라도 거의 모든 내용이 독심술 판타지다. 전자상거래 기업이 노리는 바 "당신이 아마도 사고 싶어질 물건들", 프로든 아마추어든 금용업계가 노리는 바 "미래의 투자 시나리오", 정치계에서 노리는 바 "다음 선거판의 민심 동향" 등등등.

따라서 빅 데이터의 세번째, 그리고 가장 유명한 특성은,

"데이터 분석을 통한 정보가치 창출 방법"

문제는 바로 이 세번째 특성에 기인한다. 여론의 껍질은 대개 언론의 휘황찬란한 호들갑으로 구성되니 "빅 데이터!" 그러면 대개 말기자본주의사회의 장밋빛 미래만을 떠들어대지만, 독자의 게시판 레벨까지 내려가 보면 빅 데이터는 완벽한 디스토피아, 심지어 '빅 브라더'와 비슷한 뜻으로 쓰인다. 아니 완전 동격 취급이다. 왜? 말이 좋아서 데이터 분석이지 실상은 사생활 침해와 개인정보 유출, 나아가 아예 도청과 같은 뜻 아닌가?

"빅 데이터는 가장 뛰어난 정보기관 요원보다도 정보력이 높다."

이런 말이 공공연히 나돈다. 사실 빅 데이터가 지향하는 바를 아무런 법적 제한 장치 없이 마구 상상해 보면 비대한 국가권력과 과잉성장한 거대기업에 의한 무분별한 사회감시체계를 금방 떠올릴 수 있다.

하지만 어떤 데이터 기술의 이름에 불과한 것이 갑자기 절대적 권력의 도구로 급상승하는 현상을 아직은 딱 잘라 옳다/그르다 말할 수는 없을 듯싶다. 앞서 말한 법적 제한 장치가 아직 부실하니 상상의 결정적 변수가 하나 빠진 셈이고, 아직까지는 섬뜩한 수준의 데이터 마이닝 기술이 그 정도로까지는 발전하지 못했고 또 언제 그리 될지도 아예 모를 일이라서.

흔히 SNS '페이스북'을 가리켜 '금광 위에 올라탄 자들'이라 말한다. 하지만 그들은 아직도 금을 채광할 방법을 모른다. 가진 데이터는 매우 Big하지만 아직까지 충분한 가시성을 확보하지 못했기 때문이다.

"위험은 이미 우리 곁에 있다. 아직 충분히 성숙하지 않았을 뿐이다." 라고 해 두자.

원래 아주 위험한 도구인 여러 컴퓨터 기술, 그 중에서도 빅 데이터는 유난히 큰 위험성을 품고 있다. 반면, 흔히들 간과하는 바지만 빅 데이터는 아주 효과적인 정보보호 도구가 될 가능성도 크다. 그러니 빅 데이터야말로 정보보호 관련 논의가 (또 다른 시대적 화두인 '만물인터넷'과 더불어) 가장 활발히 벌어져야 할 분야다. 이를 간단히 두 가지 맥락으로 생각해 보자. 빅 데이터에 의한 정보보호, 그리고 빅 데이터를 위한 정보보호.

그럼,

'빅 데이터에 의한 정보보호 (2/3)'

'빅 데이터를 위한 정보보호 (3/3)'

..으로 이어집니다. 테마가 워낙 Big하다 보니 한 번에 올리려니 너무 길어서,,

PRESENTED BY 호가든