상단영역

본문영역

지금의 구글을 만든 가장 중요한 알고리즘을 이해해보자

'페이지랭크'의 개념을 아주 쉽게 설명했다

ⓒ위키미디어커먼스

인터넷은 그 자체가 데이터다. 물론 인터넷상에 수많은 글, 그림, 동영상 등이 컴퓨터 비트로 저장되어 있으니 당연한 소리라고 할 수도 있다. 말하고자 하는 바는 그런 콘텐츠가 아니라 보통 간과하는 인터넷의 구조, 즉 ‘링크’에 대한 이야기다. 링크에는 상상 이상의 정보가 담겨 있다.

오래전 여기에 주목한 한 청년이 있었다. 당시 사람들은 주로 분류나 추천에 따라 인터넷을 쓰고 있었다. 예컨대 뉴스를 보고 싶으면 ‘뉴스’라는 분류 페이지에 가서 <한겨레>, <조선>, <경향> 가운데 하나를 클릭해 읽는 식이었다. 검색도 그냥 글의 내용에 기반을 둬서 연관 있어 보이는 페이지를 권할 뿐이었다. 이 청년은 링크를 이용한다면 이런 정보 검색 방식을 혁신적으로 바꿔 놓을 수 있으리라고 생각했다.

수백만 개의 문서 가운데 가장 좋은 문서를 어떻게 찾을 수 있을까? 청년은 링크에 그 비밀이 있다고 생각했다. 설명을 위해 어떤 사람이 ‘문재인’을 검색했을 때 관련되는 모든 문서가 단지 4개뿐인 가상의 인터넷을 상상해 보자. 이 가운데 한 페이지가 문재인을 가장 잘 설명하는 페이지일 확률은 얼마일까? 다른 조건이 없다면 4개 모두 같을 테니 각각 1/4 확률을 가질 것이다.

ⓒ한겨레

이제 이 페이지들 사이에 위 그림처럼 링크가 걸려 있다고 하자. 즉, B, C, D 페이지가 A 페이지로 이동하는 링크를 걸고 있다. 청년은 이 경우 B, C, D가 A를 인정했다고 보고 자신의 확률(1/4)을 A에게 주는 것으로 해석했다. 이런 경우 확률 분포를 계산하면 A의 확률은 1이 되고 나머지는 0이 된다. 따라서 이 가상의 인터넷에서 가장 좋은 문서는 A가 된다.

ⓒ한겨레

이제 링크들이 위 그림처럼 걸려 있다고 하자. B, C, D는 여전히 A로 향하는 링크를 걸고 있지만, 동시에 A도 B로 향하는 링크를 걸고 있고, C는 A뿐 아니라 D로 향하는 링크도 있다고 한다. 이때 확률은 어떻게 배분되어야 하는가.

앞과 같은 식으로 계산해 보자. A, B, C, D가 모두 같은 확률(1/4)로 시작한다고 했을 때, A는 B를 향하는 링크만 있으니 자신의 확률을 모두 B에 준다. B는 역시 A를 향하고 있으므로 1/4을 양도한다. C는 A와 D 두 곳을 향하고 있다. 이럴 경우 자신의 확률을 똑같이 나누어 준다. 즉, A와 D에게 각각 1/8을 주는 것이다. D는 역시 A를 향하고 있으므로 1/4을 양도한다. 이렇게 배분을 하고 나면 각각 확률은 A=5/8, B=1/4, C=0, D=1/8이 되는 것이다.

그런데 이러면 각 페이지가 가지고 있는 확률이 달라짐을 알 수 있다. 그러면 다시 계산을 해봐야 하지 않을까? 즉 A는 자신의 확률(5/8)을 B에게 주고, B도 주고(1/4), C, D도 다시 배분하는 것이다. 그러면 새 값이 나오고 또 다시 계산해야 한다. 청년은 이런 과정이 계속 반복되면 각 문서에 얼마의 확률이 배정되는지에 대한 수학적인 방법을 고안했다. 그 값이 해당 문서의 가치가 되는 셈이다.

이 청년의 이름은 래리 페이지(Larry Page)이고, 이 알고리즘이 바로 ‘페이지랭크’(Pagerank)이다. 래리 페이지는 이런 이론이 실제 그럴싸한 결과를 내놓는지 알고 싶었다. 그가 검증을 위해 다니던 미국 스탠퍼드 대학교 컴퓨터 학과의 한 학년 위 동료이자 수학 천재로 불렸던 세르게이 브린(Sergey Brin)과 함께 세운 회사가 바로 ‘구글’인 것이다.

구글은 이 기본 방법론을 수억, 수십억 개의 웹페이지로 확장해서 구현한 결과일 뿐이다. 그 검증의 결과가 어떻게 되는지는 우리 모두 알고 있다. 구글의 검색엔진 알고리즘은 이후 굉장히 복잡하게 진화했지만 그 기본은 여전히 페이지랭크다.
1996년 탄생한 페이지랭크 알고리즘은 사실 많은 선배들의 어깨를 딛고 선 결과이다.

모든 문서가 다른 문서와 링크로 연결된 구조는 우연히 나온 게 아니라 ‘월드와이드웹(WWW)의 아버지’로 불리는 팀 버너스-리(Tim Berners-Lee)가 1989년 하이퍼텍스트(HTML)를 고안하며 정확히 의도한 바다. 그는 세상의 모든 정보를 이렇게 연결하는 것이 인류의 지식에 큰 이로움을 가져오리라 생각했다. <와이어드>는 구글이 “버너스-리의 월드와이드웹에 대한 역공학(reverse engineer)의 산물”이라고 평했다.

버너스-리의 하이퍼텍스트는 학계가 오랜 동안 발전시킨 학술 인용(citation) 방법론에서 연유한다. 또 페이지랭크의 통계적 방법론은 안드레이 마르코프(Andrey Markov) 같은 19세기 통계학자들이 없었으면 불가능한 일이다. 마르코프 역시 그 선배 수학자들에 빚지고 있다.

구글의 현재 시가총액은 8200억 달러(약 979조원)가 넘는다. 하지만 그 고갱이는 최적의 정보를 찾는 하나의 방법론에 대한 검증이었다. ‘4차 산업혁명’이라는 결과에 열광하는 시대에 그 원인을 보는 눈이 더 필요하지 않은가 싶다.

저작권자 © 허프포스트코리아 무단전재 및 재배포 금지
이 기사를 공유합니다

연관 검색어 클릭하면 연관된 모든 기사를 볼 수 있습니다

#과학 #테크 #구글 #기술 #알고리즘 #컴퓨터공학