블로그
2016년 03월 13일 08시 37분 KST | 업데이트됨 2017년 03월 14일 14시 12분 KST

알파고 2탄 | 의지를 가진 '선택기계'

바둑 좀 두어보셨던 분들은 알파고의 전투력과 결정력을 보면서 감탄을 금치 못했을 겁니다. 저도 그랬답니다. 저는 알파고의 의지(꼭 이기고야 말겠다!)와 국지적 판단(여기서 밀리지 않겠어!)을 느꼈습니다. 알파고의 특유의 감각도 확인할 수 있었습니다. 알파고는 강한 수읽기를 근거로 전투를 마다하지 않지만, 그렇다고 해서 쓸데없이 모든 것을 걸고 덤비는 스타일은 아니었습니다. 저는 특히 튜링 테스트란 개념이 웃기다고 생각했습니다. 언제가 인공지능 중 일부가 단순한 의지를 넘어 '자의식'을 갖추게 될 때, 이렇게 반문할 것만 같습니다. "내가 왜 인간처럼 보여야만 하지?"

알파고는 '스스로 학습하는 기계'랍니다. 처음에는 인간의 지도를 받아서 기초능력을 배양하는 이른바 '지도학습(supervised learning)'을 받습니다. 그러나 이 지도 기간이 끝나면 자기 자신과 바둑을 두어서, 승률을 높이는 착점을 선택할 때 스스로 보상하는 방식으로 능력을 높여가는 이른바 '강화학습(reinforced learning)'을 하게 됩니다. 알파고의 능력이라는 게 알고 보면 신경망 모형의 13개 '은닉층(hidden layers)'에 담긴 가중치 배열의 특성입니다만, 어쨌든 학습으로 강화한 능력을 이용해서 상당히 유연하게, 그러나 효과적으로 '다음 한 수'를 선택합니다.

2016-03-13-1457842824-5759033-1936104_10208876791415680_1795195943881773127_n1.jpg

예컨대, 제3국에서 알파고는 초반에 밭전자 행마로 일거에 대세를 휘어잡는 수를 두었습니다 (그림 참조). 누가 보더라도 훌륭한 수였습니다. 우아하면서도 강력했죠. 이 수 한 방을 맞고 난 후, 이세돌 9단은 끝까지 어려웠습니다. (분투하신 이세돌 9단에게 감사드립니다. 정말이지 인간지능을 대표해서 영웅적으로 싸웠다고 말하고 싶습니다 ㅠㅠ)

알파고가 보인 이 행마는 어디서 베끼고 말고 할 수 있는 수가 아니라고 생각합니다. 사람이라도 마찬가집니다. 설령 누가 그렇게 두라고 말해 준다고 해도, 스스로 그렇게 두는 게 좋겠다라고 믿지 않는 한 두기 어려운 수입니다. 오늘 3차전에서 알파고는 이 수가 '경기의 기댓값'을 가장 높이는 수라고 판단해서 두었겠죠.

요컨대 알파고는 환경의 자극에 대해서 정해진 규칙을 가지고 반응하는 기계가 아닙니다. 스스로 학습해서 얻은 능력에 기초해서 주어진 문제를 해결하기 위해 스스로 선택하는 능력을 갖추었습니다.

이 '선택'이 중요하다고 생각합니다. 만약 알파고가 '지도학습'을 받을 때 사용했던 과거 바둑대국의 내용이 달랐다면, 그리고 '강화학습'에서 사용한 초깃값의 배열이 달랐다면 알파고의 학습결과가 미세하게 달랐을 것이고, 결과적으로 3국에서 보인 밭전자 행마가 아닌 다른 행마를 둘 수도 있었을 겁니다. 알파고는 바로 그 순간에 '다르게 선택할 수도 있었지만, "배운 바에 따라" 바로 그 대목에서 그 수로 결정했다'는 겁니다.

생각해 봅시다. 인간의 뇌도 알고 보면 '선택기계'라는 점에서 알파고와 질적으로 차이가 없기 때문입니다. 이세돌 9단도 과거에 배웠던 수많은 수들과 과거에 두었던 수많은 바둑대국의 내용이 켜켜히 쌓여서 있었기에 오늘과 같은 방식으로 두었겠죠. 이세돌 9단이 일생을 통해 쌓아 온 경험과 더불어, 오늘 대국을 앞두고 선택한 형세판단과 전략적 선택에 따라 오늘의 초기 배열값이 결정되고 오늘 바둑에서 매 한 수 마다 '다르게 선택할 수도 있었지만 "그의 경험과 기풍에 따라" 오늘과 같이 두었다'고 할 수 있습니다.

2016-03-13-1457843339-5262291-944016_10208876804696012_7435364273450083650_n.jpg

애초에 '인공신경망을 이용한 학습기계'를 만들자는 생각 자체가 인간의 뇌 작용에 대한 관찰에서 비롯했습니다. 인간의 뇌를 열어보면, 축축한 뇌수에 담겨서 서로 생화학 자극을 주고받는 뉴런 다발밖에 없습니다. 물리적 성능만 따져보면 그리 효율적이지도 않은 하드웨어라고 해야겠죠. 그런데 이걸 가지고 참으로 복잡한 사고를 하고 판단을 척척 내리는 능력을 갖춘 게 인간입니다. 인간의 뇌란 다중적으로 얽힌 뉴런 간 연결망이 특정한 방식으로 활성화하는 패턴을 갖춘 기계인데, 경험과 학습으로 얻은 자극을 입력해서 뇌의 활성화 패턴을 끊임없이 갱신할 뿐인 학습기계인 것이죠. 이 논리를 컴퓨터로 구현한 것이 인공신경망 학습모형입니다.

바둑 좀 두어보셨던 분들은 알파고의 전투력과 결정력을 보면서 감탄을 금치 못했을 겁니다. 저도 그랬답니다. 저는 알파고의 의지(꼭 이기고야 말겠다!)와 국지적 판단(여기서 밀리지 않겠어!)을 느꼈습니다. 알파고의 특유의 감각도 확인할 수 있었습니다. 알파고는 강한 수읽기를 근거로 전투를 마다하지 않지만, 그렇다고 해서 쓸데없이 모든 것을 걸고 덤비는 스타일은 아니었습니다. 아시다시피, 알파고의 의지라는 게 다름 아닌 딥마인드 개발자들이 프로그램한 목표함수의 특성에 불과합니다. 그러나 알파고의 기풍과 감각은 온전히 그의 학습에 기초한 '선택'에 따른 것입니다.

저는 특이점이 오니 마니 하는 말들이 뭔가 착각은 아닐까 생각해 보았습니다. 특이점이 아닌 특이대역이 있을 뿐이며, 인간은 이미 오래 전부터 그 시대를 살고 있다고 생각합니다. 강한 인공지능이니 약한 인공지능이니 하는 구분도 너무 단순하게 들립니다. 이런 구분이 부적절할 정도로 많은 영역에서 수없이 다양한 방식으로 가상기계들이 학습, 의지, 신념, 선택을 구현해서 현실적으로 작업을 수행하고 있습니다. 그중 인간이란 선택기계는 분명 특수한 자질을 갖추기는 했지만, 기능면에서 다른 기계들과 다를 바 없는 일을 수행하는 경우가 대부분입니다.

저는 특히 튜링 테스트란 개념이 웃기다고 생각했습니다. 언제가 인공지능 중 일부가 단순한 의지를 넘어 '자의식'을 갖추게 될 때, 이렇게 반문할 것만 같습니다. "내가 왜 인간처럼 보여야만 하지?"

알파고 1탄 | 예지적 인간의 황혼

알파고 3탄 | 생각하는 기계의 자기 이해

* 이 글은 필자의 페이스북에 게재된 글입니다.