블로그
2014년 12월 03일 09시 18분 KST | 업데이트됨 2015년 02월 02일 14시 12분 KST

"데이터=패턴", 빅 데이터 이용한 정보보호

사실 패턴이 그렇게나 중요한 까닭은 아쉽게도 기계가 아직 사람의 지능만큼 발달하지 않았기 때문이다. 너무 빨라서 "굉장하다!" 싶지만 기계가 사람처럼 생각하려면 아직 갈 길이 한참 멀다. 그저 처리속도가 빨라져 예전엔 불가능해 보이던 일을 거뜬히 해낼 뿐, 실은 도대체 발전이 없는 방법론의 반복일 뿐이라 해도 지나친 폄하는 아니다. 인공지능에 대한 연구는 하다가 안 되니 아예 포기한 것 아닌가? 의심이 좀 들기도 하고. 아무튼,

도대체 빅 데이터란 무엇이고 무엇이어야 하는가? (2/3)

빅 데이터에 의한 정보보안, 요즘 참 자주 듣는 이야기다. 네트워크를 타고 흐르는 (거의) 모든 데이터 흐름을 분석할 수만 있다면 사이버 범죄의 패턴을 읽어 낼 수 있고 그 패턴을 통해 어떤 징후가 정상인지 아닌지 여부를 판단해, 특히 지금은 "도대체 방법이 없다!" 거의 자포자기한 APT 등 굉장히 번거롭고 피곤한 공격까지도 모두 막아낼 수 있으리라는 야무진 포부다.

결론부터 정직하게 말하자면, 아직은 가능성에 불과하다. 밤하늘 별처럼 수많은 정황 변수들을 종합해 연관/상관 관계를 모조리 알아낼 수 있다고 주장하는 자는, 무당이지. 그게 얼마나 많은데,, 사이버 샤머니즘. 하지만 빅 데이터를 이용한 정보보호 기술은 앞으로 발전 가능성이 무궁무진해, 단언컨대 빅 데이터 기술을 통해 지식정보사회는 보다 안전해질 것이다.

그럼 '빅 데이터란 무엇인가?'에 이어, "그래서 빅 데이터 기술을 통해 뭘 어떻게 할 수 있다는 건데?" 질문에 대해 정보보호 맥락을 빌어 에둘러 답해 보자.

데이터는 산만하다. 하지만 어떤 관계성이 있다. 그에 따라, 그림을 그릴 수 있다.

교과서적으로 딱딱하게 말하자면,

빅 데이터 기술을 통해 기대하는 바 정보보호 효과는 대략 아래와 같다.

- 무수한 그리고 다양한 기업 환경에서의 위협의 상관 관계

- 소유 및 통제하지 못하는 공해(公海) 네트워크를 떠도는 사용자 관리

- 서로 다른 이질적 플랫폼 사이에 교환되는 데이터의 상관 관계

- 관찰된 데이터 이동 기록으로부터 비정상적 행동의 일정한 패턴 추출

- 보다 정확한 악성 코드 및 행위 판단기준을 얻기 위한 컴퓨팅 방법론

- 소스 무결성 확인을 위한 대규모 병렬 정적 분석 방법

- 사회적 상호작용 기반 악성코드 탐지 방법

- 악성 사용자 및 주소를 걸러내기 위한 실시간 평판 시스템..

실은 간단한 말인데도 괜히 복잡하니까 딱 두 줄로 정리하면,

- 기록을 분석하여 패턴을 찾아내고 위협을 탐지한다.

- 기록을 분석하여 상황을 판단하고 범죄를 방지한다.

"패턴을 찾아 위협을 탐지한다" 함은, '지능형 지속 위협, APT'처럼 아예 "이것이 나의 공격!" 외치며 대놓고 덤비는 게 아니라 은밀히 아주 은밀히 접근해 허점을 노리기 때문에 여간해서는 탐지가 어려운 공격을 찾아내겠다는 의지다.

APT류 공격의 탐지가 어려운 까닭은 (실은 복잡하지만) 간단히 말해 악의적 공격인 주제에 마치 정상적인 행위인 것처럼 굴기 때문인데, 그렇다고 해서 탐지 기준을 높이면 잡아낼 확률이 높아지긴 하지만 덩달아 정상적인 접근까지도 위협으로 판단하고 차단해버리는 부작용인 '오탐률'이 높아지기 때문에 마냥 높일 수가 없는 것. 이때 빅 데이터 분석을 통해 현재 사용하는 패턴보다 더 확실하고 정교한 패턴을 찾아낸다면? 오탐 걱정 없이 비정상적 접근을 훨씬 더 효과적으로 탐지할 수 있으리라는 기대다.

"상황을 판단하고 범죄를 방지한다" 함은, 전자와 같은 예방 차원이 아니라 보다 가까운 시점에 실시간으로 범죄를 막는 일을 뜻한다. 예를 들어, 과거 거래 기록과 현재 주변 상황 그리고 평소 인간관계 등을 분석함으로써 피싱 등 각종 금융사기를 막는 등의 효과를 기대할 수 있다.

근데 이 둘도 상당히 비슷해 보이니 더 줄여 보면,

"데이터를 분석해서 (비정상) 패턴을 찾는다."

이것이 빅 데이터 기술에 대해 기대하는 바 일반 목적이라 할 수 있다.

그런데 잠깐, 지금은 그러한 시도를 전혀 하고 있지 않기 때문에 자꾸 빅 데이터! 빅 데이터! 그러는 걸까? 물론 그렇지는 않고 지금도 주로 네트워크 패킷 분석을 통해 위와 같은 목적을 이루려 노력하고 있다. 그러한 노력에 'Hadoop' 등 분산 및 병렬 처리 파일 시스템과 SaaS 등 클라우드 컴퓨팅 서비스의 광활한 자원 활용 방법을 더한 것이 대략 '빅 데이터에 의한 정보보호'라 할 수 있다.. 정도로 정리해 두고.

중요한 건 패턴, 그리고 패턴을 통해 관찰 그리고 예측하는 통찰이다.

사실 패턴이 그렇게나 중요한 까닭은 아쉽게도 기계가 아직 사람의 지능만큼 발달하지 않았기 때문이다. 너무 빨라서 "굉장하다!" 싶지만 기계가 사람처럼 생각하려면 아직 갈 길이 한참 멀다. 그저 처리속도가 빨라져 예전엔 불가능해 보이던 일을 거뜬히 해낼 뿐, 실은 도대체 발전이 없는 방법론의 반복일 뿐이라 해도 지나친 폄하는 아니다. 인공지능에 대한 연구는 하다가 안 되니 아예 포기한 것 아닌가? 의심이 좀 들기도 하고. 아무튼,

하늘을 나는 새떼를 본다 치자. 일정한 모양을 그렸다가 헤치고 다시 모여 다른 모양을 그린다. 어지럽지만 분명 어떤 질서가 있다. 각각의 새를 데이터라 치면, 데이터들이 만드는 모양의 전개가 곧 패턴이다. 전체의 흐름을 봐야 '그 새떼는 이러이러하게 움직이는 경향이 있다'는 통찰에 도달할 수 있다.

기계는 각 새의 번호를 따고 일정한 주기로 위치정보를 수집한다. 말하자면 Bird14의 데이터는 (0280:12,13,18) (0281:14,23,27) (0282:19,34,29) 같은 식. 그 새가 그때 거기 있었다는 정보의 누적이다. 하지만 사람은 "두 무리로 흩어졌던 새떼가 좌우로 길게 늘어진 S자형을 그리며 중앙으로 모인다" 식으로 직관한다.

사람은 패턴을 제법 잘 인식한다. 기계에 비할 바가 아니다. 기계는 사람보다 훨씬 더 정확하게 각각의 새가 어떻게 날아가는지 트래킹해 이동정보를 착착착 쌓을 수는 있지만, 전체 떼가 어떻게 움직이는 버릇이 있는지 파악하는 일에는 사람에 비해 완전 무능하다. 새떼가 1Km를 날아간다 치고 각 개체의 이동을 모두 추적한다면 트래킹 샘플링을 어느 정도로 세팅하든 데이터의 양은 무시무시할 정도로 많을 것이다. 이를 통해 어떤 통찰을 얻으려는 노력을 따로 하지 않는다면? 그 데이터는 아예 무용지물 비트 쓰레기. 따라서,

"그래서 빅 데이터 기술을 통해 뭘 어떻게 할 수 있다는 건데?"

데이터가 그리는 패턴 분석을 통해 현재 상황을 파악하고 미래 상황을 예측한다.

그러한 맥락에 따라, '빅 데이터에 의한 정보보안'은 어떤 조건에 따라야 하는지를 생각해 보자.

바야흐로 본격 웹 시대. 정보보안의 여러 분야 중 가장 중요한 것은, 웹 보안이다. 최근 발생한 크고 작은 정보보안 사고의 절대다수도 '웹 보안' 사고다. 이는 어쩌면 당연한 현상인 까닭은, 애초에 웹이란 수많은 익명 사용자가 서비스를 요청할 수 있도록 열어 둔 대문이다. 비즈니스 환경 전역을 철통 같은 태세로 막는다더라도 웹만큼은 열 수밖에 없다. 닫으면? 사업을 아예 못하니,,

그럼 웹 보안에 있어 필요한 기술, 그중에서도 빅 데이터 기술적 요소는 뭘까?

많은 데이터, 더 많은 데이터

뉴스에서 '한국인, **하는 버릇이 있다' 식의 기사를 종종 본다. 자세히 들여다보면 황당한 게, 표본추출 방법의 적절성 따지기에 앞서, 표본의 수가 너무 적다,, 그런 허술한 조사로 얻은 결론을 보며 "그치, 한국인은 좀 그래" 식의 자조하는 자기학대 취미, 참 딱하지. '경향'이란 참 무서운 말이다. 엄격하게 말하자면 일정한 자극에 대해 일정한 반응을 보이는 성질, 또는 일정한 반응을 지향하는 심리적 긴장 상태를 뜻한다. 개인의 경향, 사회의 경향. 참 어려운 일인데 다들 참 쉽게 말하는구나, 싶다.

많은 데이터가 필요하다. 더 많은 데이터. 웹 관련해서는, 가장 많은 로그 데이터를 수집하는 채널이 분석 효과가 가장 크다. 더 많은 데이터가 있어야지 제대로 된 동향 파악 작업이 비로소 유의미해지니까.

단, 그냥 많은 데이터가 아니다. 해당 지역에서의 데이터다. 지구는 넓고 악당은 많다. 주변에 어떤 악당이 있냐에 따라 보안전쟁의 양상이 완전 다르다. 예를 들어, 한국에서 개발한 어떤 백신은 유럽 벤치마킹 테스트에서 높은 점수를 받지 못한다. 경쟁사의 백신은 점수가 좀 더 높게 나온다. 왜 그럴까? 더 우수해서? 아니, 자체 개발한 백신이 아니라 유럽에서 만든 엔진을 수입해서 붙인 백신이니까,, 상대해야 하는 적이 다르니 동작도 다른 것에 불과한데 그 사실을 홍보에 곧잘 써먹는 행태가 참 구차할 뿐. 물론 한국에서 벤치마칭 돌리면 결과는 반대. 위험은 지역마다 다르다.

분석! 분석! 그리고, 분석!

로그 데이터가 어마어마하게 쌓였다. 그럼 된 건가? 아니, 분석하지 않은 데이터는 그저 비트 덩어리에 불과하다. 빅 데이터는 빅 덩어리. 데이터를 분석해 통찰을 추출하는 일은 아직까지는 기계가 할 수 없으니 일단은 사람이 직접 분석하고 사람이 읽을 수 있는 문장으로 정리해야 한다.

로그 데이터를 본 적이 있는가? 일단 양이 무시무시하고 암만 쳐다봐도 이게 말인지 글인지 도대체 알 수가 없다,, 해당 데이터 포맷에 익숙하지 않다면 흰 건 종이요 검은 건 글씨. 다행히도 보안회사들은 자사 제품이 수집한 로그 데이터를 분석한 정보를 '사람이 읽을 수 있는 형태'로 가공해서 '웹 공격 동향 보고서 (ICS Report)' 등의 서비스를 제공한다.

해법 제시

이게 문제다 아니 저게 문제야, 말 잘하는 자들은 많다. 어려운 일도 아니다. 문제가 워낙 많으니까. 하지만 문제해결 방법까지도 함께 논하지 않으면 대개 쓸데없다. 그렇다고 '대안 없는 비판은 무의미하다'는 흔한 궤변을 우기려는 건 아니고,, 정보보안 이슈가 딱 그러하다. 문제가 이러이러하다, "그래서" 이러이러하게 해결해야 한다..가 세트로 제시되어야 한다. 아니라면 무책임한 태도. "늑대가 나타났다!" 양치기 소년들이 너무 많다.

공포의 확산으로 득 보는 자들이 누구일까, 생각해 보면 솔루션과 병행되지 않는 문제 제기가 왜 일어나는지, 메커니즘의 정체를 짐작할 수 있다. 대개 이기적인 '어른의 사정'.

정보보호 분야를 예로 삼아, 빅 데이터 기술의 효용성에 대해 알아보았다. 이어서 '빅 데이터를 위한 정보보호'에 대해 알아보겠다. 미리 스포일러 깔아 두자면,

- 빅이든 아니든 모든 데이터는 ICT 시스템 위를 흐른다.

- 빅이든 아니든 모든 데이터는 처리/구간/저장 등 일련의 라이프 사이클을 가진다.

- 따라서, 빅이든 아니든 모든 데이터의 보호는 데이터의 라이프 사이클 전체에 걸쳐 관리해야 한다.

보다시피, 원론적이다. 거듭 강조하는 바, 어떤 현란한 마케팅 용어로 포장된 신조류 기술이든 꼼꼼히 따져 보면, 원론적이다. 그러니 "몰라, 그게 뭐야, 무서워!" 그런 반응 보일 까닭이 없다는 뜻.

P.S. 다 쓰고 읽어 보니 산만한데,, 3편은 보다 깔끔하게!

PRESENTED BY 호가든