설명할 수 있는 관점 늘어나면 정확도 높아져

▲ 2015 BI 컨퍼런스 마지막 순서로 패널토의가 진행됐다

[컴퓨터월드] 2015 BI 컨퍼런스에서는 ‘빅데이터 시대, 실시간 예측 분석과 BI’라는 주제에 따른 패널토의도 함께 진행됐다. 패널로는 데이터 관련 전문가인 전용준 리비젼컨설팅 대표, 정성원 데이타솔루션 이사, 최재원 다음소프트 이사가 참석해 예측 분석의 중요성과 데이터 융합 등에 대한 업계 동향 등을 전했다.

또한 이날 패널토의는 패널 참석자뿐만 아니라 청중들도 함께 참여해 질문을 던지고 의견을 나누는 등 빅데이터에 대한 심도 있는 대화가 펼쳐졌다. 패널토의에서 어떤 내용들이 나왔는지 정리해본다.

▲ 전용준 리비젼컨설팅 대표

전용준 리비젼컨설팅 대표(이하 전 대표)
오늘 컨퍼런스를 통해 빅데이터 분석, IoT 등 다양한 이야기들을 했지만, 실제로 그러한 것들이 어디까지 와 있는지, 현실은 어떻고, 가능성은 어떤지 등을 알 수 있으면 빠르게 안정적으로 준비할 수 있을 것 같다. 예측 분석이 올해 들어 달라진 것이 있는가? 새로운 것이 아니라면 갑자기 관심을 가질 필요는 없다고 본다.

정성원 데이타솔루션 이사(이하 정 이사)
예측 분석도 역시 데이터를 통해 이뤄진다. 달라진 것이 있다면 최근 데이터 캡쳐링 기술에 비콘, 얼굴인식 카메라 등 새로운 기술로 데이터를 추출해서 적용하는 방식이 늘고 있다, 예측 분석을 통해 예측 모델을 만드는 것도 달라지고 있다. 분산된 환경에서 예측 모델을 만드는 기술 즉 분산 환경을 지원하는 알고리즘에도 변화가 일어났다. 아직 모델을 만드는 것은 분산 환경을 지원하는데 제약적이지만, 하둡이라든지 여러 분산형 데이터를 지원하는 쪽으로 발전하고 있다.

최재원 다음소프트 이사(이하 최 이사)
예측 부분에서 새로운 기술이 나온 건 아니다. 예측하지 않았던 분야를 예측할 수 있게 된 것이다. 기술적 측면으로 어떤 데이터의 변화에 따라 분석을 적용하면 되는 것이다. 예를 들어 시청률 예측이 중요 이슈라고 하자. 패턴이 아니라 SNS 데이터가 선행성을 보인다면, 원하는 데이터가 나타난다면 보고 바로 할 수 있다. 이런 분야에 대한 변화는 많이 일어났다. 모델링만큼은 경우에 따라 다르기에 어렵다. 건강에 대한 질병예측이라고 했을 때는 새로운 예측이 들어가야 되거나 새로운 모델링이 필요한 경우도 있다. 이런 부분이 예측 분석에서 제일 어렵다.

정 이사
실시간 예측에서 가장 혼동되는 부분이 실시간으로 모델을 만들어서 이를 적용하느냐는 부분이다. 아무리 컴퓨터가 발달됐어도 실시간으로 만드는 것은 어렵다. 어차피 현시점에서 과거를 학습해 모델을 만드는 것이기 때문이다. 적용 분야는 실시간으로 가고, 모델을 만드는 건 비슷하게는 가더라도 실시간은 어렵다. 모델을 만드는 것과 적용하는 건 구분해줘야 한다. 여기서 비롯되는 오해가 많다.

전 대표
예측 분석이 실시간으로 이뤄진다는 것은 아직 과장이 있는 것 같다. 과거 월 단위가 주 단위로 모델이 두 달에 한 번씩 바뀌는 것 등을 놓고 포장한다는 생각이 들기도 하다. 예측 분석에 있어 해외 사례와 비교 시 어떠한가.

▲ 정성원 데이타솔루션 이사

정 이사
요즘 많이 언급되는 데이터 사이언티스트의 가치를 얼마나 인정하느냐도 많은 차이가 있다, 주변에도 장래가 촉망받는 친구가 있으면 해외로 나가라 한다. 우리나라는 아직 큰돈을 벌 수 있는 여건이 아니다. 결국 동기가 제일 중요하니까. 내가 분석을 잘 하고 회사에 도움을 줬을 때 인정을 받는다면 열심히 하겠지만, 아직까지는 분석 인력이 별정직처럼 있고 분석이 회사에서 인정을 못 받는 것 같다. 물론 일부 앞서가는 기업은 이걸 장려하고 있고, 모 제조사의 경우 분석을 통해 품질개선에 CEO부터 나서고 있긴 하나 아직까지는 대다수 그러지 못하고 있다.

최 이사
지금 대부분의 CEO들은 데이터를 가지고 나온 결과에 대해서는 관심을 갖고 중요하게 생각한다. 이제는 그것을 거부할 시대 아니라, 그것을 가지고 어떻게 활용하느냐가 중요한 요소다. IoT 관점에서 말하자면 새롭게 하고 있는 분야로 바이오 분야가 있다. 바이오 분야는 예측이 중요하다. 사람들이 항상 궁금했던 것이 내가 언제 죽을까다. 한 사람이 갖고 있는 유전자 정보가 100GB가 된다고 한다. 그 동안은 저장이 안 돼서 분석을 못 했는데, 이제는 할 수 있기 때문에 사람이 내가 언제 죽을지 알 수 있다. 앞으로도 몰랐던 것들을 찾아내는 시그널에 대한 분석들이 나와야 한다.

전 대표
최근 IoT는 핫한 이슈다. 개인적 취미로 구글 트렌드를 살펴보곤 하는데, IoT는 매우 빠른 속도로 순위가 올라간다. 대부분 나오는 이야기들이 IoT가 중요한데 아직 먼 것 같다는 내용이다. 기술적 장애가 많기 때문이라는 이야기도 있다. 또한 IoT 시대가 왔기 때문에 빅데이터가 아니라 스물 분산 데이터가 핵심이라고도 한다. 얼마나 빠르고 효율적으로, 그리고 병렬로 돌아갈 수 있겠는가. 전기밥솥에다 슈퍼컴퓨터를 달 순 없지 않느냐는 말이다. 거기서부터 예측 분석까지가 결합돼 이야기될 수 있지 않을까?

정 이사
국내 모 대기업에 계신 연구원에게 들은 이야기로는 기술적으로 물론 앞서 가지만, 개인정보 이슈에 대한 부분이 해결되기 어렵다는 것이다. IBM에서도 왓슨을 가지고 제일 먼저 적용하고자 하는 분야가 의료분야다. 왓슨이 퀴즈쇼 나와서 사람을 이겼다 하는 것 못지않게 보통 의사들이 하지 못하는 부분을 하겠다는데, 그 역시 수많은 데이터를 학습하는 로직이 들어간다. 그러면 데이터에 대한 문제가 생긴다. A라는 병원 데이터와 B라는 병원 데이터 다 모아서 여러 가지 증상에 대해 코치해주고 의사에게 조언해주는 분야로 IBM이 왓슨을 확대하려 하는데, 가장 문제는 기술적인 분야보다는 개인정보 이슈가 더 크다. 기술적으로 충분히 테스트해보고 시범적으로 확대해볼 여건은 됐다. 데이터에 관한 이슈는 개인정보 이슈가 더 크다.

▲ 최재원 다음소프트 이사

최 이사
양으로 따지면 빅데이터고 질로 따지면 스마트 데이터가 IoT다. 머신 데이터는 거짓말을 하지 않는다. 비정형 데이터는 사람이 올리기 때문에 약간 슬프지만 아름답게도 꾸밀 수 있다. 그러나 머신 데이터만큼 분석의 사례로 서울시 심야버스가 마치 빅데이터의 바이블처럼 됐는데, 머신만 갖고 만들어지는 데이터는 결코 아니다. 밤 12시가 넘어서 서울 시민들이 많이 움직였기 때문에 만들어진 데이터다. 정형과 비정형 데이터의 결합이 중요한 이슈가 될 텐데, 예측이라는 것이 기존 정형적인 데이터마이닝으로만 예측할 수 있는 것은 아니다. 비정형 데이터는 양 분석이 아니라 내용에 대한 예측을 해야 한다. 우리가 어느 순간 트위터에 올라온 글이 재난을 암시하는 글인지 아닌지 패턴을 감지할 수 있다면, 1개의 트윗이더라도 엄청난 재난을 막을 수 있다. 내용 기반 예측은 비정형에서 가져가고, IoT에서는 순수 머신 데이터만 가지고 갈 부분이다. 이로써 예측하지 않았던 부분에 대한 예측이 생길 수 있다.

전 대표
소셜 분석과 실시간 예측, IoT가 연관 관계가 있는지.

최 이사
소셜 분석이라는 것이 재난을 얘기한다면 실시간 분석이 가능하다. 소셜 분석이 갖는 의미는 나의 현재 상태를 알려주기 때문에 꼭 실시간으로만 분석이 가지 않은 경우가 많다. 데이터가 쌓여야 트렌드가 보이고, 그것을 봐야 미래가 보인다. 소셜 분석은 비정형 데이터를 정형화 시켜서 데이터마이닝까지 갖고 가야하기 때문에 실시간이 어렵다. 내용 분석도 있기 때문이다. 이런 부분들을 특정 키워드나 내용 기반으로 패턴을 잡아낼 수 있으면 심플한 예측이 가능하다. 이것들을 접목시키는 연결고리가 중요하다.

정 이사
CRM에서 관심사는 고객 행동 예측이다. 대부분 고객 트랜잭션 데이터를 기반으로 했는데, 어떤 고객이 어떤 제품을 얼마나 살 것 같냐에 대한 것이다. 상당히 중요한 영역 중 하나는 고객이 그 제품을 어떻게 생각하느냐지만, 그 데이터가 없는 가운데 트랜잭션만 가지고 예측했다. 예측 관점에서 보면 설명할 수 있는 관점이 늘어나면 그 사람에 대한 정확성이 늘어난다. 소셜 데이터는 소셜 미디어가 생기기 전에 서베이를 통해 고객 생각을 읽어서 행동 데이터를 결합하려는 노력이 있다. 그러나 시간이 걸리고 어렵다. 소셜 미디어가 생기면서 그 역할을 소셜 미디어 쪽에서 가지고 온다고 하면 실시간은 아니더라도 상당 부분 시간을 좁혀가면서 고객의 행동을 예측하는 모델을 만드는데 도움이 되지 않을까 싶다.

전 대표
청중 질문이다. IoT나 빅데이터, 데이터융합 부분들이 이머징 마켓에서 뜨고 있는데, 결국 이런 사업들이 활성화되면서 보안에 대한 생각을 안할 수 없다. 모든 사물에 다 인터넷이 되면 그것을 양성적으로 활용할 수 있지만, 네거티브하게 하면 전부 보안 문제에 걸릴 것이다. 어떻게 생각하고 대비나 예방책을 가져가야 하는가.

▲ (왼쪽부터) 정성원 데이타솔루션 이사, 전용준 리비젼컨설팅 대표, 최재원 다음소프트 이사

최 이사
보안이라고 하면 빅데이터에서는 당연히 개인정보 측면을 말한다. 기술 발전을 해야 하는 시점에서 개인정보 보호를 염두에 두면 아무것도 못 한다. 무책임하다고 할 수 있지만 지금 해 놓은 것이 문제가 되냐 안 되냐를 판단할 수밖에 없다. 누구 데이터인지 알고 분석하는 것과 모르고 하는 것은 엄청난 결과의 차이를 낳는다. 지금은 그 부분까지 감안해서 연구나 발전을 한다는 것이 어렵다.

정 이사
연결을 안하는 것이 보안이다. IoT와 연결되고 모든 것에 인터넷이 된다는 것은 결국 누군가가 중간에서 가져갈 수 있다는 말이다. 분석도 마찬가지다. 상당부분 익명화가 된다고 말한다. 가령 50대 남자가 암으로 병원을 찾은 것은 문제가 안 된다. 그러나 그 사람이 정성원이다 전용준이다 하면 문제다. 익명화 됐다고 하지만, 다른 데이터와 연결하다보면 결국 밝혀질 수 있다. 그것을 염려하면 분석 못 한다. IoT도 힘들다.

전 대표
역시 청중 질문으로 빅데이터 실패 사례는 없는지. 구글이 독감을 예상한 것은 결과적으로 틀렸으며, 스몰데이터에서 하는 간단한 것만으로도 구글이 놓친 것을 커버가 가능하다. 아이러니하게도 가장 큰 빅데이터 성공 사례가 실패 사례가 됐다. 빅데이터는 빅데이터다운 것을 갖고 이야기하고, 잘 된 사례와 함께 잘못된 사례도 얘기가 됐으면 한다.

최 이사
빅데이터에 대한 기대가 크기 때문에 실패라는 부분에 있어서도 얘기가 나온다. SNS 데이터는 우리나라 특성상 이용자들이 위치공유 승인을 안 한다. 위치를 알아야 데이터가 더 의미 있는 것들이 있는데 이런 것들을 내용만 갖고 잡기에는 왜곡이 생기는 경우가 많다. 결과도 안 나온다. 빅데이터를 높은 관점에서 보지 말고 데이터로 보자. 독거노인이 잘 지내는지를 거창하게 생각하지 말고, 전기 사용량하고 그 노인이 약국에서 약을 타가는 것만 조합해도 그 노인이 문제가 있는지 없는지 알 수 있다. 데이터의 기본적인 관점에서 보면 되는 분야가 있고 안 되는 분야가 있는 것이지, 모든 것에 다 적용해서 실패다 성공이다를 논하면 얘기가 달라질 것이다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지