개인이 필요한 역량 모두 갖출 순 없어
지금껏 막연하게 데이터 사이언티스트 대한 접근이 이뤄졌다면 이번 패널토의는 좀 더 구체적으로 데이터 사이언티스트에 대해 조명해볼까 한다. 현장이나 학계, 공공 등 패널뿐만 아니라 청중들까지도 같이 오늘 이야기할 수 있는 자리를 마련하고자 한다. 우선 누가 데이터 사이언티스트인가에 대한 질문에 대한 해답을 찾아보자.
장동인 미래읽기 대표(이하 장 대표)
미국에서는 데이터 사이언티스트가 섹시한 직업이라고 칭한다. 그런데 과연 한국에서는 데이터 사이언티스트가 필요할까라는 의문이 든다.
조성준 서울대 교수(이하 조 교수)
데이터 사이언티스트라고 하면 일반적으로 대량 데이터를 저장하는 것, 하둡이나 NOSQL 등을 잘 다루고 병렬처리 프로그램도 잘 하는 사람을 칭할 것이다. 그 다음 단계로 과거부터 해왔던 통계나 기계학습 기반 분석, 모델링을 할 줄 알아야 한다. 도출된 결과를 가지고 실무자나 CEO들이 의사결정을 할 수 있게 시각화도 할 줄 알아야 한다. 마지막으로 가장 중요한 본질에 대한 이해, 현업의 지식이 있어야 한다.
한 데이터 사이언티스트가 모든 것을 다하는 것은 상상할 수는 있지만 현실에서는 존재하지 않는다는 것이다. 대신 하나의 팀으로 꾸려진 전문가 집단이 데이터 사이언티스트의 대안이 될 수는 있을 것이다. 다만 이 전문가 집단들도 상대방과 소통할 수 있는 기본 소양이 있어야 한다는 전제조건이 필요하다.
신신애 한국정보화진흥원 부장(이하 신 부장)
한국에 데이터 사이언티스트가 몇 명 있냐는 질문에 대해서는 나도 잘 모르겠다는 대답을 할 수밖에 없다. 그러나 하나 예를 들어볼까 한다.
석박사급 지원자들은 영화와 흥행 등과 관련한 각조 논문을 찾아 개봉관수, 배급사, 제작사, 감독, 장르, 배우 등 흥행 요소를 뽑아 각종 변수들로 모델링했다. 그러나 그 고등학생은 직관적으로 본인이 변수를 뽑으면서 간단한 함수로 작업을 했다. 평가 과정에서 현업 관계자와 교수들이 놀랬다. 그 고등학생은 데이터를 순수하게 보고 있었던 것이다. 그동안 우리가 너무 데이터를 복잡하게 바라보고 있었다는 생각을 들게 했다.
결국 데이터 사이언티스트는 데이터를 진지하게 바라보는 능력을 가진 사람이 아닐까하는 생각을 해본다. 이를 더욱 잘하기 위해 기술적 역량을 갖추고 의사결정권자들을 설득하기 위해 소통 능력을 키우는 것이 아닐까?
전 대표
데이터 사이언티스트 필요성도 중요하지만 과연 빅데이터와 데이터 사이언티스트는 어떤 관계가 있길래 필요성이 강조되고 있는가에 대한 논의도 해보자.
데이터 사이언티스트는 미국 입장에서 존재한다. 우리나라 기업에서 그들이 요구하는 분석적 역량이나 빅데이터 활용에 대한 모종의 역량이 필요하다 하면 그것에 대해 정확하게 파악하지 못한다는 느낌이다. 빅데이터를 어떻게 활용하면 좋겠냐는 질문은 자기 업무와 데이터도 모른다는 것이다. 이런 상황에서 데이터 사이언티스트라고 한다면 멀리 갈 것이 아니라 기업의 업무와 데이터, 전략적 방향을 아는 사람이라고 정의할 수 있겠다.
전 대표
해외에서는 누가 데이터 사이언티스트고 어떤 기업이 얼마나 보유하고 있는가? 또한 국내외 어떤 차이가 있는가.
조 교수
미국 예를 들어볼까 한다. 구글이나 아마존, 페이스북 등에 데이터 사이언티스트가 몰려 있다. 그 기업 내부에서도 데이터 처리부터 분석, 시각화, 실무 현업까지 전체 아우르는 사람은 존재하지 않는다. 결국 다 분산DB 병렬처리 등 과거부터 계속 해온 전문가들과 분석가, 시각화하는 사람, 비즈니스맨들이 같이 소통하면서 작업을 진행한다.
4가지 역량 중 한 가지라도 하는 사람을 데이터 사이언티스트라고 칭한다면 미국에서는 이미 수만명 있다고 본다. 우리나라에서도 많을 수 있다.
앞서 장동인 대표의 말에 깊은 공감을 한다. 빅데이터로 뭘 할 수 있는가에 대한 질문 자체가 이상하다. 기업에서 SCM, CRM 등을 통해 매출과 효율성이 높아져 데이터를 활용하자는 의견을 모으는게 아니라 의사결정권자들이 빅데이터 하라고 지시를 내리면 각 부서에서는 “빅데이터로 뭘 할 수 있을까?” 거꾸로 질문을 던지고 있다. 정부 역시 마찬가지다. 각 부처에서 빅데이터를 해라라고 할당이 떨어지니 본말이 전도되는 상황이 벌어지고 있다.
전 대표데이터 사이언티스트 양성을 위해 누가 가르칠 수 있을까? 과연 그런 사람이 존재하긴 하는가?
신 부장
주로 대학 및 대학원 교수들이 이론적 부분이나 통계학적 관점에서 모델링 분석기법도 가르친다. 그러나 이론을 넘어 실제 실습으로 들어가면 데이터에서 문제를 찾든 필요한 것을 찾든 데이터를 다양한 빅데이터 기술을 가지고 하든 어려움이 있다.
빅데이터를 하는 전문 기업들 중심으로 인력 양성 지원 사업을 발주해서 전문가를 뽑고 거기서 실습에 필요한 것들을 전문가들이 가르친다. 각 대학에서는 실습 조교들이 많이 한다. 조교들을 가르치기도 하고 교수들도 가르치기도 한다. 그러나 빅데이터 교육과 관련된 인프라는 열악하다 할 수 있다.
장 대표
의사결정권자들은 근본적으로 감을 갖고 있다. 실무진들은 매출과 관련해서 실적이 좋지 않는 상황에서 분석 이야기를 떠낼 수 없다. 결국 의사결정권자들은 데이터에 의한 결정이 아닌 본인 감에 의해서 결정을 하는 것이다. 그러나 감에 의해 결정하는 시대는 지났다고 본다. 데이터를 통한 의사결정의 필요성을 이해하는 것이 필요하다.
또한 일반 기업에서 빅데이터 할 때 힘든 점은 하둡이나 NOSQL 등 새로운 기술을 아는 사람이 없다는 점이다. IT 기술, 통계 기술을 같이 알면 좋은데 그런 인재는 찾기 힘들다. 기업에서 원하는 사람은 빅데이터 아키텍처 구성하는 사람, 프로젝트 기획하는 사람들을 원한다. 그런 사람들은 거의 없다. 그러나 실제로 그런 사람들을 찾지는 않는다. 내부 역량이 부족할 뿐더러 사람도 있지 않고는 어려운 상황이라고 할 수 있다.
조 교수분석가들이 출세를 하지 못하는 상황에서 데이터 사이언티스트라고 주목받을 수 있겠는가에 대한 회의론도 나오고 있다. 그러나 분석을 잘해서 출세 못하는 건 아니고 분석만 해서 못하는 것이다. 한 분야만 잘해서는 한계가 있다. 현업을 모르고 오로지 주어진 데이터 안에 모든 것이 있다고 오인한다. 분석은 데이터 기반이고 그 데이터가 모든 현상을 다 담고 있느냐 항상 그런 것은 아니다. 데이터의 한계도 알고 인사이트도 찾아서 의사결정권자들이 고민하는 차원에서 승화시키는 능력, 이 조건이 갖춰지면 분석가가 출세 못한다고 보지 않는다.
장 대표
우리나라에서 빅데이터가 사회적인 이슈가 되고 있지만 빅데이터 위기의 시대라고 본다. 현실과 이상이 너무 차이가 난다. 현실을 반영해야 한다. 현실은 데이터 사이언티스트를 원하지 않고 취직하기 어렵다.
작년 전체 기업 중에 빅데이터 관련 인력을 뽑은 기업이 2곳밖에 없다. 이것이 현실이다. 갈 길은 멀지만 이 격차를 어떻게 줄이느냐는 것은 실제로 빅데이터를 이해하고 추진하고 앞장서 이끌어가는 사람들이 진정성 갖고 그렇지 못한 사람들과 빅데이터에 대한 현실론에 굶주린 이들에게 정확한 현실적인 메시지를 던져야 한다.