[지상중계] 대한민국 데이터 사이언티스트의 길을 묻다

IT 업계의 유니콘 찾는 ‘데이터 사이언티스트의 현실과 미래’ 컨퍼런스

[컴퓨터월드] ‘빅데이터’ 바람이 날로 거세지는 오늘날, 데이터 분석을 위한 도구와 방법 및 활용방안에 대한 논의는 곳곳에서 앞 다퉈 이뤄지고 있다. 그러나 정작 이를 수행할 주체인 ‘데이터 사이언티스트’에 대해서는 널리 인식되지 못하고 있는 것이 작금의 현실이다. 주어가 없는 문장이 그 의미의 해석에 모호함을 불러오듯, 데이터 사이언티스트가 없는 빅데이터는 그 방향성을 잃고 표류할 우려가 상존하기 마련이다.

이 가운데 데이터 사이언티스트에 대해 함께 생각을 나누고, 세계적인 흐름을 파악하며, 국내의 현 주소 및 향후 전망을 짚어보는 자리가 마련됐다. 데이터 분석이 새로운 성장동력으로 부상하는 시대에 요구되는 인재상은 무엇이며, 데이터 사이언티스트라 불리는 그 인재의 현실과 미래는 각각 어떤지, 이에 대해 다양한 분야의 데이터 사이언티스트들에게 직접 들어본다.

인도와 유럽의 전설에 나오는 동물인 ‘유니콘’은 말과 같은 외형을 지녔지만 이마에는 뿔이 하나 있고 신통한 능력을 지닌 귀한 존재다. ‘21세기의 원유’라 불리는 빅데이터의 핵심에 있는 데이터 사이언티스트 역시 IT 업계의 유니콘처럼 귀하게 여겨진다. 전설 속에만 남아있는 유니콘과 같이 일각에서는 데이터 사이언티스트의 존재를 부정하기도 한다.

이 가운데 본지와 빅데이터전문가협의회가 공동으로 주최한 ‘데이터 사이언티스트의 현실과 미래’ 컨퍼런스가 지난 10월 8일 역삼동 포스코P&S타워에서 개최됐다. 이 컨퍼런스에는 국내 정상급 데이터 사이언티스트 및 관련 전문가들이 참가, 빅데이터 성공을 위한 데이터 사이언티스트의 역할에 대해 살펴보는 자리가 됐다. 특히 국내뿐 아니라 전세계의 상황, 사례, 이슈, 동향, 과제를 종합적으로 공유하는 기회도 마련됐다.

‘과학자(사이언티스트)’로서 데이터 사이언티스트

‘데이터 사이언티스트 컨퍼런스’의 개회와 함께 발표에 나선 연사는 싱가폴의 레볼루션 애널리틱스(Revolution Analytics)에서 테크니컬 프리세일즈 컨설턴트로 근무 중인 줄리안 리(Julian Lee)로, ‘Data Scientist in Dynamic Asia’를 주제로 현지에서 원격으로 발표를 진행했다. 레볼루션 애널리틱스는 오픈소스 R의 상용화된 버전을 공급하고 있는 회사다.

컴퓨터공학을 전공한 줄리안 리는 싱가폴 국립암센터(National Cancer Center Singapore)에서 위암에 대해 공부하며 데이터마이닝 업무를 수행했고, 다국적 제약기업 일라이 릴리(Eli Lilly)에서는 데이터 수집, 분석, 일반화 업무를 담당한 바 있다.

줄리안 리는 먼저 “‘데이터 사이언스’라는 표현은 모순어법(Oxymoron)”이라고 지적했다. “기본적으로 과학이란 데이터 없이 가설을 세우고 목표에 접근해 답을 찾는 방식인데, 데이터 사이언스는 그렇지 않다”는 게 줄리안 리의 설명이다.

이에 따라 줄리안 리는 ‘과학(사이언스)’으로서의 데이터 사이언스에 주목, “과학에서 데이터 분석은 하나의 도구일 뿐”이라고 말했다. 또 “항상 모델의 결함에 대해 의심을 갖고 다양한 실험을 통해 지속적으로 업그레이드해나가는 게 과학적인 접근방식”이라며, “데이터 사이언티스트도 과학자처럼 논리적인 사고방식이 밑바탕이 돼야 한다”고 설명했다.

아울러 줄리안 리는 현재 산업에서 데이터 사이언티스트에게 요구하는 것으로 ▲프로그래밍 언어와 통계 모델을 다루는 ‘IT 툴 기술’ ▲새로운 정보를 학습해 효율적으로 사용할 수 있도록 결부시키는 ‘알고리즘 이해’ ▲특정 분야에서 필요로 하는 ‘전문 지식(Domain Knowledge)’ ▲분석의 가치를 경영진이나 일반인들에게 알리는 ‘커뮤니케이션 능력’ 등을 꼽았다.

마지막으로 줄리안 리는 급격히 성장하는 아시아 시장에서 데이터 사이언티스트들이 “치열해지는 경쟁 속에 보다 정교한 모델을 설계하고 이론을 적용하며, 나아가 미래를 예측하고 더 많은 이익을 낼 수 있는 조직을 구성할 줄도 알아야 한다”고 주장했다.

데이터 사이언티스트는 개척자

이어진 기조연설에는 허명회 고려대학교 통계학 교수가 ‘데이터 사이언티스트로 입신(立身)하기’를 주제로 연단에 올랐다. “데이터를 제대로 다루기 위해서는 개척정신과 능동적 태도를 비롯한 문제해결 능력, 창의력, 소통 능력 등을 갖춰야 한다”며 데이터 사이언티스트가 갖춰야 할 정신과 자질에 대해 발표했다.

허명회 교수는 이날 발표에서 몸을 세운다는 뜻의 ‘입신’이라는 단어를 키워드로 잡았다. 먼저, 데이터를 다루는 데이터 사이언스, 데이터 엔지니어링 작업에서 데이터로부터 정보를 추출하고 정화해 지식으로 끌어올리는 기본적인 과정이 가장 중요하다고 설명했다.

허 교수는 “데이터로부터 정보와 지식을 추출하는 일이 가장 중요하지만 많은 사람들이 이 점을 간과하고 있다”며, “더 좋은 데이터를 만들기 위해 이 부분을 신경 쓰지 않는다면 실제적으로 성과를 낼 수 없다”고 말했다.

빅데이터에 대해 허명회 교수는 “아직까지 아무도 접근하지 않았던 자료”라고 정의했다. 이어 “데이터 사이언티스트와 데이터 엔지니어는 이제까지 다루지 못한 데이터를 분석하는 선구자 및 개척자”라며, “데이터 사이언티스트와 데이터 엔지니어는 새로운 것에 대해 갈망하고 추구하는 프런티어 정신이 있어야 한다”고 주장했다.

이와 함께 허명회 교수는 데이터 사이언티스트로서 갖춰야 할 자질로 능동적 태도, 문제해결 능력, 창의력, 소통 능력 등을 꼽았다. “데이터 사이언티스트는 소재를 스스로 찾아서 학습할 수 있도록 능동적인 태도가 중요하다”며, “문제해결을 위해 기존의 학습지 문제풀이 방식에서 실제의 문제풀이를 이뤄낼 수 있는 문제해결 능력을 갖춰야 한다”고 강조했다.

또한 허 교수는 “창의적인 실제의 문제를 풀 수 있는 사람이 데이터 사이언티스트가 될 수 있다”며, “점점 개인화되고 있는 상황에서 소통할 수 있고 사회성을 가진 데이터 사이언티스트가 필요하다”고 밝혔다.

이밖에도 허명회 교수는 데이터 사이언티스트가 되기 위해 갖춰야할 정신과 자질 외에 ▲통계학적인 소양 ▲데이터베이스(DB) 및 웹(Web) 기술 등 컴퓨터 능력 ▲미적분학 및 선형대수 등 수학적인 소양 ▲역사학 경제학 사회과학 공학 등 적용분야 지식 ▲R, 파이썬(Python), 자바(Java) 등 언어를 다루는 능력 등도 필요하다고 설명했다.

한편, 허명회 교수는 데이터 사이언티스트를 키우는데 있어 현실적인 문제도 언급했다. “데이터 사이언스를 공부하려면 전산학과, 산업공학과 등에서 배워야 한다는 학과 이기주의가 팽배해 있다”며, “학과에 충성할 필요 없이, 이를 뛰어넘어야 경쟁력이 될 수 있다”고 꼬집었다.

아울러, “단기적인 성과주의와 갑을관계로 대표되는 용역꾼 역할은 데이터 사이언티스트의 능력을 저하시키는 주된 요인”이라며, “법·제도의 뒷받침이 되지 않고 학과주의와 랩(Lab) 중심의 교육환경도 데이터 사이언티스트의 육성을 가로막는 장애물”이라고 지적했다.

전문 지식을 바탕으로 ROI까지 바라볼 수 있어야

세 번째 발표는 금기돈 AXA다이렉트손해보험 파이낸스본부 CRM팀장이 맡았다. 악사다이렉트에서 정보계 시스템을 운영하며 전사적인 데이터를 다루고 업무 평가(Business Assessment)와 업무 재설계(Business Reengineering)도 담당하고 있는 금 팀장은 금융 업계에서도 고객과의 접촉이 비교적 제한적인 보험 업계, 특히 오프라인 채널이 없는 온라인 보험에서 데이터를 활용해 이를 극복하는 구체적인 사례를 들어 데이터 사이언스에 대한 이해를 도왔다.

금기돈 팀장이 데이터를 다루는 팀원들에게 가장 먼저 주문하는 것은 보험 업무에 필요한 ‘전문 지식(Domain Knowledge)’이다. “기본적으로 비즈니스 시스템의 흐름을 알아야 한다. 패턴이 존재하는 비즈니스에서 실제 업무 경험은 중요하게 작용한다”며, 이는 데이터 사이언티스트 또한 마찬가지라고 강조했다.

더불어 금 팀장은 ‘커뮤니케이션 능력’의 필요성을 역설했다. “분석이 그저 분석으로만 그치는 경우가 80%에 달하는 것으로 알고 있다”며, “실질적으로 실행에 착수할 수 있는 액션 플랜(Action Plan)이 없는 분석은 앙꼬 없는 찐빵”이라고 지적했다.

이어, 악사다이렉트 CRM팀의 데이터 활용 사례로 ‘상담원 역량 진단 프로세스(SR Ability Diagnosis)’와 ‘보험사기 적발 시스템(Fraud Detection System)’을 들었다. ‘상담원 역량 진단 프로세스’는 실질적인 정보만을 모델링을 통해 추려 실적 등급별 코칭 가이드를 제공하고, 영업단계의 바텀-업(Bottom-Up) 방식을 바탕으로 올랩(OLAP)으로 시각화한 개인별 실적과 음성 분석(Speech Analysis) 정보를 제공한다.

또 ‘보험사기 적발 시스템’은 보험 조사원들의 노하우를 시스템화해 프로세스를 자동화시킨 것으로, 금기돈 팀장은 “구축 이후 20억 정도를 아끼는 효과를 봤다”고 밝혔다. “모델 분석을 통한 작업 자체가 기업 입장에서의 ROI(투자수익률)까지 연결돼야 한다”는 게 금 팀장의 생각이다.

이와 함께 금기돈 팀장은 현재 진행 중인 대표적인 계획인 ‘CEP(Customer Experience Platform)’와 ‘COE(Center Of Excellence)’에 대해 설명했다. ‘CEP’는 데이터웨어하우스(DW)에서 나아가 웹로그나 음성 정보 등 구조화되지 않은 데이터까지 통합해 다루는 인프라를 구축하는 것이다. ‘COE’는 데이터를 다루는 인력이 부족한 문제를 해결하기 위해 각 부서별 데이터 담당인원을 정식으로 할당, 데이터마이닝, 올랩, SQL 등 필요한 기술을 교육해 분석인력을 양성하는 것이다.

한편 금기돈 팀장은 빅데이터에 대해 “우리는 내부 데이터에 대해서는 어떻게 최적화시킬 것이냐를, 외부 데이터에 대해서는 어떤 게 우리에게 맞느냐를 전략의 시작으로 삼았다”고 말했다. 또 기업이 구하는 데이터 사이언티스트에 대해서는 “수리적 소양이 있는 게 좋고, 객관화된 지표가 있으며 참조가 된다”고 덧붙였다.

입체적인 기술을 지닌 ‘멀티 플레이어’

네 번째 발표에는 유충현 R테크센터 고문이 ‘빅데이터 시장에서 데이터 사이언티스트의 역할과 비전’을 주제로 강연했다. “데이터 사이언티스트라면 단편적인 기술이 아닌, 입체적인 기술을 지닌 멀티 플레이어 능력을 갖춰야 한다”며 데이터 분석 사례와 함께 데이터 사이언티스트의 역할에 대해 알려줬다.

유충현 고문은 “데이터 분석을 위한 수리적인 이론과 데이터 조작을 위한 컴퓨터 엔지니어링, 데이터 이해를 위한 업무지식과 경험을 갖춘 멀티 플레이어 능력이야말로 데이터 사이언티스트가 갖춰야할 능력”이라고 강조했다. 데이터를 준비하고 분석하며 정보화하기 위해서는 단편적인 기술이 아닌, 입체적인 기술이 필요하다는 것이다. 유 고문은 “데이터 사이언티스트가 업무가 많은 직장인으로 보일 수도 있지만, 직접 데이터를 조작하고 분석하기 위해서는 멀티플레이어가 돼야한다”고 밝혔다.

또 유충현 고문은 데이터 사이언티스트에 대해 “데이터를 조작하고 분석하며 이해하는 일련의 데이터 서비스 과정의 작업을 수행하는 인물”이라고 정의하며, “데이터 사이언티스트의 길을 염두하고 있다면 논리적 사고, 수리적 사고, 커뮤니케이션 스킬을 무엇보다 필수역량으로 먼저 갖춰야 한다”고 설명했다.

데이터 분석을 위한 마이닝 툴은 마치 기성복과 같아, 마이닝 툴에 의존해 분석한다면 패턴이 익숙해지는 단점이 생겨 논리적 사고와 수리적 사고가 필요하다는 것이다. 또 과거의 데이터를 포함한 빅데이터는 잘 정리돼있지 않은 데이터다보니 논리적 사고와 수리적 사고 없이는 바람직하지 못한 결과를 얻지 못한다는 설명이다.

더불어, 데이터 사이언티스트는 커뮤니케이션 스킬로 승부해야 한다고 주장했다. “데이터 분석 속에는 정직과 신의가 있어야 한다”며, “포장하지 말고 현실 그대로 작성하되 대안은 반드시 제시하는 커뮤니케이션 스킬이 중요하다”고 강조했다. 또 “데이터 분석 결과가 어이없게 나왔다 하더라도 상황을 이겨내는 강한 정신력도 데이터 사이언티스트가 갖춰야 할 역량”이라고 덧붙였다.

이밖에도 유충현 고문은 데이터 사이언티스트의 현실적인 문제도 지적했다. “데이터 사이언티스트에 대한 수요와 공급의 불균형이 심각한 상황”이라며, “필드에 사람이 없는데 몸값은 오르지 않는 부분이 개선돼야 한다”고 주장했다. 또 “공공의 경우 데이터 분석가에게 돈을 지불하는 영역이 없는 현실도 개선돼야 하고, 연구학습과 실무를 병행할 수 있는 업무환경도 마련돼야 한다”고 언급했다.

눈물 젖은 빵을 먹어본 ‘스타 플레이어’

다섯 번째 발표에는 전용준 리비젼컨설팅 대표가 ‘글로벌 마켓에서의 데이터 사이언스 실제모습: 상상과 현실’이라는 주제로 강연에 나섰다. “막연한 생각이 아닌, 데이터 사이언티스트라는 스타 플레이어가 되기 위해 요구되는 현실적인 문제를 알리겠다”며 구체적인 사례를 제시했다.

먼저 전용준 대표는 ‘빅데이터’보다 데이터를 다루는 ‘데이터 사이언스’라는 실체에 대해 주목하기를 주문했다. 데이터 산업에 진출하려는 지역은 아직 빅데이터에 대한 관심에 머무르는 반면, 데이터 산업을 선도하는 지역에서는 데이터 사이언스에 대해 실질적으로 접근하는 상황을 보여주며 “이미 거품이 빠지고 있는 빅데이터에 비해, 더 늦게 대중화된 데이터 사이언스가 오히려 더 빠르게 정상적인 궤도에 오를 것으로 전망된다”고 설명했다.

아울러, 할 배리언(Hal Varian), 로리 스켈리(Laurie Skelly), 제이크 포웨이(Jake Porway), D.J. 패틸(Patil), 힐러리 메이슨(Hilary Mason), 마이클 플라워스(Michael Flowers), 링크드인의 데이터 팀, 패션회사 트루핏 등 북미의 여러 데이터 사이언티스트들을 소개했고, 이 가운데 유능한 경력자들이 실리콘 밸리로 몰리고 있는 현상을 지적하며 “마이클 플라워스가 이끌었던 뉴욕시의 데이터 사이언티스트 팀도 20대 위주로 구성됐는데, 이는 미국도 공공 부문의 데이터 사이언스가 금전적인 문제에 직면해있다는 방증이 된다”고 밝혔다.

전용준 대표는 데이터 사이언티스트에 대해 “데이터 분석가와 달리, 필요한 데이터를 직접 파악하고 끌어올 수 있어야 한다”고 정의, 이를 위한 현실적인 요건으로 ▲관련 분야 석·박사 학위 이상 권장 ▲하둡, 파이썬, R, SAS 등을 다루는 기술 ▲해당 업무 지식(Domain Knowledge)과의 결합 등을 꼽았다.

또한, 비즈니스 인사이트 영역과 자동화 시스템 영역의 협업을 바탕으로 한 데이터 사이언티스트 팀의 필요성을 주장했으며, 현재의 단기적인 수급 불균형에 대해서는 “데이터 분석에 대한 이론적 또는 실무적인 기초를 지닌 이들부터 고급 인재가 될 수 있도록 지원해야 된다”고 해결방안을 제시했다.

마지막으로 전용준 대표는 데이터 사이언티스트가 되기를 희망하는 이들에게 “시간이 흘러 수급이 안정돼 희소성이 떨어진 상황에서도 당장의 이득보다 장기적인 큰 목표를 위해 데이터 사이언스를 꾸준히 공부할 수 있을지, 인내심과 커뮤니케이션을 바탕으로 폭넓게 협력을 구하며 일할 수 있을지 스스로 고민해봐야 한다”고 충고했다. “모두가 메이저리그의 스타 플레이어가 될 수 없듯, 마이너리그에서 눈물 젖은 빵을 먹으며 실력을 닦아야 데이터 사이언티스트가 될 수 있는 자격이 주어진다”는 게 전 대표의 설명이다.

새로운 관점의 기술에 대한 이해

여섯 번째 세션은 임상배 한국오라클 부장이 맡아 ‘빅데이터 애널리틱스 인 액션’을 주제로 발표했다. 빅데이터 분석 아키텍쳐 핵심기술 및 트렌드에 대해 소개하며 “진화하는 빅데이터 분석 시장에서 데이터 사이언티스트에게는 새로운 관점의 기술에 대한 이해가 요구된다”고 밝혔다.

임상배 부장은 최근 빅데이터 분석 시장이 “기존 하둡 기반 분석에서 인(In)-DB 기반 분석으로 진화하고 있다”고 강조했다. 생산성, 유지보수 등의 편의성을 제공하고 결과적으로 비용을 최소화할 수 있는 방안이 요구된다는 것이다.

임 부장은 “기존 데이터 처리 방식은 프로그램이 있는 곳으로 데이터를 가져와 처리하는데, 빅데이터 환경에서는 프로그램을 데이터가 있는 곳으로 전송해 분석을 수행하는 게 보다 효율적인 방안”이라며, “하둡은 이를 지원하기 위해 대량의 데이터를 대상으로 여러 대의 노드들이 계산을 동시에 수행하는 방식으로 데이터 처리 기술을 구현했다”고 설명했다.

이어, “기존에는 별도의 분석 인프라를 기반으로 데이터 이동·복제·변환 등 작업을 수행한 후 분석했다면, 인-DB 분석은 데이터가 있는 그곳에서 데이터 이동이 없거나 최소화된 상태에서 분석을 수행한다”며, “데이터 이동 및 중복으로 발생되는 분석용 서버들을 제거하고 확장성과 관리성 및 높은 보안성을 제공해 결과적으로 총 소유비용(TCO)을 절감시킨다”고 부연했다.

임상배 부장은 이러한 기술적 변화가 “데이터와 분석의 거리를 단축하는 방향으로 진행되고 있다”며, “기업에서 분석 시스템 운영 및 구축 시 데이터 사이언티스트에게 바라는 건 확장성, 성능, 운영시스템 배치 등에 대한 능력이므로, 기업에서 원하듯이 데이터와 분석의 거리를 단축하기 위해서는 새로운 관점의 기술에 대한 이해가 필요하다”고 강조했다.

더불어 임상배 부장은 데이터 사이언티스트에게 데이터 플랫폼 종류에 상관없이 단일한 분석환경을 제공할 필요성을 주장했다. “기업의 요구를 충족하면서 기술적으로 접근성이 높고 이미 알고 있는 기술을 활용할 수 있는 분석환경을 제공받아야 한다”며, “기존 R의 환경, 문장, 문법을 가능한 그대로 사용할 수 있는 환경 등이 마련돼야 한다”고 덧붙였다.

데이터 사이언스에서의 머신 러닝

일곱 번째 세션에는 이현봉 한국테라데이타 전산학 박사가 ‘기계 학습에서 시작한 사람이 생각하는 데이터 사이언스의 미래’를 주제로 연단에 올랐다. ‘머신 러닝(기계 학습)’은 경험을 통한 학습으로써 스스로 발전하는 시스템·알고리즘을 연구·개발하는 인공지능(AI) 분야 중 하나다.

머신러닝 전문가인 이현봉 박사는 “학문의 여러 가지는 많은 곳에서 겹치지만, 공학에서의 머신 러닝과 데이터 사이언스에서의 머신 러닝은 다른 면이 있다”며, “공학에서는 깊은 지식이 필요한 전문 운용시스템의 한 부분으로 결합돼 적용되는 경우가 일반적인데 반해, 데이터 사이언스에서는 그 반대에 가깝다”고 설명했다.

이어, 바다 속에서 수많은 신호 및 정보를 종합해 수학적 분석과 머신 러닝을 통해 색적하는 잠수함을 예로 들며 “이러한 확률을 높이기 위해 스페셜리스트(전문가)들이 사용하는 머신 러닝은 시스템적인 부분으로 후처리가 아닌데 비해, 데이터 사이언스에서는 주로 후처리 용도로 쓰인다”고 부연했다. 덜 전문적으로 사용된다는 뜻이다.

이와 함께 이현봉 박사는 “데이터 사이언티스트는 제너럴리스트인가”라는 질문을 던지며, “특정 분야에 고도로 훈련된 전문가 중 데이터를 이용하는 사람은 이미 존재하고, 머신 러닝을 비롯한 기존 인공지능 분야도 데이터 먼징(Munging)은 도사 수준”이라고 상기시켰다.

이에 대해 이 박사는 “빅데이터나 데이터 사이언스는 아직 불분명한 개념으로, 얕은 지식이나 허풍과 동일시될 수도 있다”고 지적하며, “기존 전문가들처럼 깊이 있는 전문 지식(Domain Knowledge)을 바탕으로 변화하는 데이터를 다뤄야 하므로, 데이터 사이언티스트의 관건은 학습 능력이 될 수 있다”고 밝혔다.

자연언어처리를 통한 텍스트 빅데이터

여덟 번째 발표자인 김정선 SK텔레콤 빅데이터TF 부장은 ‘데이터 사이언티스트의 자질과 필요역량’을 주제로 강연에 나섰다. ‘자연언어처리(NLP)’를 통해 텍스트 빅데이터에 접근하는 과정에 대해 구체적인 사례를 들어 설명했다.

김정선 부장은 “자연언어처리는 컴퓨터를 통해 인간의 언어를 처리하고 이용하는 학문 분야”라고 정의, “텍스트 빅데이터는 자연언어처리부터 시작한다”고 밝혔다. “인간의 언어를 이해, 이를 바탕으로 각종 정보처리에 적용함으로써 빠르고 편리한 정보를 얻을 수 있다”는 게 김 부장의 설명이다.

이어, “정보검색, 기계번역, 자동통역, 문서작성, 문서요약, 문서분류, 음성인식 등 인간의 언어가 사용되는 실세계의 모든 영역이 자연언어처리를 응용할 수 있는 분야가 될 수 있다”며, “최근에는 과거보다 문법규칙이 단순화되고 사전이 대용량화되는 등 환경이 변화하면서 실용수준의 자연언어처리 시스템이 개발 가능해졌다”고 덧붙였다.

또한 김정선 부장은 형태소 분석, 구문 분석, 의미 분석, 화용 분석 등 총 4단계의 자연언어 분석의 단계에 대해 소개했으며, 언어처리 엔진영역에서 글로벌 기업보다는 국내 기업이 경쟁력을 갖추고 있다고 주장했다. “자연언어 분석 중 형태소 분석은 언어에 따라 난이도 차이가 심하게 난다”며, “영어, 불어 등 태변동이 규격화돼 있는 언어와 달리, 한국어는 규격화돼 있지 않아 국내 기업에게 유리할 수밖에 없다”고 역설했다.

김정선 부장은 자연언어 분석의 난점에 대해서도 언급했다. 한국어의 경우 중의성으로 인해 형태소 분석이 쉽지 않다는 것이다. ‘감기는’을 예로 들며 “이 세 글자는 감기(명사)+는(조사), 감다(동사)+기는(조사), 감기는(동사+명사+조사) 등 세 가지로 분석이 가능한데, 이는 한국어만이 갖는 특징”이라며, “문법규칙 등을 통계적으로 표현해서 문맥적으로 파악하는 기술이 중요하다”고 말했다. 또 “자연언어문장이 형태소 분석 과정을 비롯한 구문 분석 과정 등에서 문맥적으로 제대로 파악되지 않으면 정확한 분석 결과를 얻을 수 없다”고 강조했다.

이밖에도 김정선 부장은 정형화된 텍스트 빅데이터를 분석하는 방식에 대해서도 소개했다. ‘청소년 자살문제에 대한 분석’을 예로 들며 “청소년 자살의 원인, 장소, 방법 등 청소년을 인식할 수 있는 키워드들의 빈출 여부를 코딩, 산출된 정형 데이터 포맷을 이용해 SPSS, SAS 등을 통한 빈도분석, 교차분석 등이 가능하다”고 설명했다.

빅데이터 아카데미

마지막 아홉 번째 세션은 이정현 한국데이터베이스진흥원 창의인재개발실장이 맡았다. 이정현 실장은 한국DB진흥원에서 DB 인력과 관련된 전반적인 부분을 총괄하고 있다.

이정현 실장은 “최근 국내 기업들을 상대로 실측 조사 결과, 빅데이터 전문 인력을 확보한 기업은 5.8%뿐이었다”며, “빅데이터 산업이 아직 명확하지 않아 수요에 대한 논란은 있지만, 국내에 데이터 관련 전문 인력이 부족한 것은 사실”이라고 강조했다.

이에 따라 지난해 한국DB진흥원에서 ‘빅데이터 아카데미’를 설립할 때 이정현 실장은 3가지 측면을 고민했다. 이 실장에 따르면, 먼저 ‘정부 차원의 양성이 옳은지’ 고민했는데, 많은 데이터가 창출되는 현 상황을 빠르게 활용하려면 정부가 나설 필요성이 있다고 여겼다. 다음으로 ‘왜 데이터 사이언티스트인가’ 고민했는데, 과학자적인 사고방식을 토대로 업무 지식(Domain Knowledge)과 기술 지식(Technical Knowledge)을 겸비해야 되기 때문으로 풀이했다. 마지막으로 ‘현실적인 양성 가능 범주’를 고민했는데, 교육을 통해 업무 지식 부분은 해결하기 쉽지 않지만 기술 지식 부분은 해결 가능하다고 결론지었다.

이정현 실장은 “현재는 현업에서 데이터 사이언티스트로 진입하는데 도움을 주는 쪽으로 콘셉트를 잡아, 데이터 관련 직무에서 3년 이상 근무한 경력자를 대상으로 하고 있다”며, “빅데이터 아카데미에서 기술 지식을 교육받고 현업에 복귀, 이를 바탕으로 다시 업무 지식을 넓혀갈 수도 있을 것”이라고 밝혔다.

빅데이터 아카데미는 기획, 처리, 분석, 시각화, 운영·관리의 5가지 직무모형으로 구성됐다. 이 실장은 “직무분석과 수요조사를 바탕으로 한 교과 구성부터 1인당 4대씩 서버를 쓸 수 있게 하는 등 환경적인 부분까지 마련했고, 이 가운데 실습용 데이터 확보가 가장 어려웠다”며, “교육을 마친 후 바로 현업에 활용할 수 있도록 지원하고 있다”고 설명했다. 또 “올해 선발된 인원들은 총 3개월 과정을 거쳤고, 평균 경력은 10년 이상”이라고 덧붙였다.

아울러 이정현 실장은 “데이터 사이언티스트가 아니라 제너럴리스트가 되지 않도록, 내년부터는 산업·직무별 맞춤형 전문가를 양성할 계획”이라며, “데이터 분석 문화 정착을 위해 우수 프로젝트 홍보 및 경영진 대상 교육도 지속적으로 실시하고 있다”고 말했다.

데이터 사이언티스트의 길을 묻다

▲ (왼쪽부터) 김정선 SKT 부장, 전용준 리비젼컨설팅 대표, 김동한 펜타시스템 소장, 이정현 한국DB진흥원 실장

총 9개의 세션 발표가 모두 종료된 후에는 ‘대한민국의 데이터 사이언티스트, 어디에 서있으며 어디로 가야하는가’를 화두로 패널 토의가 열렸다. 앞서 발표자로서 강연했던 이정현 한국DB진흥원 창의인재개발실장과 김정선 SKT 빅데이터TF 부장과 함께, 김동한 펜타시스템테크놀로지 고등기술연구소장이 새롭게 패널로 참여했으며, 전용준 리비젼컨설팅 대표의 사회로 진행됐다.

토의 주제는 ▲조직에 기여할 수 있는 데이터 사이언티스트는 어떤 특성을 가진 사람인가 ▲얼마나 많은 수의, 어떤 유형의 데이터 사이언티스트가 필요한가 ▲데이터 사이언티스트가 되기 위한 가장 좋은 방법 ▲데이터 사이언티스트 양성을 위해 정부/공공, 학계, 민간에서 무엇을 해야 하는가 등 네 가지가 선정됐다.

어떤 특성을 가져야 조직에 기여할 수 있나

이정현 한국DB진흥원 실장은 “데이터 사이언티스트를 양성하기 위해서는 생태계 조성이 중요하다”고 전제했다. 이어 “현재 기업의 IT 담당자들은 기업의 투자 부족으로 전문화돼있지 않아, 관련된 모든 일을 떠안고 있는 경우가 많다”며, “전문화, 특화가 이뤄지지 않으면 빅데이터를 다루는 데이터 사이언티스트가 향후에는 3D 업종이 될 수 있다”고 경고했다.

김정선 SKT 부장은 “조직 내 업무를 수행하고 성과를 내려면 해당 업계의 전문용어나 프로세스 등을 흡수할 수 있어야 한다”고 밝히는 한편, “데이터 사이언티스트가 기여하려면 먼저 데이터로써 의사결정이 이뤄지는 데이터 드리븐(Data-Driven)적인 기업문화와, 데이터를 활용하는 프로세스의 정례화가 바탕이 돼야 한다”고 주장했다. 또 “기업에서는 데이터 사이언티스트에게 업무 효율화도 바라지만, 무엇보다 새로운 성장동력을 찾아내는 걸 바란다”고 덧붙였다.

어떤 유형이 얼마나 많이 필요한가

김동한 펜타시스템 소장은 “인과관계를 분석해 아웃풋을 제공한다는 측면에서, 공학도로서 데이터 사이언스보다는 데이터 엔지니어링이라는 표현이 어울린다고 본다”고 사견을 밝히면서, “기존의 순수한 분석가 및 기업 내 데이터 분석팀을 제외한, 앞으로의 국내 수요는 400명 미만일 것”으로 예상했다.

김정선 SKT 부장은 “데이터 사이언티스트라는 용어의 정의가 아직 애매한 부분이 있어, 그 규모에 대해서도 생각하는 부분이 다를 수 있다”며, “데이터 엔지니어링으로 접근하는 영역과 데이터 사이언티픽 리서치로 접근하는 영역을 달리 본다면, 이 두 가지 영역을 모두 가져가는 경우도 있겠지만 어느 한쪽에 집중하는 경우도 있을 것”이라고 설명했다.

이정현 한국DB진흥원 실장은 “빅데이터 산업 발전 전략에서는 2017년도까지 데이터 사이언티스트 5,000명 양성을 목표로 잡고 있다”며, “데이터가 넘쳐나는 현재, 데이터로 뭔가를 시도할 수 있는 데이터 드리븐 마인드를 지닌 사람이 많이 늘어나야 새로운 산업과 부가가치가 창출될 수 있고, 이러한 활성화를 통해 데이터 사이언티스트의 수요도 따라서 증가할 것”으로 내다봤다.

어떻게 해야 될 수 있나

김정선 SKT 부장은 “DB진흥원 또는 학교에서 열리는 정규화된 양성과정에 참여하는 게 지름길”이라며, “이를 통해 엔지니어링 영역과 사이언티픽 리서치 영역을 연결하는 역량을 가질 수도 있다”고 말했다.

김동한 펜타시스템 소장은 “석·박사 학위까지는 필수적이지 않고, 관심 있는 분야에 대한 교육은 받을 필요가 있다”고 밝혔다. 또한 “대부분의 대학교 졸업생들이 자기 전공에 대한 전문 소양이 부족해 기업에서 3년 이상 재교육에 투자하는 상황”이라며, “기업들끼리 이러한 전문화 교육을 공용화해서 효율적인 프로그램을 마련했으면 좋겠다”고 덧붙였다.

아울러 김동한 소장은 데이터 사이언티스트를 채용한다면 어떤 조건을 보겠느냐는 질문에 “파이썬과 하둡 경험자 등을 찾겠지만, 하둡 자체가 분산 환경에서 돌기 때문에 적용 환경이 다 다르므로, 간단히 설치해보고 조금 돌려본 정도로는 역량이 있다고 보지 않는다”며, “최근 미국에서도 몇 개 노드 이상에서 하둡을 돌려본 엔지니어가 부족해 여기저기서 구한다”고 말했다. “결국 자체 육성한다는 생각으로, 소통하고 배우려는 태도를 중시할 것”이라며, “보수적인 분석을 넘어 데이터를 헤집어서 가져오는 자세를 갖춰야 자리 잡을 수 있다”는 게 김 소장의 설명이다.

이에 대해 대학원에서 데이터마이닝을 공부중이라는 한 청중의 질문도 이어졌다. ‘학생 입장에서는 대학원에서도 다양한 데이터를 접할 기회가 부족한데, 데이터를 다루는 경험을 쌓기 위해서는 어떻게 해야 하는가’를 묻는 질문에 대해 김동한 소장은 “기업에 입사한다고 해서 많은 데이터를 다룰 수 있는 건 아니고, 기업의 성격에 따라 다르다”며, “실무적으로 접근하려면 공공데이터 개방이 좋은 사례라고 본다”고 답변했다.

이와 함께 김동한 소장은 “정부에서 빅데이터 프로젝트를 내세우나 일단 예산이 적고, 실상을 보면 빅데이터로 다루고 싶은 것도 적다”고 지적했다. “국내 성공사례로 서울시 심야버스가 꼽히는데, 다른 공공기관과의 차이점은 전담부서가 있었다는 것”이라며, “내·외부에 모두 전문가가 있어야 빅데이터 산업이 발전할 수 있다”고 역설했다.

한편, SK텔레콤 소속 데이터 사이언티스트의 최고 연봉을 묻는 청중의 질문에 대해 김정선 부장은 “수억을 받는 사람도 있다”며, “조직 관리 측면에서 후배들이 따를 만한 스타 직원의 존재가 필요하기 때문”으로 풀이했다.

양성하기 위해 무엇을 해야 하는가

김동한 펜타시스템 소장은 “IT 산업 전체에 해당되는 이야기로, SW에 대한 좋지 않은 처우를 개선해나가면 자연히 관련 문제들이 해결될 것”이라며, “SW 개발단가 기준으로 데이터 분석팀의 인력 프로파일을 넣으면 학력이나 연령이 너무 높다고 하면서 데이터 사이언티스트로서의 능력을 요구한다는 건 앞뒤가 맞지 않는 일”이라고 꼬집었다. 이어 “정부에서, 담당자의 정당한 면책권 보장을 전제로, 빅데이터나 데이터 사이언티스트 관련 공공 프로젝트의 실패사례를 공유해주면 밑거름이 될 것”이라고 제안했다.

김정선 SKT 부장은 “어느 정도 이상의 데이터가 아니라면 기존 RDBMS에서도 잘 돌아가는데, 괜히 하둡이나 오픈소스를 적용했을 때 오히려 문제가 발생할 수도 있다”며, “정말로 큰 볼륨의 데이터를 다룰 수 있는 기업체는 국내에 몇 군데 되지 않는다”고 언급했다. 더불어 “여러 공공기관에서 대기업들이 갖고 있는 노하우를 공유할 수 있는 장이 마련됐으면 한다”고 건의했다.

이정현 한국DB진흥원 실장은 “빅데이터라는 용어가 관련 사업이나 프로젝트에서 예산을 따거나 장식하기 위한 접두어로 남용되는 게 사실”이라며, “이 가운데 실질적으로는 빅데이터가 아닌 대용량 DB 사례도 많아서 실패사례를 공유하기 쉽지 않은 면도 있다”고 털어놨다. 또한 “이러한 부분은 사전 검증작업과, 전문가들의 가치를 인정해주는 풍토가 요구된다”고 짚었다.

아울러 이정현 실장은 “정부는 인력 양성에서 촉매 역할로, 궁극적으로는 생태계를 조성해주는 역할을 맡아 산업을 활성화시켜 인력 양성도 이뤄지는 선순환을 만들 필요가 있다”며, “그러기 위해서는 정보 개방 및 데이터 품질 자정의 노력이 필요하다”고 밝혔다. 또 “요즘 O2O 서비스가 많이 나오는데, ‘우버택시’처럼 실정법에 위배돼서 국내 서비스를 제대로 못하는 경우를 접하다보면 규제 개혁의 필요성도 느낀다”고 덧붙였다.

전용준 리비젼컨설팅 대표는 “정부 공공 쪽에 프로젝트 수를 줄이고 단가를 높이자고 부탁하고 싶다”며, “하다만 프로젝트 100개보다 결과를 낸 프로젝트 5개가 데이터 사이언티스트 육성에 도움이 된다”고 강조했다.

마지막으로 한 청중은 “미국에서 컨퍼런스에 가보니 미국정부 차원에서 산·학·연을 접목시키는 게 보였다”고 언급했다. “정부와 기업들이 공유할 수 있는 데이터를 공유하면, 이를 통해 전문가와 학생들이 얼마든지 배우고 활용할 수 있다”며, “이러한 공유센터 등의 장이 마련되면 서로 연결되고 협업하는 과정을 통해 더 많은 데이터 사이언티스트가 양성될 수 있다”고 의견을 피력했다.

패널 토의를 끝으로 컨퍼런스를 마무리하면서 전용준 리비젼컨설팅 대표는 “조금이라도 빨리 데이터 사이언티스트에 대한 이야기를 나눌 필요가 있다”고 주의를 환기시켰다.

이번 ‘데이터 사이언티스트의 현실과 미래’ 컨퍼런스를 시작으로 데이터 사이언티스트에 대한 수많은 이야기가 오고가고, 이로써 여러 분야의 다양한 목소리와 움직임이 큰 흐름을 이뤄 국내 IT 산업에 이바지할 수 있게 되기를 희망한다.

데이터 사이언티스트에 대한 인식

‘데이터 사이언티스트의 현실과 미래’ 컨퍼런스에서는 참가자들을 대상으로 데이터 사이언티스트에 대한 인식을 알아보는 설문조사도 이뤄졌다.

이 설문조사는 대상의 편중이라는 측면에서 한계를 지닐 수 있으나, 데이터 사이언티스트 시장에 직접 관련된 이들로 응답자가 구성됐다는 점에서 가치와 유용성을 가질 것으로 보인다. 다수의 응답자가 민간 기업에 소속된 사람들이었고, 다양한 담당업무를 맡아 일부는 공급자, 일부는 수요자 역할을 수행하는 조직에 속했다.

이번 설문조사에 따르면, 응답자의 대다수가 데이터 사이언티스트의 수요에 비해 공급이 부족하다고 여겼다. 수요가 작다고 판단하는 경우에는 공급도 작다고 판단하는 경향을 띠었으며, 현재 존재하는 인원수에 대한 인식차는 데이터 사이언티스트의 개념에 대한 정의가 상이한 것으로 풀이된다. 5,000여명이 필요하지만 현재 500명 미만이 존재한다는 인식이 많았다.

학력 요건으로 석사 학위 이상이 필요하다는 의견이 3분의 2에 달해, 데이터 사이언티스트가 되기 위해서는 학력이 필수적이라는 인식이 강한 것으로 조사됐다. 이는 대학교 이하 재학생 대상 데이터 사이언티스트 교육과정에 대한 현실성과 적절성을 재검토할 필요가 있음을 시사한다.

초임 연봉 수준으로는 7,000만원 이하라는 답변이 70%를 넘었다. 박사 학위를 가졌을 경우 연봉 수준이 더 높아야 한다는 대답은 많지 않아, 석사 학위 이상일 경우 능력이 우선시됐다. 학력 요건과 대우 수준에 대해서는 다양한 선택이 나와, 아직까지 시장 형성이 공식화되지 못하고 있음을 보여줬다.

민간 기업만을 대상으로 한 조사에서는 학사로 충분하다는 의견이 30% 가량으로 더 높았다. 박사 학위에 대한 요구는 4% 미만으로 낮아, 북미의 경우 9% 수준임을 감안하면 국내 기업들은 박사의 실무적인 능력에 대해 크게 인정하지 않는 것으로 보인다.

초임 연봉에 대해 5,000만원~7,000만원 구간을 택한 비율은 전체 조사보다도 더 높았으며, 7,000만원 이상을 택한 비율은 상대적으로 줄어들었다. 국내에서는 해외에서 만큼의 대우를 받지 못할 것이라는 잠재적인 인식 표출로 해석된다. 학위와 급여간의 연관성은 민간 기업에서 더 작았다.

양성 교육 프로그램의 질에 대해서는 부정적으로 보는 시각이 70% 이상인 것으로 조사돼, 질적 수준의 제고가 데이터 사이언티스트 양성에 직결되는 과제인 것으로 드러났다. 교육 기관으로는 기업체의 자체적인 교육이 적절하다는 인식이 많지만, 다른 교육기관에 의한 교육도 대안으로 인식되고 있다.

데이터 사이언티스트에 대한 인식 조사 결과를 정리하면, 수요에 비해 공급이 부족한 상황이지만 대량의 수요가 존재하는 것은 아니고, 양질의 양성 교육 프로그램도 부족하며, 해외 수준의 대우를 받는 것은 기대하기 어려워 보인다.

현재 데이터 사이언티스트 양성을 위해서는 ▲단기적 수급불균형을 해소하기 위한 단계적 조치 ▲관련 석·박사 과정·수료자 또는 유관 실무 수행·경력자 대상 우선 전환 ▲교육 프로그램의 질적 고도화를 위한 전문성 확보 등이 필요한 것으로 조사됐다.

팽동현 기자 dhppp@itdaily.kr

다른기사 보기

상단영역

본문영역

[지상중계] 대한민국 데이터 사이언티스트의 길을 묻다

IT 업계의 유니콘 찾는 ‘데이터 사이언티스트의 현실과 미래’ 컨퍼런스

기사 댓글 0

비회원 로그인