데이터 계의 유니콘, 데이터사이언티스트들이 이야기하는 현실과 미래 (3)

[아이티데일리] ‘빅데이터’ 바람이 날로 거세지는 오늘날, 데이터 분석을 위한 도구와 방법 및 활용방안에 대한 논의는 곳곳에서 앞 다퉈 이뤄지고 있다. 그러나 정작 이를 수행할 주체인 ‘데이터 사이언티스트’에 대해서는 널리 인식되지 못하고 있는 것이 작금의 현실이다. 주어가 없는 문장이 그 의미의 해석에 모호함을 불러오듯, 데이터 사이언티스트가 없는 빅데이터는 그 방향성을 잃고 표류할 우려가 상존하기 마련이다.

이 가운데 지난 8일 본지와 빅데이터전문가협의회가 공동 주최한 ‘데이터 사이언티스트의 현실과 미래’ 컨퍼런스에서는 데이터 사이언티스트에 대해 함께 생각을 나누고, 세계적인 흐름을 파악하며, 국내의 현 주소 및 향후 전망을 짚어보는 자리가 마련됐다. 데이터 분석이 새로운 성장동력으로 부상하는 시대에 요구되는 인재상은 무엇이며, 데이터 사이언티스트라 불리는 그 인재의 현실과 미래는 각각 어떤지, 이에 대해 다양한 분야의 데이터 사이언티스트들에게 직접 들어본다.

 

데이터 사이언스에서의 머신 러닝

▲ 이현봉 테라데이타 박사의 발표모습

일곱 번째 세션에는 이현봉 테라데이타 전산학 박사가 ‘기계 학습에서 시작한 사람이 생각하는 데이터 사이언스의 미래’를 주제로 연단에 올랐다. ‘머신 러닝(기계 학습)’은 경험을 통한 학습으로써 스스로 발전하는 시스템·알고리즘을 연구·개발하는 인공지능(AI) 분야 중 하나다.

머신러닝 전문가인 이현봉 박사는 “학문의 여러 가지는 많은 곳에서 겹치지만, 공학에서의 머신 러닝과 데이터 사이언스에서의 머신 러닝은 다른 면이 있다”며, “공학에서는 깊은 지식이 필요한 전문 운용시스템의 한 부분으로 결합돼 적용되는 경우가 일반적인데 반해, 데이터 사이언스에서는 그 반대에 가깝다”고 설명했다.

이어, 바다 속에서 수많은 신호 및 정보를 종합해 수학적 분석과 머신 러닝을 통해 색적하는 잠수함을 예로 들며 “이러한 확률을 높이기 위해 스페셜리스트(전문가)들이 사용하는 머신 러닝은 시스템적인 부분으로 후처리가 아닌데 비해, 데이터 사이언스에서는 주로 후처리 용도로 쓰인다”고 부연했다. 덜 전문적으로 사용된다는 뜻이다.

이와 함께 이현봉 박사는 “데이터 사이언티스트는 제너럴리스트인가”라는 질문을 던지며, “특정 분야에 고도로 훈련된 전문가 중 데이터를 이용하는 사람은 이미 존재하고, 머신 러닝을 비롯한 기존 인공지능 분야도 데이터 먼징(Munging)은 도사 수준”이라고 상기시켰다.

이에 대해 이 박사는 “빅데이터나 데이터 사이언스는 아직 불분명한 개념으로, 얕은 지식이나 허풍과 동일시될 수도 있다”고 지적하며, “기존 전문가들처럼 깊이 있는 전문 지식(Domain Knowledge)을 바탕으로 변화하는 데이터를 다뤄야 하므로, 데이터 사이언티스트의 관건은 학습 능력이 될 수 있다”고 밝혔다.

 

자연언어처리를 통한 텍스트 빅데이터

▲ 김정선 SKT 부장의 발표모습

여덟 번째 발표자인 김정선 SK텔레콤 빅데이터TF 부장은 ‘데이터 사이언티스트의 자질과 필요역량’을 주제로 강연에 나섰다. ‘자연언어처리(NLP)’를 통해 텍스트 빅데이터에 접근하는 과정에 대해 구체적인 사례를 들어 설명했다.

김정선 부장은 “자연언어처리는 컴퓨터를 통해 인간의 언어를 처리하고 이용하는 학문 분야”라고 정의, “텍스트 빅데이터는 자연언어처리부터 시작한다”고 밝혔다. “인간의 언어를 이해, 이를 바탕으로 각종 정보처리에 적용함으로써 빠르고 편리한 정보를 얻을 수 있다”는 게 김 부장의 설명이다.

이어, “정보검색, 기계번역, 자동통역, 문서작성, 문서요약, 문서분류, 음성인식 등 인간의 언어가 사용되는 실세계의 모든 영역이 자연언어처리를 응용할 수 있는 분야가 될 수 있다”며, “최근에는 과거보다 문법규칙이 단순화되고 사전이 대용량화 되는 등 환경이 변화하면서 실용수준의 자연언어처리 시스템이 개발 가능해졌다”고 덧붙였다.

또한 김정선 부장은 형태소 분석, 구문 분석, 의미 분석, 화용 분석 등 총 4단계의 자연언어 분석의 단계에 대해 소개했으며, 언어처리 엔진영역에서 글로벌 기업보다는 국내 기업이 경쟁력을 갖추고 있다고 주장했다. “자연언어 분석 중 형태소 분석은 언어에 따라 난이도 차이가 심하게 난다”며, “영어, 불어 등 태변동이 규격화돼 있는 언어와 달리, 한국어는 규격화돼 있지 않아 국내 기업에게 유리할 수밖에 없다”고 역설했다.

김정선 부장은 자연언어 분석의 난점에 대해서도 언급했다. 한국어의 경우 중의성으로 인해 형태소 분석이 쉽지 않다는 것이다. ‘감기는’을 예로 들며 “이 세 글자는 감기(명사)+는(조사), 감다(동사)+기는(조사), 감기는(동사+명사+조사) 등 세 가지로 분석이 가능한데, 이는 한국어만이 갖는 특징”이라며, “따라서 문법규칙 등을 통계적으로 표현해서 문맥적으로 파악하는 기술이 중요하다”고 말했다. 또 “자연언어문장이 형태소 분석 과정을 비롯한 구문 분석 과정 등에서 문맥적으로 제대로 파악되지 않으면 정확한 분석 결과를 얻을 수 없다”고 강조했다.

이밖에도 김정선 부장은 정형화된 텍스트 빅데이터를 분석하는 방식에 대해서도 소개했다. ‘청소년 자살문제에 대한 분석’을 예로 들며 “청소년 자살의 원인, 장소, 방법 등 청소년을 인식할 수 있는 키워드들의 빈출 여부를 코딩, 산출된 정형 데이터 포맷을 이용해 SPSS, SAS 등을 통한 빈도분석, 교차분석 등이 가능하다”고 설명했다.

 

빅데이터 아카데미

▲ 이정현 한국DB진흥원 실장의 발표모습

마지막 아홉 번째 세션은 이정현 한국데이터베이스진흥원 창의인재개발실장이 맡았다. 이정현 실장은 한국DB진흥원에서 DB 인력과 관련된 전반적인 부분을 총괄하고 있다.

이정현 실장은 “최근 국내 기업들을 상대로 실측 조사 결과, 빅데이터 전문 인력을 확보한 기업은 5.8%뿐이었다”며, “빅데이터 산업이 아직 명확하지 않아 수요에 대한 논란은 있지만, 국내에 데이터 관련 전문 인력이 부족한 것은 사실”이라고 강조했다.

이에 따라 한국DB진흥원에서 지난해 ‘빅데이터 아카데미’를 설립할 때 이정현 실장은 3가지 측면을 고민했다. 이 실장에 따르면, 먼저 ‘정부 차원의 양성이 옳은지’ 고민했는데, 많은 데이터가 창출되는 현 상황을 빠르게 활용하려면 정부가 나설 필요성이 있다고 여겼다. 다음으로 ‘왜 사이언티스트인가’ 고민했는데, 과학자적인 사고방식을 토대로 업무 지식(Domain Knowledge)과 기술 지식(Technical Knowledge)을 겸비해야 되기 때문으로 풀이했다. 마지막으로 ‘현실적인 양성 가능 범주’를 고민했는데, 교육을 통해 업무 지식 부분은 해결하기 쉽지 않지만 기술 지식 부분은 해결 가능하다고 결론지었다.

이정현 실장은 “현재는 현업에서 데이터 사이언티스트로 진입하는데 도움을 주는 쪽으로 콘셉트를 잡아, 데이터 관련 직무에서 3년 이상 근무한 경력자를 대상으로 하고 있다”며, “빅데이터 아카데미에서 기술 지식을 교육받고 현업에 복귀, 이를 바탕으로 다시 업무 지식을 넓혀갈 수도 있을 것”이라고 밝혔다.

빅데이터 아카데미는 기획, 처리, 분석, 시각화, 운영·관리의 5가지 직무모형으로 구성됐다. 이 실장은 “직무분석과 수요조사를 바탕으로 한 교과 구성부터 1인당 4대씩 서버를 쓸 수 있게 하는 등 환경적인 부분까지 마련했고, 이 가운데 실습용 데이터 확보가 가장 어려웠다”며, “교육을 마친 후 바로 현업에 활용할 수 있도록 지원하고 있다”고 설명했다. 또 “올해 선발된 인원들은 총 3개월 과정을 거쳤고, 평균 경력은 10년 이상”이라고 덧붙였다.

아울러 이정현 실장은 “데이터 사이언티스트가 아니라 제너럴리스트가 되지 않도록, 내년부터는 산업·직무별 맞춤형 전문가를 양성할 계획”이라며, “데이터 분석 문화 정착을 위해 우수 프로젝트 홍보 및 경영진 대상 교육도 지속적으로 실시하고 있다”고 말했다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지