[데이터사이언티스트를 찾아서] “데이터의 잡음 속 숨겨진 진실을 찾아라”

권재명 애플 시니어 데이터 사이언티스트

[컴퓨터월드] 데이터 분석 역량이 곧 국가 경쟁력으로 이어지는 시대가 도래했으나, 국내의 데이터 활용에 대한 인식과 반응은 여전히 뜨뜻미지근하다는 것이 관련업계의 중론이다. 빅데이터와 데이터 사이언티스트에 대한 관심은 이미 팽배한지 오래지만, 국내 SW(소프트웨어) 시장의 고질적 문제인 가치 평가가 제대로 이뤄지지 않는 점은 경기침체라는 현실적인 걸림돌과 맞물려 실질적인 투자를 저해하고 있다.

데이터 산업의 최선진국인 미국의 경우는 어떨까. 앞서가는 이의 현 위치를 파악하고 참고하면 우리의 돌파구 모색에 도움이 될 수도 있을 것이다. 현재 애플의 데이터 사이언티스트로 활동하고 있는 권재명 통계학 박사가 공유하는, 16년에 이르는 미국에서의 데이터 분석 경험과 그 속에서 우러나는 고견에 귀기울여본다.

주요 약력
- 서울대학교 계산통계학 학사 (1990-1994)
- 서울대학교 통계학 석사 (1994-1996)
- UC Berkeley 통계학 박사 (1996-2000)
- UC Berkeley ITS(Institute of Transportation Studies) 연구원 (2000-2004)
- California State University, East Bay 통계학과 조교수 (2004-2009)
- Data Science Manager at AOL Advertising (2009-2015)
- Senior Data Scientist at Apple (2015-)

미국의 애플 본사에서 시니어 데이터 사이언티스트로 근무 중인 권재명 통계학 박사는 어렸을 적부터 컴퓨터를 다루는 것을 즐겼다. 집안사정이 넉넉지 못했던 초등학생 시절에는 집 근처 가전제품 매장에 전시된 컴퓨터에서 종일 BASIC 언어를 다뤄보곤 했고, 중학생 시절에는 용돈을 모아 MSX를 구매해 프로그래밍을 독학하기도 했다. 이러한 관심은 서울대학교 계산통계학과 진학으로까지 이어졌다.

이 학과는 현 서울대 통계학과 및 컴퓨터공학과의 전신으로, 권재명 박사가 입학했던 1990년까지는 하나로 합쳐져 있었다. 당시 재학생의 약 80%가 전산학을 전공으로 택하던 상황에서, 정작 이 분야를 진로로 삼아왔던 그는 돌연 20%만이 택하던 통계학을 전공으로 결정했다. “학문적인 매력도 느꼈고, 선택하는 이가 적었기에 도전의식을 더 자극했던 것 같다. 이로 인해 데이터 분석을 업으로 삼기에 이르렀다”고 권 박사는 회고했다.

권재명 박사는 1996년 미국 UC버클리에서 통계학 박사과정을 밟으며 데이터 분석가로의 길을 본격적으로 걷기 시작했다. 유닉스 환경과 S플러스를 처음 접한 것도 이 시기로, 이는 그가 애용하는 분석도구인 공개SW R과의 인연으로 이어지게 된다.

특히 권 박사는 “당시 피터 빅켈(Peter Bickel) 교수와 프라빈 바라이야(Pravin Varaiya) 교수로부터 배웠던 이론통계지식, 열린 사고·리더십, 겸손 등의 가르침은 아직도 큰 도움이 되고 있다”고 덧붙였다.

이후 권재명 박사는 2000년부터 UC버클리 ITS연구소, 인터넷 서비스 기업 AOL 등을 거쳐 현재 애플에 이르기까지 16여년 동안 데이터 분석가로 활동해오고 있다. IT의 본고장인 미국에서 글로벌 대기업의 데이터 사이언티스트로 자리한 그로부터 들은 빅데이터와 데이터 사이언티스트에 대한 견해를 문답 형태로 정리했다.

빅데이터란 무엇인가.

실무적으로 빅데이터는 꽤 애매한 개념이라 여겨진다. 꼭 필요할 때 외에는 쓰는 것을 피하려는 용어 중 하나다. 굳이 정의하자면 ‘일반적인 컴퓨터 한 대로는 저장과 처리가 불가능한 자료’ 정도가 좋을 것 같다. 다양한 분야에서 이러한 대용량 데이터가 생성되고 있는데, 2000년대 중반 분산시스템 하둡(Hadoop)의 등장 및 발전에 따라 이를 본격적으로 다룰 수 있게 됐다.

또 AWS(아마존웹서비스)의 온디맨드 클러스터 지원도 큰 의미를 지닌다. 지난 2007년 뉴욕타임스는 1시간동안 100대의 컴퓨터를 이용해 수천만 개의 과거 신문기사를 PDF로 변환했는데, 4TB(테라바이트) 분량을 처리하는데 240달러밖에 들지 않았다.

이러한 오픈소스, 분산컴퓨팅, 온디맨드컴퓨팅 등의 발전이 빅데이터를 다룰 수 있게 해줬고, 개인적으로는 이를 통해 ‘자유’를 누릴 수 있다는 점에 그 의의를 두고 있다. HW적인 부분을 클라우드를 통해 수월하게 해결할 수 있게 됐고, 무료로 공개SW를 도입해 분산시스템을 활용할 수 있게 됐다. 누구나 빅데이터 플랫폼을 이전보다 훨씬 쉽고 싸게 쓸 수 있는 것이다.

미국에서는 빅데이터가 어떻게 받아들여지고 있나.

2015년 현재 미국에서 빅데이터는 일상화(commoditize)돼, 실리콘밸리에서는 다소 촌스럽게 들릴 정도다. 일상에서 전동드릴을 사거나 빌려 쓰고 있는데, 누군가 ‘전동드릴을 사용한 것’을 대단한 일처럼 이야기하면 우습게 보일 수도 있는 것과 마찬가지다.

가장 중요한 것은 ‘이 전동드릴을 사용해 어떤 재료(데이터)로 어떤 작품(서비스)을 만들어내는가’로, 이는 ‘우리에게 있어 어떤 중요한 문제를 풀어냈나’라는 질문으로 귀결된다.

또 ‘더 성능 좋고 쓰기 편한 전동드릴’을 만들어내는 것도 여전히 중요한 활동이다. 공개SW 커뮤니티에서는 실시간 스트리밍(streaming) 데이터 처리와 인메모리 분석 및 보다 쉬운 사용성 등에 초점을 맞추고 있다. 그 대표적인 예로는 아파치 스파크(Spark)를 들 수 있고, 현재 업무에도 활용중이다.

그간 주로 맡아왔던 데이터 분석 업무는.

캘리포니아주립대 이스트베이캠퍼스에서 조교수를 맡다가 지난 2009년 AOL에 입사, 올해 초까지 온라인 광고 데이터 분석을 담당해왔다. 산업 현장에 가면 더 크고 복잡한 데이터를 다뤄 더 흥미로운 문제를 풀 수 있으리라 여겼고, 조교수 월급만으로는 생활하기 어렵기도 했다.

마침 그 무렵이 하둡 생태계의 태동기였기에, 하루 수조 개의 광고 뷰·클릭 이벤트가 저장되는 수PB(페타바이트)의 데이터를 갖고 실컷 분석하고 개발해볼 수 있었다. 이 데이터로 했던 일은 크게 세 가지다.

먼저, 어떤 이들이 어떤 광고에 노출되고 클릭하며 구매로 이어지는지를 웹에서 살펴볼 수 있는 사내 시스템을 구축했다. 이는 광고주들에게 뜨거운 반응을 얻었고 판매와 마케팅에 많은 도움을 줬다.

아울러, 실시간 입찰(RTB)을 위한 클릭률 예측분석을 수행했다. 어떤 이가 어떤 곳의 어떤 광고를 얼마의 확률로 클릭할지를 수백 개의 변수로 몇 밀리세컨드(1000분의 1초) 내 예측하는 흥미로운 문제였다.

마지막으로, 사내 컨설팅 업무였다. 여러 타 부서에서 분석을 의뢰해왔고, 이를 해결해주는 팀을 운영했다. 이 같은 일들을 하는 동안 하둡 생태계는 어느덧 미국에서 산업 표준으로 자리 잡았다.

최근 애플로 자리를 옮기게 된 계기는 새로운 도전, 더 큰 임팩트를 갖고 싶어서다. 실리콘밸리의 많은 엔지니어들도 이러한 생각에서 3년 정도 지나면 이직하곤 한다.

공개SW 덕분에 전 세계 여러 기업들의 데이터 분석 역량은 어떤 면에서 거의 유사하다고 볼 수 있다. 애플이든 스타트업이든 같은 도구를 사용할 수 있기 때문이다. 이들 간에 차이가 있다면 ‘어떤 데이터를 보유했나’, ‘그 데이터로 어떤 흥미로운 일을 하는가’, ‘그 과정에 오픈소스 도구를 얼마나 잘 활용하나’ 등일 것이다.

데이터 사이언티스트는 어떤 사람인가.

통계학을 잘 알고, 컴퓨터도 잘 다루며, 이를 활용해 실무를 해결하는 사람이라고 본다. 실제 문제를 수리·통계적인 모형으로 이해·표현할 수 있고, 데이터를 바탕으로 풀어내가며, 결론에 실질적인 의미를 담아낼 수 있어야 한다. 미국기업의 데이터 사이언티스트 채용 인터뷰도 기본적인 통계 실력, 복잡한 데이터를 가공하는 능력, 현실적인 문제를 분석해 풀어내는 역량 등을 위주로 진행된다.

특히 영어 실력은 데이터 사이언티스트도 기본적으로 갖춰야 할 부분으로, 이는 한국에서 일하더라도 해당된다. 관련 분야의 유익한 내용들은 대체로 책보다는 웹상에 영어로 제공돼있고, 개인적으로도 그간 대부분의 문제를 구글에서 검색해 해결해왔다.

미국에서 데이터 사이언티스트로 활동하는 것을 꿈꾸는 학생이 있다면 ‘영어는 자신감’이라고 조언하고 싶다. 실력과 열정을 갖춘 이들이 미국에서 도전하는 것은 무척 고무적인 일이다.

미국 내 데이터 사이언티스트의 평균적인 연봉은 본봉 기준 약 12만 달러, 실리콘밸리 지역의 경우 13만 달러 정도로, SW엔지니어보다 조금 더 높은 수준으로 알려졌다. 물론 기업마다 차이가 존재하고, 보너스 지급도 다양하게 이뤄진다.

우리나라는 시장 규모가 비교적 제한돼있어, 데이터 사이언티스트 수요가 많은 미국에서만큼의 대우를 받기는 어려운 것 같다. 미국의 데이터 사이언티스트 중에는 중국인들도 상당수를 차지하기에, 영어 문제를 극복할 수 있다면 많은 한국의 우수한 인적 자원들도 미국에서 성공을 거둘 수 있을 것으로 기대한다.

데이터 사이언티스트가 되기 위해 필요한 역량은.

기본이 되는 영어 외에 여섯 가지를 꼽을 수 있다. 첫째는 탄탄한 통계학 실력이다. 통계학부 저학년 수준의 일반통계, 고학년 수준의 이론통계 및 선형모형(회귀·분산분석 포함) 등은 필수적이고, 범주형 데이터 분석을 위한 일반화 선형분석도 알아두면 좋다.

둘째는 데이터 분석을 위한 컴퓨팅 역량이다. 통계분석을 위해 R은 잘 다룰수록 ‘숨 쉬듯이’ 좋고, 데이터 준비와 처리를 위해 파이썬(Python)도 잘 다루면 좋다. 또 시스템을 다 알 필요까진 없지만, SW엔지니어링 역량은 많을수록 빠르게 데이터를 얻을 수 있다.

셋째는 현실적인 문제를 통계로 풀어내는 능력이다. 이 분야에 대한 많은 독서가 도움이 될 것이다. 스티븐 레빗(Steven Levitt) 교수가 공저한 ‘괴짜경제학(Freakonomics)’, 대니얼 카너먼(Daniel Kahneman) 교수가 쓴 ‘생각에 관한 생각(Thinking Fast and Slow)’ 등을 추천한다.

넷째는 SW를 배우려는 열정과 학습능력이다. 데이터 분석에 요구되는 도구와 환경은 계속 변하고 있어, 개인적으로도 R, 펄(Perl), SQL, 자바(Java), 파이썬, 스칼라(Scala) 등을 그때그때 익히고 활용해왔다.

다섯째는 커뮤니케이션 역량이다. 분석한 내용을 조리 있게 설명하고 글로 풀어쓸 수 있어야 한다.

여섯째는 열린 마음, 열린 자세, 겸손이다. 대개의 경우 데이터 사이언티스트는 다른 이들이 이미 짜놓은 판에 도우미로 참여하게 되며, 협업을 통해야 의미 있는 역할이다. 비밀스럽게 작업하는 이들을 가끔 보는데, 구글링하면 다 나오는 세상에 별 도움 되지 않는 자세다.

업무지식(Domain Knowledge)의 경우도 크게 중요치는 않고, 열정을 갖고 겸손히 임하면 빠른 시간 내 흡수할 수 있는 것들이 많다. 사실 준비하기도 힘든 것이, 어느 곳에서 무슨 일을 할지 어찌 알겠나. 폭넓은 독서로 주요 분야의 큰 흐름을 따라잡는 것을 대신 권하고 싶다.

그간 데이터를 다뤄오며 얻은 깨달음이 있다면.

개인적으로 좋아하는 대니얼 카너먼의 문구가 있는데, ‘성공 = 실력 + 운, 대단한 성공 = 조금 나은 실력 + 대단한 운’이 그것이다. 사람들은 큰 성공의 비결을 궁금해 하고 따라하고 싶어 하지만, 실망스러운 진실은 대부분 환경적·유전적 ‘운’이 중요한 인자라는 것이다.

그렇다면 성공에서 어디까지가 운이고, 어디까지가 실력일까? 이 같은 질문이 바로 통계적 질문이다. ‘괴짜경제학’에서도 ‘아이가 잘 자라는데 도움이 되는 부모의 활동은 어떤 것일까’라는 유사한 맥락의 질문이 등장하는데, 이는 다변량 회귀분석으로 풀이할 수 있다.

거창하게 이야기하자면, 데이터 분석은 ‘데이터를 활용해 진실에 이르고자 노력하는 것’이라고 생각한다. 일반적으로 접하게 되는 데이터에는 신호와 잡음이 섞여있는데, 데이터 사이언티스트는 어느 것이 잡음이고 어느 것이 참 신호인지 알아내고자 노력하는 사람이다.

그리고 데이터 분석을 위해서는 데이터와 충분히 시간을 보내는 것이 중요하다. 데이터가 생성된 배경과 맥락을 열심히 알아내야 하고, 주어진 데이터의 이모저모를 그림으로 그려서 살펴볼 필요도 있다.

이 탐험적 데이터 분석(EDA) 과정을 통해 예상치 못했던 문제나 기대치 않았던 패턴 등을 발견하는 경우가 많다. 그러므로 양질의 도표를 생성해내는 시각화 능력이 중요하다. 개인적으로는 ggplot2 패키지를 애용하고 있다.

이밖에, 현업에서 초보자들은 학교에서 배운 소위 ‘고상한’ 통계학을 적용하는 경우가 10~20% 정도밖에 되지 않는다는 점에 실망하기도 한다. 나머지 80~90%는 데이터를 얻어내고 가공하며 맥락을 파악하는 등의 작업을 하게 된다. 어쩔 수 없는 현실인데, ‘피할 수 없으면 즐겨라’라고 말하고 싶다. 익숙해지면 나름 재미있고, 속칭 ‘노가다’를 피하는 자동화 기술도 늘기 마련이다.

권재명 통계학 박사는 국내에서의 경험 부족을 이유로 이에 관한 견해를 밝히는 것을 사양했지만, 웹상에 양질의 전문적인 콘텐츠가 부족한 점에 대해서는 짚고 넘어갔다. “한국에서 발표할 일이 생겨서 관련 용어를 번역하려 했던 적이 있었는데, 이에 대해 권위 있는 내용을 찾기가 어려웠다. 게다가 막상 내용을 찾은 사이트도 웹표준을 따르지 않아 사용하기 힘들었다”며 아쉬움을 표했다.

“한국에 정기적으로 방문해 실리콘밸리 현업에서의 베스트 프랙티스와 사례 등을 지속적으로 공유하려 한다” 권재명 박사는 향후 계획을 묻는 질문에 이 같이 답하면서 “항상 처한 곳에서 최선을 다해 공헌하고 주변 사람들을 돕는 것에 힘을 쏟고자 한다”고 포부를 밝혔다. 데이터 사이언티스트를 꿈꾸는 이 땅의 많은 젊은이들이 권재명 박사와 함께 전 세계적으로 그 명성을 드높이는 날이 오기를 기대해본다.

상단영역

본문영역

[데이터사이언티스트를 찾아서] “데이터의 잡음 속 숨겨진 진실을 찾아라”

권재명 애플 시니어 데이터 사이언티스트

관련기사

기사 댓글 0

비회원 로그인