정우준 R-ihelp 대표

▲ 정우준 R-ihelp 대표

[컴퓨터월드] 빅데이터 시대, 전 산업군에서 데이터 분석을 통해 새로운 가치를 창출해보자는 움직임이 확산되고 있다. 이러한 ‘붐’에 따라 소위 ‘데이터 사이언티스트의 언어’, R이 주목받고 있다.

R은 통계에 최적화된 프로그래밍 언어이자, 무료소프트웨어재단(Free Software Foundation)의 오픈소스 프로젝트인 GNU 프로젝트의 한 분야다. R은 그간 대학 연구소를 중심으로 다양한 학문 분야를 아울러 통계 분석을 위한 수단으로 활용돼 왔다. 그러다 최근 2~3년 새 R은 ‘빅 트렌드’인 빅데이터와 맞물려 인지도가 ‘껑충’ 올라갔다. 데이터가 미래 산업을 이끄는 ‘원유’로 간주됨에 따라, 그 ‘원유’를 보다 정밀하게 활용할 수 있는 수단으로써 R이 주목받게 된 것.

그런데, 국내에서 이미 10년 전부터 R이라는 한 우물을 ‘파고’ 있는 인물이 있다. GNU 코리아 멤버이자 R 프로젝트의 한국 대표인 정우준 R-ihelp 대표가 그다. 정 대표는 분석 방법론 구현에 대한 대학 수업을 통해 R을 처음 만났고, R이 보유한 방대한 라이브러리에 심취했다. 그러다 R로 얻은 만큼 R에 기여해야겠다고 생각하게 됐다고. 이에 R 한글화 작업에 착수하게 됐고, 현재 국내 R 생태계를 앞장서 이끌어 나가고 있다. 정 대표를 만나봤다.

 

10년 간 R에 몰두해왔다. 특별히 R에 집중하게 된 이유가 있나.

처음에는 그냥 재미로 시작했다. 원래 분석 방법론에 관심이 많았다. 그러다 R로 데이터 분석 방법론을 실제 구현하는 수업을 듣게 됐다. 그 때 R을 들여다보니까 좋은 소스가 ‘되게 많은’ 거다. 이걸 공부하면 되겠다 싶었다. 특히 학생 입장에서, 고가의 라이선스 비용을 지불해야 하는 데이터 분석 툴 SAS, SPSS 등과 달리 R은 ‘공짜’였던 게 컸다.

그렇게 R을 사용하기 시작했고, 그러다 R로 얻은 만큼 R에 기여해야겠다고 생각했다. 딱 그 정도 수준이었다. GNU 프로젝트라는 게 그렇다. 보수를 받는 게 아니라서 누구나 자유롭게 기여할 수 있다. 처음에 매뉴얼 한글화부터 시작했고, 2008년 즈음에는 뜻이 맞는 사람들과 한글화 팀을 구성했다. 지금도 매뉴얼뿐 아니라 시스템까지 R 전반에 걸친 한글화를 진행 중이다. 현재 워킹 멤버는 13명이다.

최근 R에 대한 관심이 급증하고 있다. 그간 R 프로젝트에 참여해왔던 한국 대표로서, 새삼스럽기도 하고 보람도 있을 것 같다.

보람보다는 당황스럽다. 수익이나 사업적 측면으로 R에 접근했던 게 아니었으니까.

R 한국 대표로 불리게 된 계기는 있다. 자발적으로 R 한글화 작업을 진행하다보니 한글화 팀을 이끌게 됐는데, 그 과정에서 R 재단과 자주 연락을 취하게 됐고 R 한글화 팀이 있다는 사실을 R 재단이 알게 됐다.

전 세계에 R 사용자 그룹은 다 있다. 그 중 누구라도 R 재단에 연락할 수 있다. 그러면 R 재단은 그 사람이 R 프로젝트에 그간 어떻게 참여했고 어떤 기여를 해왔는지 알게 마련이다. 지속해서 기여를 해 온 사람은 R 생태계 내에서 입지에 무게가 생긴다. 그런 경과로 한국 대표로 움직이게 된 것이지, R 재단에서 임명을 했거나 그런 건 아니다.

사실 대표라는 게 별거 없다. 팀이 있으면 그 팀의 장기적 로드맵이나 진행과정을 파악하고, 새로운 참여자에게 그간 하고 있던 것들을 안내하고. 그런 역할을 수행할 리더는 있어야 하니까. 그걸 맡고 있는 거라, 대표라는 말이 어색하다.

매뉴얼·시스템 한글화 외에는 R 프로젝트와 관련해 어떤 활동을 해 왔나.

기술 교육 세미나를 진행하거나, 무상교육을 진행했다. R 프로젝트와 관련해 페이스북 그룹, 카페 등을 운영하고 있는데. 그 쪽에서 R에 대해 질문해오거나 교육 요청이 들어올 때가 있다. 그럴 때 R 강의를 진행했다. 먹고 살기 위해 퇴근 후 평일 밤에 고정된 시간을 할애하고 싶어하는 직장인들이나, 미래에 먹고 살 길을 찾는 학생들에게 무료로 강의를 해 줬다.

그간 업계에서는 R을 어떻게 쓰면 좋겠다고 소문은 많았지만 실체가 없었다. 제대로 교육이 이뤄지는 상황이 아니었다. 현재 R 전문가들은 대부분 인터넷을 통해 혼자 공부했다. 나도 그런 과정을 겪었다. 매우 힘들었다. 지금도 R 활용이란 게 개발인지, 분석인지 이런 부분도 헷갈려하는 분들이 많다. 그런 사람들은 혼자 학습하기가 어렵다. 그래서 소문을 듣고 물어오는(도움을 요청하는) 사람들에게 무상으로 강의를 해 줬다.

물론 기업체에서 요청이 들어오면 돈을 ‘왕창’ 부른다(웃음). 기업은 R을 상업적으로 쓰려는 거니까. 너무 ‘왕창’ 불렀기 때문인지 강의가 성사된 적은 없지만, 몇 번의 요청이 들어오기는 했다.

무상교육은 정기적으로 진행하나. 어떤 내용인가.

2~3년간 거의 매주 진행했다. 페이스북 그룹에 가입하고, 오프라인 모임에 나오면 참여할 수 있다. 스터디 그룹 형태다.

소스가 많다는 것은 R의 강점이지만, 초심자 입장에서는 진입 장벽이 되기도 한다. 인터넷에 있는 R의 정보는 너무 방대한데다, 출처가 명확하지 않거나 확신할 수 없는 내용도 있다. 초심자들이 그런 오류를 걸러내고 R에 진입할 방법을 터득할 수 있도록 하는 게 강의의 목적이다.

지금 스터디 그룹은 15~20명 정도의 인원으로 구성돼 있다. 학생이 1/3, 직장인이 2/3 정도인데 분야가 다양하다. IT 회사에서 기획을 담당하는 분도 있고, 디자인을 담당하는 분도 있다. 학생의 경우 언어학을 전공하는 학생도 있다. R은 프로그래밍 언어지만, 개발자들의 언어가 아닌 데이터 분석가들의 언어다. 데이터 분석은 어느 분야에서나 필요하다. 따라서 다양한 산업군과 연구 분야에서 R을 익히고 활용하려고 움직이고 있다.

빅데이터 ‘붐’ 속에서 R은 어떠한 역할을 담당하고 있는가.

미국에서 데이터 분석가들을 대상으로 사용하는 프로그래밍 언어가 무엇인지 복수 응답을 받은 설문조사를 본 적이 있다. 그에 따르면 R을 사용하는 데이터 분석가들의 비중은 전체의 80%에 가깝다.

R의 가장 큰 장점은 통계 라이브러리가 많다는 점이다. 이 점은 다른 언어가 따라갈 수 없다. 또한 R의 라이브러리가 구현하는 알고리즘의 정확도는 논외거리다. 전 세계 대학 연구의 최전방에서 검증이 된 내용이기 때문이다.

R이 GNU 프로젝트에 포함된다는 점은 많은 의미를 가진다. 완전히 공개됨으로써, R은 전 세계 R 사용자 그룹으로부터 신뢰성을 검증받으며 지속해서 개선될 수 있었다. 기획자들은 R을 활용함으로써 직접 알고리즘을 짤 필요 없이 검증된 알고리즘으로 분석 방법론을 구현할 수 있다.

그렇다고 R만으로 빅데이터 시스템을 개발할 수 있느냐 하면, 그런 건 아니다. 통계 연산과 수리 연산은 다른데, R은 통계에 최적화돼 있기 때문에 수리 연산에 약하다. 그리고 R은 분석 정확도를 위해 속도를 희생한 언어이기도 하다. 따라서 R은 시스템을 직접 개발하는 데 활용되기 보다는 데이터마이닝을 하거나, 머신러닝(Machine Learning)으로 알고리즘을 구현하는 데 쓰인다.

실제 빅데이터 시스템 개발 과정에서, 기획자들은 분석 방법론을 테스트하는 데는 R을 활용하고, 실제 시스템 개발에는 C나 자바 등 속도가 빠른 언어를 사용하는 경우가 많다. 물론 최근에는 R을 개발 자체에 활용하기 좋도록 개선하는 노력도 이루어지고 있지만, R 전문가들도 R 하나만으로 모든 것을 해내지는 않는다.

즉 R은 성공적인 데이터 분석을 실현하기 위한 선택대안 중 하나이며, 개발자보다는 데이터 사이언티스트가 선택하는 언어라고 볼 수 있다.

▲ “R은 데이터 사이언티스트들이 선택하는 언어로, 데이터 분석 시장과 같이 성장할 것이다”

학교나 기업에서 R을 통해 얻을 수 있는 이점이 있다면.

R은 무료로 사용할 수 있다. 이에 따른 경제적 효과는 매우 크다. 데이터 분석 툴로 널리 사용되고 있는 SAS, SPSS는 몇 천만원 대의 라이선스 비용이 발생한다. 하지만 R은 라이선스 비용이 없다. 데이터 분석 컨설팅을 제공하는 업체도, 제공받는 기업 사용자들 모두가 R을 도구로 활용한다면 비용을 크게 절감할 수 있다.

아울러 사용자는 R을 활용함으로써 연구 개발에 자유도를 크게 높일 수 있다. 상용 툴의 경우 함수를 하나 추가하면 별도의 라이선스 비용이 발생한다. 고급 분석에 필요한 함수는 상용 툴의 베이직 버전에 포함되지 않는다. 즉 상용 툴을 사용할 경우 예산에 따라 분석에 활용할 알고리즘이 한정되거나, 부득이하게 비싼 비용을 들여야 한다는 이야기다. 하지만 R은 오픈소스이기 때문에 모든 함수가 공개돼 있다. 제약이 없다.

나아가 시장 전체적으로 봤을 때, 기업이 R을 도구로 활용해 데이터 분석을 시행한다면 그 데이터 분석의 결과로 서비스를 제공받는 소비자들까지 보다 저렴한 가격에 보다 고급의 서비스를 제공받을 수 있게 된다.

그렇다면 향후 데이터 분석 시장에서 R이 상용 데이터 분석 툴을 완전히 대체하게 될 수도 있나.

그건 아니라 본다. R은 프로그래밍 언어고, SAS, SPSS는 툴이다. 속성이 다르다 보니 이른바 ‘라이벌’ 구도가 성립이 안 된다.

처음 R이 주목받았을 당시 기존 데이터 분석 시장에서 R을 경계하는 움직임이 있기는 했다. 하지만 R이 배척의 대상이 될 단계는 지났다. R은 비용 절감 효과, 연구에서의 필요성 때문에 데이터 분석 시장에서 받아들여지는 추세다. 거기다 R은 언어다 보니 향후 SAS, SPSS가 R의 저력을 흡수해 같이 성장하는 방향으로 움직이게 될 거라 본다. R은 시장 판도를 바꾸는 게 아니라, 시장과 같이 성장할 것이다.

마지막으로, 올해에는 어떤 행보를 준비하고 있는가.

이제까지처럼 매뉴얼·시스템 한글화 작업을 진행할 것이고. 기존에 진행했던 공개 세미나보다 확장된 규모의 컨퍼런스를 계획하고 있다. 전 세계에서 R 프로젝트에 참여해왔던 전문가들을 초빙할 계획이고 이미 구체화됐다. 이로써 전 세계 R 사용자 그룹의 소식을 국내에 전할 계획이다.

아울러 R과 관련된 정기 간행물을 구상하고 있다. R에 대해 공신력 있는 정보를 제공하는 창구를 마련하려 한다. 이는 그간 R 프로젝트에 꾸준히 기여해 온 사람들과 함께할 생각이다.

 

저작권자 © 아이티데일리 무단전재 및 재배포 금지