공공 빅데이터 구축, 분석 및 해석 등 다양한 연구 수행

 

▲ 고려대 최종후 교수 / 고려대 빅데이터융합창의연구센터장 / 한국통계학회장(2010~2011)

 

[아이티데일리]  2012년 1월 다보스 포럼에서는 빅데이터 기술을 새로운 가능성을 여는 2012년 가장 중요한 기술로 지목한 바 있으며, 맥킨지 2011년 보고서에서도 의료/건강, 공공/행정, 개인정보, 유통/소매, 제조업 등 5개 분야에서 빅데이터 활용가치가 22.3조 달러에 달하고, 2018년 미국에서만 14~18만 명의 전문 인력과 150만 명의 데이터 관리 인력이 필요할 것으로 예측한 바 있다.

우리나라 역시 빅데이터 전문가를 국가 차원의 신직업 육성계획(2014. 3)에 포함시키는 등 민관 모든 분야에서 중요 분야로 관심이 높아지고 있다. 그럼에도 현재 빅데이터의 효과적인 적용 사례들은 부족한 상황이며, 오히려 빅데이터의 성공 사례로 인구에 회자되던 구글의 독감예보 등은 부정확성으로 인해 비판을 받고 있는 실정에 있다.

이러한 상황에서 ‘정부3.0 공공데이터 개방’은 빅데이터 활용이라는 관점에서 가장 구체적이고 시의적절한 방책이 될 수 있다. 이것이 구현 가능한 배경에는 우리나라도 2000년 이후 국가지식자산의 디지털화 추진으로 인하여 공공분야에 방대한 국가지식과 데이터의 축적이 되어있기 때문이다.

정부의 빅데이터(공공데이터)는 정책 의사결정의 기반이 되는 국가통계(Governmental statistics)의 원천이지만, 정제된 일부만이 국가통계포털(www.kosis.kr)을 통해 민간에게 공개되고 있다. 그러나 ‘정부3.0 공공데이터 개방’ 시책에 따라 이들 공공데이터들은 순차적으로 민간에 개방될 예정이다.

공공 빅데이터 구축, 분석 및 해석연구 수행

고려대학교 응용통계학과는 2차 BK21 사업(2006-2012)을 수주하여 ‘경제통계인력양성사업단’을 운영한 바 있으며, 이를 위해 국내 최초로 국가통계교육에 관한 커리큘럼을 개발하여 대학원 및 학부에서 교육해 왔다. 현재도 국내에서 유일하게 국가통계로 특성화된 학과이다. 또한 2006년 9월 12일, 동 사업의 효율적인 수행을 위하여 <통계청과 고려대학교 간의 국가통계 교육 발전을 위한 업무협력 약정서>를 체결한 바 있다.

빅데이터융합창의연구센터는 공공빅데이터 구축, 분석 및 해석과 관련된 연구 및 과제 수행을 목적으로 한다. 공공데이터는 국가통계의 관점에서 경제, 행정, 의료, 보건/복지, 사회 등 광범위한 분야를 포괄하므로 고려대학교 세종캠퍼스의 지리적 여건과 컴퓨터공학과와 응용통계학과 양 학과 교수의 연구역량을 고려할 때 정부의 공공데이터를 빅데이터의 대상으로 특정하여 연구를 수행하는 연구센터의 설립은 매우 시의적절한 것으로 판단된다.

연구센터는 빅데이터의 핵심 분야인 통계와 컴퓨터의 시너지 창출을 위하여 컴퓨터정보학과와 응용통계학과 교수 전원이 참여하여 빅데이터 관련 사전 연구와 교육을 수행하고, 궁극적으로 빅데이터 관련 대형 연구 과제 수주를 목적으로 한다.

빅데이터융합창의연구센터의 연구주제는 공공빅데이터의 활용에 초점을 맞추고 있다. 공공빅데이터의 활용은 공공빅데이터의 구축, 분석 및 해석으로 구분할 수 있다.

공공빅데이터의 특징 중 하나는 2000년부터 시작된 전자정부의 구현의 결과로 이미 많은 데이터베이스들이 구축되어있다는 것이다. 그러나 각각의 데이터베이스들은 구축만 되어있을 뿐 자료의 완결성이나 다른 데이터베이스와의 연동은 매우 부족한 상황이다. 그러므로 공공빅데이터의 구축은 데이터베이스 내 자료의 완결성 확보를 위한 기본 분석, 다른 데이터베이스와의 연동을 위한 재설계 등의 연구주제를 포함하게 된다.

공공 빅데이터 활용에 초점

공공빅데이터의 또 하나의 특징은 민간에 대한 개방과 보호가 동시에 이루어져야 한다는 것이다. 공공빅데이터의 민간기업에서 보유하고 있는 개인정보와는 비교할 수 없을 정도의 민감한 정보들을 포함하고 있으므로 개방과 보호를 위해 두 가지 방안을 고려할 수 있다. 첫 번째는 정보 보안이며, 두 번째는 정보의 충분한 정보를 부분 개방하는 방법이다. 따라서 두 분야 역시 연구의 주제가 된다.

빅데이터 전문가 양성의 가장 어려운 점은 분야별 전문지식의 습득에 많은 시간이 필요하다는 것이다. 따라서 빅데이터의 분석 및 해석은 개인이나 소규모 조직이 담당하기에는 무리가 따르게 된다. 따라서 빅데이터융합창의연구센터에서는 분석 및 해석을 위하여 전문분야 컨설팅 체계를 갖출 것이다. 컨설팅 체계는 학문분야 별 참여교수의 확대 및 이들의 융합이 핵심이며 이를 통하여 광범위한 국가통계의 영역을 포괄할 수 있다.

본 융합창의연구센터에서는 중이온 가속기와 같이 새로운 과학적 지식을 찾아내기 위한 공공, 경영 및 과학 빅데이터 연구분야를 포함한다.

연구목표는 다음과 같다.

  • 대학 연구센터로서 공공 빅데이터의 구축과 활용에 대한 전문성과 경쟁력 확보를 목표로 한다. - 국가통계의 광범위한 분야를 고려한다면, 공공빅데이터의 구축과 활용은 대학의 연구센터가 가장 경쟁력을 가질 수 있는 영역일 수 있다. 대학 연구센터에서는 의료/보건, 생명과학, 환경, 경제, 행정, 복지 등 다양한 분야의 공공데이터에 관한 분석과 해석이 가능하며, 관학연의 연계를 통해 다양한 연구과제 또는 융합형태의 연구과제를 수행할 수 있다. 따라서 관학연의 연계를 통한 연구과제 수주 역시 연구센터의 주요 목표가 된다.
     
  • 관학연의 연계를 통한 공공 빅데이터 관련 연구과제 수행은 세종특별자치시와 주변지역에 포진하게 될 정부기관 및 정부출연연구소가 대상이 된다. 연구결과는 국가의 정책개발, 지역발전에 기여할 것으로 예상되며, 이는 행정중심도시에 위치하게 될 본교의 역할 및 위상을 제고하는 역할을 할 것으로 기대된다.

소셜 빅데이터의 체계적인 연구

연구주제에 따라 연구내용은 데이터베이스 연동, 통계적 자료결합(statistical matching), 빅데이터의 보안과 공개를 위한 방법론, 빅데이터 분석(analytics) 등이다.

최근 국내 빅데이터 시장에서 가장 활발하게 부각되는 것은 소셜분석 서비스이다. 예를 들어, 사이람, 다음소프트, 그루터 등과 같은 소셜 분석 전문업체들은 소셜 빅데이터를 기반으로 마케팅 분석뿐만 아니라 사회정치적 현상까지도 분석하는 서비스를 적극 제공하고 있다. 특히 선거와 같은 정치적 여론시장의 분석 수요가 크게 늘어남에 따라 앞으로의 선거는 ‘빅데이터 선거’가 될 것이라는 전망까지 나오고 있다.

그런데 글로벌 기업들의 진출과 일부 소셜 분석 서비스의 두각으로 국내 빅데이터 시장이 서서히 성장하고 있지만, 빅데이터 시장을 주도할 만큼 양질의 전문 인력 및 연구역량을 체계적으로 확보하고 있지 못하다는 문제가 있다. 즉, 하둡(Hadoop), 카산드라(Cassandra) 등 빅데이터 분석 기술들을 활용하는 서비스들이 점차 늘어나고는 있으나, 그 데이터 결과를 제대로 읽고 해석하는 능력을 갖춘 국내 전문 인력은 여전히 부족하다는 것이다. 따라서 소셜 빅데이터 분석에 관한 체계적 연구를 진행하고자 한다.

공공 데이터베이스의 특성들은 기업의 데이터베이스에 비하여 상대적으로 자료의 완결성이 부족하고, 구조의 효율성이 떨어지는 경향이 있다. 또한 데이터베이스 구축을 주관하는 정부부처가 다르기 때문에 데이터베이스들 간의 연동이 이루어지지 않고 있어, 빅데이터인 것은 분명하지만 빅데이터의 가치를 충분히 발휘하지는 못하고 있다. 따라서 이러한 공공데이터베이스 들의 문제점들을 해소하기 위한 연구들을 진행할 것이다.

공공 데이터베이스에서 자료의 완결성 및 연동은 전산학적 관점 외에도 통계적 관점에서 매우 관심을 갖는 부분이다. 자료의 완결성을 갖추기 위해서는 자료 전체에 대한 기본 분석이 선행되어야 하며, 데이터베이스 간의 연동에 있어서도 데이터베이스의 구조적인 연동 이외에도 자료의 결합이 필요하게 된다. 그러므로 빅데이터에 대한 효과적 분석과 자료의 통계적 결합(statistical matching)은 주요 연구대상이 된다.


공공 빅데이터는 민간개방과 보안이라는 두 가지 과제를 함께 가지고 있다. 정보보안 외에 데이터의 부분 개방이라는 방법이 있다. 이는 통계학에서 전통적으로 사용해오던 표본추출(sampling)을 적용하는 것이다. 단, 과거와 다른 점은 데이터베이스를 모집단으로 표본을 추출한다는 점이며, 사람이 개입이 없다는 점. 매우 큰 크기의 표본을 작성한다는 점이다. 이는 정보의 손실을 최소화한 상태에서 데이터의 크기를 다운사이징 하는 것으로 매우 효율적인 방법으로 평가 받고 있다. 이에 대한 개선 연구들이 필요하다.

다양한 분야의 융합과 연구에 주력

국가통계 관점에서 공공 빅데이터의 분석과 활용은 다양한 분야의 전문지식을 필요로 하므로 자연과학과 사회과학 나아가 인문학을 아우르는 융합적 접근이 필요하다. 다양한 분야의 융합적 관점을 찾고 실제 연구를 진행하는 과정 자체가 중요한 연구과제가 된다.

연구센터의 운영은 연구과제 수주 활동, 전문성 확보를 위한 연구활동, 연구 진행 및 보조를 위한 전문컨설팅 체계 구축 등으로 구분할 수 있다. 또 전문성 확보를 위한 활동은 내부 세미나, 외부강사 초청 등을 실시한다.

연구진행이나 보조를 위하여 전문 컨설팅 체계를 구축한다. 전문 컨설팅 체계는 응용통계학과 대학원생, 학부생들로 분석 지원팀을 구성하고, 응용통계학과 교수의 지도와 타교, 관련학과 교수(서울대 통계학과, 고려대 안암캠퍼스 등)들의 자문지원으로 구성한다.

전문 컨설팅 체계는 컨설팅 서비스를 통하여 세종시 및 주변에 포진하게 될 정부기관이나 출연 연구소들과의 협력을 활발하게 할 수 있을 것으로 기대되며, 빅데이터융합창의연구센터의 홍보나 연구과제 수주 및 과업수행에 많은 도움이 될 것이다.

 

저작권자 © 아이티데일리 무단전재 및 재배포 금지