한국데이터마이닝학회 김성범 회장 / 고려대학교 인공지능공학연구소 소장
[아이티데일리] 생성형 AI가 예상을 뛰어넘어 훨씬 빠르게 확산하고 있다. 이에 따라 전 산업계는 물론 관련 기업들도 초비상이다. 즉 AI 업계를 비롯해 클라우드, 빅데이터 산업계는 생성형 AI에서 새로운 비즈니스 활로를 찾고자 분주하게 움직이고 있다. 정부도 올해 데이터를 중추로 하는 생성형 AI를 국내 산업계에서 활용할 수 있도록 지원 사업을 펼치며 확산의 마중물 역할을 자처하고 있다.
생성형 AI는 학습된 데이터를 토대로 결과물을 생성하는 모델이다. 이를 도입하고 활용하기 위해선 데이터의 수집과 저장, 모델 학습을 하나의 프로세스로 체계화하는 등 많은 노력이 필요하다. 이 같은 상황에서 학계가 바라보는 시각은 또 다를 수 있다. 즉 개념에서부터 논리적이고, 합리적인 이론을 바탕으로 미래를 이끌어갈 학생들을 어떻게 가르쳐야만 할지에 대한 고민이 그 어느 때보다 남다를 것으로 판단된다. 그만큼 생성형 AI가 지금까지의 디지털화를, 마치 블랙홀처럼 빨아들이고 있기 때문이다.
관련 산업은 더더욱 다급하다. 막강한 자금력과 조직력을 갖춘 일부 대기업은 이미 어느 정도 준비가 돼 있어 발 빠르게 대응하고 있지만 그렇지 않은 기업, 특히 중소기업들은 그럴만한 여력이 없다. 아무튼 생성형 AI가 미래 시장을 어떻게, 어디까지 변화시킬지 쉽게 가늠하기가 어려운 상황이다.
본지는 이에 따라 학생들을 가르치는 교수이자 산학 활동 및 연구 프로젝트까지 수행하며 다양한 경험과 폭넓은 시각으로 미래 시장을 정확하게 내다본다고 평가받고 있는 고려대학교 산업경영공학과 김성범 교수와의 인터뷰를 통해 미래의 빅데이터와 AI 산업, 그리고 나아갈 방향 등에 대해 제시해 본다.
김성범 교수는 현재 고려대학교 인공지능공학연구소 소장과 한국데이터마이닝학회 회장을 맡고 있다. 그는 또 고려대학교 기업산학연협력센터 센터장(2020년~2022년)도 역임하면서 산학협력을 통한 지역 및 산업 문제 해결에 노력했는가 하면, 한화시스템(주)과는 공동으로 인간중심인공지능연구소를 설립해 실제 산업 현장 문제 해결과 사회 가치 창출을 위한 인공지능 연구를 총괄했다고 한다.
생성형 AI, 선택이 아닌 필수
- 생성형 AI가 예상보다 훨씬 빠르게 확산하고 있다. 앞으로 시장 및 산업이 어떻게 변화되고, 산업계는 어떻게 대응하는 게 좋다고 보는가.
“생성성 AI는 정보 획득 방식을 획기적으로 변화시켰다고 본다. 검색엔진을 통한 정보 검색은 우리가 원하는 답이 있을 만한 자료를 제공해주는 데 그친다. 반면, 생성형 AI는 원하는 답을 바로 제공해주는 방식이다. 예를 들어, 스타트업 기업이 투자받기 위한 전략에 대해 궁금할 때, 과거에는 시행착오를 통해 직접 겪거나, 수십 권의 책을 읽거나, 정보를 수집하는 부서에서 수일에 걸쳐 조사하고 리포트를 작성하는 등의 번거로운 절차가 필요했다. 하지만 이제는 생성형 AI를 통해 1~2시간 만에 이를 해결할 수 있다. 기업에서 유용한 정보를 적시에 확보하는 일이 매우 중요한 만큼 생성형 AI 활용은 이제 선택이 아니라 필수라고 생각한다.”
- 교수님은 한화시스템과 공동으로 인간중심인공지능연구소를 설립해 산업 현장에서의 문제 및 해결, 그리고 사회 가치 창출을 위한 인공지능 연구 총괄도 맡은 바 있다. 생성형 AI 시대에 산업 현장에서의 문제점 및 해결 과제라면.
“기업들은 AI시대를 맞아 이를 잘 활용하기 위해 고민을 많이 하고 있다. 제가 산업체 일선 현장에 있지 않기 때문에 현장의 문제점에 대해 왈가왈부하는 것은 적절하지 않다. 다만 산학 연구를 하면서 느낀 점은 대기업의 경우 조직이 너무 자주 바뀐다는 것을 알았다. 하지만 인공지능 연구는 1~2년 만에 뚜렷한 성과가 나오지 않는 경우가 많다. 그럴 때마다 팀이 해체되거나, 팀장이 다른 부서로 옮긴다면 연속성도 떨어지고, 성과도 잘 나오지 않는다. 또한 데이터를 수집하는 부서와 분석하는 부서가 다른 경우도 많다. 데이터를 수집하는 부서는 추후 분석을 고려해 데이터를 수집하지 않기 때문에 데이터 전처리 과정에 불필요하게 많은 시간이 소요될 수 있다. 데이터는 추후 진행될 데이터 분석을 고려해 수집하는 게 훨씬 더 효율적이다.”
우리나라 AI 기술, 세계 3위
- 흔히 인공지능은 큰 틀에서 머신러닝, 딥러닝, 빅데이터, BI 등을 다 포함하고 있는데, 상호 어떤 연계성 및 생성형 AI와는 어떻게 다른가.
“인공지능은 매우 포괄적인 용어로 쓰이고 있다. 머신러닝은 데이터를 활용해 실제 모델을 학습시키는 방법론이고, 딥러닝은 머신러닝 방법론 중 하나이다. 특히 딥뉴럴네트워크 계열의 머신러닝 모델을 딥러닝이라고 부른다. 빅데이터는 특정 기술이라기보다 대용량의 데이터를 이용해 정보를 추출해 내는 일련의 모든 활동을 일컫는다. 이를 비즈니스 이윤에 활용하는 것을 BI(Business Intelligence)라고 보면 된다. 생성형 AI는 딥러닝 기술을 이용해 자연어 형태의 질문에 답을 생성하는 기술로, 텍스트뿐만 아니라 그림, 음악, 게임 등 다양한 콘텐츠를 생성하고 있다.”
- 우리나라 기술 수준은 어디까지 와 있고, 미국 등의 선진 외국과 비교한다면.
“학계에서는 우리나라 AI 기술 수준이 세계적으로 크게 뒤처져 있다고 보지 않는다. AI 주요 콘퍼런스(ICLR, CVPR, NuerlPS, ICML, ICCV 등)에서 국내 대학교와 네이버, 카카오 등 우리나라 기업에서 발표하는 논문 수가 매해 가파르게 증가하고 있다. 또한 국제적으로 유명한 연구진들도 많이 활동하고 있다. 그런데도 미국 주도의 IT 기술은 단시간 내에 따라잡기는 어려울 것으로 본다. 중요한 것은 선진국들이 개발한 AI 기술에 종속되지 않도록 해야 한다. 어렵고 시간이 걸리더라도 꾸준히 개발해야 한다. 지금 우리나라가 고생하고 있는 소부장(소재, 부품, 장비)의 실수를 되풀이해서는 안 될 것이다. 얼마 전 소부장 분야 일본 수출 규제로 어려움을 겪었던 적도 있다. 그런데도 최근 “일본 수출 규제 3년 ‘소부장’ 자립 성과 있었다”라는 자화자찬의 기사를 보았을 때 실소를 금치 못했고, 또 한 번 치욕적인 역사가 되풀이되겠구나? 라는 생각이 들었다.”
- 4차 산업혁명이든 생성형 AI든 기본은 데이터에 있다고 본다. 그렇다면 얼마나 정확한 데이터를 얼마나 많이 확보하고 있느냐가 가장 큰 관건이라고 본다. 우리나라는 어떤가.
“AI 학습용 데이터 구축이라는 목적을 갖고 우리나라도 여러 가지 사업들이 많았고, 지금도 진행되는 것으로 알고 있다. AI 데이터는 전자형태로 된 모든 정보를 포함한다. 이렇게만 보면 데이터의 양 자체는 부족하다고 말할 수 없다. 관건은 AI 학습에 필요한 양질의 데이터인데 이는 아직 부족한 실정이다. 과거에는 무조건 데이터를 쌓는 데만 집중했다면, 이제는 적은 양이라도 양질의 데이터를 확보하는 데 노력해야 하는 시점이다. OpenAI, Google 등 세계적인 기업에서도 양질의 데이터를 확보하는 데 많은 노력과 자금을 투입하고 있다.”
성공의 관건은 ‘양질의 데이터 확보’
김성범 교수는 미국 조지아공과대학교에서 빅데이터 알고리즘 분야로 석사와 박사학위를 취득했고, 미국 에모리대학교 의과대학에서 바이오 빅데이터 분야로 박사 후 연구원을 역임했으며, 이후 텍사스주립대학(알링턴)에서 4년간 교수로 재직했다.
그는 ‘빅데이터’와 ‘빅데이터 알고리즘’에 대해 본질적으로 차이가 없다고 했다. 다만 ‘빅데이터’라는 용어는 많은 양의 데이터라는 의미뿐 아니라 이를 분석해 유용한 지식을 추출하는 모든 과정을 포함하고 있고, ‘빅데이터 알고리즘’은 데이터를 분석하는 구체적인 절차를 의미한다고 설명했다. 인공지능과 관련된 많은 용어들이 범람하고 있지만 이는 대부분 마케팅 용도로 탄생했을 뿐 본질적인 차이는 없다고 설명했다.
김성범 교수는 80여 건의 빅데이터 분야 국가 및 산업체 프로젝트 수행을 통해 현장의 요구를 잘 파악하고 있고, 이를 해결할 수 있는 다양한 방법론을 보유하고 있는 것으로 알려졌다.
- 주로 어떤 것들인가.
“주로 진행한 프로젝트는 제조업체와 장비업체에서 생성되는 데이터를 분석하는 내용이었다. 제품을 생산하기 위해서는 여러 공정과 장비를 거치게 되는데, 이 과정에서 대용량의 데이터가 생성된다. 예를 들어 반도체를 생산하기 위해서는 여러 장비를 거치게 되고, 장비의 상태가 반도체의 품질을 결정하기 때문에 이를 실시간으로 파악하는 것이 중요하다. 불량 장비에서 불량 제품이 나올 가능성이 크기 때문이다. 데이터를 통해 장비가 고장 나는 시점을 사전에 예측해 고장을 방지할 수 있다. 또한 장비들의 상태 정보를 이용해 앞으로 생산될 제품의 불량 여부도 예측할 수 있다. 이외에도 제조 데이터를 활용해 다양한 문제를 해결할 수 있다.”
- 생성형 AI를 통한 답변에 대한 신뢰도는 어느 정도라고 보는가.
“생성형 AI가 아직 완벽하지 않기 때문에 주의해야 한다. 먼저 우리가 ChatGPT에 질문하는 것은 OpenAI 데이터베이스에 저장되어 학습에 사용될 수 있으므로 보안에 주의해야 한다. 아울러 생성형 AI가 생성한 답변에 대해서도 무조건 믿어서는 안 된다. 잘못된 정보를 그럴싸하게 답변하기 때문이다. 또한 생성형 AI 분야는 미국의 의존성을 줄이기 위해 국내 한글 생성형 AI 연구를 보다 적극적으로 추진해야 한다고 생각한다. 지금 편하다고 다른 나라 기술만을 사용한다면, 이는 결국 부메랑이 되어 우리에게 치명타를 줄 수 있다.”
한글 생성형 AI 연구, 적극 추진 필요
- 생성형 AI가 향후 우리 사회에 끼칠 영향과 국내 지능정보 산업의 미래 전망이라면.
“생성형 AI는 이제 우리 일상에 자연스럽게 자리 잡을 것이다. 생성형 AI 사용이 다른 IT 기술에 비해 쉽다. 때문에 많은 사람들이 사용할 것이고 그렇게 되면 기본적인 정보의 불균형도 점차 사라질 것으로 기대한다. 또한 글쓰기, 그림, 작곡, 게임 등의 분야에서도 생성형 AI와의 협업을 통해 보다 다양하고 창의적인 작품이 나올 것으로 기대하고 있다. 이젠 주어진 문제에 대해 단순히 정보를 활용하여 문제를 해결하는 능력보다는, 복잡한 현실 문제를 잘 이해하고 이를 인공지능으로 해결할 수 있는 문제로 재정의하는 능력이 중요한 시대가 올 것이다.”
- 데이터를 비즈니스에 활용하기 위해서는 무엇을 어떻게 해야만 하는가.
“우리나라 대기업에서는 자체 AI 조직을 운영하고 있다. 몇몇 IT 기업들은 세계적인 기업들과 비교해도 손색이 없을 정도의 인프라도 구축하고 있다. 다만 이런 환경을 갖춘 기업들이 대기업에 국한돼 있다는 게 아쉽다. 많은 중소기업들은 아직 AI를 어떻게 적용해야 할지 막막한 상황이다. 먼저 경영진이 AI의 필요성에 대해 깨닫는 것이 중요하다. AI는 하루아침에 성과가 나오는 분야가 아니므로 인내심을 갖고 작은 프로젝트부터 차근차근 진행하여 성공 사례를 늘려가는 것이 바람직하다.”
- 더 중요한 것은 빅데이터를 어떻게 활용해 생산성이나 효율성을 높이느냐일 것이다. 제대로 활용하기 위해서는 무엇을 어떻게 해야만 한다고 보는가.
“현재 국내 많은 기업들이 전자형태의 빅데이터를 확보했다. 문제는 데이터의 양보다는 질이다. 즉 양질의 데이터를 수집하기 위해 노력해야 한다. 양질의 데이터는 정확성과 일관성이 있는 데이터를 의미한다. 또한 데이터 분석 전문가를 확보해야 한다. 제가 최근 국내 의류제조업체와 빅데이터 프로젝트를 진행한 적이 있었는데, 놀랍게도 그 회사에는 데이터 분석 전문가가 한 명도 없었다. 이런 경우 프로젝트가 끝나면 흐지부지될 가능성이 크다. 빅데이터를 회사에 도입하고 싶으면서도 데이터 분석 전문가 영입에 노력하고 있지 않다는 점이 놀라웠다.”
데이터 분석 전문가 확보도 중요
- 빅데이터 활용과 관련, 전 세계적인 트렌드 및 방향이라면.
“세계적으로 빅데이터 관련 연구는 미국, 중국, 캐나다, 영국 등이 주도하고 있다. 우리나라를 비롯하여 이스라엘, 싱가포르, 독일 등이 선두권을 유지하고 있다. 현재 트렌드는 아무래도 생성형 AI가 주를 이루고 있다. ChatGPT로 대표되는 Open AI가 이끌고 있는 비공개형 거대언어모델과 Llama로 대표되는 Meta가 이끌고 있는 공개형 거대언어모델이 주목받고 있다. 아울러, 디퓨전 모델로 대표되는 이미지 생성 모델도 활발히 연구되고 있다. 앞으로는 적은 양의 학습데이터로 다양한 분야에 적용할 수 있는 범용적인 AI 모델 연구가 더욱 확대될 것으로 예상한다. 궁극적으로는 주어진 특정 문제만을 잘 해결하는 것을 넘어 스스로 문제를 정의할 수 있는 AI에 대한 연구가 행해질 것으로 예상한다.”
- 빅데이터 시대에 우리나라는 개인정보보호법 등으로 제대로 활용하기가 쉽지 않다고 한다.
“우리나라는 본인이 소유한 것에 대해 지나치게 집착하는 경향이 있다. 다시 말해 개인이나 회사가 보유한 정보를 남들과 공유하는 것을 꺼리는 경향이 있다. 개인정보나 회사기밀이라고 하는 상당 부분은 과도하게 포장되는 경우가 많다. 이러한 정보들이 무분별하게 유출되는 것은 조심해야겠지만 이들이 적절하게 활용되었을 때 얻는 더 큰 이익을 고려해야 한다. 못하게 하는 규제법은 음지를 낳게 되고 이를 막기 위해 또 다른 법이 필요하므로 한계가 있다. 톱 시크릿이라고 불릴만한 정보 외에는 차라리 모두 공개하는 것이 좋다고 본다. 저는 시험 보기 전 학생들에게 과거 시험 문제를 모두 공개한다. 그렇게 하면 제 과목에는 소위 말하는 시험 족보를 찾으려고 시간을 낭비하지 않아도 되고, 정보 불균형 문제도 자연스럽게 해소될 수 있다.”
- 정부는 4차산업혁명위원회, 디지털플랫폼정부위원회를 별도 설립해 SW 및 ICT 산업 발전을 위해 많이 노력하고 있지만 성과는 미미했고, 또한 그렇게 예상된다. 어떻게 해야만 실질적인 성과를 낼 수 있다고 보는가.
“정부가 많이 노력하고 있는 점 인정한다. 위원회를 통한 정책 활동은 필요하지만, 해당 위원회가 올바른 정책을 제시하고 있는지는 또 다른 문제이다. 위원들은 개별적으로 정말 대단한 분들이다. 대기업 사장님, IT 기업 대표, AI 연구소장, 스타급 교수들이다. 그러나 메시나 호날두만 있다고 그 축구팀이 잘하는 것은 결코 아니다. 우리나라 기업 AI 연구소장 급 인재들은 이곳저곳 불려 다니며 강연하고 사람 만나러 다니는 게 주 업무인 경우가 많다. 특히 여성 인력들은 희소성 때문인지 거의 연예인 수준이다. 강연, 세미나, 정부 회의, 해외 박람회 등 외부 활동에 정신이 없는 것 같다. 정작 자신이 속해 있는 조직의 AI를 제대로 관리할 수 있는지 의문이다. 인공지능대학원을 만들고, 인공지능 관련 대형사업 몇 개 진행한다고 해결되지 않는다. 끊임없이 수요자의 목소리를 듣는 위원회가 필요하다고 본다. 현재와 같은 형식적인 위원회는 어느 정부가 들어와도 성공하기 어렵다고 본다.”
대학교는 ‘직업기술양성소’가 아니다
- IT 강국이 되기 위해서는 SW 산업 발전이 무엇보다 중요하다고 본다. 그러기 위해서는 무엇을 어떻게 하는 게 좋다고 보는가.
“SW 관련 기술이나 역량을 키우는 것보다 협업과 커뮤니케이션 능력을 강화해야 한다고 본다. 초등, 중등, 고등학교 시절을 거치면서 남들과 경쟁하는 법만 배웠지, 협동하는 법은 배우지 못했다. 대학교에서는 오로지 학점에 목매단 학생들만 수두룩하다. 이런 환경에서 자란 학생들이 졸업 후 회사에서 협업을 하기란 거의 불가능하다. 커뮤니케이션 스킬은 더 큰 문제이다. 수업 시간에 모르는 것이 있어도 질문하지 않고, 수업이 끝난 후 조용히 다가와 혼자 질문한다. 짧은 문자 메시지에 익숙해진 젊은 세대들은 문제가 더 심각하다.”
- 기업들은 대학교에서 양성한 인력을 신입 사원으로 뽑아 별도 교육하는 경우가 많다. 그 갭도 상당히 크다고 한다. 무엇이 문제이고, 어떻게 해야만 한다고 보는가.
“대학교는 직업기술양성소가 아니다. 즉, 기업들의 입맛에 딱 맞는 교육만을 할 수 없다. 대학교에서는 기업에서 바로 사용하지 않는 수학, 물리, 화학, 생물 등 기초과학과 철학, 문학, 사회학 등 인문학을 공부한다. 기업에서 바로 필요한 기술은 아니지만 이를 통해 언제든 새로운 기술을 배울 수 있는 기초 체력을 기를 수 있기 때문이다. 기업에서 필요한 기술은 시간이 지남에 따라 변화하기 때문에 중요한 것은 새로운 것을 배울 수 있는 능력이지, 이미 나와 있는 기술에 대한 지식이 아니다. 즉, 현실에 복잡하게 얽혀 있는 현상을 인공지능으로 해결할 수 있는 문제로 재정의할 수 있는 능력이 중요한 것이지, 주어진 문제를 신속하게 해결하는 것이 중요한 게 아니다. 이런 점에서 최근 유행하고 있는 계약학과(특정 기업이 지원하고 졸업 후에는 해당 기업으로 입사가 보장되는 학과) 운영에 대해 좀 더 신중하게 생각할 필요가 있다. 회사 입장에서는 계약학과 출신 학생들을 바로 현장에 투입할 수 있다는 장점만을 생각하고 있는 것 같은데, 이는 장기적인 관점에서는 한계가 있을 수 있다.”
한편 김성범 교수는 한국데이터마이닝학회 회장을 맡고 있다. 그는 지난 2009년부터 데이터마이닝학회에서 활동하고 있고, 그동안 학술대회뿐 아니라 학회에서 주관하는 다양한 사업에 적극적으로 활동해오면서 높게 평가받아 지난해 회장으로 선임됐다고 한다.
- 회장을 맡으신 후 어디에 역점을 두고 활동하고 있나.
“다양한 분야의 전문가들이 활발하게 토론하고 연구 성과를 발표할 수 있는 학술대회를 매년 2번 개최하고 있고, 그 외 다양한 교육 및 연구 활동을 하고 있다. 학술대회뿐 아니라 워크숍, 교육, 정책토론, 산학 연구 등의 활동을 통하여 산업 경쟁력 강화 및 건전 사회 구축에 도움을 줄 수 있는 학회로 성장시키고 싶다. 무엇보다도 데이터 관련 다양한 분야의 연구자들이 활발하게 소통할 수 있는 창구로써 국내 빅데이터 관련 문제들을 산업체, 정부, 학계가 머리를 맞대고 고민할 수 있는 장을 만들고 싶다.”
김성범 교수는 어려서부터 선생님이 되겠다는 꿈을 갖고 있었다고 한다. 그 이유를 아직 가치관이 명확히 정립되지 않은 어린 학생들에게 긍정적인 영향을 주어 그들의 배움과 성장에 도움이 되고 싶었기 때문이라고 한다. 특히 그의 말 한마디와 작은 행동이 학생들의 성장에 큰 도움이 되도록 노력하며 살 계획이고, 앞으로도 좋은 선생님으로 남고 싶다고 밝혔다.
그래서인지 김성범 교수는 석탑 강의상(23회), 우수 강의 교수상, 석탑연구상(3회), 크림슨 프로페서상, 백암논문상, 최우수논문상 등 다양한 상을 받았다. 아무리 뛰어난 교수라도 이만한 상을 받기란 쉽지 않을 것이다. “논문 쓰는 게 쉬운 일만은 아니지 않은가?”라는 기자의 질문에 김 교수는 단호하게 “그러면 교수를 그만둬야지요”라며 입가에 미소지며 응답했다.
참고로 ‘석탑 강의상’은 고려대학교에서 학생 수상 소감 평가 전체 상위 5%에 해당하는 강좌에 수상하는데, 김성범 교수는 이 상을 가장 명예롭게 생각한다고 밝혔다. 김 교수는 “사실 학생들이 이해하는 방식으로 설명하려고 부단히 노력하고 있고, 그 점을 학생들로부터 인정받고 있다는 게 무척 영광스럽다”라고 그 배경을 설명했다. 김성범 교수가 있어 우리나라의 미래는 밝을 수밖에 없다는 것을 알게 됐다.


