본지, 지난달 6일 양재동 엘타워서 ‘2018 AI & 빅데이터 세미나’ 개최

 
[컴퓨터월드] 본지 컴퓨터월드/아이티데일리가 지난달 6일 양재동 엘타워 7층 그랜드홀에서 ‘2018 AI & 빅데이터 세미나’를 개최했다. 이번 세미나는 AI의 부상과 함께 최근 새로운 전환기를 맞이한 빅데이터 분석의 트렌드를 살피고, 관련 이슈에 대해 해답을 제시하는 자리로 마련됐다.

인공지능(AI)을 중심으로 4차 산업혁명의 바람이 거세게 불고 있는 상황에서, 이제 빅데이터 분석은 AI와 맞물려 정형·비정형 데이터를 아우르는 통합 분석의 방향으로 나아가고 있다. 또한 IT 조직만이 아닌 현업 비즈니스 조직까지 데이터에 접근해 필요한 인사이트를 확보하고자 하고 있어, 이러한 요구에 대응하는 솔루션들의 필요성이 대두되고 있다.

비아이매트릭스, 위세아이텍, 인포매티카, IBM, 엔코아, 코마스, 퓨어스토리지, 바이텍씨스템 등 국내외 빅데이터 및 AI 관련 전문 기업들이 참가한 이번 세미나의 발표 내용을 정리했다.


▲ 이영섭
동국대학교 통계학과 교수 /
한국데이터마이닝학회장

AI와 빅데이터의 진화

첫 번째 세션은 한국데이터마이닝학회장을 맡고 있는 이영섭 동국대학교 통계학과 교수가 키노트 발표를 맡아 강연을 했다. 이영섭 교수는 ‘인공지능과 빅데이터, 어떻게 진화하고 있나?’를 주제로 인공지능(AI)의 의미와 역사, 기술적 범위, 시장 전망, 최근 트렌드 등을 다시 한 번 짚어보며 청중의 관심을 끌어올렸다.

AI는 말 그대로 인간의 지능을 컴퓨터로 구현하는 것이다. 그리고 AI를 구현하기 위한 컴퓨터의 학습 방법이 바로 머신러닝이며, 딥러닝은 머신러닝을 실현하기 위한 기술이다. AI가 제대로 작동하기 위해서는 더 많고 더 좋은 데이터를 가질수록 더 좋은 결과를 가져온다. 데이터가 21세기의 원유라고 불리는 이유다.

AI는 1950년 앨런 튜링이 ‘컴퓨터와 인간이 말하는 것을 구분할 수 있느냐’를 테스트한 ‘튜링 테스트’를 최초로 본다. 이후 1956년 다트머스 회의에서 AI의 개념이 정립됐고, 85년에 이르러 신경망(Neural Network)이 등장한다. 이후 서포트벡터머신(SVM)이 부상하면서 신경망 기술은 암흑기를 맞게 되고, 2010년대 딥러닝이 각광받으면서 신경망 기술이 다시 주목받기 시작했다. 그리고 마침내 2016년, 구글이 알파고를 통해 바둑계를 평정하면서 우리는 본격적인 AI 시대의 초입에 들어서 있다.

AI는 머신러닝, 자연어 처리(NLP), 스피치(speech), 로보틱스(Robotics), 비전(Vision), 계획 및 최적화(Planning, Scheduling & Optimization) 등 다양한 분야를 포괄한다. 세계 AI 서비스 시장규모는 2025년이 되면 350억 달러 이상, 한화로 약 40조 원 규모에 달할 것으로 트랙티카에서 2016년 예상한 바 있다. 국내 시장도 올해 한 조사에서 2020년 약 11.1조 원 규모로 성장할 것으로 예상됐다.

최근 머신러닝과 딥러닝 관련 학회는 2,700여명이 참가할 정도로 성황을 이루고 있다. 지난해 캘리포니아 롱비치에서 열린 NIPS 학회의 경우 8천여 명이 참가했고 2주 만에 접수가 마감됐는데, 캐나다 몬트리올에서 12월 열릴 예정인 올해 학회는 2월 참가신청에서 단 11분 38초 만에 등록이 마감될 정도로 성황을 이뤘다. 1,000달러 이상이 드는 유료 행사임에도 이렇게 빨리 마감될 정도로 머신러닝, 딥러닝, AI는 많은 관심을 받고 있다.

학술연구 측면에서 AI 분야를 살펴보면 먼저 GAN(Generative Adversarial Networks: 생성적 적대 신경망)을 들 수 있다. 위조지폐를 잘 생성, 구분할 수 있도록 개발된 기술이라고 설명할 수 있는데 ,한쪽에서는 생성하고 한쪽에서는 이를 가려내는 것이 골자다. 원래는 신약 등을 개발할 때 환자의 특성에 맞게 진짜 약을 생성해주는 기술에서 발전된 것이다.

두 번째는 강화학습(Reinforcement Learning: RL)이 있다. 대표적 사례로는 구글 딥마인드의 알파고를 들 수 있다. 2010년 등장 때는 강화학습뿐만 아니라 CNN(Convolutional Neural Network, 합성곱신경망) 기법도 활용했다. 딥마인드와 같은 게임 분야부터 지능형 로봇, 금융사 자동 주식주문, 자율주행차 등에서 많이 쓰이는 것이 RL이다.

현재 AI는 자율주행차, 자동 통·번역 서비스, 개인 맞춤형 상품 추천 서비스, 스마트폰 음성 비서, 사물인터넷 기기 제어, 산불·지진·홍수 등 자연재해 예측 시스템과 같은 분야에서 실제로 활용되고 있다. 구글, 페이스북, 아마존, 삼성전자 등 글로벌 기업들은 AI 플랫폼 개발에 나서고 있으며, 특히 우리는 생활 속에서 AI스피커를 통해 이러한 기술들을 접하고 있다.

그렇다면 AI는 언제 인간을 따라잡을 수 있을까? 2015년 ICML과 NIPS 발표저자를 대상으로 한 조사에 따르면, 전문가들은 AI가 인간의 모든 직업을 대체하는 것을 약 120년 후 정도로 예상했다. 또한 모든 업무를 대체하는 것은 향후 40년 후가 될 것이라고 예측했다. 그러나 이는 실제로 더 빨라질 것으로 보인다. 전문가들은 당시 2028년이 돼야 AI가 인간을 바둑에서 이길 것이라고 생각했는데, 실제로는 2017년 5월에 해냈기 때문이다.

이영섭 교수는 “기존에는 AI가 인간처럼 계산(Computing like Human)하는 데 중점을 뒀다면, 미래에는 인간처럼 생각(Thinking like Human)하는 데 중점을 두게 될 것”이라고 말했다.

이어 이 교수는 빅데이터와 관련해 현재 한국의 활용 정도, 대중의 인식, 정책 등 다양한 분야의 이슈를 환기하면서 빅데이터 활성화를 위한 조언을 했다.

빅데이터는 구글에서 관련 단어 검색 빈도를 기준으로 보면, 국내에서는 2012년을 기점으로 관심이 높아지기 시작했다. 그러나 국내를 포함, 아시아 시장에서 데이터 관련 직업의 처우는 북미의 절반 수준이다. 우리나라 기업의 빅데이터 분석 활용비율 역시 4%에 불과해, 61개국 중 31위에 머물고 있다. 12위를 기록한 중국은 물론, 인도네시아(29위)에도 밀리고 있다. 기술 수준 역시 최근 R&D 투자 확대에도 불구, 세계최고인 미국 대비 76%에 불과한 실정이다.

기업들의 빅데이터 활용 걸림돌로는 관련 데이터의 부재와 전문 인력 부재가 가장 큰 것으로 나타났다. 또한 기업들이 필요한 데이터가 실제로 없고, 있다 하더라도 어디에 있는지 모르는 상황이다. 여기에 데이터 확보를 위한 시간과 비용의 소요도 크다.

다른 데이터와 결합이 가능한 데이터가 중요한 데이터라는 점도 기억해야 한다. 그러나 개인정보보호 관련 이슈로 활용이 쉽지만은 않다. 우리나라의 경우 아직까지 일관된 법적 기준이 없고, 개념이 모호하다. 현재 개인정보의 기준을 다른 정보와 ‘쉽게 결합해서’ 알아볼 수 있는 정보로 정의하고 있는데, ‘쉽게 결합한다’의 정의가 모호하다는 것이다. 법 개정·제정을 통한 구체적 가이드라인이나 개인정보 비식별화 기준이 명확히 제시돼야 하는 이유다.

이밖에 이영섭 교수는 빅데이터 활성화를 위해 몇 가지 조언을 덧붙였다. 이 교수는 “최근 확대되고 있는 데이터 사이언티스트에 대한 니즈를 충족시킬 수 있도록 인력을 많이 양성해야 한다. 또한 정부에서 공공데이터에 관해 전수조사를 하고, 데이터 현황을 보여주는 데이터 맵을 구축해야 한다. 데이터의 활용을 위한 품질 관리도 필요하다. 그리고 실패한 사례들도 많이 공개돼야 한다”고 제언했다. 이어 “마지막으로 현업과 IT는 서로의 분야가 다를지라도 서로 협업하고 소통해야 한다는 점을 기억하라”고 강조했다.


▲ 배영근
비아이매트릭스 대표
AI, BI, 그리고 CI로 진화하는 인텔리전스 전략

이어 배영근 비아이매트릭스 대표가 ‘AI, BI, 그리고 CI로 진화하는 인텔리전스 전략’이라는 제목의 주제발표를 준비했다. 배영근 대표는 기존에 분석이나 보고서 작성 등을 위해 수행됐던 BI를 넘어, 계정계·정보계와의 협업(Collaboration)을 통한 인텔리전스 기반의 비즈니스 예측과 계획 수립의 중요성을 강조했다.

배영근 대표는 “인텔리전스란 우리가 갖고 있는 지식을 활용하는 수준을 말한다. 요즘 많이 회자되는 인텔리전스가 바로 AI다. 사람의 행동이나 생각을 컴퓨터가 모방해 목표를 달성할 수 있도록 돕는 것이다. 또한 BI는 통계분석이나 임원정보시스템, 경영정보시스템, OLAP 등의 키워드를 갖는다”면서, “CI는 보고서, 분석 리포팅 등 지금까지의 BI에 다양한 알고리즘을 추가하고 R이나 데이터마이닝, 빅데이터 분석, 시각화 등을 위한 AI를 더한다. 이로써 계정계나 정보계의 경영계획, 수요예측, 판매계획, 수급계획 등과 손쉽게 접합할 수 있도록 협업이 가능한 계획을 수립할 수 있도록 돕는 것”이라고 설명했다.

최근 BI 플랫폼은 빅데이터, 애니데이터 등으로부터 데이터를 읽어 전처리를 하고, 데이터마이닝과 AI 알고리즘 기반의 분석 알고리즘을 적용해 비즈니스 조직이 이를 활용하면서 인사이트를 얻을 수 있기를 요구받고 있다. 비아이매트릭스는 ‘아이스트림(i-STREAM)’과 ‘아이빅(i-BIG)’으로 이러한 요구에 대응하고 있다. 데이터 추출/처리/분석을 손쉽게 할 수 있도록 만들어진 솔루션이다. IT조직의 도움 없이도 간단하게 분석할 수 있도록 돕는다.

또한 비아이매트릭스는 CI를 위한 AUD(아우디) 시스템 구축 방법론을 선보이고 있다. 분석 설계 코팅 테스트 단계에서, 사용자가 원하는 시스템을 설계해서 넘겨주더라도 개발자가 코딩하고 테스트하는 과정에서 시간이 많이 소요된다. 그래서 코딩을 없애고, PDF 같은 UI 설계만으로도 제품을 만들어낼 수 있다면 얼마다 좋을까? 하는 생각을 할 수 있다.

1990년대 이후 모든 개발자의 꿈이라고 할 수 있는 SW개발 자동화 도구는 과거에도 이미 수 차례 시도된 바 있지만, 대부분의 유효한 성과를 거두지 못했다. 프로그램 소스를 100% 생성하는 것이 불가능할뿐더러 플로우 디자인이 어려워 모델링 복잡도가 증가하는 문제가 있었다. 또한 생성된 소스에 대한 리버스 엔지니어링을 통해 세세한 수정을 더하는 과정이 필요해, 차라리 전통적 방법으로 코딩하는 것이 유리한 경우가 많았다.

2000년대 이후에는 직관적이고 이해하기 쉬운 개발 환경을 제공하는 GUI 기반의 UI·UX 플랫폼이 등장했지만, 이 역시 직접 작성해야 하는 SQL이나 스크립트들이 많고 검증에 많은 시간이 소요된다. 결국 자동으로 SW를 만든다는 이상과는 거리가 먼 것이다.

비아이매트릭스가 주창하는 ‘AUD(Advanced UI Development) 방법론’은 SQL과 코딩 없이 UI 설계만으로 화면개발을 완료하는 방법이다. 데이터 조회(Select SQL)의 경우 문장을 자동으로 생성한다. 컬럼을 선택해 마우스로 드래그앤드롭하면 자동으로 SQL 문장을 생성하고 DB에서 데이터를 가져온다. 또한 최근 개발해 특허를 낸 업데이트(Update SQL) / 데이터 저장(Insert SQL) 자동 생성 기능도 있다.

보고 있는 UI화면에서 데이터를 수정하면 DB에 자동으로 데이터를 업데이트하고 저장한다. 더불어 데이터 입력, 콤보 선택, 버튼 클릭 등 다양한 이벤트에 반응하는 동작을 설정할 수 있다. PPT에서 개체에 동작을 설정하는 것처럼, UI에서 몇 가지 설정만 갖고 마우스 클릭과 같은 특정 이벤트에 대응해 데이터 테이블을 띄우는 등의 동작을 하도록 설정할 수 있다.

배영근 대표는 “현재 AUD의 코딩 자동화율은 80% 수준이다. 자동차가 초기 수동 변속기에서 자동 변속기로 변화하고, 각종 편의 기능들이 자동화됐듯이 UI·UX도 하나씩 자동화를 해나가면 될 것”이라며, “인공지능(AI), 업무지능(BI), 협업지능(CI)을 통해 효율적인 업무를 수행하도록 하는 것이 비아이매트릭스의 목표이며, 30년간 IT에 몸담아 얻은 지식을 바탕으로 실질적으로 도움 되는 지식을 전달하고 싶다”고 강조했다.


▲ 김지혁
위세아이텍 연구소장
피처 엔지니어링 기반의 ML 플랫폼

잠깐의 휴식시간을 가진 뒤 김지혁 위세아이텍 연구소장이 ‘피처 엔지니어링 기반의 머신러닝 플랫폼’을 주제로 연단에 올랐다. 김지혁 연구소장은 오늘날 많은 기업들이 머신러닝을 활용하고 싶어 하지만, 전문 인력의 부족과 비용 등의 문제로 도입을 어려워하고 있다고 짚었다.

이러한 문제를 해결하기 위해서는 머신러닝(ML) 프로세스 자동화 도구가 필요하다. 데이터만 있다고 해서 ML을 적용할 수 있는 것은 아니다. ML을 위해서는 데이터 준비 과정과 프로젝트 전반을 설계하는 과정이 요구된다. 원천데이터가 확보된 후 피처에 대한 구성, 모델 선정, 운영을 위한 배포, 이후 신규 데이터를 기반으로 지속적인 업데이트 및 활용까지 이어져야 성공적인 ML이 되는 것이다. 이 과정에서 업무 전문가의 능력에 따라 짧으면 2주, 길면 3개월까지 기간이 소요되는데, 반복적인 것들만 줄여도 많은 비용과 시간을 줄일 수 있다.

피처 엔지니어링이란 일반적으로 사용되는 데이터 전처리를 포함한 개념이다. ML 학습을 위한 데이터셋을 구성하기 위해 공학적으로 접근한 방법이라고 할 수 있다. 새로운 개념이라기보다는 기존에 알고 있는 개념을 공학적으로 잘 정리한 기법이다. 따라서 피처 엔지니어링은 피처에 대한 이해, 개선, 구성 등의 단계를 포함하고 있으며, 이를 위한 태스크들로 구성돼 있다.

예측 성능을 향상시키기 위해서는 피처 엔지니어링 적용이나 알고리즘의 하이퍼파라미터 조정 등의 방법이 있다. 따라서 피처 엔지니어링은 예측 성능 향상을 위해 필수적이다. 하지만 비전문가가 수행하기에는 어렵다.

AML(Auto Machine Learning)은 머신러닝 과정을 자동화하는 도구를 통해 비전문가도 ML 프로젝트 수행이 가능하도록 하는 것을 말한다. ML은 데이터 사전 처리, 적합한 변수와 모델 선택, 모델 하이퍼 매개변수 최적화, 기계학습 모델 평가, 평가결과 분석 등을 ML 전문가가 수행하는데 AML은 다양한 모델을 자동으로 실행하고, 하이퍼 매개변수도 자동으로 설정한다. 따라서 도메인(업무) 전문가가 ML 프로젝트를 수행할 수 있다. 물론 ML 결과에 대한 검증을 위해서는 ML 전문가가 필요하지만, 이는 도움이나 자문을 통해 해결할 수 있다.

AML 프로세스는 데이터 수집, 클렌징, 전처리, 학습을 위한 피처 선정, 모델 학습 및 검증 단계를 포함한다. 또한 AML을 위해서는 검증된 오픈소스를 활용하고 다양한 모델을 경쟁해 최적의 모델 선택, 모델들을 반복적으로 학습할 수 있어야 한다. 이러한 모델 선정과 반복 학습을 통해 공수를 줄이고 정확성을 확보할 수 있다. 더불어 데이터 전처리, 변수 최적화를 자동화해 데이터사이언티스트의 개입을 최소화해야 한다.

또한 AML은 모델의 결과가 유효하고 결과가 뚜렷함을 설명할 수 있어야 한다. 그래야 비즈니스에 대한 실용적인 통찰력을 가질 수 있다. 마지막으로 만들어진 모델은 배포 가능해야 하며, 여러 가지 환경에서 모델이 실행될 수 있어야 한다.

김 연구소장은 이어 자사 ‘와이즈 프로핏(WISE Prophet)’을 통해 전체 머신러닝 프로세스를 자동화함으로써 기업의 머신러닝 도입을 지원한다고 설명했다. ‘와이즈 프로핏’은 위세아이텍이 오픈소스를 기반으로 개발한 AML 플랫폼으로, 시각화 도구와 결합해 회사만의 장점을 갖고 있다.

ML 과정을 피처 엔지니어링 기반으로 자동화해 ▲ML 전 과정을 마우스 클릭으로 처리할 수 있으며 ▲정형/비정형 데이터를 모두 지원하고 ▲분류 모델뿐만 아니라 회귀 모델, 클러스터링 모델까지 모두 지원한다. 여기에 ▲자체 알고리즘을 지속적으로 추가함으로써 활용성을 높일 수 있게 구성했으며 ▲예측 결과에 대한 시각화 역시 위세아이텍의 BI 솔루션을 바탕으로 제공한다.

김지혁 위세아이텍 연구소장은 “와이즈 프로핏은 AML을 통해 머신러닝을 적용함으로써 실제 도메인 전문가뿐만 아니라 데이터 사이언티스트들의 알고리즘 개발과 평가, 피처 적용 등의 업무량을 줄여 분석 업무에 집중할 수 있도록 돕는다는 장점이 있다”면서, “중요한 것은 데이터다. 데이터가 확보되지 않은 상황에서 ML은 큰 의미가 없다. 양질의 데이터가 아니면 좋은 결과를 얻기 힘들다. AML을 적용해 머신러닝 프로젝트를 더욱 원활히 진행할 수 있을 것으로 믿는다”고 말했다.

▲ 이번 세미나는 비아이매트릭스, 위세아이텍, 인포매티카, IBM, 엔코아, 코마스, 퓨어스토리지, 바이텍씨스템 등 국내외 빅데이터 및 AI 관련 전문 기업들이 참가했다. 또한 행사에는 주요 솔루션들을 체험할 수 있는 부스도 마련됏다.


▲ 윤지홍
인포매티카 컨설턴트
지능형 DL을 구성·분석할 수 있는 플랫폼이 필요

점심식사 후 계속된 오후 세션의 첫 발표는 윤지홍 인포매티카 컨설턴트가 ‘인텔리전트 데이터레이크 포 비즈니스 셀프 서비스(Intelligent Datalake for Business Self Service)’를 주제로 진행했다.

윤지홍 컨설턴트는 비즈니스 사용자가 손쉽게 지능형 데이터레이크를 구성하고 분석할 수 있는 플랫폼이 필요하다고 주장했다. 이를 통해 비즈니스 사용자가 지속적으로 데이터 분석에 참여할 수 있으며, 모든 데이터에 접근할 수 있는 단일한 접점에서 데이터 간의 관계성을 확인함으로써 숨겨진 인사이트를 찾아낼 수 있다는 설명이다.

빅데이터 분석을 위한 시작은 데이터레이크(DL)다. 데이터웨어하우스(DW)와의 차이점은 패러다임의 전환에 있다. BI는 처음부터 목적을 갖고 있다. 이 목적에 필요한 데이터를 구해서 데이터마트나 DW를 구성하고 분석해 결과를 보여준다. 하지만 DL에 모으는 데이터에는 목적이 없다. 이러한 데이터를 분석하는 과정에서 인사이트를 발견하고, 전혀 관계가 없는 것처럼 보였던 데이터들의 관계를 발견하게 된다. 또 예전에는 해당 업무 담당자들만 해당 데이터에 접근할 수 있었지만, 이제는 자신의 영역이 아닌 곳에도 접근해서 인사이트를 얻을 수 있다.

더불어 기존의 BI는 정형 데이터만 사용했다. 회사 내 DB나 파일시스템에 있는 정형데이터만을 썼고, 대부분의 데이터는 분석에 활용되지 못했다. 하지만 DL을 사용하면 사내외 모든 데이터를 DL에 넣어놓고 여러가지로 데이터를 결합해보며 활용할 수 있다.

이밖에 DL은 목적성 없이 데이터를 모으기에, 최소한의 처리만 해서 아무 데이터나 전부 모아놓는다는 특징이 있다. 따라서 분석 시점에 데이터를 정의해 활용할 수 있도록 한다.

최근 주목받고 있는 ‘셀프서비스 분석’의 경우 실제 비즈니스에 활용할 때 문제가 있다. 우선 신뢰할 만한 데이터를 쉽게 찾을 수 없다. 한 데이터를 찾았는데 이 데이터가 어디에서 왔고 어떤 과정을 거쳐 만들어졌으며, 어디서 사용하고 있는지, 이러한 계통 정보(lineage)를 확인할 수 없다.

비즈니스 담당자들이 BI 도구에 익숙하지 않다는 점도 문제다. IT 담당자들이 빠르게 배우고 활용하는 것과는 달리, 도구를 익히는 데 많은 시간을 소모하게 될 수도 있다. 이밖에 분석할 데이터셋을 공유 및 재활용하는 측면도 생각해봐야 한다. 구축한 데이터셋을 일회성으로 분석에 사용하고 버리기에는 아깝다.

따라서 셀프서비스 데이터 분석을 위해서는 우선 데이터를 최소한의 표준화만 해서 DL에 저장하는 데이터 통합(integration) 과정이 필요하다. 또한 전사 시스템에 있는 메타데이터를 추출하고, 이를 카탈로그로 만들 수 있는 기능도 있어야 한다. 비즈니스 유저를 보조할 AI도 요구된다. 이밖에 기술 용어로 돼 있는 메타데이터를 비즈니스 용어로 바꿔줄 수 있는 비즈니스 그로서리(Glossary)도 필요하다.

메타데이터를 추출하고 비즈니스 그로서리를 적용했으면 이제 인텔리전트 서치가 가능하다. 시맨틱 서치를 통해 단순히 검색어에 해당하는 정보만 뽑아주는 게 아니라, 그와 관련 있는 데이터셋들도 리스트업 해줄 수 있다. 데이터의 원본과 가공과정을 확인할 수 있는 데이터 리니지도 가능해진다.

또한 메타데이터를 가져왔을 때 릴레이션십(relationship)이 묶여있는 경우가 있을 수 있는데, 이렇게 연결돼 있는 데이터들을 보여줄 수 있는 360 릴레이션십 뷰를 제공한다. 아울러 AI 기반의 유사 컬럼(column) 추천도 가능하며, 유사한 컬럼이 포함돼 있는 데이터셋이 어디에 있는지도 정확히 찾아줄 수 있다.

최근 엑셀과 비슷한 UI에서 데이터를 전처리할 수 있는 셀프서비스 데이터 프렙(prep, preparation: 전처리) 도구들이 많이 나오고 있다. 이들은 엑셀의 펑션(Funtion) 및 룰(Rule) 기능을 그대로 활용할 수 있어, 비즈니스 유저들이 쉽게 적응할 수 있다. 이러한 데이터 프렙 도구는 프로젝트 단위로 데이터 프렙을 적용하고, 권한이 있는 사용자가 프로젝트에 동참하게 함으로써 전처리된 데이터를 공유할 수 있도록 돕는다. 인포매티카는 이러한 전체 과정의 솔루션을 구축할 수 있도록 지원하고 있다.

윤지홍 인포매티카 컨설턴트는 “이러한 기능을 기반으로 인포매티카는 크게 3가지 DL 구축 사례를 제시한다. 샌프란시스코 트랜스아메리카와 같이 DL을 기반으로 고객의 니즈를 파악해 마케팅의 근거로 적용할 수 있다. 헬스케어 산업에서는 아시아 제약회사인 다케다의 임상연구를 위한 데이터 수집 사례도 있다. 보험상품 개발에도 유용하게 사용된다. 이밖에 US뱅크는 고객의 일반적 행동패턴 이외의 행동을 캐치해 피해를 예방하는 사기(fraud) 방지 DL을 사용하고 있다”고 사례를 언급하며 발표를 마쳤다.


▲ 송성환 퓨어스토리지 부장
데이터 허브 플랫폼 ‘플래시블레이드’

다음으로는 송성환 퓨어스토리지 부장이 ‘AI, 빅데이터의 시대, 기업의 비즈니스 혁명을 위한 데이터 플랫폼 소개 및 선두기업 사례 공유’라는 주제로 연단에 올랐다. 송성환 부장은 먼저 올플래시 스토리지 기업인 퓨어스토리지의 데이터 활용 전략인 ‘데이터 허브’에 대해 설명했다.

기존에 데이터를 처리하던 구조는 ▲데이터 웨어하우스 ▲데이터 레이크 ▲스트리밍 분석 환경 ▲AI 클러스터 등 크게 4가지로 구분할 수 있다. 그러나 각 환경들은 사용하는 애플리케이션이 다르고 이에 따라 정형/비정형과 같은 데이터 타입부터 배치·실시간 등 데이터 처리 방식, 랜덤·시퀀셜과 같은 I/O(입출력) 패턴, 스케일 업/아웃 및 다차원(Multi-demensional)·초병렬(Massiively parallel) 등과 같은 아키텍처까지 모두 제각각이다. 이 때문에 각자 별도의 플랫폼을 구축해 사용할 수밖에 없었다. 여기에 최근에는 클라우드로의 확산 또는 전환에 대한 고민까지 더해진다.

퓨어스토리지는 이를 데이터 허브 개념을 기반으로 해결한다. I/O의 크기나 유형에 상관 없이 모든 형태를 다 받아줄 수 있는 일종의 리포지터리(repository)로써 퓨어스토리지의 오브젝트 기반 고속 올플래시 스토리지인 ‘플래시블레이드(FlashBlade)’가 제시되는 것이다. 퓨어스토리지는 현재 ‘플래시블레이드’를 기반으로 서버, 네트워크 등 협력사들과 관계를 넓혀가며 이러한 전략을 실행하고 있다.

뿐만 아니라 퓨어스토리지는 AI에 특화된 인프라도 제공하고 있다. 기존의 AI 프로세스는 데이터의 습득(ingest)부터 정제(clean & transform), 탐색(explore), 훈련(train) 등의 과정을 거치면서 각 단계에서 생성된 데이터들이 다음 단계로 넘어가기 위해 복제 및 변환(copy & transform)돼야 했다. 그러나 퓨어스토리지는 ‘플래시블레이드’를 기반으로 데이터를 하나의 플랫폼에서 처리할 수 있으므로 이러한 과정을 없앤다.

여기에 퓨어스토리지는 컴퓨트 노드 및 네트워크, 스토리지와 같은 하드웨어에 각종 프레임워크 및 전문 SW들을 통합한 ‘에이리(AIRI)’를 출시, AI를 위한 고성능의 간편한 스케일 아웃 인프라를 제시하고 있다. ‘에이리’는 엔비디아의 ‘DGX-1’ 시스템과 퓨어스토리지의 ‘플래시블레이드’, 시스코 또는 아리스타네트웍스의 스위치가 통합된 제품으로, 엔비디아의 ‘GPU 클라우드 딥러닝 스택’과 ‘에이리 스케일링 툴킷’까지 더해져 공급된다.

특히 스토리지 구성요소인 퓨어스토리지 ‘플래시블레이드’는 4U에서 1PB 용량이 제공 가능한 고밀도의 확장성을 갖췄으며, 데이터 손실 방지를 위한 NV-RAM과 ‘퓨리티(Purity)’ SW 기반의 데이터 컨트롤, NVMe 및 다이렉트 플래시 전용 FPGA 등을 갖추고 있다. 병목제거를 위해 클라이언트 로드밸런싱과 스케일아웃 DB코어, 오브젝트 기반의 레퍼런스 테이블 등의 기술을 이용한다.

송성환 퓨어스토리지 부장은 “한 대형 SNS 기업은 약 60여대의 GPU 서버 클러스터와 CPU 40개 기반의 컴퓨팅 노드로 텍스트, 이미지, 동영상 등 다양한 데이터를 처리 및 훈련하고 있었다. 그러나 빠른 확장으로 인해 퓨어스토리지의 ‘에이리’ 기반 시스템으로 변경했고, 현재 음성과 텍스트 트레이닝을 수행하고 있다”면서, “페이스북 역시 2PB 이상의 AI 관련 데이터를 10여대의 ‘플래시블레이드’ 클러스터에 놓고 사용하고 있다. 128여대의 DGX-1 노드도 사용한다. 이밖에 자율주행 분야에서도 제뉴이티(ZENUITY), 테슬라(TESLA) 등의 기업들이 ‘플래시블레이드’를 도입, 빅데이터 분석과 AI 등을 수행하고 있다”고 설명했다.


▲ 전용준
리비전컨설팅 대표
데이터 사이언티스트의 필요성과 트렌드, 미래

다음으로 전용준 리비전컨설팅 대표가 ‘데이터 사이언티스트가 되는 길’ 1부 세션으로 ‘데이터 사이언티스트의 필요성과 트렌드, 미래’에 대해 발표했다.

데이터 사이언티스트에 대한 관심은 2015년 이후 상당히 늘어나고 있다. 그러나 관련한 자료의 대다수(76%)가 최근 1년 사이에 만들어진 것들이다. 이는 우리가 아직 데이터 사이언티스트가 무엇인지 정확히 모르고 있다는 얘기도 된다. 아직은 데이터 사이언티스트의 정체가 무엇이고, 누가 좋은 데이터 사이언티스트인지가 만들어져가는 초기라고 할 수 있다.

오늘날 빅데이터 분석과 AI, 데이터 과학은 의미가 혼재돼 쓰이고 있다. 그래도 굳이 따지자면, 데이터 과학은 빅데이터 분석보다는 AI에 가까워지고 있다. 앞으로 점점 더 AI와의 교집합이 커질 것이다.

오늘날 빅데이터 분석 유형은 다양하다. 20년 전에 하던 단순 집계 중심의 정형 데이터 분석과 같지만 양이 많다고 해서 빅데이터 분석이라고 하기도 하며, 정형/비정형 데이터를 분석하면서 복잡하고 정교한 알고리즘을 사용하기도 한다. 하지만 따져 보면 전통적인 단순 집계 중심 분석이 90%를 차지하며, 데이터 과학이라고 할 만한 복잡/정교한 분석은 10% 정도에 불과하다. 비정형 데이터까지 분석하는 경우는 2% 정도다.

최근 들어 데이터 분석량은 기하급수적으로 늘어났다. 하지만 늘어난 데이터의 대부분은 비즈니스, 돈과 관련 없는 논-트랜잭션(non-transaction) 데이터이며 이들은 다 비정형 데이터다. 다시 말해 비정형 데이터를 어떻게 분석하느냐가 중요해진 것이다.

데이터를 모으는 작업이 끝나면 분석을 통해 ▲예측 ▲맞춤형 제안 ▲이상 탐지 ▲최적화 등 크게 4가지를 할 수 있다. 미국 시카고에서는 민원 전화의 내용을 전부 텍스트로 바꾸고 이를 분석해 쥐가 언제 나오는지를 확인했다. 분석 결과, 쥐가 나오기 전에 31종의 예측지표가 발생했다. 급수본관 파손이나 쓰레기 유실, 쓰레기 넘침, 레스토랑 음식 썩음 등이었다. 이를 통해 미래 7일간의 쥐 출몰 시간과 장소를 예측할 수 있게 됐고, 설치류 제거 팀의 운영 계획을 수립해 효율적으로 운영했다.

유튜브의 경우 DNN 기반 추천 시스템을 선보이고 있다. 구글리서치가 공개한 자료에 따르면 10억 개의 파라미터와 수백 개의 피처(feature), 수천억 건의 데이터를 넣고 알고리즘을 만들었다고 한다. 데이터 사이언티스트들이 바로 이런 것들을 뒤에서 만들고 작업하고 있다. 불가능하다고 생각했던 것들이지만 HW가 좋아지고 대용량 분석이 가능해져 실생활로 들어오기 시작한 것이다.

그렇다면 데이터 사이언티스트는 어떤 사람인가? 공학박사이면서 프로그래밍, 통계분석, 커뮤니케이션, 인문/사회과학까지 섭렵한 슈퍼맨이라고 할 수 있다. 실제 기업의 채용공고를 보면 이런 요소들을 다 요구하고 있다. 모두 만족하는 사람은 구하기 어렵다. 현실성이 떨어지는 부분이다. 그럼에도 불구하고 데이터 사이언티스트를 하려는 사람들이 많다. 그 이유에 대해 찾아보니 인기 연관검색어에 ‘data scientist salary’가 나왔다. 연봉 조사표를 보니 미국에서 데이터 사이언티스트들은 6~10년차에 보통 14만 달러 정도의 연봉과 3만 달러 정도의 추가 수입을 올리고 있는 것으로 나타났다. 아시아 대비 2배 높다.

우리나라에서 데이터 사이언티스트는 채용공고를 기준으로 살펴보면 이동통신, 신용카드사, 이커머스, 게임, 포털, 콘텐츠서비스 스타트업 등의 업종에 많이 포진해 있는 것으로 나타났다. 필요한 역량은 ▲정형/비정형을 가리지 않고 데이터를 스스로 수집해 가공할 수 있는 능력 ▲모델링, 탐색, 시각화, 리포팅 등 데이터 분석 능력 ▲데이터 의미 해석 및 스토리텔링 커뮤니케이션 능력 ▲특정 분야에 대한 넓은 지식과 경험 ▲일반 교양과 상식 ▲팀 정신/프로젝트 관리 능력 ▲영어 등까지 광범위했다.

그러나 기업과 데이터 사이언티스트들이 각자 기대하는 것과 현실에는 차이가 있다. 대부분의 기업들이 데이터 사이언티스트의 중요성을 이해하고 있으면서도, IT 역량과 커뮤니케이션 능력, 특정 영역에 대한(domain) 지식 등의 측면에서 과중한 기대를 갖고 있다.

더불어 데이터 사이언티스트들 역시 열악한 인프라 및 사내 입지, 데이터 정비와 보고서 생성 뿐인 업무 등에 실망스러울 수 있지만, 기술에만 초점을 맞추고 실제 비즈니스에 적용해 수익을 창출하기 위한 협동에는 관심이 없는 일부 인원이 있는 것도 사실이다. 이와 관련해 미국에서는 데이터 엔지니어와 머신러닝 엔지니어, 분석 통역가 등 데이터 사이언티스트에게 기대되던 역량들이 다변화되고 있다.

전용준 리비전컨설팅 대표는 “현재 데이터 사이언티스트는 특히 미국에서 구인난이 매우 극심할 정도로 부족하다. 전 세계적으로 데이터 사이언티스트로 부를 수 있는 인력이 약 20~100만 명 정도로 추산되는데, 미국에 약 5만 명 정도가 있다고 한다. 그런데 2026년까지 데이터 사이언티스트의 수는 약 10배 이상으로 늘어날 것으로 예상된다”고 말했다.

이어 “데이터 사이언티스트의 업무 중 80%가 딥러닝을 활용할 것이라는 것과, 장기적으로 이들의 업무가 점점 자동화될 것이라는 점도 생각해봐야 한다. AML(AutoML) 제품이 상당히 늘어나고 있다. 자동화된 도구를 사용하는 시민 데이터 사이언티스트(citizen data scientist)가 수행하는 고급 분석의 양이 데이터 사이언티스트의 것을 추월할 것”이라면서, “오늘날 데이터 사이언티스트가 되겠다고 하는 사람들의 80%는 대학생들이다. 이들에게는 상당한 시간이 필요할 것으로 보인다. 실무 경험까지 필요하기 때문이다. 인내심이 가장 중요한 조건”이라고 덧붙였다.


▲ 김형선
IBM 디지털 시스템즈
하드웨어 팀 과장
IBM ‘파워 AI 비전’으로 손쉬운 AI 구현

이어 ‘파워 AI 비전(Power AI Vision)을 이용한 빅데이터의 미래’를 주제로 발표한 김형선 IBM 디지털 시스템즈 하드웨어 팀 과장은 딥러닝을 통한 이미지 영상 인식 기술의 각 산업별 활용 사례와 함께, 데이터 전처리 및 모델 훈련 등을 손쉽게 구현해주는 IBM의 ‘파워 AI 비전’을 소개했다. 김형선 과장의 발표는 딥러닝의 정의부터 지난 몇 년간 급격한 발전을 보여주고 있는 이미지 인식분야에서의 각종 성과들을 실제 사례와 함께 소개해 청중들의 집중을 이끌어냈다.

이미지 인식은 AI 발전을 이끈 대표 분야다. 2012년 이미지넷의 ILSVRC(Imagenet Large Scale Visual Recognition Challenges) 대회에서 이미지를 인식해 분류하는 CNN(Convolutional Neural Network, 합성곱신경망) 알고리즘을 적용한 팀이 우승한 후 딥러닝 사용이 급증하기 시작했기 때문이다.

CNN을 기반으로 이미지 속에 담긴 사물의 위치와 종류를 알아내는 사물 검출(Object Detection) 기술이 등장했고, 입력 이미지에서 후보 영역을 추출한 후 CNN을 적용해 종류를 구분하는 Faster R-CNN(Regions with Convolutional Neural Network)이 성과를 보이고 있다. 또한 원본이미지 및 픽셀단위로 객체마다 채색된 지도 데이터를 사용해 학습하는 이미지 분할(segmentation) 기술도 등장했다. 특히 여기에 CNN 기술을 더해 주변 환경을 픽셀 수준으로 분할해 인식하는 자율주행용 세그넷(Segnet)은 최근 가장 각광받는 기술이라고 할 수 있다.

CNN을 활용해 유명 화가의 화풍을 학습한 후 이를 이용해 그림을 그리는 AI도 등장했으며, 딥러닝을 활용한 독순술 연구를 진행해 테스트 결과 약 절반 수준을 인식하는 성과를 내기도 했다. 참고로 독순술 전문가는 12.4%의 인식률을 보인다고 한다. 이밖에도 이미지 인식 기술은 유통, 지능형 관제, 스마트시티, 보안, 안전사고 예방 및 규칙 준수, 스포츠와 미디어, 품질 관리, 암 진단 등 다양한 분야에서 실제 성과를 보여주고 있다. 그리고 IBM의 ‘파워 AI 비전’을 활용하면, 각 산업 분야 종사자들이 딥러닝에 대한 깊은 지식 없이도 손쉽게 AI 솔루션을 구축할 수 있다.

IBM ‘파워 AI 비전’은 기업들이 수년간에 걸쳐 수집한 데이터를 학습시킬 수 있도록 준비하고, 반복학습을 수행하며, 실수를 검증해 모델을 배포하는 과정까지를 모두 도울 수 있다. 간략화된 데이터셋 라벨링 기능과 빌트인 딥러닝 모델링 기능을 활용해 이미지와 데이터를 분류(classification)하고, 인식(detection)할 수 있도록 제작된 차세대 플랫폼이다.

각 산업의 전문가들이 손쉽게 딥러닝 기술로 AI 솔루션을 구축할 수 있도록 간소한 구현을 지원하며, 라벨링 작업을 자동화해 생산성을 향상시켜준다. 언제 어디서나 온/오프프레미스 클라우드를 기반으로 AI 모델을 트레이닝 및 배치할 수 있으며, IBM ‘파워시스템’의 고속 GPGPU 성능을 활용해 신속한 인사이트를 제공하고 정확도를 향상시킬 수 있다.

김형선 IBM 디지털 시스템즈 하드웨어 팀 과장은 “IBM ‘파워 AI 비전’은 GUI 기반의 툴킷을 통해 데이터 전처리용 딥러닝을 간편하게 지원한다. 데이터셋 관리와 전처리, 트레이닝 과정 모니터링, 분석, 최적화는 물론 인터페이스를 위한 모델 디플로이먼트(API, 이미지)까지 관리 가능하다”고 덧붙였다.


▲ 권태욱
위즈덤마인드 대표
데이터 사이언티스트 양성 위한 교육 플랫폼

마지막 세션 발표는 권태욱 위즈덤마인드 대표가 ‘데이터 사이언티스트가 되는 길’ 2부 세션을 맡아 ‘데이터 사이언티스트 교육 환경에서 경험한 노하우’를 공유했다. 위즈덤마인드는 ABC스쿨이라는 실무형 전문가 양성 교육기관을 통해 하나금융을 포함, 유니콘 기업 10여 곳과 협약을 맺고 교육을 진행하고 있다.

최근 기업 인사담당자은 데이터 사이언티스트를 뽑을 때 인문학 능력도 있고 질문도 잘 하며, 특정 영역에 대한 지식도 있는 인재를 원한다. 그러면서 프로그래밍도 잘 해야 하는 것은 물론이다. 권태욱 대표는 특히 파이썬이나 R 중 하나는 할 줄 아는 인재를 키우고 있다고 덧붙였다.

위즈덤마인드는 거품을 뺀 코딩 교육과 기업 니즈를 반영한 엔지니어 교육 서비스를 제공하는 ‘플랫아이언스쿨’과, 교수 없이 일본 전통의 교육을 제공하는 ‘마쓰시타 정경숙’, 프랑스 최고의 행정교육시스템을 갖추고 있는 ‘ENS(에콜 노르말 쉬페리외르)’ 등을 벤치마킹하고 있다. ABC스쿨과 함께 ‘팡아카데미’를 진행하면서 디임팩트(dimpact)라는 데이터 사이언스 옴니 플랫폼을 제공한다.

권태욱 위즈덤마인드 대표는 “3년차 이하의 학생들에게 부족한 것은 데이터 분석을 직접 해볼 수 있는 경험이다. 최근 은행이나 게임사들이 빅데이터 분석을 많이 하고 있는데, 이런 데이터를 일반적인 환경에서 구하기는 어렵다”면서, “그래서 우리는 중소기업 중 스몰데이터나 다크데이터를 가지고 있는 곳들과 제휴를 많이 했다. 이를 통해 학생들이 교육과정에서 이러한 데이터를 돌려볼 수 있도록 하고, 이를 중소기업에 피드백으로 제공한다. 이 과정에서 한 회사는 매우 만족하면서 학생에게 역으로 스카웃 제안을 하기도 했다”고 덧붙였다.

마지막으로 권 대표는 발표를 마무리하면서 “빅데이터와 AI에는 여전히 많은 가능성이 있다. 우리나라가 전 세계로 뻗어나갈 수 있도록 IT 관계자분들이 힘을 모아주시기 바란다”고 당부했다.

[설문분석]

본지 컴퓨터월드/아이티데일리는 ‘2018 AI & 빅데이터 세미나’의 참가자를 대상으로 설문조사를 진행했다. 이번 조사를 통해 ▲인공지능(AI) 및 빅데이터를 포함, 그 외에 어떤 트렌드에 주목하는지 ▲빅데이터 분석 툴 도입 계획은 있는지 ▲도입 시 어떤 어려움을 겪고 있는지 ▲어떤 목적으로 도입할 계획인지 등에 대해 알아볼 수 있었다.

 
디지털 트랜스포메이션 관련 프로젝트 추진 분야

세미나 참가자들은 디지털 트랜스포메이션과 관련, 현재 프로젝트를 추진 중인 트렌드가 무엇이냐는 질문에 대해 ‘빅데이터’를 가장 많이 꼽았으며 이어 인공지능(AI)이 뒤를 이었다. 빅데이터와 인공지능은 이번 세미나의 주제인 만큼, 참가자들의 응답률이 높은 것은 당연하다고도 볼 수 있다.

다음으로 많은 응답자가 선택한 클라우드는 세미나의 주제 탓인지 상대적으로 적은 수의 응답 수를 기록한 것으로 보인다. 반면 최근 전 세계적으로 서서히 열풍이 식어가는 블록체인에 대해서는 여전히 어느 정도의 관심을 유지하고 있는 것으로 해석된다. 이밖에 사물인터넷과 가상현실/증강현실(VR/AR)이 순서대로 뒤를 이었다.

 
빅데이터 분석 툴 도입 계획

설문 응답자 가운데 절반 이상(53%)이 ‘빅데이터 분석 툴 도입에 대해 필요성은 느끼고 있지만 도입 계획은 아직 없다’고 답했다. 총 115명의 응답자 가운데 이미 빅데이터 분석 툴을 도입해 활용하고 있다고 답한 인원은 추가 도입을 고려하는 경우까지 합해 총 31명으로, 비율로는 약 26% 정도에 불과했다.

도입을 추진 중이라고 답한 응답자는 19명으로, 약 16% 수준이었다. 그러나 비록 도입 계획이 아직은 없더라도 필요성을 느끼고 있는 경우가 많다는 점에서, 국내 빅데이터 분석 시장의 잠재적인 성장 가능성에 대한 기대를 해볼 수 있을 것으로 보인다.

 
머신러닝 기반의 빅데이터 분석 플랫폼 도입의 걸림돌

응답자들은 머신러닝 기반의 빅데이터 분석 플랫폼의 도입을 추진하는 데 있어 어떤 어려운 점이 있느냐는 질문에 ‘데이터 전문가의 부재’를 가장 많이 꼽았다. 이는 데이터 전문가 부족 현상을 해외뿐 아니라 국내에서도 현업 담당자들이 느끼고 있다는 것을 보여주는 수치라 할 수 있다.

이어 ‘분석 결과에 대한 시스템 적용 방안 부재’와 ‘분석 및 비즈니스 주제 선정’이 근소한 차이로 2, 3번째 많은 응답을 차지했다. 응답자들은 이외에도 ‘투자에 대한 내부 경영진의 인식 부족’과 ‘하둡 등 기술전문가의 부재’를 우려했다. 기타 의견으로 ‘투자 대비 효과 미진’도 있었다.

 
빅데이터 분석 플랫폼 최우선 적용 업무

응답자들은 빅데이터 분석 플랫폼을 도입해 마케팅에 활용하려는 경우가 가장 많은 것으로 조사됐다. 고객의 행동 패턴을 분석함으로써, 새로운 수익을 창출하거나 매출을 극대화할 수 있는 기회를 찾을 수 있다는 기대가 반영된 것으로 보인다. 이어 실시간 의사결정 지원 및 관리가 뒤를 이었으며, 고객서비스 및 지원 강화 효과를 얻을 수 있을 것으로 기대한 응답자도 33명으로 약 28%를 차지했다. 기타 ‘모니터링 예측’, ‘관광’ 등의 분야를 꼽은 응답자도 있었다.

 
셀프서비스 데이터 분석 트렌드 대응

최근 부상하고 있는 셀프서비스 데이터 분석 트렌드를 독자들이 어떻게 생각하고 있는지에 대한 질문에는 예상보다 많은 응답자들이 ‘대응하지 않고 기존 분석 프로세스를 유지한다(29명)’고 답해, 의외로 소극적인 대응을 보여준 것으로 평가된다. ‘전사적인 데이터 역량 향상’을 꼽은 응답자는 31명으로 가장 많았다.

‘IT조직과 비즈니스 조직 간의 업무 조율’을 꼽은 응답자 역시 29명으로 ‘대응하지 않음’과 동률을 이뤘다. ‘다루기 쉬운 분석 도구 도입 및 현업 조직 교육’을 꼽은 응답자는 28명으로 각 답변의 수가 거의 비슷한 결과를 보였다. 기타 의견으로는 ‘팀을 조직해 부분적으로 대응한다’, ‘전문가 양성’ 등이 있었다.

 

저작권자 © 아이티데일리 무단전재 및 재배포 금지