디리아 이동길 이사

[아이티데일리] 전 산업계의 핵심 동력이 데이터를 중심으로 재편되고 있다. 특히 챗GPT(ChatGPT)의 등장 이후, 데이터 학습의 결정체인 생성형 AI가 전 세계의 뜨거운 감자로 부상했다. 수많은 데이터를 학습하고 이를 토대로 결과물을 생성하는 생성형 AI를 구현하기 위해 데이터의 수집부터 저장, 학습, 거버넌스 정립 등 제반을 다지는 작업이 더욱 중요한 과제로 떠올랐다.

본지(컴퓨터월드/아이티데일리)는 지난달 7일 서울 양재동 엘타워에서 각계 데이터 전문가 및 국내 대표 기업들과 함께 생성형 AI를 둘러싼 주요 이슈에 관한 해답과 데이터 활용 전략을 제시해 보고자 ‘생성형 AI & 빅데이터’를 주제로 ‘제20회 2023 데이터 컨퍼런스’를 개최했다. 데이터 인사이트와 핵심 전략이 공유된 이번 컨퍼런스 내용을 정리했다.

 

오후 세션은 2개 트랙으로 나뉘어 핵심 데이터 인사이트와 전략을 공유하는 발표가 진행됐다.

트랙1은 ▲디리아 이동길 이사의 ‘생성형 AI와 빅데이터 도입 전략’ ▲클라우데라 김호중 전무의 ‘생성형 AI 서비스를 위한 오픈 데이터 플랫폼’ ▲엔코아 김선영 상무의 ‘효율적인 데이터 자산화를 지원하는 인공지능 기반 데이터 관리와 활용 전략’ ▲리비젼컨설팅 전용준 대표의 ‘챗GPT 시대의 기업 데이터 분석 혁신: 현재와 과제’ 등의 세션이 마련됐다.

트랙2에서는 ▲퍼즐데이터 김영일 대표의 ‘프로세스 마이닝, 분석을 넘어 AI 예측, 시뮬레이션 활용까지 디지털 혁신 플랫폼’ ▲데이터스트림즈 김현철 전무의 ‘디지털 전환을 위한 데이터 패브릭 전략’ ▲데이타벅스 조외현 대표 컨설턴트의 ‘생성형 AI와 온라인 머신러닝: CDC 및 지능형 통합의 필요성’ ▲티맥스티베로 성기훈 상무의 ‘4세대 IT 플랫폼을 위한 티베로 DBMS 전략’ 등의 발표가 진행됐다.

 

“생성형 AI와 빅데이터 도입 전략”

디리아 이동길 이사
디리아 이동길 이사

트랙1의 첫 번째 세션은 디리아 이동길 이사가 맡아 ‘생성형 AI와 빅데이터 도입 전략’에 대해 발표했다.

이동길 이사에 따르면 생성형 AI는 크게 콘텐츠 선택, 처리 프로세스 선정, 모델 학습, 아키텍처 구성 등의 단계를 거쳐 개발된다. 각 단계를 세부적으로 살펴보면, 우선 콘텐츠 측면에서 텍스트, 이미지, 비디오 등 어떤 콘텐츠를 생성할지에 따라 모델의 종류가 달라진다. 텍스트 생성에는 LLM, 이미지에는 GAN, 비디오에는 VAE가 주 모델로 사용되고 있다.

다음으로 자연어를 처리하기 위한 프로세싱인 NLP 과정이 요구된다. NLP는 데이터 전처리부터 알고리즘 구성, 모델 트레이닝의 과정으로 이어진다. 자연어 처리 이후에는 ML 혹은 딥러닝 과정을 거쳐야 한다. ML은 정형 데이터 처리, 딥러닝은 언어와 이미지 등 비정형 데이터 처리에 특화된 방식이다. 딥러닝을 진행한다면 정확도 개선을 위한 아키텍처 ‘트랜스포머(Transfomer)’도 수반돼야 한다.

이어서 이동길 이사는 기업들의 생성형 AI 활용 현황과 전망을 공유했다. 이 이사는 “최근 기업들은 주로 검색, 추천, 챗봇 등에 AI를 접목해 활용하고 있다. 향후 생성형 AI는 특히 검색과 챗봇 영역에 큰 영향을 미칠 것이며, 장기적으로는 마케팅과 인프라 관리 영역으로도 확산될 것으로 보고 있다”면서도 “현재 기업들의 데이터 활용 상황을 보면, 조직 내부 데이터가 사일로(Silo)화돼 구축되고 있다. 각자 검색 데이터 결과를 통합검색으로 번거롭게 다시 모아 새롭게 구축하는 등 대부분 AI 기술이라기 보다는 일반적인 검색 기술을 많이 사용하고 있다. 아직까지는 의미검색 측면에서의 퀄리티는 많이 부족하다”고 설명했다.

이 이사에 따르면, 기업 DB 기반의 효율적인 생성형 AI 활용을 위해서는 ‘벡터(vector)’ 방식의 텍스트 인코딩 기술이 도입돼야 한다. 이전까지는 DB 문서 내 검색 단어가 얼마나 나타났는지 카운트해 단어의 중요도를 체크하는 ‘TF-IDF’ 방식이 주로 사용돼 왔다. 최근에는 단어를 벡터화해 단어 간 인접성과 유사도를 분석하는 ‘워드투벡(Word2Vec)’ 방식이 생성형 AI 활용에 쓰이고 있다. TF-IDF는 DB 내부에 존재한 단어만 검색할 수 있는 것에 반해, 벡터 기반 모델은 의미적 연계 검색도 가능해 기업들의 생성형 AI 활용을 위한 기술로 주목받고 있다.

이와 관련 디리아는 오픈소스 벡터 검색엔진 ‘엘라스틱서치(Elasticsearch)’를 기반으로, 기업들의 생성형 AI 활용도 향상을 위한 사업들을 진행하고 있다. 엘라스틱서치는 통상적인 단어 카운트 방식의 ‘BM25’ 키워드 검색 모델부터 벡터 검색 모델, 그리고 이 2가지를 합한 하이브리드 검색까지 총 3가지 형태의 검색 시스템을 제공한다. 사용자가 챗GPT와 연동된 엘라스틱서치로 검색할 경우, 벡터화된 기업 내부 모든 데이터를 검색엔진이 읽고 유사성이 높은 문서의 내용을 자동으로 추가한다. 이를 바탕으로 컨텍스트가 있는 프롬프트를 구성해 챗GPT에게 더욱 구체적인 질의를 전달하고 정확도가 향상된 답변을 제공받을 수 있다.

관련기사

저작권자 © 아이티데일리 무단전재 및 재배포 금지