엔코아 김범 사업부문장

엔코아 김범 사업부문장 겸 최고기술책임자(CTO)
엔코아 김범 사업부문장 겸 최고기술책임자(CTO)

[아이티데일리] 장·복문을 이해할 수 있으며 자연어 처리 성능을 갖춘 대형언어모델(LLM) 기반 생성형 인공지능(AI)이 삶 속으로 스며들고 있다. LLM을 토대로 하는 생성형 AI는 새로운 콘텐츠를 간편하고 신속하게 창작할 수 있다는 명확한 장점이 존재하지만, 사실과는 다른 콘텐츠를 생성하는 환각(Hallucination)을 야기하기도 한다.

최근 이러한 상황에서 외부 데이터에서 정보를 찾는 방법인 검색 증강 생성(RAG)이 환각을 최소화할 수 있는 대안으로 떠오르고 있다. RAG를 구현하기 위해 필요한 벡터 DB(Vector DB)와 지식그래프(KnowledgeGraph)의 중요성도 덩달아 확대되고 있다. 엔코아 김범 사업부문장 겸 최고기술책임자(CTO)를 만나 벡터 DB 및 지식그래프와 생성형 AI의 상관관계, 엔코아의 AI 비즈니스 전략 등을 들어본다. 


LLM 보조장치, 벡터 DB

최근 대형언어모델(LLM) 기반 생성형 AI 서비스들이 많은 산업의 업무 속으로 녹아들었다. 실제로 비즈니스 문서의 작성, 요약, 분류 등 기초적인 작업부터 소프트웨어(SW) 코딩까지 많은 업무들에 생성형 AI가 적용됐다. 실제로 가트너에 따르면, 2~3년 내 전 세계 엔터프라이즈 기업의 30%는 생성형 AI를 비즈니스에 적용할 것으로 예상되며, 웹과 모바일 웹의 60%가 설계 단까지 자동화될 것으로 보인다.

하지만 생성형 AI가 만능은 아니다. 답변이 도출되는 과정이 투명하지 않아 정확성과 편향성 문제로 이어진다. 특히 데이터 보안 문제와 학습 시 요구되는 GPU 및 인력 비용 등 장점과는 대비되는 단점 역시 뚜렷하다. 생성형 AI를 구성하는 LLM은 학습한 데이터를 기반으로 완성된다. 현재의 데이터는 반영되지 않고 LLM 학습 시점까지의 데이터만 반영된다는 의미다. 이 말은 즉 LLM의 답변이 제한적이라는 의미다. 무조건 답을 만들어내야 하는 LLM에 최신의 정보가 요구되는 질문을 던졌을 때 나올 답변의 정확도는 현저하게 낮을 수밖에 없다는 것이다.

이에 대해 엔코아 김범 부문장은 “LLM을 기반으로 생성형 AI 서비스를 개발했을 경우, LLM을 개발하는 과정에서 학습한 보편적인 정보 외에 특정 정보를 답할 수 있도록 LLM의 파라미터를 조정하는 ‘파인튜닝’이라는 작업을 한다. 이후 LLM의 성숙도를 높이기 위해 ‘풀 튜닝’을 한다. 하지만 꾸준히 변화하는 기업의 데이터와 거버넌스 규칙, 서비스 품질의 요구사항과 수준 등을 고려해 LLM을 학습시킬 수는 없다. 특히 모델 학습 비용과 추론 비용, 인력, 시간 등 투입되는 공수 역시 상당하다”고 설명했다.

결국 새로운 데이터를 적시에 보충하고 부족한 답변 정확도를 높일 수 있는 일종의 보조장치가 요구되는 것이다. 그리고 이러한 보조장치로 떠오르고 있는 것이 바로 벡터 DB(Vector DB)다. 벡터 DB는 정형 데이터부터 비정형 데이터까지 모두 임베딩해 벡터 형태로 저장하고 검색하는 데 사용되는 데이터베이스(DB)다. 널리 이용되는 관계형 데이터베이스(RDB)가 정형 데이터를 저장하고 검색하는 데 최적화돼 있다면, 벡터 DB는 이미지나 문서 등 데이터 구조가 부재해 쿼리 프로세싱(Query Processing)을 할 수 없는 비정형 데이터의 저장과 검색에 용이하다.

벡터는 특정 데이터가 특정 공간에 위치하고 있는 위치정보(좌푯값, 숫자로 나열된 값)다. IT 디바이스로 명명된 벡터 DB 내 스마트폰 군집에 애플의 아이폰(좌푯값)이, 태블릿 군집에는 아이패드(좌푯값)가 존재한다고 가정한다면, 사용자가 ‘갤럭시 S24와 비슷한 스마트폰을 찾아줘’라는 질의문을 벡터 DB에 보내면, 답변으로는 애플의 아이폰(좌푯값)과 주변 기기(좌푯값)들이 나오고 이를 벡터 DB 앞단의 에이전트에서 사람이 이해할 수 있는 단어로 치환해 보여주는 것이다.

일반적으로 벡터 DB는 LLM이 학습하지 못한 데이터를 벡터 형태로 실시간으로 저장하게 된다. 이 경우 사용자가 LLM에 질의 시 데이터가 없을 경우, 벡터 DB로 넘겨 데이터를 확인한 후 다시 프롬프트 형태로 LLM에 전달, 사용자가 이해할 수 있는 단어로 답을 하는 것이다. 데이터가 부족해 정확한 답을 하지 않고 부정확한 정보를 꾸며내어 답을 하는 환각을 최소화할 수 있다는 것이다.

엔코아 김범 부문장은 “벡터 DB는 딥러닝이 존재했을 당시부터 이미 있었다. 하지만 생성형 AI라는 새로운 물결을 만나 다시금 활용처가 늘어나면서 부상하기 시작한 것이다. 최근에는 파인콘, 위비에이츠, 크로마, 비투와이즈, 포스트그레SQL(PGSQL) 벡터 서치 기능 등 상용 및 오픈소스 제품들이 존재하며 엔코아에서는 이 제품들을 테스트하고 있다. 올해부터 벡터 DB와 관련해 컨설팅, 데이터 정제, 구축 등 본격적으로 사업을 추진할 예정이다”라고 강조했다.


지식그래프, 근접 답 아닌 명확한 답 제시 가능

벡터 DB와 함께 환각을 최소화할 수 있는 또 다른 기술 개념도 존재한다. 바로 지식그래프(KnowledgeGraph)다. IT업계에서는 그래프 DB라는 이름으로 잘 알려진 지식그래프 역시 LLM과 함께 쓰일 때 시너지가 높다.

엔코아 김범 부문장에 따르면, LLM과 벡터 DB 모두 답과 근접한 데이터를 보여주는 구조다. 이와 달리 지식그래프의 경우 특정 노드와의 상관관계가 명확하게 제시되는 구조다. 가령 교통사고가 발생해 ‘상대방의 과실이 80%일 경우 내 보험료는 얼마나 오르는지’를 질문한다면, 벡터 DB나 LLM만 이용하면 ‘상대방 과실에 따라 보험료는 몇%가 상승한다’라는 답을 한다. 하지만 지식그래프를 벡터 DB, LLM과 연동해 이용할 경우 ‘상대방 과실이 80%이니 보험료는 정확히 A원 오른다’와 같이 명확한 답변을 할 수 있다는 것이다.

벡터 DB와 지식그래프를 혼용할 경우 벡터 DB에서 인덱스를 찾아 비슷한 값을 찾고, 이후 랭체인(LangChain)을 통해 그 값을 지식그래프로 보내고, 노드 간 상관관계를 분석해 명확한 답을 도출한 후 LLM에 보내 이용자가 이해할 수 있는 문장으로 답을 하는 구조다. 이를 통해 답에 근접한 결과가 아닌 답과 일치하는 명확한 결괏값을 제공할 수 있다는 것이다.

이에 대해 엔코아 김범 부문장은 “지식그래프는 벡터 DB와 함께 구축하는 경우가 많아질 것이다. 가령 우리나라의 주요 5대 도시가 어딘지 질문할 경우 벡터 DB에서 행정 데이터를 받아 지식그래프로 가서 상관관계를 분석해 인구의 수나 도시별 생산량, 지자체별 예산 등을 중심으로 5개의 도시를 말할 것이다”라면서 “기존에는 지식그래프를 시각화 도구에 국한해 사용했다면, 생성형 AI에서는 데이터 분석 도구로 이용될 것”이라고 전망했다.


엔코아 AI 사업 본격 추진, 벡터DB·지식그래프DB 적극 활용

벡터 DB와 지식그래프가 환각을 최소화할 수 있는 도구로 부상함에 따라 많은 기업들 역시 이 부분을 토대로 사업화를 고민하고 있다. 최근 SK네트웍스로 인수된 데이터 전문기업인 엔코아도 벡터 DB와 지식그래프 기반의 AI 비즈니스를 추진하고자 준비태세에 들어갔다. 먼저 엔코아는 조직 재편을 추진하고 있다. 엔코아는 기존 데이터 비즈니스를 영위한 기업인 만큼 AS-IS와 TO-BE를 컨설팅하는 컨설팅 조직을 솔루션 중심 R&D 조직으로 전환하고 있다. 기존 인력의 교육과 외부 영입을 적극적으로 추진하고 있다.

엔코아 김범 부문장은 “현재 엔코아는 ‘엔코아 3.0 시대’다. 먼저 ‘엔코아 1.0’은 컨설팅을 중심으로 했던 시기다. 2017년 이후부터 2023년까지 솔루션과 컨설팅을 결합해 비즈니스를 영위한 시기가 ‘엔코아 2.0’이다. 지금은 엔코아 3.0이다. AI 전문기업으로 전환함과 동시에 솔루션 중심 기업으로 전환하고 있다. 사내 컨설턴트도 데이터 거버넌스, 데이터 아키텍터에서 AI 전문가로 전환하고자 밤낮없이 공부하며 전문성을 갖추고 있다”면서 “올해부터는 벡터 DB와 지식그래프 기반 사업을 구체화·추진할 계획이다. 특히 고객들이 벡터 DB와 지식그래프를 도입하는 과정에서 여러 작업을 수행해야 하는데 이를 자동화할 수 있는 솔루션도 준비하고 있다. 하반기 정도에 출시할 계획이다”라고 설명했다.

이어 김범 부문장은 “올해 몇몇 고객사들과 여러 가지 구축 사례를 확보하고자 준비 중이다. 이미 공공, 제조, 해운 등 산업군 몇몇 고객은 자체 시스템들을 벡터 DB 및 지식그래프를 기반으로 구성하고자 요청하기도 했다. 엔코아는 이 같은 유의미한 구축 사례를 중심으로 관련 고객사를 적극 확보할 계획이다”라고 덧붙였다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지