리트리버·파싱 고도화해 정확도 높은 결과 제공

[아이티데일리] ‘환각(Hallucination)’ 현상은 기업 내 생성형 인공지능(AI) 도입을 가로막는 장애물 중 하나다. 그럴싸한 AI의 거짓말은 업무에 혼란을 초래할 수 있다. 이에 기업들은 지난해부터 AI의 정확도를 높이는 검색 증강 생성(Retrieval Augmented Generation, RAG)을 주목해 왔다. 하지만 RAG는 여러 기술이 결합해 구현되는 데다, 평가 기준 역시 마련되지 않아 기업에서는 솔루션 선택에 어려움이 있는 편이다.

이에 다양한 산업별 고객사에 자체 개발한 RAG 솔루션을 공급해 온 올거나이즈는 그간 확보한 역량을 바탕으로 RAG의 한국어 성능을 평가하는 ‘알리(Alli) RAG 리더보드’를 출시했다. 리더보드를 활용하면 기업 실무자들이 가장 적절한 솔루션을 비교·도입할 수 있다는 게 회사 측 설명이다. 올거나이즈 이정훈 팀장으로부터 RAG 기술 구현 방법과 알리 RAG 리더보드에 대해 들어본다.

올거나이즈 이정훈 팀장
올거나이즈 이정훈 팀장

도입 전, 데이터로 성능 테스트 필요

RAG라는 이름은 많은 이들에게 알려졌지만, 어떻게 도입해야 하는지 아는 기업은 아직 많지 않다. 올거나이즈 이정훈 팀장은 RAG 도입의 첫 단계로 테스트 데이터 확보를 꼽았다.

이정훈 팀장은 “RAG는 일반화된 솔루션이 아니기에 각 기업 환경에 맞춰 구축해야 한다. 따라서 충분한 테스트를 통해 적절한 모델을 선택해야 성공적인 도입이 가능하다. 성능 평가를 위해 품질 좋은 테스트 데이터를 확보한다면 RAG 도입이 더욱 손쉬워질 것”이라고 설명했다.

하지만 RAG에 맞는 테스트 데이터를 자체 구축하는 일은 시간과 비용이 많이 소요된다. LLM의 경우, 리더보드를 통해 내부 도입 전에 모델 성능을 확인할 수 있다. 해외에서는 MMLU, 헬라스웩(HellaSwag) 등의 지표로 구성된 허깅페이스가 유명하며, 국내에서도 한국어 모델을 위한 ‘오픈 코-LLM(Open Ko-LLM) 리더보드’가 알려져 있다. 그에 비해 RAG는 리더보드도, 테스트 데이터도 아직 생소한 상황이다.

이 팀장은 “RAG 테스트는 국내외 모두 아직 활성화됐다고 보기 어렵다. 해외에서 공개된 테스트 데이터셋이 있었지만, 질의응답에 10개의 맥락(콘텍스트)을 제공하는 데 그쳤다. 특히 정해진 텍스트 위주여서 파싱 역량을 검증하기에 부족했다”고 지적했다.


리트리버·파싱으로 구현되는 RAG

RAG의 성능을 이야기하기에 앞서 RAG가 어떤 방식으로 구현되는지 이해할 필요가 있다. RAG는 기본적으로 리트리버(Retriever), 파싱(Parsing)이 LLM과 조화를 이루며 만들어지는 결과물이다. 리트리버는 수많은 정보 중 사용자에게 필요한 것을 찾고, 파싱은 문서, 이미지 등을 컴퓨터가 이해하는 형태로 바꾸는 역할을 담당한다. 두 기술 모두 RAG를 실제 업무에서 사용하려면 필요한 기술이지만, 구현 측면에서 어려움이 있다.

리트리버는 방대한 양의 기업 내부 데이터에서 맥락에 맞는 답변을 3~5개에서 10개까지 제공한다. 그런데 설정 범위를 벗어난 지점에 정답이 있어 답변 후보를 적절히 확보하지 못할 때 문제가 발생한다. 이 경우, 답을 찾는 시간이 오래 걸리거나 사용자에게 잘못된 결과를 제공하는 상황을 낳을 수 있다.

파싱은 다양한 문서와 이미지를 어떻게 변환하는지가 과제이다. 한국에서는 특히 표, 차트를 자주 활용하는데, 이는 컴퓨터가 읽을 수 있는 마크다운(Markdown) 등으로 변환하기 어렵다. 만약 파싱이 완전히 이뤄지지 않은 비정형 데이터를 LLM에 제공한다면 엉뚱한 내용을 전달하는 문제가 발생할 수 있다.


임베딩 활용, 파이프라인 세분화로 정확도 높여

올거나이즈는 리트리버와 파싱을 고도화해 RAG 작업의 정확도를 높임으로써 LLM의 환각 현상을 최소화하고 있다. 먼저, 리트리버에 대해서는 임베딩(Embedding)을 적극 활용했다. 임베딩은 단어 간 의미가 일치하는 정도를 수학적으로 표현한 값이다.

이정훈 팀장은 “기존 검색 엔진은 키워드, 페이지 등을 기준으로 결괏값을 얻었는데, 이것만으로 수많은 문서에서 필요한 정보를 찾아내기 어렵다. 올거나이즈는 임베딩 값으로 유사도를 판단하고 답변 후보를 추리는 방식으로 정확도를 높였다”고 설명했다.

파싱은 다양한 사례에 대응할 수 있도록 파이프라인을 세분화했다. 가령 문서, 이미지 등이 중첩된 PDF는 일차적으로 텍스트를 수집한 후, 오픈소스 라이브러리 등을 통해 표(테이블)를 찾아내 마크다운으로 변환한다. 조금 더 복잡한 차트는 LLM으로 내용 설명을 작성하고, 이를 리트리버에 전달해 결괏값을 얻는 방식을 선택했다.

이정훈 팀장은 “RAG에서 발생하는 모든 문제를 해결하는 일반화된 방법은 없다. 고객사에 맞는 방향을 모색해야 한다. 리트리버는 임베딩을 중심으로 정확도를 높이되, 고객이 원하는 결과를 위해 피드백을 바탕으로 가중치를 달리할 수 있다. 파싱은 문서, 이미지 등 다양한 형식에 적절한 파이프라인을 여러 가지 마련했다”고 말했다.

이어 이 팀장은 “고객사가 문제에 자체 대응할 수 있는 기능도 준비했다. 알리 LLM 플랫폼 내 대시보드에서 리트리버를 내부 상황에 맞게 조정하거나, 파싱 결과를 확인 후 수정할 수 있다. 전문 요소가 필요할 시 기술 지원도 적극 제공하고 있다”고 덧붙였다.

올거나이즈가 지난 5월 29일 공개한 ‘알리 RAG 리더보드’ (제공=올거나이즈)
올거나이즈가 지난 5월 29일 공개한 ‘알리 RAG 리더보드’ (제공=올거나이즈)

‘알리 RAG 리더보드’로 답변 정확도 검증

이러한 기술적 고려를 모두 반영해 올거나이즈는 지난 5월, RAG 기술의 한국어 성능을 평가하는 ‘알리 RAG 리더보드’를 공개했다. 이를 통해 기업 실무자들이 적절한 솔루션을 비교·도입할 수 있도록 지원한다는 계획이다.

올거나이즈는 알리 RAG 리더보드를 위해 금융, 공공, 의료, 법률, 커머스 등 5개 분야별로 200~300페이지의 문서를 업로드하고, 각 분야에서 사용자가 할 법한 질문 60개를 생성했다. 5개의 평가 툴 중 3개 이상에서 오류가 없을 시 ‘이상 없음’으로 판명하며, 이를 점수로 환산해 리더보드에서 확인할 수 있도록 제공한다.

이정훈 팀장은 “알리 RAG 리더보드는 파싱, 리트리버, 생성에 이르는 전 과정을 평가한다. 이는 지표를 통해 성능만을 가늠할 수 있던 LLM 리더보드와 차별화된 지점”이라고 강조하며 “금융 부문에서는 표, 테이블을 중점에 두고, 의료 부문에서는 차트 비중을 높이는 등 분야별 문서의 차이도 고려했다. 분야를 세분화한 만큼, 기업은 더 효율적으로 자사 환경에 적합한 RAG 솔루션을 찾을 수 있을 것”이라고 말했다.

올거나이즈는 기업이 RAG 도입 과정에서 어떤 솔루션이 적합한지 평가하기 어렵다는 점을 고려해 테스트 데이터셋도 모두 공개했다. 특히 다양한 요소가 복잡하게 얽혀 있는 실제 업무 문서를 정확히 평가할 수 있도록 표 및 이미지 데이터도 포함했다.

이정훈 팀장은 “RAG 리더보드는 국내에서 이번 사례가 처음이며, 해외에서도 보기 드문 편이다. 피드백을 바탕으로 업데이트를 지속해 정확성을 높여 나갈 계획이다. 기업이 자사에 적합한 솔루션을 선택해 좋은 성과를 거두는 데 알리 RAG 리더보드가 도움이 되길 바란다”고 밝혔다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지