[인터뷰] “고품질 AI 서비스를 위해선 학습용 데이터 품질 관리가 기본”

비투엔 AIX그룹 박순혁 그룹장

[아이티데일리] 챗GPT(ChatGPT)태풍이 불고 있다. 챗GPT가 세상에 미치는 영향이 인터넷에 버금갈 것이라는 예측도 나오고 있다. 대부분 긍정적인 예측이 많다. 그러나 모든 일이 그렇듯이 긍정적인 측면이 있으면 부정적인 측면이 있기 마련이다. 특히 챗GPT에 반드시 필요한 AI 학습 데이터의 품질에 문제가 있을 경우 나타날 수 있는 부정적인 상황에 대한 우려가 많다. 챗GPT에 대한 관심이 고조되고 있는 상황에서 비투엔의 박순혁 그룹장을 만나 학습용 데이터 품질 관리의 중요성과 품질 관리를 위안 방안 등에 대해 들어봤다.

“학습 데이터의 품질이 곧 AI 서비스의 품질로 이어진다”

Q. 챗GPT(ChatGPT)로 인해 AI 서비스 품질의 중요성이 강조되고 있다고 한다. 그 이유는?

2022년 12월 오픈 AI의 챗GPT(챗GPT) 출시 이후 글로벌 IT 시장이 뜨겁게 달아오르고 있다. 챗GPT는 5일 만에 100만 명 이상의 신규 사용자를 확보했고 월 활성 사용자(MAU)가 1억 명 이상인 것으로 추정되고 있다.

챗GPT는 텍스트를 활용하며 콘텐츠를 새로 만들어 내는 생성 AI로 프로그래밍 언어가 아닌 일상 언어(자연어)로 컴퓨터에게 특정 목적에 맞는 요청을 하고 결과를 얻는 것이 특징이다. 어렵기만 했던 AI가 대중성이라는 강력한 무기를 장착하고 나타난 것이다. 우리나라는 물론 세계 각국 모든 산업 분야에서 챗GPT를 활용하기 위한 논의가 진행 중이다.

오픈 AI의 챗GPT를 필두로 구글의 바드(Bard), 메타의 라마(LLaMa)까지 공개되며 초거대 생성 AI 언어 모델을 둘러싼 빅테크 간 대격돌이 시작된 것이다.

하지만 많은 전문가들은 챗GPT를 사용하면서 나타나고 있는 오답, 폭력성, 인종차별, 성차별, 가짜 뉴스와 같은 서비스 품질에 대해 우려를 나타내고 있다. 이와 같은 문제가 존재하는 이상 AI 서비스가 우리 생활에 깊이 침투하지 못할 것으로 예측하고 있다.

AI 서비스 품질을 위해서는 알고리즘의 성능이 좋아야 한다. 그리고 이 알고리즘의 성능은 AI 학습 데이터의 품질에 의해 결정된다. 고성능의 AI 서비스를 위해서는 고품질의 AI 학습 데이터를 확보해야 한다는 의미이다.

Q. 국내에서도 AI 서비스 품질 강화를 위한 움직임이 있는지?

영국의 데이터 분석업체 ‘토터스인텔리전스’에서 한국의 인공지능(AI) 경쟁력이 조사대상 62개국 중 7위라고 발표했다. 정부는 2027년까지 한국의 인공지능(AI) 경쟁력을 세계 3위 수준으로 끌어올리겠다는 목표로 총 6조원을 투자할 계획이며, ‘신성장 4.0 전략’ 추진 대책에 따라 한국판 챗GPT 개발을 위한 제도적 지원 방안을 마련하겠다고 밝혔다.

오픈 AI의 챗GPT는 영어 기반으로 구동해 한국어 처리가 미흡하다. 이에 카카오와 네이버, SKT, KT 등과 같은 대기업들은 자체적으로 한국판 초거대 생성 AI 언어 모델을 구축할 것이라고 발표했고, 문화체육관광부와 국립국어원은 이를 지원하기 위해 2027년까지 한국어 특성을 반영한 고품질 말뭉치 10억 어절을 구축한다는 방침이다.

이러한 초거대 생성 AI 언어 모델 구축을 위해서는 다양한 산업과 주제(도메인)를 가진 많은 양의 학습 데이터가 필요하다. 사실 정부는 이전부터 AI 학습 데이터 구축의 필요성을 인지하고 2018년부터 인공지능(AI) 학습용 데이터 구축 사업을 진행해왔다. 그리고 인공지능(AI) 학습 데이터의 품질을 위해서 단계별 품질관리 방안을 수립하고, AI 학습 데이터의 품질 검증을 위한 별도의 사업을 전개해왔다.

몇 년 전 까지만 해도 인공지능(AI) 모델의 핵심 화두는 많은 양(Quantity)의 학습 데이터를 확보하는 것이었다. 하지만 챗GPT 출시를 기점으로 데이터 편향 및 윤리적인 이슈가 없는 학습 데이터의 품질(Quality)을 확보하고 이를 인공지능(AI) 서비스 품질로 이어지게 하는 것으로 그 초점이 빠르게 이동하고 있다.

Q. 인공지능 학습용 데이터 구축 사업에 대해서 조금 더 자세히 설명해 달라.

인공지능(AI) 학습용 데이터 구축 사업은 과학기술정보통신부와 한국정보사회진흥원(이하 NIA)에서 추진하는 정부 주도 사업이다. 인공지능(AI) 성능은 학습용 데이터와 직결되므로 고품질, 대규모 데이터 확보를 위한 국가적 지원 필요성이 증대됨에 따라 추진되었다. AI 연구, 기술, 서비스 개발을 위한 학습용 데이터 셋을 구축하고 AI Hub를 통해 누구나 활용할 수 있도록 민간에 개방하는 것이다.

학습용 데이터 셋 완성을 위해서는 과제별 학습 데이터의 세부 요건을 정의하고 수집, 정제, 라벨링(가공), 학습 데이터 품질 평가, 모델 학습, 모델 품질 평가 등의 작업이 필요하다.

“AI 학습 데이터의 품질관리는 수집부터 시작되어야 한다”

Q. AI 학습용 데이터 구축사업에서 품질관리는 어떻게 진행해야 하는지?

AI Hub에 공개된 ‘인공지능(AI) 학습용 데이터 품질관리 가이드라인’을 기준으로 사업 계획 수립부터 수집, 정제, 라벨링(가공) 등 학습 데이터 개방까지 전체 프로세스에 걸쳐 단계별로 체계적인 품질 관리를 진행해야 한다.

특히 수집 단계에서 정의한 품질 기준을 달성하지 못할 경우, 정제 및 가공에 불필요한 비용과 시간이 추가적으로 발생하기 때문에 주의가 요구된다. 이후 정제 단계에서는 비식별화, 해상도 및 사이즈 조정, 노이즈 제거 등의 활동을 기준에 맞게 수행하고 라벨링 대상이 되는 원천 데이터를 생성한다. 이후 모델 학습에 정답 값으로 입력될 라벨을 생성하고 원천 데이터와 라벨링 데이터로 구성된 학습 데이터 셋을 완성하게 된다.

마지막으로 학습 데이터 품질 평가 단계에서는 구문 정확성, 통계 다양성, 의미 정확성 3개의 주요 지표에 대한 품질 검증을 실시하여 라벨링 데이터의 구조 및 값의 정확성 점검, 인스턴스 및 카테고리의 통계적 편향성 예방, 의미 정확성을 점검하여 라벨 값의 품질을 확보한다.

인공지능 학습용 데이터 구축사업에서는 한국정보통신기술협회(이하 TTA)가 품질 검증 전담 조직으로 구축된 학습 데이터의 품질을 최종적으로 검증한다. 과제별 검사기준서 및 항목별 측정 조건을 확정하고 해당 문서를 기준으로 체계적인 품질 검증을 실시한다.

NIA는 인공지능(AI) 학습용 데이터 품질관리를 위한 전문가 및 전문 도구의 활용을 권고하고 있다. 비투엔은 다양한 도메인의 학습 데이터 품질관리 경험을 보유한 전문가와 많은 레퍼런스를 보유한 학습 데이터 품질관리 도구인 ‘SDQ for AI’를 활용하여 2020년부터 각종 과제에 참여하여 인공지능(AI) 학습 데이터 품질관리의 핵심적인 역할을 수행하고 있다.

Q. SDQ for AI에 대해 소개해 달라.

비투엔은 지난 2021년 인공지능(AI) 학습용 데이터 품질관리 솔루션인 ‘SDQ for AI’를 출시했으며 현재까지 인공지능(AI) 학습 데이터 품질관리 분야에서 많은 레퍼런스를 보유하고 있다. SDQ for AI는 ‘어노테이션 자동 진단 시스템’ 기술 특허를 기반으로 구현돼 AI 학습 데이터에 대한 파일 완전성, 구조 및 형식 정확성, 값의 유효성 등 구문적 정확성 검사와 데이터 편향성 예방을 위한 통계적 다양성 분석 기능을 제공한다.

또한 다양한 포맷(JSON, XML, CSV, TSV, TXT)의 라벨링 데이터에 대한 품질 검증을 제공하고, 복잡한 반정형 데이터 구조를 시각화하여 보다 직관적으로 정확하게 데이터 품질을 관리할 수 있도록 지원한다. 나아가 ‘SDQ for AI’는 노코드·로우코드로 누구나 손쉽게 데이터 품질 지표를 설정하고 측정·관리할 수 있어 시장에서 좋은 평가를 받고 있다.

‘SDQ for AI’는 TTA가 2021년부터 도입해 ‘인공지능(AI) 학습용 데이터 구축 사업’에서 구축되는 학습 데이터의 구문적 정확성, 통계적 다양성 2개 지표에 대한 검사에 활용하고 있다. 또 파일의 완전성, 구조의 정확성, 값의 유효성에 대한 세부적인 데이터 품질을 빠른 시간 내에 효과적으로 검증하였다. 클래스, 인스턴스의 단순한 분포뿐만 아니라 빅데이터 분석 기반의 통계적 다양성 검증을 통하여 구축된 학습용 데이터의 편향성이 존재하는지에 대해서도 철저하게 검증하였다.

이 밖에도 지난 3년 동안 인공지능(AI) 학습용 데이터 구축 사업에 참여하는 다수의 컨소시엄에 ‘SDQ for AI’가 도입되어 고품질의 인공지능(AI) 학습용 데이터를 확보하는데 활용되었다.

Q. ‘SDQ for AI’의 특징이 있다면.

‘SDQ for AI’는 GS 1등급을 획득한 인공지능(AI) 학습 데이터 품질관리 솔루션이다. 지난 3년간 총 670여 종의 다양한 도메인의 학습 데이터들의 품질 검증을 수행하며 범용성, 성능 및 안정성을 입증받았다.

AI 학습에 사용되는 비정형 데이터는 도메인에 따라 데이터의 특성과 구조가 천차만별이라서 단일한 솔루션으로 대응하기가 쉽지 않다. 하지만 ‘SDQ for AI’는 복잡한 인공지능(AI) 학습 데이터의 구조를 자동으로 분석하여 사용자가 시각적으로 전체 구조를 이해하고 세부 검사 규칙을 작성할 수 있는 ‘검사 규칙 자동 생성 기능’을 탑재하고 있다.

또한 다양한 유형의 학습 데이터들이 혼재되어 있는 저장소에서 조건에 맞는 학습 데이터들을 선별 추축하는 기능을 통해 보다 효율적인 품질관리가 가능하다. 이뿐만 아니라 업무 규칙 또는 특정 조건에 따라 검사되어야 하는 구조와 값 검사를 지원하기 때문에 보다 정밀한 인공지능(AI) 학습 데이터의 품질 검사를 제공한다.

김선오 기자 sokim9303@itdaily.kr

다른기사 보기

상단영역

본문영역

[인터뷰] “고품질 AI 서비스를 위해선 학습용 데이터 품질 관리가 기본”

비투엔 AIX그룹 박순혁 그룹장

기사 댓글 0

비회원 로그인