NIA AI 허브 데이터로 메타 ‘라마’ 미세조정해 개발

[아이티데일리] 인공지능(AI) 전자문서 기업 유니닥스(대표 정기태)는 자사 AI 솔루션 ‘이지마이AI닥터(ezMyAIDoctor)’에 활용된 헬스케어 전문 소형 거대언어모델(sLLM)을 허깅페이스에 무료로 공개했다고 18일 밝혔다.

이번에 공개된 sLLM은 인공지능산업융합사업단(AICA) AIDC-HPC 사업의 결과물이다. 해당 모델은 한국지능정보사회진흥원(NIA)의 AI 허브에 공개된 ‘초거대 AI 헬스케어 질의응답 데이터’를 바탕으로 메타의 라마(LLaMA) 3.1 모델을 추가로 사전 학습시키고, SFT 및 DPO 등 미세 조정을 거쳐 개발됐다.

유니닥스가 자사 솔루션 ‘이지마이AI닥터’에 활용된 헬스케어 sLLM을 허깅페이스에 공개했다. (사진=유니닥스)
유니닥스가 자사 솔루션 ‘이지마이AI닥터’에 활용된 헬스케어 sLLM을 허깅페이스에 공개했다. (사진=유니닥스)

sLLM 개발에는 위키피디아를 비롯해 AI 허브(AI Hub)에 공개된 2억 어절의 ‘헬스케어 질의응답 데이터’, 20억 어절의 ‘한국어 성능이 개선된 초거대 AI 말뭉치’, 약 5천 어절의 ‘의료 및 법률 전문 서적의 말뭉치’ 등이 포함됐다.

유니닥스는 해당 모델로 MMLU 벤치마크 중 의료 카테고리에 대해 자체 테스트한 결과, 기존 라마 3.1 8B 인스트럭트 모델 대비 높은 점수를 거뒀으며, 문자열 생성 시 한글 및 의료용어 정확성이 증가함을 확인했다고 설명했다.

다만 공개된 데이터는 질병에 대한 이해를 돕기 위해 만들어진 것으로 질병의 정확한 진단과 치료 방법을 보장하지 않으며, 정확한 증상에 대한 진단은 의사와 상담할 것을 명시하고 있다.

유니닥스는 2022년 9월 AI 사업본부를 설립한 이후 다양한 AI 프로젝트를 수행하고 있다. 전자문서 외에도 다양한 산업 분야에서 과제를 진행해 왔으며, 학습 데이터 구축 및 AI 모델 개발 방법론을 제시하고 있다.

유니닥스 유석 AI사업본부장은 “이번에 공개한 sLLM을 구축하면서 쌓은 경험과 지식은 법률, 금융, 교육 등 다양한 전문 분야는 물론, 산업별 특화 문서 시스템으로 확장할 수 있을 것으로 기대된다”고 밝혔다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지