ML 알고리즘 활용해 입력된 샘플 텍스트 분석…애플리케이션의 ML 성능 향상

[아이티데일리] 아마존웹서비스(AWS)는 국내 모바일 통신 사업자 SK텔레콤과 협력해 최초의 한국어로 학습된 오픈소스 기반 모델인 ‘KoGPT-2’을 공개했다고 28일 밝혔다.

‘GPT-2’는 머신러닝(ML) 알고리즘을 활용해 입력된 샘플 텍스트를 분석해 구문론적, 문법적, 정보적 일관성을 갖춘 텍스트로 완성하고 생성하는 자연어 처리 모델이다. 한국어로 학습된 오픈소스 기반의 ‘GPT-2’ 모델인 ‘KoGPT-2’는 일반적인 질문에 대한 응답 생성, 문장 완성, 챗봇 등 한국어 해석이 요구되는 광범위한 애플리케이션의 머신러닝(ML) 성능을 향상시킬 수 있다는 게 AWS의 설명이다.

개발자들은 ‘KoGPT-2’를 직접 사용하거나 추가 학습을 함으로써 보다 적은 자원과 NLP 지식으로도 대규모 언어 모델 학습과 같은 자연어 처리 프로세싱(NLP) 업무를 보다 빠르게 처리할 수 있게 됐다. ‘KoGPT-2’는 챗봇 구축, 텍스트 감성 예측, 텍스트 분석 기반 응답 생성에 사용될 수 있다. SK텔레콤은 자사의 사회적 미션의 일환으로 머신러닝 커뮤니티 성장에 기여하기 위해 ‘KoGPT-2’를 공개하기로 결정했다.

AWS와 SK텔레콤은 협력을 통해 양사의 NLP 전문 지식과 대규모 학습 경험을 기반으로 ‘KoGPT-2’ 모델을 학습시켰다. SK텔레콤이 제공한 한국어 데이터셋을 활용함으로써 양사는 고도로 효율적인 환경에서 한국어 모델을 개발하고 학습시켰다.

AWS 고객들의 머신러닝 사용 가속화를 돕는 프로그램인 ‘아마존 머신러닝 솔루션즈 랩(Amazon Machine Learning Solutions Lab)’과 AWS의 ‘딥러닝 엔지니어링팀’은 SK텔레콤과 함께 아마존 EC2(Amazon EC2), 아마존 S3를 위한 고성능 공유 파일 시스템 서비스인 아마존 ‘FSx for Lustre’ 등 AWS 서비스를 활용해 효율적인 대규모 학습 환경을 구축하고 조율했다.

AWS 엔지니어링 팀은 새로운 NLP용 오픈 소스 기반 딥러닝 인터페이스인 ‘글루온(Gluon)NLP’를 활용해 SK텔레콤의 학습 과정을 가속화시켰다. 또한 더 적은 수의 그래픽 처리 장치(GPU)를 사용해 더 빠르게 ‘KoGPT-2’ 모델을 학습했다.

SK텔레콤은 앞서 한국어 데이터셋을 활용해 학습된 오픈 소스 텍스트 표현 모델인 ‘코버트(KoBERT)’를 공개한 바 있다. ‘코버트’는 한국어 읽기에 특화됐으며, 챗봇 및 법적 문서 검토 등 한국어 기반 분석이 요구되는 서비스에 사용된다.

미셸 리(Michelle Lee) AWS 아마존 머신러닝 솔루션즈 랩 부사장은 “‘KoGPT-2’와 같은 고급 언어 모델 개발을 위해서는 많은 양의 학습 데이터, 상당한 양의 컴퓨팅 자원, 자연어 처리에 대한 전문 지식이 필요하다”면서, “AWS는 고성능 컴퓨팅 기반의 가장 폭넓고 깊이 있는 ML 서비스를 제공해 한국 고객들의 문제 해결, 디지털 혁신 가속화, 고객 서비스 강화, 비즈니스 최적화, 완전히 새로운 고객 경험 창출을 달성할 수 있도록 지속적으로 지원할 것”이라고 말했다.

에릭 데이비스(Eric Davis) SK 텔레콤 글로벌 AI 개발그룹장은 “ML은 디지털 전환을 촉진할 수 있는 잠재적인 가능성으로 인해 국내에서 많은 관심을 받고 있지만, 대부분 기업들이 ‘KoGPT-2’ 모델과 같은 대규모 모델 개발에 어려움이 있었다”며, “SK텔레콤은 ‘KoGPT-2’가 노년층을 위한 챗봇, 코로나19와 관련된 가짜 뉴스 차단을 위한 검색 엔진 등 한국어를 해석하는 혁신적인 애플리케이션을 개발하는 중소기업과 스타트업의 기술 역량 발전에 이바지할 수 있기를 바란다”고 말했다.

한편, ‘KoGPT-2’는 수정 MIT 라이선스(Modified MIT License) 하에 SKT AIX 센터의 깃허브 저장소에서 이용 가능하다. 관심 있는 개발자는 모델과 관련 소스를 다운로드해 프로젝트에 사용, 수정 및 적용할 수 있다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지