비즈니스 발굴 및 업무 혁신 위해 전 산업군 적용 확대일로
기술 고도화 및 산업 활성화 지원 사업 확대…보안·신뢰성은 숙제

[아이티데일리] 바야흐로 인공지능(AI)의 두 번째 황금기가 도래했다. 구글의 알파고가 2016년 처음 모습을 드러낸 지 약 7년 만이다. 첫 번째 AI 혁신은 애플리케이션 및 서비스에 적용됐는지 조차 알 수 없을 정도로 빠르게 우리 삶 깊숙한 곳으로 침투했다. 일반 사용자는 체감하기 어려울 정도였다. 이후 지난해 말 IT 전문 지식이 없는 이용자도 직접 AI를 마주할 수 있는 두 번째 AI 혁신이 찾아왔다. 바로 생성형 AI다.

기업들은 비즈니스 활로를 모색하고 서비스를 고도화하는 등 여러 이유로 생성형 AI에 IT 역량을 모으고 있다. 기업들은 생성형 AI에 전사적인 힘을 모으고 있지만 생성형 AI의 변화 속도가 워낙 빨라 추이를 예측하는 데 어려움을 겪고 있다. 생성형 AI 저변화의 선봉에 섰던 챗GPT(ChatGPT)와 같은 거대언어모델(LLM)부터 달리(Dall-E)와 같은 이미지 생성 AI까지, 또 이를 결합한 새로운 거대멀티모달(LMM)이 등장하기까지 채 1년밖에 걸리지 않았다.

본지(컴퓨터월드/IT DAILY)는 창간 38주년 특별기획으로 두 번째 AI 혁신인 생성형 AI와 이를 활용하기 위한 기업들의 전략과 정부의 지원 정책 그리고 보안·신뢰성에 대한 우려의 시각, 클라우드 기반 생성형 AI 등을 조명해 생성형 AI가 불러온 변화와 앞으로의 미래를 예측해 봤다.

1부- 산업 전방위로 확산되는 생성형 AI

2부- 보안·신뢰성 우려에 각국 대응책 마련 고심…XAI 중요성 부각

3부- 클라우드에 스며든 생성형 AI 물결

4부- ‘초거대 AI 경쟁력 강화 방안’으로 산업 생태계 기반 마련

 

[1부] 산업 전방위로 확산되는 생성형 AI

챗GPT가 촉발한 생성형 AI, 이미지 생성 AI로 확대

 

생성형 AI는 알고리즘을 토대로 콘텐츠, 예술, 음악 등을 만들고 생성할 수 있도록 하는 기술이다. 독창적인 결과를 생성하기 위해 인간의 행동, 사고 과정 및 창의성을 시뮬레이션할 수 있는 알고리즘을 기반으로 하며, 알고리즘에 적용된 매개변수와 이전에 학습한 패턴을 바탕으로 새로운 콘텐츠나 데이터를 생성한다. 기존 데이터를 단순히 가공하거나 분석하는 것이 아니라, ‘새롭고 독창적인’ 콘텐츠를 생성하는 것이다. 일반적으로 생성형 AI 모델은 패턴을 학습하고 훈련 데이터와 유사한 새로운 출력을 생성하기 위해 대규모 데이터셋에서 훈련된다.

생성형 AI는 오픈AI(OpenAI)사가 2022년 11월 GPT-3.5(Generative Pre-trained Transformer) 모델 기반 ‘챗GPT(ChatGPT)’를 출시하면서 대중에게 크게 인식되기 시작했다. GPT는 딥러닝을 사용해 인간과 유사한 텍스트를 생성하는 대규모 자연어 기술이다. 출시 5일 만에 100만 명이 넘게 챗GPT를 이용했고 한 달이 지난 시점에는 대략 1,000만 명이 가입했으며, 2달 만에 이용자 1억 명을 기록하기도 했다. 또한 오픈AI는 4개월 만에 GPT-4라는 새로운 대형언어모델(LLM, Large Language Model)을 출시했다.

GPT 언어모델 변천사와 파라미터 개수 (출처: 네이버클라우드)
GPT 언어모델 변천사와 파라미터 개수 (출처: 네이버클라우드)

챗GPT가 생성형 AI를 대표하는 것은 맞지만, 유일하지는 않다. 달리(DALL·E), 미드저니(Midjourney)와 같이 텍스트를 기반으로 이미지를 생성할 수 있는 이미지 생성 AI도 존재한다. 복잡한 자연어 프롬프트를 이해해 사람이 그린 것 같은 정교한 이미지를 생성하는 것이다. 이미지 생성 AI는 짧은 단어에 그치지 않고 긴 문장까지 소화하며 이를 구체적인 이미지로 표현한다. 이를 지탱하는 기반 기술은 ‘확산(Diffusion) 모델’과 ‘적대적 생성 신경망(GAN, Generative Adversarial Network) 모델’이다.

확산 모델은 노이즈로 구성된 원본 이미지에서 노이즈를 점진적으로 제거해 원본에 가까운 이미지를 생성하는 기술이다. AI는 형체를 알아볼 수 없는 상태에서 원본에 가까운 상태로, 그리고 다시 반대로 오가는 작업을 반복하며 결과를 학습한다.

적대적 생성 신경망 모델은 생성자(Generator)와 구분자(Discriminator) 간의 적대적 대립을 통해 실제와 구분하기 어려운 가짜 데이터 생성을 유도한다. 생성자는 실제가 아닌 데이터를 만들고 구분자는 그 데이터를 실제와 구별하는 역할을 맡는다. 이런 과정을 반복해 실제와 아주 가까운 이미지를 생성한다.

초기 이미지 생성 AI는 적대적 생성 신경망 모델이 중심이었으나 생성자와 구분자가 고루 학습되지 않으면 편향적인 결과를 낳을 수 있다는 단점이 있었다. 학습 및 생성에 더 안정적인 확산 모델이 자연어 프롬프트로부터 이미지를 생성하는 데 두각을 나타내기 시작했고, 많은 이미지 생성 AI가 확산 모델을 채택하고 있다.


HW·클라우드·파운데이션 모델 등 생성형 AI 생태계 구성

업계에 따르면 생성형 AI 생태계에는 아키텍처 하단을 기준점으로 크게 △하드웨어(HW) △클라우드 △파운데이션 모델 △ML옵스(MLOps) △애플리케이션 △서비스 등 크게 여섯 개 업계가 참여하고 있다.

먼저 생성형 AI를 지탱하는 HW다. 일반적으로 생성형 AI는 콘텐츠를 생성하기 위해 수많은 데이터와 파라미터 학습이 요구된다. 오픈AI의 GPT-3는 약 45테라바이트(TB)의 텍스트 데이터로 훈련된 것으로 알려진다. 이 같이 수많은 데이터를 학습하기 위해선 수십억 개의 매개변수를 병렬로 처리할 수 있는 가속기 칩을 갖춘 그래픽처리장치(GPU)나 텐서처리장치(TPU)로 구성된 대규모 클러스터가 필요하다.

이렇게 생성형 AI 모델을 훈련했더라도 대규모 클러스터를 기반으로 모델을 조정하고, 애플리케이션에서 실행해야 한다. 이를 위해선 AI 프로세서가 필요하다. 때문에 기존 컴퓨터 HW 역량을 보유한 엔비디아(NVIDIA)와 AMD, 인텔(Intel), 구글(Google) 등 기업이 주목받고 있다.

다음은 클라우드다. 현재 생성형 AI를 구축·학습·구동하기 위해 필요한 GPU와 TPU는 가격이 비싼 데다 공급이 부족한 상황이다. 때문에 많은 기업들이 대규모 AI 모델을 구축하고 조정 및 실행하는 작업을 클라우드에서 수행하고 있다. 필요한 만큼 GPU 사용량을 늘리고 줄일 수 있기 때문이다. 아마존웹서비스(AWS), 마이크로소프트(MS)와 같은 해외 클라우드 서비스 제공사(CSP)부터 네이버클라우드, KT클라우드 등 국내 CSP까지 대부분의 CSP들은 생성형 AI 워크로드를 실행하고 이를 구동할 수 있는 서비스를 제공하고 있다.

다음은 생성형 AI의 핵심인 파운데이션 모델이다. 파운데이션 모델은 쉽게 말하면 생성형 AI의 근간으로 자리하고 있는 알고리즘 모델이다. GPT-3, GPT-4, 라마 등이 대표적이다. 파운데이션 모델은 인간의 뇌에 연결된 수십억 개의 뉴런에 영감을 받은 확장된 인공신경망(ANN, Artificial Neural Network)을 포함하고 있다. 다만 생성형 AI 애플리케이션을 구동하는 파운데이션 모델은 이전의 딥러닝 모델과는 달리, 매우 크고 다양한 형태의 비정형 데이터를 처리하고 여러 작업을 수행할 수 있다는 점에서 차이가 있다.

파운데이션 모델을 훈련하기 위해선 상당한 컴퓨팅 자원이 필요하다. 통상 모델 훈련 과정의 초반에는 무작위 결과를 출력하고 이후 정확도를 높이기 위해 신경망의 가중치를 조정하기도 하며, 이 같은 과정을 수백만 번 수행한다.

최근에는 sLLM(small Large Language Model)과 같이 특정 산업 및 기업을 위한 작은 규모의 모델이 인기를 끌고 있다. 실제로 대기업이나 데이터의 보안 중요도가 높은 기업의 경우 LLM을 자사가 보유한 IT 환경에서 동작하고자 sLLM 형태로 파운데이션 모델을 도입하고 있다.

다음은 ML옵스다. 생성형 AI 생태계에서 ML옵스는 파운데이션 모델을 활용해 애플리케이션을 구축하기 위해서는 파운데이션 모델을 적용하고 애플리케이션 내에 배포하기 위한 도구다. 추가 훈련 데이터를 통합하고 레이블을 지정하거나 애플리케이션이 모델과 상호 작용할 수 있는 API를 구축하는 기능이 포함된다.

소스코드가 공개되지 않은 특정 기업의 상용 모델의 경우 라이선스 계약을 통해 파운데이션 모델에 접근할 수 있도록 API를 제공하거나, ML옵스 기능을 제공해 모델을 조정하고 다양한 애플리케이션에 배포한다. 허깅페이스(Hugging Face)나 AWS와 같은 기업은 자체적으로 보유한 데이터를 활용해 파운데이션 모델을 튜닝하고 전체적인 ML옵스 기능을 서비스로 제공한다.

다섯 번째는 애플리케이션이다. 일반적으로 생성형 AI 애플리케이션은 파운데이션 모델을 그대로 이용하는 애플리케이션 혹은 파인튜닝된 파운데이션 모델을 기반으로 하는 애플리케이션등 두 가지로 구분된다. 이와 관련, 삼성SDS 측은 “파운데이션 모델을 그대로 사용한 애플리케이션은 주로 특정한 사용자 인터페이스를 생성하거나 고객의 요청을 더 잘 이해할 수 있도록 문서에 가이드 및 검색 인덱스를 추가하는 등의 일부 맞춤화 작업을 수행하는 데 쓰인다”며 “파인튜닝된 파운데이션 모델을 기반으로 특화 콘텐츠를 제공하거나, 매개변수가 조정된 모델을 활용해 특정 사용 사례에 대한 결과물을 제공하는 애플리케이션도 많이 이용된다”고 말했다. 이어 “아직은 생성형 AI 시장 초기 단계이기 때문에 특정 산업 및 기능을 위해 미세 조정된 모델로 구축된 애플리케이션이 더 많은 가치를 제공할 것으로 예상된다”고 첨언했다.

마지막은 생성형 AI를 활용하기 위한 서비스 및 전문 지식 서비스를 제공하는 경우다. 생성형 AI가 부상함에 따라 기존 AI 서비스 제공사들은 특정 기능, 산업, 다양한 맥락에서 효과적인 루프 구축 방법 등에서 생성형 AI를 적용하고 있다. 또 특수 산업 및 기능 관련 노하우나 지식을 보유한 기업들도 이 시장 진출을 추진하고 있다.


이커머스, 제조·공정, 금융, 법조계 등으로 적용 확대

생성형 AI가 부상하자 전 산업군, 무수히 많은 기업들은 기존 비즈니스에 생성형 AI를 접목해 가치를 만들고자 노력하고 있다. 대표적으로 이커머스 업계를 들 수 있다. 이커머스 업계에서는 AI 기술을 사업 곳곳에 접목해 업무 효율성을 극대화하고 불필요한 비용을 줄이고자 노력하고 있다. 주로 맞춤형 제품 추천, 자동화 풀필먼트 시스템, 보이스·챗봇 상담 등에 생성형 AI가 적용되고 있다.

롯데온의 경우 글로벌 AI 기업 업스테이지의 검색 추천(Suggest) AI 기술을 이용하고 있다. 이를 통해 소비자의 쇼핑 데이터와 니즈에 기반해 고도화된 개인화 추천 서비스를 마련했다. 이전에는 나이, 성별, 직업 등 기본 정보만 수치화해 유사 상품을 추천하는 정도에 불과했다.

에이블리는 애플리케이션 출시 초부터 자체 개발한 추천 기술로 소비자가 원하는 상품을 매칭해 선보이고 있다. 메타(Meta)와 손잡고 AI 기반 마케팅 측정 기술까지 적용했으며, 카카오스타일의 지그재그는 AI 기술을 이식해 선호 쇼핑몰, 관심 상품, 구매 이력 등에 따른 추천 상품을 제안하고 있다. 이용자가 촬영한 사진과 비슷한 상품을 지그재그에서 골라주는 서비스 ‘직잭렌즈’도 최근 운영에 들어갔다.

제조·공정 산업군 역시 생성형 AI 도입을 적극적으로 추진하고 있는 산업군 중 하나다. 사실 제조·공정 부문은 ICT 혁신 기술 채택이 느린 산업군으로 분류된다. 내부 IT 전문 인력이 부족하고 일상적인 작업들은 나름대로 최적화하고 자동화해 크게 신기술 도입 필요성을 느끼지 못하고 있기 때문이다. 그러나 최근에는 제조·공정 산업에서도 생성형 AI를 도입하기 시작했다. 주로 공장 유지보수와 반복 작업 및 반복 프로세스, 공급망 관리 예측 등 부분에 적용되고 있다.

두산에너빌리티는 에너지 생산 및 운영 효율을 높이고자 SK(주) C&C의 ‘생성형 AI 기반 이상 진단 서비스’를 도입했다. 이상 진단 과정에서 가장 많은 시간이 소요되는 이상·고장 분석 및 보고서 제작 영역에 초점이 맞춰졌다. 통상 고장 발생 후 유사 사례를 분석해 원인을 찾고, 대응 방안을 찾기까지 최소 수일에서 수주가 소요되는데 생성형 AI 기술 기반 유사 사례 데이터 분석을 통해 대응 방안 제시 시간을 크게 단축할 수 있었다.

이와 관련해 SK(주) C&C 측 관계자는 “두산에너빌리티는 공장유지보수에 생성형 AI를 적용, 업무 효율성을 높이고 있다. 자사 서비스가 제공하는 과거 유사 사례 보고서를 통해 ‘이상 진단 보고서’를 제작할 수 있다. 이상 진단 보고서는 AI 분석 결과를 바탕으로 이상 및 고장 개요, 분석 목적·대상·결과, 고장 대응 권장사항 등을 초안 형태로 정리해 보여준다. 업무 담당자는 생성형 AI가 제작한 보고서를 최종 검토하기만 하면 되기 때문에 직접 보고서를 작성하는 것과 비교해 시간을 크게 줄일 수 있다”고 부연했다.

마지막으로는 가장 고리타분한 산업군인 법조계에서도 생성형 AI 적용이 예고되고 있다. 법조계에서는 생성형 AI를 업무 지원, 판결문 작성, 실무 편람, 법령 정보 분석 등에 활용될 것으로 예상하고 있다.

한 생성형 AI 모델 제공사의 관계자는 “법조계에는 수많은 법률 데이터가 쌓여 있다. 이를 학습시켜 sLLM을 구축하면 법조인은 업무 비서로 활용해 판례를 출처와 쉽게 찾아볼 수 있고, 관련 법령 정보를 분석할 수도 있으며 판결문 작성 도우미로도 활용할 수 있다”면서 “만약 생성형 AI를 도입해 판결문을 작성할 경우 3,000명의 인원으로 6,000~10,000명의 법관의 업무 효율을 낼 수 있을 것으로 추산된다”고 설명했다.

우리나라 대검찰청도 사건처리 업무에 생성형 AI 도입을 추진하고 있다. 검찰은 보유한 데이터로 자체 LLM을 구축한 뒤 이를 생성형 AI에 학습시켜 사건 처리 단계별로 활용한다는 계획이다.

대검찰청은 최근 ‘생성형 AI의 검찰 사건처리업무 활용방안 연구’라는 이름으로 용역을 발주했다. 검찰은 이번 연구를 통해 생성형 AI 도입을 위한 중·장기 마스터플랜을 수립할 예정이다. 검찰은 형사절차 완전 전자화 및 차세대 형사사법정보시스템(KICS) 도입에 따라 구축되는 디지털 수사자료 빅데이터를 이용한 AI 활용 가능성이 증대됨에 따라 연구 용역을 발주한 것으로 알려진다.

검찰은 KICS에서 보유한 사건 DB 및 조서·공소장·판결문 등 전자문서, 디지털 수사자료 등 수사자료 일체를 이용해 LLM을 구축하고 검찰 내·외부 사건처리 관련 책자 및 법제처 법령정보 등 온·오프라인 참고 자료도 LLM에 포함시킨다는 방침이다. 검찰은 생성형 AI를 수사, 결정, 공판, 집행 단계별 사건처리업무 지원 업무에 적용한다. KICS 자료와 연계해 사건관계인 진술 요약·분석, 수사서류 초안 작성, 범죄 구성요건·소추요건 충족 여부 검토, 형량 제안 등에도 활용할 계획이다. 물론 법조계의 경우 생성형 AI 도입이 열려있지는 않다. 입법 및 행정 규제, 법원의 판결 관련 데이터, 법조인과 AI 기업 간 분쟁, AI 오류 발생 시 대응 가능한 입법 정책 부족 등의 문제가 있기 때문이다.

한편, 생성형 AI는 일반 기업에서도 적극 도입하고 있다. 비아이매트릭스는 기존 회사가 보유한 솔루션인 ‘UI봇’, ‘DB봇’ 등 로우코드 솔루션에 챗GPT 기반 생성형 AI를 결합해 데이터 분석 영역에 특화된 솔루션인 ‘지매트릭스(G-Matrix)’를 출시하기도 했다. 자연어 처리 기술, 대화형 AI 기술, SQL 생성 기술, 데이터 분석 화면 생성 기술 등이 적용돼 기업의 다양하고 방대한 DB 환경에서 자연어 질의를 통한 데이터 조회와 분석 서비스를 제공한다. 회사는 내년부터 지매트릭스를 기반으로 국내·외 AI 비즈니스 확대에 박차를 가한다는 계획이다.

GPT-3에서 챗GPT(GPT-3.5)로의 달라진 점 (출처: 네이버클라우드)
GPT-3에서 챗GPT(GPT-3.5)로의 달라진 점 (출처: 네이버클라우드)

 

[2부] 각국 대응책 마련 고심…XAI 중요성 부각

생성형 AI 확대에 ‘보안 위협’ 목소리 높아

 

챗GPT가 촉발한 생성형 AI가 산업 전방위에 스며들기 시작하면서 보안 위협을 우려하는 목소리도 커지고 있다. 사이버 공격을 위해 생성형 AI를 이용하거나 생성형 AI를 도입해 학습·사용하는 과정에서의 정보 유출 등 문제가 제기되고 있는 것이다. 이에 따라 우리나라를 비롯해 각국에서는 대응책을 마련에 고심하고 있다.

먼저 우리 정부는 생성형 AI가 확산되자 빠르게 기술 활용 보안 가이드라인을 배포했다. 국가정보원이 AI 확산으로 인해 업무상 비밀 또는 개인정보 유출, 가짜뉴스와 비윤리적인 자료 생성 등 악용 우려가 있다고 보고 정부 기관들이 최신 기술을 활용해 안전하고 효율적으로 업무를 처리할 수 있도록 가이드라인을 배포한 것이다.

해당 가이드라인에는 생성형 AI에 대한 개요는 물론 보안 위협과 안전한 사용 방안이 포함돼 있다.

행정안전부 역시 안내 가이드를 마련했다. 행정안전부는 지난 5월 챗GPT에 한정된 주의사항을 담은 안내문을 약 300개 정부 기관에 배포했다. 해당 안내문에서 행안부는 의사결정이 완료되지 않거나 공표되지 않은 정보는 생성형 AI에 입력하지 않을 것을 권고했다. 행사 참석자와 민원인들의 정보와 같이 업무 처리 과정에서 수집한 개인정보도 챗GPT와 공유하지 않을 것을 명시했다. 챗GPT의 답변 자체의 진실성도 유의사항으로 제시됐다. 생성형 AI가 만들어낸 정보가 거짓일 수 있다는 점 때문에 별도로 검증할 것을 요청한 것이다.

정부는 생성형 AI 도입과 관련해 조심스러운 입장을 보이고 있다. 한 공공기관 관계자는 “대부분 공공기관들이 생성형 AI 서비스를 업무에 적용하는 과정에서 개인정보 유출 우려, 낮은 답변 정확도, 고비용 등을 우려한다. 공공분야의 정책·행정서비스의 핵심은 신뢰성인데, 가끔 잘못된 정보나 무의미한 답변을 하는 ‘할루시네이션(hallucination, 환각)’ 현상을 우려하고 있다. 이는 공공업무에서 치명적인 약점이 될 수 있다”며 “민간 모델을 도입하자니 민감한 정보가 유출될 우려가 있고, 공공에서 자체 언어모델을 구축하려면 천문학적인 비용이 들기 때문에 신중한 입장일 수밖에 없다. 그럼에도 정부는 NIA와 함께 지난 6월 생성형 AI 도입에 적합한 공공분야와 구축 방안 등 기준을 제시하기 위한 사업에 착수했고, 올해 말 가이드라인을 마련할 예정”이라고 말했다.

보안에 대한 우려는 국내만의 문제가 아니다. 해외 각국에서도 생성형 AI가 촉발할 수 있는 문제들에 선제대응하고자 전략 마련에 고심하고 있다. 외신에 따르면 미 대통령 비서실은 매주 2~3차례 회의를 열고 AI의 안전한 사용에 관한 연방정부 정책을 개발하고 있으며, 영국은 올해 AI 규제에 관한 세계 첫 정상회의를 개최할 예정이다. 영국 정부는 지난 6월 성명을 내고 “주요 국가, 선도적 기술 기업, 연구자가 모여 AI의 가장 주요한 위험을 평가하고 감시하기 위한 안전조치에 합의할 예정”이라고 밝힌 바 있다.

특히 유럽연합은 AI 규제와 관련된 법률 제정에 나서는 등 적극적으로 규제를 마련하고 있다. 유럽의회는 유럽연합 집행위원회가 초안을 발의한 지 2년 만에 유럽 전역에 AI를 규제하기 위한 법안 협상안을 가결했다. 해당 협상안에는 생성형 AI가 만드는 콘텐츠에 AI에 의해 생성됐다고 명시하고 AI 훈련에 어떤 정보가 활용됐는지 공개해야 한다는 내용이 담겨 있다. 유럽연합은 연내 협상 타결을 목표로 법 도입을 위한 마지막 절차를 진행 중이다.


생성형 AI 신뢰도 향상 방안 고심해야

생성형 AI에 대한 관심도에 비례해 생성형 AI에 대한 신뢰도를 우려하는 목소리도 높다. 이런 상황에서 생성형 AI에 대한 신뢰 우려를 해소할 수 있는 방안으로 ‘설명가능한 AI(XAI, eXplain AI)’의 중요성도 부각되고 있다. XAI는 단어 그대로 신뢰할 수 있는 AI를 의미한다.

전통적인 컴퓨팅 시스템의 의사결정 과정은 프로그램 소스코드로 투명하게 표현할 수 있는 것에 반해 AI 알고리즘은 세부적인 로직을 소스코드처럼 명시하거나 해석하기 어려워 흔히 ‘블랙박스(BlackBox)’에 비유된다.

XAI는 이러한 블랙박스의 구조와 인풋(입력값), 아웃풋(출력값)의 인과관계를 투명하게 파악해 신뢰할 수 있도록 하는 활동을 의미한다.

생성형 AI 모델의 기술 근간은 신경망 알고리즘이다. 신경망 알고리즘은 동작 원리와 학습 과정을 명확히 설명하기 어려운 구조이다. 근간이 되는 파운데이션 모델의 구조가 복잡해지면서 입력값과 출력값의 인과관계를 투명하게 파악하기 어렵다는 것이다. 이런 이유로 생성형 AI 답변에 대한 신뢰도가 낮아질 수밖에 없다. 특히나 생성형 AI가 인간의 기본권이나 안전, 핵심 산업 설비와 관련이 돼 있다면 오류는 치명적일 수밖에 없다.

그렇다면 XAI를 구현하는 방법은 무엇일까. 업계 관계자들에 따르면, 의사결정 나무(Decision Tree)와 같은 알고리즘을 사용하는 것을 꼽는다. 쉽게 말해 AI 모델이 어떤 데이터를 입력 받아 어떤 결과를 출력하는지, 그 과정이나 규칙을 사람이 쉽게 이해할 수 있는 나무 형태의 알고리즘 구조로 설명하는 것이다.

구체적으로 의사결정 나무는 데이터를 분류하기 위해 여러 조건을 순차적으로 적용하는 방법을 채택한다. 각 조건은 ‘예’와 ‘아니오’로 답할 수 있는 질문으로 표현된다. 가령 네비게이션 AI 모델에 ‘집으로 가는 길이 올림픽대로가 남부순환로보다 빠른가’라는 질문을 던지면, 의사결정 나무는 위치정보, 실시간 교통정보 데이터를 분류하는 과정을 나무 구조로 그릴 수 있고 각 알고리즘 분기점에 어떤 조건이 적용됐는지 확인할 수 있다.

XAI 외에도 설명 생성 모델을 별도로 만들어 AI 모델이 어떤 데이터를 입력받아 출력하는지 그 과정이나 근거를 직관적으로 볼 수 있는 언어나 그림으로 표현할 수 있다. 이 같은 방식은 각각 장단점이 있다. XAI는 AI 모델이 간단하고 명확히 해 설명이 용이하고 신뢰성이 높지만 복잡하고 비선형적인 데이터나 특정 문제에 대해서는 성능이 떨어질 수 있다. 또 설명 생성 모델은 AI 알고리즘 자체가 복잡하고 비선형적이어서 다양한 데이터나 문제에 적용할 수 있지만, 설명 생성 모델 자체가 복잡하고 오류가 발생할 수 있는 여지가 존재해 신뢰성과 정확성이 떨어질 수 있다.

한 AI 기업 관계자는 “생성형 AI가 만들어 내는 환각 현상으로 많은 기업과 기관에서 우려의 목소리를 내고 있다. 이처럼 낮아진 신뢰도와 우려를 해소할 수 있는 방안으로 XAI가 떠오르고 있다. 생성형 AI를 더 잘 이해하고 활용할 수 있도록 도와주는 기술인 XAI는 인간과 AI의 협력을 강화할 수 있는 중요한 매개체”라고 강조했다.

[3부] 클라우드에 스며든 생성형 AI 물결

클라우드 업계, 생성형 AI 기반으로 서비스 개발과 고도화 추진

 

 불가분 관계인 클라우드와 AI

지난 코로나19 팬데믹 기간 전 세계 기업들의 디지털 전환(DX)으로 인해 클라우드 산업이 크게 성장했다. 클라우드 업계는 이제 챗GPT(ChatGPT)가 촉발한 생성형 AI를 기반으로 서비스 개발과 고도화를 다음 목표로 삼고 있다.

IT 업계는 슈퍼컴퓨터 수준의 연산과 막대한 용량의 데이터를 수용할 수 있는 인프라가 필수적인 생성형 AI가 클라우드와 ‘불가분’의 관계에 있다고 평가한다. 클라우드 컴퓨팅이 AI 성장을 뒷받침하고 있다는 설명이다. 가트너(Gartner) 또한 클라우드 컴퓨팅이 AI와 머신러닝(ML)의 성장을 주도할 것이라고 전망한 바 있다.

생성형 AI 활용에는 방대한 양의 데이터가 필요하며, 무수히 많은 데이터를 수집·저장·분석하기 위해서는 확장성과 유연성을 갖춘 인프라가 뒷받침돼야 한다. 이는 기존의 인터넷데이터센터(IDC)만으로는 한계가 있다. 그러나 가상화 기술을 토대로 삼는 클라우드의 등장과 대중화로 AI 학습과 실행에 필요한 컴퓨팅 자원을 제공할 수 있는 환경이 마련됐다.

이에 대해 한 클라우드 기업의 관계자는 “생성형 AI의 등장은 클라우드 시장의 판도를 변화시킬 수 있다”며 “클라우드 서비스 제공사(CSP)뿐만 아니라, 클라우드 관리 서비스 제공사(MSP)까지 모든 클라우드 관련 기업들이 생성형 AI 서비스를 클라우드 환경에서 원활하게 제공하기 위해 서비스를 개발하고 역량을 모으고 있다”고 설명했다.


CSP들의 생성형 AI 서비스 확장

생성형 AI의 출현 이후 대규모언어모델(LLM)에 기업들의 관심이 집중되면서, CSP들은 클라우드 환경에 LLM을 비롯한 주요 생성형 AI 서비스들을 발 빠르게 적용·서비스화하고 있다.

대표적으로 챗GPT 제공사인 오픈AI(OpenAI)와 전략적 제휴를 맺은 마이크로소프트(MS)를 들 수 있다. MS는 MS 애저(Azure) 클라우드에서 고객들이 GPT, 달리(Dall-E) 및 각종 오픈AI 모델 서비스에 접근할 수 있도록 지원하고 있다. 반대로 오픈AI는 애저 클라우드에 챗GPT 훈련을 위한 전용 인프라를 구축하는 등 MS의 클라우드 서버와 컴퓨팅 자원을 활용하고 있다.

오픈AI와의 협력 외에도, MS는 자사가 보유한 강점을 살려 기업용 비즈니스 앱 MS365, 팀즈(Teams), 365ERP 등에서 산출된 데이터를 효율적으로 관리·활용할 수 있도록 하는 생성형 AI 툴 ‘코파일럿(Copilot)’을 클라우드를 기반으로 공급하고 있다.

이와 관련해 IT 업계 일각에서는 “생성형 AI의 중요성이 날로 커지는 가운데, MS와 오픈AI의 협업은 기존 아마존웹서비스(AWS)의 공고한 클라우드 시장 점유율을 위협할 수도 있다”는 의견도 나오고 있다.

AWS 역시 생성형 AI 적용과 서비스 개발을 위해 적극적으로 서비스화에 나서고 있다. 최근 AWS는 생성형 AI 기반 파운데이션 모델(FM, Foundation Model)을 유연하게 활용할 수 있도록 돕는 기업용 AI 서비스 ‘아마존 베드록(Amazon Bedrock)’을 출시했다. 아마존 베드록은 API를 통해 막대한 비용과 시간이 드는 자체 FM 구축의 과정 없이, 고객들이 다양한 FM을 쉽게 선택하고 사용할 수 있는 서비스다. AWS는 아마존 베드록 내에 메타(Meta), 앤트로픽(Anthropic), 코히어(Cohere), 스태빌리티(Stability) 등 파트너사들의 FM 모델을 지원하고 있다.

이와 더불어 AWS는 ML 관련 컴퓨팅 인프라에 투자하며 산업군별 전문화된 생성형 AI 활용을 위한 서비스를 마련했다. 세부적으로 △고성능 ML을 가속화하는 ‘AWS 트레이니엄(AWS Trainium)’ △커스텀 칩을 서비스하는 ‘AWS 인퍼런시아(AWS Inferentia)’ △ML 모델을 자유롭게 ‘아마존 마켓플레이스(Amazone Marketplace)’에서 구매·활용할 수 있는 ‘아마존 세이지메이커(Amazon Sagemaker)’ 등이 있다.

AWS 생성형 AI 관련 서비스 전략 (출처: AWS)
AWS 생성형 AI 관련 서비스 전략 (출처: AWS)

아울러 지난달 열린 ‘AWS 인더스트리 위크 2023’에서는 국내 기업의 생성형 AI 활용 혁신을 위한 ‘생성형 AI 지원 프로그램’을 발표하기도 했다. 해당 행사에서 AWS 올리비에 클라인(Olivier Klein) 수석 테크놀로지스트는 “AI 활용에 있어, FM은 매우 중요하다. AWS는 고객들이 아마존 베드록과 아마존 세이지메이커 모델을 이용해 완전 관리형의 AI 서비스를 경험해 볼 수 있도록 최선을 다할 것”이라며 “저렴한 가격의 서비스와 다양한 교육 프로그램으로 고객들의 생성형 AI 활용과 혁신을 지원하겠다”고 밝힌 바 있다.

‘구글 클라우드 넥스트(Google Cloud Next)’에서 구글 클라우드 토마스 쿠리안 CEO(왼쪽), 엔비디아 젠슨 황 CEO가 양사 파트너십 확대를 발표했다. (출처: 엔비디아)
‘구글 클라우드 넥스트(Google Cloud Next)’에서 구글 클라우드 토마스 쿠리안 CEO(왼쪽), 엔비디아 젠슨 황 CEO가 양사 파트너십 확대를 발표했다. (출처: 엔비디아)

구글 클라우드(Google Cloud) 또한 엔비디아(NVIDIA)와의 파트너십 확대를 공식적으로 발표하며, 자사 생성형 AI 서비스를 강화하고 있다. 먼저 구글 클라우드는 ML 모델과 AI 애플리케이션을 학습하고 배포하기 위한 자체 ML 플랫폼 ‘버텍스 AI(Vertex AI)’를 중심으로 생성형 AI 사업을 진행 중이다. 버텍스 AI 서비스를 활용하면 구글이 자체 개발한 FM 및 ML을 이용할 수 있고, 머신러닝 운영(MLOps) 플랫폼에서 고객이 원하는 FM 구축 및 커스터마이징을 지원한다. 이 경우도 앞선 MS, AWS의 사례와 마찬가지로, 구글 클라우드상에서 API 액세스를 통해 데이터 사용을 제어하고 생성형 AI 관련 개발이 가능하도록 지원하고 있다.

또한 구글의 자체 FM 외에 앤트로픽과 코히어의 FM을 제공하며, 구글 클라우드 상에서 서비스하는 파트너사의 생성형 AI 모델로는 AI21 랩스(AI21 Labs), 미드저니(Midjourney), 오스모(Osmo)의 모델들이 있다. 이 외에도 다양한 AI 스타트업 기업들을 구글 클라우드의 협력사로 끌어들이기 위해 클라우드 운용 비용을 지원하는 프로그램들을 운영하며, 버텍스 AI 확장에 공을 들이고 있다.

아울러 구글 클라우드는 지메일(Gmail), 독스(Docs), 스프레드시트(Spreadsheet) 등 ‘구글 워크스페이스(Workspace)’에 AI를 적용해 기업 고객의 생산성 향상을 돕는 방안을 제시하고 있다.

특히 구글 클라우드와 엔비디아의 파트너십으로 버텍스 AI 플랫폼에 엔비디아의 최신 ‘H100’ 텐서코어 GPU 도입 및 구글 클라우드 마켓플레이스 내에 엔비디아 AI 엔터프라이즈 액세스 제공 등의 고객 지원 방안들이 발표됐다. 이를 통해, 구글 클라우드 인프라의 성능 고도화와 고객의 AI 개발을 지원하는 엔비디아의 고급 소프트웨어(SW) 공급·배포가 가능해졌다.

이 같은 해외 CSP뿐만 아니라, 국내 주요 CSP들도 생성형 AI 서비스 경쟁력 확보에 박차를 가하고 있다. 대표적으로 서비스 측면에서는 네이버클라우드가 초거대 AI ‘하이퍼클로바X(HyperCLOVA X)’를 출시, 고객의 클라우드 인프라 구축을 넘어 하이퍼클로바X까지도 클라우드 환경에 접목하는 사업을 이어가고 있다.

인프라 측면에서는 KT클라우드가 최근 AI 추론에 특화된 고성능 GPU 인프라를 고객이 합리적 비용으로 활용하도록 하는 ‘AI 서브(AI SERV)’를 출시했다. NHN클라우드는 엔비디아 H100과 델 테크놀로지스의 ‘파워에지 XE9680’ 서버를 탑재한 ‘광주 AI 데이터센터’를 개소했다. 이처럼 네이버클라우드, KT클라우드, NHN클라우드 등 국내 CSP들이 클라우드 인프라 및 데이터 정보 처리의 기반이 되는 IDC를 중심으로 생성형 AI 시장에서 치열하게 경쟁하고 있다.


MSP도 생성형 AI 확대 움직임

클라우드가 AI 학습과 실행을 뒷받침한다면, 반대로 AI 또한 클라우드 운영·관리 서비스에서 중요한 역할을 담당하고 있다. 멀티 클라우드 및 하이브리드 클라우드 등 복잡한 클라우드 환경을 AI로 관리한다면 자동화 및 효율성 확보, 보안 및 위협 감지, 고객 경험 향상 등의 이점을 누릴 수 있다는 이유에서다.

이에 국내 MSP들을 중심으로 클라우드 관리 플랫폼(CMP)을 비롯한 고객 클라우드 관리 서비스 전반에 AI를 활용하는 추세가 늘고 있다. 이와 관련해 MSP 기업의 한 관계자는 “AI를 활용함으로써, 자동으로 고객의 클라우드 비용 모니터링과 이상 징후 탐지 보고가 가능해졌다”며 “이를 통해 자사 기술 인력들이 추가적인 고객 서비스 향상을 위한 중요 개발 업무에 집중할 수 있는 환경이 마련됐다”고 말했다.

나아가 단순 AI 활용을 넘어, 일부 MSP들은 본격적으로 생성형 AI를 자사 CMP와 연동해 서비스하고 있다. 대표적으로 베스핀글로벌이 독립 법인으로 새롭게 출범시킨 옵스나우의 ‘옵스나우360(OpsNow360)’을 들 수 있다. 옵스나우360의 서비스 중 대화형 AI 서비스를 위한 플랫폼 ‘헬프나우(HelpNow)’는 GPT 기반으로 제작된 챗봇으로, 고객사가 보유하고 있는 클라우드 데이터와 연동해 대화형 답변을 생성한다. 즉 특정 메뉴나 카테고리를 클릭해 확인해야 하는 기존 CMP와 달리, 간단한 키워드와 문의 사항을 일상적인 언어로 헬프나우에 입력하는 것만으로도 클라우드 리소스 및 비용 현황 등을 고객 스스로 간단하게 파악할 수 있다.

옵스나우360에 적용된 헬프나우 GPT 챗봇 (출처: 옵스나우)
옵스나우360에 적용된 헬프나우 GPT 챗봇 (출처: 옵스나우)

또 다른 사례로 메가존클라우드가 최근 출시한 ‘젠AI360(GenAI360)’가 있다. 젠AI360은 생성형 AI를 도입하려는 기업 고객을 대상으로 설계부터 구축, 운영까지 지원하는 맞춤형 생성형 AI 서비스다. 이 서비스는 기업의 생성형 AI 활용 전략 수립에 관한 컨설팅 및 고객 환경을 고려한 최적 플랫폼 선정과 생성형 AI 서비스 운영 등을 지원한다. 아울러 옵스나우의 헬프나우와 마찬가지로, 메가존클라우드도 사내에 접수된 고객 문의 사항들을 종합해 한국어 특화 LLM에 학습시키고, 이를 바탕으로 신뢰성 있는 답변을 생성할 수 있는 생성형 AI 구축 프로젝트를 수행했으며 추가적인 고도화 작업을 진행 중이다.

국내 MSP들은 생성형 AI 관련 클라우드 기술 인력들의 데이터 및 ML 역량 향상에도 집중하고 있다. 또한 클라우드 연관 기술자뿐만 아니라, AI와 ML에 특화된 인력을 확보하려는 계획을 세우고 있다.

이에 대해 MSP 기업의 한 관계자는 “향후 클라우드 시장에서 생성형 AI와 데이터의 중요성이 더욱 커질 것으로 보고 있다. 클라우드 업계도 다른 산업군처럼 데이터, ML, AI 영역에 우수한 기술 역량을 갖춘 인력들을 확보하려는 노력 중이다. 또한 CSP사의 데이터 및 분석 컴피턴시를 취득하기 위한 준비 중이다”라고 설명했다.

이어 이 관계자는 “최근 요청이 늘고 있는 멀티 클라우드, 하이브리드 클라우드상에서의 고객 맞춤형 생성형 AI 솔루션 지원은 아직까지는 어려운 부분이 있지만, 앞으로 시장의 중요한 트렌드로 주목받을 것”이라고 덧붙였다.

한편, 일각에서는 향후 클라우드 컴퓨팅 환경에서 생성형 AI 및 관련 애플리케이션을 신속하고 효율적으로 개선·배포하기 위해서는 마이크로서비스 아키텍처(MSA), 컨테이너, 데브옵스(DevOps) 등 요소를 포괄하는 클라우드 네이티브로 나아가야 한다는 의견도 존재한다.


함께 주목받는 IDC와 하드웨어

생성형 AI는 클라우드를 통해 대량의 데이터를 처리하고 학습할 수 있는 능력을 얻게 됐으며, 클라우드는 생성형 AI를 접목해 효율성과 자동화, 고객 서비스 혁신이 가능해졌다. 이 같은 클라우드와 AI의 ‘동반 성장’ 선순환은 지속될 것으로 보인다. 특히 업계에서는 클라우드 사업자들이 본격적으로 생성형 AI 서비스를 제품화하면서, 다양한 SaaS가 클라우드 상에 도입·적용될 것으로 전망하고 있다.

또한 이 같은 생성형 AI 열풍 속에서 하드웨어(HW)의 중요성도 강조되고 있다. 그동안의 디지털 혁신에 대한 논의에서는 코딩, 플랫폼 등 SW에 집중돼 왔지만, 최근에는 “누가 더 효과적인 클라우드 컴퓨팅 인프라를 제공할 것인가”라는 요인이 향후 생성형 AI 서비스를 지원하는 클라우드 사업의 당락을 결정하는 핵심 사항이 된 것이다. 특히 클라우드 서비스의 기반인 IDC 내 어떠한 GPU가 얼마나 탑재됐는가가 시장에서 더욱 중요해지고 있는 것이다.

국내 CSP들은 우수한 HW 성능을 갖고 있는 엔비디아 H100과 같은 최신의 GPU를 탑재한 IDC 건립 ‘각축전’을 벌이고 있다. 물론 해외 주요 CSP들도 엔비디아 GPU 확보에 적극 나서고 있다. 최근에는 엔비디아 GPU의 공급량이 시장 수요를 쫓아가지 못해 ‘수급난’이 이어지고 있어, MS는 올해 연례보고서를 통해 GPU와 같은 AI 칩 부족이 클라우드 산업을 위협하는 요소라고 발표하기도 했다.

지금 당장은 생성형 AI 및 LLM 개발에 있어 현실적으로 엔비디아의 GPU 팜에서 탈피하기 어려운 실정이다. 그러나 메타, 인텔, MS, AMD 등 해외 빅테크들은 엔비디아 의존에서 벗어나기 위해 GPU를 비롯해 GPU 대체제로 생성형 AI에 특화된 시스템 반도체 칩인 신경망 처리 장치(NPU) 등을 자체적으로 개발하고 있다. 국내에서도 퓨리오사 AI, 리벨리온, 사피온 등의 기업들이 자체 AI 칩을 개발·공급하고 있다.

클라우드 전반에 불어온 생성형 AI 바람에 CSP, HW가 주목을 받고 있으며, 고객에게 탁월한 생성형 AI 서비스를 지원하기 위해서는 클라우드와 SaaS를 넘어, IDC와 HW까지 전방위적인 IT 요소들이 모두 고려돼야 한다고 클라우드 업계는 진단한다. 앞으로 어떤 CSP와 MSP가 생성형 AI 열풍을 타고 클라우드 시장의 선두에 올라설지 주목된다.

[4부] ‘초거대 AI 경쟁력 강화 방안’으로 산업 생태계 기반 마련

‘대규모 말뭉치 토큰 구축 사업’ 등 다양한 AI 활용지원 사업 전개

 

오픈AI의 챗GPT 등장 이후 일상 어디서든 AI가 활성화되고 있다. 기술 및 자본 우위로 글로벌 빅테크가 AI 시장을 선점하고 있는 가운데, 우리 정부는 국내 기업에 대한 지원을 강화하며 초거대 AI 경쟁력 확보에 나섰다. 이를 위해 초거대 AI 기술, 산업 인프라 확충과 초거대AI 혁신 생태계 조성을 추진, 올해에는 ‘대규모 말뭉치 토큰 구축 사업’과 ‘민간 첨단 초거대 AI 활용지원 사업’을 전개하고 있다.


초거대 AI 시장 선점 위한 경쟁 치열

오픈AI의 챗GPT(ChatGPT) 등장 이후, 글로벌 빅테크 기업은 강력한 컴퓨팅 파워와 대규모 자본을 앞세워 초거대 AI 시장을 선점하기 위한 경쟁을 벌이고 있다.

마이크로소프트(MS)는 2019년부터 오픈AI에 약 12조 3천억 원(100억 달러) 이상을 투자하며 협력 관계를 이어오고 있다. 이를 바탕으로 지난 2월 검색엔진 빙(Bing)에 챗GPT를 탑재한 ‘빙AI(Bing AI)’를 공개했으며, 윈도우 11(Windows 11)과 마이크로소프트 365(Microsoft 365) 등에 생성형 AI를 MS 제품 전반에 적용하는 ‘마이크로소프트 코파일럿(Microsoft Copilot)’을 지난 9월 발표한 바 있다.

구글은 올해 3월 대화형 생성 AI ‘바드(Bard)’를 출시했고, 40개 이상의 언어를 업데이트해 180개 국가에 배포했다. 메타는 지난 7월 거대언어모델(LLM) ‘라마2(LLaMA 2)’를 공개했다. 특히 메타는 라마2를 상업적으로 누구나 이용 가능한 오픈소스로 개발하며 초거대 AI 시장 경쟁에 승부수를 띄웠다.

네이버클라우드의 ‘하이퍼클로바X’ 기반 제품군 출시 일정 (출처: 네이버클라우드)
네이버클라우드의 ‘하이퍼클로바X’ 기반 제품군 출시 일정 (출처: 네이버클라우드)

국내 기업도 초거대 AI 개발 경쟁에 본격 참여하며 자체 모델을 내놓고 있다. 네이버는 대화형 AI 서비스 ‘클로바X(CLOVA X), 생성형 AI 검색 ’큐:(CUE:)’ 등에 접목되는 ‘하이퍼클로바X(HyperCLOVA X)’를 지난 8월 공개했다. LG AI연구원은 지난 7월 엑사원(EXAONE)을 발표했고, 카카오는 올 하반기 발표를 목표로 ‘코GPT(KoGPT) 2.0’ 개발에 박차를 가하고 있다. 또한 KT는 LLM 모델 ‘믿음(Mi:dm)’ 출시를 준비하고 있다.


‘초거대 AI 경쟁력 강화 방안’ 발표

우리 정부는 글로벌 초거대 AI 경쟁 속에서 우리나라가 시장을 선도할 수 있는 지원방안 마련에 나섰다. 과학기술정보통신부와 디지털플랫폼정부위원회는 지난 4월 ‘디지털플랫폼정부 실현계획 보고회’를 열어 민간의 초거대 인공지능(AI) 개발 및 고도화를 지원하는 정책을 골자로 한 ‘초거대 AI 경쟁력 강화 방안’을 발표했다. 국내 기업이 개발하는 ‘초거대 AI’가 글로벌 시장에서 성과를 낼 수 있도록 AI 산업 기반을 마련하는 것이 목표다. 구체적으로는 △초거대 AI 기술·산업 인프라 확충 △초거대 AI 혁신 생태계 조성 △범국가 AI 혁신 제도·문화 정착 등이 포함됐다.

‘초거대 AI 경쟁력 강화 방안’ 비전 및 중점 추진과제 (출처: 과기정통부)
‘초거대 AI 경쟁력 강화 방안’ 비전 및 중점 추진과제 (출처: 과기정통부)

과기정통부를 비롯한 관계부처는 그간 확보한 정책 성과 위에 초거대 AI 경쟁력 강화 및 산업 생태계 육성을 위한 과제를 추가 발굴했다. 우선 ‘초거대 AI 기술·산업 인프라 확충’을 위해 데이터, 알고리즘 컴퓨팅 파워 등 3가지 부분으로 나눠 접근한다. 산업계 내 늘어나는 데이터 수요를 반영해 2027년까지 고품질 말뭉치 300억 토큰을 구축한다. 또한 데이터 개방·활용 촉진을 위해 국가지식정보 통합플랫폼의 저작권 제약이 없는 논문 보고서 메타데이터를 공개, 초거대 AI 학습에 활용하도록 제공한다.

알고리즘 측면에서는 초거대 AI의 한계로 여겨지는 문제를 해결하는 R&D 과제를 진행한다. 현재 초거대 AI는 통계적으로 적합한 다음 단어를 생성할 뿐 맥락을 이해하지 못하거나 과거 데이터를 기반으로 해 실시간성을 반영하지 못하는 등의 한계점을 지니고 있다. 정부는 이런 문제를 해결하는 기술 개발을 위해 기업과 대학이 컨소시엄을 구성해 연구개발을 이끌어가는 과제 신설을 추진한다.

아울러 기업 차원에서 확보하기 어려운 초거대 AI용 대용량 컴퓨팅 자원을 중소·벤처기업 대상으로 제공한다. 또한 고성능·저전력 컴퓨팅 인프라 구축을 위한 핵심기술을 개발해 컴퓨팅 자원을 더욱 효율적으로 활용할 수 있도록 지원한다.

두 번째 전략인 ‘초거대 AI 혁신 생태계 조성’을 위해 정부는 ‘초거대 AI 플래그십 프로젝트’에 착수한다. 민간 5대 전문영역(법률, 의료, 심리상담, 문화·예술, 학술·연구)에 초거대 AI를 접목, 전문가 보조·지원 등 생산성을 혁신하는 응용서비스 개발을 지원한다.

또한 민간 차원의 투자, 새로운 서비스 창출 등 디지털 기업 간 협력 강화를 위한 ‘초거대AI협의회’를 운영한다. 이 밖에도 중소기업의 초거대 AI 기반 클라우드 서비스를 종합·지원하고, 내년 중 메타버스에서 초거대 AI를 지능형 비서로 시각화하는 프로젝트를 추진할 계획이다.

초거대 AI 시대를 맞아 기존 AI·소프트웨어(SW) 인력 양성과 함께, 초거대 AI 개발·활용에 전문화된 세계 수준의 인재 양성도 계획했다. 이를 위해 MS 등과 구직자 대상 초거대 AI 프로젝트 중심 교육과정을 운영하며, 교육부와 과기정통부가 협력해 SW 개발자, 교원·학생 등을 대상으로 초거대 AI 활용 역량 강화교육을 실시할 예정이다.

마지막으로 ‘범국가 AI 혁신 제도·문화 정착’을 위해 초거대 AI 확산 과정에서 야기될 수 있는 교육·보안 등 사회적 이슈를 논의하고 대응 방안을 모색하는 자리를 마련한다. 또한 교육 분야 AI 윤리 원칙을 보완하며, 행안부를 통해 공무원 대상 공공부문 활용 가이드라인을 세울 방침이다.


고품질 데이터 구축으로 초거대 AI 기반 다진다

데이터 분야 핵심 사업은 ‘고품질 말뭉치 30B(300억) 토큰’ 구축. 2027년까지 AI 허브(AI-Hub)를 통해 초거대 AI에 기반이 될 고품질 데이터를 제공할 계획이다.

정부의 데이터 구축 사업은 2020년부터 진행됐지만 데이터 라벨링에 중점을 두고 있었다. 데이터 라벨링은 AI가 인식 가능한 형태로 데이터를 정리해 컴퓨터로 입력하는 작업인데, 이 과정은 인간이 참여해야 해 관련 일자리 창출 등의 효과를 거둘 수 있었다.

하지만 초거대 AI 기반 서비스는 트랜스포머 구조의 인공신경망을 통해 학습해 라벨링 작업이 대규모로 필요하지 않게 됐다. 트랜스포머 모델은 데이터 내 관계를 추적해 맥락, 의미를 이해하기 때문이다. 이에 따라 앞으로는 AI 학습에 초점을 맞춰 비라벨링 데이터의 비중을 늘려갈 예정이다.

NIA 지능데이터본부 데이터정책팀 심호찬 팀장은 “정부는 올해 고품질 데이터 확충을 위해 2,805억 원에 예산을 투입해 150종의 신규 데이터를 구축했다”며 “이 중 한국어 21종 등을 포함한 총 34종의 데이터는 자기 지도학습에 필요한 비라벨링 데이터다. 또한 앞으로 관련 사업을 더욱 확장해 갈 것”이라고 설명했다.

초거대 AI 구축을 위해서는 데이터의 종류뿐 아니라 품질도 중요하다. 과기부 관계자는 “좋은 AI 모델을 만들기 위해서는 책, 논문 등 수준 높은 고품질의 데이터가 큰 비중을 차지해야 한다”며 “엘레우테르AI(EleutherAI)에서 공개한 ‘더 파일(The Pile)’의 경우, 전체 데이터의 약 10%가 고품질 데이터인 것으로 파악된다”고 말했다.

정부는 이번 사업을 통해 기업에서 확보하기 어려운 고품질 데이터를 마련해 제공함으로써 AI 모델 개발에 대한 기반을 제공할 계획이다. 과기부 관계자는 “고품질 데이터를 일반 기업에서 확보하려면 많은 비용을 들여야 하는 경우가 많다. 하지만 정부가 사업을 추진하면 그보다 적은 비용으로 쉽게 데이터셋을 구축할 수 있다”면서 “초거대 AI를 구축하는 데 꼭 필요한 양질의 데이터를 정부가 만들어 기업이 활용할 수 있도록 지원하는 것”이라고 사업의 목표를 설명했다.


AI 허브 개편으로 민간 자율적 데이터 생태계 활성화 시도

초거대 AI 구축에는 말 그대로 거대한 규모의 데이터가 필요하다. 과기정통부 자료에 따르면, 오픈AI의 GPT-3는 4,990억 개, 메타의 ‘라마’는 1조 4천억 개의 데이터셋을 갖추고 있는 것으로 나타났다. 초거대 AI 오픈소스화에 집중하는 연구 단체 엘레우테르AI가 공개한 데이터 규모는 200억 개였다.

초거대 AI 구축에 필요한 고품질 데이터는 정부에서 지원 가능하지만, 전체 데이터 규모를 모두 제공하는 일은 불가능에 가깝다. 결국 학습에 요구되는 방대한 데이터셋은 기업이 자체적으로 확보해야 한다. 하지만 국내에는 아직 데이터를 거래할 수 있는 시장이 제대로 갖춰지지 않았다.

과기부 관계자는 “국내에서는 아직 데이터를 거래할 수 있는 장이 형성되지 못했다. 아마도 기업이 데이터를 확보하기 위해 일일이 출판사, 언론사 등과 접촉하는 형태로 거래가 이뤄지고 있을 것”이라며 “시장이 분명하지 않기에 저작권을 구입하고 싶어도 소재지를 찾지 못하거나, 확보 시 높은 비용을 지불해야 할 것으로 예상한다”고 설명했다.

정부가 데이터의 가격 협상, 거래 과정 등을 중간에서 조율할 수는 없다. 대신 과기부와 NIA는 데이터 거래·유통이 활발히 일어나는 AI 산업 생태계 조성에 초점을 맞추고 있다.

커뮤니티 형성의 중심은 AI 허브다. AI 허브는 현재 모델 학습에 요구되는 데이터의 다운로드만 가능한 형태로 운영되고 있다. 과기부와 NIA는 사이트로 들어오는 많은 유입을 활용해 데이터 커뮤니티로의 전환을 준비 중이다.

우선 데이터별로 의견을 나누고 피드백을 남기는 커뮤니티 탭을 신설한다. 사용 방법, 부족한 점 등을 공유하며 더 나은 활용 방안을 모색할 수 있도록 지원할 방침이다. 또한 기존 데이터를 개선한 버전을 업로드할 수 있는 커뮤니티 내 공간도 만들 계획이다.

NIA 지능데이터본부 데이터정책팀 심호찬 팀장은 “해외에서는 AI 관련 라이브러리, 데이터셋을 공유하는 ‘허깅페이스’와 같은 커뮤니티가 활발히 운영되고 있다”며 “이를 벤치마킹해 AI 허브를 단순 데이터 제공에서 나아가 커뮤니티 역할까지 수행하는 방향으로 개선 작업을 진행 중”이라고 밝혔다.

오픈 코-LLM 리더보드 (출처: 업스테이지)
오픈 코-LLM 리더보드 (출처: 업스테이지)

AI 허브 커뮤니티화의 중간 단계로 지난 9월 말 NIA는 업스테이지와 협력해 ‘오픈 코-LLM(Open Ko-LLM) 리더보드’를 AI 허브와 허깅페이스에 공개했다. 리더보드는 모델의 유형, 규모별로 선택해 확인할 수 있는 인터페이스를 제공한다.

기업은 자체 개발한 LLM 모델은 리더보드에 올림으로써 모델의 개발 수준을 타 모델과 비교할 수 있게 된다. NIA 심호찬 팀장은 “중소기업, 스타트업은 개발한 AI 모델의 성능을 평가하거나 비교할 수 있는 곳이 마땅히 없었다. 이번에 공개한 리더보드에서는 정부가 여러 사업을 진행하며 쌓아온 평가 지표를 바탕으로 AI 모델의 수준을 확인할 수 있을 것”이라고 설명했다.

아울러 폭넓은 데이터 활용을 위한 ‘객체 검색’의 고도화 작업이 이뤄지고 있다. 기존에 AI 허브에서 주로 쓰이던 검색은 데이터의 제목, 태그를 찾는 방식이었다. 또한 필요한 데이터를 구하기 위해서는 전체 데이터셋을 내려받은 후 일일이 확인해야 했다.

앞으로 고도화된 객체 검색은 데이터 하나하나를 손쉽게 찾을 수 있도록 지원할 전망이다. 과기부 관계자는 “데이터를 상세히 검색하려면 색인 작업이 필요한데 방대한 데이터 규모에서 일일이 그 과정을 거치기에 어려움이 있었다. 하지만 AI가 벡터 기능 등으로 빠른 색인 작업을 지원해 객체 검색을 고도화할 수 있었다”고 밝혔다.

이어 이 관계자는 “고도화된 객체 검색에서는 사진 등에 태그가 없더라도 단어를 통한 검색이 가능해질 것이다. 또한 네이버 하이퍼클로바를 도입해 대화 문맥을 파악해 답변을 제공하는 ‘멀티 턴(Multi-Turn)’ 검색 기능도 구현 작업 중”이라고 덧붙였다.

커뮤니티화, 검색 기능 개선과 함께 UI 개편 등을 담은 AI 허브 업데이트는 올해 안으로 오픈될 예정이다.


초거대 AI 도입 어려운 기업 및 기관 지원

과기정통부와 디지털플랫폼정부위원회는 국내 기업의 초거대 AI 경쟁력 강화 방안 중 하나로 지난 4월부터 ‘민간의 첨단 초거대 인공지능 활용지원 사업’을 추진하고 있다.

초거대 AI는 혁신적인 기술이지만 활용을 위해서는 막대한 비용과 전문 인력이 필요하다. 이번 사업은 이러한 문제로 초거대 AI를 도입하기 어려운 중소기업과 공공기관 및 지자체를 지원하고자 마련됐다.

이번 사업은 크게 종합지원형과 수요연계형으로 나뉜다. 종합지원형은 초거대 AI 플랫폼을 보유 및 운영하는 공급기업을 선정, 수요기업·기관과 매칭해 지원하는 사업이다. 종합지원형에 지원한 중소·벤처기업과 공공기관 및 지자체는 선정된 공급기업의 초거대 AI 기술로 서비스를 개발·활용할 수 있도록 △교육 △컨설팅 △활용 △세미나 등의 지원이 제공된다.

민간 초거대 AI 활용지원 사업 종합지원형 공모 및 선정 결과 (출처: 과기정통부)
민간 초거대 AI 활용지원 사업 종합지원형 공모 및 선정 결과 (출처: 과기정통부)

종합지원형의 공급기업으로 선정된 업체는 네이버클라우드, KT, 마음AI, 바이브컴퍼니 등 총 4개 기업이다. 수요기업·기관은 올해 4월과 8월 2차례 공모를 거쳐 기업 104곳, 공공부문 69곳 등 총 173개 거업 및 기관이 선정됐다. 사업은 수요기업·기관이 공급기업의 제공 기능·방안 등을 검토 후 원하는 공급기업을 선택하고, 이를 바탕으로 NIA에서 매칭을 지원하는 형태로 진행된다.

과기부 관계자는 “초기에는 100개 이상의 수요기업·기관을 목표로 삼았는데, 사업에 관심을 두는 기업과 기관이 많아 공모를 한 차례 늘려 현재 173개 수요기관이 참여하고 있다”고 말했다.

종합지원형에 참여한 기업은 공급기업 플랫폼에서 초거대 AI 모델, API, 개발도구 등을 활용해 혁신 서비스를 개발하도록 플랫폼 이용료를 지원받는다. 공공기관 및 지자체의 경우, 초거대 AI 공급기업으로부터 기관별 맞춤형 컨설팅·교육 등을 제공받아 문서 요약, 작성 등의 기능을 기관 고유의 업무에 접목하는 방안을 모색할 기회가 마련된다.

공급기업으로 참여한 바이브컴퍼니의 윤준태 부사장은 “공공기관은 데이터 상황, 문제점 등을 상세히 들은 후, 적용 가능한 영역에 대해 상의한다”며 “기관 내 문서의 일부를 제공받아 전처리 과정을 통해 가공해 개념증명(PoC)을 거치는 방식으로 사업이 진행된다”고 설명했다.

이어 윤준태 부사장은 “바이브컴퍼니가 가진 서치, 리포트코파일럿, 뉴스다이제스트 등의 솔루션에 기관의 정보를 받아 데모를 만들어 소개한다. 가령 기관에서 원하는 정보 검색 기능을 시연하거나 문서 샘플을 바탕으로 리포트코파일럿을 활용해 자동 생성된 보고서를 제시하는 등의 방식으로 운영 중”이라고 덧붙였다.

종합지원형은 전반적으로 기업 및 기관에 교육·컨설팅이나 지원금 등을 제공해 초거대 AI를 도입하는 기반을 다지는 데 초점을 맞추고 있다. 사업이 시작된 지 몇 달 되지 않았지만 관련해 소기의 성과도 나오고 있는 것으로 알려졌다.

과기부 관계자는 “공급기업들은 운영 초기 단계에서 자신들의 초거대 AI를 많은 수요자에게 소개하고 서비스를 발굴 및 실증하는 기회를 얻고 있으며, 수요기관 측에서도 기존 서비스에 AI를 도입할 수 있어 긍정적인 반응을 보였다”고 밝혔다.

바이브컴퍼니 윤준태 부사장은 “생성형 AI가 널리 알려졌지만, 그 원리를 이해하기 어려워 업무 활용 방안 등을 찾지 못하는 사례가 많았다. 이번 사업을 통해 관련 데이터, 체험 플랫폼과 API 등으로 AI를 경험하는 기회를 여러 기관에 제공했다는 점에 의의가 있다”고 평가했다.

수요기업으로 참여한 스켈터랩스의 관계자는 “자체 개발 중인 LLM 기반 서비스 ‘벨라 큐나(BELLA-QNA)’ 고도화 과정과 온프레미스형 소형 거대언어모델(sLLM) 학습을 위해 사업에 지원했다”며 사업의 효과에 대해 “스타트업의 한계인 데이터셋 확보를 원활하게 함으로써 모델 학습에 도움이 되고 있다”고 밝혔다.

한국방송관광진흥공사는 소상공인 대상 광고창작지원시스템 ‘아이작(AiSAC)’에 네이버의 하이퍼클로바를 적용, 광고 문구·내용 생성 등의 신규 기능을 탑재해 지난 9월 오픈한 바 있다.

자체 플랫폼과 인프라를 갖추기 어려운 중소기업에서도 사업의 효과가 나타나고 있다. ‘투디지트’는 KT의 ‘지니랩스’ 플랫폼을 이용해 분야별 맞춤형 뉴스 콘텐츠를 제공하는 ‘뉴스샐러드’ 서비스를 개발했고, ‘디피랩은 네이버와 협력해 자기소개서를 작성하는 서비스 ‘레터비’ 출시를 준비 중이다.


공공기관과 AI 기업이 손잡고 혁신 서비스 개발

민간의 첨단 초거대 인공지능 활용지원 사업에서 수요연계형은 초거대 AI 플랫폼을 활용해 특화 서비스를 개발하는 기업을 수요기관과 함께 선정해 지원하는 사업이다. 공공기관과 AI 전문기업으로 구성된 컨소시엄 중 사업에 적절한 곳을 선발, 공공분야 업무에 실제로 초거대 AI 적용한다.

민간 초거대 AI 활용지원 사업 수요연계형 공모 및 선정 결과 (출처: 과기정통부)
민간 초거대 AI 활용지원 사업 수요연계형 공모 및 선정 결과 (출처: 과기정통부)

올해 사업은 ‘민원처리’와 ‘행정지원’ 2가지 분야에 대해 초거대 AI 기반 공공 서비스 개발을 목표로 하고 있다.

민원처리 분야에서는 와이즈넛이 화성시 등 3개 지자체와 협력해 ‘공공 민원 콜센터 상담 AI 어시스턴트’를 개발한다. 와이즈넛은 자체 개발한 자연어처리(NLP) 기술, 머신러닝 등이 융합된 지식 검색 기능에 네이버의 하이퍼클로바X가 갖춘 질문 주제어 추출, 답변 생성 등을 접목, 상담원의 부담을 덜어줄 수 있는 어시스턴트를 개발한다는 계획이다.

행정지원 분야에서는 솔트룩스가 서울교통공사와 함께 ‘도시철도 안전담당자용 GPT 서비스’ 개발에 나섰다. 솔트룩스의 자체 AI 모델 ‘루시아’에 도시철도 안전 데이터(법령, 가이드 등)를 학습해 담당자가 업무에 활용할 수 있는 Q&A 서비스를 제공할 계획이다.

솔트룩스 관계자는 “루시아는 솔트룩스가 다양한 분야의 사업을 20년 이상 수행하며 축적한 한글 데이터로 학습했고, 지식 그라운딩(Factual Grounding)과 검색 증강 생성(RAG) 등 2가지 접근법을 연계해 정보 유출과 환각(Hallucination) 현상을 최소화하고자 노력했다”고 설명했다.

이어 이 관계자는 “완성도 있는 서비스 제공을 위해 ‘루시아’뿐 아니라 챗봇, 지능형 검색, 비정형 데이터 분석 등 자체 보유 기술 및 제품을 결합했다. 또한 철도 안전 매뉴얼, 안전 관련 법령, 안전공단 사규, 용어 사전 등과 자체 보유 말뭉치 데이터를 적극 활용했다”고 덧붙였다.

구체적인 사업 현황에 대해서는 “화면 개발은 모두 마쳤으며, 법률·사규·안전 수칙에 대한 학습도 마무리됐다”며 “파인 튜닝 작업을 거친 후 10월 중으로 서울교통공사 직원을 위한 테스트 사이트를 오픈할 예정”이라고 밝혔다. 또한 “내년도 본 사업이 진행되면 관련 기관 등으로 확대 가능할 것”이라고 예상했다.


첫걸음을 뗀 AI 사업…규모 및 지원 확대 필요

초거대 AI 활성화를 위해 시작된 이번 사업은 긍정적인 반응을 얻고 있지만, 사업 첫해인 만큼 몇 가지 개선되어야 할 사항도 있다.

우선 수요기관 대비 공급기업의 수가 아직 부족하다. 수요기관은 올해 100여 곳을 선정할 계획이었으나, 8월에 추가 모집을 통해 170여 곳까지 늘어났다. 반면 공급기업은 KT, 네이버클라우드, 마음AI, 바이브컴퍼니 등 총 4곳에 그쳤다.

바이브컴퍼니 윤준태 부사장은 “인력은 제한적인데 여러 기관 및 기업에서 컨설팅, 교육 등을 진행해야 해 어려움이 있었다”며 “국내 AI 저변을 넓히는 좋은 사업인 만큼 범위가 확대되고 지원 금액도 늘어나길 바란다”고 말했다.

사업 분야를 다양화할 필요가 있다는 의견도 있었다. 포티투마루 김동환 대표는 “기업마다 초거대 AI를 활용하고자 하는 방향이 다르다. 이런 점을 고려해 분야를 더욱 세분화한다면 보다 완성도 있는 사업이 될 수 있을 것”이라고 제언했다.

AI를 찾는 기업, 기관은 많은데 관련 내부 데이터가 충분히 준비되지 않아 사업에 시간과 큰 비용이 소요되고 있다는 지적도 이어졌다. 네이버클라우드 관계자는 “초거대 AI는 기본적으로 대량의 데이터를 기반으로 AI 모델링을 만드는 것이 가장 효과적이지만, 초거대 AI에 활용할 수 있는 데이터가 준비된 기업이 많지 않다”고 말했다.

이어 이 관계자는 “기업이 가진 데이터를 AI가 학습할 수 있는 형태로 전처리하는 데 시간과 비용이 많이 들어간다. 좋은 AI를 만들기 위해서는 모델링뿐 아니라 기업 내 데이터 측면에서도 고민이 필요하다”고 덧붙였다.

과기부 관계자는 “민간 첨단 초거대 AI 활용지원 사업은 올해 20억 원의 예산으로 추진됐으나, 내년에는 예산 규모를 110억 원으로 늘릴 계획”이라며 “앞으로도 AI 관련 사업을 적극 확대해 국내 기업이 성장하는 마중물이 될 수 있도록 노력하겠다”고 밝혔다.

이 밖에도 초거대 AI 플래그십 프로젝트에 383억 원, AI 데이터 구축·개방에 558억 원, 국내 AI 인재 양성에 35억 원을 내년 예산으로 편성, 국내 기업이 글로벌 경쟁력을 갖출 수 있도록 지속적인 지원을 이어갈 계획이다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지