27년까지 대규모 말뭉치 300억 토큰 구축, 공공-민간 협력 강화
[아이티데일리] 정부가 초거대 인공지능(AI) 구축을 위해 민간 자율적 데이터 생태계 조성에 나선다. 해외 선진국 대비 부족한 인프라를 보완하고자 2027년까지 대규모 말뭉치 300억 토큰을 구축할 계획이다. 또한 10대 전략 분야를 선정해 전문가들과 협의체를 구성하고 공공-민간 간 협력을 추진한다.
8일 과학기술정보통신부는 서울 명동에서 ‘AI 데이터 융합 네트워크’ 발족식을 개최해 산업 분야별 AI 활용 및 확산 동향을 공유했다. 이날 발족식에는 과기정통부 박윤규 차관, 최우석 인공지능확산팀장, 한국지능사회진흥원(NIA) 황종성 원장을 비롯, 분야별 산업계 및 학계 전문가 11명 등이 자리했다.
과기정통부 박윤규 차관은 인사말에서 “앞으로 산업별 특화된 AI를 강화하는 방향으로 정책을 바꿔 갈 계획”이라며 “초거대AI 도입을 추진하는 지금, 그간의 정책을 돌아보고 나아갈 방향을 논의하고자 한다”고 발족식의 취지를 밝혔다.
인사말 후에는 포티투마루 김동환 대표가 초거대 AI 동향 및 쟁점을 간략하게 소개한 후, 과기정통부 최우석 인공지능확산팀장이 ‘초거대 AI 데이터 정책 방향’을 발표했다.
생성형 AI 시장은 매년 크게 성장했으며 특히 오픈AI(OpenAI)의 챗GPT(ChatGPT) 출시 이후 그 성장세가 가속되고 있다. 또한 AI 개발에 드는 막대한 비용을 고려한 sLLM(소형 대규모 언어 모델)이 여러 기업을 통해 출시됐다. 이러한 흐름에 따라 국내 대기업은 자체 모델을 개발하고, 스타트업은 각 분야에 특화된 솔루션을 내놓고 있다.
국내 산업계가 새로운 AI 모델, 서비스 개발에 힘을 쏟고 있지만 여전히 규모와 기술 측면에서 글로벌 수준과 차이를 보인다. 최우석 팀장은 그 원인으로 ‘부족한 데이터 인프라’를 꼽았다. 최 팀장은 “국내 기업이 글로벌 빅테크와 견줄 만큼 성장하기 위해서는 그에 맞는 환경이 조성돼야 한다”며 “그 중 중요한 것이 데이터 인프라인데, 해외 선진국 대비 대한민국은 현저히 부족한 상황”이라고 지적했다. 현재 NIA에서 운영 중인 ‘AI 허브’는 100억 개의 언어 데이터 토큰을 제공하는데, 이는 오픈AI의 GPT-3가 약 5천억 개, 메타의 라마(LLaMA)가 1조 4천억 개 토큰을 활용 중인 것에 비하면 현저히 적은 수치라는 설명이다.
최우석 팀장은 민간 자율적 데이터 생태계가 활성화되지 못한 국내 상황 때문에 이러한 데이터 격차가 비롯됐다고 설명했다. 해외 오픈소스 커뮤니티가 자유로운 데이터 공유를 지원하는 데 비해, AI 허브는 다운로드 기능만 제공하고 관련 커뮤니티가 형성되지 못했다. 최 팀장은 “생태계를 만들지 못한다면, 글로벌 빅테크와의 격차는 앞으로 더 벌어지고 국내 AI 산업 경쟁력이 약해질 것”이라고 우려를 표했다.
이 같은 문제의식 아래 과기정통부는 초거대 AI 산업에 국내 기업이 진입할 수 있도록 데이터를 제공하고, 민간 내 자율적인 생태계가 구성될 수 있도록 지원에 나설 계획이다.
우선 초거대 AI 데이터를 위해 대규모 말뭉치 300억 토큰을 2027년까지 구축하기로 했다. 특히 생성형 AI가 폭넓게 활용되는 10대 핵심 분야를 △국민 생활 밀착형 서비스(법률, 행정사무, 보건의료, 교육) △산업혁신(콘텐츠, 교통물류, 제조 로보틱스) △공공서비스 혁신(국방, 농림축수산, 재난 안전환경) 등에서 선정해, 각 분야에 맞는 양질의 데이터를 만들 계획이다. 이를 위해 각 분야 전문가의 의견을 수렴하고 지속 협력을 이어갈 수 있는 협의체를 구성했다.
아울러 데이터 활용 확산을 위해 △AI 학습 데이터 접근성 강화 △sLLM 구축·공개 검토 △오픈 커뮤니티 지원 △헬스케어 데이터 실증랩 등을 추진하며, AI 데이터 품질 검·인증 체계를 마련하고 국제협력을 강화해 나갈 전망이다.
정책 방향 발표 이후 이어진 토론에는 NIA 황종성 원장, NC소프트 이충희 실장, 포티투닷 김준석 리더, AI 포 펫(AI FOR PET) 허은아 대표, 인텔리콘 임영익 대표, 건양대학교 의료원 김종엽 교수, 국립국어원 장소원 원장 등이 참여했다.
토론에서는 민간 자율적 데이터 생태계를 위한 개선방안이 집중적으로 논의됐다. 전문가들은 AI 허브의 긍정적 효과를 인정하면서도 여전히 국내 데이터 인프라가 글로벌 기업에 비해 부족하다고 지적했다. 저작권 문제 해결, 실시간 데이터 제공 플랫폼의 필요성이 제기됐으며, 특히 의료·법률 분야는 데이터 라벨링을 위한 전문 인력 확보를 강조했다.
아울러 AI 허브에서 데이터를 활용한 경우, 이를 환원해 생태계를 활성화에 기여하고, 기여한 기업에 대해 적절한 인센티브를 지급하자는 의견이 제시됐다. 데이터를 공개함으로써 회사의 노하우가 유출될 수 있다는 우려도 제기됐으나 전문가 대다수가 커뮤니티 형성에 뜻을 모았다. 이에 대해 과기정통부 박윤규 차관은 “데이터 생태계 활성화를 위해 긍정적으로 검토해보겠다”고 밝혔다.


