합리적 비용 및 추론력, HW 최적화로 AI 대중화 가속

오픈AI 샘 올트먼 CEO(출처: 샘 올트먼 X)
오픈AI 샘 올트먼 CEO(출처: 샘 올트먼 X)

[아이티데일리] 오픈AI(OpenAI)의 오픈 웨이트 언어모델인 ‘gpt-oss’가 베일을 벗었다. 아파치 2.0 라이선스를 기반으로 대규모 모델인 ‘gpt-oss-120b’와 소규모 모델인 ‘gpt-oss-20b’ 등 2종으로 구성됐다. 두 모델 모두 저렴한 비용으로 오픈AI의 기존 최고 등급 모델과 유사한 실전 추론 능력과 도구 활용 역량을 갖췄다.

오픈AI가 공개한 gpt-oss 모델은 내부 연구를 바탕으로 개발된 최신 기법들이 적용됐다. 약 1,170억 개의 매개변수를 가진 대규모 모델인 gpt-oss-120b는 하나의 80GB GPU에서 구동 가능하도록 최적화됐으며, 약 210억 매개변수를 보유한 gpt-oss-20b는 16GB 메모리만으로도 실행 가능해 경량화된 AI를 원하는 현장에 적합하다.

특히 이 모델은 복잡한 추론, 도구 호출, 사고의사슬(Chain-of-Thought, CoT) 추론 등에 강점을 갖췄다. gpt-oss-120b는 경쟁 프로그래밍, 고급 수학 문제, 의료 대화 등 다양한 평가에서 기존 오픈AI 모델의 결과를 웃도는 성능을 보였다. gpt-oss-20b는 효율성과 성능의 균형을 갖춰 다양한 실전 환경에서 활용할 수 있다.

오픈AI의 오픈 웨이트 언어모델 gpt-oss 버전 비교 (출처: 오픈AI 홈페이지)
오픈AI의 오픈 웨이트 언어모델 gpt-oss 버전 비교 (출처: 오픈AI 홈페이지)

오픈AI에 따르면, gpt-oss 모델은 △긴 문맥 처리 △훈련 데이터 △후처리 단계 등에 강점이 있다.

먼저 긴 문맥 처리에 특화됐다. 최대 12만 8,000토큰까지 지원하며 방대한 문서와 대규모 컨텍스트도 효과적으로 이해 가능하다. 다음으로 훈련된 데이터 역시 주로 영어, STEM(과학, 기술, 공학, 수학), 코딩, 일반지식에 집중된 텍스트 데이터로 학습됐다. 고도화된 전문역량과 범용성을 제공한다. 마지막으로 지도학습 미세조정과 고성능 강화학습으로 사고의사슬 추론과 도구 활용 능력을 향상해 애플리케이션 적합도를 높였다.

안전성도 강화됐다. 유해 데이터 사전 필터링, 의도치 않은 사용 방지 목적의 ‘딜리버러티브 얼라인먼트’ 프로세스와 지침 계층 구조를 적용했다. 오픈 모델의 특성을 감안해 악의적 미세조정 가능성에 대비한 평가 및 외부 전문가 검토도 끝냈으며, 안전 평가 결과는 연구 및 모델 카드 문서로 공개하고 있다. 오픈AI는 현재 진행 중인 사용자 대상 ‘레드 팀 챌린지’를 통해 안전성 점검과 취약점 발견을 독려하는 한편, 오픈된 평가 데이터셋도 공개해 산업 전반의 AI 안전 연구도 촉진하고 있다.

이번 오픈 웨이트 언어모델은 활용성이 높다. 다양한 추론 난이도 설정할 수 있다. 그렇기에 저지연이 필요한 간단 업무부터 복잡한 추론 작업까지 요구에 맞춰 ‘저-중-고’ 3단계 추론 강도를 쉽게 조절할 수 있어 개발 편의성을 향상할 수 있다. 또한 도구 연동 능력도 개선됐다. 웹 검색, 파이썬 코드 실행 등 도구 호출 기능이 탑재돼 다재다능한 에이전트 워크플로우를 구축할 수 있다. 파이토치, 애플 메탈(Apple Metal) 플랫폼용 참조 구현부터 API 호환성, MS 애저, 허깅 페이스, AWS, vLLM, LM 스튜디오 등 폭넓은 환경에서 동작이 가능하다.

오픈AI는 홈페이지를 통해 “gpt-oss 시리즈 출시는 독점형 AI 서비스에 의존하는 한계를 극복하고, 누구나 직접 AI를 활용·개발할 수 있는 민주적 AI 인프라 조성에 중요한 이정표가 될 것”이라며 “예산이 제한적인 신흥 시장, 중소기업, 연구기관의 AI 혁신 가속 및 투명성 제고에 크게 기여할 것으로 예상된다”고 강조했다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지