품질 검증 및 라이선스, 저작권 등 책임 있는 개발·활용 위한 정부 노력 필요
[아이티데일리] 최신 IT 기술의 중심에는 언제나 오픈소스가 있다. 빅데이터, 클라우드, 그리고 최근의 생성형 AI까지, IT 패러다임이 바뀔 때마다 오픈소스의 중요성은 오히려 더 커졌다. 오픈소스 활용 역량이 부족하면 새로운 기술을 제대로 구현하기 어렵다.
이러한 상황에서 생성형 AI로 인해 오픈소스 생태계에도 많은 변화가 일어나고 있다. 생성형 AI가 만드는 코드에 대한 품질 문제, 저작권 및 윤리 문제, 라이선스 관리에 대한 중요성이 강조되는 등 오픈소스에도 예측 불가능한 변화의 파도가 몰려오기 시작했다. 생성형 AI 시대, 오픈소스 생태계가 마주할 도전과 기회는 무엇인지 3회에 걸쳐 조명해 본다.
[오픈소스 도전과 기회 ①] 오픈소스 생태계, 생성형 AI로 저변 확대
[오픈소스 도전과 기회 ②] AI 코드 개발 트렌드 떠오르며 품질 검증 과제 대두
[오픈소스 도전과 기회 ③] 오픈소스 기반 AI 모델 활용 위한 기업 자정 노력 필요
생성형 AI 코드 개발 트렌드 떠오르며 품질 검증 과제 대두
최근 개발자들이 생성형 AI가 만든 코드를 오픈소스 프로젝트에 통합하면서 새로운 문제가 나타나고 있다. 바로 생성형 AI가 만들어 낸 코드의 품질과 검증에 대한 문제다. 생성형 AI가 코드를 만들어 낼 수 있게 된 이유는 오픈소스로 수많은 코드가 공개됐기 때문이다.
한국오픈소스협회 심호성 부회장은 “생성형 AI는 기본적으로 데이터 학습을 통해 결과물을 만들어 낸다. 코드라는 결과물을 내놓으려면 수많은 코드를 학습해야 가능하다. 하지만 AI가 일반 기업 개발자들이 짠 코드를 불법으로 학습할 수 없어 대부분 AI는 공개된 코드인 오픈소스를 학습한다. 때문에 생성형 AI가 만든 코드에 오픈소스가 담겨있을 확률이 상당히 높다”면서 “오픈소스로 공개된 코드는 처음부터 완성된 코드도 존재하지만, 많은 기여자들이 커뮤니티에 참여해 꾸준히 수정하고 업그레이드한다. 결국 생성형 AI가 생성한 코드의 품질을 검증하는 과정이 필요하다는 얘기다”라고 부연했다.
실제로 한 글로벌 조사기관에 따르면, 생성형 AI가 만든 코딩 도구를 활용하는 개발자들이 폭발적으로 늘어나고 있지만, AI가 제안한 코드를 신뢰하지 못해 수동으로 검토하거나 재작성하는데 상당한 시간을 들이고 있는 것으로 나타났다. 개발 생산성을 높여주는 것은 분명한 사실이지만, 그만큼 코드 품질에 대한 불안감도 이면에 자리잡고 있다.
한 AI 개발자는 “실제로 AI가 생성한 코드를 검증해보니 4분의 1에 달하는 코드에서 기능적 오류나 사실관계 오류가 발견됐다. 프로젝트 맥락이나 팀의 코딩 규약에 맞지 않는 코드, 문맥을 이해하지 못한 코드는 품질을 떨어뜨리는 주요 원인이 되고 있다”면서 “AI가 만드는 코드의 양이 폭증하면서 기업에서는 기존 AI 개발 코드를 수작업으로 리뷰하는 작업이 한계에 다다랐다는 말도 나온다”고 말했다.
최근 개발자들은 AI가 만든 코드를 오픈소스 프로젝트에 통합하려는 시도를 하고 있다. 한 SW 기업 관계자는 “AI가 만든 코드는 빠르게 생산된다. 또 코드의 품질을 매번 확인하기 어려우니 오픈소스로 공개·통합하려는 시도도 나타나고 있다. 다른 기여자들의 도움을 받을 수 있다는 장점 때문이다. 이 때 기존 오픈소스 프로젝트의 엄격한 기준에 맞춰 통합하려는 노력이 필요하다”고 주문했다.
이런 변화는 오픈소스 프로젝트 기여자들에게는 새로운 도전이다. AI가 생성한 코드를 무조건 받아들이는 것이 아닌 각 프로젝트의 코딩 표준, 아키텍처 원칙, 보안 정책에 부합하는지 엄격하게 검토하고 검증해야 한다.
개발자들은 잘 만든 코드를 오픈소스로 공개하고 모듈화하여 재활용함으로써 오픈소스 생태계 발전에 기여할 수 있다. 하지만 잘못된 코드를 분별할 수 있는 능력이 있어야 이런 일이 가능하다. 오픈소스 프로젝트 기여자들이 코딩 역량 외에 AI가 생성한 코드에 대한 깊이 있는 이해와 비판적 사고를 길러야 한다는 점을 시사한다.
EDB 김희배 한국지사장은 “오픈소스 커뮤니티 기여자들은 이제 AI와의 협업 능력과 AI가 생성한 코드에 대한 깊이 있는 이해를 바탕으로 오픈소스 프로젝트의 방향성을 제시하고 품질을 유지하는 데 집중해야 한다”면서 “오픈소스 커뮤니티 구성원은 AI가 생성한 코드를 학습하고 개선하며, 궁극적으로는 AI의 발전에도 기여하는 선순환 구조를 만들어야 한다”고 역설했다.
덩달아 화두에 오른 라이선스 및 저작권 문제
생성형 AI 코드의 품질 검증 이슈가 대두되면서 오픈소스 라이선스와 저작권 문제도 이슈로 떠올랐다. AI가 생성한 코드의 품질 문제뿐 아니라, 기업이 라이선스 관리를 소홀히 하면 법적 위험에 직면할 수 있다.
생성형 AI는 오픈소스 코드 등 방대한 인터넷 데이터를 학습해 코드를 생성한다. 이 과정에서 GPL과 같이 강한 카피레프트(Copyleft) 라이선스가 적용된 오픈소스 코드가 무단으로 재생산될 수 있으며, AI가 라이선스 정보를 제대로 제공하지 않아 저작권 침해 소지가 발생할 수 있다는 지적이다.
외신을 종합해보면, 주요 대형언어모델(LLM) 14종 중 상당수가 기존 오픈소스 코드와 ‘유사성’이 높은 코드를 생성하면서도, 라이선스 정보를 제대로 안내하지 못하고 있었다. 일부 모델은 전체 생성 코드의 약 2%가 기존 오픈소스와 사실상 동일한 수준이었음에도, GPL 등 카피레프트 라이선스에 대한 안내가 이루어지지 않았다. 기업에서 AI가 만든 코드를 제품에 포함시켰다가 라이선스 위반으로 소송에 휘말리거나, 제품 출시 지연, 코드베이스 전체 재작성 등 심각한 피해를 받을 수 있다는 것이다.
‘깃허브 코파일럿’의 오픈소스 개발자들이 MS와 깃허브, 오픈AI를 상대로 집단 소송을 벌인 사건이 있다. 2022년 11월, 오픈소스 개발자들은 “깃허브 코파일럿이 오픈소스 코드 라이선스(GPL 등) 의무를 어기고, 코드 생성 시 저작권 고지 및 라이선스 정보를 누락했다”며 집단소송을 제기했다. 개발자들은 코파일럿이 자신들의 오픈소스 코드를 무단으로 학습 및 재생산하고, 라이선스 고지 없이 제품에 포함시킨 점을 문제 삼았다.
이는 생성형 AI가 생성한 코드의 라이선스 문제로 인한 직접적인 사례는 아니지만, 오픈소스 코드의 라이선스 안내가 원활히 이루어지지 않는다면 언제든 발생할 수 있다는 점을 보여주고 있다.
한국오픈소스협회 심호성 부회장은 저작권 문제로 직결될 수 있다는 점도 경고했다. 실제로 게티 이미지와 스테빌리티 AI의 소송, 오픈AI의 저작권 침해 혐의 등 AI 학습 데이터의 저작권 문제와 AI가 생성한 결과물의 저작권 귀속 문제는 세계적으로 논쟁의 중심에 있다. AI가 기존 저작물을 직접 복제한 것이 아니라 학습해 새로운 창작물을 생성한 경우에도 저작권 침해로 간주되는지 여부가 특히 핵심 쟁점이 되고 있다. 쉽게 말해 기존 저작물의 ‘변형’으로 볼 것인지, 아니면 ‘파생 저작물’로 보고 원작자의 허락이 필요한지 명확한 기준이 없는 상황이다.
한국오픈소스협회 심호성 부회장은 “AI가 생성한 코드는 저작권 문제로 직결된다”면서 “이에 대응해 우리 정부에서도 AI를 담당하는 헤드쿼터(HQ) 조직을 통해 AI 생성 코드에 대한 저작권 체계를 정비해야 한다. 뉴턴은 ‘내가 업적을 이뤘다면 그것은 거인의 어깨 위에 올라섰기 때문’이라고 말했다. 이를 저작권과 결부해 풀이해보자. 거인의 어깨라는 건 앞선 코드 개발자들이 만든 코드다. 이를 더 발전시킨 것이라면, 응당 앞선 개발자의 결과물이 있었다고 명시해야 한다는 것”이라고 말하며 저작권에 대한 문제가 생성형 AI 및 오픈소스 생태계에 잘 반영되지 않는다면 소송이나 여러 문제가 야기될 것이라고 경고했다.
이어 심호성 부회장은 “한국오픈소스협회는 문화체육관광부 저작권위원회와 함께 라이선스 및 거버넌스 교육 사업을 진행하고 있다. 협회가 문화를 만들고 인식을 제고해서 할 수 있는 마중물 같은 역할을 지속하고 있다”며 “법적, 윤리적 프레임워크의 재정립 없이는 AI 시대에 오픈소스는 끊임없이 분쟁에 휘말릴 수밖에 없을 것이다”고 덧붙였다.


