인공지능으로 움직이는 세상, 우리가 발 뻗고 자려면?
박지환 (주)씽크포비엘 대표

[아이티데일리] 최근 인공지능이 산업에서 중추적인 역할을 수행하기 시작하는 가운데, 인공지능의 신뢰성을 객관적으로 검증하기 위한 데이터셋의 충분성 평가 기술을 제안한 컨설팅 전문기업인 (주)씽크포비엘 박지환 대표가 본지에 기고를 했다. 

그는 공인된 기준 없이 단순 데이터 축적에 매달렸다가는 중소기업 입장에서 감당하기 어려운 투자 위험에 빠질 수 있다고 경고한다. 반면, 제대로 밸런스가 확보된 적은 데이터 셋만으로도 고신뢰 인공지능을 학습할 수 있다며, 밸런스 데이터라는 공학적이고 기술적인 접근을 제시했다.

그는 (주)씽크포비엘 컨설팅 그룹 대표이사, ASQN(Asia Software Quality Network) 한국대표위원, 또한 SW공학기술표준화포럼 의장, 아주대학교 대학원 지식정보공학과와 전북대학교 SW공학과 겸임교수를 역임한바 있다. <편집자 주>

박지환 (주)씽크포비엘 대표
박지환 (주)씽크포비엘 대표

인공지능(AI)이 산업을 선도하는 시대에는 인공지능의 ‘빅데이터’에 새로운 가치가 부여된다. 인공지능은 데이터로 움직이고, 데이터가 인공지능의 성능을 결정짓기 때문이다. 문제는 소위 빅데이터의 가치에 대해 아직까지 공인된 기준이 없다는 점이다. 데이터의 가치를 양으로 일괄 환산할 수는 없다. 무작정 많은 양의 데이터를 인공지능에게 투입한다고 인공지능의 성능이나 신뢰성이 보장되지 않기 때문이다. 가치 측정의 기준 부재가 데이터 거래를 기반으로 디지털 전환을 기대하는 산업 발전에 걸림돌이 될지 우려된다.

얼마 전 아마존의 구직자 이력서를 평가하는 인공지능은 소프트웨어 분야의 여성을 차별하는 모습을 보여 폐기됐다. 인공지능이 기존의 데이터를 학습하는 과정에, 관련 업계에 만연한 성차별적 편견이 그대로 반영된 것이다. 미국의 범죄 예방 알고리즘(COMPAS)과 구글의 비전 인공지능, 그리고 인스타그램의 자체 검열 시스템 등이 피부색에 따라 분석 대상자를 차별한다는 사실도 밝혀져 문제가 된 적 있다.

인공지능 자체에는 성이나 인종을 차별할 개인적, 문화적 이유가 없다. 더군다나 아마존이나 구글에 보유한 데이터가 부족해서 데이터를 덜 투입했거나 일부러 편향된 데이터를 활용했을 리도 없다. 빅데이터에 적절한 밸런스를 맞춰줄 기준과 검증 방법이 부재했고, 그로 인한 오류의 가능성을 현장에 적용하기 전에 잡지 못 했을 따름이다. 결국 빅데이터에 대한 가치 판단과 검증을 위한, 객관적인 기준의 문제다.

인공지능 기술의 도입은 ‘산업혁명’에 비견될 정도로 광범위한 대격변이라서, 미래 수익을 목표로 하는 기업이라면 관심과 투자를 집중하지 않을 수 없다. 해당 기술 수준이 미국, 중국 등에 미치지 못 하는 우리나라에서는 일단 기술의 향상, 그리고 필요한 데이터 확보량에 치중하는 편이다.

하지만 인공지능 기술을 특정 분야에 도입하는 데 어려움이 있다면, 그것은 인공지능의 스펙보다는 신뢰성 문제일 가능성이 높다. 그리고 인공지능의 신뢰성은 데이터의 밸런스(Balance) 확보를 통해서만 검증될 수 있다. 여기서 밸런스란 단지 여러 종류의 데이터를 ‘골고루’ 가져와서 균형을 맞춘다는 의미가 아니다. 이력서 평가 모델에 모든 회사, 모든 부서의 자료를 공평하게 넣었다고 해서 해당 업계의 암묵적인 편향성을 극복할 수는 없었을 것이다. 데이터 밸런스 확보에는 더 세밀한 기술적, 공학적 접근이 필요하다. 이 밸런스 측정 기술은 뒤에서 자세히 언급하겠다.


인공지능에는 죄가 없다. 그럼에도 사람들은 인공지능의 실수에 절대로 관대하지 않다.

얼마 전 스코틀랜드의 축구 중계에서 인공지능으로 작동되는 카메라가 심판의 대머리를 축구공으로 인식, 경기 상황과 무관하게 심판의 머리만 화면에 담는 해프닝도 있었다. 사람들은 “대머리 심판은 꼭 모자를 써야 되겠네!”라며 웃어 넘겼지만, 교통, 의료, 안전 관리 등 생활의 필수 요소들이 점점 더 인공지능에 의존하는 현실에서 섬뜩한 뒷맛을 남기는 사건이기도 했다.

인공지능의 오작동이 스포츠중계 카메라가 아닌 의료 시스템이었다면? 인공지능 인식 오류 대상이 개복수술 중의 암세포였다면? 실제로 2018년 일본에서는 자율주행차의 인공지능이 ‘천하일품’이라는 라멘 체인점 로고를 진입금지 표지판으로 잘못 인식해 주행 중 갑자기 차를 세워버린 사건도 있었다.

이런 인공지능 자체의 근본적 한계를 지적해 기술 도입에 보수적인 자세를 취할 수 있다. 혹은 인공지능 개발에 앞서 개발자와 이용자가 윤리적으로 각성하고, 구성원 모두가 공유하는 헌장을 발표하며 공동선을 정립하자고 촉구할 수도 있다.

그러나 양쪽 다 공학적 해법은 아니다. 전자가 당면한 현실을 부정하고 뒤처지는, 즉 불가능하면서 퇴영적인 방법이라면, 후자는 인공지능이란 것이 존재하든 존재하지 않든 인류문명의 시작부터 모두가 노력해 왔고 노력해 가야 할 과제일 뿐이다. 문제는 ‘기술적으로 그것을 어떻게 담보할 것인가’에 있다.

인공지능의 신뢰성이 오늘날 문제가 된 것은 인공지능이라는 ‘기계’가 인간이 정해준 코스 그대로 주행하거나 물건을 나르는 것을 넘어서서, 스스로 주변 상황을 인식 및 분석한 후 필요한 행동을 취하게 됐기 때문이다.

얼마 전까지만 해도 인공지능은 사람 대신 바둑 수나 계산했겠지만, 이제는 인사팀장 대신 직원을 채용하고, 변호사 대신 계약서의 독소조항을 탐지한다. 가까운 장래에는 의사 대신 암을 탐지하거나, 운전자 대신 자동차 및 선박을 운행하고, 원자력 발전소의 운영을 통제하게 될 것이다.

그러려면 인공지능에 특정 분야를 어디까지 맡겨야 할지 진지하게 검토해야 할 뿐 아니라, 인공지능이 연구소 실험실 환경이 아닌 산업 현장의 가능한 모든 상황에서 객관적이고 정확한 판단을 할 수 있는지 사전에 엄밀하게 검증해야 한다.

인공지능은 실수하지 않는다. 편견도 없다. 단지 인간이 편향되게 샘플링한 데이터를 사용함으로써 잘못 인도할 뿐이다. 중계카메라의 인공지능이 심판의 대머리를 쫓아간 것은 인공지능에게 대머리에 대한 편견이 있어서가 아니다. 그것은 우선, 인공지능 훈련에 필요한 데이터 수집 단계에서부터 데이터 샘플이 ‘공’에 편중돼, 사람의 드러난 두피 등 다른 변수들로부터 공을 구별할 기준을 학습시키지 못했기 때문이다. 그리고 그 점이 오작동을 일으킬 수 있다는 것을 인공지능 검증 과정에서 잡아내지 못했기 때문이다. 인공지능에게 정치적 공정성이나 성실성이 부족해서가 아니다. 그것을 만들고 평가하고 검증하는 기술의 문제다.


인공지능이 헤매기 전에, 누군가가 잡아줘야 한다.

인공지능을 개발한다는 것은 어린이에게 말을 가르치는 것과 같다. 인공지능이 대상을 필요에 따라 정확하고 적절히 구분하려면, ‘축구공’, ‘암세포’, ‘가능성 있는 인재’ 등의 사전적 의미뿐 아니라 다양한 문맥상 의미, 실수하기 쉬운 맥락까지 알려줘야 한다. 안 그러면 “좋아 죽겠다”라는 말에 깜짝 놀라 앰블런스를 부르는 인공지능이 만들어진다.

어린이는 10년, 20년 시행착오를 겪으면서 말의 맥락을 파악할 뿐 아니라 자기 말에 책임도 질 수 있는 어른으로 ‘성숙’하게 되지만, 인공지능은 단기간에 100년, 200년 분량의 데이터를 제공받음으로써 인간의 생명이나 안전까지도 책임질 수 있게끔 ‘성장’하게 된다. 따라서 인공지능을 믿음직한 파트너로 만들지, 칼자루를 쥔 어린아이로 만들지는 전적으로 인공지능에게 제공되는 데이터에 달려 있다. 여기서, 우리에게는 ‘빅 하기만 한 데이터’가 아닌 ‘밸런스 데이터’가 필요한 것이다.

이 과정에서 기존의 SW 테스트는 특정 인공지능이 성숙한 파트너인지 덩치만 큰 철부지인지에 대해 믿을 만한 확답을 주지 못 한다. 인공지능의 통상적인 작동이 일부 정해진 규칙에 합당한 지만 체크할 뿐, 정작 중요한 부분인 학습용 데이터로 훈련된 인공지능이 어떠한 다차원의 판단 기준을 가지고 있는지, 그래서 인공지능이 적절한 판단을 할 만큼 성숙해 있는지를 확인할 방법이 없기 때문이다.

데이터 품질 평가 역시 현행 방식은 정형 데이터에 집중되고, 비정형 데이터에도 극히 형식적인 부분만을 검증할 뿐이다. 정형 데이터가 말의 사전적 의미라면, 비정형 데이터는 말의 맥락, 주변 상황, 분위기에 해당한다. 인공지능이 현장에서 쏟아지는 수많은 말들의 적절한 문맥을 판단하지 못하는 ‘눈새’라면, 긴급하고 중요한 상황에서 더더욱 신뢰할 수 없게 된다. 인간이 중심이 돼 업무 파트너로서의 인공지능과 협업을 공존하는 ‘증강지능(Augmented Intelligence)’이 더 많은 산업 현장에서 신뢰를 받으려면, 이러한 부분까지를 커버하는 데이터 밸런스를 확보해서 검증돼야 한다.

‘데이터 밸런스’라는 개념이 아직 생소할 수 있으나, 이미 관련된 논문이 ‘IEEE 액세스(Access)’ 저널에 게재됐고 한국정보통신기술협회(TTA)의 단체표준으로 12월 10일 제정됐다. 필자는 ‘데이터 밸런스’라는 개념의 최초 주창자를 자칭하는 입장에서, 위 표준을 통해 비정형 데이터의 밸런스 수준을 측정 및 평가하는 기술을 제시했고, 관련한 지원 도구를 개발해 왔다. 이 기술이 결국에는 미래의 인공지능 산업에서 하나의 상식이 될 것이라고 생각하기 때문이다.


인공지능 기술의 경쟁력은 검증된 신뢰성에서 온다.

산업 전반에 인공지능 혁명이라는 변화가 찾아오고 있는 만큼, 수 많은 기업들이 투자에 나서고 있으며, 이를 지원하는 ‘디지털 뉴딜’ 정책에 투입되는 공공의 예산도 엄청난 수준이다. 그러한 연구와 투자가 기존의 정형 데이터를 단지 양적으로 더 많이 축적하는 한계를 넘어야 할 것이다.

밸런스에 대한 고려 없이 다량의 데이터를 단순 축적하는 것은 자칫 큰 돈을 들여 거대한 빅 쓰레기장을 만드는 일이 될 수 있다. 성 역할의 기존 편견으로 가득한 채용 정보를 100년 치 모아 봤자, 그것을 학습한 인공지능은 꼰대 담당자의 패턴을 100년째 반복하는 낡은 기계가 될 뿐이다.

앞으로 인공지능 기술의 경쟁력은 신뢰성에서 나올 것이다. 인공지능이 신뢰성을 지니려면 학습과 검증 과정에서 적절한 데이터셋이 활용돼야 한다. 적절한 데이터셋이란, 인공지능이 언제 어느 때라도 객관적이면서 상황에 맞는 판단을 할 수 있게 만드는 장치다. 그리고 현재로서는 필자가 현장에서 악전고투 끝에 연구한 데이터 밸런스라는 개념 이외에는, 인공지능 시대에 걸 맞는 최소한의 기술적, 공학적 검증 기술을 아직 찾지 못했다.

이러한 평가 기준 없이 단순 데이터 축적에 매달리는 것은 인공지능에 필요한 만큼의 신뢰성을 부여할 수 없을 뿐 아니라, 데이터 축적에 필요한 비용으로 인해 기업 경영에 부담을 더할 뿐이다. 데이터가 힘이자 가치인 상황에서 데이터 확보에 비용이 드는 것은 어쩔 수 없다. 하지만 도대체 얼마나 모아야 충분한 것일까? 이러한 공인된 기준 없이 무의미할지도 모르는 빅데이터에 자본을 투자한다는 것은 특히 중소기업 입장에서 감당하기 어려운 리스크다. 정부나 공공기관이 기업에게 필요한 모든 데이터를 제공하는 것은 현실적으로 어렵지만, 데이터의 밸런스 수준을 객관적으로 평가할 수 있는 기술과 적용 기준은 확립할 수 있을 것이다. 왜냐하면 제대로 밸런스가 확보된 2만여 데이터셋으로 학습한 인공지능이, 무작정 모아놓은 수백만 데이터로 학습한 인공지능보다 산업 현장에서는 훨씬 높은 정확성을 나타나는 상황이기 때문이다.

중소기업이 생존을 위해 모든 것을 걸고 노력한 결과물이 ‘성차별하는 인공일베’를 만드는 촌극으로 귀결되지 않도록, 관련 기업들이 보다 합리적이고 공학적인 접근을 하기 바란다. 그리고 가능하다면 세계적으로 아직 시작단계인 인공지능 신뢰성 검증 분야의 선두 진입을 위해 고군분투하는 기업들에게, 또 미래 산업을 책임질 인공지능 분야에서 선진 경쟁력을 갖추기 위해 도전하는 국내 수 많은 중소기업들에게, 정부 기관의 적극적인 지도와 지원이 있으면 좋겠다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지