“‘데이터 밸런스’ 갖춰야 AI 신뢰성 잡을 수 있다”

AI 활용 영역 넓어지면서 편향성·불투명성 등에 대한 문제 커져
씽크포비엘, 지역SW품질협의체 워크숍서 데이터 밸런스 기반 AI 사전검증기술 소개

[아이티데일리] 지난 2016년 3월 ‘알파고’와 이세돌 9단이 세기의 바둑 대결을 펼친 이후, 인공지능(AI) 기술은 비약적 발전을 거듭했다. SW업계는 산업과 사회 깊숙이 AI 기술이 활용되면서 ‘인간 삶을 이롭게 만든다’는 방향성이 체계를 잡아가고 있지만, 편향성·불투명성·책임소지 등의 여러 난제가 함께 대두됐다는 점에 주목한다.

글로벌 회계법인 딜로이트가 2018년 진행한 조사에서 ▲잘못된 의사결정 ▲위험 산업에서의 오작동 ▲위법 행위와 그에 따른 법적 책임 등이 AI의 잠재적 위험요소로 꼽혔다. 이는 AI 신뢰성과 밀접하게 연관돼 있다. 개발 단계부터 실험실 수준 연구에서 벗어나 현장 중심 AI 신뢰성을 확보하려면 데이터 밸런스 기반 검증이 필요하다는 목소리가 나오고 있다.

지난 5월 미국 흑인 남성 조지 플로이드가 미니애폴리스에서 경찰에 의해 사망한 사건을 계기로 페이스북과 같은 소셜미디어에 대한 비판이 터져 나왔다. 사건 직후 흑인에 대한 비방과 비난, 혐오 발언, 가짜뉴스 등 인종차별적 게시물이 여과 없이 올라왔는데도 소셜미디어 회사가 이를 막기 위한 노력을 제대로 하지 않았다는 것이었다. 결국 페이스북 측은 플랫폼에 구축한 기존 AI 알고리즘이 어떤 구조로 소수 인종에 불리하게 작용했는지를 조사해 개선 방안을 찾겠다고 발표했다.

AI 알고리즘은 수많은 데이터를 수집·축적해 자동으로 결과를 내놓는다. 문제는 이를 설계하는 사람 손에 의해 편향된 결과가 나올 가능성이 있다는 점이다. 소셜미디어 인종차별 문제도 이런 편향된 데이터 때문이란 것이 전문가 판단. 이는 앞서 언급된 페이스북은 물론 트위터와 인스타그램 등에서도 발생했을 만큼, AI 기술 적용 사례가 많아질수록 더욱 늘어날 가능성이 크다는 지적이다. 일부 전문가들은 이번 페이스북 사건에 대중의 관심이 집중됐던 만큼, 이를 계기로 AI 신뢰성 확보 중요성이 더욱 부각될 것이라 예상했다.

AI 신뢰성을 확보하지 않으면 인간의 삶에 위해가 될 수 있음을 확인한 사례도 있다. 일본의 라면 프랜차이즈 음식점 ‘천하일품’ 로고는 ‘진입금지’ 도로교통 표지판과 유사하다. 이 때문에 실제 2018년 혼다가 개발한 자율주행 자동차가 음식점 간판을 진입금지 표시로 판독하고 오작동을 일으킨 사고가 발생했다. AI가 제대로 기능하려면 탐지 대상을 잘 구분할 수 있도록 유사한 형태에 대해서도 고려해야 했는데, 혼다 자율주행차의 경우 이에 대한 충분한 학습이 이뤄지지는 못한 것이다. AI 업계 한 관계자는 “고양이를 탐지하는 AI 모델을 개발할 때 비슷한 호랑이·표범·삵 등의 데이터를 포함해야 하는 것과 같은 논리”라고 했다.

AI 신뢰성 관련 문제가 잇달아 발생하면서 유럽과 미국 등지에서 AI 신뢰성 검증과 법적·윤리적 준수 관리·감독에 관한 관심이 점차 높아지고 있지만, 현재까지 나온 대부분 방안이 사후 조치에 불과한 점은 아쉬운 대목이다. 물론 이마저도 관련 산업 육성에 초점 맞추고 있는 국내 실정에서 봤을 때는 ‘그림의 떡’이라는 게 업계 전문가들의 지적이다.

이런 상황에서 최근 ‘데이터 밸런스’를 기반으로 AI 신뢰성을 사전 검증할 수 있는 기술이 소개됐다. 데이터 밸런스 기반 검증은 AI 동작에 영향을 미치는 요소를 식별하고 모든 경우를 논리적 조합으로 도출하는 기술적 검증 방법이다. 과거 확률 및 경험에 기반해 단순히 수량만 많은 데이터로 AI의 정확도만을 검증하던 방식과는 기술적·객관적 차이가 있다는 설명이다.

씽크포비엘은 데이터 밸런스에 초점 맞춰 AI의 신뢰성을 검증할 수 있는 ‘CETA(Cause and Effect Test Auto Analyzer)’를 개발해 상용화 단계에 접어든 상태다. 씽크포비엘은 현재 ‘CETA’를 IEEE 액세스(Access) 저널에 참조할 수 있도록 게재했고, 한국정보통신기술협회(TTA)에 표준으로 신청해 채택이 검토되고 있다. 관련 특허 출원·등록도 10여건에 이른다.

기술에 대한 해외 반응 또한 긍정적이다. 씽크포비엘 관계자는 “일본과학기술연맹 사토시 마스다 박사가 현재 일본 내 한 자동차 업체로부터 의뢰 받아 자율주행 검증 컨설팅을 수행하고 있는데, 우리 기술이 적합해 적용해 보고 싶다는 뜻을 보였다”고 밝혔다.

한편 오는 12일과 13일 양일에 걸쳐 개최되는 ‘2020년 지역SW품질협의체 성과 공유 및 전략 마련 공동 워크숍’에서도 데이터 밸런스 기반 AI 신뢰성 검증(평가)이 주요하게 다뤄진다. 해당 워크숍은 전국 4개 권역 11개 기관이 참여 중인 지역SW품질협의체가 여수 소노캄 호텔에서 개최한다.

박지환 씽크포비엘 대표는 이날 강연에서 데이터 밸런스 확보가 AI 신뢰성 검증 관점에서만 중요한 것은 아니라는 점을 소개할 계획이다. 박 대표는 “빅데이터를 축적한다며 데이터 밸런스에 대한 고려 없이 데이터양에만 집중하면, 데이터 수집·가공에 많은 시간과 비용이 소모되고 저장하는 비용 또한 만만치 않게 들어갈 것”이라면서, “이러면 빅데이터가 아닌 ‘빅쓰레기’만 양산될 것”이라고 말했다. 박 대표는 “(데이터 밸런스가 없다면)그간 소요된 시간과 비용을 고려했을 때 차라리 하지 않는 것이 나을 수도 있다”고 덧붙였다.

또한 박 대표는 강연에서 중소 SW기업에 대한 조언도 공유할 예정이다. 중소기업이 데이터 밸런스 확보 계획없이 무작정 데이터 수집에 뛰어들면 샘플링 편향 등으로 사고뭉치 AI 모델을 만들어 낼 수 있다는 것이 핵심이다. 박 대표는 “낯선 곳을 갈 때 지도를 지니고 있는지를 따지는 것과 같은 맥락”이라며, “데이터 밸런스는 높은 AI 신뢰성을 구축하는 데 있어 시간과 비용을 줄여줄 내비게이션이 돼 줄 것이며, 목적지 도착 여부를 확신할 수 있게 만들어줄 가장 최적의 방안이란 사실에 주목할 필요가 있다”고 강조했다.

이상진 한국산업지능화협회 센터장은 “최근 AI 신뢰성 검증 지원에 대한 기업 수요가 높아지고 있는 상황에서 (씽크포비엘의)기술이 적합하다고 평가돼 해당 기술을 활용한 보다 적극적인 기업 지원을 고려 중”이라며, “이번 워크숍에서는 최근 화두인 AI 신뢰성 검증에 대한 기술적 방안을 모색하는 취지로 데이터 밸런스 기반 AI 신뢰성 검증 관련 강연을 진행해 국내 여러 협회와 단체가 관심 두고 지켜볼 것”이라고 밝혔다.

한편 씽크포비엘은 지난 2008년 창업해 올해로 13년 된 SW 공학 전문기업으로, AI 신뢰성 검증을 위한 데이터 밸런스 이론과 기술을 발표하고 개발했다. 그간 300여개 중소 SW R&D 기업을 기술 지원했고, 50여개에 이르는 관련 특허를 출원·등록했다. 특히 SW 공학 분야 황무지로 불리는 국내에서 표준 제정과 국제학회 발표, 국제 콘퍼런스 개최를 비롯한 국가 간 연대 활동을 전개하며 전문성 높은 대표기업으로 인정받아 오고 있다.

김성수 기자 kimss56@itdaily.kr

다른기사 보기

상단영역

본문영역