수천억 대 계약서, NLP 기술로 ‘독소조항’ 찾는다

[아이티데일리] 자연어처리(NLP) 기술이 고도화되면서 산업계에서의 활용이 빠르게 늘어나고 있다. 정형화되지 않은 일상적인 문장도 보다 정확히 인식하고 처리할 수 있게 되자, 그동안 기술 도입을 꺼리던 분야에서도 NLP를 활용해 생산성을 높이려는 시도를 하고 있다.

특히 최근에는 한 건의 비즈니스 계약을 위해 수백 페이지의 문서를 검토해야 하는 글로벌 플랜트 엔지니어링 분야에서 NLP 기술 도입에 나서고 있다. 사업 규모가 수천억 원 대에 이르면 한 건의 계약서를 분석하기 위해서만 몇 주 이상의 시간이 소요된다. 이에 NLP 기술을 활용해 빠르게 계약서를 분석하고 독소조항을 찾으려는 시도가 이어지고 있다.

[ITB 분석 ①] ITB 문서 분석, 자연어처리로 해답 찾는다
[ITB 분석 ②] 포항공대, 의미론적 분석까지 가능한 프로토타입 개발

포항공대, 본 계약서까지 분석 가능한 기술 개발

현재 국내에서는 보다 고도화된 NLP 기술력을 적용한 ITB 분석 과제가 진행 중이다. 산업통상자원부는 지난 2012년 ‘AI 기반 엔지니어링 빅데이터 통합 분석 지원 시스템 개발’ 과제를 발주했다. 여기에는 ‘지식베이스 아키텍처 설계’나 ‘플랜트 설비 예측정비 모델 구축’ 등과 함께 ‘엔지니어링 ITB 분석 프로토타입 개발’이 주요 목표로 포함됐다. 해당 과제는 위세아이텍이 수주했으며, 이 중 ITB 분석 프로토타입 개발은 포항공과대학교 PM연구실이 주도적으로 진행했다.

기존의 ITB 분석 자동화 시스템들이 상대적으로 쉬운 기술요구사항에 초점을 맞췄다면, 포항공대가 주도한 ITB 분석 프로토타입 개발 과제는 고도화된 NLP 기술을 활용해 본 계약서 분석까지 자동화하는 것을 목표로 한다. 한편 본 계약서 분석은 기술요구사항 분석보다 훨씬 높은 NLP 기술력이 필요하다. 한 페이지 이상 늘어지는 장문과 단서 문장이 복잡하게 얽힌 복문 사이에서 의미론적 분석을 통해 문맥을 정확히 짚어내야 하기 때문이다. 하지만 이를 통해 얻을 수 있는 이득은 상당하다. 전문 로펌이 수 주간 매달려야 하는 수백 페이지의 본 계약서 분석 작업을 몇 시간 안에 끝낼 수 있기 때문이다.

실제로 법조계에서는 AI를 활용해 법률자문 등을 제공하는 리걸테크(legal-tech)가 주목받고 있다. 여기에는 사람 대비 훨씬 빠른 서비스 속도가 큰 부분을 차지한다. 국내에서도 인간 변호사와 AI가 법률 자문 대결을 벌인 결과, 인간 변호사 팀이 제한 시간 안에 답변을 내놓지 못한 반면 AI는 10초 이내에 정확한 답변과 보완해야 할 항목까지 제시해 눈길을 끌었다. AI가 법조인의 역할을 대체할 수 있을 지에 대해서는 갑론을박이 오가고 있지만, 최소한 업무 효율을 크게 높일 수 있는 도구로써의 가능성은 충분히 보여줬다는 평가다.

이번 과제를 주도한 포항공대 이을범 교수는 “미국에서는 이미 AI 변호사에 대해 많은 테스트를 진행하고 있는데, 인간 변호사가 100시간 걸릴 업무를 2시간 안에 끝낼 수 있는 것으로 나타났다. 물론 실무에 적용하면 데이터를 전처리하거나 입력하는 등 세팅에 시간이 걸리기 때문에 이렇게 극단적인 차이는 나지 않겠지만, 최소한 10배 이상은 빠를 것으로 확신한다”고 설명했다.


정확도 90% 이상 기록…상용화 초읽기

분석 결과의 정확도 역시 ITB 자동 분석 시스템의 중요한 평가 요소다. 분석 속도가 아무리 빠르다 한들 잘못된 결과를 낸다면 시간과 역량을 낭비하는 꼴이기 때문이다. 특히 한 번의 비즈니스로 수천억 원이 왔다갔다하는 플랜트 엔지니어링 분야에서는 ITB 분석에 대한 정확도가 매우 중요하다.

지난 몇 년간의 과제 수행을 통해 포항공대에서 개발한 ITB 분석 시스템의 정확도는 프로토타입 단계를 넘어 상용화가 가능한 수준에 이르렀다. 복잡한 문장이 포함된 본 계약서를 분석한 결과 중요성이 높은 30개 핵심 독소조항을 90% 이상의 정확도로 찾아냈다. 이는 같은 문서를 사람이 분석한 결과와 비교해 일치 여부를 판별한 것이며, ITB 분석 시스템에 완전히 의존하지는 않더라도 사람이 직접 수행하던 업무를 보조하기에는 충분한 수치로 보인다.

포항공대 측은 ITB 분석 시스템이 인터페이스까지 개발 완료돼 있어 가까운 시일 내에 시범 서비스가 가능할 것으로 예상했다. 브라우저 상에서 ITB 분서를 업로드하면 위험요소나 독소조항들을 찾아 이용자에게 고지하는 식이다. 상용화 이후에는 웹브라우저에서 손쉽게 접근할 수 있는 클라우드 서비스로 제공할 계획이며, 시스템 개발을 지원한 국내 A사는 시범적으로 해당 서비스의 프로토타입을 활용하고 있는 것으로 알려졌다.

만약 국내에서 개발한 ITB 분석 자동화 기술이 성공적인 결과를 달성해 플랜트 엔지니어링 업계에 안착한다면, NLP 기술의 상용화 수준을 한 단계 높일 수 있을 뿐만 아니라 가장 주목받고 있는 분야 중 하나인 리걸테크 분야를 선도할 수 있을 것으로 보인다. 현재 전 세계의 많은 기업들이 각축전을 벌이고 있는 NLP 기반의 ITB 문서 분석에 대해 국내 연구진들이 새로운 지평을 제시할 수 있을지 결과가 주목된다.

“글로벌 최초의 완전한 ITB 분석 자동화 기술”
이을범 포항공과대학교 철강‧에너지소재대학원 교수


Q. ‘엔지니어링 ITB 분석 프로토타입 개발’ 과제의 의의는?

ITB 중 본 계약서에 대한 자동화된 분석은 아직 글로벌 리더 기업들도 상용화하지 못한 기술이다. NLP 기술을 활용할 때 가장 일반적으로 사용하는 것은 IBM과 SAS의 제품인데, 실제로 라이선스를 구매해 사용해본 결과 기대한 바에 미치지 못하는 성능을 기록했다.

문제는 EPC 분야와 ITB 분석에 대해 최적화가 되지 않았다는 점이다. 글로벌 기업들의 기술력은 뛰어나지만, 다양한 분야에 범용적으로 맞출 수 있도록 제품을 개발하다보니 ITB 분석이라는 한정된 영역에서 만족스러운 성능을 발휘하지 못하는 것으로 보인다. 멸치처럼 아주 작은 생선을 잡아야 하는데, 튼튼하고 편리할지언정 그물코가 너무 커서 제 역할을 하지 못하는 그물을 사용하는 격이다. 여기서 성능을 높이기 위해 커스터마이징을 하려면 추가적인 자원이 소요되는데, 최소한으로 잡아도 몇 십 억 단위의 예산과 1년 이상의 시간이 필요할 것이다. 성공할 것이라는 보장이 없는 기술에 대해 이 정도의 자원을 선뜻 투자할 기업은 없다.

이번 과제는 정부 지원을 통해 ITB 분석에 특화된 시스템을 개발하는 것이다. 기존 제품들이 갖추고 있는 범용성을 포기하고 플랜트 엔지니어링 분야의 ITB에만 집중했다. 기업들이 나서기 어렵지만, 미래에 꼭 필요한 기술에 대해 정부가 일찍부터 지원하고 상용화 수준에 이르렀다는 점에서 고무적이다. 해당 기술이 상용화된다면 국내 플랜트 엔지니어링 기업들의 비즈니스가 크게 개선될 것으로 기대된다.


Q. 이번 과제에서 가장 어려웠던 점은?

행정적인 문제와 기술적인 문제로, 사용할 수 있는 기술이 제한되는 점이었다.

행정적인 문제는 학습용 데이터 수급이었다. 본 계약서 분석까지 가능한 AI를 개발하기 위해서는 당연히 다수의 ITB 문서가 필요한데, 기업들이 보안상의 이유로 해당 데이터를 공유하기를 꺼려했기 때문이다. 그나마 이번 과제에 참여한 기업들이 몇몇 있었고, 이전에 다른 정부 과제를 추진하거나 현업 교육 및 자문 등을 수행하면서 확보한 것들이 있어서 최소한의 데이터는 확보할 수 있었다. 그럼에도 충분하지는 않았기 때문에 적은 양의 데이터로 최대한의 효율을 낼 수 있는 기법들을 사용해야 했다. NLP 기법 중에서도 룰과 학습을 함께 수행할 수 있는 것들이 유리했다. NER(Named Entity Recognition)이나 룰 기반의 프레이즈 매처(PhraseMatcher) 같은 상용 엔진들이 많은 도움이 됐다. 이 중에서도 어떤 엔진이 가장 최적인지를 연구해, 적은 데이터를 가지고 보다 높은 성과를 달성할 수 있는 방법을 찾았다.

기술적인 문제는 ITB 분석이라는 목표에 몇몇 최신 기술들이 맞지 않아서 발생했다. 예를 들어 NLP 분야에서 주목받는 기술로는 텍스트를 벡터값으로 표현하는 워드투벡터(Word2Vec)가 있다. 텍스트를 벡터화하게 되면 성격과 트렌드는 파악할 수 있지만, 두 값이 선형적으로(linear) 연결되지 않는다. 이렇게 되면 “분석 대상의 위험 수준은 70점짜리다”라거나 “독소조항이 낮은 수준으로 있다”는 식으로 파악하게 된다. 하지만 ITB 분석에서는 해당 문서의 정확히 어느 문장이 왜 독소조항인지를 정확히 찾아내야 한다. 그러니 향후 기술 수준이 더 높아진다면 모를까, 현 시점에서 워드투벡터 기술은 사용할 수 없었다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지