[기획특집] 생성형 AI 시대, 재조명받는 마스터데이터 관리
데이터 품질 일관성 및 규제 관리 환경 구현하며 AI 모델 성능 향상 기여
[아이티데일리] 생성형 인공지능(AI)의 확산세가 거세다. 기업들은 다양한 업무에 생성형 AI를 적용하고 있다. 생성형 AI의 도입이 늘어나면서 데이터 거버넌스(Data Governance) 기반으로 데이터를 통합·관리하는 일이 중요해지고 있다. 기업들은 특히 데이터 거버넌스의 기본이 되는 ‘기준정보(마스터데이터, Masterdata)’ 관리에 공을 들이고 있다. 마스터데이터는 트랜잭션데이터부터 분석데이터까지 모든 데이터에 영향을 미친다. 마스터데이터가 그만큼 중요하다는 의미이다. 데이터의 신뢰도와 품질관리가 중요해진 생성형 AI 시대, 마스터데이터 관리(MDM) 솔루션의 중요성을 알아보고 관련 기업들의 비즈니스 전략에 대해서도 살펴본다.
기업 비즈니스의 기준점 마스터데이터
통상 데이터의 종류는 크게 마스터데이터(Master data), 트랜잭션데이터(Transaction data), 분석데이터(Analysis data)로 구분된다.
마스터데이터는 기업 운영에 필수적인 전사 핵심 정보로, 자주 변하지 않으며 여러 시스템에서 공통적으로 참조되는 기준정보다. 일반적으로 고객, 제품, 공급사, 직원 등에 대한 데이터로 기업의 비즈니스 프로세스에서 가장 중요한 전사 공통 기초 데이터다.
트랜잭션데이터는 비즈니스 이벤트나 거래 시 생성되는 데이터로, 시간에 따라 지속적으로 업데이트된다. 구매, 판매, 금융 거래 등 비즈니스 활동의 세부 정보를 기록하며, 실시간으로 변동된다.
분석데이터는 기업이 의사결정을 내리는 데 사용되는 데이터를 의미한다. 마스터데이터와 트랜잭션데이터를 기반으로 비즈니스 인사이트를 제공한다. 분석 과정에서 데이터를 집계하고 패턴을 식별해 전략적 결정을 지원한다.
이 중에서 마스터데이터는 데이터 거버넌스 체계를 확립하기 위해 가장 먼저 관리해야 하는 대상이다. 이에 대해 투비웨이 박세준 전무는 “마스터데이터는 기업에서 비즈니스와 시스템 운영에 필수적인 데이터로, 업무의 정확성과 일관성을 보장하기 위해 기준이 되는 개체다. 마스터데이터는 메타데이터와 함께 핵심 정보들로 구성된다. 고객과 공급업체 그리고 임직원을 지칭하는 ‘WHO’, 제품과 자재, 설비를 의미하는 ‘WHAT’, 공장과 창고, 사업장을 뜻하는 ‘WHERE’, 공정과 품질, 물류 정보를 담고 있는 ‘HOW’ 등 용어로 정의할 수 있다”면서 “마스터데이터 관리가 제대로 이뤄지지 않으면 트랜잭션데이터와 분석데이터에 악 영향을 줄 것”이라고 설명했다.
마스터데이터의 생성과 획득, 품질 관리, 시스템 배포 등을 관리할 수 있는 체계를 마스터데이터 관리(MDM : Master Data Management)라고 부른다. MDM은 마스터데이터의 생성부터 폐기까지 전 주기를 관리하고 감독하는 원칙과 체계를 정의하고 적용하는 것이라고 정의할 수 있다.
MDM의 목표는 전사 차원에서 마스터데이터를 통합·일치시키고, 최신의 정확한 데이터를 모든 업무에 동일하게 적용하는 것이다. 마스터데이터에는 회사의 주요 정책, 거래 기준과 개인정보가 포함된다. 마스터데이터에 대한 정책과 전략에 대한 보안 및 컴플라이언스에 대응하기 위해서는 관리가 필요하다. 마스터데이터를 전사적자원관리(ERP), 공급망관리(SCM), 고객관계관리(CRM), 제품수명주기관리(PLM) 등 개별 시스템과 통합하는 과정에서 중복을 제거하는데 이는 데이터 관리에 투입되는 업무처리와 비용 절감으로 이어진다.
품질이 확보된 정확한 마스터데이터를 필요한 시스템에, 적시에 활용할 수 있도록 해 비용을 줄이면서도 효율성을 향상시킨다는 것이다.
MDM 솔루션, 3종 모델과 9가지 핵심 기능 갖춰
마스터데이터에 대한 중요성이 강조되면서 마스터데이터를 관리할 수 있는 솔루션에도 많은 관심이 쏠리고 있다. 마스터데이터관리 솔루션은 크게 △중앙 통제화 △공존형 △분산 통합형 등 3가지로 구분된다.
중앙 통제형(집중식) MDM은 모든 마스터데이터가 단일 MDM 솔루션을 통해 생산·관리·배포되는 형태다. 완전한 제어 기능을 갖추고 있어, 조직 전반에 걸쳐 일관성과 정확성을 확실하게 보장한다. 주로 엄격한 데이터 거버넌스와 중앙 집중식 의사결정이 필요한 기업에 적합하다.
분산 통합형(연합 접근법) 모델은 모든 데이터를 물리적으로 중앙 집중화하지 않고 분산된 데이터 소스를 동기화한다. 통합 뷰를 생성하기 때문에 다양한 데이터를 조화시켜야 하는 빅데이터 환경에 유용하다.
마지막으로 공존형(허브) 접근 방식은 중앙 통제 모델과 분산 통합형 모델의 중간 계층 모델로, 핵심 마스터데이터는 기존 시스템으로 관리하고, 이 외의 생산·관리해야 하는 마스터데이터는 분산 통합형으로 관리해 기존 시스템을 사용하는 조직에 유연성을 제공할 수 있다.
공존형 모델의 대표 사례로 의학 산업 O 기업이 있다. 이 기업은 새롭게 생산되는 마스터데이터를 중앙에서 통제·관리하고, 이 외의 기존 마스터데이터는 레거시에서 운영되는 시스템을 통해 관리하고 있다. 기존 레거시 시스템을 유지하면서, 새로운 MDM 데이터 관리 요구에 유연하게 대응하고 있다.
이와 관련, 데이터스트림즈 신동선 상무는 “공존형 모델은 대규모 조직에서 효과적으로 활용될 수 있다. 예를 들어, 인사 정보 관련 MDM 데이터는 기존 HR 시스템에서 관리하고, 타 부서와의 연계 시에만 MDM 솔루션을 통해 마스터데이터를 통합한다. 이를 통해 기업은 데이터 관리의 효율성을 높이고, 기존 시스템과의 조화를 유지할 수 있다. 공존형 모델은 다양한 데이터 소스를 효과적으로 통합해 데이터 일관성과 품질을 보장한다”고 설명했다.
통상 MDM 솔루션은 크게 △생성·수집되고 품질이 확보된 마스터데이터를 물리적으로 저장하는 공간과 이를 관리하는 기능인 마스터데이터 저장소인 ‘마스터데이터 저장소(Repository)’, △마스터데이터의 표준체계를 정의하고, 관리하는 기능을 통해 다양한 관점과 계층적인 형태의 모델을 관리할 수 있도록 하고, 이를 활용해 입력/조회 화면을 구성하도록 하는 ‘메타데이터 관리(Meta Data)’ △마스터데이터의 생성, 변경, 품질관리 및 배포 등을 위해 저장소에 접근해 데이터를 읽고, 변경하는 기능인 ‘마스터데이터 관리(Operation)’ △여러 소스(내부, 외부 시스템)에서 마스터 데이터를 수집하고, 서로 다른 형식의 데이터를 표준 체계에 맞도록 구축하는 ‘마스터데이터 수집(Consolidation)’ △여러 시스템에서 동일한 마스터데이터를 일관되게 사용할 수 있도록 배포 대상을 관리하고, 데이터 배포를 수행하는 시스템과 기술에 맞추어 배포하고 그 결과를 모니터링하는 ‘마스터데이터 배포(Integration)’ 기능이 필요하다.
아울러 △마스터데이터의 품질을 높이고 오류를 없애기 위해 품질 검사규칙을 정의하고, 마스터데이터에 적용해 데이터 중복이나, 오류 등을 방지하고, 검출해 수정하는 ‘마스터데이터 품질(Quality)’ △마스터데이터를 관리하는 절차와 책임자를 지정하고, 이를 통해 마스터 데이터 변경 요청, 검토, 승인 등의 과정을 자동화하고 추적하는 ‘마스터데이터 협업 및 워크플로우(Process)’ △관리와 활용에 대한 규칙을 정의하고, 역할에 따른 접근 제어와 데이터 보안 및 감사 추적 모니터링 등을 통해 규칙을 준수하도록 감독하는 ‘마스터데이터 거버넌스(Governance)’ △검색/조회, 기준정보 포털, 품질KPI, 외부 데이터서비스 활용, 내부 연동API 등 다양한 경로로 마스터데이터를 확인하고 활용할 수 있도록 하는 ‘마스터데이터 서비스(Service)’ 등으로 구성된다.
한편, MDM을 구축하는 과정에서 가장 많은 영향을 까치는 시스템은 ERP, SCM, PLM 등이다. 그리고 MDM을 구축할 때 기존 레거시 시스템과의 중요도를 비교해 MDM을 배치하는 작업이 중요하다.
데이터스트림즈 신동선 상무는 “MDM의 기본 사상은 데이터 통합·관리 최상단에 존재하는 슈퍼바이저(Supervisor)다. 하단 시스템의 영향력과 중요도에 따라 MDM 표준이나 기준이 바뀌어서는 안 된다”면서 “기업에서 MDM을 구축할 때 기존 레거시 시스템과의 관계를 따져보고 중요도를 파악한 후 MDM을 배치해야 한다. 실제로 MDM에 영향을 가장 많이 주는 시스템으로는 ERP와 PLM이 꼽힌다. 이 경우 MDM은 ERP와 PLM 중간에 위치해야 하며, 두 시스템과 유연하게 인터페이스할 수 있어야 한다”고 조언했다.
AI 모델 신뢰도 영향, 수요 확대 추세
최근 생성형 AI 도입·활용에 있어 마스터데이터와 이를 관리하는 솔루션 MDM의 중요성이 부각되고 있다. 고객, 제품, 공급업체 등 기업의 핵심 정보를 담고 있는 마스터데이터는 데이터를 하나의 통일된 기준으로 일관성 있게 유지한다. 이러한 마스터데이터의 특성은 곧 AI 모델의 학습 재료인 데이터의 신뢰성을 높이는 데 일조한다. 이는 AI 모델의 예측 정확도를 높이고, 정교한 분석을 가능하게 한다. 또한 데이터의 중복과 불일치를 제거해 단일화된 최신 데이터를 제공함으로써 생성형 AI가 일관된 결과를 도출할 수 있다.
MDM 솔루션은 기업이 데이터 출처와 맥락을 명료하게 만들어 AI가 데이터를 올바르게 해석하고 활용할 수 있도록 기반을 마련할 수 있다는 것이다.
이러한 점에서 MDM 솔루션은 생성형 AI의 성공적인 구현에 필수적인 요소라 할 수 있다. 상품 추천 AI 모델이 있다고 가정해 보면, 질의한 고객에 대한 정확한 정보와 이 고객과 유사한 고객들이 갖는 특성 구분과 클러스터 정보, 제안할 수 있는 제품들에 대한 정확한 특징에 대한 정리, 구분, 클러스터화 등을 내포한 마스터데이터가 존재한다면 고품질의 개인화된 결괏값을 제공할 수 있다.
이처럼 AI 모델의 신뢰도와 품질에 영향을 주는 데이터 관리 핵심 지표인 데이터 거버넌스를 잘 준수하고 모니터링하기 위해서는 MDM이 필요하다.
투비웨이 박세준 전무는 “데이터 거버넌스는 데이터의 출처, 변경 이력과 데이터 사용 권한, 접근 제한 등을 관리하고 추적하는 규칙과 절차 등을 정하고 수행하는 것이다. 생성형 AI가 활용하고 생성하는 데이터에 대한 거버넌스 관리는 필수적이다. 데이터 거버넌스를 준수하고 모니터링하기 위해서는 마스터데이터의 역할이 매우 중요하다”고 말했다.
AI 모델, 재료 데이터 품질 일관성 확보 가능…컨텍스트 제공도
생성형 AI는 자연어처리 기술을 기반으로 대규모 데이터에서 학습된 정보를 바탕으로 우리가 필요한 정보를 생성하는 시스템이다. 또 학습이 필요한 대규모의 데이터세트는 대부분 코드(ID)화된 데이터 간 연결로 구성돼 있다. 만약 생성형 AI 모델이 일관되지 않고 중복되거나 유사한 데이터 간 혼동되는 데이터를 학습한다면, AI 모델이 제공하는 결괏값은 상세하거나 맞춤화된 서비스에 적합하지 않게 된다. MDM을 사용하면 이러한 어려움을 해소할 수 있다는 것이다.
MDM은 기업이 수립한 정책과 지침에 의해 데이터의 생성부터 폐기까지 체계적으로 관리하므로, AI 모델이 데이터 변경에 적시 대응할 수 있는 환경을 마련한다. 또한 중앙집중화된 전사 마스터데이터 통합관리 기능을 통해 여러 소스에서 수집된 데이터의 중복, 불일치를 제거해 생성형 AI가 일관되면서 고품질 데이터를 활용할 수 있도록 해준다. 다양한 시스템이 보유한 마스터데이터의 메타데이터를 통합해 동일한 구조와 형식으로 관리하고, AI 플랫폼이 데이터를 일관성 있게 학습해 신뢰성을 높일 수 있다.
MDM을 사용할 경우 생성형 AI가 데이터를 처리하는 기준이 되는 컨텍스트(Context)를 제공할 수 있다는 점도 중요하다. 데이터스트림즈 신동선 상무는 “자연어 기반으로 대화형 AI에서 컨텍스트는 중요한 요소다. 컨텍스트는 주로 생성, 변경 등 출처 정보와 시점 정보, RAG(Retrieval-Augmented Generation) 기반 정보 처리에서 온톨로지 정보 관리와 같은 정보들의 구조와 관계를 정의하고 관리할 수 있는 정보, 기업의 비밀을 보호하고 사회적 책임을 수행할 수 있도록 도움을 주는 거버넌스 정보 등으로 구분된다. MDM은 이러한 컨텍스트 데이터들을 마스터데이터와의 연결 정보로 표현할 수 있다”고 부연했다.
또한 MDM은 생성형 AI가 데이터의 출처, 발생 근거, 목적, 용도, 관계, 연관 정보 등 데이터를 이해하는데 도움이 되는 정보를 통합하고 카탈로깅해 제공할 수 있다.
데이터만으로는 알 수 없는 정보나 가치를 제공해 데이터를 이해하고 해석할 수 있고 더 나은 의사결정을 지원한다는 점이 바로 MDM이 생성형 AI에 줄 수 있는 가치다.
이 외에도 인포매티카 총판기업 관계자는 “MDM은 생성형 AI 활용 측면에 있어, 효율적인 데이터 처리가 가능하도록 도울 수 있다. 자동화된 프로세스를 통해 대량의 데이터를 효과적으로 처리하고 배포해 AI 모델의 학습 속도를 향상할 수 있다”고 말했다.
생성형 AI 위한 데이터 품질 관리 측면 기능 고도화
생성형 AI를 더 잘 사용할 수 있도록 관련 기능이 고도화되거나, 생성형 AI를 솔루션에 녹여 기존 기능을 강화한다는 점에서 대부분의 ICT 기술의 발전 방향과 MDM은 궤를 같이한다.
MDM 역시 생성형 AI의 성능 향상을 위해 필요한 데이터의 품질 기능이 강화될 것으로 예상된다.
생성형 AI의 데이터 학습에 필요한 ‘데이터 오류 감지’, ‘불완전한 데이터의 수정·보강’과 같은 데이터 품질 관리 기능이 향상되고, 또한 관리 관점과 목표 측면에서 마스터데이터의 라이프사이클 관리와 품질 관리를 넘어 데이터 거버넌스, 데이터 계보관리, 데이터 카탈로그 등과 연결돼 데이터 컨텍스트를 관리하는 방향으로 발전하고 있다는 것이 업계 관계자들의 중론이다.
또한 단순히 정형 형태의 마스터데이터만 관리하는 것이 아닌, 생성형 AI가 더 빠르게 데이터를 학습할 수 있도록 반정형, 비정형 형태의 마스터데이터로도 관리 범위가 확대되고 있다.
MDM에 생성형 AI가 적용될 것이라는 전망도 있다. 마스터데이터 검색, 조회, 등록, 분석 및 리포팅 등과 같은 부분에 생성형 AI가 적용돼 사용자 환경과 경험을 개선할 것으로 예상된다.
SAP 파트너사의 한 관계자는 “데이터 정리, 중복제거, 분류 등을 자동화하는 작업도 생성형 AI로 대체해 보다 지능화될 것이고, 마스터데이터와 트랜잭션데이터 및 분석데이터와 같은 다른 유형의 데이터와의 관계도 식별해 컨텍스트를 추가할 수 있게 될 것이다. 이를 통해 MDM은 보다 데이터 이동이 자유롭고 컨텍스트가 풍부한 데이터 관리·활용 환경을 조성하고 의사결정 역량을 높일 수 있게 될 것”이라고 말했다.
MDM 기업 솔루션 및 비즈니스 전략
생성형 AI를 도입하고 학습·운영하기 위해 마스터데이터 관리를 고민하는 기업들이 늘면서, 변화하는 시장에 대응하기 위한 MDM 솔루션을 제공하는 기업들의 움직임도 빨라지고 있다.
MDM 대표 글로벌 기업 인포매티카는 AI 기반 데이터 관리 플랫폼 ‘인텔리전트 데이터 매니지먼트 클라우드(IDMC)’를 비즈니스 전면에 배치했다. IDMC는 데이터 통합, 품질 관리, 카탈로그, 마스터데이터 관리를 하나의 환경에서 제공하는 플랫폼이다. 기업이 대량의 데이터를 코딩 없이 쉽게 적재하고 동기화할 수 있도록 지원한다.
특히 클레어 AI(CLAIRE AI) 엔진을 탑재해 자동화와 메타데이터 인텔리전스를 제공, 데이터 관리 효율성을 극대화하고 있다. 클레어 AI 엔진의 기반인 ‘클레어 GPT’는 자연어 인터페이스를 통해 복잡한 데이터 작업을 쉽게 수행할 수 있도록 하며, 데이터 검색, 탐색, 생성 등의 기능을 제공한다. 인포매티카는 이 같은 생성형 AI 기능을 통해 MDM 솔루션을 갖춘 IDMC 플랫폼을 내세워 생성형 AI 학습·운영에 필요한 데이터의 신뢰도를 높이고 운영 효율성을 향상한다는 계획이다.
SAP는 ‘마스터데이터거버넌스(MDG)’ 전략을 전면에 배치하고 있다. MDG는 데이터 품질과 일관성을 제공하는 SAP의 MDM 솔루션이다. SAP는 데이터 관리를 강화하고 비즈니스 효율성을 높이기 위해 AI를 통합하는 데 중점을 두고 있다. SAP는 생성형 AI를 활용해 데이터 클렌징 및 검증 프로세스를 자동화하고 이를 통해 데이터 품질과 일관성을 개선하고 있다.
특히 SAP는 SAP의 ‘SAP HANA 클라우드용 생성형 AI 툴킷’과 같은 도구를 제공해 전문적인 기술 지식이 없어도 고급 데이터 분석 및 머신러닝 작업을 용이하게 할 수 있도록 지원한다. 또한 AI 사용에 있어 윤리적 기준을 유지하기 위한 데이터 거버넌스 프레임워크도 강조하고 있다.
국내 기업인 데이터스트림즈와 투비웨이도 시장 흐름에 빠르게 대응하고 있다.
데이터스트림즈는 ‘데이터 패브릭(Data Fabric)’ 기반의 데이터 관리를 비즈니스 전면에 내세우고 있다. 데이터스트림즈에 따르면, 데이터 패브릭을 기반으로 비즈니스를 확장할 때 ‘메타데이터’와 ‘MDM’이 중요한 역할을 한다. 속성 정보만 포함하는 메타데이터와 핵심 기준정보인 마스터데이터를 통합된 가상의 레이어(패브릭)에 유기적으로 연결하고, 데이터 카탈로깅 작업을 통해 생성형 AI가 데이터를 빠르고 정확하게, 그리고 신뢰성 갖출 수 있도록 지원한다는 계획이다. 이를 위해 비즈메타, IT메타, 카탈로그, MDM, 데이터 리니지, 데이터 카탈로그 등 전문 역량을 활용한다는 계획이다.
데이터스트림즈의 핵심 솔루션인 ‘엔터프라이즈 마스터스트림(Enterprise MasterStream)’은 △데이터 거버넌스(메타, 표준, 품질, 흐름) 기술과 데이터 통합 기술 융합 △마스터 도메인별 모델 기반 UI/UX 자동 설정 엔진 탑재 △단일 플랫폼 내 멀티 도메인 지원 △하이브리드 및 빌딩블록형 등 특장점을 갖고 있다.
투비웨이는 데이터에 대한 전문성을 바탕으로 기능성과 편의성을 강조한 MDM 솔루션뿐만 아니라, 데이터 품질관리. 메타데이터 관리, 데이터 카탈로그, 데이터 포털 기능을 제공하는 종합적인 ‘마스터데이터 관리 프레임워크’를 전면에 내세우고 있다. 여기에 더해 AI와 ML 기능을 도입·탑재해 중복데이터 검출 및 유사도 분석, 데이터 클러스터링 및 분류추천 등과 같이 기준정보 품질을 높이고 관리의 편의성을 향상하는 기능을 제공하고 있다.
투비웨이의 핵심 MDM 솔루션은 ‘투비웨이 MDM’으로 내부 데이터 모델 제약이 없는 범용 데이터 모델, 분류체계 및 속성의 계층적 구조모델로 유연성, 분류 자체 이동 및 마스터의 분류 이동 지원, 코드 채번 규칙 지정, 다양한 속성 유형 기능 등을 갖추고 있다. 또한 MDM 전용 워크플로우를 내장하고 있으며, 데이터 등록신청 및 승인에 대한 프로세스 관리, 규칙기반 검증, 중복방지, 표준어 및 동의어사전 관리, 사전품질 관리 기능 등을 통해 정합성 검증도 지원하고 있다. 고객사의 그룹웨어와의 워크플로우 통합도 가능하다.