데이터 ‘활용의 봄’이 온다…접근 패러다임 혁신하며 부상하는 ‘NL2SQL’
고난도 질의·윤리 문제, 책임소재 등 한계 명확
[아이티데일리] 데이터 활용의 저변이 확대되고 있다. 기존에는 SQL(Structured Query Language)을 통해 원하는 데이터를 효과적으로 조회할 수 있었다. SQL은 강력한 데이터 질의 도구임에도, 문법과 구조를 이해해야 한다는 점에서 비전문가에게는 데이터 활용을 가로막는 장벽이었다. 하지만 최근 자연어로 SQL을 보낼 수 있는 ‘NL2SQL(Natural Language to SQL)’ 기술이 떠오르며 데이터에 대한 접근성이 확대되기 시작했다.
NL2SQL은 사용자가 자연어로 질문을 입력하면, SQL 쿼리로 변환해 DB에서 실행한 뒤 결과를 돌려준다. 가령 “지난해 우리 회사에서 매출이 가장 많이 나온 상위 3개 제품을 보여줘”라고 질의를 할 경우, 해당 자연어 질의문을 DB가 이해할 수 있는 쿼리로 자동으로 바꾸고 해당하는 데이터를 보여주는 방식이다.
NL2SQL은 △자연어 이해 △SQL 구조 매핑 △SQL 생성 및 실행 등 세 단계로 구동된다. 우선 입력된 문장을 토큰화하고, 질의 의도를 파악한다. “지난해 우리 회사에서 매출이 가장 많이 나온 상위 3개 제품을 보여줘”라는 자연어에서 ‘지난해’, ‘회사’, ‘매출’, ‘상위 3개’와 같은 등 핵심 엔터티가 추출된다. 이렇게 추출된 의미를 SQL 문법 요소에 대응하는 SQL 구조 매핑 과정을 거치게 되고, 마지막으로 DB 스키마 정보를 참조해 구체적인 SQL 쿼리를 구성하고 실행해 결과를 반환한다.
NL2SQL은 인간의 언어와 기계 언어(SQL)를 연결한다는 점에서 그간 막혔던 데이터 접근 패러다임을 혁신할 요소로 손꼽히고 있다.
한 국내 SW 기업 관계자는 “그간 SQL을 통한 데이터 활용은 소수 전문가의 영역에 국한됐다. 강력한 도구인 만큼, 문법과 구조에 대한 학습은 필수였고 다중 테이블 조인, 서브쿼리 등 고급 기능의 경우 데이터 분석가조차 어려움을 겪기도 한다”며 “NL2SQL은 기업과 산업의 데이터 활용 문화를 근본적으로 바꾸는 기술로 자리매김하고 있다. 비전문가도 데이터에 직접 접근이 가능해 업무 효율성을 높일 수 있고, 데이터 기반 의사결정이 조직 전체로 확대될 수 있다. 특히 AI 에이전트와 결합하면 분석·보고·예측까지 자연어로 자동화할 수 있다. NL2SQL은 데이터 활용의 민주화를 불러왔으며, 특정 IT 종사자가 아니라도 많은 기업 및 조직에서는 NL2SQL을 활용할 것”이라고 내다봤다.
가트너에 따르면, 2026년까지 대기업의 70%가 자연어 기반 데이터 분석 기능을 채택할 것으로 예상된다. 이는 NL2SQL이 단순한 패션 기술이 아닌, 기업 경영·정책·서비스 기획 전반에서 데이터 활용의 저변 확대로 직결될 것임을 시사한다.
국내·외 빅테크들 역시 NL2SQL 기능을 통합하고 있다. 먼저 MS는 파워 BI와 오피스 코파일럿에NL2SQL을 탑재했다. 사용자가 대시보드에서 자연어로 질문하면, 코파일럿이 즉시 SQL 쿼리를 생성해 시각화 자료를 제시한다. 데이터 분석가가 아니더라도 의사결정에 필요한 인사이트를 얻을 수 있다.
구글은 빅쿼리와 듀엣 AI를 통해 비전문가도 대화형으로 데이터 질의를 수행할 수 있도록 지원한다. AWS 역시 ‘아마존 베드록(Amazon Bedrock)’ 기반 파트너 솔루션에 NL2SQL을 확장 적용하고 있다. 이를 통해 다양한 SaaS 기업들이 베드록을 활용해 대화형 데이터 인터페이스를 구현하도록 돕고 있다.
국내에서도 NL2SQL을 접목하려는 움직임이 활발하다. 업계에 따르면, 네이버클라우드는 기업 고객이 데이터 질의를 손쉽게 수행할 수 있도록 ‘대화형 데이터 탐색’ 기능을 강화하는 것을 목표로, 자사 클라우드 데이터 플랫폼에 LLM 기반 NL2SQL 기능을 시험·적용하고 있는 것으로 알려졌다. 카카오엔터프라이즈는 기업용 협업 툴과 BI 솔루션을 연계해, 사용자가 자연어로 데이터를 호출할 수 있는 기능을 지원하기 위해 검토 중이다.
NL2SQL은 데이터 접근·활용 패러다임을 혁신하는 기술로 꼽히지만, 한계도 존재한다. 우선 다중 테이블, 계층적 질의가 섞인 고난도 SQL에서는 정확도가 현저히 낮아진다는 문제가 있다. 또한 특정 DB 스키마나 용어, 맥락·정의 차이에 따라 SQL이 달라질 수 있으며, 산업별 전문 용어와 스키마 차이로 전이학습이 어렵다는 점과 자연어 질의가 민감 데이터를 우회적으로 요청할 위험이 존재한다는 점도 우려사항으로 꼽힌다.
이에 대해 업계 관계자는 “NL2SQL이 직면한 가장 큰 기술적 난제는 고난도 SQL 질의다. 실제로 고객, 거래, 상품 등 테이블이 얽힌 질의에서 정확도가 크게 떨어진다. 또한 모호성도 존재한다. 가령 집계 SQL을 예로 들면 ‘상위 제품’이라는 표현이 매출 기준인지, 라이선스 판매 건수 기준인지에 따라 SQL 결과가 달라질 수 있다. 인간은 맥락을 이해하지만, 모델은 명시된 표현에 따른다. 그렇기에 동일한 질문이라도 다른 SQL이 생성될 가능성이 높다”고 지적했다.
이어 이 관계자는 “윤리적 문제도 존재한다. 데이터 왜곡과 책임 소재에서 자유로울 수 없다. NL2SQL은 결과를 빠르게 반환하지만, 결과가 항상 옳다고 보장할 수 없다. 또 결과가 틀리더라도, 사용자는 똑똑한 AI가 준 답변이라는 이유로 맹신할 수 있다. 마지막으로 책임 소재가 불명확하다. 데이터 분석가나 데이터 팀을 통해 데이터에 접근할 경우 책임소재를 해당 팀의 A 직원과 같이 특정할 수 있다. 하지만 NL2SQL의 경우 잘못된 SQL로 인해 잘못된 의사결정이 내려졌을 때의 책임이 누구에게 있는지 불명확하다”고 덧붙였다.