포항공과대학교 채민우 산업경영공학과 교수

포항공과대학교 채민우 산업경영공학과 교수
포항공과대학교 채민우 산업경영공학과 교수

채민우 교수는 통계학 및 데이터과학 이론으로 데이터를 분석하는 다양한 방법들의 근본 원리를 연구하고 있다. 이러한 근본 원리에 대한 이론적 연구를 바탕으로 새로운 데이터 분석 방법론을 개발하고, 다른 분야의 과학자들이나 산업체 등과의 협력을 통해 추천 시스템 개발, 제조 공정 개선, 수요 예측 등 현실적인 문제들도 다루고 있다.

연재 순서

과학이란 무엇인가? (8월호)

과학에서의 불확실성과 데이터 과학 (이번호)

인공지능이 주는 답변은 과학적인가?(다음호)

 

[아이티데일리] 필자가 어린 시절 과학을 공부하다 문득 이런 생각이 든 적이 있다. 만약 우주의 작동 원리가 교과서에 나오는 물리 법칙처럼 확정적이라면, 우리의 미래 역시 이미 결정되어 있는 것은 아닐까? 얼핏 허무맹랑하게 들릴 수 있지만 중고등학교 과학 시간에 배운 물리 법칙들을 떠올려보면, 현재의 운동 상태가 주어지면 미래의 운동 상태도 자동적으로 결정된다는 내용이 대부분을 차지한다.

이러한 생각을 세포, 분자, 원자 수준의 미시 세계에까지 적용해 본다면, 미래 결정론은 그리 터무니없는 발상이 아닐지 모른다. 물론 우리의 미래가 물리 법칙에 따라 완전히 정해져 있다는 결론은 다소 섬뜩하고 쉽게 받아들이고 싶지 않은 주장이다.

그런데 뉴턴의 법칙을 절대적 진실로 받아들인다면, ‘미래가 이미 결정되어 있다’는 결론 역시 과학적으로 틀렸다고 말하긴 어렵다. 현실 세계가 아무리 복잡하더라도 뉴턴 역학의 결론은 어디까지나 결정적이다. 학창 시절의 필자 또한 뉴턴의 법칙을 교과서에 실릴 만큼 확고한 진리로 여겼기에, 결정론적 미래에 반박할 수 있는 과학적 설명을 찾지 못했고, 결국 그런 생각 자체를 접게 되었던 기억이 있다.

하지만 앞선 글에서 언급했듯 과학의 본질이 ‘모델링’에 있다는 관점에서 본다면, 뉴턴의 법칙은 눈에 보이는 대부분의 물체 운동을 설명하기엔 훌륭한 모델이다. 하지만 ‘미래는 결정되지 않는다’는 현실을 설명하기엔 적절하지 않은 모델인 셈이다.


불확실한 미래를 모델링하기 위한 과학적 방법

그렇다면 불확실한 미래를 모델링하기 위해서는 어떤 과학적 방법이 효과적일까? 여기서 과학자들은 ‘확률’이라는 개념을 도입한다. 우리가 잘 아는 바로 그 확률이다. 동전을 던졌을 때 앞면이 나올 확률이 1/2이고, 주사위를 던졌을 때 특정한 눈이 나올 확률이 1/6이라는 사실은 확률이라는 개념을 배우지 않았더라도 대부분 직관적으로 이해한다.

고등학교 수준의 수학만으로도 확률변수나 확률밀도함수 같은 개념을 접할 수 있고, 어느 정도는 이해할 수 있다. 하지만 이 확률이라는 개념을 수학적으로 엄밀하게 정의하는 일은 그리 간단하지 않다. 확률론의 기초가 되는 수학적 이론은 대학원 수준의 수리논리와 측도론을 기반으로 하며, 깊이 있게 공부하지 않으면 정확히 이해하기 어렵다. 그럼에도 불구하고, 대부분의 과학적 모델에서는 우리가 직관적으로 받아들이는 수준의 확률 개념만으로도 충분하다.

이 글에서도 확률의 수학적 정의를 깊이 다루기보다는 우리가 실생활이나 과학에서 활용하는 직관적인 수준에서 논의를 이어가려 한다.

지난 글에서 논했던 뉴턴의 법칙들에서는 불확실성이라는 요소가 전혀 드러나지 않는다. 물론 물리학 모델도 불확실성을 가미할 수는 있지만, 뉴턴의 법칙에 익숙한 일반인 입장에서는 그런 방식이 쉽게 와닿지 않을 수 있다. 그래서 이번 글에서는 보다 쉽고 일상적인 예시를 통해 불확실성을 설명해 보려 한다.

예를 들어 치킨집을 운영하는 사장님이 있다고 하자. 이 사장님은 앞으로 며칠 동안의 치킨 수요를 예측하고 싶어 한다. 수요를 잘 예측할 수 있다면 재료 수급, 직원 근무 일정, 배달 인력 확보, 할인 쿠폰 발행 등을 보다 효율적으로 조정할 수 있고, 그만큼 운영 비용을 줄일 수 있을 것이다.

갑자기 과학 이야기 중에 치킨집 수요 예측이 등장하니 의아하게 느껴질 수 있다. 하지만 다시 강조하자면 과학의 핵심은 모델링이다. 사회과학은 사회 현상을, 경제학은 경제 현상을 모델링한다. 우리가 지금 이야기하는 것도 결국 ‘치킨 수요’라는 현상에 대한 모델링이며, 이는 과학적 방법을 바탕으로 한 예측의 한 형태로 볼 수 있다.

이제 과학적인 치킨 수요 예측법에 집중해 보자. 치킨 수요에 영향을 미치는 요인은 여러 가지가 있을 것이다. 예를 들어 점심보다는 저녁 시간대에 수요가 많고, 직장인의 생활 패턴에 따라 요일별 수요에도 차이가 있을 수 있다. 공휴일이나 특별한 이벤트가 있는 날 역시 다른 수요 양상을 보일 것이다. 치킨집이 초기보다 인기가 많아져서 시간이 흐를수록 수요가 증가하는 경향을 보일 수도 있다. 국가대표 축구팀의 경기가 있는 날은 치킨 수요가 늘어날 것이라는 예측은 꽤 일반적인 상식에 가깝다. 많은 사람이 이에 대해 이견을 갖지 않을 것이다.

하지만 ‘국가대표팀 축구 경기가 있는 날에는 평소보다 치킨 수요가 많다’는 문장을 과학적으로 검증된 사실이라고 부르려면, 그에 합당한 데이터와 분석이 뒷받침되어야 한다. 예를 들어, 최근 1년간의 데이터를 분석해 봤더니 국가대표팀 경기가 있는 날 평균 매출이 평일 대비 30% 높았다는 결과가 나왔다면, 이 결론은 충분히 신뢰할 만하다. 물론 경기의 요일, 경기의 중요도, 시간대, 날씨 등 다양한 변수도 함께 고려되어야 하겠지만, 일단은 논의를 단순화하기 위해 ‘경기 여부’ 하나만을 변수로 모델링한다고 가정하자.

이제 이러한 과거 데이터를 바탕으로, 다가오는 한 주의 치킨 수요를 예측해 보자. 예를 들어 과거 데이터에 따르면, 평일에는 평균 100마리 정도의 치킨이 팔리고 국가대표팀 경기가 있는 날에는 평균 130마리 정도가 팔렸다고 하자. 그렇다면 다가오는 수요일에 경기가 예정되어 있다면 수요일은 130마리, 다른 날은 100마리로 예측하는 식으로 볼 수 있다.

문제는 이러한 예측이 항상 정확하지 않다는 데 있다. 경기가 없는 평일 중 어떤 날은 110마리가 팔리기도 하고, 어떤 날은 95마리에 그칠 수도 있다. 경기가 있는 날 역시 143마리가 팔리는 경우도 있고, 반대로 121마리밖에 팔리지 않는 경우도 있다. 그렇다면 이런 오차는 어디에서 비롯되는 것일까? 도대체 이러한 ‘불확실성’은 무엇에서 기인하는 것일까?


불확실성의 원인?

상식적인 선에서 몇 가지 원인을 생각해보자. 먼저, 데이터의 양이 충분하지 않을 수 있다. 예를 들어 최근 1년간의 매출 데이터를 가지고 분석한다고 할 때, 국가대표팀의 경기가 1년에 많아야 10경기 남짓이라는 점을 고려하면 ‘경기일에는 매출이 30% 증가한다’는 결론은 통계적으로 다소 불안정할 수 있다. 만약 운영 기간이 오래된 치킨집이라면, 2년 혹은 3년 치 누적 데이터를 분석함으로써 보다 안정적으로 추정할 수 있다.

물론 이러한 방식은 평균적인 예측 정확도를 높이는 데는 유리하다. 예컨대 실제 평균 수요가 100마리가 아니라 102마리였다든지, 경기일 매출 증가율이 30%가 아니라 27%였다는 식의 세밀한 조정은 가능하다. 하지만 이러한 방식이라 하더라도, 특정 날짜의 수요를 정확히 예측하는 데에는 여전히 한계가 있다.

다음으로 고려할 수 있는 원인은 앞서 단순화를 위해 생략했던 다양한 수요 영향 요인들이다. 예를 들어 주말에는 평일보다 평균 수요가 10% 더 높을 수 있고, 금요일은 주말보다는 낮지만 월요일부터 목요일보다는 5%가량 수요가 더 많을 수도 있다. 한 달에 2% 정도씩 매출이 꾸준히 증가해 왔다면 시계열적인 변화도 반영해야 할 것이다. 여름철에는 날씨와 맥주 수요가 맞물려 치킨이 더 잘 팔릴 수도 있고, 겨울철에는 상대적으로 수요가 줄어들 수 있다.

이처럼 치킨 수요에 영향을 미치는 다양한 인자들을 반영하여 예측 모델을 구성하면, 단순히 경기 여부만을 기준으로 할 때보다 예측 정확도를 더 높일 수 있다. 예컨대 경기 여부만 반영한 모델에서 한 달 평균 예측 오차가 10%였다면, 주요 요인 몇 가지를 추가하면 5%까지 줄어들 수 있고, 변수들을 보다 체계적으로 고려한 정교한 모델을 구성하면 3% 이하로 낮추는 것도 가능할 것이다.

이런 사고를 계속 이어가다 보면, 자연스레 다음과 같은 질문에 도달하게 된다. “만약 수요에 영향을 미치는 모든 요인을 고려하고, 충분히 많은 데이터를 확보해 정교한 모델을 만든다면, 수요를 오차 없이 완벽하게 예측하는 것이 가능할까?”

이 질문에 대한 답은 생각만큼 간단하지 않다. 수요에 영향을 미치는 요인은 앞서 언급한 요일, 계절, 이벤트 외에도 무수히 많다. 예를 들어 치킨집의 위치, 그 지역의 유동 인구 규모, 유동 인구에 포함된 사람들의 개별 취향이나 심리 상태 등은 실질적으로 중요한 변수일 수 있지만, 데이터로 정량화하기 매우 어렵다. 이처럼 잠재적으로 영향을 줄 수 있는 요인들을 모두 생각한다면 고려해야 할 변수는 사실상 무한에 가깝다고 볼 수도 있다. 그렇다면 정말 모든 요인을 담은 방대한 데이터를 수집하고 분석한다면 예측 오차를 0으로 줄일 수 있을까?

필자의 관점에서는 “정답을 알 수 없다”고 답하는 것이 오히려 과학적이다. 이는 마치 “한 시간 전으로 시간을 되돌릴 수 있다면, 지난 한 시간 동안의 모든 사건이 정확히 동일하게 재현될까?”라는 질문과도 유사하다. 실험으로 검증할 수 없기 때문이다. 마찬가지로 치킨 수요에 영향을 미치는 ‘모든’ 요인에 대한 데이터를 수집하는 것은 현실적으로 불가능하며, 결국 우리는 항상 일정한 수준의 불확실성을 감수해야 한다.


“확률을 이용해 불확실성 자체를 모델링”

우리가 수집 가능한 일부 요인들에 기반해 치킨 수요를 모델링한다면, 예측에는 언제나 불확실성이 따를 수밖에 없다. 이에 과학자들은 확률을 이용해 불확실성 자체를 모델링한다. 예컨대 “수요일에는 치킨이 130마리 팔릴 것이다”라고 단정적으로 말하는 대신, “수요일의 치킨 수요는 평균적으로 130마리이며, 125~135마리 사이에 있을 확률이 95%다”와 같이 확률적으로 예측하는 것이다.

이때 중요한 질문은 다음과 같다. “그 확률은 어떤 방식으로 계산된 것인가?” 이처럼 불확실성을 정량화하고 예측하는 방법을 연구하는 일, 그것이 바로 데이터과학자의 핵심 역할이다. 다소 말장난처럼 들릴 수 있지만 데이터에 내재된 불확실성을 과학적으로 모델링하는 방법을 연구하는 것, 그것이 바로 데이터과학이라는 분야의 본질이라고 할 수 있다.

데이터과학자는 불확실성을 크게 두 가지로 구분한다. 쉽게 말해, 하나는 우리가 줄일 수 있는 불확실성이고, 다른 하나는 줄일 수 없는 불확실성이다. 다소 전문적인 통계학 용어를 빌리자면, 전자는 통계적 불확실성(aleatoric uncertainty), 후자는 지식적 불확실성(epistemic uncertainty)이라고 부른다.

통계적 불확실성은 관측 오차나 무작위성에서 기인한 것으로, 데이터를 더 많이 수집하면 줄일 수 있다. 예를 들어, 치킨 수요 데이터를 보면 특정 요일마다 평균적으로 차이가 나타나는데, 데이터가 쌓일수록 그 차이를 더 정확하게 추정할 수 있게 된다.

반면 지식적 불확실성은 모델 구조의 한계나 설명 변수의 부족에서 비롯되며, 단순히 데이터를 많이 모은다고 해서 사라지지 않는다. 소비자의 심리, 지역 축제, SNS 바이럴 효과처럼 우리가 모델에 포함하지 못한 예측 불가능한 요인들은 언제나 모델 외부의 불확실성으로 남고, 이로 인해 수요의 정확한 예측은 불가능하다.

조금 더 직관적인 예를 들어보자. 압정을 던졌을 때 뾰족한 앞면이 나올지 평평한 뒷면이 나올지 예측하고 싶다고 하자. 여러 번 던져서 데이터를 수집하면 앞면이 나올 확률을 점점 더 정교하게 추정할 수 있다. 이것이 바로 통계적 불확실성을 줄이는 과정이다. 하지만 확률을 아무리 정확히 알아도, 다음 한 번의 시도에서 앞면이 나올지 뒷면이 나올지를 정확히 예측하는 것은 여전히 불가능하다. 즉, 지식적 불확실성은 줄일 수 없기 때문에, 미래를 정확히 예측하는 데에는 언제나 한계가 존재한다.


불확실성은 과학이 다뤄야 할 본질적인 대상

필자는 간혹 기업들과 산학협력을 진행하며 데이터 분석과 관련된 자문을 맡곤 한다. 자주 받는 질문 중 하나는 다음과 같다.
“교수님, 저희가 이렇게 많은 데이터를 모았는데, 왜 예측 오차가 줄어들지 않나요? 최신 심층신경망 모델을 쓰면 더 좋은 예측 성능을 얻을 수 있을까요?”

물론 더 좋은 모델을 통해 예측 성능을 높이는 것도 가능할 테지만 대개 이러한 질문은 불확실성에 대한 이해가 충분하지 않을 때 자연스럽게 나올 수 있다. 기업이 많은 데이터를 수집함으로써 줄일 수 있는 것은 통계적 불확실성에 한정된다. 하지만 앞서 살펴본 것처럼, 지식적 불확실성은 단순히 데이터를 많이 모은다고 해서 해결되지 않는다. 결국 예측 모델은 언제나 일정 수준의 오차를 갖게 되며, 이는 줄일 수 없는 불확실성 때문이라는 점을 이해해야 한다.

다시 F=ma와 같은 물리학 법칙으로 돌아가 보자. 이 공식 안에서는 어떤 불확실성도 보이지 않는다. 실제로 과학은 처음부터 불확실성을 포용했던 것은 아니다. 뉴턴 이후 17세기부터 19세기까지, 과학은 결정론적 모델의 정밀함에 깊이 매료되어 있었다.

“현재 상태만 알면 미래도 예측할 수 있다”는 라플라스적 사고는 당대 과학의 근간이었다. 당시에는 뉴턴의 모델로 설명되지 않는 지식적 불확실성이 극히 작았고, 고도로 발달한 측정 장비 없이 얻은 데이터만으로는 뉴턴의 법칙을 반박하기는 어려웠기 때문이기도 하다.

그러나 20세기 초, 확률론과 통계학의 발전, 그리고 양자역학의 등장은 과학에 중대한 전환점을 가져왔다. 자연은 본질적으로 확률적인 존재이며, 과학이 할 수 있는 일은 더 이상 ‘정확한 미래 예측’이 아니라 ‘가능성의 범위를 정직하게 제시하는 것’이라는 인식이 본격적으로 자리 잡기 시작한 것이다. 이로써 불확실성은 더 이상 과학의 허점이 아니라, 과학이 다뤄야 할 가장 본질적인 대상이 되었다.

오늘날 우리는 데이터라는 거대한 흐름 속에서 다시금 자문하게 된다. “과학은 얼마나 정확한가?”가 아니라, “과학은 얼마나 정직하게 불확실성을 드러내고 있는가?”라는 물음을.

저작권자 © 아이티데일리 무단전재 및 재배포 금지