[2020 데이터 컨퍼런스⑧] 코로나19 접촉 추적 네트워크 분석 시각화 솔루션

김기훈 사이람 대표

2020-12-02     김성수 기자

[아이티데일리] 휴식시간 이후에는 김기훈 사이람 대표가 세 번째 발표를 위해 연단에 올랐다.

코로나19 접촉 추적 네트워크 분석 시각화 솔루션 / 김기훈 사이람 대표

김기훈 사이람 대표

김기훈 대표는 ‘코로나19 접촉 추적 네트워크 분석 시각화 솔루션’이라는 주제로, 자사의 ‘넷마이너(NetMiner)’ 솔루션을 이용해 국내 코로나19 전염 네트워크를 분석한 결과를 단계별로 소개했다. 분석 과정은 크게 ▲확진자 데이터를 수집·정제·분류·모델링하는 전처리 단계 ▲전처리를 거친 데이터에서 유의미한 값을 찾아내는 분석 및 시각화 단계로 구성됐다.

가장 먼저 본격적인 네트워크 분석을 위해 확진자 접촉 데이터를 수집했다. 방역당국에서는 진단검사(test)와 접촉조사(tracing)라는 두 가지 방법을 통해 확진자 접촉 데이터를 구축, 지자체 홈페이지를 통해 공유하고 있다. 이를 웹크롤링 방식으로 수집하고 정지·분류·모델링 과정을 거쳐 코로나19 전염 과정을 확인해볼 수 있는 네트워크 데이터를 마련했다. 데이터 수집 범위는 서울·경기·인천 등 수도권으로 한정했으며, 국내에 첫 확진자가 발생한 1월 10일부터 수도권 사회적 거리두기가 2.5단계로 격상되기 직전인 8월 20일까지, 확진 판정을 받은 7,430명의 데이터를 수집했다.

이 과정에서 각 지자체별로 다르게 정리된 필드값과 필드구성을 통일해주고 메타데이터를 일원화함으로써 이후 데이터 분석 과정이 원활히 이뤄질 수 있도록 했다. 대부분의 필드값이 작성자의 편의에 따라 비정형 텍스트 형태로 기재돼 있었기에 이를 정제해주는 과정이 필요했다. 가령 감염경로에 대한 값이 “2.16 신천지교회(대구) 참석”/“신천지 대구교회 방문” 등으로 기록돼 있다면, 이를 “집단_종교_신천지”라는 정형화된 값으로 변경하는 것이다.

정제된 데이터는 다시 감염경로를 참고해 ‘개인/집단/해외/불명’이라는 네 가지 카테고리로 분류했다. 이후 특정 개인(source)이 다른 개인(target)을 직접 감염시킨 ‘개인’ 카테고리에 속하는 대상자들 간에 관계성을 정리해, 최종적으로 확진자 간의 감염 정보를 담고 있는 링크(link) 테이블과 특기할 만한 환자들의 정보를 담고 있는 노드(Node) 테이블을 새롭게 생성했다.

본격적인 시각화 및 분석에는 사이람의 ‘넷마이너’ 솔루션이 사용됐다. ‘넷마이너’는 사이람에서 약 20년 전에 개발해 꾸준히 성능을 업그레이드해오고 있는 소셜 네트워크 분석 솔루션이다. 자바 기반으로 만들어져 있지만 파이썬 API로 손쉽게 부가 기능을 구현할 수 있으며, 이번 분석에서는 확진자 데이터 수집 및 전처리 기능과 분석·시각화 기능들을 플러그인으로 추가해 활용했다. 김기훈 대표는 수 분에 걸친 영상을 통해 직접 ‘넷마이너’로 데이터를 분석하고 그래프 형태로 시각화하는 과정을 시연함으로써, 수도권 3개 지역의 코로나19 확산 네트워크를 일목요연하게 확인할 수 있도록 했다.

김기훈 대표는 “코로나19 전염 확산 메커니즘을 분석한 결과, 종교시설 등 집단감염은 줄고 있으나 확진자에 의해 재생산되는 n차 감염을 막는 것이 난제로 떠올랐다”며, “n차 감염자를 막기 위해서는 확진자 추적 조사(contact tracing)가 가능한 역학조사관을 늘려야 한다. 추적 과정에서 생겨나는 네트워크를 추가적으로 분석함으로써 코로나19 확산 방지에 필요한 격리조치를 빠르게 수행할 수 있을 것”이라고 설명했다.