가명처리 등 비식별 조치 명시화…비식별화 솔루션 수요 확대

[아이티데일리] 지난 1월 국회에서 데이터 3법이 통과됨에 따라 데이터 산업이 활성화될 것으로 기대되고 있다. 특히 비식별 조치가 된 개인정보를 산업적 통계 등 연구 목적으로 명시적 동의 없이 활용할 수 있게 되면서 데이터의 활용도가 높아질 것이 확실시된다. 또한 비식별 조치 중 가명정보가 명시됨으로써 활용되는 데이터의 품질도 크게 향상될 것으로 보인다.

데이터 3법에서 주목해야 할 점은 개인의 명시적 동의 없이 연구 목적으로 사용하기 위해서는 비식별 조치가 이뤄져야 한다는 것이다. 이런 이유로 비식별화 시장 역시 급성장할 것으로 기대된다. 오는 8월 데이터 3법이 시행되면, 국내에서도 데이터 활용을 위한 비식별 조치가 활성화될 것이라는 전망이다. 데이터 3법으로 인한 개인정보 비식별화 시장에 대해 전망해본다.
 

데이터 활용의 기본, 비식별화

데이터 3법 개정안에 따라 민감 데이터를 활용하기 위해서는 먼저 비식별 조치를 취해야 한다. 비식별 조치는 데이터 셋에서 개인을 식별할 수 있는 요소 전부 또는 일부를 삭제하거나 대체하는 방법을 활용, 개인을 알아볼 수 없도록 하는 조치다. 이와 더불어 다른 정보와 쉽게 결합해 개인을 식별할 수 있는지를 검사하는 ‘비식별 조치 적정성 평가’를 함께 진행해야 한다.
먼저 사전 검토 단계를 통해 빅데이터 분석을 위한 정보가 개인정보인지 판단해야 한다. 해당 정보가 개인정보에 해당하지 않는 것이 명백한 경우에만 별도 조치 없이 빅데이터 분석 등에 활용할 수 있다.

비식별 조치에 있어서 가장 중요한 개념은 ▲식별자(Identifiers)와 ▲속성자(Attribute value) 2가지다.

‘식별자’는 단일 또는 조합을 통해 개인을 직접 식별할 수 있는 속성이며, ▲고유식별정보(주민등록번호, 여권번호, 운전면허번호 등) ▲성명 ▲상세주소 ▲날짜 정보(생일, 기념일 등) ▲전화번호 ▲의료기록번호 ▲계좌 및 신용카드 번호 ▲자동차 및 각종 기기의 등록 번호 ▲사진 ▲신체 식별정보 ▲이메일 및 IP, MAC 주소 ▲식별코드(아이디, 사원번호, 고객번호 등) 등이 해당된다.

2016년 ‘개인정보 비식별 조치 가이드라인’에서는 데이터에 포함된 식별자는 원칙적으로 삭제 조치해야 한다고 명시하고 있다. 다만 데이터 이용 목적상 반드시 필요한 식별자는 비식별 조치 이후 사용해야 한다고 권고하고 있다.

‘속성자’는 자체로는 식별자가 아니지만, 다른 데이터와 조합을 통해 특정 개인을 추론할 수 있는 데이터로, ▲개인 특성 ▲신체특성 ▲신용 특성 ▲경력 특성 ▲전자적 특성 ▲가족 특성 등이 포함된다.

▲ ‘속성자’ 데이터 예시(출처: 행정안전부)

가이드라인에는 데이터에 포함된 속성자도 데이터 이용 목적과 관련이 없는 경우에는 원칙적으로 삭제해야 한다고 명시돼 있다. 또한 데이터 이용 목적과 관련이 있는 속성자 중 식별요소가 있는 경우에는 가명처리, 총계처리 등의 기법을 활용해 비식별 조치를 해야 한다. 특히 희귀병명, 희귀경력 등 구체적인 상황에 따라 개인 식별 가능성이 매우 높은 속성자는 엄격한 비식별 조치가 필요하다고 강조하고 있다.


비식별 조치, 5가지 기법 및 17가지 세부기술 정립

현재 국내에서 공급되고 있는 비식별화 솔루션들은 2016년 가이드라인의 5가지 비식별 조치 처리기법과 17가지 세부기술을 기반으로 개발돼 있다. 5가지 처리기법과 17가지 세부기술은 ▲가명처리(Pseudonymization) - ①휴리스틱 가명화 ②암호화 ③교환방법 ▲총계처리(Aggregation) - ④총계처리 ⑤부분총계 ⑥라운딩 ⑦재배열 ▲데이터 삭제(Data Reduction) - ⑧식별자 삭제 ⑨식별자 부분삭제 ⑩레코드 삭제 ⑪식별요소 전부삭제 ▲데이터 범주화(Data Suppression) - ⑫감추기 ⑬랜덤 라운딩 ⑭범위 방법 ⑮제어 라운딩 ▲데이터 마스킹(Data Masking) - ⑯임의 잡음 추가 ⑰공백과 대체 등으로 구성된다.

▲ 비식별 조치 5가지 처리기법과 17가지 세부기술(출처: 행정안전부)

‘가명처리’는 개인 식별이 가능한 데이터를 직접적으로 식별할 수 없는 다른 값으로 대체하는 기법으로, 성명 및 기타 고유 특징을 비식별 처리할 때 사용된다. 데이터 변형 또는 변질 수준이 적은 것이 장점이며, 대체 값을 부여해도 식별 가능한 고유 속성이 계속 유지된다는 것이 단점이다.

가명처리를 위한 기술 중 ①휴리스틱 가명화는 식별자에 해당하는 값들을 몇 가지 정해진 규칙으로 대체하거나 가공해 자세한 개인정보를 숨기는 방법이다. 식별자의 분포를 고려하거나 수집된 자료의 사전분석을 하지 않고 모든 데이터를 동일한 방법으로 가공하기 때문에 사용자가 쉽게 이해하고 활용할 수 있다는 것이 장점이다. 단점은 활용할 수 있는 대체 변수의 한계가 있으며 일정한 규칙이 노출될 수 있다는 취약점이 있다는 것이다. 주로 적용하는 정보는 성명, ID, 소속명, 주소, 전화번호 등이다.

②암호화는 정보 가공 시 일정한 규칙의 알고리즘을 적용해 암호화함으로써 개인정보를 대체하는 방법이다. 통상적으로는 다시 복호화가 가능하도록 복호화 키를 갖고 있다. 암호화를 주로 적용하는 정보는 주민등록번호, 여권번호, 신용카드 번호 등이다. ③교환 방법은 기존 DB의 레코드를 사전 정해진 외부의 변수(항목) 값과 연계해 교환하는 방식으로, 주로 ID, 나이, 성별, 신체정보, 전화번호, 주소 등을 비식별 처리할 때 사용한다.

‘총계처리’ 기법은 통계 값을 적용해 특정 개인을 식별할 수 없도록 한다. 개인과 직접 관련된 날짜 정보, 기타 고유 특징 등을 통계 값으로 치환한다. 단점은 정밀 분석이 어렵고 집계수량이 적을 경우 추론에 의해 식별 가능성이 있다는 점이다.

④총계처리 방법은 데이터 전체 또는 부분을 집계하는 것으로 나이, 신장, 카드사용액, 유동인구, 사용자수, 제품재고량 및 판매량 등에 활용한다. ⑤부분총계는 데이터 셋 내 일정부분 레코드만 총계처리하는 방법이다. 다른 데이터 값에 비해 오차범위가 큰 항목을 통계값으로 변환한다. 주로 나이, 신장, 소득, 카드사용액 등에 활용한다.

⑥라운딩은 집계 처리된 값에 대해 라운딩 기준을 적용해 최종 집계 처리하는 방법으로 세세한 정보보다는 전체 통계정보가 필요한 경우 많이 사용한다. 나이 값을 대표 연령대로 표기하는 방법이 여기에 속한다. ⑦재배열은 기존 정보값을 유지하면서 개인이 식별되지 않도록 데이터를 재배열하는 방법으로 개인의 정보를 타인의 정보와 뒤섞어서 개인이 식별되지 않도록 한다.

‘데이터 삭제’ 기법은 말 그대로 개인 식별이 가능한 데이터를 삭제 처리하는 방법이다. 데이터를 삭제함으로써 개인정보를 효과적으로 보호할 수는 있지만, 분석의 다양성과 분석 결과의 유효성 및 신뢰성을 저하시킨다는 단점이 있다.

데이터 삭제 세부기술 중 ⑧식별자 삭제는 원본 데이터에서 식별자를 단순 삭제하는 방법이며, 성명·전화번호·계좌번호 등에 적용된다. ⑨식별자 부분삭제는 식별자 일부를 삭제하는 방식이며, 주소·위치정보·전화번호 등에 활용된다. ⑩레코드 삭제는 다른 정보와 뚜렷하게 구별되는 레코드 전체를 삭재하는 방법으로, 키·소득·질병 등 구별되는 값을 가진 정보 전체를 삭제한다. ⑪식별요소 전부삭제는 식별자뿐만 아니라 잠재적으로 개인을 식별할 수 있는 속성자까지 전부 삭제하는 방법이다.

‘데이터 범주화’는 특정정보를 해당 그룹의 대푯값 또한 구간값으로 변환해 개인 식별을 방지하는 기법이다. 주소, 생일 등 개인을 식별할 수 있는 정보에 적용하며, 통계형 데이터 형식을 갖추고 있어 다양한 분석 및 가공에 활용할 수 있다는 장점이 있다. 하지만 정확한 분석 결과 도출이 어려우며, 데이터 범위 구간이 좁혀질 경우 추론 가능성이 있다.

범주화의 세부기술 중 ⑫감추기는 명확한 값을 숨기기 위해 데이터의 평균 또는 범주값으로 변환하는 방식이다. ⑬랜덤 라운딩은 수치 데이터를 임의의 수를 기준으로 올림 또는 내림하는 방법으로, 나이·소득·지출액·유동인구 등에 활용한다. ⑭범위 방법은 수치데이터를 임의의 수 기준의 범위(range)로 설정하는 방법으로, 해당 값의 범위(range) 또는 구간(interval)으로 표현한다. 주로 소득·지출액·사용자 수·분석시간/기간 등에 적용한다. ⑮제어 라운딩은 랜덤 라운딩 방법에서 어떠한 특정값을 변경할 경우 행과 열의 합이 일치하지 않는 단점을 해결하기 위해 행과 열을 일치시키는 기법이다. 주로 나이, 키, 소득, 지출액, 위치정보 등에 활용한다.

‘데이터 마스킹’ 기법은 개인정보 데이터 전부 또는 일부분을 공백·노이즈 등 대체값으로 변환하는 방법이다. 개인 식별요소를 제거하지만 원본 데이터 구조에 대한 변형은 적다는 점이 장점이다. 다만 과도하게 적용하면 필요 목적에 활용하기 어렵고, 수준이 낮을 경우에는 특정값에 대한 추론이 가능하다는 게 단점이다.

마스킹 세부 기술 중 ⑯임의 잡음 추가는 개인정보에 임의의 숫자 등 잡음을 추가하는 방법으로 지정된 평균과 분산의 범위 내에서 잡음이 추가되므로 원본 데이터의 유용성을 해치지 않으나, 잡음값은 데이터 값과는 무관하기 때문에 유효한 데이터로 활용할 수 없다. 주로 ID, 성명, 생일, 나이 등에 활용한다. ⑰공백과 대체는 특정항목의 일부 또는 전부를 공백 또는 대체문자로 바꾸는 방법이며, 주로 성명, 생일, 주민등록번호 등에 활용한다. 예를 들어 주민등록번호 880917-1234567에 공백과 대체 방법을 적용하면 88****-1******으로 변환된다.


비식별 조치 이후 적정성 평가도 중요

기업 및 기관이 진행한 비식별 조치가 충분하지 않은 경우 공개 정보 등 다른 정보와의 결합 또는 다양한 추론 기법 등을 통해 개인이 식별될 우려도 있다. 이에 가이드라인에서는 기업 및 기관들은 개인정보 보호책임자 책임 하에 외부 전문가가 참여하는 ‘비식별 조치 적정성 평가단’을 구성해 개인식별 가능성에 대한 엄격한 평가가 필요하다고 명시하고 있다.

▲ 비식별 조치 적정성 평가에 필요한 기초 자료(출처: 행정안전부)

적정성 평가 시 프라이버시 모델 중 k-익명성을 활용하게 된다. 가이드라인은 k-익명성은 최소한의 평가수단이며, 필요시 추가적인 평가모델(l-다양성, t-근접성)을 활용해야 한다고 권고한다. 여기서 얘기하는 프라이버시 보호 모델은 재식별 가능성을 검토하는 모델로, ▲k-익명성 ▲l-다양성 ▲t-근접성 기법 등이 대표적이다.

k-익명성 기법은 특정인을 추론할 수 있는지 여부를 검토하는 방법으로, 일정 확률 수준 이상으로 비식별화 되도록 하고 있다. 동일한 값을 가진 레코드를 k개 이상으로 함으로써 특정 개인을 식별할 확률을 1/k개로 만든다는 것이다.

l-다양성은 특정인 추론이 안 된다고 해도 민감한 정보의 다양성을 높여 추론 가능성을 낮추는 기법으로, 각 레코드는 최소 l개 이상의 다양성을 가지도록 해 동질성 또는 배경지식 등에 의한 추론을 방지한다.

t-근접성은 l-다양성뿐만 아니라 민감한 정보의 분포를 낮춰 추론 가능성을 더욱 감소시키는 기법이다. 전체 데이터 집합의 정보 분포와 특정 정보의 분포 차이를 t 이하로 줄여 추론을 방지한다.

이러한 프라이버시 보호 모델을 기반으로 기업 및 기관들은 적정성 평가를 진행해야 한다. 적정성 평가 절차는 ▲기초자료 작성 ▲평가단 구성 ▲평가 수행 ▲추가 비식별 조치 ▲데이터 활용 등의 순서로 진행된다. 더불어 비식별 정보파일에 대한 접근통제, 접속기록 관리, 보안 프로그램 설치·운영 등의 기술적 보호조치와 비식별 정보파일에 대한 관리 담당자 지정, 비식별 조치 관련 정보공유 금지, 이용 목적 달성시 파기 등의 관리적 보호조치 또한 요구된다.

▲ 비식별 정보에 대한 관리적·기술적 보호조치
저작권자 © 아이티데일리 무단전재 및 재배포 금지