개인정보 비식별화

cisp 2017년 4월 7일

개인정보

비식별화(De-identification)

비식별화란 정보집합물(데이터 셋)에서 개인을 식별할 수 있는 요소를 전부 또는 일부삭제하거나 대체하는 등의 방법을 활용, 개인을 알아볼 수 없도록 하는 과정. (Single out, Linkablility, Inference의 일부 또는 전부를 제거하는 절차를 통하여 동일함을 증명할 수 없도록 하는 과정)

○ 익명정보 vs 비식별화정보

Anonymous Data : 정보의 수집 단계에서 근원적으로 개인을 식별할 수 없는 형태로 수집한 정보
de-identification Data : 개인을 식별할 수 있는 상태에서 수집한 정보를 비식별화 과정을 통하여 개인을 식별할 수 없게 처리한 정보

*) 익명정보와 비식별화정보의 차이는 수집 단계에서 개인정보 수집자가 정보 주체를 인지할 수 있는 정보를 포함하여 수집한 정보인가 이다. 따라서 개인정보로 수집된 정보를 가공하여 개인을 식별 할 수 없도록 한 정보는 모두 비식별화 정보이다.

익명화에 대한 정의

미국 National Bioethics Advisory Commission에서 2001년에 발표한 “Ethical and Policy Issues in Research Involving Human Participants“에 의하면 익명화는 3단계로 구분하고 있다.

Unidentified or anonymous: Collected from individuals who were not identified at the time of collection (수집시 부터 개인식별정보를 수집하지 않는 것)
Unlinked or anonymized: Although identifiers were available when the data were collected or stored, at some point, the identifiers were unlinked (수집시에는 개인식별정보가 수집되나, 그 이후 제거된 경우)
Coded: Considered identifiable, even though they do not include any identifying information (개인식별정보가 코드화된 경우)

ISO/TS 25237 Health informatics – Pseudonymization에서는 Personal Identifiable Information을 익명화하는 것에 대하여 3가지의 개념을 정의하고 있으나 de-identification과 anonymization을 명확히 구분하지는 않고 있다.

De-identificatoin
Anonymization
Pseudonymization

IHE (Integrating the Healthcare Enterprise)에서 2014년에 발표한 IHE IT Infrastructure Handbook: De-identification에서는 De-identification의 방법으로 anonymization과 pseudonymizatoin으로 구분하여 익명화를 명확하게 구분하여 설명하고 있다.

Anonymization(익명화)는 one-way De-identification 방법을 의미
Pseudonymizatoin(가명화)은 개인식별정보를 제거하고, 임의의 코드나 번호(Pseudonym; 가명)를 부여한 것을 의미

익명 정보와 비식별화 정보는 표면적으로는 개인을 식별할 수 없으나, 비식별화는 재식별화의 위험성이 내포되어 있고, 개인을 작은 단위로 그룹화하여 개인을 관리하는 것이 가능하다.

○ 비식별화 과정

Single out : 특정 정보가 특정 개인에게 대응
Linkability : 특정 정보와 특정 개인을 연결할 수 있음
Inference : 특정 정보로부터 특정 개인을 추론할 수 있음

○ 비식별화(de-identification)는 익명화와 가명화를 포함하는 과정이다.

- 익명화(anonymization)와 가명화(pseudonymization)는 비식별화를 하는 단계
- 익명화 정보(anonymization data) : 관련된 개인을 식별할 수 없게끔 특정 정보를 처리한 상태로 ‘A와 B가 누군지는 모르지만 둘은 서로 다르다는 구별은 가능한 것’
- 가명화 정보(pseudonymization data) : 개인정보를 포함한 정보에서 식별자를 가명(pseudonym)으로 대체하여 관련된 개인과의 연결성을 제거한 상태로 ‘특정 개인을 알아볼 수 없는 형태’로 처리된 것

비식별화 조치 가이드의 문제점

○ 비식별화 정보의 모호성

비식별화 정보는 특정 개인을 알아볼 수 없도록 비식별 조치가 적정하게 된 경우에는 개인정보에 해당한다는 반증이 없는 한 개인정보가 아닌 것으로 보되, 개인정보라는 반증이 나오는 경우 개인정보로 본다는 뜻으로 개인정보에 대한 모호성을 보이고 있다.

○ 개인정보 비식별화 적정성 검증

개인정보를 비식별화 하여 특정 개인을 식별하는 것이 어렵더라도 지금과 같은 익명성을 검증하는 지표인 k익명성을 3이상이면 익명성이 충족된다고 권고하고 있다.

이는 5천만 국민을 대상으로 볼 때 개인정보는 5천만명 중의 1명을 찾는 문제이나, k-익명성의 k값을 3으로 비식별화한 정보는 5천만명을 약 1천6백6십6만개의 집단으로 분류한 것으로 특정개인을 3명 중에서 1명을 찾는 문제로 단순화 된다.

이렇게 작은 단위로 개인을 분류한 정보는 개인정보를 활용하는 자의 입장에서는 비식별화 정보를 1대1 마케팅 및 타겟서비스에 활용하는데 있어서 개인정보를 직접 이용하는 것이나 별차이가 없다.

개인정보보호관련 제도에서 동의 없이 이용할 수 있도록 규정된 통계목적을 허용하고 있으나 통계처리를 위한 자료로 활용하는데 있어 미국의 경우 지리적 단위를 2만이상으로 하도록하듯이 좀 더 세부적이며 합리적인 규정의 마련이 필요로 하다.

○ 비식별화 정보의 결합

우리나라는 외국과 달리 과거 인터넷실명제의 영향으로 거의 모든 기업들이 개인의 식별자를 포함한 공통적인 개인정보를 다량으로 보유하고 있는 상태이다.

그럼에도 기업간 개인정보의 직접결합을 허용함으로써 모든 기업이 모든 민감정보(의료, 금융, 통신, 위치 등)에 대하여 보유가 가능하도록 된 현 가이드는 국민 사생활침해에 재앙의 수준으로 그 위험성이 높다.

개인정보를 기반하여 빅데이터 분석을 하는데 있어 식별자를 기반으로한 강한 결합성을 가진 결합정보와 추론에 의한 느슨한 결합성을 가진 결합정보간의 추론분석결과의 결과는 큰차이를 보이지 않는다. 따라서 식별자를 이용한 직접결합 방법이 아닌 호주와 같이 개인의 프라이버시 침해를 낮출 수 있는 추론에 의한 결합만을 허용함으로서 기술경쟁력의 확보와 합리적인 개인정보의 활용성을 확립되도록하여야 한다.

○ 비식별화 정보는 사유물이 아닌 공공재로 접근하여야 한다.

우리나라는 외국과 달리 주식별자를 포함한 개인정보를 대량으로 보유하고 있어 재식별화의 위험성이 높은 상태에서 비식별화를 통하여 활용하게 하는 것은 국민이 자신의 권리를 양보하는 것이다. 그러나 현재 가이드는 대량의 개인정보를 보유하고 있는 집단의 이익 수단으로 될 수 있어, 따라서 개인정보 활용을 충족하기 위해서 비식별화 정보를 ‘공공재’라는 인식으로 제도적 접근이 필요하다.
그 방안으로 제도적으로 다음의 내용을 포함되어야 정보주체가 자신의 권리를 양보하는데 어느 정도 공감을 가질 것이다.

식별자를 이용한 직접결합방식이 아닌 추론기술을 통한 추론결합(호주의 비식별화 제도)
익명성을 검증하는 k-익명성의 k값의 기준을 강화하여 익명성 강화
폐쇄적인 활용이 아닌 개방적인 활용을 제도적으로 마련으로 정보의 집중화 및 원시 데이터의 상품화 방지

양면성을 가진 개인정보 활용 더 고민이 필요

ICT기술의 발달된 지식정보사회에서 산업발전을 위하여 개인정보의 활용을 완전히 제한하는 것은 어려우나 우리 사회의 현실성을 고려한 보호와 활용의 균형점을 모색하는 것이 중요하다.

○ 개인정보 처리 권한이 누구에 있나?

개인정보는 서비스를 이용하는데 지불하는 대가가 아닙니다. 관련법에 의하여 서비스를 이용는 중에 발생하는 분쟁이나, 관련법에 의하여 제공하는 것입니다. 따라서 이용자의 개인정보는 서비스를 이용하는 동안 맡겨놓은 정보이지 해당 정보의 소유권을 서비스제공자에게 넘긴 것이 아니다.
따라서 서비스제공자가 마치 이용자가 제공한 개인정보를 자신들의 자산으로 여기고 이를 영리목적으로 활용하겠다고 하는 것은 논리의 비약이다.

○ 정보수집자의 개인정보보호의식

디지털화된 개인정보는 한번 유출되면 대량의 정보가 유출되며, 한번 유출된 정보의 회수가 거의 불가능한 것이 현실이다. 과거 대형 개인정보 유출사건을 보면 느슨한 내부통제 및 네트워크 모니터링, 취약점을 내포한 서비스(시큐어코딩 미적용), 초보적인 해킹방법도 탐지못하는 정보보호체계 등 대부분 기업이 기본적인 안전조치마저 준수하지 않아 발생한 경우가 대부분이다. 또한 일부 대기업은 개인정보의 판매를 목적으로 소비자를 기만한 사건 또한 발생하여 수익만 된다면 고객의 개인정보가 어떻게 사용되든 관계없다는 의식이 팽배한 것이 현실이다.

대기업 민원으로 만들어진 비식별 조치 가이드는 당장 폐지하여야 한다.

계속