728x90

데이터 비식별화(Data De-Identification)

개념

  • 특정 개인을 식별할 수 없도록 개인정보의 일부 또는 전부를 변환하는 일련의 방법
  • 데이터를 안전하게 활용하기 위해서는 수집된 데이터의 개인정보 일부 또는 전부를 삭제하거나 다른 정보로 대체함으로써 다른 정보와 결합하여도 특정 개인을 식별하기 어렵게 데이터 비식별화 조치를 해야 한다.

 

데이터 비식별화 기법

① 가명 처리(Pseudony Misation)

  • 개인 식별이 가능한 데이터에 대하여 직접 식별할 수 없는 다른 값으로 대체하는 기법
  • 그 자체로는 완전 비식별화가 가능하며 데이터의 변형, 변질 수준이 낮음.
  • 일반화된 대체 값으로 가명 처리함으로써 성명을 기준으로 하는 분석에 한계가 존재함.
  • 처리 대상 식별 정보
    • 성명
    • 기타 고유 특징 (출신 학교, 근무처 등)
비식별화 전 비식별화 후
장길산, 20세, 인천 거주, 미래대 재학 김식별, 20대, 인천 거주, 외국대 재학

 

② 총계 처리(Aggregation)

  • 개인정보에 대하여 통곗값을 적용하여 특정 개인을 판단할 수 없도록 함.
  • 민감한 정보에 대하여 비식별화가 가능하며, 다양한 통계 분석(전체, 부분)용 데이터 세트 작성에 유리함.
  • 집계 처리된 데이터를 기준으로 정밀한 분석이 어려우며, 집계 수량이 적으면 데이터 결합 과정에서 개인정보 추출 또는 예측이 가능
  • 처리 대상 식별 정보
    • 개인과 직접 관련된 날짜 정보 (생일, 자격 취득일)
    • 기타 고유 특징 (수입 지출, 신체 정보, 진료 기록, 병력 정보 등의 개인 민감 정보)
비식별화 전 비식별화 후
장길정 160cm, 김식별 150cm, 김콩쥐 170cm, 장길산 150cm 물리학과 학생 키 : 630cm, 평균 키 : 158cm

 

③ 데이터 값 삭제(Data Reduction)

  • 개인정보 식별이 가능한 특정 데이터값 삭제 처리
  • 민감한 개인 식별 정보에 대하여 완전한 삭제 처리가 가능하여 예측, 추론 등이 어렵게 함.
  • 데이터 삭제로 인한 분석의 다양성, 분석 결과의 유효성, 분석 정보의 신뢰성을 저하시킬 수 있음.
  • 처리 대상 식별 정보
    • 쉽게 개인을 식별할 수 있는 정보 (이름, 전화번호, 주소, 생년월일 등)
    • 고유 식별 정보 (주민등록번호, 운전면허정보 등)
    • 생체 정보 (지문, 홍채, DNA 정보 등)
    • 기관/단체 등의 이용자 계정 (등록번호, 계좌번호, 이메일 주소 등)
비식별화 전 비식별화 후
주민등록번호 801212-1234567 80년대생, 남자,
개인과 관련된 날짜 정보(합격일 등)는 연 단위로 처리

 

 

 

④ 범주화(Data Suppression)

  • 단일 식별 정보를 해당 그룹의 대푯값으로 변환(범주화)하거나 구간 값으로 변환(범위화)하여 고유 정보 추적 및 식별 방지
  • 범주나 범위는 통계형 데이터 형식이므로 다양한 분석 및 가공이 가능
  • 범주, 범위로 표현됨에 따라 정확한 수치에 따른 분석, 특정한 분석 결과 도출이 어려우며, 데이터 범위 구간이 좁혀지면 추적, 예측이 가능
  • 처리 대상 식별 정보
    • 쉽게 개인을 식별할 수 있는 정보(주소, 생년월일 등)
    • 고유 식별 정보(주민등록번호, 운전면허번호 등)
    • 기관/단체 등의 이용자 계정 (등록번호, 계좌번호, 이메일 주소 등)
비식별화 전 비식별화 후
장길산, 41세 장 씨, 40-50세

 

⑤ 데이터 마스킹(Data Masking)

  • 개인 식별 정보에 대하여 전체 또는 부분적으로 대체 값(공백, *, 노이즈 등)으로 변환
  • 완전 비식별화가 가능하며, 원시 데이터의 구조에 대한 변형이 적음.
  • 과도한 마스킹 적용 시 필요한 정보를 활용하기 어려우며, 마스킹의 수준이 낮으면 특정한 값의 추적 예측이 가능함.
  • 처리 대상 식별 정보
    • 쉽게 개인을 식별할 수 있는 정보(주소, 생년월일 등)
    • 고유 식별 정보(주민등록번호, 운전면허번호 등)
    • 기관/단체 등의 이용자 계정 (등록번호, 계좌번호, 이메일 주소 등)
비식별화 전 비식별화 후
장길산, 41세, 서울 거주, 미래대학 재학 장○○, 41세, 서울 거주, ○대학 재학
728x90