Census Bureau가 발행하는 통계 제품에서 노이즈 주입 금지

1 hour ago 2

비밀 데이터셋에서 공개 통계를 만들 때 쓰는 노이즈 주입은 원자료 개인정보를 숨기면서 통계 유용성을 유지하는 공개 회피 도구임
미국 상무부 명령은 Census Bureau와 Bureau of Economic Analysis의 모든 통계 제품에서 노이즈 주입을 금지하며, 차등 개인정보보호를 직접 겨냥함
Census Bureau는 1990~2010년 10년 단위 인구조사에서 스와핑을 주로 썼지만, 공개 통계로 개인 기록을 재구성하기 쉬운 문제가 드러난 뒤 2020년 인구조사에 차등 개인정보보호를 채택함
차등 개인정보보호는 기여도 제한과 정교하게 보정된 노이즈 추가를 결합해 비슷한 프라이버시 수준에서 더 높은 유용성을 제공함
노이즈를 빼면 향후 통계 공개는 과거보다 쓸모가 크게 줄거나 매우 불안전한 데이터가 될 수 있음

배경

통계 제품은 비밀 데이터셋에서 공개되는 여러 숫자이며, 해당 데이터셋에 기밀 정보가 있을 때 공개 숫자가 그 정보를 드러내지 않아야 함
U.S. Census는 대표 사례이며, 통계는 공개되지만 미국 거주자가 작성한 개별 양식 내용은 비밀로 유지돼야 함
통계 분야에서 원자료의 프라이버시를 보호하면서 유용한 통계를 공개하는 기법은 공개 회피로 불림
공개 회피 기법에는 특정 기준을 넘지 못한 데이터를 제거하는 억제, 속성을 덜 정밀하게 만드는 일반화, 일부 레코드를 무작위로 제거하는 표본추출이 있음
공개 회피 기법에는 서로 다른 레코드의 속성을 무작위로 바꾸는 스와핑, 개인 1명의 최대 영향을 제한하는 기여도 제한, 통계에 무작위 숫자를 더하는 노이즈 추가도 있음
차등 개인정보보호와 2020년 인구조사
- 일부 기법을 결합하면 차등 개인정보보호를 달성할 수 있으며, 과학자들 사이에서 프라이버시 보호의 골드 스탠더드로 널리 여겨짐
- 차등 개인정보보호는 보통 기여도 제한과 신중하게 보정된 노이즈 추가 조합에 의존함
- Census Bureau는 1990년부터 2010년까지 10년 단위 인구조사에서 주로 스와핑을 사용함
- 이후 스와핑이 매우 안전하지 않으며, 공개 통계만으로 개인 기록을 재구성하기 쉽다는 점을 인식함
- Bureau는 연방법상 해당 기록을 기밀로 유지해야 하므로 몇 가지 대안을 시도했고, 공격을 막으면서 통계 유용성을 가장 잘 유지한 방식으로 2020년 인구조사에 차등 개인정보보호를 채택함
유용성 저하와 반발
- 차등 개인정보보호는 수학이 우아해서가 아니라, 공격을 완화하는 여러 선택지 중 데이터의 유용성을 가장 많이 보존했기 때문에 선택됨
- 정확한 프라이버시 매개변수도 강력한 증명 보장을 제공해서가 아니라, 허용 가능한 프라이버시 보호 수준에 도달하면서 데이터의 유용성을 최대한 끌어내기 위해 선택됨
- 새롭게 발견된 프라이버시 제약 아래에서 유용성을 가장 많이 보존했다는 말은 2010년 인구조사만큼의 유용성을 보존했다는 뜻은 아니었음
- 숫자는 덜 정확해졌고, 부정확성은 훨씬 투명해져 무시하기 어려워짐
- 인구학자와 사회과학자는 자신들이 다루는 데이터가 노이즈가 있는 데이터라는 점을 더는 무시할 수 없게 됐고, 이 데이터를 개념화하고 다루는 방식에서 큰 전환이 필요해짐
- Census 데이터를 실제로 개인 기록 재구성에 쓰던 사람들은 더는 그렇게 할 수 없게 됐고, 인구학자들은 이것이 흔한 관행이었다고 인정함
- 게리맨더링 노력의 일부로 정치 실무자들이 이런 재구성을 했다는 점도 공공연한 비밀임

명령의 내용

행정부는 노이즈 주입이 더는 허용 가능한 공개 회피 기법이 아니라고 결정함
명령은 차등 개인정보보호를 명확히 겨냥하지만, 무작위성을 수반하는 다른 기법에도 영향을 미치는 것으로 보임
명령문은 일반화를 항상 우선해야 하며, 억제는 “최후 수단”으로만 써야 한다고 명시함
명령이 왜 그렇게 구체적인지는 알 수 없음
명령은 “헌법, 법률, 규제 또는 기타 법적 조항과 충돌하는 것으로 해석돼서는 안 된다”고 신중히 밝히며, 해당 통계 제품을 둘러싼 기밀 유지 의무는 계속 적용됨

실제 영향

결과는 유용성이나 프라이버시, 또는 둘 모두에 심각할 수 있음
향후 통계 공개는 과거 공개물보다 쓸모가 없거나, 믿기 어려울 만큼 안전하지 않을 수 있음
공개 회피 도구상자에서 유용한 도구를 제거하면 프라이버시와 유용성 사이의 절충은 항상 더 고통스러워짐
이 연구 분야의 목적은 프라이버시 위험을 더 잘 이해하고 정량화하며, 유용성을 보존하면서 위험을 완화하는 더 나은 도구를 개발하는 데 있음
차등 개인정보보호의 위치
- 통계 공개에서 차등 개인정보보호는 현재 사용할 수 있는 가장 좋은 도구임
- 차등 개인정보보호는 절충을 더 세밀하게 정량화하는 방법을 제공하고, 비슷한 프라이버시 수준에서 경쟁 기법보다 데이터 유용성을 더 많이 끌어냄
- 차등 개인정보보호를 제거하면 비슷한 프라이버시 수준에서 유용성이 더 낮거나, 같은 유용성에서 프라이버시가 더 나쁜 기법만 남음
- 경쟁 기법들도 노이즈 추가에 의존함
다른 기법들도 무작위성을 사용함
- 다른 통계 기관에서 쓰는 Cell Key method는 통계에 노이즈를 더함
- Census가 1990년부터 2010년까지 사용한 스와핑도 과정에 무작위성을 주입함
- 표본추출은 통계 작업 전반에 널리 쓰임
- 대체)도 기술적으로 데이터에 노이즈를 더함
일반화와 억제의 한계
- 일반화와 억제는 매우 둔한 도구임
- 일반화와 억제는 통계가 이미 매우 거칠고, 공개되는 통계 수가 많지 않은 상황에서만 작동함
- U.S. Census처럼 소규모 집단에 관한 통계가 많은 복잡한 데이터 제품에서는 일반화와 억제가 데이터 유용성을 모두 파괴하거나 프라이버시 공격에 매우 취약해짐
- 유용성 파괴는 특히 소수 집단에서 두드러짐
노이즈가 공격을 어렵게 만드는 이유
- 통계 공개에 대한 프라이버시 공격은 연립방정식을 푸는 문제에 가까움
- 모든 통계가 완벽히 정확하다고 확실히 알 때 이 작업은 훨씬 쉬워짐
- 노이즈는 공격자가 확률을 계산하고, 불확실성을 정량화하고, 기준선을 신중하게 고려하도록 만듦
- 무작위성은 공식 보장이 없어도 공개 회피에 유용하며, 공격을 훨씬 어렵게 만듦
- 무작위성을 제거하면 공격은 사소해짐