Census Bureau가 발행하는 통계 제품에서 노이즈 주입 금지
1 hour ago
2
- 비밀 데이터셋에서 공개 통계를 만들 때 쓰는 노이즈 주입은 원자료 개인정보를 숨기면서 통계 유용성을 유지하는 공개 회피 도구임
- 미국 상무부 명령은 Census Bureau와 Bureau of Economic Analysis의 모든 통계 제품에서 노이즈 주입을 금지하며, 차등 개인정보보호를 직접 겨냥함
- Census Bureau는 1990~2010년 10년 단위 인구조사에서 스와핑을 주로 썼지만, 공개 통계로 개인 기록을 재구성하기 쉬운 문제가 드러난 뒤 2020년 인구조사에 차등 개인정보보호를 채택함
- 차등 개인정보보호는 기여도 제한과 정교하게 보정된 노이즈 추가를 결합해 비슷한 프라이버시 수준에서 더 높은 유용성을 제공함
- 노이즈를 빼면 향후 통계 공개는 과거보다 쓸모가 크게 줄거나 매우 불안전한 데이터가 될 수 있음
배경
- 통계 제품은 비밀 데이터셋에서 공개되는 여러 숫자이며, 해당 데이터셋에 기밀 정보가 있을 때 공개 숫자가 그 정보를 드러내지 않아야 함
- U.S. Census는 대표 사례이며, 통계는 공개되지만 미국 거주자가 작성한 개별 양식 내용은 비밀로 유지돼야 함
- 통계 분야에서 원자료의 프라이버시를 보호하면서 유용한 통계를 공개하는 기법은 공개 회피로 불림
- 공개 회피 기법에는 특정 기준을 넘지 못한 데이터를 제거하는 억제, 속성을 덜 정밀하게 만드는 일반화, 일부 레코드를 무작위로 제거하는 표본추출이 있음
- 공개 회피 기법에는 서로 다른 레코드의 속성을 무작위로 바꾸는 스와핑, 개인 1명의 최대 영향을 제한하는 기여도 제한, 통계에 무작위 숫자를 더하는 노이즈 추가도 있음
-
차등 개인정보보호와 2020년 인구조사
- 일부 기법을 결합하면 차등 개인정보보호를 달성할 수 있으며, 과학자들 사이에서 프라이버시 보호의 골드 스탠더드로 널리 여겨짐
- 차등 개인정보보호는 보통 기여도 제한과 신중하게 보정된 노이즈 추가 조합에 의존함
- Census Bureau는 1990년부터 2010년까지 10년 단위 인구조사에서 주로 스와핑을 사용함
- 이후 스와핑이 매우 안전하지 않으며, 공개 통계만으로 개인 기록을 재구성하기 쉽다는 점을 인식함
- Bureau는 연방법상 해당 기록을 기밀로 유지해야 하므로 몇 가지 대안을 시도했고, 공격을 막으면서 통계 유용성을 가장 잘 유지한 방식으로 2020년 인구조사에 차등 개인정보보호를 채택함
-
유용성 저하와 반발
- 차등 개인정보보호는 수학이 우아해서가 아니라, 공격을 완화하는 여러 선택지 중 데이터의 유용성을 가장 많이 보존했기 때문에 선택됨
- 정확한 프라이버시 매개변수도 강력한 증명 보장을 제공해서가 아니라, 허용 가능한 프라이버시 보호 수준에 도달하면서 데이터의 유용성을 최대한 끌어내기 위해 선택됨
- 새롭게 발견된 프라이버시 제약 아래에서 유용성을 가장 많이 보존했다는 말은 2010년 인구조사만큼의 유용성을 보존했다는 뜻은 아니었음
- 숫자는 덜 정확해졌고, 부정확성은 훨씬 투명해져 무시하기 어려워짐
- 인구학자와 사회과학자는 자신들이 다루는 데이터가 노이즈가 있는 데이터라는 점을 더는 무시할 수 없게 됐고, 이 데이터를 개념화하고 다루는 방식에서 큰 전환이 필요해짐
- Census 데이터를 실제로 개인 기록 재구성에 쓰던 사람들은 더는 그렇게 할 수 없게 됐고, 인구학자들은 이것이 흔한 관행이었다고 인정함
- 게리맨더링 노력의 일부로 정치 실무자들이 이런 재구성을 했다는 점도 공공연한 비밀임
명령의 내용
- 행정부는 노이즈 주입이 더는 허용 가능한 공개 회피 기법이 아니라고 결정함
- 명령은 차등 개인정보보호를 명확히 겨냥하지만, 무작위성을 수반하는 다른 기법에도 영향을 미치는 것으로 보임
- 명령문은 일반화를 항상 우선해야 하며, 억제는 “최후 수단”으로만 써야 한다고 명시함
- 명령이 왜 그렇게 구체적인지는 알 수 없음
- 명령은 “헌법, 법률, 규제 또는 기타 법적 조항과 충돌하는 것으로 해석돼서는 안 된다”고 신중히 밝히며, 해당 통계 제품을 둘러싼 기밀 유지 의무는 계속 적용됨
실제 영향
- 결과는 유용성이나 프라이버시, 또는 둘 모두에 심각할 수 있음
- 향후 통계 공개는 과거 공개물보다 쓸모가 없거나, 믿기 어려울 만큼 안전하지 않을 수 있음
- 공개 회피 도구상자에서 유용한 도구를 제거하면 프라이버시와 유용성 사이의 절충은 항상 더 고통스러워짐
- 이 연구 분야의 목적은 프라이버시 위험을 더 잘 이해하고 정량화하며, 유용성을 보존하면서 위험을 완화하는 더 나은 도구를 개발하는 데 있음
-
차등 개인정보보호의 위치
- 통계 공개에서 차등 개인정보보호는 현재 사용할 수 있는 가장 좋은 도구임
- 차등 개인정보보호는 절충을 더 세밀하게 정량화하는 방법을 제공하고, 비슷한 프라이버시 수준에서 경쟁 기법보다 데이터 유용성을 더 많이 끌어냄
- 차등 개인정보보호를 제거하면 비슷한 프라이버시 수준에서 유용성이 더 낮거나, 같은 유용성에서 프라이버시가 더 나쁜 기법만 남음
- 경쟁 기법들도 노이즈 추가에 의존함
-
다른 기법들도 무작위성을 사용함
- 다른 통계 기관에서 쓰는 Cell Key method는 통계에 노이즈를 더함
- Census가 1990년부터 2010년까지 사용한 스와핑도 과정에 무작위성을 주입함
- 표본추출은 통계 작업 전반에 널리 쓰임
- 대체)도 기술적으로 데이터에 노이즈를 더함
-
일반화와 억제의 한계
- 일반화와 억제는 매우 둔한 도구임
- 일반화와 억제는 통계가 이미 매우 거칠고, 공개되는 통계 수가 많지 않은 상황에서만 작동함
- U.S. Census처럼 소규모 집단에 관한 통계가 많은 복잡한 데이터 제품에서는 일반화와 억제가 데이터 유용성을 모두 파괴하거나 프라이버시 공격에 매우 취약해짐
- 유용성 파괴는 특히 소수 집단에서 두드러짐
-
노이즈가 공격을 어렵게 만드는 이유
- 통계 공개에 대한 프라이버시 공격은 연립방정식을 푸는 문제에 가까움
- 모든 통계가 완벽히 정확하다고 확실히 알 때 이 작업은 훨씬 쉬워짐
- 노이즈는 공격자가 확률을 계산하고, 불확실성을 정량화하고, 기준선을 신중하게 고려하도록 만듦
- 무작위성은 공식 보장이 없어도 공개 회피에 유용하며, 공격을 훨씬 어렵게 만듦
- 무작위성을 제거하면 공격은 사소해짐
왜 이런 일이 일어나는가
- 동기는 알 수 없음
- 목표가 향후 게리맨더링 노력을 돕기 위해 U.S. Census가 실제 재식별을 가능하게 하는 통계를 공개하도록 강제하는 것인지 알 수 없음
- 반대로 목표가 연구자들이 인구 내 불공정한 격차를 보이지 못하게 유용한 인구통계 데이터 공개를 막는 것인지도 알 수 없음
- Hanlon's razor는 대안적 해석을 제공함
- 통계 데이터 공개에는 근본적인 프라이버시/유용성 절충이 있으며, 이 절충은 성가신 문제임
- 많은 통계를 공개해도 높은 프라이버시 위험이 자동으로 따라오지 않는다면 훨씬 쉬운 상황이 됨
- 차등 개인정보보호는 이 절충을 명시적으로 드러내며, 따라서 무시할 수 없게 만듦
- 차등 개인정보보호 금지는 문제가 존재하지 않는 척하고, 문제가 사라지기를 바라는 방식일 수 있음
-
Homepage
-
개발자
- Census Bureau가 발행하는 통계 제품에서 노이즈 주입 금지