Bye Bye Moore

PoCソルジャーな零細事業主が作業メモを残すブログ

【読書メモ】データ匿名化手法

普段の仕事の関係で、医療や保険の情報ストア方法として準同型暗号を用いた秘密計算という手法は知っていました。
センシティブな情報なので、計算過程やその結果も暗号化してしまおうという手法で相応な効果があるそうです。

本書「データ匿名化手法」は、データ設計の方で秘密を守るというアプローチについて解説し、最後の方では準同型暗号の話題も少し出てきます。

どんなデータであれ、暗号化であれ、可用性と匿名性はトレードオフである故、そのバランスをどう取るかというのが肝のようです。

医療情報の場合、患者の同意なしにある程度の状況を共用せざるを得ない場合があります。
たとえば結核とか流行り病、狂犬病のような公衆衛生に関係するケースで分布を知る必要がある政府機関の要望とか。
このケースの場合、来診時期や地域のような情報は必要あるでしょうが、個人の名前や直接関係ないと思われる病気の情報は必要ないでしょう。
であれば情報を匿名化して渡す事で、医療情報の提供と患者のプライバシーをある程度担保することができます。

さて、この匿名化に関してはデータ型の取り扱いがモノをいうようです。
例として日付データの場合、完全に暗号化するのではなくソルトを加えたりランダム化ノイズを載せたり一定の幅をもったデータとして持たせたりして特定を避ける方法が紹介されています。
復号側はルールが分かっていれば欲しい情報が得られ、攻撃者側はその解析には苦労するだろうという想定。
ただし、投薬のペースが法令等で決まっている場合など、パターン抽出で特定の病気である事が分かってしまうため、抽象化にも専門知識が不可欠……らしい。
このように日付という情報の取り扱いで結構な攻防が想定されるなど結構奥が深い業界のようですね。

すぐに仕事になるというわけでは無さそうですが……今後、暗号制御や保険情報なんかを扱うときに知っておくと便利そうな情報でした。

【個人的リマインドメモ】K-匿名化手法

一部のカラムにデータの幅を持たせる等で簡単にはパターン一致させない手法。
k-匿名化とは: NEC データ匿名化ソリューション | NECソリューションイノベータ