NTTテクノクロスは2021年10月26日、パーソナルデータ匿名加工ソフトウェア「tasokarena(タソカレナ)」の新版を発表した。同年11月17日から販売する。新版では、既存のパーソナルデータを匿名加工するだけでなく、元のパーソナルデータと似た架空のパーソナルデータを生成できるようにした。少ないデータから匿名化された大量の合成データを生成できるため、膨大なデータを必要とするAIの学習や訓練などに活用できる。価格(税別)は、「スタンダード版(GUI版)」が年額60万円から、「エンタープライズ版」(スタンダード版に自動実行/データ連携機能を追加)が年額180万円から。
NTTテクノクロスの「tasokarena(タソカレナ)」は、企業が保有するパーソナルデータを匿名加工するソフトウェアである。特定の個人を識別できないように匿名加工することによって、本人の同意なくデータを活用できるようになる。採用している匿名化技術の特徴は、データの一部分を確率的に書き換えるランダム化の処理と、元の状態を推定する再構築という処理によって、理論的にk-匿名性を満たしつつ、元のデータの統計的性質をなるべく保てることである(関連記事:NTTテクノクロス、匿名加工ソフト「タソカレナ」を強化、匿名加工ルールをAIが提案)。
新版では、パーソナルデータを匿名加工する既存の機能に加えて、元のパーソナルデータと似た架空のパーソナルデータを生成できるようにした。元のパーソナルデータと特徴量や統計量・分布などが類似するデータを生成することによって「実在しないが具体的なパーソナルデータ(合成データ)」を作り上げる。匿名性やプライバシーを守りつつ、分析に必要な元のデータの性質を保持したデータを生成できる。少ないデータから匿名化された大量の合成データを生成できるため、膨大なデータを必要とするAIの学習や訓練などに活用できる(図1)。
拡大画像表示
NTT社会情報研究所の合成データ生成技術を活用している。各属性の平均など統計値が元データとほぼ等しい合成データを生成する技術などを独自に開発した。これにより、分析に必要な複数の統計値を保持する多属性の合成データを生成できるようになったとしている。
機能強化の背景について同社は、特定の個人を識別できないようにパーソナルデータを加工した匿名加工情報の活用が拡大していることを挙げる。「匿名加工情報の作成にあたっては、元のパーソナルデータの数が少ない場合、データの匿名性と有用性のどちらかが低下するという課題があった。緻密な分析を行いたい場合は、データの有用性の観点から匿名加工情報よりも実際のパーソナルデータを活用するのが現状である」という。