NECは2022年3月11日、連合学習によるAI創薬に秘密分散を組み合わせる実験を実施したと発表した。秘密分散によって情報漏洩への安全性を高めながら、連合学習だけを使って構築した予測モデルと同等の精度を維持できることを確認した。実験は、2021年10月~2022年2月の5カ月間実施した。
NECは、連合学習(フェデレーションラーニング)を用いたAI創薬用ライブラリ「kMoL」に、秘密分散型の秘密計算技術を組み合わせる実験を実施した(関連記事:NEC、データを暗号化したまま計算する秘密計算ソフトをクラウドで提供)。実験の結果、秘密計算によって情報漏洩への安全性を高めながら、連合学習だけを使って構築した予測モデルと同等の精度を維持できることを確認した(図1)。実験は、2021年10月~2022年2月の5カ月間実施した。
拡大画像表示
連合学習とは、マシンラーニング(機械学習)の方法の1つであり、データを1カ所に集約することなく、各企業に分散した状態のまま学習する仕組みである。例えば、製薬に複数企業のデータを活用したい場合、それぞれの製薬会社が持つデータをそれぞれの製薬会社が別個に学習し、学習結果だけを集約する。データを外部に公開する必要がないので、データの安全性を保てる。
今回NECは、連合学習に秘密分散方式の秘密計算技術を組み合わせることで、データの漏洩に対する安全性を、より高めた。3つのノードに分散してAIモデルの統合処理を行う、としている。秘密計算はデータを暗号化したまま分析できる技術であり、今回適用した秘密分散は、分析対象の元データを複数の欠片に分割して無意味化する。分割した欠片単体が漏洩しても元データを復元できないため、データの漏洩に強くなる。
実験に使ったデータは、2014年に行われた米国における毒性学に関する共同研究プロジェクト「Tox21(The Toxicology in the 21st Century)」におけるコンペティション「Tox21 Data Challenge 2014」で使われたデータセットと毒性予測のkMoLサンプルである。kMoL単体で作成した毒性予測モデルとNECの秘密計算技術を適用した毒性予測モデルを比較した。
学習における各種評価指標(ROC曲線を用いたAUC、正解率、適合率や再現率)は、単体学習技術と比較して、秘密計算技術を適用しても劣化しないことを確認した。処理時間については、学習データを同量とした単体学習技術と比較して、秘密計算技術を適用した連合学習のクライアントの処理時間の増加が12%程度で、今回のユースケースで想定しているモデル統合の頻度ではボトルネックにならないことを実証した。