東京都市大学は2020年4月8日、従来の0.1%程度のサンプルデータでコンピュータウイルスの約82%を検出できるネットワーク侵入検知システムを開発したと発表した。「半教師あり」のマシンラーニング(機械学習)アルゴリズムを用いることで、ウイルス感染を起こす可能性のあるパケット通信のパターンを少量用意するだけでAIが学習し、ウイルス感染を起こすパケット通信パターンを検出して侵入を遮断できるようになるという。
東京都市大学 情報工学部 知能情報工学科の塩本公平教授らは、通常の教師あり機械学習より少ないサンプルデータで学習できる「半教師あり」機械学習アルゴリズムを用いて、コンピュータウイルスの約82%を検出できるネットワーク侵入検知システム(図1)を開発した。
拡大画像表示
半教師あり機械学習アルゴリズムの仕組みは図2のようになっている。東京都市大学が今回の研究で用いたのは「敵対的自己符号化器」で、これは、入力データを再現する自己符号化器(オートエンコーダ)のニューラルネットワークと、教師なし学習で用いられる敵対的生成型のニューラルネットワーク(GAN:Generative Adversarial Network)を組み合わせた機械学習アルゴリズムだという。
拡大画像表示
未知のマルウェア増殖スピードが飛躍的に向上し、パターンマッチング型の対策での検知率が50%に満たなくなった。多くのセキュリティ製品ベンダーは、検知率向上のために、AIを活用したウイルス/マルウェア対策ソフトの開発に取り組んでいる。
一般的に、AIを使ったウイルス対策ソフトは、マルウェアか正常なファイルかどうかを判断するアルゴリズムの作成に、膨大な量(数億から10億)のサンプルデータを必要とする。今回、東京都市大学が開発したシステムは、従来の0.1%程度のサンプルデータで約82%の検知率を実現したという(表1)。
精度(%) | ラベル付きデータ数 | ラベルなしデータ数 | |
提案手法AAE(10% label) | 83.43 | 12,597 | 113,376 |
提案手法AAE(0.1% label) | 82.48 | 125 | 125,848 |
RNN | 83.28 | 125,973 | 0 |
SVM | 82.37 | 125,973 | 0 |
NB Tree | 82.02 | 125,973 | 0 |
Random Tree | 81.59 | 125,973 | 0 |
J48 | 81.05 | 125,973 | 0 |
Random Forest | 80.68 | 125,973 | 0 |
MLP | 77.41 | 125,973 | 0 |
パケット通信に対して特徴量をあらかじめ決めておき、ウイルス感染を起こす場合とそうでない場合から少量のパケット通信パターンをサンプルとして選び、特徴量を学習する。次にウイルス感染を起こす場合とそうでない場合を区別せずに、すべてのパケット通信パターンの特徴量の分布状況を学習結果に反映することで、ウイルス感染を起こすパケット通信パターンを高効率で検出できたとしている。
開発した機械学習アルゴリズムは、企業のファイアウォールやPC、ルーターにソフトウェアとしてインストールできる。今回評価したデータセット以外のデータセットでの効果を検証し、1、2年後の実用化を目指すとしている。実用化の際には、ソフトウェアのライセンス供与やセキュリティサービスの提供も行う計画という。