[新製品・サービス]
dotData、AIの特徴量発見・抽出を自動化する「dotData Feature Factory」をリリース
2023年5月10日(水)神 幸葉(IT Leaders編集部)
米dotDataは2023年5月9日、AI/マシンラーニング(機械学習)プロジェクトの特徴量を自動設計するソフトウェア 「dotData Feature Factory」をリリースした。「dotData Py」の後継製品として、特徴量の自動設計の仕組みを製品化している。時間と工数のかかる特徴量の発見・抽出を自動化し、特徴量設計の一連のプロセスを再利用可能なアセットとして蓄積する。
米dotDataの「dotData Feature Factory」は、AI/マシンラーニング(機械学習)のプロジェクトで多大な時間と工数を要していた特徴量の発見・抽出を自動化するソフトウェア。既存製品「dotData Py」の後継製品として、特徴量の自動設計の仕組みを製品化している。複雑な関係を持つ膨大なレコード/テーブルの背後にある隠れたパターンを検出し、AIアルゴリズムによって導き出された特徴量を自動生成する。
dotData Feature Factoryでは、特徴量抽出にデータセントリックのアプローチを適用し、データ加工から特徴量抽出のプロセスを再利用可能なアセットとして蓄積する。「ユーザーとの協業を通じて、最大の課題は業務データからの特徴量の発見と抽出であることを改めて認識した」(同社 CEO & Founderの藤巻遼平氏)。そこでコア技術である特徴量自動設計を独立した製品として提供するに至ったという。
dotData Feature Factoryの主な特徴として、同社は以下を挙げて説明している。
特徴量空間(特徴量候補)の自動生成:「特徴量の発見は、業務とデータの深い知識と多くの時間と工数を要し、その第一歩を踏み出すのにさえ大きな労力がかかる」(同社)。dotData Feature Factoryは、関係データ、トランザクションデータ、時間データを含む企業の業務データから自動的に特徴量空間(特徴量候補)を生成する。これにより、ユーザーは分析の初日からビジネスに役立つパターンを業務データから発見できるようになるとしている。
データ中心アプローチの適用:特徴量の発見と設計は「職人芸とも言える、経験と勘による手作業が中心」(同社)であり、データサイエンティストやドメインエキスパートは、データのパターンに関するアイデアを持っていても、時間やリソースの制約から実行に移せないでいたという。dotData Feature Factoryは、特徴量空間をプログラム的に定義することで、手作業では不可能な広範囲の特徴量仮説を自動生成してユーザーのデータや業務に関する知識をデータから補完する。これを同社はデータ中心のアプローチと呼んでいる。
特徴量設計をアセットとして蓄積・管理:特徴量設計は、簡単なSQLクエリを書くだけではなく、ETL(抽出/変換/ロード)やデータクレンジング、特徴量変換など、複雑なデータ操作と変換を繰り返して導き出すプロセスである。発見した特徴量はデータマートや特徴量ストアに蓄積できるが、同社はそれらのプロセスが多くの場合、蓄積・管理されていないことに着目。dotData Feature Factoryでは、特徴量設計のステップを蓄積し、データ変換や特徴量抽出のノウハウを再利用可能なアセットとして管理する。
Notebook上の特徴量を本番環境パイプラインに変換:データサイエンティストは一般に、特徴量探索をPythonなどの開発・実行環境「Jupyter Notebook」上で行う。しかし、そこでの大量のNotebookとコードは標準化や管理がなされておらず、本番環境で求められるエッジケースのカバレッジ、保守性、拡張性などを満たさないことがほとんどだと同社は指摘する。dotData Feature Factoryは、Notebookで生成した特徴量を本番環境のためのパイプラインとして自動生成し、テスト環境から本番環境への移行が容易に行えるとしている。
dotDataは、dotData Feature Factoryに備わるこれらの特徴が、チーム間連携の強化、データアプリケーション開発効率の向上、モデル品質の向上、特徴量とデータの再利用性、拡張性、透明性の向上などを実現するとアピールしている。