[新製品・サービス]
NEC、Python用データ分析ライブラリのpandasを高速化する「FireDucks」を無料公開
2023年10月19日(木)日川 佳三(IT Leaders編集部)
NECは2023年10月19日、Python用データ分析ライブラリ「pandas」を高速化するソフトウェア「FireDucks」ベータ版の無料公開を開始した。使い勝手はpandasと同じで、実行時コンパイルによってデータの前処理を高速化する。TPCx-BBベンチマークテストで、pandasと比べて最大16倍、平均約5倍高速化し、データサイエンティストの業務時間の約30%を削減可能としている。2024年度中の事業化を目指す。
NECの「FireDucks」は、Python用データ分析ライブラリ「pandas」を高速化するソフトウェア。無料で使えるベータ版を公開した。2024年度中の事業化を目指す。
分散しているデータを整備して活用可能な状態にする、データ分析の前処理(プレパレーション)を高速化する。部門ごとの平均月収を調べる際、給与および所属データを社員番号をキーに統合し、同一部門の給与を集約する計算といったケースで利用できる。
NECが行ったTPCx-BBベンチマークテストでは、pandasと比べて最大16倍、平均約5倍高速化した。「FireDucksは、データサイエンティストの業務時間を33%削減する。データ分析業務の19%を占めるデータロードは30時間から8時間に、データ分析業務の26%を占めるクレンジングは42時間から10時間に短縮される」(NEC、図1)という。
拡大画像表示
先行ユーザーとして、トヨタテクニカルディベロップメント(本社:愛知県豊田市、TTDC)がFireDucksを実際の業務に適用した。同社のAIフレームワーク「Spicy MINT」を用いたデータ解析時間が60%、データ解析用PCの稼働時間が76%減ったという。
JITコンパイラ(実行時コンパイラ)による処理の最適化によってデータ処理を高速化している。FireDucksの配布パッケージには、Pythonのコード群に加えて、コンパイラ機能を実装した共有ライブラリのバイナリが含まれる。pandasによる開発・実行と同じ手順で高速化の効果が得られる(図2)。
拡大画像表示
●Next:pandasを高速化する、3つの処理最適化方法
会員登録(無料)が必要です