開発ツール/プラットフォーム 開発ツール/プラットフォーム記事一覧へ

[新製品・サービス]

NEC、Python用データ分析ライブラリのpandasを高速化する「FireDucks」を無料公開

前処理に苦労するデータサイエンティストの業務効率を改善

2023年10月19日(木)日川 佳三(IT Leaders編集部)

NECは2023年10月19日、Python用データ分析ライブラリ「pandas」を高速化するソフトウェア「FireDucks」ベータ版の無料公開を開始した。使い勝手はpandasと同じで、実行時コンパイルによってデータの前処理を高速化する。TPCx-BBベンチマークテストで、pandasと比べて最大16倍、平均約5倍高速化し、データサイエンティストの業務時間の約30%を削減可能としている。2024年度中の事業化を目指す。

 NECの「FireDucks」は、Python用データ分析ライブラリ「pandas」を高速化するソフトウェア。無料で使えるベータ版を公開した。2024年度中の事業化を目指す。

 分散しているデータを整備して活用可能な状態にする、データ分析の前処理(プレパレーション)を高速化する。部門ごとの平均月収を調べる際、給与および所属データを社員番号をキーに統合し、同一部門の給与を集約する計算といったケースで利用できる。

 NECが行ったTPCx-BBベンチマークテストでは、pandasと比べて最大16倍、平均約5倍高速化した。「FireDucksは、データサイエンティストの業務時間を33%削減する。データ分析業務の19%を占めるデータロードは30時間から8時間に、データ分析業務の26%を占めるクレンジングは42時間から10時間に短縮される」(NEC、図1)という。

図1:FireDucksによるデータ処理時間の削減効果(出典:NEC)
拡大画像表示

 先行ユーザーとして、トヨタテクニカルディベロップメント(本社:愛知県豊田市、TTDC)がFireDucksを実際の業務に適用した。同社のAIフレームワーク「Spicy MINT」を用いたデータ解析時間が60%、データ解析用PCの稼働時間が76%減ったという。

 JITコンパイラ(実行時コンパイラ)による処理の最適化によってデータ処理を高速化している。FireDucksの配布パッケージには、Pythonのコード群に加えて、コンパイラ機能を実装した共有ライブラリのバイナリが含まれる。pandasによる開発・実行と同じ手順で高速化の効果が得られる(図2)。

図2:FireDucksがデータ処理を高速化する仕組み(出典:NEC)
拡大画像表示

●Next:pandasを高速化する、3つの処理最適化方法

この記事の続きをお読みいただくには、
会員登録(無料)が必要です
関連キーワード

NEC / Python / データプレパレーション / アナリティクス

関連記事

トピックス

[Sponsored]

NEC、Python用データ分析ライブラリのpandasを高速化する「FireDucks」を無料公開NECは2023年10月19日、Python用データ分析ライブラリ「pandas」を高速化するソフトウェア「FireDucks」ベータ版の無料公開を開始した。使い勝手はpandasと同じで、実行時コンパイルによってデータの前処理を高速化する。TPCx-BBベンチマークテストで、pandasと比べて最大16倍、平均約5倍高速化し、データサイエンティストの業務時間の約30%を削減可能としている。2024年度中の事業化を目指す。

PAGE TOP