EMCジャパンは2012年1月19日、オープンソースの大規模分散処理ソフトウェア「Apache Hadoop」を企業向けに再構築した「EMC Greenplum HD Enterprise Edition(以下、Greenplum HD)」の販売を開始した。
Greenplum HDはApache Hadoopをベースに独自の機能拡張を施したディストリビューション。同分野ではClouderaやIBMなどのベンダーが先行しており、EMCも米MapR社からOEM提供を受けて、ライバルを追う。米国では2011年9月に提供を開始。リクルートなど一部の企業が先行利用を開始している。
Apache Hadoopとの差異化のポイントは主に3つある。まずはパフォーマンス。ハードウェアの限界性能を引き出せるようソフトウェアのアーキテクチャを再設計した。ロック排除によって並列処理を最適化させたほか、I/Oの量を削減するビルトイン圧縮を採用するなどパフォーマンス向上に努めている。実装言語もJavaからC/C++に変更、ガーベジコレクションによる影響を排除した。Apache版との互換性は100%維持しつつも、2~5倍の性能向上を実現しているという。
従来、Apache Hadoopが抱えていた課題に対応し、企業利用に必要な信頼性や可用性も担保した。例えば、従来は分散ファイルシステムのメタデータを集中管理する「ネームノード」が単一障害点になるという課題があった。Greenplum HDではネームノードを分散配置し、いずれかのノードに障害が発生した場合も運用を継続できるようにした。分散処理のとりまとめを行う「ジョブトラッカー」にも同様の措置を施し、耐障害性を高めている。
さらに管理機能も充実させている。例えばNFSをサポートし、サーバーがHadoopのファイルシステムをストレージとして利用できるようにした。Apache Hadoopでは独自のファイルシステムを採用しているためアプリケーションからデータを直接書き込むことが難しい。ツールなどを使ってストレージに保管されたデータをロードしなおす必要があった。分析対象のデータをHadoopのファイルシステムに直接書き出すようにしておけば、データの投入やロードに要する時間を短縮できる。その他にも、データのバックアップ・リカバリを支援するスナップショット機能を追加するなど、これまで弱点とされていた個所に手当てした。
EMCジャパンは同日、Hadoopによる分散処理システムを専業とするノーチラス・テクノロジーズとの協業を発表。Hadoop向けバッチ高速化フレームワーク「Asakusa Framework」とEMC Greenplum HDを組み合わせたソリューションをパートナー経由で販売する。「Apache HadoopとGreenplumでは設計の思想が違う。パフォーマンスの向上もさることながら、商用のライセンスにして企業が“普通に使える”ものとなった。それが最大の特徴だろう。顧客向けのシステムを作る為にはGreenPlumが必要」(ノーチラス・テクノロジーズ 代表取締役 副社長 神林飛志氏)。
EMC / Hadoop / ノーチラス・テクノロジーズ / Greenplum / Dell
-
AI時代の“基幹インフラ”へ──NEC・NOT A HOTEL・DeNAが語るZoomを核にしたコミュニケーション変革とAI活用法
-
加速するZoomの進化、エージェント型AIでコミュニケーションの全領域を変革─「Zoom主催リアルイベント Zoomtopia On the Road Japan」レポート
-
14年ぶりに到来したチャンスをどう活かす?企業価値向上とセキュリティ強化・運用効率化をもたらす自社だけの“ドメイン”とは
-
-
-
-
生成AIからAgentic AIへ―HCLSoftware CRO Rajiv Shesh氏に聞く、企業価値創造の課題に応える「X-D-Oフレームワーク」
-
-
-
「プラグアンドゲイン・アプローチ」がプロセス変革のゲームチェンジャー。業務プロセスの持続的な改善を後押しする「SAP Signavio」
-
BPMとプロセスマイニングで継続的なプロセス改善を行う仕組みを構築、NTTデータ イントラマートがすすめる変革のアプローチ
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-



