約130億件という膨大な診療記録の利活用を促進する試みとして「新たなエビデンス創出のための次世代NDBデータ研究基盤構築に関する研究」という注目プロジェクトがある。その背景や、現在までに乗り越えてきた壁、さらに採用されたテクノロジーなど、概要を紹介する。
Hadoopを選択した理由 - みんなに使われるためにはオープンな環境を
データの手戻りの悪さ、煩雑な作業と多大な時間を要するデータ変換作業、リレーショナルデータベース特有の硬直したデータ構造…。「このままでは(NDBオンサイトリサーチセンターは)とても運用に乗らない」と危機感を募らせた黒田氏らは新たなNDBデータ研究基盤の構築に着手、その取り組みが2016年度のAMEDの研究事業「次世代NDB研究基盤」として採択されることになる。この際、国(厚生労働省)から指示されたのは「スケーラブルなしくみであること、ベンダーロックインを避けること」(黒田氏)の2つだった。そしてこの条件を満たすプラットフォームとして選ばれたのがApache Hadoopであり、パートナーとしてNTTデータが基盤構築を担当することとなった。
それぞれの選択の理由について黒田氏は「スケーラブルで、かつベンダーロックインされないデータ基盤を考えるならHadoopしかなかった。そして、Hadoop関連の実績が豊富だと評価したのがNTTデータだった」と振り返る。ビッグデータブーム以降、Hadoopはスケーラブルでコストパフォーマスの高い並列分散処理基盤として、ほぼデファクトスタンダードとしてのポジションにあり、かつ、オープンソースであるため「どこにでもインプリメンテーションできる」(黒田氏)というメリットがある。また、NTTデータに対してはHadoopやSpark、さらにはPostgreSQLなどオープンソースのミドルウェア開発における長年の実績を高く評価したことがうかがえる。
拡大画像表示
新たに構築する次世代NDBデータ研究基盤では、Hadoopによるデータ処理基盤(NTTデータが構築)と、処理済みのデータを使って分析する環境をあわせて「NoSQL NDB分析環境」と呼んでいる。
Hadoop処理基盤システムはメモリー128GB/ディスク容量16TB×8台で構成されたハードウェア上に構築されており、もちろん、データの増加に応じて柔軟でリニアな拡張が可能だ。このシステムではオリジナルのNDBデータをデータウェアハウスに取り込み、その後、目的に応じたデータマートが作成される。並列して、DWH上のデータに対し保険者番号(ID)の名寄せ処理を行った後、「過去1カ月分のデータ」「(特定の)研究用データ」といったデータマートが作成され、さらにそのデータマートをデスクトップ/ノートPCなどの環境でも分析できるほどに縮小している。
分析環境はPostgreSQLベースで構築されており、前述の縮小された小規模なデータマートがあることで、利用者はエピソード単位(患者単位、疾患単位など)での分析がしやすくなり、全数データから自らデータを再構成していた手間を大幅に省くことが可能となる。なお、この分析環境と対になる形で、小規模なダミーデータを使ったNDBデータ分析の学習環境「moodle」も用意されており、オンサイトリサーチセンターの利用前にNDBデータを使った分析やレセプトの基礎知識を学ぶことも可能だ。
「みんなが使いやすいNDBを作りたかった。こんなすごい医療データをもっている国は世界中のどこにもない。次世代NDBデータ研究基盤はまだ研究途上ではあるが、これから大きく発展することに強い自信を持っている」──。黒田氏は講演中、「みんなが使いやすい」という言葉を何度も口にしている。これには誰もが使えるオープンな環境、オープンな技術の重要性が込められている。HadoopやPostgreSQLといったオープンでデファクトな技術が次世代NDBデータ研究基盤に採用されているのも、ごく自然な選択だったといえるだろう。近い将来、想い通りのビッグデータ基盤へと成長したこのNDBが、日本でデータヘルスサイエンスの普及/発展に大きな役割を果たす可能性は高い。