[インタビュー]

文献検索システム「I-Scover」から考えるオープンデータ時代の共創のあり方と学会の役割

2017年9月22日(金)柏崎 吉一(エクリュ 代表社員)

電子情報通信学会(IEICE)が、学術論文や企業の技術報告書などを対象とした文献検索システム「I-Scover」のバージョン2を2017年3月にサービス開始した。提供開始から約半年経ったが、学術関係者だけでなく企業でも利用する価値は大きそうだ。例えば、伸びが期待される研究分野や有望な研究者の調査・把握が効率的になる。一方、I-ScoverはLinked Data(リンクトデータ)技術を用いたデータベースシステムの構築事例としても興味深い。リンクトデータは組織横断的なデータの利活用を促すきっかけになる。同学会がこの仕組みを開発した背景には、学会に求められる役割の変化があった。I-Scover開発に携わった2人のキーパーソンに聞いた。

開発プロジェクトの振り返りと得られた知見

──2011年に開発をスタートさせたそうですが、それからだいぶ経ち、かなりノウハウも溜まったのではないでしょうか。

井上:はい。正直なところ、かなり試行錯誤をしました。というのも、I-Scoverの開発は自分たち学会員のメンバーが主体で行いました。予算が潤沢になかったという事情もあります。ただ、それがよい方に働いたという側面もありました。内部にノウハウが蓄積でき、開発者ではなく利用者としてもシステムを活用する、あるいは、もっとこうしたい、という要望を形にしやすくなりました。システム開発のあるべき姿だったと言えるかもしれません。

 開発時には、関係するメンバーが東京に一堂に会して週一くらいの頻度で半日ほどかけて要件定義やテストなどについてミーティングをしました。

武田:特に大事だったのは、メタデータの整備、名寄せ・ID設計、そしてスキーマ設計でした。メタデータというのは、文献に関する書誌情報(論文タイトル、著者名、キーワード、抄録、出版物名、発行年月日など)などのことです。この文献メタデータのほか、著者に関するメタデータ(所属機関、関係するイベントや出版物、キーワードなど)もI-Scoverでは保持しています。

◆関連リンク:I-Scoverで検索できるメタデータの種別とデータ項目
http://i-scover.ieice.org/iscover/search/fhelp

井上:一つのメタデータを起点として、別のメタデータへと次々とリンクをたどることで、新たな研究につながる思いがけない情報の発見や、コラボレーションへの発展などが期待できます。このメタデータを検索した文献検索システムは国内でも初、です。

武田:名寄せとIDの割り当てについては、同一の著者が執筆した論文誌掲載論文、技術研究報告、大会予稿などが同一著者であると、対応付ける必要があります。この作業を名寄せと呼んでいます。著者の申告のもとで、学会事務局が人手で整備を行っています。

井上:ここはコツコツ手作業でやりました。本会4ソサエティの研究専門委員会のメンバーを中心にキーワードを整備しました。

◆関連リンク:http://www.ieice.org/~iscover/ja/kensen_keyword/

 メタデータには、論文テキストに関するものだけでなく、マルチメディアコンテンツ(学会での講演を収録した映像など)も含まれており、検索対象に含めることができます。さらに、学術分野だけでなく、企業が開示する技報も見られます。現在、OKIやNTT、NECなど3社が参加し、今後も増える見通しです。

武田:I-Scoverの開発でポイントになったもう一つが、スキーマ設計です。スキーマというのは、その事物を特徴づけるデータ項目のことです。その語彙をどうするか。その事物において何が特徴かという認識は人によって異なります。そのため、スキーマも設計者によって異なるものになり、それがデータベースの相互運用性を困難にする一因に挙げられます。リンクトデータでは、なるべく多くの人が使うスキーマを用いることが約束事になっています。この約束事を尊重することで、リンクで対応付けることが容易になってきます。

井上:日本では、学会でもシステム開発を外部のIT企業に任せることがありますが、グラフ構造のデータベースを開発する場合、せめてスキーマ設計は自分たちでやることを強くおすすめします。大変なのですが、仮に外部に開発を発注するにしても、ここだけはきちんと組織内で主導しておく。そうすることで発注側の要望とできたシステムの乖離を抑え、開発の手戻りを減らせます。結果的に、アジャイル開発になると言えます。

武田:他に、ネットワーク構造で検索の際にはグラフを再計算をする時間がかかることがあります。そこで、一から全部のグラフを再計算する必要のないように計算済みのデータを静的にキャッシュしたり、インデックスを付けたりといった回避策を講じることが大事です。

井上:実は、検索結果を短時間で返す仕組みは、I-Scoverを開発する上でも1年くらいかけてじっくり取り組みました。人間が検索する場合と、計算機で処理する場合で処理の仕方を変えたりのチューニングを重ねました。結果的に、現在は平均的な条件では、2~5秒以内に検索結果が返るような形になっています。その意味では、I-Scoverの開発を通じて、電気情報通信学会 の中にリンクトデータに関するノウハウがだいぶ溜まってきました。

──海外ではI-Scoverのような仕組みは存在するのでしょうか。

井上:はい。著名なのが、IEEEが提供するXploreです。メタデータで検索する仕組みとして、すでに知られています。検索できる論文数なども圧倒的に多い。ただ、リンクトデータで作られていません。Xplore、または国内の学会誌であるCiNii、ソサエティ誌であるJ-STAGEでもI-Scoverと同様にOpenSearch APIを提供していますが、SPARQL APIを備えて外部データベースとの連携性を高めている点が、I-Scoverならではの特徴です。

武田: I-Scoverはリンクトデータという技術を用いてデータを構造化したことで、海外と同じ土俵にようやく立てた、といえます。

企業システムでリンクトデータを活用するメリット

──企業でも自社に取り入れたい、と思うケースがあるかもしれません。

武田:どのような組織でも、傘下の各部署が個別にデータベースシステムを構築しているものの、それを横断的に検索することができない、という悩みは持っていると思います。しかし、すでにあるシステムを再構築するのは莫大な費用や工数がかかります。また将来、拡張する際に同じような課題にぶつかります。

 まさにI-Scoverのように、それらのデータベースのメタデータを横断的に検索するだけでも、大きな武器になると思います。RDBで管理しているメタデータを、リンクトデータに適したフォーマットに変換することは容易です。無料で使える変換ツールも提供されています。

 語彙についてはリンクトデータは社外に公開しないイントラネットのような環境でも使えますので、その際にはローカルルールで構わないでしょう。リンクトデータは比較的ベストエフォートで、かつそれほど予算をかけずスモールスタートで始められます。ただ、一般的な語彙に合わせる約束事を使うと部署間の調整などの効率がさらによくなるでしょう。

 こうしてリンクトデータでデータを統合できれば、データを分析したい人が、特定のツールベンダーや専門家に依頼することなく、自らの手で標準的なSPARQLを用いてデータを検索・分析できます。検索・分析結果も待たされることなくその場ですぐに返ってきます。

 社内、特に官公庁などではデータを提供する人、利用する人、加工・分析する人が分かれているために、データの利活用が進まない側面がありますが、リンクトデータによって自らデータを作り、加工し、分析するというDIY(Do It Yourself)を可能にします。

井上:他にも、I-Scoverの開発を通じて、気づいたことが多々ありました。その一つが、メタデータの著作権に関する議論です。国内外の情報や事例をいろいろと調べてみたところ、日本では非常に曖昧になっていることが浮き彫りになってきました。

武田:一般的に欧州は個人の権利を重視し、北米は国があまり口出しせず、企業に任せて何かあれば当事者で解決するように、というスタンスです。日本はそのどちらでもなく曖昧なので、かえって使いづらい。著作権については、個人の権利もありますが、公共性で捉えることもできます。論文などの学術分野については、公共性で捉えられます。自分たちの研究が国の予算などで行なわれていることもあるので世の中に還元すべきというものです。

人をつなぐ場としての学会の役割

──電子情報通信学会だけではなく、他の学会も含めた動きはどうでしょうか。横断的に文献を検索できればさらに検索システムとしての価値は高まると思いますが。

井上:他の4学会にも紹介するなどの活動をしているところです。そもそも日本の学会は、北米などの学会と比べるとまだまだ閉じています。アメリカの学会はビジネスを行う専門家集団という姿勢が明確です。論文を発行する出版ビジネスにより収益をあげて、研究活動の予算を積極的に獲得している。単なる学者の集まりではありません。

武田:そのせいか、今のところ、IEEE Xploreの利用料金は高いですね。もっとも全体の傾向としては、論文自体はインターネット上で誰でも見られる形で発行されるようになっています。論文の発行点数が増えて論文データベースは大きくなってきた一方、相対的に生のデータ(ローデータ)そのものの価値は限界費用まで下がり、データベースに何の価値を付加していくか、という論点に変わっています。あるデータベースを他の人から見ると別の価値を有するわけで、そこから新たな研究が進展することも期待されます。

──今後、オープンデータやそれを活用した「オープンイノベーション」を展開していくには、どのようなことがポイントになると考えますか。

井上:一つのエピソードですが、自動車業界では、東南アジアで自動車と農業支援をリンクさせた取り組みを行っています。農作物の生育状況などをセンサーで集約し、例えば複数の自動車と連携したクラウドデータセンターに蓄積するのですが、集約したデータだけで、すぐに収量増や品質の向上につながるわけではありません。データから意味を読み解き、選別した上で役立つデータ、いわばGood Data(グッドデータ)が得られます。単なるビッグデータをグッドデータにするには、専門的な知見が必要です。そこに研究者や専門家の存在がやはり欠かせません。

武田:様々な知見を統合する取り組みは、まさにオープンサイエンスです。データは公共性のある共有資産であり、それを活用することで研究を進め、世の中に成果を還元していこうという考え方は学術分野に古くからあります。先述した著作権などの個人の権利と公共性をどう共存させるかのコンセンサスを社会で作っていくことが、ポイントになると思います。

──政府CIOポータルに公開される「オープンデータ100」(https://cio.go.jp/opendata100)には、トヨタIT開発センターなどが共同開発した、WebAPIによる道路規制情報のオープンデータ化の例(しずみちinfo)の事例などが出てきましたが、オープンデータにおける官民の連携ももう少しインパクトが欲しいところですね。

井上:一般論として、データを提供する利用者へのメリットの還流も必要だと考えます。自動車保険では、ドライバーの運転データから見える傾向と、保険料の料率を勘案して、利用者にとって割安な自動車保険を提供する動きもあります。

武田:学会は出版社としての役割から、人をつなぐ場としての役割が重視されています。多様な角度から知見を見直し、価値を生み出していくのが、本来のオープンイノベーションだと考えます。私も学術情報を流通させる立場から学会の動向を注視しています。

井上:そういう取り組みのきっかけにI-Scoverがなれば、というのが、開発した我々の思いでもあります。

関連キーワード

オープンデータ / エンタープライズ検索 / 文書管理 / ナレッジマネジメント / 自治体 / 電子行政

関連記事

トピックス

[Sponsored]

文献検索システム「I-Scover」から考えるオープンデータ時代の共創のあり方と学会の役割 [ 2/2 ] 電子情報通信学会(IEICE)が、学術論文や企業の技術報告書などを対象とした文献検索システム「I-Scover」のバージョン2を2017年3月にサービス開始した。提供開始から約半年経ったが、学術関係者だけでなく企業でも利用する価値は大きそうだ。例えば、伸びが期待される研究分野や有望な研究者の調査・把握が効率的になる。一方、I-ScoverはLinked Data(リンクトデータ)技術を用いたデータベースシステムの構築事例としても興味深い。リンクトデータは組織横断的なデータの利活用を促すきっかけになる。同学会がこの仕組みを開発した背景には、学会に求められる役割の変化があった。I-Scover開発に携わった2人のキーパーソンに聞いた。

PAGE TOP