データマネジメント データマネジメント記事一覧へ

[データ駆動型社会を支える「データスペース」の実像─ハンズオンで理解するその価値と可能性]

CADDEを動かしてデータスペースを体験しよう[後編]:第6回

2024年10月9日(水)松永 惟月(東京大学大学院 情報学環・学際情報学府 修士課程)

ビジネスの高度化はもちろん、社会運営にとってもデータ活用の重要性は論を俟たない。一方で、データがサイロ化しシステムや組織内で留まっていては、その真価は発揮されない。データを十全に生かすには、信頼性を担保しながら組織や国境を越えて共有・連携するためのプラットフォーム、すなわち「データスペース」が必要となる。今回から2回にわたり、分散連邦型データ基盤「CADDE(ジャッデ)」を実際に動かす方法をハンズオン形式で紹介し、読者にデータスペースの仕組みや価値を実感してもらうことを目指す。今回は後編として、データスペース上におけるデータ提供や、データの検索・取得の手順を解説する。

 第5回は分散連邦型データ基盤「CADDE(ジャッデ)」のハンズオン前編として、CADDEコネクタをインストールし、最小構成のCADDE環境(図1)を構築する手順を解説しました。本稿では後編として、構築したCADDE環境を用いてデータ共有を行うための運用手順や利用方法を詳しく説明します。

 具体的には、まずデータ提供者として、CADDE上でデータを提供するための運用手順を実践します。次に、今度はデータ利用者として、利用者コネクタを介してデータカタログを検索し、データ提供者環境からデータを取得します。

 これらを通じて、データスペースにおける最も基本的かつ本質的なデータ共有の流れを体験することを目標としています。なお、本稿では前編と同様に、認証・認可機能や横断検索機能、来歴管理機能といったCADDE支援サービスとの連携方法は対象外とします。

 これまで抽象的な説明が中心だったデータスペースの仕組みを、手を動かして体験することで、より実践的に理解を深めていただくことを目指します。

図1:最小構成のCADDE環境
拡大画像表示

 本稿では、図1に示す構成でCADDE環境をすでに構築していることを前提とします。CADDE環境の構築手順については第5回をご参照ください。また、以下のコマンドおよびソフトウェアが利用可能であることも前提とします。

・Docker(v20.10.1以降)
・Git
・curl
・jq

 また、前回と同じく、以下のディレクトリを引き続き利用します。


cd ~/cadde_handson
export WORKDIR=$PWD

 

データスペース上でデータを提供しよう

 まずはCADDEを通じて自身のデータを提供するために、データ提供者が事前に準備するべき事項として、以下の3点を行います。

①提供データの準備
②データカタログの作成
③提供者コネクタへのデータ登録

①提供データの準備

 CADDE上で提供するデータを、データ提供者環境のデータサーバーに配置します。ここでは例として、テキストファイルhello.txtを提供データとします。


cd ${WORKDIR}/private-http-server
echo "Hello, CADDE." > ./data/hello.txt

 

 第5回で説明したとおり、本稿で用いるデータサーバーは提供者コネクタのみが名前解決可能な独自ドメインにより、擬似的な非公開サーバーとして利用します。そのため、以降はここで配置したデータを以下のURLで公開します。
http://cadde-data-management.internal:8080/hello.txt

②データカタログの作成

 データ利用者がCADDE上でデータを検索・発見可能にするために、提供者カタログサイトで提供データのカタログを作成します。

 まず、オープンソースのデータ管理システム「CKAN」を用いて構築した提供者カタログサイト(第5回を参照)に、デフォルトの管理者アカウントでログインします。デフォルトのユーザー名はckan_admin、パスワードはtest1234です。

 CKANでデータカタログを作成するためには、その管理主体となる組織(Organization)の作成が必要です。ログイン後に表示されるダッシュボード画面から、上部の“My Organizations”メニューを選択し、“Add Organization”から新たな組織を作成します(図2)。組織情報のうち、組織名(Name)に適当な文字列を入力し、“Create Organization”を選択します(図3)。

図2:CKANダッシュボード画面で”My Organizations”から”Add Organization”を選択
拡大画像表示
図3:データカタログの管理主体となる組織名を入力
拡大画像表示

 組織の作成が完了すると、組織が管理するデータセットの一覧画面に遷移します。ここで“Add Dataset”を選択し、データカタログを新規作成します。

 データカタログを作成するとき、まずは関連データの集合である「データセット」に対してメタデータを設定します。データ利用者が提供者カタログサイトのデータカタログを検索できるようにするには、以下の4項目の設定が必要です(図45)。なお、3つ目と4つ目の項目はCADDE独自の拡張項目として”Custom Field”に入力します。

・タイトル(例:Test dataset
・データカタログの公開設定(Visibility、例:Public
・データカタログ検索時に指定するデータセット識別子(caddec_dataset_id_for_detail、例:hello
・データ提供者のCADDEユーザーID(caddec_provider_id、例:test-provider

図4:CKANにおけるデータセットのデータカタログ上の公開設定
拡大画像表示
図5:CKANにおけるデータセットのCADDE拡張項目の設定
拡大画像表示

 データセットのメタデータ設定が完了したのち、データセットに含まれる各リソース(データファイル)のメタデータについて、以下の2つの項目を設定します(図6)。

・データアクセスURL(例:http://cadde-data-management.internal:8080/hello.txt
・リソース名(例:hello.txt

図6:CKANにおけるデータセットのリソース設定画面
拡大画像表示

 すべてのメタデータの入力が完了したら、”Finish”ボタンを押して、データカタログの作成を完了します。なお、CADDEにおけるデータカタログ項目の詳細については「CADDE 4.0 データカタログ項目仕様ガイドライン」をご確認ください。

③提供者コネクタへのデータ登録

 提供者コネクタを介してデータ提供を行うため、提供データのアクセス情報をコネクタ内部に事前に登録します。ここでは、提供データのアクセスURLと、データ提供時のコネクタの動作設定(認可確認や来歴登録など)を行います。詳細については、CADDEコネクタのドキュメントをご参照ください。


vim ${WORKDIR}/connector/src/provider/connector-main/swagger_server/configs/http.json

 


{
    "basic_auth": [],
    "authorization": [
        {
            "url" : "http://cadde-data-management.internal:8080/hello.txt",
            "enable" : false
        }
    ],
    "contract_management_service": [
        {
            "url" : "http://cadde-data-management.internal:8080/hello.txt",
            "enable" : false
        }
    ],
    "register_provenance": [
        {
            "url" : "http://cadde-data-management.internal:8080/hello.txt",
            "enable" : false
        }
    ]
}

 

 以上で、データ提供者としてのデータ提供の準備は完了です。

●Next:データの検索・取得でわかるデータスペースの仕組み

この記事の続きをお読みいただくには、
会員登録(無料)が必要です
  • 1
  • 2
バックナンバー
データ駆動型社会を支える「データスペース」の実像─ハンズオンで理解するその価値と可能性一覧へ
関連キーワード

データスペース / データ連携 / CADDE / 東京大学 / データカタログ / データ活用基盤 / R&D

関連記事

トピックス

[Sponsored]

CADDEを動かしてデータスペースを体験しよう[後編]:第6回ビジネスの高度化はもちろん、社会運営にとってもデータ活用の重要性は論を俟たない。一方で、データがサイロ化しシステムや組織内で留まっていては、その真価は発揮されない。データを十全に生かすには、信頼性を担保しながら組織や国境を越えて共有・連携するためのプラットフォーム、すなわち「データスペース」が必要となる。今回から2回にわたり、分散連邦型データ基盤「CADDE(ジャッデ)」を実際に動かす方法をハンズオン形式で紹介し、読者にデータスペースの仕組みや価値を実感してもらうことを目指す。今回は後編として、データスペース上におけるデータ提供や、データの検索・取得の手順を解説する。

PAGE TOP