NECは2019年8月5日、データの意味をAIで推定する「データ意味理解技術」を開発したと発表した。例えば、同じテーブルに「氏名」と「数値」があった場合、数値は年齢であると推定できる。同技術をオープンデータに適用したところ、データ管理の専門家が30日かけていたデータ統合の作業を1時間で終えられたという。
NECの「データ意味理解技術」は、作成者や所有者が異なる多種多様な表データを、1つに統合する技術である(図1)。データを、部門間、企業間、業界間で共有して統合することで、横断的に分析できるようになる。データの統合を、データ管理の専門家と同等の品質で、なおかつ短期間で実施するとしている。マシンラーニング(機械学習)を活用している。
図1:表データを統合する「データ意味理解技術」の概要(出典:NEC)拡大画像表示
特徴は、表データに元々付与してある表名や列名を手がかりとするのではなく、各データ列の数値分布の統計的な傾向を手がかりとする点である。事前に各単語について、その単語に合わせて頻出する数値を収集し、単語の数値分布を含む独自のデータベースを構築する。
同じ意味を持つ数値データは、統計的な分布傾向が類似している。このことから、数値データ列から数値の出現頻度の分布傾向を示す特徴量を算出し、単語ごとの数値分布と比較する。これにより、例えば、列名のないデータについても、「売上高」といった意味の推定が可能になる。
数値データ列は、文字データ列と比べると、意味の推定が難しい。例えば「29、24、23」などは、これ単独では「年齢」や「気温」など様々な意味が当てはまる。これに対しては、例えば同じ表データに「氏名」の項目が含まれていれば、「気温」データではなく、より関係性の強い「年齢」データであることを推定する。
開発の背景について同社は、保有者が異なるデータを横断的に分析するためには、表名や列名が統一されていない多様なデータを結合することが必要になることを挙げている。「従来は、データ管理の専門家が表データを精査し、何のための表データか、その表データの各行や列が何を表しているかを見極め、人手で統合していた」という。
- 業務システム 2027年4月強制適用へ待ったなし、施行迫る「新リース会計基準」対応の勘所【IT Leaders特別編集版】
- 生成AI/AIエージェント 成否のカギは「データ基盤」に─生成AI時代のデータマネジメント【IT Leaders特別編集号】
- フィジカルAI AI/ロボット─Society 5.0に向けた社会実装が広がる【DIGITAL X/IT Leaders特別編集号】
- メールセキュリティ 導入のみならず運用時の“ポリシー上げ”が肝心[DMARC導入&運用の極意]【IT Leaders特別編集号】
- ゼロトラスト戦略 ランサムウェア、AI詐欺…最新脅威に抗するデジタル免疫力を![前提のゼロトラスト、不断のサイバーハイジーン]【IT Leaders特別編集号】
-
VDIの導入コストを抑制! コストコンシャスなエンタープライズクラスの仮想デスクトップ「Parallels RAS」とは
-
AI時代の“基幹インフラ”へ──NEC・NOT A HOTEL・DeNAが語るZoomを核にしたコミュニケーション変革とAI活用法
-
加速するZoomの進化、エージェント型AIでコミュニケーションの全領域を変革─「Zoom主催リアルイベント Zoomtopia On the Road Japan」レポート
-
14年ぶりに到来したチャンスをどう活かす?企業価値向上とセキュリティ強化・運用効率化をもたらす自社だけの“ドメイン”とは
-
-
-
-
生成AIからAgentic AIへ―HCLSoftware CRO Rajiv Shesh氏に聞く、企業価値創造の課題に応える「X-D-Oフレームワーク」
-
-
-
「プラグアンドゲイン・アプローチ」がプロセス変革のゲームチェンジャー。業務プロセスの持続的な改善を後押しする「SAP Signavio」
-
BPMとプロセスマイニングで継続的なプロセス改善を行う仕組みを構築、NTTデータ イントラマートがすすめる変革のアプローチ
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-



