リンクトデータ・概念と概念を繋ぐAIのデータの表現方法
リンクトデータ・概念と概念を繋ぐAIのデータの表現方法
「オントロジー」に関する紹介記事で、オントロジーがAIの思考において重要な役割を果たす事を説明しました。また、オントロジーはTriple構造で、プロパティを介して概念と概念が結びつく事を説明しました。このTripleの構造は、概念と概念をプロパティを介して結びつけていき、概念はグラフ構造で表現されます。リンクトデータは概念と概念を繋ぐAIのデータの表現方法という事が出来ます。
概念がプロパティを介してグラフ構造で結びついて行く、この発想がリンクトデータ(Linked Data = LD)と呼ばれ、オントロジーの中核の活用方法です。また、リンクトデータを活用してセマンティックWebを実現しようとする試みも無数に存在ます。
以下、リンクトデータの詳細について説明致します。
リンクトデータとは?
前段で解説した通り、リンクトデータとは以下の図のように概念と概念がプロパティを介してグラフ構造で結びつくもので、オントロジーの概念と概念の繋がりを表現したデータ構造です。よく、「オントロジー」「リンクトデータ」「セマンティックWeb」という言葉が同一の意味として用いられているWeb記事などが散見しますが、概念を記述する元になる考え方がオントロジーであり、それをグラフ構造で表現したものがリンクトデータで、それをWeb上で実装したものがセマンティックWebと捉えて頂ければと思います。
上の図は、概念と概念が繋がりあう、グラフ構造のリンクトデータのイメージ図です。様々な概念(葉)が、プロパティというノード(節)を介して、ネットワーク図のように結びついている様子が見えると思います。このように、世の中の概念間の関係性を定義し、ある事象に関して、巨大な関連性データベースを構築しようというのがリンクトデータの発想です。
現在、DBpediaやFOAF等、様々なリンクトデータプロジェクトが世の中に存在しています。特にその存在が公開されているものは、リンクトオープンデータ(Linked Open Data = LOD)と呼ばれます。リンクトデータにはSPARQLというSQLによく似た特殊なクエリ言語でアクセスする必要がありますが、SPARQLに関してはまた別記事で紹介させて頂きます。
リンクトデータを実現するためには
リンクトデータを実現するためには、不特定多数の人や組織がデータを作成して公開することが最低条件になります。リンクトデータは以下のように格付けされます。
- データ形式は決まっておらず、Webで入手できるオープンライセンスである
- 構造化されたデータで機械で可読であり、画像データではない(エクセルファイル等が例)
- エクセル等の独自フォーマットでなく、汎用的なデータフォーマットである(CSVファイル等が例)
- 上記の3条件に加えて、W3C標準規約(RDFやSPARQL)を用いて概念を表現したもの
- 上記の4条件に加えて、自分のデータから他人のデータへリンクを持つことができる
上記の条件は、数字が高くなればなるほど、データを入手する難易度は上がりますが、理想的なリンクトデータの形に近づいていきます。現在、公開されているリンクトオープンデータプロジェクトは上記の条件に沿ったリンクトデータを扱っています。
まとめ
本時記事では、リンクトデータに関してその概念のみ簡単に紹介させて頂きました。こちらではWebでのリンクトデータの記述方法の詳細等については触れていないため、それは別途、セマンティックWebの解説記事や、RDFに関する解説記事の中でご説明させて頂きます。