オントロジーとリンクトデータ

今日は、研究室の茶話会でお話をさせていただきました。みなさんに集まっていただき、話をきいていただくことは、とてもありがたいことで、感謝しております。発表の機会というのは非常に得難く、機会があるとうれしいものです。聞きに来てくださる方が、どのようなことに興味を持ってくださるのかを想像しながら話題を整えていくのは、ワクワクします。

さて、今日の茶話会では、やはり、オントロジーとリンクトデータの考え方の違いがだんだん自分なりに明確にわかってきました。今までは、セマンティックWeb委員会の流れのリンクトデータばかりやってきたので、それをセマンティックと呼んでしまっていました。しかし、オントロジーをちゃんとやってみると、こちらの方が、ちゃんとしたセマンティックであり、セマンティック本家という感じもします。いっそのこと、オントロジーを、硬派セマンティック、リンクトデータを、軟派セマンティックと呼んでもいいのではないでしょうか?
そう考えると、今年(2011年)のセマンティックWebコンファレンスで発表した、「セマンティック検索」は、そう呼ぶべきではなく、「リンクトデータ検索」だったと、今から振り返って思うのです。

今日の、茶話会でも、今井健先生に、「これは、セマンティック検索ではないよね?セマンティック検索っていうのは、どんなに長い推論をやっても、どんなにたくさんの推論をやっても、その結果に一つも矛盾がなく、整合性がとれていることが条件です。このセマンティック検索は、だたのショートカットを作っているだけでしょう?それと、ヴューを作れば終わる話なのでは。」とご指導を賜りました。今、オントロジーにかかわってみて改めて、こりゃ、気象庁の実証実験でやったことは、セマンティック検索ではなく、厳密にはリンクトデータ検索だわあ!と思う次第です。言い訳しておきます。

去年のセマンティックWebコンファレンスは、まさに、リンクトデータ一色であったと改めて思います。プログラムでも、豊田 哲郎先生 (理化学研究所 生命情報基盤研究部門 部門長)、M. Scott Marshall 先生(Co-Chair W3C Health Care and Life Sciences Interest Group, University of Amsterdam / Leiden University Medical Center)が、それぞれ、Semantic Table、RDF Viewというように、独立に「Semantic View」というようなコンセプトを打ち出しておられます。これは、オントロジーでいうと、BridgingOntologyであるともいえます。今までのオントロジーならば、トップオントロジーまで行けば、必ずどの概念でもつなげることができます。しかし、領域や分野が違う部分のオントロジーにショートカットを与えてやる(最上位まで行かなくても済む)のが、BridgingOntologyであり、SemanticViewなのでしょう。Linked Closed Dataであれば、オントロジーが役に立ちますが、オープン系システムだと、オントロジーでは苦しいでしょう。みんな参加する人ごとにコンテキストが違い、意味が違うので、整合性は完全には取れないからです。

そういう意味であると、私たちの「雨の言い回しオントロジー」は「BridgingOntology」であり、「SemanticView」なのです。つまり、専門家が考えた専門領域のオントロジーをまた別の専門領域のオントロジーをつなぎ「ショートカット」をつくっているのです。そうすると、今後は、「BridgingOntology」や「SemanticView」を作るのが、民間のサービス業者であるのでしょう。そこに、民間サービス事業者の「知識」や「ノウハウ」が表現できるのです。ビジネスになるのは、この「BridgingOntology」や「SemanticView」なんでしょうね。「BridgingOntology」や「SemanticView」が、意外にも、互いに関係の無いような専門領域の情報をつないでやると、想定外の価値が出る場合もあるかもしれません。たとえば、ビールと紙おむつのような、バスケットマーケティングみたいにです。

今は、オントロジーでも、リンクトデータでも、とりあえず、RDFで書かれて入れば、セマンティックと呼んでしまおうという雰囲気ですが、普及させるためには、これくらいゆるい方がいいのでしょうね。
そして、今井先生がご指摘のように、どんなにどんなに推論しても絶対に矛盾がなく整合性がとれている、厳密な学問領域、専門家領域には、オントロジーが必要です。でも、とりあえず、びっくりするような情報が得られたり、ちょっとくらい矛盾があっても、自分にとって新しい情報を得るには、リンクトデータでいいのでしょう。その辺は使い分けが必要ですね。
そういう理由で、私は、医療はオントロジー、メディアコンテンツはリンクトデータと思っていますし、そのように研究しています。まあどっちもメタデータの関連性を表現しているという点では、セマンティックであることには変わりません。