検索精度の向上
一説によると、普通の人間の短期記憶が処理できる情報量は、1秒あたり16ビット程度だといわれています(情報量という考え方についてより正確に理解するためには、大学で開講されている「情報理論」などの授業を受ける必要があります。ここでは「ビット」というのが情報量の単位であることだけを覚えておいてください)。人間が何らかの行動を起こすためには、そのための判断材料がきちんと頭の中に残っていなくてはなりませんから、「1秒あたり16ビット」というのは、人間の行動に実質的な影響を与える情報量ということになります。もちろん映画や音楽などから受け取る情報量はそれよりもずっと多いのですが(1秒当たり数千ビット以上)、私たちはそのすべてに影響を受けて生活しているわけではありません。視覚や聴覚で信号に「反応」をすることはできても、人間の脳は、そんなに速いスピードで「情報を記憶して処理」することはできないのです。このことから試算すると、一人の人間が一生のうちに影響を受ける情報量は、2〜3GBということになります(ギガバイト:ギガというのは100万という意味で、通常、1バイトは8ビットに対応します)。DVD1枚分ですね。
ここで重要なのは、検索エンジンから獲得される情報も「人生に影響を与えた情報」の中に当然含まれているということです。たとえば1時間の作業で獲得される情報量は、上の仮定が正しければ7KBほどです(日本語をコンピュータで処理する際には、1文字あたり2バイトで表現するのが普通なので、7KBというのは3500文字に相当しますが、上記の試算は1時間で3500文字しか読めないということを言っているのではなく、直感的には、3500文字分しか頭に残らないということを意味しています)。実際、多くの人は検索エンジンから返された情報のすべてを読んで記憶しているわけではなく、いわゆる「ななめ読み」をすることでその情報が詳細に読む必要がある情報なのかどうかを見極めて、時間と労力を節約しているはずです。
そのことを念頭におくと、現在の検索エンジンがおこなっていることは、まだまだ発展途上であるということがよくわかると思います。提示される情報から無駄な部分をすべて省くことはもちろんできませんが、検索エンジンから提示される情報は、ユーザが本当に求めている情報のせめて数倍程度に抑えられていてほしい(人生にはある程度の無駄が必要ですが、だからといって検索エンジンの無駄を許容していいという話にはなりません)。情報検索の究極の目的のひとつは、実はここにあります。すなわち、我々が本当に実現したいのは、単にキーワードにマッチするページを返すことではなく、ユーザに必要とされている情報をどれだけ的確に返せるか、あるいは、ユーザが本当に知りたいと思っている内容がわかりやすく書かれている“厳選された”ウェブページをどうやって返すのか、ということなのです。
この目的を達成するためには、いくつもの基盤技術を辛抱強く積み重ねていく必要があり、一朝一夕には実現できないのですが、そこに少しでも近づいていく姿勢だけは堅持したいと個人的には考えています。この目的に近づくための方法として、現在我々が注目しているのが、キーワードのもっている「意味情報」を積極的に利用した検索手法の開発です。たとえば「学校」という言葉には、教育機関としての学校という意味がありますが、それ以外にも、学校の建物、学校のカリキュラム、学校でおこなわれる授業などさまざまな意味があります。たとえば「海辺に校舎のある学校」(建物としての学校が海の近くにある)を探したいと思ったときに「海 学校」で検索してみても、「海技大学校」や「日本海自動車学校」などが上位に出てくるだけで、求めるページは出てきません。単純なキーワード検索では限界があることが、この例からもわかってもらえるのではないかと思います(「海の見えるレストラン」だと「海 レストラン」でばっちりヒットします。どうやらGoogleが返してくる検索結果の表示方法は、何らかの方法でチューニングされているようです)。
関連する概念や手法としては、セマンティックウェブ、オントロジー、あいまい検索、意味検索などがあります。それらの概念の詳細についてはぜひ「ぐぐって」みてください。
トップページへ戻る |