google

寄稿

Google検索の怪?
…じゃなくて解!
-仕事に使える情報を入手するには-

情報サロン味岡 司書・サーチャー
味岡 美豊子(あじおか・みとこ)
〒430-0903浜松市植松町59-16
tel/fax 053-464-4032
http://homepage3.nifty.com/salon-ajioka/

今や「調べものならインターネット」の時代。
国語辞典や英和・和英辞典、また百科事典(注1)も常に更新されている新鮮で信頼性の高い情報が、インターネットを通じて無料で手に入る時代です。
また「インターネットで調べもの」で、皆さんがよく使うのはYahoo!やGoogleなどの検索エンジンだと思います。これら検索エンジンの中でもGoogleは、今年に入ってからGoogle検索マニュアル本の発行が相次いでいます。これは、特に昨年(2005年)、Googleのビジネスモデルが大きな変換をしたことが理由です。今までのGoogleは、あくまでも検索エンジンとしての「検索サービス」的な面が大きかったのですが、昨年は検索エンジンにおける「広告」や「個人への検索要求への個別対応」が大きく進みました。そんなわけで、Googleのビジネスモデル面からの読み物的な本や、検索マニュアル本の発行ラッシュが続いているわけです。
さて、検索マニュアル本は、どれを読んでもだいたい似たり寄ったりの内容です。様々な「具体的なテクニック」が紹介されていて、スグに役立つ、と思います。
が、しかし。友だちの目の前でやると、感心してもらえるようなかっこいい検索テクニックは書いてあるのに、肝心なことが書いてないのですね、我々サーチャーが読むと。残念ながら。
というわけで、マニュアル本では書いて
くれないけれど、知らないとちゃんと検索できない、Google検索の基本をご紹介したいと思います。

Google検索の基本は“単語検索”

Google検索システムの基本は、単なる文字列検索ではありません。“単語検索”です。まずは、この“単語検索”のしくみを理解しましょう。

☆単語検索のしくみ☆

Googleでは、まずウェブページの文字列を「単語」単位に分解して認識し、Google検索用データとして格納します。そして、皆さんがGoogleの検索ボックスに入力した検索語の文字列も、「単語」単位で認識します。そして、検索は「ウェブページの単語の文字列」と「検索語の単語の文字列」が一致するものを優先して拾ってきます。

具体的に、「東京都内」という文字列を例として説明します。

まず、ウェブページの文字列「東京都内」は「東京都/内」、つまり「東京都」と「内」に分解されて認識されます。このウェブページの文字列に対し、検索語は完全に一致した文字列を入力した場合が、最も優先して検索されます。

表にすると次のとおりです。

検索語 ウェブページの文字列
「東京都/内」が検索される優先度
東京都 完全に一致する検索語を入力
=最優先で検索される
東京 前方が一致する検索語を入力
=優先度を落として検索される
京都 後方が一致する検索語を入力
=検索されるが優先度は低い
都内 単語内で一致する部分がない
=検索優先度は最低

わかりますか? 単に「都内」と検索ボックスに入力した場合、「東京都内」は、ほとんどヒットしないんです。

この例では、正確な説明のために「優先度を落とす」や「低い」「最低」と書きましたが、「東京」「京都」「都内」などの言葉は大変一般的なことばなので、数百万ページもヒットしている場合、上位数百件には、「東京都内」は、まず表示されません。ですから、現実的には「東京」「京都」「都内」で検索した場合、「東京都内」は「検索されない」と言い切ってしまってもいいと思います。特殊な専門用語や固有名詞などでの検索で、数十ページ程度のヒット件数であれば、検索されるけれども、上位に表示されないことが分かると思います。
一般の文字列検索では、データファイルに「東京都内」という文字列があれば、検索語に「東京都」「東京」「京都」「都内」のどれを入力しても同じように検索されるわけですが、単語検索の場合は、文字列を単語ごとに区切ることによって検索したい内容に近いデータファイルを優先的に表示させるしくみを持ちます。