google

寄稿

Google検索の怪?
…じゃなくて解!
-仕事に使える情報を入手するには-

2つ以上の単語入力の場合

このしくみにより、単語検索は文字列検索よりも一般に検索の精度が上がります。例えば「着物」を検索語に使う場合、モレのない検索をしたい場合は「着物 OR 呉服 OR 和服 OR キモノ OR きもの」と、同義語や異表記語をOR演算(注2)します。このとき文字列検索のしくみだと「きもの」という検索語に対し「彼を亡きものにしようと…」や「幼きものたちへ…」などのデータも検索されてしまします。これに対し単語検索はデータを「幼き/もの/たち/へ」と単語分解してデータを格納しましすので「きもの」という検索語に対し一致する文字列が無いため検索の優先度が落とされるしくみです。先ほどの「東京都内」のデータ場合、このしくみによる重要な利点は「京都」と検索ボックスに入力した場合に「東京都」の検索優先度が落とされることです。これにより、検索結果のノイズ(不要な情報)を落とすことができます。しかし、同時に「都内」が、ほぼ除かれてしまいまうのが大きな不利点です。

実は、この単語検索のしくみの基は「英語」です。Googleは、もともと英語のウェブページ対応の検索エンジンから出発しています。そのため「スペースで区切られている英単語」での検索のしくみが日本語へ応用されているのです。たとえば、英語の「tree」で検索した場合に、「street」や「entree」などは、「tree」という文字列を含んでいても検索されないしくみになっています。このしくみが、日本語版にも応用されて、まずはウェブページの文字列が単語単位に分解されて認識されるしくみなっています。ただし日本語版では、ある程度は検索されるものの、優先度を落として表示するしくみになっています。

ですから、たとえば検索語に「東京」と入力した場合は、データに「東京都/内」の文字列があるものよりも、「東京/の/23区/内」とか「東京/および/関東/地方」など、「東京」が単独で単語として切り出されているデータのほうが「検索語に完全に一致するデータ」として、優先して検索表示されます。

というわけで、大事なことは「単語」を意識して検索語を入力することです。特に「単語全体を完全に入力する」点に注意してください。単なる文字列検索ではないんです。そして、2つ以上の単語を入力する場合、検索語の文字列を区切るスペースを入れることが大事です。

スペースは単にAND検索(注2)するだけでなく、検索システムに「ここで区切って単語を認識してください」という指示を与えることになります。

例えばあなたが「東京都内」と検索語を入力した場合、検索システムは検索語も自動的に「東京都/内」と単語分割して認識し、「東京都」と「内」の単語を優先して検索してきますが、あなたが「東京 都内」と入力すれば「東京/都内」を単語として認識し、「東京」と「 都内」を優先して拾ってきます。単語の切り出され方は、Googleマニュアル本にも紹介されているように「キャッシュ」を見れば確認できます。

また、自分の入力した検索語を、システム側に単語分解されたくない場合もGoogle検索本に紹介されているように、ダブルコーテーション“ ”で囲んで「“東京都内”」と入力すれば、分解されずにすみます。

検索語の“入力の順序”が大事

検索語の入力の順序が大事である点も、Google検索での大きな特徴です。
単なる文字列検索だと、「東京 AND 都内」でも「都内 AND 東京」でも同じ検索結果になりますが、Googleの場合は先(検索ボックスの左方向)に入力されている検索語ほど重要な検索語であると認識されます。

試しに「東京 都内」と「都内 東京」とで検索して比べてみてください。検索結果が違うでしょう?
というわけなので、重要な検索語ほど検索ボックスの先に入力することで、Googleの検索システムへ“自分は、コレを最も重要な検索語として検索したい”という意思表示をしてあげてください。

…意外と知らなかった、というかたも多いのではないでしょうか。
“単語”を意識して、“入力の順”を意識するだけで、検索の精度が格段に違ってきます。その上で、どうぞアノ手コノ手のテクニックを使いこなして、上手に検索してみてください。

(注1)

フリー百科事典『ウィキペディア(Wikipedia)』
http://ja.wikipedia.org/wiki/
インターネット上で、読者によって協力して書き上げられる方式の百科事典です。中立的な観点に基づいて記述され、常に多数の読者によって書き換えられている内容は信頼性も高く、冊子体の百科事典に比べて遥かに新鮮な内容です。

(注2)

ブール演算(論理演算)

AND演算

例:FAX AND 電話

「FAX」と「電話」の両方が含まれているデータのみを検索するときに使います。 記号は「AND」の他、「*」を使う場合もあります。Google検索の場合は単にスペースを空ければAND演算になります。

OR演算

例:FAX OR 電話

検索語に「FAX」と「電話」のどちらかが含まれているデータを、すべて検索するときに使います。記号は「OR」の他、「+」や「-」を使う場合もあります。

NOT演算

例:キーボード NOT 楽器

パソコンの「キーボード」を検索したい場合、「楽器のキーボード」を除いて検索するときに使います。記号は「NOT」の他、「#」や「-」(半角マイナス)を使う場合もあります。AND検索やOR検索は、ほぼどんな検索システムでも使用できますが、NOT検索は使用できない検索システムがあります。