クローラー

クローラー

2005.12.27

　WWWサイトの情報を収集するために利用するソフトウエアのこと。ロボット，あるいはスパイダーと呼称することもある。HTMLに記載されているリンクをたどることで，世界中のWWWサイトを検索する。複数のクローラー用サーバ機を使って並列処理することで，短時間で大量のデータを収集する。

　リンクのたどり方などWWWサイトを探し出す方法や，検索対象とするファイルの種類はさまざま。PDFファイルやExcelファイル，Wordファイルなどの文書ファイルも検索可能である。クローラーによる検索を拒否するには，HTMLファイル内に検索拒否を表すメタ・タグを記述したり，ウェブ・サーバの公開ディレクトリ最上層にクローラーの挙動を指定するファイルを配置したりする。このほか，ファイルにアクセス制限を設けることでも対応が可能である。

　全文検索型のサーチ・エンジンではクローラーを使って回収したWWWサイトの内容をデータベース化して保存し，検索要求が発生するとデータベースを検索して結果を表示する。クローラーが集める文書ファイルからは，（1）テキスト情報，（2）ファイル情報，（3）HTMLのタグ情報，（4）リンク情報，の4つの情報が抽出される。この情報を整理してデータベースを作り上げている。

地図をのみ込む検索エンジン（2005年8月15日号のLeading Trends）
NokiaやMicrosoftが，「人を邪魔しない」UIに注目（2005年4月25日号のWhat's New）
パソコン内の高速検索機能，LAN上のファイルも視野に（2004年11月8日号のWhat's New）
デジタル家電に思わぬ衝撃放つ次期Windows「Longhorn」（2004年1月19日号のLeading Trends）

この記事の目次へ戻る

あなたにお薦め

今日のピックアップ

注目記事

おすすめのセミナー

セミナー一覧

注目のイベント

おすすめの書籍

日経BOOKプラスの新着記事

日経クロステック Special

エレキ

毎月更新。電子エンジニア必見の情報サイト

製造