WWWサイトの情報を収集するために利用するソフトウエアのこと。ロボット,あるいはスパイダーと呼称することもある。HTMLに記載されているリンクをたどることで,世界中のWWWサイトを検索する。複数のクローラー用サーバ機を使って並列処理することで,短時間で大量のデータを収集する。

 リンクのたどり方などWWWサイトを探し出す方法や,検索対象とするファイルの種類はさまざま。PDFファイルやExcelファイル,Wordファイルなどの文書ファイルも検索可能である。クローラーによる検索を拒否するには,HTMLファイル内に検索拒否を表すメタ・タグを記述したり,ウェブ・サーバの公開ディレクトリ最上層にクローラーの挙動を指定するファイルを配置したりする。このほか,ファイルにアクセス制限を設けることでも対応が可能である。

 全文検索型のサーチ・エンジンではクローラーを使って回収したWWWサイトの内容をデータベース化して保存し,検索要求が発生するとデータベースを検索して結果を表示する。クローラーが集める文書ファイルからは,(1)テキスト情報,(2)ファイル情報,(3)HTMLのタグ情報,(4)リンク情報,の4つの情報が抽出される。この情報を整理してデータベースを作り上げている。