自然言語で書かれた文を「形態素」に分割する技術のこと。形態素とは言語として意味を持つ最小単位を指す。形態素に分割して,品詞を見分ける。「Tech-On!は技術者に向けたWWWサイトだ」という文であれば,「Tech-On!」「は」「技術者」「に」「向けた」「WWWサイト」「だ」という形態素に分割できる。Googleをはじめとする多くの検索エンジンではWWWサイトを巡回する際に,この形態素解析を使ってWWWサイトの中身を解析している。検索エンジンでは、この区切った単語から目次用のファイルを作成し,検索できるようにする。

 単語と単語の間に空白が存在するため比較的処理が容易な英語に比べて,日本語の場合,単語同士の切れ目が分からない。こうした日本語の独自性から,従来は海外企業には日本語処理は難しいと考えられてきた。そのためGoogleが登場した際,日本語処理が十分な品質で実装されていたことから,国内の企業や研究者が驚いたという経緯がある。