まず、ビッグデータとは何だろう。
ビッグデータとは、文字どおり、ビッグなデータ=大きな量のデータ、のことである。特に、インターネットの発展に伴って増大した非構造データのことを指している。
ただし、どのくらいの量のデータを「大きな量」と見なすかは決まっていない。本書にはデータ量の単位として「ゼタバイト」まで紹介しているので、念のため解説しておくと、1メガバイトの1000倍がギガバイト、1ギガバイトの1000倍がテラバイト、1ペタバイトはその1000倍。そのまた1000倍がエクサバイトで、さらに1000倍がようやくゼタバイトとなる。別の表現を使えば、10の21乗または10垓(がい)バイト。DVDに換算すると約2500億枚である。
これらの非構造データを分析し、ビジネスの世界に適用できるようにするのがビッグデータ解析である。
多量のデータを分析して未来予測や意思決定に役立てようという発想は、半世紀以上前から存在している。「データマイニング」という言葉も、その一つだ。
だから紙おむつの横に缶ビールを置く
この技術を応用して、スーパーマーケットが顧客ごとの買い物履歴データの相関関係を調べたところ、紙おむつを買う人はビールを買うことが多い、という分析結果が出たそうだ。