「処理時間7msを死守」、Googleの深層学習プロセッサー

今井拓司

2017.04.27

　「7ms or die。7msを超えちゃうと使い物にならない」ーー。米Google社が開発した深層学習用プロセッサーIC「TPU（Tensor Processing Unit）」の概要が、2017年4月21日に同社の日本法人グーグルで開かれた「TensorFlow User Group ハード部 #2」で紹介された。発表したのは、グーグルでデベロッパーアドボケイトを務める佐藤一憲氏。同氏は、4月上旬にGoogle社が公開した論文（関連記事）を基に、TPU設計のポイントを語った。

[画像のクリックで拡大表示]

佐藤氏の講演の様子

　TPUは深層学習技術で学習済みのDNN（ディープニューラルネットワーク）を用いた推論処理専用のアクセラレーターで、DNNを学習させる機能はない。動作周波数は700MHz、動作時の消費電力は40Wで、設計ルールは28nm。米Intel社のマイクロプロセッサー「Xeon E5-2699 v3」や、米NVIDIA社のGPU「K80」と比べると、TPUの推論速度は15～30倍、消費電力当たりの推論速度では30～80倍に達するという。ホストCPUとの間は、16レーンのPCIe Gen3（12.5Gバイト/秒）で接続。TPUはCPUからDNNの推論処理を丸ごと依頼されて実行するため、CPUとの間にこれ以上高速な接続を用意する必要はないという。

一定の処理時間を保証

　TPUの設計で重視した点として佐藤氏が強調したのが、DNNの推論処理を一定の時間（レイテンシ）内に終えることである。冒頭の発言が示すように、同社内のユーザーからは7msを切ることを求められたという。Google社は、検索や翻訳といった多くのサービスにDNNを用いており、いずれも「バッチ処理で画像認識をするような場合と違い、お客さんのリクエストがあったらすぐに応答する必要がある」（佐藤氏）。