「7ms or die。7msを超えちゃうと使い物にならない」ーー。米Google社が開発した深層学習用プロセッサーIC「TPU(Tensor Processing Unit)」の概要が、2017年4月21日に同社の日本法人グーグルで開かれた「TensorFlow User Group ハード部 #2」で紹介された。発表したのは、グーグルでデベロッパーアドボケイトを務める佐藤一憲氏。同氏は、4月上旬にGoogle社が公開した論文関連記事)を基に、TPU設計のポイントを語った。

佐藤氏の講演の様子
[画像のクリックで拡大表示]
佐藤氏の講演の様子

 TPUは深層学習技術で学習済みのDNN(ディープニューラルネットワーク)を用いた推論処理専用のアクセラレーターで、DNNを学習させる機能はない。動作周波数は700MHz、動作時の消費電力は40Wで、設計ルールは28nm。米Intel社のマイクロプロセッサー「Xeon E5-2699 v3」や、米NVIDIA社のGPU「K80」と比べると、TPUの推論速度は15~30倍、消費電力当たりの推論速度では30~80倍に達するという。ホストCPUとの間は、16レーンのPCIe Gen3(12.5Gバイト/秒)で接続。TPUはCPUからDNNの推論処理を丸ごと依頼されて実行するため、CPUとの間にこれ以上高速な接続を用意する必要はないという。

一定の処理時間を保証

 TPUの設計で重視した点として佐藤氏が強調したのが、DNNの推論処理を一定の時間(レイテンシ)内に終えることである。冒頭の発言が示すように、同社内のユーザーからは7msを切ることを求められたという。Google社は、検索や翻訳といった多くのサービスにDNNを用いており、いずれも「バッチ処理で画像認識をするような場合と違い、お客さんのリクエストがあったらすぐに応答する必要がある」(佐藤氏)。