ラグビーでは、審判のホイッスルでプレーが区切られる。そこで、音声認識で歓声が入り乱れる中からホイッスル音を抽出し、シーンの切り替えを認識。自動で映像を分割することで、プレー単位で振り返ることを可能にした。

音声認識で審判のホイッスル音を抽出。これによってシーンごとに映像を分割できる(図:東芝)
音声認識で審判のホイッスル音を抽出。これによってシーンごとに映像を分割できる(図:東芝)
[画像のクリックで拡大表示]

 またラグビーは、「スクラム」「ラック」など複数の選手が密集してボールを奪い合うシーンが多い。こうしたプレーの分析は戦術上、重要度が高い。今回は、ディープラーニングを活用し、自動でシーンを識別している。人の形やユニフォームをシステムに学習させることで、人物認識の精度を通常の画像認識よりも向上させた。

 前ページのデモ画面では、左の映像の下に、ディープラーニングによるシーン判別の結果とその確度を示す数値が表示されている。図で「0.75」とあるのは75%という意味だ。

市販のビデオカメラ映像でOK

 今回開発した分析システムの肝は、チームの現場に負担をかけずに映像分析を効率化できる点にある。

 スポーツの現場では、練習などで選手がセンサーを付けて動きを計測することが多くなっているが、「パフォーマンスの妨げとなる場合もあるので、できれば付けたくない」という声も多い。

 またスポーツ用の映像解析システムとしては、サッカーJリーグが導入しているトラッキングシステム「TRACAB(トラキャブ)」(米ChyronHego社)などもあるが、価格がかなり高いうえ、ラグビー専用競技場には同システムが設置されていない。アナリストからは「市販のビデオカメラの映像で分析したい」(同社インダストリアルICTソリューション社商品統括部メディアインテリジェンス商品推進部の田中孝氏)という声が多い。

 東芝は長年にわたって技術を磨いてきた画像認識と音声認識を活用することで、それに応えた。実際、開発ではブレイブルーパスのアナリストが撮影した過去の映像をディープラーニングで学習させた。

 同社は、分析システムを2種類の形態で提供する予定だ。「クラウド型」と「オンプレミス型」である。クラウド型は、過去の試合映像などを一括で処理する場合、オンプレミス型は試合中などよりリアルタイム性が要求される場合に対応した手法だ。

 クラウド型では、ユーザーが試合映像を分析システムにアップロードし、解析結果をXMLやCSVなど指定のファイル形式で出力する。それをスポーツの現場で普及している戦略分析ツール「スポーツコード」(開発は豪Sportstec社、2015年に米Hudl社が買収)などに取り込んで分析するという使い方だ。2017年度内に商品化の予定である。

 一方、オンプレミス型は分析エンジンを組み込んだワークステーションとカメラを接続し、現場で結果を出力する。トップレベルのスポーツチームなどでの利用を想定している。

学習に1万枚以上の画像

 東芝は今後、実用化に向けて分析システムの機能を高度化したり、精度を向上したりする方針だ。2017年後半には、音声認識で観客の歓声の大きさや審判が発した音声を抽出し、シーンに紐付けるタグの種類を増やす。例えば、「ノックオン」と審判が判定したシーンのみを抽出して再生できるようにする。

 また、画像認識で現在は識別できていない個々の選手の動きを追跡することも検討している。ただし、「ラグビーでは密集で選手が見えなくなることも多いので、正直難しい。カメラの台数を増やすなど対策を検討中」(籾井氏)としている。