|
第1回LSI IPデザイン・アワード受賞作品 第1回LSI IPデザイン・アワード受賞作品の「特徴の要約」を掲載いたします。 論文本体も掲載中です。
第1回LSI IPデザイン・アワード表彰式 受賞者に表彰盾を授与する運営委員長で 超電導工学研究所所長の田中昭二氏(1999年5月19日) 論文掲載中 ◆第1回LSI IPデザイン・アワード IP優秀賞 九州大学大学院 「プログラム制御可能な電力管理プロセッサ」 豊田工業高等専門学校 「リアルタイムOSのLSI化(Silicon TRON)」 京都大学大学院 「動画像圧縮システムのための ベクトル量子化用機能メモリ型並列プロセッサ」 電子情報通信学会 ディジタル信号処理研究専門委員会 「ディジタル信号処理ライブラリ」 IP賞 東京大学 「32ビット非同期式マイクロプロセッサTITAC-2」 奈良先端科学技術大学院大学 「再構成可能部を持つJavaプロセッサ」 九州大学大学院 「特定用途向けシステム設計のためのリターゲッタブル・コンパイラ」 神戸大学 「低消費電力CMOSセルライブラリ」 広島市立大学大学院 「半順序関係にある同期グループ間の疑似依存を解消したマルチプロセッサ用同期機構」 開発奨励賞 東京大学 「最近傍データ探索機能を有するCAM マクロ」 豊橋技術科学大学 「高速低消費電力パイプラインA/D変換器マクロ」 広島大学 「小面積で広いバンド幅を実現できる階層型マルチポート・メモリー」 広島市立大学大学院 「共有メモリ型マルチプロセッサ実現のためのマルチポートメモリ構成方式」 慶應義塾大学大学院 「DRAM型プログラマブル・ロジック・デバイス」 賞の概要はこちら 第2回の応募要項はこちら 特徴の要約 完成表彰部門 IP優秀賞 ●九州大学大学院 システム情報科学研究科情報工学専攻 石原亨,安浦寛人 「プログラム制御可能な電力管理プロセッサ」 我々は,プロセッサ自身の命令により電源電圧とデータパス幅を動的に変化させることのできるプロセッサアーキテクチャ,Power-Proを提案している。Power-Proアーキテクチャの最大の特徴は,電源電圧と実効的なデータパス幅をプログラムの実行中に変更するための特殊命令を持っていることである。これらの特殊命令を使用して,電源電圧とデータパス幅を調整することにより,アプリケーションの速度要求や演算精度に応じて必要最小限の消費電力でプログラムを実行することができる。また,アプリケーションからの速度性能や演算精度に対する要求の変更をプログラムの書き換えにより吸収することができる。本稿では,さまざまな実験によりPower-Proアーキテクチャが省エネルギー化の観点で優れていることを示す。 ●豊田工業高等専門学校 情報工学科 仲野巧 「リアルタイムOSのLSI化(Silicon TRON)」 近年,半導体技術の進歩によりマイクロプロセッサを用いた制御があらゆる製品に応用され,時間的制約を満たしながら複数の処理を実行するリアルタイム・マルチタスク処理が重要になってきている。特に,強いリアルタイム性と信頼性が求められている自動車,航空機,宇宙産業などの高性能なシステムから自動制御システム,自律制御ロボットなどの組み込みシステムにまで応用範囲が広がるにつれて,リアルタイム処理の高速化と精度に対する要求は数十μs から数μs までとさらに高まってきている。そして,このリアルタイム処理への要求は,製品の高機能化および高性能化にとって非常に重要であり,これまで様々なアプローチが試みられてきた。 本研究では,これまで提案してきたリアルタイムOSの高速化の新しいアプローチをLSIで試作し,実際のマイクロプロセッサSH-1に評価用リアルタイムOSを実現してその性能評価を行った。 その結果,リアルタイムOSの機能をLSIで実現することにより,システムコール処理時間とスケジューリング処理時間が大幅に高速化され,その実現可能性と有効性を検証した。また,現在のVLSI技術を用いることにより高機能なリアルタイムOSの処理をハードウェアで実現し,標準化したIPとして共通に利用することが可能である。 今後は,OSのためのデータ転送などの専用命令やコンテキスト切り換えのための専用インタフェースを考慮したCPUアーキテクチャを設計して,専用マイクロプロセッサとハードウェアOS,メモリを実装した組み込みシステムに応用可能なシステム・オン・チップの試作と性能評価を行う予定である。 ●京都大学大学院 情報学研究科通信情報システム専攻 小林和淑,寺田一彦,田丸啓吉 「動画像圧縮システムのためのベクトル量子化用機能メモリ型並列プロセッサ」 ベクトル量子化用機能メモリ型並列プロセッサ(FMPP-VQ)はベクトル量子化処理に必要な最近傍ベクトル探索の計算を高速化するために作られたプロセッサである。機能メモリをベースにすることで,高い並列度,低消費電力を実現した。試作したチップでは64個のプロセッサエレメントからなり,各プロセッサエレメントでは加減算,補数演算を行うことができる。またCAMの機能も備わっているため,各PEに格納された値から最小値を検索することもできる。試作チップは0.6μmのプロセスで作成され,3.0V,25MHz,20mWで動作する。性能としては,64個の参照ベクトルに対し1秒間に53,000入力ベクトルのベクトル量子化処理を行うことができる。本プロセッサを利用した動画像圧縮システムでは,QCIFサイズ,10フレーム/secの動画像を2920bit/フレームに圧縮するのにFMPP-VQによるベクトル量子化処理,ソフトウェアによる前処理・後処理合わせて70msec/フレームで行うことができる。本システムで圧縮された動画像はPentium200MHzのシステムでソフトウェアのみで5msec/フレームで復号することができる。 ●電子情報通信学会 ディジタル信号処理研究専門委員会(代表者:山内寛紀) 「ディジタル信号処理ライブラリ」 ディジタル信号処理研究専門委員会は,1993年から1995年の2年間,「ディジタル信号処理パブリックドメインソフト」という時限研究会(第3種研究会)を設立し,広くディジタル信号処理分野のライブラリを集め,パブリックドメインとして運用する体制作りを行いました。そのとき,投稿方法,頒布方法,データ形式,知的所有権等も,広く検討しました。 その結果,15個のディジタル信号ライブラリの登録を得,ディジタル信号処理研究専門委員会のホームページ(http://www.tkhm.elec.keio.ac.jp/dsp/dsp.html)にて,現在も運用しています。 ディジタル信号処理パブリックドメインソフト研究会の活動の下地の基で,この活動を飛躍的に発展させたく思っています。その施策は,以下の4点です。 (1)登録ライブラリの数を,100以上に増やす。 (2)ライブラリを,分野毎に分類する。 (3)初心者が理解できるように,基本理論からプログラム解説までの,一貫したドキュメントを準備する。 (4)入出力インタフェースを統一化する。 これを達成するために,以下の様に進めていきます。 (1)電子情報通信学会内に,時限研究専門委員会を設立し,統一的な方針の基に,ライブラリ整備を行う。また,ディジタル信号処理研究専門委員会と集積回路研究専門委員会が主体となって運営し,ハードウエアIPおよびシステムIPを見通した標準化を行う。 (2)ある程度進捗した段階で,学会からの費用援助を受けてさらに発展させる。軌道にのれば,さらに企業参加をも得て,コンソーシアムへと発展させる。 完成表彰部門 IP賞 ●東京大学 先端科学技術研究センター 南谷崇(代表) 「32ビット非同期式マイクロプロセッサTITAC-2」 TITAC-2はMIPS-R2000の命令セットを実現した 32ビット非同期式マイクロプロセッサである。1997年2月に完成し,現在稼働中である。特徴は「クロックを全く持たない汎用マイクロプロセッサ」という点にあり,歴史上初めての実用レベルの非同期式プロセッサとして実際に動いているハードVCである。Cプログラミングをサポートしている。プログラマから非同期式かどうかは見えない。プロセッサ構成は,R2000と同様の5段パイプライン構造で,40本の32ビットレジスタ(内,8本はカーネルモードのみ),8KB命令キャッシュ,例外処理,外部割り込み,記憶保護機構を備えている。 論理設計にはSDIモデルと呼ぶ新しい設計モデルを採用しており,遅延変動に対する信頼性を確保しつつ,速度性能を向上させることができる。 チップは,0.5μm,3層メタル,3.3V電源CMOSプロセスのスタンダード・セル・ライブラリ,及び新規に作成した専用マクロ・セルを用いて設計された。10.55mm四方のチップ上に約50万トランジスタと8.6Kバイトのメモリマクロが集積されている。Dhrystone V2.1ベンチマークによる実測性能は,室温,電源電圧3.3Vの環境で54.1VAX MIPSであり,消費電力は2.11Wである。 遅延変動を生じさせるような環境の変化,例えば,電源電圧が変化したり,急激な温度変化の環境でも正常に動作する。この特徴を利用すると,計算パワーを要求される場合には,消費電力を上げて高速計算を実行し,そうでない場合は計算性能を落として消費電力を節減することができる。 ●奈良先端科学技術大学院大学 情報科学研究科言語設計学講座 木田 裕之、木村 晋二、高木 一義、あべ松竜盛、渡邉 勝正 「再構成可能部を持つJavaプロセサ」 組込システム向けの言語として,マルチプラットホーム,ネットワーク親和性,安全性などの点で優れた性能を有するJavaが注目されている。また,Javaのバイトコードの直接実行を行なうプロセッサの開発がSunを中心に行なわれている。我々は,組込みシステム向きのJavaプロセッサについて考察を行ない再構成可能部分を持つJavaプロセッサ(R-Java)の設計を行なった。このプロセッサはJavaのソースコードをコンパイルして生成されるバイトコードを直接実行する。また,設計エラーなどへ対処するため,ある命令の解釈を変更して制御信号を出す機能と,FPGAとリンクしてアプリケーション向きの特殊なハードウエアを使用するためのI/Oポートを有している。特定用途アプリケーションに特化した演算回路を再構成可能部分に構成することにより処理スピードの高速化を可能にした。 ●九州大学大学院 システム情報科学研究科情報工学専攻 井上昭彦,冨山宏之,安浦寛人 「特定用途向けシステム設計のためのリターゲッタブル・コンパイラ」 Valen-C コンパイラは,プログラミング言語 Valen-C で記述されたプログラムをアセンブリ・コードに変換するリターゲッタブル・コンパイラである。Valen-C言語とは,整数型のデータのビット数をプログラマが1ビット単位で明示的に記述できるように,C言語を拡張したプログラミング言語である。Valen-C コンパイラは特定用途向けディジタル・システムのハードウェア/ソフトウェア・コデザインに有効である。Valen-C 言語,および,Valen-C コンパイラを使用することにより,設計者はアプリケーション・プログラムを変更することなく,システムの面積と性能が最適化されるようにプロセッサのデータ語長を変更することができる。 ●神戸大学 工学部情報知能工学科 李副烈,村田豊,瀧和男 「低消費電力CMOSセルライブラリ」 118セルからなる0.35μmプロセス用低消費電力CMOSセルライブラリを開発した。本ライブラリは以下のような特徴を持つ。 (1)通常の論理合成ツールで低消費電力設計ができる。既存のセルライブラリに混在して使用する。 (2)小さいトランジスタで論理を構成して低消費電力化を図りながら出力トランジスタは駆動力のあるものを用いる。また出力段にインバータを配置したセルを積極的に用い負荷遅延を減少させる。 (3)セルレイアウトの際,拡散層の2段積み構造をとりセル面積を削減し,チップレイアウト時の配線容量を低減する。チップ面積削減にも効果がある。 10個のベンチマーク回路を合成,レイアウトし,電力シミュレータで消費電力を評価した。従来のCMOSセルライブラリを用いた場合に比べ,遅延制約のゆるい場合に消費電力で平均42%,チップ面積で平均12%の削減を達成した。また,遅延制約を最も厳しくした場合でも,平均11%の電力削減効果があった。また参考データとして,本セルライブラリをエー・アイ・エル社にて約250セルに拡張・改良したライブラリを用いてインテル社8051互換マイクロコントローラを合成した結果では,約30%の電力削減効果があった。 ●広島市立大学大学院 情報科学研究科情報工学専攻 弘中哲夫,土江竜雄,佐々木敬泰 「半順序関係にある同期グループ間の疑似依存を解消したマルチプロセッサ用同期機構」 密結合されたマルチプロセッサにおいて,プロセッサ間の同期における不必要な待ち合わせ時間を抑えることは重要な課題のひとつであり,これを解決するために種々なハードウェア同期機構が提案されている。これらの多くはバリア同期方式を拡張したもので,プロセッサ台数が数台から十数台程度の同期を実現する。しかし,従来のバリア同期機構は,細粒度の並列処理において問題となる複数の独立な並列処理タスクへの動的な分割,および,複数タスクの単一タスクへの動的な統合を実現するためのサポートが十分ではなかった。 そのため,全く依存関係の無いタスクグループ内の同期において,コンパイラが予測したタスクの実行時間と異なった場合,すべての同期が全順序関係で順序付けされているため,依存関係の無いタスクグループの不要な待ちが生じるという問題があった。このように従来提案されているバリア同期機構では仮想的に複数の同期グループに分割されるだけであるため,実際には依存関係の無いタスクグループ間においても全順序関係を保っている。 我々が提案するバリア同期に基づくGMB(Group Manageable Barrier)同期方式はこの問題を解決するため,全く依存関係の無いタスクグループ間では,タスク実行時に複数の独立な同期グループへの動的な分割統合を実現する。その結果,GMB同期方式は分割された複数の同期グループ間は完全に独立に動作可能な半順序関係に保ち,不必要なプロセッサ間の待ち合わせを最小限にすることができる。 本稿では我々が実際にLSIの試作を行った,GMB同期方式に基づく同期機構LSIの特徴と性能について述べる。なお,GMB同期機構はマルチプロセッサ用マイクロプロセッサの一部に組み込む事により本設計を同期機構IPとして活用できる。 開発助成部門 開発奨励賞 ●東京大学 大規模集積システム設計教育研究センター 池田誠,浅田邦博 「最近傍データ探索機能を有するCAMマクロ」 距離最小となるデータの探索機能は,画像の圧縮の際に使用する動き検出や,データ符号化等の際にキーとなる技術であるが,従来方式では非常に大きな面積かつ動作速度が遅いという問題があり,様々な方式が提案されている。本マクロセルは,小面積,高速動作を実現するとともに,アナログ回路用の特別なプロセス等が不要であり,今後の情報処理用のLSIに必須のIP マクロセルである。 本マクロセルの基本的性能の検証を行うために,0.6μmCMOSプロセスを用いてテスト回路の試作を行ったところ,16ビット幅の16本の参照データから最近傍データを探索するマクロが0.42[mm2]で実現でき,spiceシミュレーション上では,32ビットの汎用マイクロプロセッサで同等の演算をした場合に 3.2[GOPS/mm2]の等価的な演算性能を有することが分かった。このことから,大規模なマクロセルを生成し並列に演算を実行した場合,0.6μmプロセスを用いても,3000[mm2]程度の面積で1[TOPS]の演算性能を実現可能であり,さらに微細化プロセスを使用することで,高速な演算性能の実現が見込まれる。 本マクロセルは,基本的な数種類のセルを配置することで生成していることから,セルジェネレータの作成も容易であり,スケーラブルなIPとして非常に有効である考えられる。 ●広島大学 ナノデバイス・システム研究センター Hans Juergen Mattausch 「A hierarchical multiport-memory architecture for achieving simulaneously large access bandwidth and high area efficiency」 The IP solves the problem of creating a multiport memory, which offers at the same time two previously contradicting features: (1) Parallel and independent read/write access from all ports with small access conflict probability (2) Small Silicon-area consumption for integration This is achieved by exploiting a hierarchical arrangement of blocks of 1-port-memory cells. For the necessary new functional units in the proposed hierarchical architecture, efficient circuit concepts have been developed and tested. In comparison to the conventional multiport-memory cell approach, silicon-area reduction becomes very large with increasing port number. E. g. for a 32-port SRAM an area reduction to ~1/30 of the conventional architecture is estimated to be possible. The IP makes the creation of super-high bandwidth systems in the Tb/s bandwidth range conceivable. Conventional scaled CMOS technologies with 0.1mm-0.3mm design rules are sufficient for achieving this innovation. ●豊橋技術科学大学 工学部情報工学系 宮崎大輔,川人祥二,田所嘉昭 「高速低消費電力パイプラインA/D変換器マクロ」 CMOSパイプラインA/D変換器において,ビデオ信号帯での高速動作と低消費電力特性を実現するため,シングルエンデッド構成に基づく新しい基本演算アルゴリズムと回路構成を提案している。本方式では,キャパシタミスマッチに対する感度を比較的小さくできる。これにより,同じ精度を得るために必要な容量値を小さく設計できる。また,直流バイアス電流を小さくできる高ゲインのカスコード型増幅器をシングルエンデッドのパイプライン基本演算ユニットに利用する。この増幅器を用いることで,低消費電力,低電圧動作を維持しながら広帯域での動作が可能となる。以上の理由により,従来のA/D変換器と比べて大幅に低消費電力化が実現でき,20Msps,10ビットにおいて,10mW程度の消費電力で構成できることを見積もっており。従来の同仕様のA/D変換器と比較して,1/3の消費電力である。システムLSI組み込み用高速低消費電力A/D変換器として有用である。 ●広島市立大学大学院 情報科学研究科情報工学専攻 森垣利彦,弘中哲夫 「共有メモリ型マルチプロセッサ実現のためのマルチポートメモリ構成方式」 近年,高性能計算機だけでなくPCのレベルにおいても,マルチプロセッサ化は性能向上を図るための方法として一般的になりつつある。しかし,現在のPCマルチプロセッサ・システムの多くは,本格的なマルチプロセッシングには十分に高いメモリバンド幅を提供しているとは言えず,新たにPCマルチプロセッサ・システム用の安価なメモリ・アーキテクチャの出現が期待されている。 そこで,我々は 高性能計算機からPCまで幅広く応用できる汎用マルチプロセッサ・システムのアーキテクチャとして,もっとも有望である共有メモリ型アーキテクチャを安価に実現する DUMA (Distributed Unified Memory Access)メモリ・アーキテクチャを提案している。このDUMAメモリ・アーキテクチャは,スイッチ回路とRAMを混載した要素メモリ素子RRAM (Routing RAM)を汎用部品として用いて,これを相互に結合することで高バンド幅のマルチポートメモリを実現する。 ●慶應義塾大学大学院 理工学研究科計算機科学専攻 川上大輔,森澤文晴,柴田裕一郎,天野英晴 「DRAM型プログラマブル・ロジック・デバイス」 近年,LSIの技術は目まぐるしい発展を遂げている。LSIのプロセス技術もここ数年間で大きな発展を遂げ,現在の最新のプロセスは0.25μmとなり,21世紀までには0.1μm以下のDSM(Deep SubMicron)時代になるものと考えられている。LSIのプロセスが小さくなるにつれ,DRAMとロジックを1つのチップに混載することが現実的となり,すでに様々な分野で応用されている。 またユーザが自由にディジタル回路をプログラムすることのできるPLD,FPGAが急速に発達および普及し,特にダイナミックに結線情報を変更することのできるSRAM型のものは,アルゴリズムを直接ハードウェア化して実行するReconfigurable MachineあるいはCustom Computing Machineへの応用が盛んである。さらに,複数セットの配線情報をチップ内に持たせ,一定の機構で入れ替えることによりハードウェアを仮想化する研究も行われている。しかし,単なるSRAM型FPGAの拡張では,チップの内部にあまり多くの結線情報を保持することができないため,チップ外部からの結線情報の読み出しがボトルネックとなることが分かっている。 そこで今回,小規模ではあるがDRAMを混載した,ユーザが何度でも自由に回路を書き換え可能なDRAM型のPLDコアの設計を行った。本チップの構成を図1に示す。 ●東京工業大学 工学部開発システム工学科 山下幸彦,丸子健一 「BISC型CPUコア」 BISC (Bus Instruction Set Computer) は,命令を本質的に CPU の内部バスによるレジスタ間転送だけに限る新しい計算機アーキテクチャである。命令を一種類に限定しているため,機能の追加変更に対して命令セットの変更が不要であり,容易に様々な機能を追加することができるという利点をもつ。演算や制御等は CPU の機能として与えられ,それぞれの機能を担う機能ユニットで行われる。このため,各機能ユニットの独立性が高く,機能の高性能化を実現しやすい.また,データ転送のための内部バスを多重化することにより,命令を並列実行することができる。さらに,BISC は分岐に伴うオーバーヘッドを削減できるという長所をもつ。 ●早稲田大学 理工学部電気電子情報工学科 尾形航 「逆数計算回路(R-T2NR-P)」 逆数計算の基本としてN/R(ニュートン・ラフソン)法を用い,その初期値を一次補間で与えて,1回の反復計算で単精度(仮数部24ビット)の逆数を算出するアルゴリズムを実装する。 一回の反復で24ビットの精度を得るには初期値として12〜13ビットの精度が必要であるが,従来はこれをROMに格納するために100〜200Kビットの容量を必要とし,LSI上に実装する上で他の回路を圧迫した。 本設計では一次補間の手法を用いて1Kビットの容量のROMと小規模な乗算回路を用いてN/R法の初期値を与え,以後1回の反復で所定の精度で逆数を算出する。 ROMの容量並びに精度については解析的に確認済みである。 本設計はもともとはSRAM型FPGA向けに開発したもので,FPGAの構成要素であるLUTを小規模なROMとして用いることでFPGAに効率よく実装することが可能である。同時にLUTを用いた効率的な乗算アルゴリズムも開発し,これと組み合わせことで効率的な一次補間,並びにN/R法の反復計算を実現した。ASICの分野でも昨今は高速な乗算アルゴリズムが開発されており,これを前提に本設計も高い性能を示すものと思われる。 本設計ではLUT5〜600個,ゲート数換算にしておよそ1万ゲート程度で実現可能と思われ,単精度の乗算回路(仮数部)と同等の回路資源で実装できる見込みである。また,従来の逆数(除算)回路の多くがマルチステートで,演算に多大なクロック数を要し,同一回路をシーケンサやマイクロプログラムで複数回使いまわすために回路資源利用の衝突(コンフリクト)を起こす要因となったが,本設計による逆数計算回路は完全に一方通行のパスとして構成されており,衝突を起こすことがない他,途中にラッチを挿入することでパイプライン化してパフォーマンスを向上させることが容易である。
|