# 54 倍速 AAC エンコードを実現するヘテロジニアスマルチコア アーキテクチャの検討

| 鹿野   | 裕明 <sup>†,††</sup> | 伊  | ·藤 | 雅樹⁺           | 戸雨 | 高 | 貴司†                | 津野 | <del>آ</del> | 田賢伸 <sup>†</sup> | ۶ | 王玉 | 征之†                     |
|------|--------------------|----|----|---------------|----|---|--------------------|----|--------------|------------------|---|----|-------------------------|
| 小野内雅 | 主文                 | 内山 | 邦學 | <b>∃</b> †,†† | 小高 | 侅 | 这彦 <sup>†,††</sup> | 亀井 | ŧ            | 達也†††            |   | 永濱 | <b>衛</b> <sup>†††</sup> |
| 草桶   | 学†††               | 新田 | 补  | 估介†††         | 和田 | 3 | 康孝††               | 木  | 4            | <u>啓二</u> ††     | - | 笠原 | <b>博徳<sup>††</sup></b>  |

† (株) 日立製作所 東京都国分寺市東恋ヶ窪 1-280
 †† 早稲田大学 基幹理工学部 情報理工学科 東京都新宿区大久保 3-4-1
 ††† (株) ルネサス テクノロジ 東京都小平市上水本町 5-20-1
 E-mail: †hiroaki.shikano.gm@hitachi.com

あらまし 汎用プロセッサ (CPU) コアとアクセラレータ (ACC) コアを複数個集積したヘテロジニアスマルチコアプロ セッサ (HMCP) アーキテクチャを検討した.HMCP は,特定の演算を効率よく実行可能な ACC コアの効果的な利用 と複数のプロセッサコアの並列利用により,動作周波数を向上させなくとも高い演算性能を得ることが可能であり, 組み込み向け SoC に求められる高性能,小面積,省電力を同時に実現する.今回 HMCP アーキテクチャの有効性評 価に当たり,AAC-LC エンコーディングの HMCP における処理方式を検討し,ホモジニアスマルチコアプロセッサに アクセラレータとして動的再構成可能プロセッサ (DRP)を付加した試作チップ上での評価を行った.その結果,600 MHz で動作する CPU 2 個と 300 MHz で動作する DRP 2 個を集積した HMCP において,CD 一枚が 1-2 分程度でエン コード可能となる 54 倍速 AAC エンコーディングの性能が得られることを確認した.

キーワード ヘテロジニアスマルチコア, 並列処理, アクセラレータ, 動的再構成可能プロセッサ, AAC エンコード

## Evaluation of Heterogeneous Multicore Architecture with AAC-LC Stereo Encoding

Hiroaki SHIKANO<sup>†,††</sup>, Masaki ITO<sup>†</sup>, Takashi TODAKA<sup>†</sup>, Takanobu TSUNODA<sup>†</sup>, Tomoyuki

KODAMA<sup>†</sup>, Masafumi ONOUCHI<sup>†</sup>, Kunio UCHIYAMA<sup>†,††</sup>, Toshihiko ODAKA<sup>†,††</sup>, Tatsuya

KAMEI<sup>†††</sup>, Ei NAGAHAMA<sup>†††</sup>, Manabu KUSAOKE<sup>†††</sup>, Yusuke NITTA<sup>†††</sup>, Yasutaka WADA<sup>††</sup>, Keiji

KIMURA<sup>††</sup>, and Hironori KASAHARA<sup>††</sup>

† Hitachi, Ltd. 1-280 Higashi-Koigakubo Kokubunji-shi, Tokyo 185-8601, Japan

†† Dept. of Computer Science, Waseda University 3-4-1 Okubo Shinjuku-ku, Tokyo 169-8555, JAPAN

††† Renesas Technology Corporation 5-20-1 Josuihoncho Kodaira-shi, Tokyo 187-8588, Japan

E-mail: †hiroaki.shikano.gm@hitachi.com

**Abstract** This paper describes a heterogeneous multi-core processor (HMCP) architecture which integrates general purpose processors (CPU) and accelerators (ACC) to achieve high-performance as well as low-power consumption for SoCs of embedded systems. Memory architecture of CPUs and ACCs were unified to improve programming and compiling efficiency. For preliminary evaluation of the HMCP architecture, AAC-LC stereo audio encoding is parallelized on a heterogeneous multi-core having homogeneous processor cores and dynamic reconfigurable processor (DRP) accelerator cores. The performance evaluation shows that 54x AAC encoding is achieved on the chip with two CPUs at 600 MHz and two DRPs at 300 MHz, which realizes encoding of a whole CD in 1-2 minutes.

Key words Heterogeneous multi-core, parallel processing, accelerator, dynamic reconfigurable processor, AAC encoding

## 1. はじめに

半導体製造技術の進歩による素子の微細化により,1チップ 上に膨大な数のトランジスタを集積することが可能となってい る.従来,微細化とともにプロセッサの高周波数化も進んでき たが,動作時電力の増加,またリーク電流に起因する待機時電 力の増加により,動作周波数の向上も望めなくなってきており, さらに論理方式の改善による性能向上にも限界が見え始めてい る.一方で,自動車のナビゲーションシステム,携帯電話,ディ ジタルテレビなど,画像,音声,データベース情報など多様な データを同時に扱うディジタル民生機器が登場し,特性の異な る膨大なデータを短時間にかつ低電力に処理することが強く求 められている.この要求に対し,性能改善と低電力化を両立す る手段として,現在複数個のプロセッサコアを1チップ上に集 積した,マルチコアプロセッサが主流となりつつある[1][2][3].

しかしながら,マルチプロセッサアーキテクチャでは複数の プロセッサエレメント (PE) がバスに接続されるため,メモリ アクセス,プロセッサ間通信によるトラフィックが性能向上を 阻害してしまうため,チップ内外で階層的なメモリアーキテク チャとメモリ管理を行うことが重要である.また,特に組み込 み向け機器を用途とした場合,SoCに求められる電力制約は非 常に厳しく,更なる電力効率の向上が強く求められている.

これらの要求に対し,我々は汎用プロセッサに加え,専用プ ロセッサ,アクセラレータなど,ディジタル民生機器がターゲッ トとするアプリケーションを効率よく処理するための様々な種 類のアクセラレータ(ACC)を複数個チップに搭載し,処理を並 列で行うことで,動作周波数を向上させなくともより高い演算 性能を得ることが可能なヘテロジニアスマルチコアプロセッサ (HMCP)アーキテクチャを検討している[4].本 HMCP は各 PE 近傍及びチップ上に高速なローカルメモリを持ち,これらのメ モリをソフトウェアにて活用することで,PE 数に則したスケー ラプルな性能向上も実現できる[5][6].

本論文では,HMCP アーキテクチャの検討並びに評価として, AAC オーディオエンコーダの HMCP 向け処理方式を検討し, ホモジニアスマルチコアプロセッサにアクセラレータを付加し た評価用試作チップにて,HMCP アーキテクチャの性能面並び に電力面での有効性を評価した.以下,2章ではHMCP アーキ テクチャ,3章ではアクセラレータとして用いた動的再構成可 能プロセッサアーキテクチャについて説明する.次に,4章で はAAC エンコーダの HMCP 向け処理方式並びに評価用チップ 上での評価結果について述べる.

## 2. ヘテロジニアスマルチコアアーキテクチャ

ヘテロジニアスマルチコアプロセッサ (HMCP) は汎用プロ セッサコア (CPU) に加え,特定の処理を効率よく実行可能な動 的再構成可能プロセッサ (DRP),信号処理プロセッサ (DSP)等 のアクセラレータコアを1チップに集積したアーキテクチャで ある.図1に構成例を示す.並列化コンパイラ等のソフトウェ アによる積極的なタスクスケジューリング,メモリ管理,電力 管理,を効率よく行うことを可能とすべく,以下を特徴とする.



図1 ヘテロジニアスマルチコアプロセッサアーキテクチャ

- ・ ソフトウェア協調による階層メモリアーキテクチャ 各プロセッサコア近傍に高速な各種ローカルメモリ(ロー カルプログラムメモリ LPM,ローカルデータメモリ LDM, 分散共有メモリ DSM)を配置する.各PEが頻繁にアク セスするデータを高速なローカルメモリ上に配置しておく ことにより,プロセッサ速度と比べ低速な外部メモリへの アクセスを低減し,処理性能を最大限引き出すことができ る.DSMは,任意のプロセッサからアクセス可能であり, 複数プロセッサ上のタスク間同期処理,タスク間データ転 送による,高速な並列処理を実現する.また,チップ上に は集中共有メモリ(CSM)を有し,プロセッサ間で共有さ れるデータを保持しておくことで,処理を高速化する.な お,メモリコヒーレンスはソフトウェアで保証する.
- データ転送機構

データ転送ユニット (DTU) を各プロセッサの近傍に持た せ,ソフトウェア制御により,タスク処理と並行してメモ リ間データ転送を行うことで,データ転送オーバヘッドを 削減する.また,DTU は予め LDM に配置したデータ転送 命令列を読み込み,複数のデータ転送を連続して実行でき, また転送開始,終了通知を行うためのフラグチェック,フ ラグセット機構も持つ.

### 低電力制御機構

プロセッサ,メモリ,バス等,複数部位の周波数・電源電 圧を,コンパイラ等のソフトウェアから透過的に制御可能 なインタフェース(レジスタ)機構(FVR)を持つ.

#### 3. Flexible Engine / Generic ALU Array

HMCP が持つアクセラレータとして,今回動的再構成プロ セッサの一種である FE-GA (Flexible Engine / Generic ALU Array) [7] を適用した.FE-GA は動的に機能を変更可能な ALUを 二次元配列状に接続した演算セルアレイで構成され,各種ホス ト CPU と接続可能なディジタルメディア処理向け動的再構成 プロセッサである.本章では,FE-GA のアーキテクチャ構成を 説明する.

図2に示すように, FE-GA は演算処理部, 演算制御部, バス



図 2 FE-GA アーキテクチャ構成

インタフェースの3つの要素から構成される.演算処理部には, 算術論理演算を実行する演算セルを二次元的に接続した演算セ ルアレイ,演算オペランドや演算結果などの演算データを格納 するローカルメモリ,ローカルメモリへのアクセスアドレス生 成と読み書き制御を行うロードストアセル(LS),演算セルアレ イとロードストアセルとの間を接続するクロスバネットワーク が含まれる.また,演算制御部はそれぞれ演算処理部の動作内 容および動作状態を制御するコンフィグレーションマネージャ, シーケンスマネージャから構成される.FE-GA は以下の特長を 備える.

- 32 個の汎用演算セル(算術論理演算(ALU)セル×24個, 乗算(MLT)セル×8個)からなる二次元演算セルアレイ 構造であり,各セルの機能をソフトウェアにて1クロック サイクルで変更可能.セルアレイ上で並列・パイプライン 処理することにより,大量のデータに対し効率よい演算が 可能.
- セル間配線長を削減し,動作周波数の向上を容易にする4
  隣接セル間限定配線を採用.ソフトウェアにより隣接配線の接続を1クロックサイクルで変更可能.
- メモリアクセス制御専用セル (ロードストア (LS) セル×
  10) を設け,連続したデータ供給を可能とする柔軟なメモリアドレシングを提供.
- 多バンク・大容量の演算用ローカルメモリ (最大 16KB × 10 バンク, 2 ポート CRAM)を内蔵.
- 演算セルアレイとローカルメモリ間は,高い自由度で接続 可能なクロスバネットワークを採用.
- プログラムに相当するコンフィグレーションデータの効率的な階層記憶により、コンフィギュレーションロードを 演算と同時にバックグランド実行可能とするコンフィギュレーションマネージャを装備.
- コンフィギュレーションの実行順序を決定する自律的な シーケンス制御を可能とし,独立性の高いサプシステムの 構築を可能にするシーケンスマネージャを装備.
- FE-GA 外部の制御用 CPU および DMA コントローラと制 御/データ転送の連携を可能にする割り込みおよび DMA 転



送要求機能を装備.

システムバスを占有しないストリームデータ入出力,および FE-GA を単位とするスケーラブルな拡張を実現する入出力ポートを装備.

## 4. AAC エンコーダによる評価

HMCP アーキテクチャの評価に当たり,今回 HMCP 向け AAC オーディオエンコード処理方式を検討し,第2章で定義した HMCP アーキテクチャの一部機能を実装した試作チップにて評 価を行った.以下,AAC エンコード処理方式並びにチップ仕 様,評価結果について述べる.

4.1 AAC エンコーダ

HMCP アーキテクチャの評価アプリケーションとして,音 楽圧縮で広く用いられている AAC(Advanced Audio Codec) エ ンコーダを用いた.AAC は携帯電話や携帯音楽プレーヤ,PC, カーナビゲーションシステム等で利用される高圧縮なオーディ オコーデックの一つである.AAC エンコーディングは大きく フィルタバンク,量子化,符号化,ビットストリーム生成の4 つの処理から構成される.AAC エンコードの処理フローを図3 に示す.以下,各処理について簡単に説明する.

フィルタバンクは時間領域のデータを周波数領域に変換する 処理であり,FFT(Fast Fourier Transform),フィルタで構成され る.これらの処理は大量のデータに対し,あらかじめ決められ た加算と乗算が繰り返される構成となっており,FE-GA での 処理に適している.量子化はフィルタバンク処理の結果を入力 し,量子化テーブルの値を用いて高周波数部分のデータをター ゲットとなるデータ量に収束するまで繰り返される.具体的に は 3/4 乗を行う処理で,テーブル参照を用いた実装としており, FE-GA での処理に適している.

符号化では,ハフマン符号化を用いる.ハフマン符号化では 類出するビット列に対して短い符号を与えることで,データ量 を削減する.実際の処理では,量子化結果に対し符号化を行 い,指定されたビットレートを満たさない場合は,再度量子化 でのステップ数を大きくし圧縮率を上げて再度符号化を行う. ビット列に割り当てる符号長は一定でないため,高速化が難し い処理である.今回の実装では,CPUにて本処理を実行する. ビットストリーム生成では,符号化結果をAACフォーマット に従ってストリーム出力する.ビット長が一定でない符号化結



図4 評価用試作チップの構成図



図 5 評価用チップ写真

果を処理するため,高速化が難しい処理である.今回の実装では,CPUにて本処理を実行する.

4.2 評価用チップ構成

HMCP アーキテクチャの有効性を確認するために,HMCP アーキテクチャの一部機能を実装した,ホモジニアスマルチコ アプロセッサにアクセラレータとして FE-GA を付加した評価 用試作チップを用いた.本チップの構成図を図4に,チップ写 真を図5示す.

評価用チップは,ホモジニアスマルチコアプロセッサ部分と して,マルチコア機能に対応した SH コア [8] を持つ CPU コア 2個, 128KBのCSM, DMAコントローラ, 及びアクセラレー タである FE-GA コア2 個で構成され, それぞれはスプリットト ランザクションバスによって接続されている.SHコアは128KB のローカルメモリとデータ転送ユニット (DTU) を備える.本 ローカルメモリは各プロセッサコアからアクセス可能な分散共 有メモリ構成であり,図1に示した HMCP アーキテクチャに おける LDM, DSM に位置づけられる.また, このローカルメ モリはプログラムを配置することも可能でああるため LPM と しても位置づけられるが,本プロセッサコアは命令キャッシュ も併せて持っており,命令キャッシングにて LPM 相当の性能を 引き出すことが可能である.また,FE-GAは40KBのローカル メモリを内蔵するが,これも他のプロセッサコアからアクセス 可能な分散共有メモリであり, LDM 及び DSM として位置づけ られる.

| 表1          | 評価用チップ仕様                    |
|-------------|-----------------------------|
| プロセステクノロジ   | 90nm, 8 層, 3 種 Vth CMOS 技術  |
| 電源電圧        | 1.0V(コア内部), 1.8V/3.3V(I/O)  |
| 動作周波数       | CPU 600MHz, FE-GA/バス 300MHz |
| アクセラレータ演算性能 | 19.2 GOPS (FE-GA Max.)      |
| ローカルメモリ     | 128KB /1CPU, 40KB /1FE-GA   |
| オンチップ共有メモリ  | 128KB                       |
|             |                             |

|        | 表 2 AAC エンコーダ評価条件               |
|--------|---------------------------------|
| 対象     | AAC エンコーダ LC (Low Complexity)   |
| ビットレート | 128 kbps                        |
| 入力データ  | 16bit, 44.1KHz PCM データ          |
|        | 音楽 (1) 192 秒データ , 音楽 (2) 87.9 秒 |
| データ配置  | 入出力データを外部共有メモリ (SDRAM) に配置      |

表 3 FE-GA 導入による性能効果 (DTU による転送時間含)

| 処理                   | CPU 実行時    | FE 実行時   | 加速率    |  |
|----------------------|------------|----------|--------|--|
| フィルタバンク<br>& MS ステレオ | 2,400 Kcyc | 100 Kcyc | 24.0 倍 |  |
| 量子化                  | 240 Kcyc   | 31 Kcyc  | 7.7 倍  |  |

なお,本評価用チップは,第2章で定義した HMCP アーキテ クチャ要素のうち,機能部毎のクロック周波数/電圧制御を行 うための電力制御レジスタ FVR は持たない.また,アクセラ レータはコントローラ並びに DTU を内蔵しておらず,アクセ ラレータ上の LM とアクセラレータ外のメモリ間におけるデー タ転送は CPU か, CPU が持つ DTU,または DMAC により行 う必要がある.またさらに,アクセラレータの起動は CPU に より行う必要がある.

表1に本評価用チップの仕様を示す.チップは 90nm 8 層 CMOS プロセスにて製造され,動作周波数は SH コアが 600 MHz, FE-GA 及びバスが 300 MHz である.

4.3 FE-GA の導入による高速化効果

FE-GA 処理部であるフィルタバンク処理,ならびに MS ステレオ,量子化処理を FE-GA 向けのプログラム開発を行い,実行時間を CPU 処理時と比較した.AAC エンコーダの評価条件を表2に示す.

FE-GA 処理対象であるフィルタバンク / MS ステレオ処理, 並びに量子化処理を CPU と FE-GA 双方において実行した際 の処理サイクル数を表 3 に示す.なお,CPU は 600 MHz,FE は 300 MHz で動作するため,表 3 では CPU サイクル数に換 算している.また,表中の FE-GA における実行サイクルには, FE-GA のローカルメモリ CRAM への DTU によるデータ転送 時間を含む.この結果より,フィルタバンク / MS ステレオ処 理では FE-GA を導入することで 24.0 倍,量子化処理では 7.7 倍の速度向上を得ることができた.

4.4 HMCP 機構を用いたエンコーダ高速化

HMCP が持つメモリアーキテクチャ並びにデータ転送機構を 活用することで,性能向上を図ることができる.今回の実装で は,エンコード処理に際し使用する配列変数を CPU のローカ ルメモリに配置した.入力 PCM データ及び出力 AAC データは オフチップ共有メモリ (SDRAM) に配置した.エンコードはフ



図 6 HMCP 各種機構の利用によるエンコーダ高速化効果

レーム単位で行われるが,フレーム処理毎に SDRAM より LM に PCM データを入力し,LM を持つ CPU 上で当該データを処 理する.また,FE-GA での処理時は,CPU の LM 上に配置さ れている対象データを CPU により FE-GA の LM に転送して, FE-GA にて処理を実行する.FE-GA での処理終了後は,CPU にて FE-GA の LM から CPU の LM へ結果データを転送する.

HMCP が持つ DTU の効果を評価した.LM を活用したデー タ配置を行った AAC エンコーダにおいて, CPU のみによる処 理と FE-GA を導入して1 CPU + 1 FE-GA での処理結果を比 較する.FE-GA 導入時はさらに, SDRAM とLM,及び CPU, FE-GA の LM 間転送を CPU 転送で行った場合,オンチップバ スに接続された DMAC を使用した場合,CPU コアが持つ DTU を使用した場合,そしてさらに当該 DTU が備える転送リスト /フラグセット機能を併せて使った場合,のそれぞれで1 スト リームエンコード速度を比較した.音楽データは表 2 にある音 楽(1)を用いた.

評価結果を図6に示す. CPUのみの処理では,エンコード時間は58.2 秒となり192 秒の再生時間を持つ入力データに対し 3.3 倍速のエンコーディング速度であった.FE-GAを導入する と,エンコード時間は14.1 秒であり13.6 倍速の速度となった. またデータ転送に DMAC を用いた場合,処理時間は20.1 秒で あり20.1 倍速の速度を得た.さらにデータ転送を DTU で行っ た場合,7.9 秒であり24.2 倍速の速度となった.DTU の転送り スト機能/フラグセット機能を用いた場合,処理時間は7.5 秒 となり,25.6 倍速の速度を得た.

これより,アクセラレータである FE-GA を効率よく利用す ることと,データ転送を効率よく行うことが速度向上の大きな 鍵となることがわかる.また,HMCP では各プロセッサコアの LM を活用することが性能を引き出す要因となるが,LM への データ転送ではその近傍に配置した DTU の活用が効果的であ ることがわかる.チップ内バスに接続されている DMAC では, 転送時のバッファリングでバスを二度使用するため,LM が絡 む転送ではプロセッサコア内部のバスに接続された DTU の使 用が効果的である.また,本 HMCP が持つ DTU は転送リスト 機能を持つが,今回の AAC エンコーダ実装では FE の LM に



図7 HMCP アーキテクチャ上での AAC 処理方式

転送を行う際に, LM バンク別に複数回のデータ転送を行って いる.通常の DTU では対象配列データの転送毎にレジスタセッ ト,キック,終了チェックを行うが,転送リストでは予め DTU 転送命令のリストを定義しておき転送の際は一度キックするの みで連続転送が可能であるため,DTU オペレーションに関わる オーバーヘッドが削減される.

#### 4.5 性能評価結果

HMCP アーキテクチャの AAC エンコーダを用いた評価とし て,評価用チップにおける各種プロセッサ構成におけるエン コード速度(入力データの実再生時間に対する加速率),消費電 力(リーク電力を除く)を測定した.また,電力効率を評価する ため,単位電力当たりのエンコード速度[倍速/W]も評価した.

なお,本チップにおける AAC エンコーダの処理方式として, 今回の評価では図7に示すように,2個の CPU 及び2個の FE-GA を用いて2ストリームの入力 PCM データを同時にエン コードする構成とした.具体的には,CPU 及び FE-GA 各1個 をペアとし,2ストリームをそれぞれのペアで並列処理する構 成とした.評価条件は表2に示したとおりである.入力デー タは音楽(2)とし,音楽(2)を2回連続してエンコードした際 の評価結果とした.つまり,CPU×1並びにCPU×1+FE-GA×1 では音楽(2)を2回連続してエンコードした際の,CPU×2, CPU×2+FE-GA×2では音楽(2)を図7に示す通り音楽(2)を2 ストリーム同時にエンコードした際の結果である.入出力デー タはオフチップ共有メモリに配置し,処理に使用する一時配列 変数はローカルメモリ配置した.またデータ転送はDTU 転送 リストにて行っている.

結果を表4に示す.まず汎用 CPUのみで構成したホモジニ アス環境においては,CPU×1でのエンコード速度は3倍速 となり,電力は1.17Wであった.次に,CPU×2構成では,エ ンコード速度は6倍速であり,電力は1.36Wとなった.また, FE-GAを導入したヘテロジニアス環境においては,CPU×2, CPU×1+FE-GA×1でのエンコード処理速度は27倍速となり, 電力は1.22Wであった.また,CPU×2+FE-GA×2でのエンコー ド速度は54倍速となり,電力は1.46Wであった.FE-GAの導 入効果により,汎用プロセッサのみの構成に対し,大きく性能



図8 CPU×1+FE×1 上での1 ストリーム処理ガントチャート

向上することがわかる.また,使用するコア数の増加に合わ せて電力も増加するが,電力効率[倍速/W]で見ると速度が大 幅に向上するため,CPU×1での逐次実行時が2.8倍速/W に 対し,CPU×2+FE-GA×2では37.0倍速/Wとなった.これは, CPU×1に対し約13.2倍電力効率が高いことになり,HMCP アーキテクチャの有効性が確認できた.

CPU×1+FE-GA×1 における 1 フレームエンコード処理のガ ントチャートを図 8 に示す. CPU での処理時間が大きなフィル タバンクと量子化処理を FE-GA に割り当て, CPU と FE で交 互に処理が行われ, DTU による LM 間高速転送によりエンコー ド処理が効率よく行われていることが確認できる.

5. まとめ

汎用プロセッサ (CPU) コアとアクセラレータコアを複数個集 積したヘテロジニアスマルチコアプロセッサ (HMCP) アーキテ クチャを検討した.HMCPは,アクセラレータとなるDRPの 効率的な利用と複数のプロセッサコアの並列利用により,動作 周波数を向上させなくとも高い演算性能を得ることが可能であ り,組み込み向け SoC に求められる高性能,小面積,省電力を 同時に実現する.今回, AAC-LC エンコーディングの HMCP に おける処理方式を検討し,ホモジニアスマルチコアプロセッサ にアクセラレータとして動的再構成可能プロセッサ FE-GA を 付加した試作チップ上に実装し,性能,消費電力を評価した. その結果, 600 MHz で動作する CPU 2 個と 300 MHz で動作す る FE-GA 2 個を集積した評価用チップにおいて,54 倍速 AAC エンコーディングが達成できた.また,このときの消費電力は 1.46W であり,単位電力当たりのエンコード速度は 37 [倍速/W] となった.これは, CPU1 個の逐次処理と比較して13 倍以上の 高い電力効率となることを示し, HMCP アーキテクチャの有効 性が確認できた.

#### 謝 辞

本研究の一部は, NEDO「先進ヘテロジニアスマルチプロセッ サ研究開発」の支援により実施された.

Ý

#### 献

- T. Shiota, K. Kawasaki, Y. Kawabe, W. Shibamoto, et al., "A 51.2GOPS 1.0GB/s-DMA Single-Chip Multi-Processor Integrating Quadruple 8-Way VLIW Processors", *Proc. of IEEE International Solid-State Ciruits Conference (ISSCC2005)*, Feb., 2005.
- [2] S. Torii, S. Suzuki, H. Tomonaga, T. Tokue, J. Sakai, et al., "A 600MIPS 120mW 70μA Leakage Triple-CPU Mobile Application Processor Chip", *Proc. of the IEEE International Solid-State Circuits Conference (ISSCC 2005)*, Feb., 2005.
- [3] D. Pham, S. Asano, M. Bolliger, M. N. Day, H. P. Hofstee, C. Johns, et al., "The Design and Implementation of a First-Generation CELL Processor", *Proc. of the IEEE International Solid-State Circuits Conference (ISSCC 2005)*, Feb., 2005.
- [4] H. Shikano, Y. Suzuki, Y. Wada, J. Shirako, K. Kimura and H. Kasahara, "Performance evaluation of heterogeneous chip multi-processor with MP3 audio encoder", *Proc. of IEEE Symposiumu on Low-Power* and High Speed Chips (COOL Chips IX), Apr., 2006.
- [5] K. Ishizaka, et al., "Performance of OSCAR Multigrain Parallelizing Compiler on SMP Servers", Proc. of 17th International Workshop on Languages and Compilers for Parallel Computing (LCPC2004), Sep. 2004.
- [6] K. Kimura, Y. Wada, H. Nakano, T. Kodaka, J. Shirako, K. Ishizaka and H. Kasahara, "Multigrain parallel processing on compiler cooperative chip multiprocessor", *Proc. of 9th Workshop on Interaction between Compilers and Computer Architectures (INTERACT-9)*, Feb., 2005.
- [7] T. Kodama, T. Tsunoda, M. Takada, H. Tanaka, Y. Akita, M. Sato, and M. Ito, "Flexible Engine: A dynamic reconfigurable ac-celerator with high performance and low power consumption", *Proc. of IEEE Symposiumu on Low-Power and High Speed Chips (COOL Chips IX)*, Apr., 2006.
- [8] Y. Yoshida, T. Kamei, K. Hayase, S. Shibahara, O. NIshii, T. Hattori, A. Hasegawa, M. Takada, N. Irie, K. Uchiyama, T. Odaka, K. Takada, K. kimura and H. Kasahara, "A 4320MIPS Four-Processor Core SMP/AMP with Individually Managed Clock Frequency for Low Power Consumption", *Proc. of the IEEE International Solid-State Circuits Conference (ISSCC 2007)*, Feb., 2007.