# マルチコアプロセッサ上でのマルチメディア処理の並列化

| 宮本孝道 | † 田村圭 †           |      | 田野裕秋† |
|------|-------------------|------|-------|
| 見神広紀 | †   浅香沙織          | †    | 間瀬正啓† |
|      | 木村啓二 <sup>†</sup> | 笠原博徳 | t     |

半導体集積度向上に伴う消費電力の増大,プロセッサ動作クロック周波数向上の鈍化,ハードウェア・ソフトウェア 開発期間の増大といった問題に対処すべく,一つのチップ上に複数のプロセッサコアを集積するマルチコアプロセッサ が注目を集めている.また,携帯電話,デジタルTV,ゲーム等の情報家電機器ではコーデック,グラフィックス等のマ ルチメディア処理の高速化が非常に重要となっている.本稿ではこのようなマルチメディアアプリケーションのマルチ コアプロセッサ上での並列化について述べる.特に動画像処理における MPEG2 エンコード, MPEG2 デコード,音 声処理における MP3 エンコード,静止画処理における JPEG2000 エンコードを例として OSCAR マルチグレイン自 動並列化コンパイラを用いた富士通株式会社製 FR1000 と早稲田大学,ルネサステクノロジ,株式会社日立製作所共 同開発 RP1 マルチコアでの並列処理結果について述べる.

## Parallelization for Multimedia Processing on Multicore Processors

Takamichi Miyamoto<sup>†</sup>, Kei Tamura<sup>†</sup>, Hiroaki Tano<sup>†</sup>, Hiroki Mikami<sup>†</sup>, Saori Asaka<sup>†</sup>, Masayoshi Mase<sup>†</sup>, Keiji Kimura<sup>†</sup> and Hironori Kasahara<sup>†</sup>

Multicore processors have attracted much attention to handle the increase of power consumption , the slowdown of improvement of processor clock speed , and the increase of hardware/software developing period. Also , speeding up multimedia applications is required with the progress of the consumer electronics devices like mobile phones , digital TV and games. This paper describes parallelization methods of multimedia applications on the multicore processors. Especially in this paper , MPEG2 encoding and MPEG2 decoding are selected as examples of video sequence processing , MP3 encoding is selected as an example of audio processing , JPEG 2000 encoding is selected as an example of picture processing. OSCAR multigrain parallelizing compiler parallelizes these media applications using newly developed multicore API. This paper evaluates parallel processing performances of these multimedia applications on the FR1000 multicore processor developed by Fujitsu Ltd , and the RP1 multicore processor jointly-developed by Waseda University, Renesas Technology Corp. and Hitachi Ltd.

## 1 はじめに

従来,マイクロプロセッサにおける性能向上の牽引力 になっていた命令レベル並列性の利用と周波数の向上は, 半導体集積度の向上と共に並列性抽出の限界,消費電力 の増大等が顕在化し,今後の性能向上への寄与が難しく なっている.これらの問題に対処するためマルチコアプ ロセッサが注目を集めている.SCE/IBM/東芝の Cell<sup>1)</sup>, NEC/ARM の MPCore, MP211<sup>2)</sup>,富士通 FR1000<sup>3)</sup>, パナソニック Uniphier,ルネサステクノロジ SH-X3<sup>4)</sup> と いった 情報家電向け組込み用マルチコアや,PC,サーバ 向けのインテル Dual コア Xeon<sup>5)</sup> や Core 2 Duo, AMD の Dual/Quad コア Opteron<sup>6)</sup>,ワークステーション,ハ イエンドサーバ用に開発された Sun SPARC T1, T2,そ して IBM Power4,5,6<sup>7)</sup> などが例として挙げられる.マ ルチコアプロセッサでは複数のプロセッサコアを一つの チップ上に集積することにより,プロセッサコア間で命

<sup>†</sup>早稲田大学 理工学術院基幹理工学部 情報理工学科 〒 169-8555 東京都新宿区大久保 3-4-1 Tel: 03-5286-3371 令レベル並列性よりも並列性の大きいループレベル,タ スクレベルのような粒度の粗い並列処理の実現が可能と なる.また,各プロセッサコアをコンパイラ,OSとも協 調し低周波・数低電圧で動作させ,適切に並列処理する ことで,高性能化,低消費電力化が実現可能なアーキテ クチャとしても期待されている.

筆者等は従来より自動マルチグレイン並列化コンパイ ラとの協調動作により実効性能が高く価格性能比の良い コンピュータシステムの実現を目指す OSCAR マルチコ アアーキテクチャを提案している<sup>8),9)</sup>.この OSCAR マ ルチコアアーキテクチャは、全てのプロセッサコアがア クセスできるオンチップあるいはオフチップ集中共有メ モリ (CSM)の他に、プロセッサコアのプライベートデー タを格納するローカルデータメモリ(LDM)とプロセッ サコア間の同期やデータ転送に使用する分散共有メモリ (DSM)、そして、プロセッサコアと非同期に動作可能な データ転送ユニット(DTU)を持つ.

このようなマルチコア上でのマルチメディア処理のマル チグレイン並列化を実現するためには適切なデータ分割, プロセッサ近傍メモリへのデータ配置,メモリ間のデータ 転送最適化の適用が重要となる.本稿ではこのようなマ ルチメディア処理の例として,動画像処理の MPEG2 エ ンコード, MPEG2 デコード,音声処理の MP3 エンコー ド,静止画処理の JPEG 2000 エンコードを対象とした 並列化を行う.

<sup>&</sup>lt;sup>†</sup>Department of Computer Science and Engineering, Fundamental Science and Engineering, Fuculty of Science and Engineering, Waseda University 3-4-1 Ohkubo, Shinjuku-ku, Tokyo, Japan 169-8555 Tel: +81-3-5286-3371



図 1: OSCAR マルチコアアーキテクチャ

本稿の構成を以下に示す.第2章では対象とするマル チコアアーキテクチャについて述べる.第3章ではマル チコアプロセッサ用並列化 API について述べる.第4章 では本稿で扱う粗粒度タスク並列処理手法について述べ る.第5章では対象マルチメディアアプリケーションと 並列化手法について述べる.第6章ではマルチメディア アプリケーションの富士通 FR1000 上,早稲田大学 ルネ サス日立製作所 RP1上での性能評価結果について述べ る.第7章で本稿のまとめを述べる.

## 2 対象マルチコアアーキテクチャ

本章では,NEDO"リアルタイム情報家電用マルチコ ア技術の研究開発"プロジェクトにおいて標準的マルチ コアメモリアーキテクチャとして採択された OSCAR マ ルチコアアーキテクチャと評価対象とする OSCAR マル チコアアーキテクチャのサブセットとなるメモリ構成を 持つマルチコアアーキテクチャである富士通 FR1000 と OSCAR マルチコアアーキテクチャである富士通 FR1000 と ジェクトで試作された早稲田大学 ルネサス 日立製作所 RP1 について説明する.

#### 2.1 OSCAR マルチコアアーキテクチャ

OSCAR マルチコアアーキテクチャは自動マルチグレ イン並列化コンパイラとの協調動作により,実効性能が 高く価格性能比の良いコンピュータシステムの実現を目 指したアーキテクチャである.

図1に示すようにOSCAR マルチコアメモリアーキテ クチャは1つのチップ上に複数のプロセッサエレメント (PE)を持つ.各PEはプロセッサプライベートなデータ を保持するローカルデータメモリ(LDM),共有データや 同期変数を保持する分散共有メモリ(DSM),プログラム コードを保持するローカルプログラムメモリ(LPM),そ してCPUと非同期にバースト転送が可能なデータ転送 ユニット(DTU)を持つ.チップ上の全てのPEはパス やクロスパといったInterconnection Network によって オンチップあるいはオフチップ集中共有メモリ(CSM)に 接続される.

#### 2.2 富士通 FR1000 ボード

FR1000 は図 2 に示すように,8 並列 VLIW の FR550 プロセッサコアを4 コア搭載したマルチコアプロセッ サであり,2 チャンネルのメインメモリコントローラ, WorkRAM 間の転送用に Direct Memory Access Conrtoller(DMAC)を持つ.FR550 プロセッサコアは整数型 算術命令,浮動小数点型算術命令,16bit メディア命令, 固定小数点型算術命令の命令を持つ.FR1000 の仕様概 要を表1に示す.

OSCAR マルチコアと FR1000 のメモリ対応関係は, OSCAR マルチコアにおける分散共有メモリ (DSM) が



図 2: FR1000 ブロック図概要

#### 表 1: FR1000 ボード仕様概要

| プロセッサコア  | FR550 (8 並列 VLIW) 500MHz                 |
|----------|------------------------------------------|
| システムバス   | 64bit 166MHz                             |
| WorkRAM  | 128 KB                                   |
| 命令キャッシュ  | 32  KB (4 way) , $64  Byte line$ , $LRU$ |
| データキャッシュ | 32 KB (4way) , 64 Byte line , LRU        |

FR1000のWorkRAM, off-chip 集中共有メモリ (off-chip CSM) が FR1000のSDRAM にあたる.

#### 2.3 早大 ルネサス 日立 RP1 ボード

本マルチコアプロセッサは図 3 に示すように,SH-4A(SH-X3) コアを 4 コア搭載したホモジニアスマルチ コアとなっており,4 コアがそれぞれ独立して周波数制 御が可能である.また,従来の共有メモリモデルによる プログラミングが容易な Symmetric Multi-Processing (SMP) モード,リアルタイム制約が保証しやすい Asymmetric Multi-Processing (AMP) モード,およびそのハ イブリッドモードでの利用が可能である.SMP モードで はスヌープコントローラが専用のスヌープバスを介して 各コアのデータキャッシュの一貫性を保証する.RP1の 仕様概要を表 2 に示す.

OSCAR マルチコアと RP1 のメモリ対応関係は, OS-CAR マルチコアにおけるローカルデータメモリ (LDM) が RP1 の OLRAM, ローカルプログラムメモリ (LPM) が RP1 の ILRAM, 分散共有メモリ (DSM) が RP1 の URAM, on-chip 集中共有メモリ (on-chip CSM) が図 3 の CSM にあたる.

## 3 マルチコア並列化 API

本章では FR1000 と RP1 のように異なるプロセッサ アーキテクチャのマルチコア上での OSCAR コンパイラ による並列化を可能とするために策定された情報家電用 マルチコア並列化 API と本 API を用いた性能評価フロー について説明を行う.情報家電用マルチコア並列化 API は NEDO"リアルタイム情報家電用マルチコア技術の研 究開発"プロジェクトにおける早稲田大学委託事業内マ ルチコアアーキテクチャ・API 検討委員会 (委員に参加, (株) 日立製作所,(株) ルネサステクノロジ,(株) 富士通

表 2: RP1 ボード 仕様概要

| プロセッサコア  | SH-4A 600 MHz                            |
|----------|------------------------------------------|
| システムバス   | 300  MHz                                 |
| 命令キャッシュ  | 32  KB (4 way) , $32  Byte line$ , $LRU$ |
| データキャッシュ | 32  KB (4 way) , $32  Byte line$ , $LRU$ |
| ILRAM    | 8 KB                                     |
| OLRAM    | 16 KB                                    |
| URAM     | 128 KB                                   |
| CSM      | 128 KB / chip                            |



図 3: RP1 ブロック図概要

研究所,(株)東芝,(株)松下電器産業,(株)日本電気)で 策定された OpenMP API<sup>10)</sup> 互換形式のディレクティブ (C と FORTRAN に対応) で OpenMP API のサブセッ トに主にリアルタイム処理に利用するローカルメモリ,分 散共有メモリ,オンチップ共有メモリ,データ転送ユニッ ト,消費電力制御用に独自に定義したディレクティブを加 えた構成となっている.OSCAR 自動並列化コンパイラ を用いて C あるいは FORTRAN + API の並列プログラ ムを出力することにより,逐次コンパイラの前に API 解 釈系をつけるだけの簡単な作業により, 各社のマルチコ ア上での並列処理が可能となる.具体的には,スレッド 生成,同期,排他制御はOpenMP 互換となっており,ス レッド生成に parallel sections,メモリアクセス順を保証 する flush , 排他制御を行うための critical を用いる.こ れら3つのサポートにより, SMP 環境でのマルチグレイ ン並列処理が実現できる.独自定義のディレクティブと して,データのメモリ配置,DMACによるデータ転送, 周波数・電源制御用の API の策定を行っている

情報家電用マルチコア API の評価フローは図 4 に示 すように,逐次型 C プログラムを入力として OSCAR 並 列化コンパイラにより出力される情報家電用マルチコア API を含んだ並列化プログラムを API 解釈を含む各社コ ンパイラによりマシンコードを生成し,マルチコア上で 評価を行うフローとなる.

### 4 粗粒度タスク並列処理

今回のマルチメディア処理の並列化に利用する粗粒度 タスク並列処理では、まず、ソースプログラムを基本ブ ロックあるいは基本ブロックを融合・分割した形である 疑似代入文ブロック(BPA)、ループの一般形である繰り 返しプロック(RB)、サブルーチンプロック(SB)の3種 類のマクロタスク(MT)に分割を行う、そして、三種類 に分割されたマクロタスクを複数のプロセッサエレメン ト(PE)から構成されるプロセッサグループ(PG)に割 り当てて実行することにより、マクロタスク間の並列性 を利用する並列処理手法である.

#### 4.1 マクロタスクの生成

粗粒度タスク並列処理では,まずソースプログラムを BPA, RB, SBの3種類のマクロタスクに分割する.ルー プ並列処理不可能な実行時間の大きい RBや,インライ ン展開を効果的に適用できない SBに対しては,その内 部を階層的に粗粒度タスクに分割して並列処理を行う.



図 4: マルチコア並列化 API を用いた各社マルチコ ア評価フロー

#### 4.2 マクロフローグラフ (MFG) の生成

マクロタスクの生成後,マクロタスク間のコントロー ルフローとデータ依存を解析し,その結果を表す図 5(a) に示すようなマクロフローグラフ (MFG)を生成する.図 5(a)の各ノードはマクロタスクを表し,実線エッジはデー 夕依存を,点線エッジはコントロールフローを表す.また,ノード内の小円は条件分岐を表す.MFG ではエッジ の矢印は省略されているが,エッジの方向は下向を仮定 している.

#### 4.3 マクロタスクグラフ (MTG) の生成

MFG はマクロタスク間のコントロールフローとデー タ依存は表すが,並列性は表していない.並列性を抽出 するためには,コントロールフローとデータ依存の両方 を考慮した最早実行可能条件解析をマクロフローグラフ に対して行う.マクロタスクの最早実行可能条件とは,コ ントロール依存とデータ依存を考慮したそのマクロタス クが最も早い時点で実行可能になる条件である.

マクロタスクの最早実行可能条件は図 5(b) に示すよう なマクロタスクグラフ (MTG) で表される . MFG と同様 に, MTG におけるノードはマクロタスクを表し, ノード 内の小円はマクロタスク内の条件分岐を表している、実 線のエッジはデータ依存を表し, 点線のエッジは拡張され たコントロール依存を表す. 拡張されたコントロール依 存とは,通常のコントロール依存だけでなく,データ依存 とコントロール依存を複合的に満足させるため先行ノ-ドが実行されないことを確定する条件分岐を含んでいる. また,エッジを束ねるアークには2つの種類がある.実線 アークはアークによって束ねられたエッジが AND 関係 にあることを, 点線アークは束ねられたエッジが OR 関 係にあることを示している . MTG においてはエッジの矢 印は省略されているが,下向きが想定されている.また, 矢印を持つエッジはオリジナルのコントロールフローを 表す.

#### 4.4 粗粒度タスクスケジューリング手法

粗粒度タスク並列処理では,生成されたマクロタスク はプロセッサグループ(PG)に割り当てられて実行され る.PGにマクロタスクを割り当てるスケジューリング 手法として,コンパイル時に割り当てを決めるスタティッ クスケジューリングと実行時に割り当てを決めるダイナ ミックスケジューリングがあり,マクロタスクグラフの 形状,実行時不確定性などを元に選択される.スタティッ



#### (a) Macro Flow Graph(MFG)

(b) Macro Task Graph(MTFG)

#### 図 5: マクロフローグラフとマクロタスクグラフ

クスケジューリングは,マクロタスクグラフがデータ依 存エッジのみを持つ場合に適用され,コンパイラがコン パイル時にマクロタスクの PG への割り当てを決定する 方式である.スタティックスケジューリングでは,実行時 スケジューリングオーバーヘッドを無くし,データ転送 と同期のオーバーヘッドを最小化することが可能である. 本稿では粗粒度タスクスケジューリング手法として、 ETF/CP (Earliest Task First/ Critical Path) 法に対し て図 6(a) で網掛けされた MT のようなデータ依存を持 つ複数ループをキャッシュあるいはローカルメモリサイ ズにおさまるように,図6(b)のように複数のループを整 合して分割を行うデータローカライゼーション手法 <sup>11)</sup> を適用する.ループ整合分割可能なループ集合において 同一のデータにアクセスする分割後の MT 集合内では, キャッシュあるいはローカルメモリを介したデータの授 受によりデータ転送の最小化を目的とし,データローカ ライザブルグループ (DLG) 内のタスクを同一のプロセッ サへの連続タスク割り当てを行うアルゴリズム ETF/CP considering DLG 法を用いてスケジューリングを行った.



## 5 マルチメディアアプリケーショ ンの並列化手法

情報家電上でのコーデック等のマルチメディア処理が 重要になり,アルゴリズムの複雑化から高い処理性能が 要求される.従来,本要求に応えるために, $DSP^{12}$ ,マ ルチメディアプロセッサ<sup>13)</sup>の利用,Intel  $SSE^{14}$ ,Sun  $VIS^{15}$ ,MIPS MDMX<sup>16)</sup>等のマルチメディア拡張命令 セットの追加や並列化とSIMD 最適化を行う ALP<sup>17)</sup>が 行われている.

本稿ではマルチメディア処理において動画像処理における MPEG2 エンコード, MPEG2 デコード, 音声処理における MP3 エンコード,静止画処理における JPEG2000 エンコードを選択した.以下に各マルチメディアアプリケーションの並列化手法について述べる.

#### 5.1 MPEG2エンコード

MPEG2 エンコード処理ブロック図とデータ構造を図 7 に示す.MPEG2 エンコード処理は,動き推定,動き予 測,DCT モード選択,データ変換,ビットストリーム出 力,逆量子化,逆データ変換の7つのステージからなる. MPEG2 エンコードではマクロブロックレベルの並列性 を利用する<sup>18)</sup>.ただし,ビットストリーム出力ステージ においてはマクロブロック間でのデータ依存が存在する ため,マクロブロック毎に逐次で処理を行う必要がある. MPEG2 エンコード処理における並列性抽出後の MTG を図 8(a) に示す.



図 7: MPEG2 エンコードの処理ブロック図とデー 夕構造





(a) MTG of MPEG2 encoding

(b) MTG of MPEG2 decoding

図 8: 並列性抽出後の MPEG2 エンコード, デコー ドの MTG 例

#### 5.2 MPEG2 デコード

MPEG2 デコードのブロック図を図 9 に示す.MPEG2 デコード処理は,可変長複合化,逆量子化,逆量子化後の 各係数値の制限処理,逆離散コサイン変換,動き補償予 測,足し合わせ処理の6つのステージからなる.MPEG2 デコード処理ではスライスレベルの並列性が利用可能であ り,本稿ではスライスレベルの並列性を利用する.スライ スに対する可変長復号化処理中のスライスヘッダの検出処 理を分割するプレスキャニング手法を適用した<sup>19)</sup>.プレ スキャニングではビットストリームを先頭から走査するた めにスライス母に逐次で処理を行う必要がある.MPEG2 デコーダにおける並列性抽出後のマクロタスクグラフを 図 8(b)に示す.



#### 5.3 MP3エンコード

MP3のエンコード処理ブロック図とデータ構造を図10 に示す.MP3エンコード処理は,サブバンド分析,心理 聴覚分析,変形離散コサイン変換,非線形量子化,ハフマ ン符号化の5つのステージからなる.MP3エンコード処 理ではフレームレベルの並列性を利用する.ただし,心 理聴覚分析,変形離散コサイン変換においてフレーム間 でのデータ依存が存在するため,フレーム毎に逐次で処 理を行う必要がある.MP3エンコードにおける並列性抽 出後のマクロタスクグラフを図11(a)に示す.



図 10: MP3 エンコードの処理ブロック図とデータ 構造



(a) MTG of MP3 encoding
(b) MTG of JPEG 2000 encoding
図 11: 並列性抽出後の MP3 エンコード, JPEG 2000
エンコードの MTG 例

#### 5.4 JPEG 2000 エンコード

JPEG 2000 エンコードブロック図とデータ構造を図 12 に示す.JPEG 2000 エンコード処理は,DC レベル変換, 離散ウェーブレット変換,スカラ量子化,EBCOT(Embedded Block Coding with Optimized Truncation)符号化の4 つのステージからなる.JPEG 2000 エンコードではDC レベル変換,離散ウェーブレット変換では画像の縦方向, 横方向の並列性を利用し,スカラ量子化,EBCOTでは 64x64 ピクセルのコードブロック単位の並列性を利用す る.ただし,離散ウェーブレット変換においては縦方向, 横方向の処理間や各レベルの処理間では転置転送により, データ転送が発生する.ここで,スカラ量子化は各サブ バンドに対して行う処理であるがコードブロックがサブ バンド境界を越えて生成されないためコードブロック単 位で処理を行うことが可能となる.JPEG 2000 エンコー ドにおける並列性抽出後のマクロタスクグラフを図 11(b) に示す.

#### 6 性能評価

本章では第5章で述べたマルチメディアアプリケーションの並列処理性能について述べる.



図 12: JPEG2000 エンコードの処理ブロック図と データ構造

#### 6.1 評価条件

評価アプリケーションとしては第5章で示した4つの メディアアプリケーションを用いた.表3に評価を行っ た各メディアアプリケーションの参照元プログラム,特 徴的な処理パラメータを示す.記述していない処理パラ メータは各参照プログラムにおけるデフォルトパラメー タを使用した.表4に性能評価に使用した入力データを 示す.本評価では入力データはプログラム開始時に集中 共有メモリ上に存在しているという想定で行った.

各マルチメディアアプリケーションのプログラムコー ド中には OSCAR コンパイラで解釈を行うための並列化 階層の指定とループ分割における分割数指定の指示文を 挿入したコードを用い, JPEG 2000 エンコードにおいて はプロファイル情報として実行時のコストを OSCAR コ ンパイラのスケジューリング時に用いた。

表 3: 評価メディアアプリケーション仕様

| MPEG2 エンコード    |                                       |  |  |  |
|----------------|---------------------------------------|--|--|--|
| 参照元プログラム       | MediaBench <sup>20)</sup> mpeg2encode |  |  |  |
| 評価パラメータ        | Frames in GOP : 15                    |  |  |  |
|                | I/P frame distance : 3                |  |  |  |
|                | Picture Type : Frame Picture          |  |  |  |
|                | Bitrate : 5Mbps                       |  |  |  |
| MPEG2 デコード     |                                       |  |  |  |
| 参照元ブログラム       | MediaBench mpeg2decode                |  |  |  |
| MP3 エンコード      |                                       |  |  |  |
| 参照元プログラム       | UZURA MP3 $encoder^{21}$              |  |  |  |
| 評価パラメータ        | Bitrate : 128kbps CBR                 |  |  |  |
|                | Compression : lossy                   |  |  |  |
| JPEG2000 エンコード |                                       |  |  |  |
| 参照元プログラム       | $JJ2000^{22})$                        |  |  |  |
| 評価パラメータ        | Bitrate : 100bpp                      |  |  |  |
|                | WaveletLevel : 5                      |  |  |  |
|                | Compression : lossy                   |  |  |  |

#### 6.2 富士通 FR1000 上での性能評価

図13 に富士通 FR1000 上での評価結果を示す.本評価 では API 解釈系と gcc コンパイラを用い,最適化オプショ ンとして O3 を指定して評価を行った.ただし,MPEG2 デコード, MP3 エンコードに対しては用いた gcc コンパ イラの動作不良により最適化レベルを O0 として評価を 行った.

OSCAR コンパイラによるマルチコア並列化 API を用 いた 4 プロセッサでの並列処理において, MPEG2 エン コードで 1 プロセッサ処理時の 4.60 倍, MPEG2 デコー ドで 1 プロセッサ処理時の 2.17 倍, MP3 エンコードで 1 プロセッサ処理時の 2.82 倍, JPEG 2000 エンコード で 1 プロセッサ処理時の 3.09 倍の速度向上が得られた.

### 6.3 早大 ルネサス 日立 RP1 上での性能 評価

図 14 に早大 ルネサス 日立 RP1 上での評価結果を 示す.本評価では API 解釈系と SH C コンパイラを用

| アブリケーション       | 入力データ                          |
|----------------|--------------------------------|
| MPEG2encode    | SIF(352x240) 30 フレーム           |
|                | 4:2:0 format                   |
| MPEG2decode    | SIF(352x240) 30 フレーム           |
|                | encoded with 5Mbps Bitrate     |
| MP3encode      | 44.1kHz Stereo PCM 32 フレーム     |
| JPEG2000encode | $400 \times 300$ pixel (color) |

表 4: 評価入力データ



#### 図 13: 富士通 FR1000 上での並列処理性能

い,最適化オプションとして speed, goptimize を指定して評価を行った.OSCAR コンパイラによるマルチコア並列化 API を用いた 4 プロセッサでの並列処理において,MPEG2 エンコードで1 プロセッサ処理時の 3.35 倍, MPEG2 デコードで1 プロセッサ処理時の 3.34 倍, MP3 エンコードで1 プロセッサ処理時の 3.50 倍, JPEG 2000 エンコードで1 プロセッサ処理時の 3.17 倍の速度向上が得られた.

#### 7 まとめ

本稿では、マルチメディアアプリケーションの例として 動画像処理 MPEG2 エンコード、MPEG2 デコード、音声 処理 MP3 エンコード、静止画処理 JPEG 2000 エンコー ドに対しての粗粒度タスク並列処理を富士通 FR1000、早 大ルネサス 日立 RP1 上で評価を行った.FR1000 上では、 逐次処理に対する 4 プロセッサでの並列処理で MPEG2 エンコードで 4.60 倍、MPEG2 デコードで 2.17 倍、MP3 エンコードで 2.82 倍、JPEG 2000 エンコードで 3.09 倍 の速度向上が得られた.RP1 上では、逐次処理に対する 4 プロセッサでの並列処理で MPEG2 エンコードで 3.35 倍、MPEG2 デコードで 3.34 倍、MP3 エンコードで 3.50 倍、JPEG 2000 エンコードで 3.17 倍の速度向上が得ら れた.



図 14: 早大 ルネサス 日立 RP1 上での並列処理性能

#### 本研究の一部は NEDO"リアルタイム情報家電用マル チコア技術", NEDO"先進ヘテロジニアスマルチプロセッ サ技術"及び NEDO"情報家電用ヘテロジニアスマルチ コア技術"の支援により行われた. 参考文献

- Pham, D. et al.: The Design and Implementation of a First-Generation CELL Processor, In Proceeding of the IEEE International Solid-State Circuits Conference (2005).
- [2] Cornish, J.: Balanced Energy Optimization, International Symposium on Low Power Electronics and Design (2004).
- [3] Suga, A. and Matsunami, K.: Introducing the FR 500 embedded microprocessor, Vol. 20, pp. 21–27 (2000).
- [4] Kamei, T.: SH-X3 : An Enhanced SuperH Core for Low-power MP Systems, *Fall Microprocessor Forum* 2006 (2006).
- [5] Intel: http://www.intel.com/multi-core/.
- [6] Keltcher, C. N., McGrath, K., Ahmed, A. and Conway, P.: The AMD Opteron processor for multiprocessor servers, *IEEE Micro*, Vol. 23, pp. 66–76 (2003).
- [7] Friedrich, J. and et.al.: Design of the Power6 Microprocessor, *IEEE ISSCC*, pp. 96–97 (2007).
- [8] 木村,尾形、岡本、笠原:シングルチップマルチプロセッサ 上での近細粒度並列処理,情報処理学会論文誌, Vol. 40, No. 5 (1999).
- [9] Kimura, K., Wada, Y., Nakano, H., Kodaka, T., Shirako, J., Ishizaka, K. and Kasahara, H.: Multigrain Parallel Processing on Compiler Cooperative Chip Multiprocessor, Proc. of 9th Workshop on Interaction between Compilers and Computer Architectures (INTERACT-9) (2005).
- [10] OpenMP Application Program Interface Version 2.5 (2005).
- [11] 石坂,中野,八木,小幡,笠原:共有メモリマルチプロセッ サ上でのキャッシュ最適化を考慮した粗粒度タスク並列処 理,情報処理学会論文誌, Vol. 43, No. 4 (2002).
- [12] Eiji Iwata and et.al.: A 2.2GOPS Video DSP with 2-RISC MIMD, 6-PE SIMD Architecture for Real-Time MPEG2 Video Coding/Decoding, *IEEE International* Solid State Circuits Conference Digest of Technical Papers, pp. 258–259 (1997).
- [13] Yong Yao: Chromatic's Mpact 2 Boosts 3D, Microprocessor Report, Vol. 10 (1996).
- [14] S. K. Raman, V. Pentkovki and J.Keshava: Implementing Streaming SIMD Extensions on the Pentium III Processor, Vol. 20, No. 4 (2000).
- [15] March Tremblay and et.al.: VIS Speeds New Media Processing, *IEEE Micro*, pp. 10–20.
- [16] Earl Killian: Extending the MIPS Instruction Set for Digital Media and Emerging Aplications, *Microprocessor Forum 96* (1996).
- [17] Ruchiana Sasanka, Man-Lap Li, Sarita V. Adve, Yen-Kuang Chen and Eric Debes: ALP:Efficient support for all levels of parallelism for complex media applications, ACM Transactions on Architecture and Code Optimization (TACO), Vol. 4.
- [18] 小高剛, 中野啓史, 木村啓二, 笠原博徳: チップマルチプロ セッサ上での MPEG2 エンコードの並列処理, 情報処理学 会論文誌, Vol. 46, No. 9 (2005).
- [19] Iwata, E. and Olukotun, K.: Exploiting Coarse-Grain Parallelism in the MPEG-2 Algorithm, *Technical Report CSL-TR-98-771* (1998).
- [20] C. Lee, M. Potkonjak and W. H. Mangione-Smith: MediaBench: A Tool for Evaluating and Synthesizing Multimedia and Communications Systems, 30th International Symposium on Microarchitecture (MICRO-30) (1997).
- [21] UZURA3:MPEG1/LayerIII Encoder in FOR-TRAN90. http://members.at.infoseek.co.jp/ kitaurawa/index\_e.html.
- [22] R Grosbois, D Santa Cruz, J. A. B. B. D. B. F. H. G. M. and Onno, P.: http://jj2000.epfl.ch/.