# シングルチップマルチプロセッサにおける JPEG エンコーディングのマルチグレイン並列処理

| 小 | 高 |   | 剛† | 内 | 田 | 貴 | 之  |
|---|---|---|----|---|---|---|----|
| 木 | 村 | 啓 | †  | 笠 | 原 | 博 | 徳† |

近年の JPEG,MPEG などを用いたマルチメディアコンテンツの増加に伴い, これらマルチメディ アアプリケーションを効率良く処理できる低コスト,低消費電力かつ高性能なプロセッサの開発が望 まれている.特に,複数のプロセッサコアを搭載したシングルチップマルチプロセッサは命令レベル 以外の並列性も自然に引き出すことができ集積度向上に対しスケーラブルな性能向上が得られるアー キテクチャとして注目されている.本論文では, JPEG エンコーディングのシングルチップマルチプ ロセッサ用マルチグレイン並列処理手法を提案するとともに,その性能評価を行う.評価の結果,シ ンプルなシングルイシュープロセッサを4基搭載した OSCAR 型シングルチップマルチプロセッサ アーキテクチャでは逐次実行に対して約3.59倍の性能向上が得られスケーラブルな性能向上が得ら れることが確かめられた.

# JPEG Encoding using Multigrain Parallel Processing on a Shingle Chip Multiprocessor

### TAKESHI KODAKA,<sup>†</sup> TAKAYUKI UCHIDA,<sup>†,</sup> KEIJI KIMURA<sup>†</sup> and Hironori Kasahara <sup>†</sup>

With the recent increase of multimedia contents using JPEG and MPEG, low cost, low power consumption and high performance processors for multimedia application have been expected. Particularly, single chip multiprocessor architectures having simple processor cores that will attain scalability and cost performance are attracting much attention to develop such processors. Single chip multiprocessor architectures allow us to exploit coarse grain task level and loop level parallelism in addition to the instruction level parallelism, so parallel processing technology is indispensable to get us scalable performance improvement. This paper describes a multigrain parallel processing scheme for the JPEG encoding for a single chip multiprocessor having four single-issue simple processor cores gave us 3.59 times speed-up.

# 1. はじめに

最近のマルチメディアコンテンツの増加に従い JPEG,MPEGなどのメディア系アプリケーション を効率良く処理できる低コストかつ低消費電力の高 性能プロセッサの開発が望まれている.このような ニーズに対応するために CPU ベンダーからは Intel の PentiumIII などに搭載されている SSE<sup>1)</sup>や,日立 の SH4<sup>2)</sup>,富士通の FR500<sup>3)</sup>などのようにマルチメ ディア用命令セットを追加し処理能力を向上させる試

Dept. of Electrical, Electronics and Computer Engineering, Waseda University 現在,三菱電機株式会社 みが行われている.これらのプロセッサは,スーパー スカラアークテクチャや VLIW アーキテクチャによ る命令レベル並列性の利用や SIMD 命令によるマル チメディア処理で多用される内積演算やベクトル変換 演算など同一命令が連続する処理の高速化により処理 能力の向上をねらっている.しかし,これらのような 命令レベル並列性を用いるアーキテクチャでは命令レ ベル細粒度並列性の限界により投入されたトランジス 夕資源に見合うスケーラブルな性能向上が困難になっ てきている.

このような状況から,プロセッサコアを複数搭載し たシングルチップマルチプロセッサアーキテクチャは 集積トランジスタ数の増加に対しスケーラブルな性能 向上が得られるアーキテクチャとして注目を集めてい る.また,シングルチップマルチプロセッサアーキテ

<sup>†</sup> 早稲田大学電気電子情報工学科

Presently with Mitsubishi Electric Corporation

クチャでは,命令レベル並列性に加え,ループレベル, サブルーチンレベルなどより多くの並列性を利用する ことも可能である.ただし,これら複数レベルの並列 性を利用するためにはアプリケーションからの並列性 抽出が重要となる.

シングルチップマルチプロセッサを用いたメディア 系アプリケーションの高速化として,NECのMP98<sup>4)</sup> では,1チップ上に4CPUを搭載しマルチスレッド処 理により高速化を行なっており,Stanford大では,2 次キャッシュ共有型のシングルチップマルチプロセッ サHydra<sup>5)</sup>上でのメディアアプリケーションの高速化 が提案されている<sup>6)</sup>.

本論文では,離散コサイン変換や量子化,エントロ ピー符号化といったマルチメディア処理で多用される アルゴリズムを利用した画像圧縮処理であるJPEG エンコーディングにおけるマルチグレイン並列処理手 法を提案し,提案手法を適用したJPEGエンコーディ ングのOSCAR型シングルチップマルチプロセッサ 上での評価結果を述べる.

以降,2章でマルチグレイン並列処理,3章で提案 する JPEG エンコーディングのマルチグレイン並列 処理手法,4章で本論文の評価で用いる OSCAR 型 シングルチップマルチプロセッサアーキテクチャ,5 章でマルチグレイン並列処理を適用した JPEG エン コーディングの OSCAR 型シングルチップマルチプ ロセッサ上で行った性能評価について述べる.

## 2. マルチグレイン並列処理

ここでは, OSCAR 型シングルチップマルチプロセッ サで扱うマルチグレイン並列処理技術について述べる. マルチグレイン並列処理とは, ループやサブルーチン 等の粗粒度タスク間の並列処理を利用する粗粒度タス ク並列処理(マクロデータフロー処理)<sup>7)</sup>, ループイタ レーションレベルの並列処理である中粒度並列処理, 基本ブロック内部のステートメントレベルの並列性を 利用する近細粒度並列処理<sup>8)</sup>を階層的に組み合わせて プログラム全域に渡る並列処理を行なう手法である.

2.1 粗粒度タスク並列処理<sup>7)</sup>

(マクロデータフロー処理)

マクロデータフロー処理では,ソースとなるプログ ラムを疑似代入文ブロック(BPA),繰り返しブロッ ク(RB),サブルーチンブロック(SB)の三種類の粗粒 度タスク(マクロタスク(MT))に分割する.ここで, BPA は基本的には通常の基本ブロックであるが,並 列性抽出のために単一の基本ブロックを複数に分割し たり,逆に複数の基本ブロックを融合して一つの BPA を生成する.MT 生成後,コンパイラは BPA, RB, SB 等の MT 間のコントロールフローとデータ依存を 解析しそれらを表したマクロフローグラフ (MFG)を 生成する.さらに MFG から MT 間の並列性を最早実 行可能条件解析により引きだし,その結果をマクロタ スクグラフ (MTG)として表現する.その後,コンパ イラは MTG 上の MT をプロセッサあるいは複数の プロセッサエレメント (PE)をひとつのグループとし たプロセッサグループ (PG)に割り当てる.なお,こ のグループはプログラム中の並列性に応じソフトウェ ア的に形成される仮想的なものでハードウェア的なグ ループ化とは異なる.

2.2 中粒度並列処理 (ループ並列処理)

PG に割り当てられた MT が Doall 可能な RB で ある場合, この RB は PG 内のプロセッサエレメント (PE) 上で, イタレーションレベル並列実行される.

2.3 近細粒度並列処理<sup>8)</sup>

PG に割り当てられた MT が, BPA や中粒度並列 処理あるいはループボディ部に粗粒度並列処理を適用 できない RB である場合,それらはステートメントレ ベルのタスクに分割され, PG 内の PE により並列処 理される.

近細粒度並列処理においては,基本的に BPA 内の ステートメント,もしくは IF-THEN-ELSE 等で囲ま れた複数ステートメントから構成される疑似代入文を 一つの近細粒度タスクとして定義する.その後,近細 粒度タスク間のデータ依存を解析してタスクグラフを 作成し,このタスクグラフ上のタスクを,データ転送・ 同期オーバーヘッドを考慮して実行時間を最小化でき るように各 PE にスタティックにスケジューリングす る.スケジューリング後, PE に割り当てられたタス クに対応する命令列を順番に並べデータ転送命令や同 期命令を必要な箇所に挿入し各 PE 毎に異なるマシン コードを生成する.

## 3. JPEG エンコーディングアルゴリズムの マルチグレイン並列処理手法

ここでは, JPEG エンコーディングアルゴリズムの マルチグレイン並列処理手法について述べる.本論文 で扱う JPEG エンコーディングアルゴリズムは, MediaBench<sup>9)</sup> に収録されている JPEG ベンチマークプ ログラムである" jpeg-v6a"をベースとする.まず, JPEG エンコーディングにおける各処理について簡単 に述べた後,マルチグレイン並列性を利用する手法を 述べる. 3.1 JPEG エンコーディングアルゴリズム<sup>10),11)</sup>

JPEG エンコーディングは以下の 6 つの処理から なる.

8x8-pixel ブロック分割

**入力画像データを** JPEG 基本処理単位である 8x8pixel ブロックに分割する.

YCbCr 変換 (YCbCr)

分割された 8x8-pixel ブロックのデータを JPEG のデータフォーマットである YCbCr フォーマッ トへ変換する.

2次元離散コサイン変換処理(DCT)

YCbCr フォーマットへ変換された 8x8 ブロック データに対し 2 次元離散コサイン変換により画像 信号を空間周波数へ変換する.なお,変換後の 2 次元配列  $S_{ij}$ は, $S_{00}$ から  $S_{77}$ までの 64 要素存 在し, $S_{00}$ を直流 (DC)係数,その他の 63 要素は 交流 (AC)係数と呼ばれる.ここで, $S_{ij}$ はiま たはjが大きいほど高い周波数成分に相当する.

#### 一様量子化 (Quantize)

量子化テーブルを用い DCT 係数に対し 1 次元一 様量子化を行なう.

量子化 DC 係数 1 次元予測

処理を行なっている 8x8 ブロックの量子化 DC 係 数と 1 つ前の 8x8 ブロックの量子化 DC 係数を 減算し 1 次元 DC 予測値を計算する

エントロピー符号化

1 次元 DC 予測値および量子化 AC 係数を可変長 符号を用いてエントロピー符合化を行なう.

上記6つの処理を入力画像データが終るまで繰り返し て行なわれる.図1に JPEG エンコーディング実行 プロック図を示す.

3.2 JPEG エンコーディングのマルチグレイン並 列処理

ここでは, JPEG エンコーディングのマルチグレイ ン並列処理手法について述べる.

**3.2.1** 粗粒度並列性の抽出

3.1 章で述べた基本的な JPEG エンコーディングア ルゴリズムでは,量子化 DC 係数の 1 次元予測 (1-D DC Prediction)で1つ前の 8x8 ブロックの量子化 DC 係数を用いるため,8x8 ブロック間でのデータ依存が 存在する.しかし,その他の YCbCr 変換,DCT およ びエントロピー符号化処理では 8x8 ブロック内のデー タのみ扱うため 8x8 ブロック間のデータ依存は存在 しない.これらのデータ依存を考慮し,並列処理を効 果的に行なうために 1-D DC Prediction 処理および, 1-D DC Prediction の処理結果の 1 次元 DC 予測値



図 1 JPEG エンコーディング実行ブロック図 Fig.1 Execution flow of JPEG encoding.

を用いる 1 次元 DC 予測値のエントロピー符号化処理 (DC EC)を図 2(a)のように YCbCr,DCT,Quantize および量子化 AC 係数のエントロピー符号化処理 (AC EC)の後ろに移動する.そして,8x8 ブロック処理 を JPEG エンコーディングの基本処理単位として, YCbCr,DCT,Quantize および AC EC を 1 つのマク ロタスク (図 2(a)  $MT_a$ )として定義し,同様に 1-D DC Prediction および DC EC も 1 つのマクロタスク (図 2(a)  $MT_b$ )として定義する.

MT<sub>a</sub>, MT<sub>b</sub>の各 PG への割り当ては, 各 PG で処 理される  $MT_a$  および  $MT_b$  の数が等しくなるように 割り当る.その際,データ転送の最小化を考慮し同じ 8x8 ブロックを同-PG 内で処理できるように  $MT_a$ , MT<sub>b</sub>のスケジューリングを行ないスタティックに各 MT を割り当てる. 例えば, 16x16pixel の入力データ を 2 つの PG で実行する場合の各 MT の割り当ては, 図 2(b) に示したようになる.ここで, MT<sub>ai</sub> および  $MT_{bi}$ は,入力データを8x8ブロックに分割したとき シーケンシャルスキャン順でのi番目のブロックである block i を処理する MT に相当する.このときの実行 イメージは,まず,入力データは block1 から block4 の 4 つの 8x8 ブロックに分割され, PG1 では block1 と block2 を処理する  $MT_{a1}$  および  $MT_{a2}$  が実行され, 同様に PG2 では block3 と block4 を処理する MT<sub>a3</sub> および  $MT_{a4}$  が実行される.このとき, 各 $MT_a$  間 では依存がないためこれらの MT<sub>a</sub> は全 PG で並列 に処理される. すべての  $MT_a$  が実行された後,  $MT_b$ 実行前に, PG2 で処理されている block3 の 1-D DC Prediction で必要とされる block2 の量子化 DC 係数 を PG1 から PG2 へ転送する . データ転送後 , *MT*<sub>b</sub> は全 PG で並列に処理される.



図 2 並列化 JPEG エンコーディング Fig.2 Parallel execution flow of JPEG encoding.

この粗粒度タスク並列性の抽出は一般最適化により 抽出可能である.まず,図3(a)のようにループによ リ表現された JPEG エンコーディング処理をループ アンローリングにより展開する(図3(b)).ループアン ローリング後,1つの8x8プロックを処理するYCbCr, DCT,Quantize,ACEC,1-DDCPrediction,DC ECをそれぞれ粗粒度タスクとして定義し,粗粒度タ スク間並列性抽出を行う.図図3(c)に,ループアン ローリング後の粗粒度タスク間並列性抽出結果を表し たマクロタスクグラフを示す.各ノードは粗粒度タス クを示しノード内の番号は図3(b)の各処理に対応す る.また,ノードから出る実線はデータ依存を表す.



Fig. 3 Exploiting coarse grain parallelism.

この粗粒度タスク間並列性抽出結果より粗粒度タスク を網掛け部分の粗粒度タスクを1つの粗粒度タスクと して融合することにより図3(d)のようながマクロタ スクグラフが得られ,本章で提案した粗粒度並列処理 が可能となる.

3.2.2 近細粒度並列性の抽出

ここでは, *MT<sub>a</sub>*, *MT<sub>b</sub>* 内の近細粒度タスク定義お よびスケジューリングについて述べる.

YCbCr 変換の変換式は,入力信号により違うが今回の評価では一般的に用いられる RGB 信号からの変換を使用する.RGB から YCbCr への変換は

 $Y_{ij} = R_{ij} * 0.29 + G_{ij} * 0.58 + B_{ij} * 0.11$ 

 $Cb_{ij} = -R_{ij} * 0.16 - G_{ij} * 0.33 + B_{ij} * 0.50$   $Cr_{ij} = R_{ij} * 0.50 - G_{ij} * 0.41 - B_{ij} * 0.08$  $(0 \le i \le 7, 0 \le j \le 7)$ 

で表される.jpeg-v6a では,この式をループによる繰 り返しにより各要素の演算を行なっているが近細粒度 並列性を高めるため今回の評価ではループの展開を行 なう.各ステートメントを近細粒度タスクとして定義 すると式よりそれぞれの近細粒度タスク間にはデータ 依存が存在しない.そのため並列処理可能であること が分かる.

2次元離散コサイン変換 (DCT) は,1次元 DCTを 行方向へ1回,列方向へ1回処理することにより実



図 4 2次元 DCT タスクグラフ Fig. 4 Task graph of 2-D DCT

現される.jpeg-v6a では,この処理を1次元処理を ループによる繰り返し実行を行なうことにより実現し ているが,近細粒度並列性を高めるため今回の評価で はループを展開した.ステートメントを近細粒度タス クとして定義し,そのときの2次元離散コサイン変換 のタスクグラフを図4に示す.各ノードは近細粒度タ スクを示しノードより出る実線はデータ依存を表して いる. 図のように,ループを展開することによって 行方向1次元 DCT 処理中では各行方向の処理間では データ依存が存在しないため並列処理可能なタスクが 多数存在していることが分かる.列方向1次元 DCT 処理中に関しても同様である.

一様量子化処理は,以下の式で示される.

$$Sq_{ij} = round\left(\frac{S_{ij}}{q_{ij}}\right)$$
$$(0 \le i \le 7, 0 \le j \le 7)$$

この場合も,YCbCr 変換同様,ループを展開し各ス テートメントを近細粒度タスクとして定義することで タスク間でのデータ依存は存在せず並列実行可能であ ることがわかる.

エントロピー符号化処理は、1つの量子化DCT係数 を符号化する処理は図5(b)のようにIF-THEN-ELSE により記述された処理になる.データ転送のオーバー ヘッドや同期オーバーヘッドなどを考慮し、このIF-THEN-ELSE 文で囲まれた複数のステートメントを 疑似代入ステートメントとして扱い近細粒度タスクと して定義する.エントロピー符号化処理は、非0係数 と非0係数が出現するまでの間の0の連続値を用い て符号化を行なうため、図5(b)のように直前までの 0の連続値によるデータ依存が存在し並列性の抽出が 難しい.そこで、今回の評価では図5(c)のようにエ ントロピー符号化処理を仮分割し並列性を抽出する. この手法は、ある量子化DCT係数のエントロピー符 号化処理のところで仮分割を行なうことにより、分割 された処理はそれぞれデータ依存がなくなり並列実行 可能とするものである.ただし,分割境界では0の連 続値が分離されてしまうため処理の最後に境界部分の 値を補正する処理を行なう必要がある.

仮分割の際,分割数は近細粒度並列処理を行なうプ ロセッサエレメント数で分割し負荷のバランスを考慮 て分割境界より前の一連の処理と後の一連の処理と で演算コストが均等になるように分割を行なう.しか し,量子化DCT係数が0か非0かにより処理内容が 異なるためタスク演算コストの推定が難しい.また, JPEGエンコーディングに用いられる入力画像は一般 に自然画像を用いるため量子化DCT係数はDCTに よる空間周波数変換により低周波数成分に非0係数が 偏り高周波成分は0になる傾向があるため,複数の入 力画像においてプロファイルをとり,その結果に基づ き各タスクの演算コストを見積もった.

近細粒度タスクの定義後,近細粒度タスクはスケ ジューリングにより PE へ割り当てられる.このとき, データ転送オーバーヘッドを考慮し実行時間を最小 化するヒューリスティックスケジューリングアルゴリ ズムである CP/DT/MISF 法, CP/ETF/MISF 法, ETF/CP 法および DT/CP 法の4手法を同時に適用 し最良のスケジュールを選びスタティックに近細粒度 タスクを割り当てる.

## OSCAR型シングルチップマルチプロセッ サアーキテクチャ<sup>8)</sup>

ここでは, OSCAR 型シングルチップマルチプロ セッサ (SCM) アーキテクチャおよびそのプロセッサ コアアーキテクチャについて述べる.

4.1 メモリアーキテクチャ

OSCAR型 SCM のネットワークおよびメモリアーキ テクチャは,図6のように CPU,データ転送ユニット (DTU),ローカルプログラムメモリ(LPM),ローカル



図 5 エントロピー符号化処理の近細粒度タスク Fig. 5 Near fine grain tasks of entropy coding.



データメモリ (LDM), および分散共有メモリ (DSM) を持つプロセッサエレメント (PE)を相互接続網 (バ ス結合, クロスバ結合など)で接続し1チップ上に搭 載したアーキテクチャである.今回の評価では,デー タ転送を CPU の処理とオーバーラップして行なえる DTU についてはオーバーラップデータ転送スケジュー リングアルゴリズムの開発が終っていないため利用し てない.また, PE 間相互結合網は3本バスを利用し ている.

LPM は各々の CPU で実行するプログラムを格納 し,1 クロックでアクセスできるものとする.同様に, LDM は PE 固有のデータを保持するために使用し,

|         | 表1こ     | プロセッサ:     | コア仕様      |        |
|---------|---------|------------|-----------|--------|
| Table 1 | Specifi | cations of | processor | cores. |

|          | Simple   | 4-issue |
|----------|----------|---------|
| パイプライン段数 | 9        |         |
| 同時命令発行数  | 1        | 4       |
| IEU      | 1        | 2       |
| FPU      | 1        | 2       |
| LSU      | 1        | 1       |
| 命令発行タイプ  | in-order |         |

その容量は 1 チップあたりの総容量を 1M バイトとす る.例えば,1 チップに 2PE 搭載する SCM では,各 PE あたり 512k バイトとして評価を行なっている.ま た,LDM へのアクセスレイテンシは 1 クロックとす る.DSM は,自 PE と他 PE の双方から同時にアク セス可能なマルチポートメモリであり,近細粒度タス ク間のデータ転送等に使用する.DSM の容量は 1PE あたり 16k バイトとし,自 PE からのアクセスレイ テンシは 1 クロック,他 PE からのアクセスレイテン シは 4 クロックとする.さらに,チップ外部には集中 共有メモリ (CSM) が接続され,各 PE で共有される データを格納する.この CSM のアクセスレイテンシ は 20 クロックとする.

OSCAR型 SCM では, これら4種類のメモリに対し最適なデータ配置を行なうことにより効率の良い並列処理を行なうことができる.

4.2 プロセッサコアアーキテクチャ

各 PE が持つ CPU は, SPARC V9 規格に準拠し たプロセッサである Sun Microsystems 社の Ultra-SPARC II<sup>12)</sup>のパイプライン構成をベースとし,バリ ア同期機構等用の特殊レジスタや特殊レジスタを操作 するための命令を付加したプロセッサである.

今回の評価で用いる OSCAR 型 SCM のプロセッ サコアは,整数演算ユニット (IEU)を1本,ロード ストアユニット (LSU)を1本,浮動小数点ユニット (FPU)を1本持つシングルイシューのシンプルな構 成とした.

また,スーパスカラとの比較のため4イシュー inorder 発行スーパースカラプロセッサについても評価 を行なう.このプロセッサは,IEUを2本,LSUを1 本,FPUを2本持つ4イシュー in-order 発行構成で, 動的スケジューリング用命令バッファエントリ数は12 である.なお,メモリアーキテクチャはOSCAR型 SCM と同様である.

4.3 トランジスタ数の概算

ここでは,シングルイシュープロセッサを搭載した OSCAR 型 SCM の回路規模を既存のプロセッサを基 に概算する. プロセッサコアのようなランダムロジックが必要と するトランジスタ数は,論理回路の最適化の度合や高 速化のために費やす回路などにより大きく変化するが, ここではプロセッサコアに要するトランジスタ数を以 下の式<sup>13)</sup>で概算値を求め推定する.ただし,ここで は簡単のために I/Oドライバに関しては扱わない.

プロセッサコアのトランジスタ数

= チップの総トランジスタ数

- キャッシュのトランジスタ数

– I/Oドライバのトランジスタ数

キャッシュのトランジスタ数の概算は,

キャッシュのトランジスタ数

 $= {\rm data} \ {\rm array} + {\rm tag} \ {\rm array} + {\rm LRU} \ {\rm array}$ 

+ data MUX + tag comparators

により算出する.ここで各 array は,メモリアレイを示 し SRAM セルであり 1 セル (=1bit)6 トランジスタで 構成される.データマルチプレクサ (data MUX)のト ランジスタ数は associativity × (2 + assosiativity), tag comparatorsのトランジスタ数は assosiativity×  $(tag + status) \times 4$  で求められる<sup>13)</sup>.

参照するプロセッサとしては,シングルイシュープ ロセッサコアの推定に microSPARC<sup>14)</sup>を用い,また, 今回比較に用いる4イシュー in-order スーパースカ ラプロセッサコアの推定には UltraSPARC<sup>15)</sup>を用い る.各プロセッサの仕様,および算出したトランジス タ数を表2に示す.

以上のプロセッサコアの推定値をもとにプロセッサ コアと DSM のトランジスタ数を合計し, SCM のト ランジスタ数として表3に示す.LDM は各アーキテ クチャで同容量としているのでここでは扱わない.ま た,バスはトライステートバッファのみ,調停回路は Bus Interface のみで構成されるとし簡単のためにこ こでのトランジスタ数見積りでは考慮しない.表より, シングルイシュープロセッサを4基搭載した OSCAR 型 SCM アーキテクチャと4イシュー in-order スー パースカラアーキテクチャは,ほぼ同程度のトランジ スタ数であると推定できる.

5. 性能評価

ここでは, JPEG エンコーディングプログラムにマ ルチグレイン並列処理を適用し OSCAR 型メモリアー キテクチャシングルチップマルチプロセッサ (SCM) 上にて評価した結果について述べる.なお,性能評価 にはクロックレベルシミュレータを用いた.

評価に用いるプログラムは、プログラムソースレベ ルで第3章で提案したマルチグレイン並列性抽出のた



図7 JPEG エンコーディング評価結果 Fig.7 Evaluation result.

めのループアンローリング,粗粒度タスク融合,エン トロピーコーディングのプログラムリストラクチャリ ングを適用し,タスク粒度を第3章で述べた形に成形 したプログラムソースをOSCARマルチグレイン自 動並列化コンパイラを用いてマルチグレイン並列性の 抽出およびタスクスケジューリングを行いSCM用バ イナリを作成した.なお,コンパイラにより生成され たタスクスケジューリング結果は本論文で第3章で提 案した結果と同一である.

入力画像は,MediaBench で用いられる入力画像 (testing.ppm:自然画像)をシミュレーション時間短縮 のために 32x32 pixel に縮小した画像とし,CSM 上に 配置した.シングルチップマルチプロセッサでのデー タ配置は,プログラム開始後,CSM 上に置いている 入力画像データを各 PE 内の LDM ヘコピーし,エン コード処理は各 PE 内の LDM で行い,データ転送は DSM を用いた PE 間データ転送により行われる.処 理完了後,処理結果は CSM へ格納する.4 イシュー スーパースカラプロセッサの場合も同様に,プログラ ム開始後 LDM へ入力画像をコピーし,LDM を用い てエンコード処理を行い,処理結果を CSM へ格納し ている.

OSCAR型 SCM 上での評価結果を逐次実行時間 に対する速度向上率として図 7 に示す.図中横軸の mPGnPEはn個のプロセッサエレメント(PE)をグ ループとしたm個のプロセッサグループ(PG)による 処理を表し,SCM中の総PE数はm×nであること を示す.このmPGnPEというSCM構成は,コンパ イラから見たタスク割り当て単位の仮想的な構成であ り,PG間では粗粒度タスク並列処理,PG内PE間 では近細粒度並列処理を行なうことを前提とし,ハー ドウェアとしては同一である.次に図中の4-issueは, 4 イシュースーパースカラプロセッサによる速度向上 率である.ただし,ここでの4 イシュースーパスカラ

| Table 2 Number of transistors for processor cores. |             |            |  |
|----------------------------------------------------|-------------|------------|--|
| チップ                                                | microSPARC  | UltraSPARC |  |
| 総トランジスタ (万)                                        | 80          | 520        |  |
| 命令キャッシュ (KByte)                                    | 4           | 16         |  |
| データキャッシュ (KByte)                                   | 2           | 16         |  |
| ライン (Byte)                                         | 32(I)/16(D) | 32         |  |
| キャッシュのトランジスタ(万)                                    | 35          | 244        |  |
| コアのトランジスタ (万)                                      | 45          | 276        |  |

表 2 プロセッサコアのトランジスタ数推定

Table 2 Number of transistors for processor cores.

表 3 各アーキテクチャのトランジスタ数推定

| Table 3 Number of transistors for each architectures. |          |         |  |
|-------------------------------------------------------|----------|---------|--|
| アーキテクチャ                                               | SCM(4PE) | 4-issue |  |
| コアのトランジスタ (万)                                         | 180      | 276     |  |
| DSM <b>のトランジスタ</b> (万)                                | 104      | 0       |  |
| 総トランジスタ (万)                                           | 284      | 276     |  |

プロセッサの評価に関しては,OSCAR コンパイラが スーパースカラプロセッサの性能を最大限に引き出す ための最適化を行っていないため参考値として示す.

まず,4 イシュースーパースカラプロセッサを用いた場合,シングルイシュープロセッサの逐次実行時間に対して約1.25 倍の速度向上率を得た.ほぼ同等のトランジスタ数であるシングルイシュープロセッサコアを4 基使用した SCM での 2PG2PE 実行は,逐次実行時間に対して約3.59 倍の速度向上率が得られ,4 イシュースーパースカラプロセッサに対しても約2.87 倍の性能向上が得られたことが分かる.これは,JPEGエンコーディング処理は積和演算を多用するため乗算などのマルチサイクル命令によるパイプラインストールが発生し4 イシュースーパースカラプロセッサでは十分な性能が出せないがシングルイシュープロセッサコアを複数搭載した SCM ではプロセッサ間負荷分散により効果的な並列処理が行なえるためである.

次に,OSCAR型SCMアーキテクチャでの粗粒度 並列処理単体性能と近細粒度並列処理単体性能,およ び粗粒度並列処理と近細粒度並列処理を階層的に組み 合わせたマルチグレイン並列処理での性能を比較する. 図7に示すように,総PE数が2の時では,逐次実 行時に対し粗粒度並列処理を用いた2PG1PEでは約 1.50倍,近細粒度並列処理を用いた1PG2PEでは約 1.62倍の速度向上率が得られた.同様に総PE数が 4の時,8x8pixelブロック間の粗粒度並列性のみを用 いた4PG1PEでは約3.36倍,8x8pixelブロック内 の近細粒度並列性のみを用いた1PG4PEでは約2.70 倍,PG間で8x8ブロック間の並列性を用いた粗粒度 並列処理を行いPG内PEで8x8ブロック内の並列性 を用いた近細粒度並列処理を行うマルチグレイン並列

処理を行う 2PG2PE では約 3.59 倍の速度向上率が得 られた.以上より使用プロセッサ数が同じ時には,階 層的なマルチグレイン並列処理を使用した場合の方が 高い実行効率を与えることが確かめられた.この理由 を以下に述べる.まず,近細粒度並列処理のみを用い た場合は,使用プロセッサ数の増加により PE 間デー タ転送オーバーヘッドおよび同期オーバーヘッドが増 加したため処理性能の低下が見られた.粗粒度並列処 理のみの場合は,エントロピー符号化処理では,処理 を行なう量子化 DCT 係数の値が 0 か非 0 かにより 実行時間が変化するので,粗粒度タスク MTai は入力 データによりタスク実行時間が異なるため粗粒度並列 処理のみを利用した場合,各タスク処理時間のばらつ きが生じ各プロセッサに負荷のアンバランスが生じた (図8(a)).しかし,粗粒度並列処理と近細粒度並列 処理を階層的に用いたマルチグレイン並列処理では、 近細粒度並列処理により1つの MT が複数のプロセッ サ上で処理されるため負荷バランスが向上し、より高 い実行効率が得られたのである(図8(b)).

#### 6. ま と め

本論文では, JPEG エンコーディング処理における, 従来より行なわれていた命令レベル並列性の利用とは 異なるアプローチの 8x8 ブロック間の粗粒度並列性 と 8x8 ブロック内の近細粒度並列性を階層的に用い るシングルチップマルチプロセッサ用マルチグレイン 並列処理手法を提案しその性能評価を行なった.その 結果シングルイシュープロセッサコアを4基搭載した OSCAR型SCM上では,逐次実行時間に対し約3.59 倍の速度向上率が得られた.以上よりシンプルなプロ セッサコアを集積した OSCAR型SCM上でのJPEG



(a) Coarse grain parallel processing (b) Multigrain parallel processing

図 8 JPEG エンコーディング実行時間イメージ Fig. 8 Execution time of JPEG encoding.

エンコーディングのマルチグレイン並列処理は集積度 向上に対しスケーラブルな性能向上を可能とするとい うことが確認できた.

今後の課題として, MPEG-2や JPEG2000 などの マルチメディアアプリケーションを含めたアプリケー ションのマルチグレイン並列化手法の検討およびマル チグレイン並列処理をサポートするシングルチップマ ルチプロセッサアーキテクチャの開発が挙げられる.

謝辞 本研究の一部は,STARC「自動並列化コン パイラ協調型シングルチップマルチプロセッサの研究」 及び経済産業省/NEDO ミレニアムプロジェクト「ア ドバンスト並列化コンパイラ」により行われた.本論 文作成にあたり,有益なコメントをいただいた富士通 高橋宏政氏,STARC平田雅規氏,宮田操氏,東芝浅 野滋徳氏,安川英樹氏,ソニー倉田隆弘氏,松下高 山秀一氏に感謝致します.

#### 参考文献

- S. K. Raman, V. Pentkovki and J.Keshava: Implementing Streaming SIMD Extensions on the Pentium III Processor, *IEEE MICRO*, Vol. 20, No. 4 (2000).
- F. Arakawa, O. Nishi, K. Uchiyama and N. Nakagawa: SH4 RISC Multimedia Microprocessor, *IEEE MICRO*, Vol. 18, No. 2 (1998).
- A. Suga and K. Matsunami: Introducting the FR500 Embedded Microprocessor, *IEEE MI-CRO*, Vol. 20, No. 4 (2000).
- M. Edahiro, S. Matsushita, M. Yamashita and N. Nishi: A Single-Chip Multiprocessor for Smart Terminals, *IEEE MICRO*, Vol. 20, No. 4 (2000).
- L. Hammond, B. Hubbert, M. Siu, M. K. Prabhu, M. Chen and K. Olukotun: The Stanford HYDRA CMP, *IEEE MICRO*, Vol. 19,

No. 2 (1999).

- 6) E. Iwata and K. Olukotun: Exploiting Coarse-Grain Parallelism in the MPEG-2 Algorithm, CSL-TR-98-771, Stanford University Computer System Lab. (1998).
- H. Kasahara, M. Obata and K. Ishizaka: Automatic Coarse Grain Task Parallel Processing on SMP using OpenMP, Proc. 12th Workshop on Languages and Compilers for Parallel Computing (2000).
- 木村啓二、加藤孝幸、笠原博徳:近細粒度並列処理 用シングルチップマルチプロセッサにおけるプロ セッサコアの評価、情報処理学会論文誌、Vol. 42, No. 4 (2001).
- 9) C. Lee, M. Potkonjak and W. H. Mangione-Smith: MediaBench: A Tool for Evaluating and Synthesizing Multimedia and Communications Systems, 30th International Symposium on Microarchitecture (MICRO-30) (1997).
- 10) E. Hamilton: JPEG File Interchange Format Version 1.02 (1992).
- 11) Aldus Developers Desk:  $TIFF^{TM}$  Revison 6.0 (1992).
- Sun Microelectronics: UltraSPARC<sup>T M</sup> User's Manual (1997).
- 13) B. Geuskens and K. Rose: *MODELING MI-CROPROCESSOR PERFORMANCE* (1998).
- 14) Texas Instruments: TMS390S10 Microprocessor (2000).
- 15) L. A. Lev and et al.: A 64-b microprocessor with multimedia support., *IEEE Journal of SOLID-STATE CIRCUITS*, Vol. 30, No. 11 (1995).

(平成 14 年 1 月 25 日受付)(平成 14 年 5 月 15 日採録)



小高 剛(学生会員) 昭和52年生.平成11年早稲田大 学理工学部電気電子情報工学科卒業. 同年(株)ユニシアジェックス入社. 平成12年同社退社.同年早稲田大 学大学院科目等履修生.平成13年

同大学大学院修士課程入学.平成14年同大学大学院 修士課程修了.同年同大学大学院博士課程進学,現在 に至る.



#### 内田貴之

昭和52年生.平成12年早稲田大 学理工学部電気電子情報工学科卒業. 平成14年同大学大学院修士課程修 了.同年三菱電機(株)入社,現在 に至る. 木村 啓二(正会員)

昭和 47 年生. 平成 8 年早稲田大 学理工学部電気工学科卒業. 平成 13 年同大学大学院理工学研究科電気工 学専攻博士課程修了.博士(工学). 平成 11 年同大学同学部助手. 平成

14年同大学理工学総合研究センター客員講師,現在 に至る.マルチグレイン並列処理用プロセッサアーキ テクチャに関する研究に従事.

笠原 博徳(正会員)

昭和 32 年生.昭和 55 年早稲田 大学理工学部電気工学科卒業.昭和 60 年同大学大学院博士課程修了.工 学博士.昭和 58 年同大学同学部助 手.昭和 60 年学術振興会特別研究

員.昭和61年早稲田大学理工学部電気工学科専任講 師.昭和63年同助教授.平成9年同大学電気電子情報 工学科教授,現在に至る.平成元年~2年イリノイ大 学 Center for Supercomputing Research & Development 客員研究員.昭和62年 IFAC World Congress 第一回 Young Author Prize.平成9年度情報処理学 会坂井記念特別賞受賞.著書「並列処理技術」(コロ ナ社).情報処理学会,電子情報通信学会,IEEE な どの会員.