# OSCAR型シングルチップマルチプロセッサ上での JPEGエンコーディングプログラムの

# マルチグレイン並列処理

| 小高 则 内田貝, |
|-----------|
|-----------|

# 木村啓二 笠原博徳

早稲田大学理工学部電気電子情報工学科

〒 169-8555 東京都新宿区大久保 3-4-1 TEL:03-5286-3371 E-mail: {kodaka,uchida,kimura,kasahara}@oscar.elec.waseda.ac.jp

近年の JPEG,MPEG などを用いたマルチメディアコンテンツの増加に伴い,これらマルチメディアアプリケーションを効率良く処理できる低コストかつ低消費電力のプロセッサの開発が望まれている.特に,簡素なプロセッサコアを 複数搭載したシングルチップマルチプロセッサアーキテクチャは最も有望なアプローチとして注目され研究・開発がな されている.本論文では,OSCAR型メモリアーキテクチャシングルチップマルチプロセッサ上での JPEG エンコー ディングプログラムのマルチグレイン並列処理手法を提案すると共に,提案手法を適用した JPEG エンコーディング プログラムの OSCAR型メモリアーキテクチャシングルチップマルチプロセッサ上で評価を行なった.その結果,シ ンプルなシングルイシュープロセッサを4基搭載した OSCAR型シングルチップマルチプロセッサでは,逐次実行に 対して約3.59 倍の性能向上が得られ,ほぼ同程度のトランジスタ数であると考えられる UltraSPARC-II 相当の4イ シュースーパースカラプロセッサをコアとしたアーキテクチャに対しても約2.87 倍の性能向上が得られた.

# Multigrain Parallel Processing for JPEG Encoding Program on an OSCAR type Single Chip Multiprocessor

TAKESHI KODAKA , TAKAYUKI UCHIDA , KEIJI KIMURA and HIRONORI KASAHARA

Dept. of Electrical, Electronics and Computer Engineering, Waseda University

3-4-1 Ohkubo Shinjuku-ku, Tokyo 169-8555, Japan Tel: +81-3-5286-3371 E-mail: {kodaka,uchida,kimura,kasahara}@oscar.elec.waseda.ac.jp

With the recent increase of multimedia contests using JPEG and MPEG, low cost, low power consumption and high performance processors for multimedia have been expected. Particularly, single chip multiprocessor architecture having simple processor cores is attracting much attention to develop such processors. This paper describes multigrain parallel processing scheme for a JPEG encoding program for OSCAR type single chip multiprocessor and its performance. The evaluation shows an OSCAR type single chip multiprocessor having four single-issue simple processor cores gave us 3.59 times speed-up than sequencial execution and 2.87 times speed-up than OSCAR type single chip multiprocessor that has a four-issue UltraSPARC-II type super-scaler processor core.

# 1 はじめに

最近のマルチメディアコンテンツの増加に従い JPEG, MPEG などのメディア系アプリケーション を効率良く処理できる,低コストかつ低消費電力 の高性能プロセッサの開発が望まれている.このよ うなニーズに対応するために CPU ベンダーからは Intel の PentiumIII などに搭載されている SSE<sup>1)</sup>や, 日立の SH4<sup>2)</sup>,富士通の FR500<sup>3)</sup> などのような命令 セットアーキテクチャにメディア用命令セットを追 加しメディア用処理能力を向上させる試みが行われ ている.

また,上記の要求を満たす別のアプローチとし て,簡素なプロセッサコアを複数搭載したシングル チップマルチプロセッサが注目を集めており,シン グルチップマルチプロセッサを用いてメディア系ア プリケーションの高速化を行う試みもなされている. NEC の MP98<sup>4)</sup>では,1 チップ上に4CPUを搭載 しマルチスレッド処理により高速化をはかっている. また,Stanford 大では,2次キャッシュ共有型のシン グルチップマルチプロセッサ Hydra<sup>5)</sup>上でのメディ アアプリケーションの高速化が提案されている<sup>6)</sup>. 本論文では, OSCAR 型メモリアーキテクチャシ ングルチップマルチプロセッサ上での JPEG エン コーディングプログラムのマルチグレイン並列処理 手法を提案し,提案手法を適用した JPEG エンコー ディングプログラムの OSCAR 型シングルチップマ ルチプロセッサ上での評価結果を述べる.

以降,2. にてマルチグレイン並列処理,3. にて 提案する JPEG エンコーディングプログラムのマ ルチグレイン並列処理手法,4. にて本論文の評価 で用いる OSCAR 型シングルチップマルチプロセッ サアーキテクチャ,5. にてマルチグレイン並列処 理を適用した JPEG エンコーディングプログラム の OSCAR 型シングルチップマルチプロセッサ上で 行った性能評価についてそれぞれ述べる.

# 2 マルチグレイン並列処理

ここでは,OSCAR 型シングルチップマルチプロ セッサで扱うマルチグレイン並列処理技術について 述べる.マルチグレイン並列処理とは,ループやサ ブルーチン等の粗粒度タスク間の並列処理を利用 する粗粒度タスク並列処理(マクロデータフロー処 理)<sup>7)</sup>,ループイタレーションレベルの並列処理であ る中粒度並列処理,基本ブロック内部のステートメ ントレベルの並列性を利用する近細粒度並列処理<sup>8)</sup> を階層的に組み合わせてプログラム全域に渡る並列 処理を行なう手法である.

 2.1 粗粒度タスク並列処理<sup>7)</sup> (マクロデータフロー処理)

マクロデータフロー処理では, ソースとなるプロ グラムを疑似代入文ブロック (BPA), 繰り返しブ ロック (RB), サブルーチンブロック (SB) の三種 類の粗粒度タスク (マクロタスク (MT)) に分割す る.MT 生成後, コンパイラは BPA, RB, SB,等 の MT 間のコントロールフローとデータ依存を解析 しそれらを表したマクロフローグラフ (MFG)を生 成する.さらに MFG から MT 間の並列性を最早実 行可能条件解析により引きだし,その結果をマクロ タスクグラフ (MTG) として表現する.その後,コ ンパイラは MTG 上の MT をプロセッサあるいは プロセッサクラスタ (PC) に割り当てる. **2.2** 中粒度並列処理 (ループ並列処理)

PG に割り当てられた MT が Doall 可能な RB で ある場合,この RB は PG 内のプロセッシングエレ メント (PE) に対して,イタレーションレベルで割 り当てられ並列実行される.

#### 2.3 近細粒度並列処理<sup>8)</sup>

PG に割り当てられた MT が, BPA や中粒度並 列処理を適用できない RB である場合, それらはス テートメントレベルのタスクに分割され, PG 内の PE により並列処理される.

近細粒度並列処理においては, BPA 内のステー トメント,もしくは複数ステートメントから構成さ れる疑似代入文を一つの近細粒度タスクとして定義 する.近細粒度タスクは,スタティックスケジュー リングされた後, PG 内の各 PE へ割り当てられる.

# 3 JPEG エンコーディングアルゴリズム のマルチグレイン並列処理手法

ここでは, JPEG エンコーディングアルゴリズム のマルチグレイン並列処理手法について述べる.本 論文で扱う JPEG エンコーディングアルゴリズム は, MediaBench<sup>9)</sup> に収録されている JPEG ベンチ マークプログラムである" jpeg-v6a"のものをベー スとする.まず, JPEG エンコーディングにおける 各処理について簡単に述べた後,これらの間のマル チグレイン並列性を利用する手法を述べる.

3.1 JPEG エンコーディングアルゴリズム<sup>10),11)</sup>

JPEG エンコーディングは以下の 6 つの処理から なる.

- 8x8-pixel ブロック分割 入力画像データを JPEG 基本処理単位である 8x8-pixel ブロックに分割
- YCbCr 変換 (YCbCr) 分割された 8x8-pixel ブロックのデータを JPEG のデータフォーマットである YCbCr フォー マットへ変換
- 2次元離散コサイン変換処理 (DCT) YCbCr フォーマットへ変換された 8x8 ブロッ クデータに対し 2次元離散コサイン変換を行

なう.なお,変換後のデータは最左上の1デー タは直流 (DC) 係数,その他の63データは交 流 (AC) 係数と呼ばれる

- -様量子化 (Quantize) 量子化テーブルを用い DCT 係数に対し1次 元一様量子化を行なう.
- 5. 量子化 DC 係数の 1 次元予測 (1-D DC Prediction)
  量子化された DC 係数と 1 つ前の 8x8 ブロックの量子化 DC 係数を減算し 1 次元 DC 予測 値を計算する
- 6. エントロピー符合化
  1次元 DC 予測値および量子化 AC 係数を可変
  長符合を用いてエントロピー符合化を行なう.

上記 6 つの処理を入力画像データが終るまで繰り返 して行なわれる.図1に JPEG エンコーディング 実行ブロック図を示す.



図 1: JPEG エンコーディング実行ブロック図

# 3.2 マルチグレイン並列化 JPEG エンコーディ ング

3.1 で述べた基本的な JPEG エンコーディング アルゴリズムでは,量子化 DC 係数の 1 次元予測 (1-D DC Prediction)で1つ前の8x8 ブロックの 量子化 DC 係数を用いるため,8x8 ブロック間での データ依存が存在する.しかし,その他のYCbCr 変換,DCT およびエントロピー符合化処理では8x8 ブロック内のデータのみ扱うため8x8 ブロック間の データ依存は存在しない.これらのデータ依存を 考慮し,並列処理を効果的に行なうために1-D DC Prediction 処理および, 1-D DC Prediction の処理 結果の1次元DC予測値を用いる1次元DC予測値 のエントロピー符合化処理 (DC EC) を図 2(a) のよ うに YCbCr,DCT,Quantize および量子化 AC 係数 のエントロピー符合化処理(ACEC)の後ろに移動す る.そして,8x8ブロック処理をJPEGエンコーディ ング基本処理単位として, YCbCr, DCT, Quantize お よび AC EC を 1 つのマクロタスク (図中  $MT_a$ ) と して定義し,同様に1-D DC Prediction およびDC  $EC も 1 つのマクロタスク (図中 MT_b) として定義$ する.JPEG エンコーディング処理の実行では,入 カデータを 8x8 ブロックに分割後, すべての 8x8 ブ ロックについて  $MT_a$  を実行し, その後  $MT_b$  の実 行を行なう.このような処理手順を行なうことによ り MT<sub>b</sub>を処理開始前にはすべての量子化 DC 係数 が計算されているため,他のPCで割り当てられた MT<sub>b</sub> が必要とする量子化 DC 係数を転送すること により $MT_b$ が並列実行可能となる. $MT_a$ ,  $MT_b$ の 各 PC への割り当ては, 各 PC で処理される MT<sub>a</sub> および MTb の数が等しくなるように割り当る.そ の際,データ転送の最小化を考慮し同じ 8x8 ブロッ クを同一 PC 内で処理できるように  $MT_a$ ,  $MT_b$ の スケジューリングを行ないスタティックに各 MT を 割り当てる.

図 2(b) に入力データが 16x16pixel で PC 数 2 の時 の実行イメージを示す.まず,入力データを block1 から block4 の 4 つの 8x8 ブロックに分割をにする. PC1 では block1 と block2 を処理する  $MT_{a1}$  およ び  $MT_{a2}$  が実行され,同様に PC2 では block3 と block4 を処理する  $MT_{a3}$  および  $MT_{a4}$  が実行され る.このとき,各  $MT_a$  間では依存がないため各 PC 間で並列に処理される.すべての  $MT_a$  が実行され た後, $MT_b$ 実行前に,PC2 で処理されている block3 の 1-D DC Prediction で必要とされる block2 の量 子化 DC 係数を PC1 から PC2 へ転送する.データ 転送後,各 PC 間で  $MT_b$  が並列実行される.

MT<sub>a</sub>, MT<sub>b</sub> 内の処理においては, 近細粒度並列 処理により効果的な並列処理ができることが確認さ れている<sup>12)</sup>.このとき近細粒度タスクは, PC 内の PE に割り当てられ処理が行なわれる.近細粒度並 列処理では,演算コストが数10クロックの近細粒度 タスクをスタティックに PE へ割り当てるため,各



Output (b) Execution Flow image (2PCs)

図 2: 並列化 JPEG エンコーディング

タスクのコスト推定が性能に大きな影響を与える. しかし,エントロピー符合化処理では演算コストが 入力データに依存する(DCT係数の低周波数成分ほ ど演算コストが大きい傾向がある).そのため,エン トロピー符合化処理のコスト推定にはプロファイル 結果を基に各タスクの演算コストを見積もった.ス ケジューリングについては,ヒューリスティックスケ ジューリングアルゴリズムであるCP/DT/MISF法, CP/ETF/MISF法,ETF/CP法およびDT/CP法 の4手法のうち最良のスケジュール結果を適用し, その後スタティックに近細粒度タスクを割り当てた. 本論文では,8x8 ブロック間の並列性を用いる粗 粒度並列処理と8x8 ブロック内の並列性を用いる近 細粒度並列処理を用いた階層的なマルチグレイン並 列処理を利用する.

4 OSCAR型シングルチップマルチプロ セッサアーキテクチャ<sup>8)</sup>

ここでは,OSCAR型シングルチップマルチプロ セッサ (SCM)アーキテクチャおよびそのプロセッ サコアアーキテクチャについて述べる.

#### 4.1 メモリアーキテクチャ

OSCAR型SCMのネットワークおよびメモリアー キテクチャは,図3のようにCPU,データ転送ユ ニット(DTU),ローカルプログラムメモリ(LPM), ローカルデータメモリ(LDM),および分散共有メ モリ(DSM)を持つプロセッシングエレメント(PE) を相互接続網(バス結合,クロスバ結合など)で接 続し1チップ上に搭載したアーキテクチャである. 今回の評価では,データ転送をCPUの処理とオー バーラップして行なえるDTUについてはオーバー ラップデータ転送スケジューリングアルゴリズムの 開発が終っていないため利用してない.また,PE 間相互結合網は3本バスを利用している.



図 3: OSCAR 型 SCM アーキテクチャ

LPM は各々の CPU で実行するプログラムを格納 し,1クロックでアクセスできるものとする.同様 に,LDM は PE 固有のデータを保持するために使 用し,その容量は1チップあたりの総容量を1Mバ イトとする.例えば,1チップに2PE 搭載するSCM では,各PE あたり512kバイトとして評価を行なっ ている.また,LDM へのアクセスレイテンシは1 クロックとする.DSM は,自PE と他PEの双方 から同時にアクセス可能なマルチポートメモリであ り,近細粒度タスク間のデータ転送や,マクロデー タフロー処理におけるダイナミックスケジューリン グ時のスケジューリング情報の通知等に使用する. DSM の容量は1PE あたり16k バイトとし,自PE からのアクセスレイテンシは1クロック,他PEか らのアクセスレイテンシは4クロックとする.さら に,チップ外部には集中共有メモリ(CSM)が接続 され,各PEで共有されるデータを格納する.この CSM のアクセスレイテンシは20クロックとする.

OSCAR 型 SCM では, これら4 種類のメモリに 対し最適なデータ配置を行なうことにより効率の良 い並列処理を行なうことができる.

4.2 プロセッサコアアーキテクチャ

各 PE が持つ CPU は, SPARC V9 規格に準拠し たスーパースカラプロセッサである Sun Microsystems 社の UltraSPARC II<sup>13)</sup>のパイプライン構成を ベースとし,バリア同期機構等用の特殊レジスタや 特殊レジスタを操作するための命令を付加したプロ セッサである.

今回の評価で用いる OSCAR 型 SCM のプロセッ サコアは,整数演算ユニット (IEU) を1本,ロー ドストアユニット (LSU) を1本,浮動小数点ユニッ ト (FPU) を1本持つシングルイシューのシンプル な構成とした.

また,スーパスカラとの比較のためUltraSPARC-II 相当のプロセッサコア(US-II)を用いたアーキテ クチャについても評価を行なう.UltraSPARC-II 相 当のプロセッサコアは,IEUを2本,LSUを1本, FPUを2本持つ4イシューin-order発行構成で,動 的スケジューリング用命令バッファエントリ数は12 である.なお,シングルイシュープロセッサコアを 4 基持ったOSCAR型SCMとUltraSPARC-II 相 当のプロセッサコア1基を持ったOSCAR型SCM はトランジスタ数はほぼ同等であると考えられる.

### 5 性能評価

ここでは, JPEG エンコーディングプログラムに マルチグレイン並列処理を適用し OSCAR 型メモ リアーキテクチャシングルチップマルチプロセッサ (SCM) 上にて評価した結果について述べる.

OSCAR 型 SCM 上での評価結果を逐次実行時間 に対する速度向上率として図 4 に示す. 図中横軸

表 1: プロセッサコア仕様

|          | Simple   | US-II Type |
|----------|----------|------------|
| パイプライン段数 | 9        |            |
| 同時命令発行数  | 1        | 4          |
| IEU      | 1        | 2          |
| FPU      | 1        | 2          |
| LSU      | 1        | 1          |
| 命令発行タイプ  | in-order |            |



図 4: JPEG エンコーディング評価結果

の mPCnPE は SCM は m 個のプロセッサクラスタ (PC)を持ち,各 PC が n 個のプロセッサエレメント (PE)を持つことを示す.よって,SCM 中の総 PE 数は  $m \times n$  である.このとき,PC 間では粗粒度タ スク並列処理,PC 内 PE 間では近細粒度並列処理 を行なうことを前提としている.次に図中の US-II は,UltraSPARC-II 相当の4イシュースーパースカ ラプロセッサコアによる速度向上率である.

まず,UltraSPARC-II 相当のプロセッサコアを用 いた場合,シングルイシュープロセッサコアの逐次実 行時間に対して約1.25の速度向上率を得た.ほぼ同 等のトランジスタ数であるシングルイシュープロセッ サコアを4基使用したアーキテクチャでの2PC2PE 実行時と比較するとシンプルなプロセッサコアを 4基使用したアーキテクチャでは,UltraSPARC-II 相当プロセッサコアを1基使用したアーキテクチャ に対して約2.87倍の性能向上が得られることが分 かる.これは,JPEGエンコーディング処理では積 和演算を多用するので乗算などのマルチサイクル 命令によるパイプラインストールが発生するため UltraSPARC-II 相当のスーパースカラプロセッサ では十分な性能が出せないのに対し,シングルイ シュープロセッサコアを複数搭載した SCM アーキ テクチャではプロセッサ間負荷分散により効果的な 並列処理が行なえたためである.

次に,OSCAR型SCMアーキテクチャで粗粒度 並列処理単体での性能と粗粒度並列処理と近細粒度 並列処理を階層的に組み合わせたマルチグレイン並 列処理での性能を比較すると,総PE数が2の時 では,逐次実行時に対し2PC1PEでは約1.50倍, 1PC2PEでは約1.62倍の速度向上率が得られた. 同様に総PE数が4の時,4PC1PEでは約3.36倍, 2PC2PEでは約3.59倍の速度向上率が得られた.以 上より使用プロセッサ数が同じ時には,階層的なマ ルチグレイン並列処理を使用した場合の方が高い実 行効率を与えることが確かめられた.この理由は, 粗粒度並列処理と近細粒度並列処理を用いた階層 的なマルチグレイン並列処理を行なうことにより, 各プロセッサ間の負荷バランスがより良くなりプロ セッサアイドル時間が低減されるためと考えられる.

#### 6 まとめ

本論文では, JPEG エンコーディング処理のマル チグレイン並列処理手法を提案し OSCAR 型メモ リアーキテクチャシングルチップマルチプロセッサ (SCM)上にて評価を行なった.その結果シングル イシュープロセッサコアを4基搭載した OSCAR型 SCM上にて逐次実行時間に対し約3.59倍の速度向 上率が得られた.また,シングルイシュープロセッ サコアを4基搭載したSCMではほぼ同等のトラン ジスタ数を持つUltraSPARC-II 相当プロセッサコ アを1基搭載したSCMに対し約2.87倍の性能向上 が得られることが確かめられた.以上よりシンプル なプロセッサコアを集積したOSCAR型SCM上で のJPEG エンコーディングのマルチグレイン並列 処理は集積度向上に対しスケーラブルな性能向上を 可能とするということが確認できた.

今後の課題として, MPEG-2 や JPEG2000 など のマルチメディアアプリケーションに対するマルチ グレイン並列化手法の検討及びより大規模な SCM 上での評価等が挙げられる.

## 謝辞

本研究の一部は,STARC「自動並列化コンパイラ 協調型シングルチップマルチプロセッサの研究」及 び経済産業省/NEDO ミレニアムプロジェクト「ア ドバンスト並列化コンパイラ」により行われた.本 論文作成にあたり,有益なコメントをいただいた STARC研究員である,STARC平田雅規氏,宮田 操氏,東芝浅野滋徳氏,安川英樹氏,富士通 高橋 宏政氏,ソニー 倉田隆弘氏,松下 高山秀一氏に感 謝致します.

# 参考文献

- S. K. Raman, V. Pentkovki and J.Keshava: Implementing Streaming SIMD Extensions on the Pentium III Processor, *IEEE MICRO*, Vol. 20, No. 4 (2000).
- [2] F. Arakawa, O. Nishi, K. Uchiyama and N. Nakagawa: SH4 RISC Multimedia Microprocessor, *IEEE MICRO*, Vol. 18, No. 2 (1998).
- [3] A. Suga and K. Matsunami: Introducting the FR500 Embedded Microprocessor, *IEEE MICRO*, Vol. 20, No. 4 (2000).
- [4] M. Edahiro, S. Matsushita, M. Yamashita and N. Nishi: A Single-Chip Multiprocessor for Smart Terminals, *IEEE MICRO*, Vol. 20, No. 4 (2000).
- [5] L. Hammond, B. Hubbert, M. Siu, M. K. Prabhu, M. Chen and K. Olukotun: The Stanford HYDRA CMP, *IEEE MICRO*, Vol. 19, No. 2 (1999).
- [6] E. Iwata and K. Olukotun: Exploiting Coarse-Grain Parallelism in the MPEG-2 Algorithm, CSL-TR-98-771, Stanford University Computer System Lab. (1998).
- [7] H. Kasahara, M. Obata and K. Ishizaka: Automatic Coarse Grain Task Parallel Processing on SMP using OpenMP, Proc. 12th Workshop on Languages and Compilers for Parallel Computing (2000).
- [8] 木村啓二,加藤孝幸,笠原博徳:近細粒度並列処理用シング ルチップマルチプロセッサにおけるプロセッサコアの評価, 情報処理学会論文誌, Vol. 42, No. 4 (2001).
- [9] C. Lee, M. Potkonjak and W. H. Mangione-Smith: MediaBench: A Tool for Evaluating and Synthesizing Multimedia and Communications Systems, 30th International Symposium on Microarchitecture (MICRO-30) (1997).
- [10] E. Hamilton: JPEG File Interchange Format Version 1.02 (1992).
- [11] Aldus Developers Desk:  $TIFF^{TM}$  Revison 6.0 (1992).
- [12] 小高剛,宮下直久,木村啓二,笠原博徳:シングルチップマル チプロセッサ上でのマルチメディアアプリケーションの近 細粒度並列処理,ARC2001-140-11,情報処理学会 (2001).
- [13] Sun Microelectronics: UltraSPARC<sup>TM</sup> User's Manual (1997).