# 近細粒度並列処理用シングルチップ マルチプロセッサにおけるプロセッサコアの構成

| 木 | 村 | 啓 | <u> </u> | 内         | 田田 | 貴 | Ź |
|---|---|---|----------|-----------|----|---|---|
| 加 | 藤 | 孝 | 幸††      | <u>**</u> | 原  | 博 | 徳 |

## 早稻田大学理工学部電気電子情報工学科

## (株)本田技研 †

〒 169-8555 東京都新宿区大久保 3-4-1 TEL:03-5286-3371 E-mail: {kimura,uchida,kato,kasahara}@oscar.elec.waseda.ac.jp

あらまし 1 チップ上に搭載可能なトランジスタ数が増加するにともない,これらの資源を如何に有効に活用し, どのようにスケーラブルな性能向上を達成するかが大きな課題となっている.とりわけ,チップ内で利用できる命令レ ベル以外の並列性をより多く抽出する技術がこれまで以上に重要となる.このように命令レベル以外の並列性も有効に 活用できるアーキテクチャの一つとして1チップ上に複数のプロセッサコアを搭載したシングルチップマルチプロセッ サ(SCM)が大きな注目を集めている.本論文では,マルチグレイン並列処理に適した SCM のプロセッサコアを検 討するために,マルチグレイン並列処理の主要技術の一つである近細粒度並列処理を,プロセッサコアの同時命令発行 数やプロセッサコア共有グローバルレジスタファイルの本数を変えた SCM アーキテクチャに適用して評価を行ったの で,その結果について述べる.

# **Processor Core Architecture of Single Chip Multiprocessor**

# for Near Fine Grain Parallel Processing

Keiji Kimura<sup>†</sup> , Takayuki Uchida<sup>†</sup> , Takayuki Kato<sup>††</sup> and Hironori Kasahara<sup>†</sup>

Department of Electrical, Electronics and Computer Engineering, Waseda University<sup>†</sup> HONDA MOTOR CO., Ltd<sup>††</sup>

3-4-1 Ohkubo Shinjuku-ku, Tokyo 169-8555, Japan Tel: +81-3-5286-3371 E-mail: {kimura,uchida,kato,kasahara}@oscar.elec.waseda.ac.jp

**Abstract** With continuously increase of transistors integrated onto a chip, it has been a very important how to achieve scalable performance improvement using these transistors effectively. Especially, exploiting different grains of parallelism in addition to instruction level parallelism and effective use of this parallelism in a single chip is getting more important. To this end, a single chip multiprocessor (SCM) architecture that contains multiple processor cores has been attracted much attention. To decide suitable SCM processor core architecture for multigrain parallel processing, this paper evaluates several SCM architectures which have different instruction issue widths and numbers of global shared register file for near fine grain parallel processing, which is one of the key issues in multigrain parallel processing.

# 1 はじめに

半導体集積技術の向上にともない,チップ内に投入された大量の資源を有効に活用し,スケーラブルな性能向上を達成するためのアーキテクチャおよびコンパイル技術の研究が一層重要となっている.とりわけ,プログラム中から,従来の命令レベルにとどまらずより多くの並列性を抽出し,チップ内で利用する技術が強く求められている.たとえば,EPIC<sup>1)</sup>ではコンパイラによる静的解析により抽出された条件分岐を越えた命令レベル並列性を,predicated

execution 等のアーキテクチャサポートにより利用 しようとしている.また,Emotion Engine<sup>2)</sup>では, 画像・音声等の高速処理を目的とし,RICS コアと二 つのベクトル演算ユニットを1チップ上に搭載して いる.さらに,複数のプロセッサコアを1チップ上に 集積するシングルチップマルチプロセッサ(SCM) では,MAJC のようにマルチメディア用途に2基の VLIW コアを集積したもの<sup>3)</sup>,Power4のように高 性能サーバ用途に2基のスーパースカラでオンチッ プL2キャッシュを共有する構成のもの<sup>4)</sup>,Hydra, Multiscalar,Superthreaded,Merlotのような,2 命令発行程度のスーパースカラコアを複数搭載し, スレッド投機実行をサポートするアーキテクチャで 命令レベル並列性とスレッドレベル並列性を利用す るもの<sup>5)~8)</sup>, RAW や FlexRAM のように簡素なプ ロセッサとローカルメモリを持つプロセッシングエ レメント(PE)をチップ内に多数配置し,その挙 動をコンパイラで制御するもの<sup>9),10)</sup> などといった 研究がなされている.

また,OSCAR マルチグレイン SCM<sup>11)</sup>は,複数 命令レベルでの並列処理である(近)細粒度並列処 理<sup>12)</sup>に加え,より大きな並列性を持つループイタ レーションレベルの中粒度並列処理<sup>13)</sup>およびサブ ルーチンあるいはループ,基本ブロック間の粗粒度 並列性<sup>14),15)</sup>を階層的に組み合わせて使用し,プロ グラム全体から並列性を引き出すことができる.こ のマルチグレイン並列処理<sup>16)</sup>により,SCM アーキ テクチャの持つ能力を有効に引き出し,価格性能比 の優れたスケーラブルなプロセッサを構築できると 考えている.

本論文では、マルチグレイン並列処理をサポート する OSCAR マルチグレイン SCM アーキテクチャ のプロセッサコアの構成を検討するため、まずマル チグレイン並列処理の主要構成要素の一つである近 細粒度並列処理を、命令発行数の異なるプロセッサ コアおよび本数の異なるプロセッサコア間グローバ ル共有レジスタファイルを持った SCM アーキテク チャに適用して評価を行った。

以下,2節でマルチグレイン並列処理について,3 節で本論文で評価するSCMについて,4節でこれ らのアーキテクチャに近細粒度並列処理を適用して 評価した結果について述べる.

# 2 マルチグレイン並列処理

本節では,OSCAR マルチグレインシングルチッ プマルチプロセッサで扱う,マルチグレイン並列処 理技術について述べる.

マルチグレイン並列処理<sup>16)</sup>とは,ループやサブ ルーチン等の粗粒度タスク間の並列処理を利用す る粗粒度タスク並列処理(マクロデータフロー処 理)<sup>14),17)</sup>,ループイタレーションレベルの並列処 理である中粒度並列処理,基本ブロック内部のス テートメントレベルの並列性を利用する近細粒度並 列処理<sup>12)</sup>を階層的に組み合わせて,プログラム全 域にわたる並列処理を行なう手法である.

## 2.1 粗粒度タスク並列処理

(マクロデータフロー処理)

マクロデータフロー処理では、ソースとなるプロ グラムを疑似代入文ブロック(BPA),繰り返しブ ロック(RB),サブルーチンブロック(SB)の三種類 の粗粒度タスク(マクロタスク(MT))<sup>14)</sup>に分割す る. MT 生成後, コンパイラは BPA, RB, SB 等の MT 間のコントロールフローとデータ依存を解析し, それらを表したマクロフローグラフ(MFG)<sup>17),18)</sup> を生成する.さらに MFG から MT 間の並列性を最 早実行可能条件解析<sup>17),18)</sup>により引きだし、その結 果をマクロタスクグラフ(MTG)<sup>17),18)</sup>として表 現する.その後,コンパイラは MTG 上の MT を, スタティックスケジューリングの場合にはプロセッ サ間データ転送および同期オーバーヘッドを最小化 できるようにプロセッサあるいはプロセッサグルー プ(PG)に割り当て,各プロセッサ用コードを生 成する.MTG 中に条件分岐がありダイナミックス ケジューリングを用いる場合には,実行時に MTを プロセッサあるいは PG に割り当てる.

# 2.2 中粒度並列処理(ループ並列処理)

PG に割り当てられた MT が Doall 可能な RB で ある場合,この RB は PG 内のプロセッシングエレ メント(PE)に対して,イタレーションレベルで割 り当てられ並列実行される.またこの場合には,各 PE上のローカルメモリ,あるいは分散共有メモリ を有効利用するためのローカライゼーション技術<sup>19)</sup> を利用可能である.

#### 2.3 近細粒度並列処理

PG に割り当てられた MT が, BPA や中粒度並 列処理を適用できない RB である場合, それらはス テートメントレベルのタスクに分割され, PG 内の PE により並列処理される.

近細粒度並列処理においては, BPA 内のステート メント,もしくは複数のステートメントから構成さ れる疑似代入文を一つの近細粒度タスクとして定義 する.コンパイラは, BPA を近細粒度タスクに分割 した後,タスク間のデータ依存を解析してタスクグ ラフを作成する.次に,このタスクグラフ上のタス クを,データ転送・同期オーバーヘッドを考慮して 実行時間を最小化できるように各 PE にスタティッ クにスケジューリングする. OSCAR Fortran コンパイラ<sup>20)</sup> における近細粒度 タスクの PE へのスケジューリングにおいては,スケ ジューリング手法として,データ転送オーバーヘッド を考慮し実行時間を最小化するヒューリスティックア ルゴリズムである CP/DT/MISF 法,CP/ETF/MISF 法,ETF/CP 法,および DT/CP 法<sup>18)</sup>の4手法を 同時に適用し最良のスケジュールを選んでいる.ま た,このようにタスクをスタティックにプロセッサ に割り当てることにより,BPA 内で用いられるデー タのローカルメモリ,分散共有メモリ,レジスタへ の配置等,データ配置の最適化やデータ転送・同期 オーバーヘッドの最小化といった各種最適化が可能 になる.

スケジューリング後,コンパイラは PE に割り 当てられたタスクに対応する命令列を順番に並べ, データ転送命令や同期命令を必要な箇所に挿入し, 各 PE 毎に異なるマシンコードを生成する.近細 粒度タスク間の同期にはバージョンナンバー法を用 い,同期フラグの受信は受信側 PE のビジーウェイ トによって行なわれる.この時,OSCAR マルチグ レイン SCM のように分散共有メモリ(DSM)を持 つアーキテクチャでは,データ転送および同期フラ グのセットは受信側 DSM への直接ストアの形で行 われ(3.1節),受信側 PE のビジーウェイトも自 PE 上の DSM へのビジーウェイトになるので,プ ロセッサ間相互接続網のバンド幅低下は起らない.

また,共有グローバルレジスタ(3.3節)を持つ SCM アーキテクチャでは,可能な限りグローバル レジスタを用いてデータ転送を行なう.データ転送 のための共有グローバルレジスタ割り当てには,レ ジスタカラーリングの拡張を使用する.

3 評価対象 SCM アーキテクチャ 本節では,今回評価を行なったシングルチップマ ルチプロセッサ(SCM)アーキテクチャおよびその プロセッサコアについて述べる.評価のため,以下 のアーキテクチャを厳密に評価できるクロックレベ ルシミュレータを開発した.

# 3.1 ネットワークおよびメモリ アーキテクチャ

本論文で評価する SCM のネットワークおよびメ モリアーキテクチャは,近細粒度並列処理において 従来の評価で共有キャッシュ型より良い性能を示し ている OSCAR マルチグレイン SCM アーキテク



図 1: OSCAR マルチグレイン SCM アーキテクチャ

チャ<sup>11),20)</sup>とする.OSCAR マルチグレイン SCM アーキテクチャとは,図1のように,CPU,データ 転送ユニット(DTU),ローカルプログラムメモリ (LPM),ローカルデータメモリ(LDM),および 分散共有メモリ(DSM)を持つプロセッシングエレ メント(PE)を相互接続網(図1の場合は3本のバ ス)で接続し1チップ上に搭載したアーキテクチャ である.本論文の評価では,PEは1チップに1-4 基搭載されるものとする.

LPM は各々の CPU で実行するプログラムを格 納し,今回の評価では1クロックでアクセスでき るものとする.同様に,LDMはPE固有のデータ を保持するために使用し,その容量は1PEあたり 1M バイト, レイテンシは1クロックとする.また, DSM は自 PE と他 PE の双方から同時にアクセス 可能なマルチポートメモリであり,近細粒度タスク 間のデータ転送や、マクロデータフロー処理におけ るダイナミックスケジューリング時のスケジューリ ング情報の通知等に使用する.DSMの容量は1PE あたり16Kバイトとし,自PEからのアクセスレイ テンシは1クロック,他PEへのリモートアクセス 時のレイテンシは4クロックとする.さらに,チッ プ外部には集中共有メモリ(CSM)が接続され,各 PEで共有されるデータを格納する.この CSMの アクセスレイテンシは,今回の評価では20クロッ クとする.

OSCAR マルチグレイン SCM アーキテクチャで は,これら4種類のメモリに対しコンパイラが適切 なデータ配置を行うことにより,効率の良い並列処 理を行うことができる.

#### 3.2 プロセッサコア

各 PEが持つ CPUは, SPARC V9 規格に準拠し たスーパースカラプロセッサである Sun Microsystems 社の UltraSPARC II<sup>21)</sup> をモデルにしたプロ セッサである.本論文で評価した SCM アーキテク チャでは,この UltraSPARC II プロセッサにバリ ア同期機構等用の特殊レジスタや共有グローバルレ ジスタを操作するための命令を付加した.

このプロセッサは,9段のパイプラインを複数持 つスーパースカラプロセッサである.今回の評価で は,このパイプライン本数を1,2,4と変えること によってシングルイシュー,2イシュー,4イシュー のスーパースカラプロセッサとして使用する.動的 スケジューリングの対象となる命令群が格納される 命令バッファのエントリ数は12である.

## 3.3 共有グローバルレジスタ

本論文では,共有グローバルレジスタ(GR)を 付加したアーキテクチャについても評価を行なう. GRには,各PE内のCPUが同時にアクセスす ることができるものとする.このときのアクセスタ

イムは1クロックとし,これらは近細粒度タスクの データ転送に使用する.また,GRの本数は8,16, 32と変えて評価を行う.

## 4 性能評価

本節では、シングルイシューあるいはマルチプル イシューのプロセッサコアを持つ PE を複数搭載し た SCM アーキテクチャに対し、近細粒度並列処理 を適用して評価した結果について述べる.評価に使 用したプログラムは以下の3例である.

- スパースマトリクスの求解<sup>11)</sup> このプログラムは算 術代入文のみからなる Fortran ループフリー コードであり,94個の近細粒度タスク(ステー トメント)持つ.
- NS3D/SUB4<sup>11)</sup> このプログラムは,航空宇宙技 術研究所の CFD プログラム「NS3D」のサブ ルーチン「SUB4」の最外側ループに内包され る4つの Do-loop のうち,最も実行時間の大 きい2番目の Do-loop のループボディを取り 出したもので,429 個の近細粒度タスクを持 つ.SUB4の最外側ループは Doall 可能なルー プであり,今回の評価は,外側ループの並列 性は SCM を複数接続しているマルチプロセッ

サの SCM 間で使用し, SCM に割り当てられ たイタレーションをさらに SCM 内の PE 間 で近細粒度並列処理を行なうことを想定して 評価を行なっている.

FPPPP/FPPPP このプログラムは,SPECfp95 ベンチマーク「FPPPP」からサブルーチン 「FPPPP」を抜き出したものである.このサ ブルーチンはプログラム全体の実行時間の約 35%を占める部分であり,サブルーチン全体 が 333 個の近細粒度タスクから構成される.

# 4.1 命令発行数と PE 数に関する評価

はじめに,命令発行数がそれぞれ1,2,4(1Issue, 2Issue,4Issue)であるプロセッサコアを持つSCM アーキテクチャにおいて,PE数を1から4まで変 えて評価を行った.さらに,各々のアーキテクチャ において32本の共有グローバルレジスタを付加し たアーキテクチャ(GR)に関しても評価を行った. それらのアーキテクチャの性能を,単一のシングル イシュープロセッサによる実行時間に対する速度向 上率として,図2,3,4に示す.

まず,各アーキテクチャにおいてほぼ同一のトラ ンジスタ数となる総同時命令発行数 4 (1Issue × 4PE, 2Issue × 2PE, 4Issue × 1PE)の時の性能に 着目すると, 1Issue × 4PE は図2のスパースマト リクス求解では 2Issue × 2PEの 1.47 倍, 4Issue × 1PEの2.49倍の性能を得ている.同様に,図3の NS3D では 2Issue × 2PEの1.23 倍, 4Issue × 1PE の 1.89 倍, 図 4 の FPPPP では 2Issue × 2PE の 1.40 倍, 4Issue × 1PEの2.41 倍の性能がそれぞれ 得られ, いずれの場合も 1 Issue × 4 PE の時が最も 良い性能を示している.この理由として,スーパー スカラプロセッサコア単体では,12エントリの命令 バッファという限られた範囲から実行時に抽出され る局所並列性しか利用できないが, SCM アーキテ クチャでは PE 数を増やすことにより,基本ブロッ ク全体から静的に抽出したより大きな並列性を全て 利用することができるためであると考えられる.

チップ内 PE 数 4 の時に注目すると,図 2 では 1 Issue × 4PE に対し,2 Issue × 4PE が 13.3%,4 Issue × 4PE は 13.8%の性能向上を得ている.同様に,図 3 では 2 Issue × 4PE で 13.0%,4 Issue × 4PE で 13.5%,図 4 では 2 Issue × 4PE で 19.6%,4 Issue × 4PE で 21.4%の性能向上を得ている.このこと



図 2: ランダムスパースマトリクスにおける速度向 上率



図 3: NS3D における速度向上率

から,プロセッサコア単体の命令発行数を4にして も,命令発行数が2の時に得られる性能とほとんど 変わらないことがわかる.

# 4.2 共有グローバルレジスタに関する 評価

共有グローバルレジスタの効果に着目すると,チ ップ内に 4PE 集積されているとき,プロセッサ間 データ転送の少ない図2のランダムスパースマトリ クス求解では 1Issue で 3.7%, 2Issue で 6.5%, 4Issue で 6.3%の性能向上を得ている.データ転送の多 い図3の NS3D では,1Issue で 21.5%, 2Issue で 23.1%, 4Issue で 23.8% の性能向上を,同様に図4 のFPPPPでは,1Issueで 14.4%, 2Issue で 14.4%, 4Issue で 14.7% の性能向上が得られ,共有グロー バルレジスタが有効であることがわかる.

次に,NS3D および FPPPP において共有グロー バルレジスタファイルのレジスタ本数を変えて評価 を行った.レジスタ本数は0本(GR0),8本(GR8), 16本(GR16),32本(GR32)とした.PE数4の



場合にレジスタ本数を変化させたときの,単一のシ ングルイシュープロセッサの実行時間を1としたと きの速度向上率を,図5,6に示す.

図 5 の NS3D において,1Issue 時のグローバル レジスタが無い時(GR0)に対してグローバルレジ スタが 8 本(GR8)の時は 19.1%の性能向上を得て いるが,グローバルレジスタを 32 本(GR32)と増 やしても 21.5% の性能向上と,レジスタ本数を増 やしても大きな性能向上は見られない.命令発行数 を 2 あるいは 4 と増やした時も同様で,2Issue 時に GR8 で 20.5%,GR32 で 23.1%の性能向上,4Issue 時に GR8 で 21.0%,GR32 で 23.8%の性能向上と なっており,8 本以上のレジスタを用いても NS3D では大きな性能向上は見られない.

一方,図6のFPPPPでは、11ssueの時にGR0に対してGR8で8.7%の性能向上、GR32では14.4%の性能向上と、レジスタ本数の増加にともない得られる性能向上率も増加している.同様に、21ssue時にGR8で8.9%、GR32で14.4%の性能向上、41ssue時にGR8で9.3%、GR32で14.7%の性能向上となり、グローバルレジスタ本数の増加とともに性能が向上する.

NS3Dでは,GR8の時点で全データ転送・同期の 33.5%が共有グローバルレジスタに割り当てられて いるが,FPPPPでは18.9%にとどまっている.こ の違いは,データ転送・同期の出現頻度によると考 えられる.

## 5 まとめ

本論では,マルチグレイン並列処理をサポートす るシングルチップマルチプロセッサ(SCM)アーキ テクチャのプロセッサ構成を検討するため,マルチ グレイン並列処理の一要素である近細粒度並列処理



図 5: 共有グローバルレジスタの本数による速度向 上率の違い(NS3D)



図 6: 共有グローバルレジスタの本数による速度向 上率の違い(FPPPP)

を命令発行数の異なるプロセッサコアを持つ SCM アーキテクチャに適用して評価を行った.その結果, 数値流体解析プログラムにおいて,1 命令発行 × 4PEの SCM はほぼ同ートランジスタの数の4 命令 発行 × 1PE の 1.89 倍, SPECfp95 の FPPPP にお いても,1 命令発行 × 4PE の SCM は4 命令発行 × 1PE の 2.41 倍と,プロセッサコアの命令発行数の 増加より,チップ内 PE 数の増加の方が性能向上に 貢献することが確かめられた.

共有グローバルレジスタの有無に関しては,数値 流体解析プログラムにおいて1命令発行×4PEの SCMに32本の共有グローバルレジスタを付加した ときに21.5%の性能向上を得ることができ,その有 効性を確認できた.レジスタ割り当てアルゴリズム の改良により,更なる性能向上を見込めると考えら れる.

今後の課題として,大規模アプリケーションに対 しマルチグレイン並列化を適用した際の SCM 上で の評価,メモリアーキテクチャの更なる検討等が挙 げられる.

本研究の一部は,STARC「自動並列化コンパイ ラ協調型シングルチップ・マルチプロセッサの研究」 により行われた.

# 参考文献

- M.Schlansker and B.Rau. EPIC:Explicitly Parallel Instruction Computing. *Computer*, Vol. 33, No. 2, pp. 37-45, 2000.
- [2] M.Oka and M.Suzuoki. Designing and programming the emotion engine. *IEEE MICRO Magazine*, Vol. 19, No. 6, pp. 20-28, 1999.
- [3] http://www.sun.com/microelectronics/MAJC/. MAJC Home Page. Sun Microsystems, Inc., 2000.
- K.Diefendorff. Power4 focuses on memory bandwidth. Microprocessor Report, Vol. 13, No. 13, 1999.
- [5] L.Hammond, B.Hubbert, M.Siu, M.Chen, and K.Olukotun. The Stanford HYDRA CMP. *IEEE MI-CRO Magazine*, Vol. 20, No. 2, pp. 71–84, 2000.
- [6] T.N.Vijaykumar and G.S.Sohi. Task Selection for a Multiscalar Processor. In 31th Int'l Conf. on Microarchitecture (MICRO-31), Nov-Dec 1998.
- [7] J.-Y. Tsai, Z. Jiang, E. Ness, and P.-C. Yew. Performance Study of a Concurrent Multithreaded Processor. In *Proc.4th Int'l Conf. on HPCA-4*, Fec 1998.
- [8] http://www.labs.nec.co.jp/MP98/. MP98 Project. NEC Corporation, 2000.
- [9] R.Barua, W.Lee, S.Amarasinghe, and A.Agarwal. Maps: A Compiler-Managed Memory System for Raw Machines. In Proc. of ISCA-26, June 1999.
- [10] Y.Kang, M.Huang, S.Yoo, Z.Ge, A.Keen, V.Lam, P.Pattnaik, and J.Torrellas. FlexRAM:An Advanced Intelligent Memory system. In Proc. Int'l Conf. on Computer Design, Oct 1999.
- [11] 木村,尾形,岡本,笠原.シングルチップマルチプロセッサ 上での近細粒度並列処理. 情報処理学会論文誌, Vol. 40, No. 5, pp. 1924–1934, May 1999.
- [12] 笠原.マルチプロセッサシステム上での近細粒度並列処理. 情報処理, Vol. 37, No. 7, pp. 651-661, Jul 1996.
- [13] Padua and Wolfe. Advanced compiler optimization for super computers. C.ACM, Vol. 29, No. 12, pp. 1184– 1201, 1996.
- [14] 笠原,合田,吉田,岡本,本多. Fortran マクロデータフロー 処理のマクロタスク生成手法. 信学論, Vol. J75-D-I, No. 8, pp. 511-525, 1992.
- [15] 本多,合田,岡本,笠原. Fortran プログラム粗粒度タス クの oscar における並列実 行方式.信学論(D-I), Vol. J75-D-I, No. 8, pp. 526-535, 1992.
- [16] Kasahara, Honda, and Narita. A multigrain parallelizing compilation scheme for oscar. In Proc.4th Workshop on Lang. and Compilers for Parallel Computing, Aug 1991.
- [17] 本多,岩田,笠原. Fortran プログラム粗粒度タスク間の 並列性検出法.信学論 (D-I), Vol. J73-D-I, No. 12, pp. 951-960, 1990.
- [18] 笠原. 並列処理技術. コロナ社, 1991.
- [19] 吉田, 越塚, 岡本, 笠原. 階層型粗粒度並列処理における 同一階層内ループ間データローカライゼーション手法. 情 報処理学会論文誌, Vol. 40, No. 5, pp. 2054–2063, May 1999.
- [20] 笠原,尾形等.マルチグレイン並列化コンパイラとその アーキ テクチャ支援.信学技報,IDC98-10,CPSY98-10, FTS98-10,pp.71-76,1998.
- [21] Sun Microelectronics. UltraSPARC<sup>TM</sup> User's Manual. Jul. 1997.