0
|
1 % Sample file for the use of compsoft style file.
|
|
2 %
|
|
3 \documentclass[T]{compsoft}
|
|
4
|
|
5 % Preamble
|
|
6 %
|
1
|
7 % 「コンピュータソフトウェア」誌に掲載される論文の場合,次で
|
|
8 % 巻数,号数,開始ページ,終了ページを指定する.
|
0
|
9 %\volNoPp{16}{5}{78}{83}
|
|
10
|
1
|
11 % ワークショップによる推薦論文の場合,ワークショップ名を指定する.
|
|
12 % \suisen{ワークショップ名}
|
0
|
13
|
1
|
14 % 特集の場合,特集のタイトルを与える.
|
|
15 % \tokushu{特集のタイトル}
|
0
|
16
|
1
|
17 % 大会論文の場合,\taikai で開催年を指定する.ここで指定した年から
|
|
18 % 大会の回数は計算される.
|
0
|
19 \taikai{2010}
|
|
20
|
1
|
21 % ここに,使用するパッケージを列挙する.
|
0
|
22 \usepackage[dvipdfm]{graphics}
|
|
23
|
1
|
24 % ユーザが定義したマクロなどはここに置く.ただし学会誌のスタイルの
|
|
25 % 再定義は原則として避けること.
|
0
|
26
|
|
27 \begin{document}
|
|
28
|
1
|
29 % 論文のタイトル
|
|
30 \title{Fine Grain Task Manager Cerium のチューニング}
|
0
|
31
|
1
|
32 % 著者
|
|
33 % 和文論文の場合,姓と名の間には半角スペースを入れ,
|
|
34 % 複数の著者の間は全角スペースで区切る
|
0
|
35 %
|
1
|
36 \author{金城 裕 \and 河野 真治
|
0
|
37 %
|
1
|
38 % ここにタイトル英訳 (英文の場合は和訳) を書く.
|
0
|
39 %
|
|
40 \ejtitle{Tuning of Fine Grain Task Manager Cerium}
|
|
41 %
|
1
|
42 % ここに著者英文表記 (英文の場合は和文表記) および
|
|
43 % 所属 (和文および英文) を書く.
|
|
44 % 複数著者の所属はまとめてよい.
|
0
|
45 %
|
1
|
46 \shozoku{Yutaka Kinjyo, Shinij KONO}{琉球大学大学院理工学研究科情報工学専攻並列信頼研}%
|
0
|
47 {Dept.Concurrency Reliance Laboratory, Information Engineering Course, Faculty of Engineering Graduate School of Engineering and Science, University of the Ryukyus}
|
|
48 %
|
1
|
49 % 出典情報は \shutten とすれば出力される.
|
0
|
50 %\shutten
|
|
51 %
|
1
|
52 % 受付年月日,記事カテゴリなどは自動的に生成される.
|
0
|
53 %\uketsuke{1999}{8}{3}
|
|
54 %
|
1
|
55 % その他,脚注に入れるものがあれば,\note に記述する.
|
|
56 %\note{脚注に入れる内容}
|
0
|
57 }
|
|
58
|
|
59 %
|
1
|
60 % 和文アブストラクト
|
0
|
61 \Jabstract{%
|
1
|
62 現在Cell/PS3またはMac OS X上で動作するFine Grain Task Manager であるCeirumを開発中である。
|
|
63 Cerium Task Managerは、Cell/PS3またはMac OS X上で動作するOpen CL 的なFine Grain Task Manager である。
|
|
64 ソフトウェアレンダリングエンジンとWord countを例題として、Task Manager の実装時の問題を洗い出している。
|
|
65 メインメモリ上のTaskを各Coreに転送し、その終了を通知する際に生じる待ち時間がWord countの場合には
|
|
66 ネックであることがわかった。それを削減するTask arrayを提案し実装した。その効果について報告する。
|
0
|
67 }
|
|
68 %
|
1
|
69 % 英文アブストラクト(大会論文には必要なし)
|
0
|
70 % \Eabstract{}
|
|
71 %
|
|
72 \maketitle
|
|
73
|
1
|
74 \section{概要}
|
0
|
75
|
1
|
76 近年CPUの処理速度の向上ためのクロック周波数の増加は、
|
|
77 発熱や消費電力の増大により難しくなっている。そのため、クロック周波数を上げる代わりに、CPUコア数を増やす傾向になった。
|
|
78 マルチコアなCPUの性能を発揮するには、処理をできるだけ並列化しなければならない。それはアムダールの法則により、並列化できない部分が並列化による性能向上を制限することから言える。つまり処理速度の性能向上は、ハードウェアだけでなく、ソフトウェアを並列処理に適したように実装することにもかかっている。そのためにはプログラミングの支援をするフレームワークが必要になってくる。そこでFine Grain Task Manager であるCeirumを開発中である。現在Ceriumは、マルチコアCPUの例題としてCellに対応している。また、支援するプログラミングの対象の1つとしてゲームを選択し、PS3,Mac OS X上でのゲームフレームワークとしても動作する。
|
|
79 そのCerium のチューニングをするうちに、各Coreにおいて、割り当てられたTaskが終わり、次のTaskを待つ時間がネックになり、処理速度を遅くしていることがわかった。そこで待ち時間を削減するために、各Task生成のスケジューリング方法や、複数のTaskをまとめて扱うTaskArrayを提案し実装した。その効果について報告する。
|
0
|
80
|
|
81
|
|
82 \section{Cell Broadband Engine}
|
|
83
|
1
|
84 Cell Broadband Engine は、ソニー・コンピュータエンタテインメント、ソニー、IBM, 東芝によって開発されたマルチコアCPUである。
|
|
85 Cellは、1基の制御系プロセッサコア (PPE:PowerPc Processor ELement) と8基の演算系プロセッサコア (SPE:Synergistic Processor Element) で構成される。各プロセッサコアは、EIB (Element Interconnect Bus) と呼ばれる高速なバスで接続されている。また、EIBはメインメモリや外部入出力デバイスとも接続されていて、各プロセッサコアはEIBを経由してデータアクセスをおこなう。
|
0
|
86
|
1
|
87 このPPEとSPEの2種類のCPUを、プログラマ自身が用途に合わせて適切に使い分けるように考慮する必要がある。
|
0
|
88
|
|
89 \begin{figure}[htbp]
|
|
90 \begin{center}
|
1
|
91 \scalebox{0.3}{\includegraphics{pic/cell_arch.pdf}}
|
0
|
92 \caption{Cell Broadband Engine Architecture} \label{cell}
|
|
93 \end{center}
|
|
94 \end{figure}
|
|
95
|
|
96 \subsection{PPE}
|
1
|
97 PPEはCell BroadbandEngineのメインプロセッサで、複数のSPEをコアプロセッ
|
|
98 サとして使用することができる汎用プロセッサである。メインメモリや外部デバイスへ
|
|
99 の入出力、SPEを制御する役割を担っている。PPU(PowerPCProcessorUnit)は、PPE
|
|
100 の演算処理を行うユニットで、PowerPCアーキテクチャをベースとした命令セットを持
|
|
101 つ。
|
0
|
102
|
|
103 \subsection{SPE}
|
1
|
104 SPEには256KBのLocal Store(LS)と呼ばれる、SPEから唯一、直接参照できるメ
|
|
105 モリ領域があり、バスに負担をかける事無く並列に計算を進めることが出来る。SPEか
|
|
106 らメインメモリへは、直接アクセスすることは出来ず、SPEを構成する一つであるMFC
|
|
107 (MemoryFlowController)へ、チャネルを介してDMA(DirectMemoryAccess)命令を
|
|
108 送ることで行われる
|
0
|
109
|
|
110 \subsection{DMA}
|
1
|
111 SPEはLS以外のメモリに直接アクセスすることができず、PPE
|
|
112 が利用するメインメモリ上のデータにアクセスするにはDMAを用いる。DMA(Direct
|
|
113 MemoryAccess)転送とは、CPUを介さずに周辺装置とメモリとの間でデータ転送こと
|
|
114 で、Cell の場合はメインメモリとLS間でデータの転送を行う。手順としては以下の様に
|
|
115 なる。
|
0
|
116
|
|
117 {\small
|
|
118 \begin{enumerate}
|
1
|
119 \item SPEプログラムがMFC(MemoryFlowController)に対してDMA転送命令を発行
|
|
120 \item MFCがDMAControllerを介してDMA転送を開始。この間、SPEプログラムは
|
|
121 停止しない。
|
|
122 \item DMA転送の終了を待つ場合、SPEプログラム内で転送の完了を待つ
|
0
|
123 \end{enumerate}
|
|
124 }
|
|
125
|
1
|
126 \section{Ceriumとは}
|
0
|
127
|
1
|
128 CeriumはTaskManager、レンダリングエンジンとSceneGrpahの3つの要素から構成されており、
|
|
129 PS3、Mac OS X、Linux上でゲームフレームワークとして動作する。ゲーム中のオブジャクトの振る舞いやルールはSceneGraphで管理し、それらの動きやレンダリングの処理を動的にSPEに割り振るカーネルとして、TaskMnagerが用いられる。PS3のGraphics Engineの仕様は公開されておらず、ソフトウェアレンダリングエンジンを実装する必要があった。
|
0
|
130
|
|
131 %% \begin{itemize}
|
|
132 %% \item SceneGraph
|
|
133 %% \item Rendering Engine
|
|
134 %% \item Task Manager
|
|
135 %% \end{itemize}
|
|
136
|
|
137 \subsection{TaskManager}
|
1
|
138 TaskManagerは、Taskと呼ばれる、分割された各プログラムを管理する。
|
|
139 Taskの単位はサブルーチンまたは関数とし、Task同士の依存関係を考慮し、実行可能状態になったTaskを各SPEに割り振る。
|
|
140 Taskは通常PPEで生成され、SPEに送られる。SPEでは、受け取ったTaskをパイプラインに沿ってステージを遷移しながら複数のTaskを同時に実行していく。
|
0
|
141
|
1
|
142 \section{CeriumにおけるTask}
|
0
|
143
|
1
|
144 TaskはTaskManagerを使って生成する。
|
|
145 Taskを生成する際に以下のような要素が設定可能である。
|
0
|
146
|
|
147 {\small
|
|
148 \begin{enumerate}
|
|
149 \item input data
|
|
150 \item output data
|
|
151 \item paramater
|
|
152 \item cpu type
|
|
153 \item dependency
|
|
154 \end{enumerate}
|
|
155 }
|
|
156
|
1
|
157 input,output data, paramaterは関数でいうところの引数にあたいする。cpu typeはTaskがPPE,または6基あるSPEのどれかで実行されるかを示すもの。
|
|
158 dependencyは他のTaskとの依存関係を示す。以下にWordCountとレンダリングエンジンにおいてのTaskを紹介する。
|
0
|
159
|
1
|
160 \subsection{WordCountのTask}
|
0
|
161
|
1
|
162 WordCountのTaskは以下の二つである。
|
0
|
163
|
|
164 {\small
|
|
165 \begin{enumerate}
|
2
|
166 \item WordCountTask
|
|
167 \item PrintTask
|
0
|
168 \end{enumerate}
|
|
169 }
|
|
170
|
3
|
171 <<<<<<< local
|
2
|
172 WordCountTask$B$O!"(Binput$B$GM?$($i$l$?(Bdata$B$r(Bword count$B$7!"(Boutput data$B$K=q$-=P$9(BTask$B$G$"$k!#(B
|
|
173 PrintTask$B$O$9$Y$F$N(BWordCountTask$B$N<B9T40N;$rBT$A!"(Boutput$B$X=q$-=P$5$l$?CM$r=87W$7=PNO$9$k(BTask$B$G$"$k!#(B
|
|
174 $B0lEY$K(BSPE$B$KEO$;$k(Bdata$B$O(BDMA$B$N;EMM>e(B16Kbyte$B$^$G$G$"$k!#$5$i$KE>Aw$9$k:]$K$O(B16byte$B$NG\?t$G$"$kI,MW$,$"$k!#(B
|
|
175
|
|
176 \subsection{WordCount$B$N(BTask$B@_Dj(B}
|
|
177
|
|
178 wc$B$9$k(Bfile$B$r%a%b%j$X%^%C%T%s%0$7!"(BWordCountTask
|
|
179 $B$N(Binput$B$K!"(Bfile data$B$N%"%I%l%9$r(B16kbyte$B$4$H$K;XDj$7$F$$$/!#(B
|
|
180
|
|
181 \begin{figure}[htbp]
|
|
182 \begin{center}
|
|
183 \scalebox{0.3}{\includegraphics{pic/wc_graf1.png}}$B!!!!!!!!(B
|
|
184 \caption{WordCount$B$K$*$1$k(BTask$B$NN.$l(B} \label{wordcoutntask1}
|
|
185 \end{center}
|
|
186 \end{figure}
|
|
187
|
|
188 PrintTask$B$N(Bdependency$B$K$O$9$Y$F$N(BWordCountTask$B$,@_Dj$5$F$*$j!"(BWordCount$B$,$9$Y$F=*$o$i$J$$$H!"(B
|
|
189 $B<B9T$5$l$J$$$h$&$K$J$C$F$$$k!#(B
|
|
190
|
|
191 %% \begin{figure}[htbp]
|
|
192 %% \begin{center}
|
|
193 %% \scalebox{0.35}{\includegraphics{pic/wc_graf2.png}}$B!!!!!!!!(B
|
|
194 %% \caption{Task$B$N0MB84X78(B} \label{wordcoutntask2}
|
|
195 %% \end{center}
|
|
196 %% \end{figure}
|
|
197
|
|
198 \subsection{WordCount$B$K$*$1$k(BTask$B@8@.$N%9%1%8%e!<%j%s%0(B}
|
|
199
|
|
200 \subsection{Task$B$N(BTaskArray$B2=(B}
|
|
201
|
|
202
|
0
|
203 \subsection{$B%l%s%@%j%s%0%(%s%8%s$N(BTask}
|
3
|
204 =======
|
1
|
205 \subsection{レンダリングエンジンのTask}
|
3
|
206 >>>>>>> other
|
0
|
207
|
3
|
208 <<<<<<< local
|
|
209
|
|
210 =======
|
1
|
211 \section{Task生成のスケジューリング}
|
|
212 \section{TaskのTaskArray化}
|
3
|
213 >>>>>>> other
|
0
|
214
|
1
|
215 \section{まとめと今後の課題}
|
0
|
216
|
|
217
|
|
218
|
1
|
219 {\bf 謝辞}\
|
0
|
220 %
|
|
221 %% \begin{adjustvboxheight} % needed only when Appendix follows
|
|
222 %% \begin{thebibliography}{99}
|
1
|
223 %% \bibitem{LS86} Lanin, V. and Shasha, D.:A Symmetric Concurrent B-Tree
|
0
|
224 %% Algorithm,
|
1
|
225 %% Proc.\ 1986 Fall Joint Computer Conference, IEEE, 1986, pp.~380--389.
|
0
|
226
|
1
|
227 %% \bibitem{ST85} Sleator, D. D. and Tarjan, R. E.:Self-Adjusting Binary Search
|
|
228 %% Trees, {\it J. ACM}, Vol.~32, No.~3 (1985), pp.~652--686.
|
0
|
229
|
1
|
230 %% \bibitem{S89} Shapiro E.:The Family of Concurrent Logic Programming Languages.
|
|
231 %% {\it ACM Computing Surveys}, Vol.~21, No.~3 (1989), pp.~413--510.
|
0
|
232
|
1
|
233 %% \bibitem{T85} Tarjan, R. E.:Amortized Computational Complexity, {\it
|
0
|
234 %% SIAM J.\ Alg.\ Disc.\ Math.}, Vol.~6, No.~2 (1985), pp.~306--318.
|
|
235
|
1
|
236 %% \bibitem{W90} 和田久美子:スプレイ木の並列データ探索, Proc.\ KL1
|
|
237 %% Programming Workshop '90, Tokyo, ICOT, 1990, pp.~42--49.
|
0
|
238 %% \end{thebibliography}
|
|
239 %% \end{adjustvboxheight} % needed only when Appendix follows
|
|
240
|
|
241 \appendix
|
1
|
242 \section{付録: \LaTeX による論文作成のガイド}
|
0
|
243
|
1
|
244 ここに,以前の \verb|sample.tex| では,論文作成のガイドがあったが,
|
|
245 その内容は \verb|guide.tex| に移動した.
|
0
|
246
|
|
247 \end{document}
|