0
|
1 \chapter{評価}
|
|
2 \label{chp:eval}
|
|
3
|
|
4 本章では本研究の評価を行う。
|
|
5 まず、gccでのCbCコンパイルにおける利点と欠点を考察する。
|
|
6 次にgccベースのCbCコンパイラの性能評価を行う。
|
|
7 最後に、\ref{chp:task}章のTaskManagerの開発を元に、CbC言語そのものの記述性、プログラミング手法などについて考察する。
|
|
8
|
|
9
|
|
10 \section{gccでを使うことの利点・欠点}
|
|
11 \label{sec:merit}
|
|
12
|
|
13 これまでCbCのコンパイルに使用してきたmc(micro-c)に対し、新しくgccが使
|
|
14 用可能となった。ここでgccを用いることの利点と欠点について考察する。
|
|
15
|
|
16 \subsection*{アーキテクチャ}
|
|
17
|
|
18 mcにおいてはPPC,x86,MIPS,ARM,SPUなど、多数のCPUアーキテクチャをサポー
|
|
19 トしてきた。しかしあるCPUに新しく対応するには多大な時間、労力が必要と
|
|
20 なる。
|
|
21 gccは現在、既に20を越えるCPUに対応しており、またOS毎のABIの差異も吸収
|
|
22 可能である。これはgccをコンパイラとすることに最大の利点である。
|
|
23
|
|
24 またそれだけでなく、gccは新しいアーキテクチャへの対応も早い。この特徴
|
|
25 は、gccがフロントエンドとバックエンドという形で言語実装とアーキテクチ
|
|
26 ャを分離していることからくる。一般的に新しいCPUアーキテクチャが開発さ
|
|
27 れた場合にはその開発者自身がgccにコミットすることが多いため、組み込み
|
|
28 用途を目的の一つとするCbCではよりその強みがます。
|
|
29
|
|
30 \subsection*{最適化の恩恵}
|
|
31 gccは豊富な最適化機構を備えている。
|
|
32 代表的な最適化だけでもループ最適化、分岐スレッディング(jump threading)
|
|
33 、共通式除去(common subexpression elimination)、命令スケジューリング
|
|
34 (instruction scheduling)などがある。
|
|
35
|
|
36 とくに、プログラムにおいては類似した形の式(expression)を扱うことがよく
|
|
37 あるため、共通式除去は非常に効果が高い。同様の効果は同じ式を保持する変
|
|
38 数を用意することでも実現できるがソースコードの修正が必要になる。
|
|
39 mcにはこの最適化は含まれていないため、複雑な計算式を含むプログラムにお
|
|
40 いてはgccの方が良いコンパイル結果を示すものと考えられる。
|
|
41
|
|
42 %\ref{sec:}の性能評価では最適化の効果についても測定する。
|
|
43
|
|
44 \subsection*{デバッガ}
|
|
45 これまでCbCにはデバッガが存在しなかった。デバッガの実装には出力するア
|
|
46 センブラに行番号や変数名、関数名などの情報を付加する必要があるが、gcc
|
|
47 は標準でこれを行っている。そのためCのデバッガとして広く一般的に使われ
|
|
48 ている gdbをそのままCbCのデバッガとして使用することが可能であり、ソフ
|
|
49 トウェア開発の大きな助力となる。
|
|
50
|
|
51 %ただし継続制御では``next''コマンドが使いづらいなどの操作性の問題がいく
|
|
52 %つか確認している。これらは
|
|
53
|
|
54 %
|
|
55 \subsection*{関数呼出しの名残り}
|
|
56 上記の利点に対し、gccであるゆえの欠点も存在する。
|
|
57
|
|
58 本研究による軽量継続制御の実装には\ref{chp:impl}章で説明したように関数
|
|
59 の末尾最適化を利用した。それゆえコードセグメントのアセンブラ出力の命令
|
|
60 列には一部関数呼び出し時のスタック処理が残ってしまうことが分かっている。
|
|
61 特にレジスタの少ないアーキテクチャ、x86などではそれが顕著に現れる。
|
|
62
|
|
63 mcではコードセグメントと関数は完全に別物として取り扱っており、この様な
|
|
64 スタック操作はコードセグメントには現れないため、このオーバヘッドがgcc
|
|
65 では不利な点である。
|
|
66
|
|
67 % スタック処理が残ってしまう
|
|
68 % 同じくcpuに特化したコンパイルに比べると
|
|
69
|
|
70
|
|
71 \subsection*{互換性、ABI}
|
|
72 %これは最後の考察に入れよう
|
|
73 ソースコードレベルでの互換性の問題がある。
|
|
74 また、継続制御のパラメタを
|
|
75 % 関数宣言
|
|
76 % 型推定
|
|
77 % ABI、特にppc
|
|
78
|
|
79
|
|
80 % 最適化
|
|
81 % SPUでのベクトル演算
|
|
82 % gdb
|
|
83 % architecture
|
|
84
|
|
85 % 関数呼び出しのオーバヘッド
|
|
86 % 互換性,ソースコード、ABI
|
|
87
|
|
88
|
|
89 \section{性能評価}
|
|
90
|
|
91 \subsection{評価手法と環境}
|
|
92 性能評価として、実際にコンパイラの出力した実行ファイルを複数回実行し、
|
|
93 その実効速度の平均を測定する。 CbCは実用的なプログラムの記述を目的とし
|
|
94 ているので、プログラムの動作速度は性能評価として妥当だと考えられる。ま
|
|
95 た速度比較の対象として、もう一つのCbCコンパイラ実装であるmicro-cベース
|
|
96 のコンパイラ(以下mc)を用いる。
|
|
97
|
|
98 実行するプログラムとして、クイックソートのテストプログラムを作成した。
|
|
99 クイックソートは再帰呼び出しを伴うため、スタック操作が必須となる。その
|
|
100 ためより多く様々なコードセグメントへの継続制御が使用されることになり、
|
|
101 CbCの性能評価に適していると考えられる。クイックソートはCbCに先立ってC
|
|
102 で実装し、参考文献\cite{bib:kinjo}で紹介する手法を用いてCbCに変換した。
|
|
103
|
|
104 測定環境は両コンパイラが対応しているアーキテクチャ、OSから以下の5つ
|
|
105 の組み合わせ[CPUアーキテクチャ/OS種別]を選択した。
|
|
106 \begin{itemize}
|
|
107 \item ppc/OS X
|
|
108 \item ppc/linux
|
|
109 \item ppc/linux on PS3
|
|
110 \item x86/OS X
|
|
111 \item x86/linux
|
|
112 \end{itemize}
|
|
113 なお、mcはmips,armにも対応しているが、現在その処理系が用意できなかった
|
|
114 ので割愛した。
|
|
115
|
|
116 %gccのコンパイルでは``-O2 -fomit-pointer''の最適化を付加して測定している。
|
|
117 % noreturnもON.
|
|
118 % x86ではfastcallもON,
|
|
119
|
|
120 \subsection{評価結果}
|
|
121 実効速度の測定結果を表\ref{tab:eval}に示す。
|
|
122 ただし環境毎にCPUの速度は異なるので、上下の比較には意味はない。
|
|
123 \begin{table}[htpb]
|
|
124 \centering
|
|
125 \begin{tabular}{|c|c|c|c|} \hline
|
|
126 \multirow{2}{*}{ \backslashbox{CPU/OS}{コンパイラ} }
|
|
127 & \multicolumn{2}{c|}{gcc} & \multirow{2}{*}{mc} \\ \cline{2-3}
|
|
128 & 最適化なし & 最適化あり & \\ \hline
|
|
129 x86/OS X & 5.901 & 2.213 & 2.857 \\ \hline
|
|
130 x86/Linux & 5.869 & 2.401 & 2.254 \\ \hline
|
|
131 ppc/OS X &14.875 & 2.146 & 4.811 \\ \hline
|
|
132 ppc/Linux &19.722 & 3.927 & 6.596 \\ \hline
|
|
133 ppc/PS3 &26.169 & 6.104 &11.536 \\ \hline
|
|
134 \end{tabular}
|
|
135 \caption{アーキテクチャ毎のgccとmcの速度比較(単位: 秒)}
|
|
136 \label{tab:eval}
|
|
137 \end{table}
|
|
138 % ppcのが圧倒的に早い
|
|
139 % x86ではあまりさはでない
|
|
140 % 最適化が効いている
|
|
141
|
|
142 まずどのアーキテクチャにおいてもgccの最適化の効果が大きいことが分かる
|
|
143 。 x86では約2.5倍、ppcでは4~7倍もの差が生じている。ppcの方で異様に効果
|
|
144 が高いように見えるのは、関数やコードセグメントの引数渡しがレジスタベー
|
|
145 スのため、最適化なしの場合には無駄なメモリアクセスが生じているためであ
|
|
146 る。
|
|
147
|
|
148 x86はOS XとLinuxの環境で測定を行った。OS Xではmcに比べて20\%ほど早くな
|
|
149 ったことが分かる。しかし逆にLinux環境では6\%の速度低下が示された。
|
|
150 どちらにおいてもppcほどの良い結果ではない。これは自由に使えるレジスタ
|
|
151 が極めて少ないというx86の特殊なアーキテクチャが要因だと考えられる。そ
|
|
152 のためにgccの最適化が十分に働かなかった可能性がある。逆に言うとmcが高
|
|
153 いレベルでx86のアセンブラ命令を実行しているともとれる。この6\%の差は実
|
|
154 用レベルでは問題なく、プログラムの構成によっては結果は逆転する事も十分
|
|
155 にある。
|
|
156
|
|
157 ppcではどのオペレーティングシステムでもmcに比べてgccが早いことが分かる
|
|
158 。いずれも約2倍近くあるいはそれ以上に速度が向上している。これはgccの最
|
|
159 適化機構が十分に働いている要因が大きい。
|
|
160
|
|
161 %\subsubsection{アセンブラ比較}
|
|
162 比較のため、quicksortプログラムで使われているコードセグメントを一つ例
|
|
163 にあげる。 CbCのソースがコード\ref{code:divider_s}、そのコードセグメン
|
|
164 トのgccによる出力がコード\ref{code:divider_s_gcc}、mcによる出力がコー
|
|
165 ド \ref{code:divider_s_mc} である。
|
|
166
|
|
167 \lstinputlisting[
|
|
168 caption=quicksortプログラムで使われているコードセグメント,
|
|
169 label=code:divider_s]
|
|
170 {sources/quicksort_divider_s.cbc}
|
|
171 \begin{minipage}[t]{.45\textwidth}
|
|
172 \lstinputlisting[
|
|
173 caption=divider\_sのgccによる出力(PowerPC),
|
|
174 label=code:divider_s_gcc]
|
|
175 {sources/gcc_divider_s.asm}
|
|
176 \end{minipage}
|
|
177 \hfill
|
|
178 \begin{minipage}[t]{.45\textwidth}
|
|
179 \lstinputlisting[
|
|
180 caption=divider\_sのmcによる出力(PowerPC),
|
|
181 label=code:divider_s_mc]
|
|
182 {sources/mc_divider_s.asm}
|
|
183 \end{minipage}
|
|
184
|
|
185 もっとも比較しやすい箇所は\verb|s+1|の処理である。
|
|
186 コード\ref{code:divider_s_gcc}のgccではこれを1命令の\verb|addi 4,4,1|
|
|
187 で行っている。 mcではこれが\verb|mr, addi, mr|という3命令になっている
|
|
188 。これは変数\verb|s|の値を一度別のレジスタに移して計算するという処理で
|
|
189 ある。この様な細かい命令の展開が速度に差が出る要因である。
|
|
190
|
|
191 またこの出力からも、x86での速度差が少ないことが頷ける。引数のほとんど
|
|
192 をメモリに格納するx86では計算には一度レジスタに格納しないといけない事
|
|
193 から、結局3 命令になる。そのためgccの最適化が十分には働かないのである。
|
|
194 実際x86でのdivider\_sのアセンブラ出力はgccでは 24命令、mcでは18命令と
|
|
195 となっている。
|
|
196
|
|
197 この結果より、CbCで記述されたプログラムではレジスタが多い方が実効速度
|
|
198 の面で有利であるということが分る。これは他のコンパイラ言語でも同じ事が
|
|
199 言えるが、前の(手続きやメソッドにおける)環境を保持する必要がないCbCでは
|
|
200 その影響がより強い。
|
|
201
|
|
202 %レジスタの数は
|
|
203
|
|
204
|
|
205
|
|
206 %まずどのアーキテクチャにおいても、gccを使った場合は最適化の有無で大きな差が出ていることが分かる。
|
|
207 %ppc/OS Xでは倍以上の速度を示すことができた。
|
|
208 %これはgccの最適化機構が十分に働いている要因が大きい。
|
|
209 %特に構造体のポインタからそのメンバにアクセスする処理(Cにおけるアロー演算子である)では違いがでた。ppcではその処理のために
|
|
210 %特に共通部分式除去(Common Subexpression Elimination)の処理はmcにはなく、この例題では多数その処理が適用可能な部分が出てきているためその影響があるものと思われる。
|
|
211 %x86/OS Xでは約23\%ほど高速化された。
|
|
212 %x86/OS Xでは約23\%、 ppc/OS Xでは最適化ありのgccはmcと比べて倍以上の速度を示すことができた。
|
|
213 %しかしx86/Linuxでは逆に6\%ほど速度が低下している事が分かる。
|
|
214 %この主な原因は関数呼出し時のスタック操作である。今回\ref{chp:impl}章で説明したように、継続制御の実装には末尾最適化を応用する形をとった。そのためgccとしては関数として処理しているので、一部のスタック操作(x86なら\verb|pop, push|である)が残ってしまうことが分かっている。元から継続制御用に設計されたmcではそれが存在しないため、その分の処理が速度としてに現れたものと思われる。
|
|
215 %レジスタの多いアーキテクチャであるほど、速度は改善されると考えられる。
|
|
216 %その中でPowerPC(ppc)での最適化ありとなしの差が非常に大きい。これはppcアセンブラの特徴であるレジスタの多さが原因の一つである。ppcの関数呼出し規約ではほとんどの引数はレジスタにのせて呼出し先に渡すことができる。
|
|
217 %しかし呼出し先でさらに別の関数を呼び出す場合はそのレジスタを置き換えるため、スタックに積むなど値を保存しなければならない。この処理を最適に行うには呼び出し後の使用する変数、保持すべき変数を考慮する必要があるため、単純に全てをスタックに積む事とは違う処理が必要になる。
|
|
218
|
|
219
|
|
220 \section{CbCでのプログラム}
|
|
221
|
|
222
|
|
223
|
|
224
|
|
225
|