0
|
1 \chapter{分散フレームワーク Alice の評価} \label{chapter:chapter5}
|
30
|
2 この章では第\ref{chapter:chapter4}章で行った効果の測定、先行研究であるFedarated Lindaとの性能比較を行い、評価を行う。TreeVNCとAliceVNCの比較をコードの観点からも評価を行う。
|
|
3
|
|
4 \section{機能の確認}
|
|
5 水族館の例題でノードを意図的に切断した結果トポロジーの再構成が行わることを確認した。
|
|
6 そして、切断したノードが再接続を行えることを確認した。
|
|
7 また、再接続の挙動を変更するAPIによりMMORPGにあるような、前回の魚の位置から再開させることに成功した。
|
|
8
|
12
|
9 \section{並列環境の改善効果の測定}
|
25
|
10 第\ref{chapter:chapter4}章 の並列環境における改善効果をbitonic sortによる実験によって測定を行なう。
|
11
|
11
|
19
|
12 \subsubsection{実験環境}
|
12
|
13 コア数が少ないマシンでは、同時に走るCode Segmentが少ないことから、メニコア環境で実験を行った。
|
|
14 \begin{table}[htbp]
|
|
15 \caption{実行環境の詳細}
|
|
16 \label{tb:MacPro}
|
|
17 \begin{center}
|
|
18 \begin{tabular} {|l|l|}
|
|
19 \hline
|
17
|
20 {\bf CPU}&Intel Xeon E5-1650 v2 @3.50GHz\\
|
12
|
21 \hline
|
17
|
22 {\bf 物理コア数}&6\\
|
12
|
23 \hline
|
|
24 {\bf CPU キャッシュ}&12MB\\
|
|
25 \hline
|
|
26 {\bf Memory}&16GB\\
|
|
27 \hline
|
|
28 \end{tabular}
|
|
29 \end{center}
|
|
30 \end{table}
|
19
|
31 \subsubsection{実験結果}
|
17
|
32 100万の要素をもつ配列のSortにかかる時間を計測する。同時に走るCode Segmentが物理コア数と同じになるように、分割数は4個で行った。
|
12
|
33
|
|
34 \begin{table}[html]
|
|
35 \caption{bitonic sortの結果}
|
|
36 \label{tb:result3}
|
|
37 \begin{center}
|
|
38 \begin{tabular}{|l|l|l|}
|
|
39 \hline
|
|
40 & 改善前 & 改善後 \\
|
|
41 \hline
|
17
|
42 実行時間 (ms)& 164.8 & 112.1 \\
|
12
|
43 \hline
|
|
44 \end{tabular}
|
|
45 \end{center}
|
|
46 \end{table}
|
|
47
|
|
48 \section{分散環境の改善効果の測定}
|
25
|
49 第\ref{chapter:chapter4}章 の分散環境における改善効果をリングトポロジーによる実験によって測定を行なう。
|
|
50 また、先行研究であるFederated Lindaとの比較も行う。
|
11
|
51
|
25
|
52 \subsubsection{実験概要}
|
11
|
53 リングのトポロジーを構成し、メッセージが 100 周する時間を計り、1周あたりの平均時間を求める実験である。(図 \ref{fig:topologyring})
|
|
54
|
|
55 \begin{figure}[htbp]
|
|
56 \begin{center}
|
17
|
57 \includegraphics[width=120mm]{images/topologyring.pdf}
|
11
|
58 \end{center}
|
|
59 \caption{100周にかかる時間を計測し、1周あたりの平均時間を求める}
|
|
60 \label{fig:topologyring}
|
|
61 \end{figure}
|
|
62
|
|
63 実験では、トポロジーの構築時間は実験に含めてはいない。
|
|
64
|
19
|
65 \subsubsection{実験環境}
|
25
|
66 学科にある共用のブレードサーバ上の仮想マシンによる仮想クラスタ環境を用いて実験を行った。他の利用者とリソースが競合しないためにTORQUEジョブスケジューラを利用している。
|
|
67
|
|
68 ブレードサーバーと仮想マシンの性能はそれぞれ表 \ref{tb:blade}、表 \ref{tb:virtual}である。
|
11
|
69
|
10
|
70 \begin{table}[htbp]
|
11
|
71 \caption{ブレードサーバーの詳細}
|
|
72 \label{tb:blade}
|
10
|
73 \begin{center}
|
|
74 \begin{tabular} {|l|l|}
|
11
|
75 \hline
|
10
|
76 {\bf マシン台数}&8台\\
|
|
77 \hline
|
|
78 {\bf CPU}&Intel(R) Xeon(R) X5650 @ 2.67GHz\\
|
|
79 \hline
|
|
80 {\bf 物理コア数}&12\\
|
|
81 \hline
|
|
82 {\bf 論理コア数}&24\\
|
|
83 \hline
|
|
84 {\bf CPU キャッシュ}&12MB\\
|
|
85 \hline
|
|
86 {\bf Memory}&132GB\\
|
|
87 \hline
|
|
88 \end{tabular}
|
|
89 \end{center}
|
|
90 \end{table}
|
|
91
|
|
92 \begin{table}[htbp]
|
|
93 \caption{仮想クラスタの詳細}
|
11
|
94 \label{tb:virtual}
|
10
|
95 \begin{center}
|
|
96 \begin{tabular} {|l|l|}
|
|
97 \hline
|
11
|
98 {\bf マシン台数}&48台\\
|
10
|
99 \hline
|
|
100 {\bf CPU}&Intel(R) Xeon(R) X5650 @ 2.67GHz\\
|
|
101 \hline
|
|
102 {\bf 物理コア数}&2\\
|
|
103 \hline
|
|
104 {\bf 仮想コア数}&4\\
|
|
105 \hline
|
|
106 {\bf CPU キャッシュ}&12MB\\
|
|
107 \hline
|
|
108 {\bf Memory}&8GB\\
|
|
109 \hline
|
|
110 \end{tabular}
|
|
111 \end{center}
|
|
112 \end{table}
|
|
113
|
25
|
114
|
11
|
115 \subsubsection{改善効果とFederated Lindaとの比較}
|
17
|
116 データのサイズは10Bと100KBで実験を行った。10Bの結果は図\ref{fig:compare_10B}、100KBの結果は図\ref{fig:compare_100KB}である。
|
11
|
117 \begin{figure}[htbp]
|
|
118 \begin{center}
|
17
|
119 \includegraphics[width=140mm]{images/compare_10B.pdf}
|
11
|
120 \end{center}
|
17
|
121 \caption{10 bytes のデータを 100 周させたときの 1 周にかかる平均時間}
|
|
122 \label{fig:compare_10B}
|
|
123
|
|
124 \begin{center}
|
|
125 \includegraphics[width=140mm]{images/compare_100KB.pdf}
|
|
126 \end{center}
|
|
127 \caption{100 Kbytes のデータを 100 周させたときの 1 周にかかる平均時間}
|
|
128 \label{fig:compare_100KB}
|
11
|
129 \end{figure}
|
|
130
|
17
|
131 10Bと100KBの両方の結果でAliceに行った改善の効果を確認することができる。
|
|
132 45台を使用した実験では10Bの小さいパットの場合では17%、100KBの大きいパケットの場合では12%程度高速化することができた。
|
|
133 Federated Lindaと改善後の比較では、10Bの場合でAliceのほうが20%程遅い。しかし、100KBの場合ほとんど差がないことがわかる。
|
10
|
134
|
25
|
135 \subsubsection{TCP\_NODELAY有無の比較}
|
|
136 TCPはデフォルトで、Nagleアルゴリズムを使用している。Nagleアルゴリズムは、小さいパケットを集めてまとめて送信することで、送信するパケット数を減らし効率性をあげるアルゴリズムである。このアルゴリズムの有無により実験結果に影響はないことを確認した。
|
11
|
137
|
12
|
138 \section{考察}
|
17
|
139 今回の結果から、Aliceは先行研究であるFederated Lindaと同等の性能を持つことが確認できた。
|
|
140 また、並列性能の改善と分散性能の改善の両方に効果があることを確認できた。
|
|
141 両方に共通して行った改善として、複数のSEDAのステージをまとめて1つのステージにしたことがあげられる。
|
|
142 SEDAが実行結果に大きく影響を与えていることが分かる。
|
|
143
|
|
144 10Bの実験でFederated Lindaに及ばない理由としてもSEDAが原因と考えられる。
|
|
145 リングの実験は並列処理を行なう部分がないシーケンシャルな実験であるため、全ての処理は直列的に実行される。SEDAによるThreadの切り替えが発生する分Aliceの実行速度は遅くなる。
|
31
|
146 100KBの実験ではData Segmentの送受信にかかる時間に比べ、Threadの切り替えの時間が無視できる程度小さいため、Federated Lindaと同等の性能になったと考えられる。
|
17
|
147
|
31
|
148 動的なトポロジーの対応、MMORPGで必要とされる切断時と再接続時の処理のAPIも正しく動作することを確認できた。以上からAliceには実用的なアプリケーションを記述する能力があると考えられる。
|
12
|
149
|
11
|
150 \section{TreeVNCとのCodeの比較}
|
27
|
151 ここでは授業向け画面共有システムであるTreeVNCとそれをAlice上で実装したAliceVNCをソースコードの面から比較した。
|
17
|
152 TreeVNCとAliceVNCのソースコードに対してwcを行い、TightVNCからどの程度コードが増加しているかを調べた。(表\ref {tb:diffwordCount})
|
11
|
153
|
17
|
154 \begin{table}[htbp]
|
|
155 \begin{center}
|
|
156 \begin{tabular} {|l|r|r|}
|
|
157 \hline
|
|
158 {\bf }&行数&単語数\\
|
|
159 \hline
|
|
160 {\bf TreeVNC}&5049&14191\\
|
|
161 \hline
|
|
162 {\bf AliceVNC}&989&2355\\
|
|
163 \hline
|
|
164 \end{tabular}
|
|
165 \end{center}
|
|
166 \caption{コードの増加量}
|
|
167 \label{tb:diffwordCount}
|
|
168 \end{table}
|
|
169
|
25
|
170 AliceVNCはTreeVNCの20\%の行数で記述できることがわかる。コード量が少なければ管理する手間が少ないためプログラマー負担を減らすことができる。つまり、Aliceを使うことでプログラマーの負担を80\%減らすことができる。 |