diff paper/fft_benchmark.tex @ 2:b7c8a956c10b

write benchmark and conclusion
author Shohei KOKUBO <e105744@ie.u-ryukyu.ac.jp>
date Wed, 06 Nov 2013 01:16:42 +0900
parents 9e88a388ec83
children 208ca954df56
line wrap: on
line diff
--- a/paper/fft_benchmark.tex	Tue Nov 05 23:59:45 2013 +0900
+++ b/paper/fft_benchmark.tex	Wed Nov 06 01:16:42 2013 +0900
@@ -1,6 +1,6 @@
 \section{Benchmark}\label{fft_benchmark}
-続いて、フーリエ変換と周波数フィルタによる画像処理を行う例題を用いてベンチマークを行った。
-512*512の画像を High Pass Filter で変換する例題である。
+続いて,フーリエ変換と周波数フィルタによる画像処理を行う例題を用いて benchmark を行った。
+512*512 の画像を High Pass Filter で変換する例題である。
 
 実験環境
 \begin{itemize}
@@ -11,7 +11,6 @@
 \item GPU : AMD ATI Radeon HD 5870 1024MB
 \end{itemize}
 
-\subsection{Run Time}
 \begin{tiny}
   \begin{table}[h]
     \begin{center}
@@ -30,43 +29,13 @@
         \hline
         8 CPU&117 ms \\
         \hline
-        GPU&94 ms \\
-        \hline
       \end{tabular}
     \end{center}
   \end{table}
 \end{tiny}
 
-表\ref{table:fft_runtime}は CPU,GPU 上,及び CPU + GPU 上で同時実行して比較を行った。
-1 CPU を利用した場合と比較して,2 CPU では約 1.7 倍,GPU では約 4.8 倍の速度向上が見られる。しかしながら,8 CPU を利用した場合,4 CPU を利用した場合と比較して速度はあがっているが速度上昇率は約 1.5 倍に落ちている。これはアムダールの法則から,並列化率が低いために速度向上が頭打ちになっていると考えられる。
-
-\subsection{Busy Time}
-次に,RDTSC 命令を用い Busy Time の測定を行った。
-
-\begin{tiny}
-  \begin{table}[h]
-    \begin{center}
-      \caption{Busy Time}
-      \label{table:fft_busytime}
-      \small
-      \begin{tabular}[t]{c||r|r}
-        \hline
-        &Time Stamp&Busy Time \\
-        \hline
-        1 CPU&1202282702&451 ms \\
-        \hline
-        2 CPU&687813186&258 ms \\
-        \hline
-        4 CPU&421398464&158 ms \\
-        \hline
-        8 CPU&265192153&99 ms \\
-        \hline
-        GPU&3532807&1.3 ms \\
-        \hline
-      \end{tabular}
-    \end{center}
-  \end{table}
-\end{tiny}
-
-CPU を利用した場合,表\ref{table:fft_runtime}とほぼ同様の結果が得られた。
-しかしながら,GPU を利用した場合,Busy Time が 1.3 ms なのに対し,表\ref{table:fft_runtime}の Run Time は 94 ms となっている。この結果から,GPU 上で実行する場合,データの転送がネックになっていることがわかる。
+表\ref{table:fft_runtime}は使用する CPU のコア数を変更し比較を行った。
+1 CPU を利用した場合と比較して,2 CPU では約 1.7 倍,GPU では約 4.8 倍の速度向上が見られる。
+しかしながら,8 CPU を利用した場合,4 CPU を利用した場合と比較して速度はあがっているが速度上昇率は約 1.5 倍に落ちている。
+これはアムダールの法則から,並列化率が低いために速度向上が頭打ちになっていると考えられる。
+並列化率が低いのは,iterate で登録された Task が終了されるまで次の Task を実行することが出来ず,表\ref{table:data_parallel_index}のような index 割り当てだと Task の終了時間にばらつきが出て CPU の Utilization が低くなってることが考えられる。