Mercurial > hg > Papers > 2015 > yuhi-master
annotate paper/chapter1.tex @ 55:48db1f674a83
update pdf
author | Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> |
---|---|
date | Tue, 17 Feb 2015 13:47:08 +0900 |
parents | 417431560eed |
children | f9b73e12a52f |
rev | line source |
---|---|
55 | 1 \chapter{既存のマルチプラットフォーム\\フレームワーク} |
15 | 2 マルチプラットフォームでプログラムを動作させる場合、そのアーキテクチャを意識する必要がある。 |
3 マルチプラットフォームにはマルチコア CPU 、 GPU や Cell といったヘテロジニアスマルチコアのような | |
4 様々な構成がある。 | |
5 | |
33
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
6 \section{GPU/Cell の Architecture} |
31 | 7 \label{sec:shared_memory} |
15 | 8 本研究では、 CPU の他に GPU 上でのプログラミング (GPGPU) にも対応する。 |
9 | |
10 GPU(Graphics Processing Unit) は PC の画像処理を担当するユニットで、 | |
11 レンダリングに特化したプロセッサが多く集まった構造を持つ。 | |
12 一つ一つのプロセッサの構造は単純で、その機能は CPU に比べて限定的ではあるが | |
13 大量のデータを複数のプロセッサで並列処理することに長けている。 | |
31 | 14 つまり、データ並列による実行を行った際、特に GPU の性能を充分に発揮できる。 |
15 | 15 |
16 GPGPU (General Purpose computing on Graphics Processing Units) とは、 | |
17 GPU の高い演算能力を画像処理ではなく汎用計算に使用することである。 | |
18 | |
19 計算機にはメモリ空間が別の計算機と、共有メモリ(Shared Memory)な計算機がある。 | |
20 GPU のメモリ空間(図:\ref{fig:gpuarch})はマルチコア CPU (図:\ref{fig:cpuarch})と違い、 | |
21 共有メモリ(shared mermoy)でないので Host と Device 間で Data の共有ができない。 | |
22 そのためマルチプラットフォーム環境に対応したフレームワークには、 | |
23 Device と Host 間でデータの転送を行う API 備わっている。 | |
24 しかし、異なる Device 間でデータの転送を行うとネックになる。 | |
25 そのためデータの入出力を行う回数を減らす、入出力の処理をパイプライン処理にするなどの工夫が必要になる。 | |
26 | |
27 \begin{figure}[htpb] | |
28 \begin{center} | |
29 \includegraphics[scale=0.4]{./images/gpu_arch.pdf} | |
30 \end{center} | |
31 \caption{GPU Architecture} | |
32 \label{fig:gpuarch} | |
33 \end{figure} | |
34 | |
35 \begin{figure}[htpb] | |
36 \begin{center} | |
37 \includegraphics[scale=0.8]{./images/cpu_arch.pdf} | |
38 \end{center} | |
39 \caption{CPU Architecture} | |
40 \label{fig:cpuarch} | |
41 \end{figure} | |
33
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
42 |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
43 Shared Memory でないプロセッサとして、Cell が挙げられる。 |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
44 |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
45 Cell は1基の制御系プロセッサコア PPE ( PowerPC Processer Element ) と |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
46 8基の演算系プロセッサコア SPE ( Synergistic Processer Element ) で構成される。 |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
47 各プロセッサコアはEIB (Element Interconnect Bus ) と呼ばれる高速なバスで接続されている。 |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
48 また、 EIB はメインメモリや外部入出力デバイスと接続されており、 |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
49 各プロセッサコアは EIB を経由してデータアクセスを行う。 |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
50 PPE、SPE、メインメモリ、EIB の構成図を図:\ref{fig:cell_arch}に示す。 |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
51 \begin{figure}[htpb] |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
52 \begin{center} |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
53 \includegraphics[scale=0.8]{./images/cell_arch.pdf} |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
54 \end{center} |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
55 \caption{Cell Architecture} |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
56 \label{fig:cell_arch} |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
57 \end{figure} |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
58 |
15 | 59 \newpage |
60 %-------- | |
61 % OpenCL | |
62 %-------- | |
63 | |
0 | 64 \section{OpenCL} |
3 | 65 OpenCL とは、 Khronos Group の提供するマルチコア CPU と GPU といった、 |
66 ヘテロジニアス環境を利用した並列計算を支援するフレームワークである。 | |
1 | 67 |
15 | 68 OpenCL では演算用プロセッサ側を Device 、制御用デバイス側を Host として定義する。 |
69 また、 Device 上で動作するプログラムの事を kernel と呼ぶ。 | |
70 | |
71 OpenCL では、デバイスの操作に Command Queue を使用する。 | |
72 Command Queue は Device に命令を送るための仕組みである。 | |
73 Command Queue は clCreateCommandQueue という OpenCL API で作成され、 | |
74 Command Queue が所属するコンテキストや実行対象となる Device を指定する。 | |
75 | |
76 kernel の実行、input data への書き込み、 output data の読み込みといった | |
77 メモリ操作はこの Command Queue を通して行われる。 | |
78 | |
1 | 79 OpenCL には主に2つの仕様がある。 |
80 | |
81 \begin{itemize} | |
82 \item OpenCL C言語 | |
83 \item OpenCL Runtime API | |
84 \end{itemize} | |
85 | |
15 | 86 OpenCL C は演算用プロセッサ上で動作する、 C 言語を拡張したプログラミング言語である。 |
87 一方で OpenCL Runtime API は OpenCL C で記述した kernel を Queuing するために Host が利用する API である。 | |
1 | 88 |
15 | 89 Host では主に Data を input/output するメモリ資源の確保を行う。 |
90 OpenCL は host 側で memory buffer を作成してメモリのコピーを行う。 | |
1 | 91 これらの処理や Task は Command Queue に enqueue することで実行される。 |
13 | 92 |
15 | 93 |
94 %------ | |
95 % CUDA | |
96 %------ | |
2 | 97 \section{CUDA} |
98 CUDA とは、半導体メーカーNVIDIA社が提供するGPUコンピューティング向けの総合開発環境である。 | |
0 | 99 |
15 | 100 CUDA も OpenCL と同様、演算用プロセッサ (GPU) を Device 、制御用デバイス側を Host として定義する。 |
101 また、 Device 上で動作するプログラムの事も kernel と呼ぶ。 | |
102 | |
103 OpenCL における Command と CommandQueue に対応するものとして、 CUDA には Operation と Stream がある。 | |
104 Stream は Host 側で発行された Operation を一連の動作として Device で実行する。 | |
105 Operation は発行された順序で実行されることが保証されている。 | |
106 更に、異なる Stream に発行された Operation も依存関係が存在しない場合、Operationは並列に実行される。 | |
107 更に依存関係が存在しない、異なる Stream に発行された Operation は並列に実行される。 | |
108 | |
2 | 109 CUDAには主に3つの仕様がある。 |
110 | |
111 \begin{itemize} | |
112 \item CUDA C | |
113 \item CUDA Runtime API | |
114 \item CUDA Driver API | |
115 \end{itemize} | |
116 CUDA C は GPU 上で動作する、C 言語を拡張したプログラミング言語である。 | |
15 | 117 CUDA Runtime API も CUDA Driver API も CUDA C で記述した Kernel を Queueing するために |
118 Host が利用するAPIである。 | |
2 | 119 Driver API は Runtime APIに比べ、プログラマが管理しなければならないリソースが多くなる代わり、 |
120 より柔軟な処理を行う事ができる。 | |
121 | |
122 Stream は cuStreamCreate という Driver API で生成される。 | |
123 引数に Stream を指定しない API は全て host 側をブロックする同期的な処理となる。 | |
124 複数の Stream を同時に走らせ、 Operation を並列に実行するためには非同期的な処理を行う API を利用する必要がある。 | |
125 | |
126 \section{StarPU} | |
3 | 127 StarPUはフランス国立情報学自動制御研究所 (INRIA) の StarPU 開発チームの提供する、 |
128 ヘテロジニアス環境向けのフレームワークである。 | |
129 GPU の制御に OpenCL と CUDA を用いており、どちらかを選択することで GPU 上で実行することができる。 | |
130 | |
131 OpenCL と CUDA における実行の単位は kernel だったが、 StarPU では実行の単位を Task と定義している。 | |
132 | |
133 StarPU では Task を制御するためにcodeletと呼ばれる構造体を使う。 | |
134 codelet を Task 生成時にポインタ渡しすることで、 | |
135 演算を行うリソースや実行する関数等を指定することができる。 | |
136 CPU と GPU で並列に実行する例を\ref{src:codelet}に示す。 | |
137 | |
138 \begin{lstlisting}[frame=lrbt,label=src:codelet,caption=codeletの例,numbers=left] | |
139 starpu_codelet codelet = { | |
140 .where = STARPU_CPU|STARPU_CUDA, | |
141 .cpu_func = cpu_function, | |
142 .cuda_func = cuda_function, | |
143 }; | |
144 \end{lstlisting} | |
145 | |
33
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
146 \section{Cell Broadband Engine} |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
147 Cell Broadband Engine は、 |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
148 ソニー・コンピュータエンタテイメント、ソニー、IBM 、東芝によって開発されたプロセッサである。 |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
149 Cell は PPE と SPE によって構成されており、これらは OpenCL や CUDA で言うところの Device にあたる。 |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
150 PPE は Cell Broadband Engine のメインプロセッサで、 |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
151 複数の SPE をコアプロセッサとして使用できる汎用プロセッサである。 |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
152 メインメモリや外部デバイスへの入出力、SPE を制御する役割を担っている。 |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
153 |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
154 SPE は PPE によって制御される演算系のプロセッサである。 |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
155 \ref{sec:shared_memory}節でも述べた通り、 SPE からメインメモリへ直接アクセスすることはできず、 |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
156 DMA (Direct Memory Access) 転送によってアクセスを行う。 |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
157 DMA 転送とは CPU を介さずに周辺装置とメモリとの間でデータ転送を行う事で、 |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
158 SPE が持っているコントローラが DMA Controller と通信することで行われる。手順としては以下のようになる。 |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
159 |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
160 \begin{enumerate} |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
161 \item SPE で起動しているプログラムが、コントローラに対して DMA 転送命令を発行 |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
162 \item SPE の持つコントローラが DMA Controller を介して DMA 転送を開始。 |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
163 この間 SPE で起動しているプログラムは停止しない |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
164 \item 転送が開始したら、SPE プログラムが転送の完了を待つ |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
165 |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
166 \end{enumerate} |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
167 |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
168 Cell の PPE には主に2つの仕様がある。 |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
169 |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
170 OpenCL には主に2つの仕様がある。 |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
171 |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
172 \begin{itemize} |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
173 \item SPU 拡張 C/C++ |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
174 \item libSPE2 |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
175 \end{itemize} |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
176 |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
177 SPE 上で動作する、拡張された C/C++ の言語を用いる。 |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
178 通常の C/C++ 言語との違いは DMA 転送、SIMD 演算(加算、減算、乗算)に対応していることが挙げられる。 |
417431560eed
benchmark data parallel
Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
parents:
31
diff
changeset
|
179 一方で libSPE2 は PPE が SPE を制御するためのライブラリ群である。 |