1
|
1 \section{はじめに}
|
|
2 GPU の普及と高性能化にともない、GPU の演算資源を画像処理以外の目的にも利用する GPGPU(GPU による汎目的計算)が注目されている。
|
2
|
3 GPU 以外にも Cell, SpursEngine, Xeon Phi など様々なプロセッサが存在する。
|
3
|
4 それぞれのプロセッサを利用するにはそれぞれ異なる API を利用する必要があり、それらの対応に多くの時間を取られてしまいプログラムの性能改善に集中することができない。
|
|
5 また、GPU や Cell などメモリ空間が異なるプロセッサはデータの転送がオーバーヘッドとなるので、データ転送を効率的に行えるかどうかで処理時間が大きく変わる。
|
|
6
|
|
7 当研究室で開発・改良が行われている並列プログラミングフレームワーク Cerium は様々なプロセッサを統合して扱えるフレームワークを目指している。
|
|
8 様々なプロセッサを統合して扱えるフレームワークとしてフランス国立情報学自動制御研究所(INRIA)が開発している StarPU がある。
|
|
9 StarPU は Cerium と同じタスクベースの非同期フレームワークである。
|
4
|
10 %% ちゃんと論文を引用する
|
3
|
11 タスクという単位で記述することで処理とデータを分離し、より効率的に処理を行うことができる。
|
2
|
12 StarPU にはパイプラインでの実行機構は入ってなく、パイプライン処理を行いたい場合は自分で実装するしかない。
|
|
13 しかし、パイプライン処理を書くことは非常に煩雑で難しい。
|
3
|
14 そこで、今回 Cerium に OpenCL, CUDA を用いた Scheduler を新たに実装した。
|
|
15 Scheduler は自動でデータ転送をオーバーラップし、パイプラインで処理を行うように設計した。
|
1
|
16
|
|
17 本論文では、まず OpenCL, CUDA について説明する。
|
|
18 その後、既存の Cerium の実装および新たに実装した GPU 実行の機構について説明する。
|
|
19 最後に WordCount, FFT を例題として測定し、評価を行う。
|