view paper/abstract.tex @ 34:472f45ab9fca draft default tip

fix
author Yutaka_Kinjyo <yutaka@cr.ie.u-ryukyu.ac.jp>
date Thu, 16 Feb 2012 23:46:16 +0900
parents fe88829c8fe3
children
line wrap: on
line source

\begin{abstract}
Cell Broad band Engine 用の並列プログラミングフレームワーク Cerium の改良を行った。
プログラムは、2 台の汎用 CPU である PPE から Mail 機能を用いて6台ある Vector CPU SPE に処理が割り振られ並列実行される。
SPEは共有メモリを持たない Cerium ではPPE上での処理が多いことがあり、PPE のMail チェック頻度が下がり、
SPE の待ち時間が増し処理性能が低下する問題があった。これをMailQueueにより解決した。
さらに、SPUのタスク終了をまとめるために、複数のTaskをまとめたTaskArrayを導入しタスク終了メールを削減した。
その結果、例題を用いた計測では、Mail 待ちが解消され、性能が向上した。
Cell では、DMA転送を明示的に行うが、これはアーキテクチャ依存な処理になる。メインメモリのキャッシュに相当する
機能を持つ MemorySegment を導入し、アーキテクチャ依存の記述を隠蔽することに成功した。
これにより、Core i7や Xeon のような汎用のメニーコアでもCeriumを有効に使える設計となった。

We have developed parallel programming framework Cerium for Cell Broad Band Engine.
Six SPE (Vector CPU) work in parallel by mails from two SPU (PowerPC). Since
SPE has no shared memory, not a few operation have to be executed in PPE. This makes
mail check interval rather large, resulting SPU waiting time and low performance.
We implemented MailQueue and TaskArray which is a group of task. It reduces number of mails for task finish and
hides mail delay, and we have good bench mark result. 

Cell uses explicit DMA transfer which is rare in shared memory multi processor. We introduce
MemorySegment which is similar to the main memory cache, which hides architecture dependent
description. By this, Cerium is now usable on general many core architecture such as Core i7 or Xeon.

\end{abstract}