view slide/index.html @ 27:9def91a908d6

add
author Masataka Kohagura <e085726@ie.u-ryukyu.ac.jp>
date Tue, 11 Feb 2014 18:11:36 +0900
parents 54591c145fec
children 933c669d567e
line wrap: on
line source

<!DOCTYPE html>

<html>
  <head>
    <title>Presentation</title>

    <meta charset='utf-8'>
    <script
       src='./slides.js'></script>
  </head>

  <style>
    /* Your individual styles here, or just use inline styles if that’s
    what you want. */

  </style>

  <body style='display: none'>
    <section class='slides layout-regular template-default'>

      <!-- 
           Your slides (<article>s) go here. Delete or comment out the
           slides below.
        -->
      <article >
        <h1>Cerium による並列処理向け I/O の設計と実装</h1>
        <h3 class="title">Masataka Kohagura 12th, February</h3>
        <div align="right">担当教官 : 河野 真治</div>
      </article>

        <article class='smaller'>
        <h3>研究背景と目的</h3>
        <p>
        近年のCPUのほとんどはマルチコアであり、それらの性能を引き出すためには並列プログラミングが必須となっている。
        そこで当研究室では、並列プログラミング用フレームワーク、Cerium Task Manager の開発を行い、提供することによって並列プログラミングを容易にしている。
        </p>
        <p>
        先行研究では Task の並列化によって、プログラム全体の処理速度は向上している。しかし、ファイル読み込み等の I/O と Task が並列に動作するようにはされていない。
        </p>
        <p>
        現状では、ファイルを memory に mapping を行ってから Task が走るようになっているので、I/O と Task が並列に動作しない。
        </p>
        <p>
        本研究では I/O と Task が並列に動作するような設計、実装によってプログラム全体の
        並列度、及び処理速度を上げていく。
        </p>
      </article>


        <article>
        <h3>mmapでの実装の問題点</h3>
        <ul>
        <li>
        mmap で file を読み込むと、file は memory 上にて即座には展開されない。
        </li>
        <li>
        file が memory に展開されるタイミングは、その file に対して何らかの計算を行うときである。<br><br>
        →つまり、Task が走るときに初めて memory に file を格納するので、I/O と Task が分離できない。
        </li>
        </ul>
      </article>

<!--
      <article>
        <h3>Cerium Task Manager の流れ</h3>
        <table  border="0" cellpadding="0" cellspacing="0">
          <tbody>
            <tr>
              <td><img src='images/cerium.png' style="height:350px"></td>
              <td>
                <ol>
                    <font size=5>
                  <li>Taskを生成後、Task Managerにて Task の管理、依存関係のチェック</li>
                  <li>TaskList に生成された Task を set </li>
                  <li>Task を各 Scheduler に転送</li>
                  <li>並列実行</li>
                    </font>
                </ol>
              </td>
            </tr>
          </tbody>
        </table>
      </article>
-->

      <article>
        <h3>並列処理向け I/O の 設計と実装</h3>
          <br>
          <ul>
            <li>I/O を含む Task の説明</li>
            <li>mmap の説明</li>
            <li>Blocked Read の設計と実装</li>
            <li>ベンチマーク</li>
          </ul>
      </article>

      <article>
        <h3>I/O を含む Task の説明</h3>
          <br>
          <img src='images/includeIOTask.png' style="height:250px">
          <ol>
            <li>file mapping 後、file をある一定の大きさに分割する</li>
            <li>分割した file に対して、それぞれ計算を行う</li>
            <li>計算した結果を集計する</li>
          </ol>
      </article>


      <article>
        <h3>mmap の説明</h3>
        <table  border="0" cellpadding="0" cellspacing="0">
          <tbody>
            <tr>
              <td><img src='images/mmap.png' style="height:350px"></td>
              <td>
                <ul>
                <font size = 5>
                  <li>
                  code がシンプル (memory を自分自身で malloc せず、read を書いて読み込まなくていいため)
                  </li>
                  <li>
                  memory より大きなファイルは開けない
                  </li>
                  <li>
                  read の先読みがOS依存
                  </li>
                  <li>
                  mmap した領域に対して何らかの処理が行われた時に memory に読み込まれる
                  </li>
                  </font>
                </ul>
              </td>
            </tr>
          </tbody>
        </table>

        <ul>
        </ul>
      </article>

      <article>
        <h3>Blocked Read の設計</h3>
          <br>
          <img src='images/divide_read.png' style="height:250px">
          <br>

        <ul>
          <li>
          明示的な read
          </li>
          <li>
          先読みを自分で書ける(制御できる)
          </li>
          <li>
          memory より大きなファイルを扱える
          </li>
        </ul>
      </article>

<!--
      <article>
        <h3>divide read の実装(1)</h3>
          <br>
          <h3 class="yellow">Read Task の ブロック化</h3>
        <pre>
program_run(TaskManager *manager, char *filename)
{
    FileReadPtr fr = (FileReadPtr)manager->allocate(sizeof(FileRead));
    fr->self = fr;
    fr->fd = fd;
    ・・・
    read = manager->create_task(RUN_READ_BLOCKS,
        (memaddr)&fr->self, sizeof(memaddr),read_text,fr->filesize);

    read->spawn();
}
</pre>
      </article>

      <article>
        <h3>divide read の実装(2)</h3>
          <br>
          <ul>
            <li>
            divide read Task の実行の際に、ブロック単位で Task の生成、実行を行う。
            </li>
            <li>
            1つずつ生成すると Task の数だけ memory address が取られるために肥大化してしまう。
            </li>
            <li>
            しかしブロック単位で生成すると、同じ変数を使用しているので memory の節約になる。
            </li>

            </li>
        </ul>
      </article>
-->

      <article class='smaller'>
        <h3>Blocked Read の実装</h3>
          <br>
          <img src='images/blockread.png' style="height:250px">
          <br>

        <ul>
          <li>
          Task を 1 つずつ生成するのではなく、ブロック単位で生成する。<br>
          この図では、1 Block 当たり n 個の Task を生成する。<br>
          (1つずつ生成すると、生成された Task で memory を圧迫するため)
          </li>
          <li>
          Task 1つ当たりの読み込む領域を L とする。<br>
          Blocked Read Task 1つ当たり、memory に格納する大きさは L × n となる。
          </li>
          <li>
          Blocked Read Task が読み込み終わるまで、Task Block に wait を掛ける。<br>
          (Read Task が格納する前に走ると、まだ格納していない領域を読みこんでしまう。)
          </li>
        </ul>
      </article>

      <article>
        <h3>ベンチマーク(1/3)</h3>
          <br>
              <h3 class="yellow">実験環境</h3>
              <ul>
              <li> Mac OS X 10.9.1</li>
              <li> 2*2.66 GHz 6-Core Intel Xeon</li>
              <li> Memory 16GB 1333MHz DDR3</li>
              <li> HHD 1TB</li>
              <li> file size : 約 10 GB</li>
              <li>
              "doing" という文字列が file 内にいくつあるか計算<br>
              ("doing" は 25,961,792 個存在する)
              </li>
              </ul>
      </article>

      <article class = 'smaller'>
        <h3>ベンチマーク(2/3)</h3>
        <ul>
            <li>
            file が memory に残っていない状態での測定
            </li>
            <li>
            one task size 128KByte
            </li>
            <li>
            Task Blocks 48
            </li>
        </ul>
        <br>
          <h3 class="yellow">結果</h3>
        <table  border="0" cellpadding="0" cellspacing="0">
          <tbody>
            <tr>
              <td>read mode</td>
              <td>cpu num</td>
              <td>min time(s)</td>
              <td>MAX time(s)</td>
              <td>ave time(s)</td>
            </tr>
            <tr>
              <td>mmap</td>
              <td>4</td>
              <td>135.2</td>
              <td>148.9</td>
              <td>142.3</td>
            </tr>
            <tr>
              <td>BRead</td>
              <td>4</td>
              <td>94.5</td>
              <td>109.2</td>
              <td>98.8</td>
            </tr>

            <tr>
              <td>mmap</td>
              <td>12</td>
              <td>147.0</td>
              <td>181.8</td>
              <td>154.6</td>
            </tr>
            <tr>
              <td>BRead</td>
              <td>12</td>
              <td>91.6</td>
              <td>117.5</td>
              <td>99.2</td>
            </tr>
          </tbody>
        </table>

      </article>

      <article class = 'smaller'>
        <h3>ベンチマーク(3/3)</h3>
          <h3 class="yellow">考察</h3>
            <ul>
                <li>
                mmap より、Blocked Readのほうが % ほど速くなった
                </li>
                <li>
                I/O と Task が分離できた。
                </li>
                <li>
                </li>
            </ul>

      </article>

      <article>
        <h3>大学院に進学してしたいこと</h3>
          <br>
            <ul>
            <li>
            さらなる 並列処理向け I/O の動作を改善
            </li>
            <li>
            I/O を利用した、マルチコアソフトウェアシンセサイザーを設計
            </li>
            </ul>

      </article>

      <article>
        <h3>マルチコアソフトウェアシンセサイザーの設計</h3>
          <br>
            <ul>
            <li>
            作曲をする際にはマシンパワーが必要となることが多い。
            </li>
            <li>
            ソフトウェアシンセサイザー(以下、シンセサイザー)を使用する際にマシンパワーが必要となる。
            </li>
            <li>
            シンセサイザーは1つだけで立ち上げる物ではなく、複数立ち上げる物なので、1つ1つの負荷を抑えることがキーポイントとなる。
            </li>
            <li>
            シンセサイザーは様々なフィルターをかけることで音を作っていくのだが、フィルターを重ねても動作軽量なプログラムを作る。
            </li>
            </ul>
      </article>

  </body>
</html>
            </ul>

      </article>

  </body>
</html>