Cerium による文字列の並列処理

Masataka Kohagura

研究目的

世界中のサーバには様々な情報や log が保管されている。 それら全体のデータサイズは TB 単位になると予想され、文字列処理をかけると膨大な時間がかかると予想される。
Cerium の例題にはファイルの読み込みと文字列処理を行う Word Count があり、先行研究では文字列処理の並列化によってプログラム全体の処理速度は向上している。
ファイルの読み込みを含むプログラムは読み込みがオーバーヘッドとなり並列度が下がる。
ファイルの読み込みから文字列処理までのオーバーヘッドが軽減されると、読み込みから文字列処理までの処理速度は向上する。
また、読み込むファイルによっては 数GB 単位の大きなファイルになる可能性もあるので、ファイル読み込みのオーバーヘッドは無視できない。
本研究ではファイルの読み込みまで含む文字列処理を考慮した並列処理を実装し、プログラム全体の処理速度を軽減する。

実装している正規表現エンジンの全体の要約

正規表現にマッチさせる方法