Members/yuuhi/OpenCL: fft_Example/fft_kernelstring.cc annotate

author	Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp>
date	Tue, 22 Jan 2013 23:19:41 +0900
parents
children	3602b23914ad

rev	line source
2 ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	1
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	2 //
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	3 // File: fft_kernelstring.cpp
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	4 //
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	5 // Version: <1.0>
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	6 //
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	7 // Disclaimer: IMPORTANT: This Apple software is supplied to you by Apple Inc. ("Apple")
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	8 // in consideration of your agreement to the following terms, and your use,
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	9 // installation, modification or redistribution of this Apple software
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	10 // constitutes acceptance of these terms. If you do not agree with these
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	11 // terms, please do not use, install, modify or redistribute this Apple
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	12 // software.
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	13 //
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	14 // In consideration of your agreement to abide by the following terms, and
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	15 // subject to these terms, Apple grants you a personal, non - exclusive
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	16 // license, under Apple's copyrights in this original Apple software ( the
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	17 // "Apple Software" ), to use, reproduce, modify and redistribute the Apple
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	18 // Software, with or without modifications, in source and / or binary forms;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	19 // provided that if you redistribute the Apple Software in its entirety and
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	20 // without modifications, you must retain this notice and the following text
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	21 // and disclaimers in all such redistributions of the Apple Software. Neither
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	22 // the name, trademarks, service marks or logos of Apple Inc. may be used to
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	23 // endorse or promote products derived from the Apple Software without specific
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	24 // prior written permission from Apple. Except as expressly stated in this
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	25 // notice, no other rights or licenses, express or implied, are granted by
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	26 // Apple herein, including but not limited to any patent rights that may be
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	27 // infringed by your derivative works or by other works in which the Apple
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	28 // Software may be incorporated.
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	29 //
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	30 // The Apple Software is provided by Apple on an "AS IS" basis. APPLE MAKES NO
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	31 // WARRANTIES, EXPRESS OR IMPLIED, INCLUDING WITHOUT LIMITATION THE IMPLIED
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	32 // WARRANTIES OF NON - INFRINGEMENT, MERCHANTABILITY AND FITNESS FOR A
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	33 // PARTICULAR PURPOSE, REGARDING THE APPLE SOFTWARE OR ITS USE AND OPERATION
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	34 // ALONE OR IN COMBINATION WITH YOUR PRODUCTS.
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	35 //
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	36 // IN NO EVENT SHALL APPLE BE LIABLE FOR ANY SPECIAL, INDIRECT, INCIDENTAL OR
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	37 // CONSEQUENTIAL DAMAGES ( INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	38 // SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	39 // INTERRUPTION ) ARISING IN ANY WAY OUT OF THE USE, REPRODUCTION, MODIFICATION
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	40 // AND / OR DISTRIBUTION OF THE APPLE SOFTWARE, HOWEVER CAUSED AND WHETHER
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	41 // UNDER THEORY OF CONTRACT, TORT ( INCLUDING NEGLIGENCE ), STRICT LIABILITY OR
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	42 // OTHERWISE, EVEN IF APPLE HAS BEEN ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	43 //
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	44 // Copyright ( C ) 2008 Apple Inc. All Rights Reserved.
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	45 //
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	46 ////////////////////////////////////////////////////////////////////////////////////////////////////
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	47
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	48
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	49 #include <stdio.h>
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	50 #include <stdlib.h>
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	51 #include <math.h>
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	52 #include <iostream>
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	53 #include <sstream>
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	54 #include <string>
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	55 #include <assert.h>
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	56 #include "fft_internal.h"
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	57 #include "clFFT.h"
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	58
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	59 using namespace std;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	60
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	61 #define max(A,B) ((A) > (B) ? (A) : (B))
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	62 #define min(A,B) ((A) < (B) ? (A) : (B))
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	63
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	64 static string
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	65 num2str(int num)
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	66 {
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	67 char temp[200];
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	68 sprintf(temp, "%d", num);
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	69 return string(temp);
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	70 }
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	71
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	72 // For any n, this function decomposes n into factors for loacal memory tranpose
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	73 // based fft. Factors (radices) are sorted such that the first one (radixArray[0])
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	74 // is the largest. This base radix determines the number of registers used by each
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	75 // work item and product of remaining radices determine the size of work group needed.
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	76 // To make things concrete with and example, suppose n = 1024. It is decomposed into
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	77 // 1024 = 16 x 16 x 4. Hence kernel uses float2 a[16], for local in-register fft and
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	78 // needs 16 x 4 = 64 work items per work group. So kernel first performance 64 length
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	79 // 16 ffts (64 work items working in parallel) following by transpose using local
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	80 // memory followed by again 64 length 16 ffts followed by transpose using local memory
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	81 // followed by 256 length 4 ffts. For the last step since with size of work group is
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	82 // 64 and each work item can array for 16 values, 64 work items can compute 256 length
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	83 // 4 ffts by each work item computing 4 length 4 ffts.
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	84 // Similarly for n = 2048 = 8 x 8 x 8 x 4, each work group has 8 x 8 x 4 = 256 work
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	85 // iterms which each computes 256 (in-parallel) length 8 ffts in-register, followed
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	86 // by transpose using local memory, followed by 256 length 8 in-register ffts, followed
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	87 // by transpose using local memory, followed by 256 length 8 in-register ffts, followed
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	88 // by transpose using local memory, followed by 512 length 4 in-register ffts. Again,
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	89 // for the last step, each work item computes two length 4 in-register ffts and thus
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	90 // 256 work items are needed to compute all 512 ffts.
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	91 // For n = 32 = 8 x 4, 4 work items first compute 4 in-register
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	92 // lenth 8 ffts, followed by transpose using local memory followed by 8 in-register
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	93 // length 4 ffts, where each work item computes two length 4 ffts thus 4 work items
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	94 // can compute 8 length 4 ffts. However if work group size of say 64 is choosen,
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	95 // each work group can compute 64/ 4 = 16 size 32 ffts (batched transform).
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	96 // Users can play with these parameters to figure what gives best performance on
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	97 // their particular device i.e. some device have less register space thus using
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	98 // smaller base radix can avoid spilling ... some has small local memory thus
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	99 // using smaller work group size may be required etc
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	100
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	101 static void
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	102 getRadixArray(unsigned int n, unsigned int radixArray, unsigned int numRadices, unsigned int maxRadix)
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	103 {
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	104 if(maxRadix > 1)
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	105 {
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	106 maxRadix = min(n, maxRadix);
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	107 unsigned int cnt = 0;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	108 while(n > maxRadix)
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	109 {
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	110 radixArray[cnt++] = maxRadix;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	111 n /= maxRadix;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	112 }
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	113 radixArray[cnt++] = n;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	114 *numRadices = cnt;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	115 return;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	116 }
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	117
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	118 switch(n)
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	119 {
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	120 case 2:
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	121 *numRadices = 1;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	122 radixArray[0] = 2;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	123 break;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	124
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	125 case 4:
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	126 *numRadices = 1;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	127 radixArray[0] = 4;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	128 break;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	129
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	130 case 8:
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	131 *numRadices = 1;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	132 radixArray[0] = 8;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	133 break;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	134
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	135 case 16:
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	136 *numRadices = 2;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	137 radixArray[0] = 8; radixArray[1] = 2;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	138 break;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	139
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	140 case 32:
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	141 *numRadices = 2;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	142 radixArray[0] = 8; radixArray[1] = 4;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	143 break;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	144
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	145 case 64:
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	146 *numRadices = 2;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	147 radixArray[0] = 8; radixArray[1] = 8;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	148 break;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	149
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	150 case 128:
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	151 *numRadices = 3;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	152 radixArray[0] = 8; radixArray[1] = 4; radixArray[2] = 4;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	153 break;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	154
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	155 case 256:
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	156 *numRadices = 4;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	157 radixArray[0] = 4; radixArray[1] = 4; radixArray[2] = 4; radixArray[3] = 4;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	158 break;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	159
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	160 case 512:
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	161 *numRadices = 3;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	162 radixArray[0] = 8; radixArray[1] = 8; radixArray[2] = 8;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	163 break;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	164
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	165 case 1024:
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	166 *numRadices = 3;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	167 radixArray[0] = 16; radixArray[1] = 16; radixArray[2] = 4;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	168 break;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	169 case 2048:
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	170 *numRadices = 4;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	171 radixArray[0] = 8; radixArray[1] = 8; radixArray[2] = 8; radixArray[3] = 4;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	172 break;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	173 default:
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	174 *numRadices = 0;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	175 return;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	176 }
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	177 }
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	178
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	179 static void
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	180 insertHeader(string &kernelString, string &kernelName, clFFT_DataFormat dataFormat)
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	181 {
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	182 if(dataFormat == clFFT_SplitComplexFormat)
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	183 kernelString += string("__kernel void ") + kernelName + string("(__global float in_real, __global float in_imag, __global float out_real, __global float out_imag, int dir, int S)\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	184 else
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	185 kernelString += string("__kernel void ") + kernelName + string("(__global float2 in, __global float2 out, int dir, int S)\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	186 }
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	187
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	188 static void
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	189 insertVariables(string &kStream, int maxRadix)
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	190 {
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	191 kStream += string(" int i, j, r, indexIn, indexOut, index, tid, bNum, xNum, k, l;\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	192 kStream += string(" int s, ii, jj, offset;\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	193 kStream += string(" float2 w;\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	194 kStream += string(" float ang, angf, ang1;\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	195 kStream += string(" __local float lMemStore, lMemLoad;\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	196 kStream += string(" float2 a[") + num2str(maxRadix) + string("];\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	197 kStream += string(" int lId = get_local_id( 0 );\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	198 kStream += string(" int groupId = get_group_id( 0 );\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	199 }
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	200
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	201 static void
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	202 formattedLoad(string &kernelString, int aIndex, int gIndex, clFFT_DataFormat dataFormat)
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	203 {
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	204 if(dataFormat == clFFT_InterleavedComplexFormat)
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	205 kernelString += string(" a[") + num2str(aIndex) + string("] = in[") + num2str(gIndex) + string("];\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	206 else
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	207 {
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	208 kernelString += string(" a[") + num2str(aIndex) + string("].x = in_real[") + num2str(gIndex) + string("];\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	209 kernelString += string(" a[") + num2str(aIndex) + string("].y = in_imag[") + num2str(gIndex) + string("];\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	210 }
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	211 }
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	212
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	213 static void
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	214 formattedStore(string &kernelString, int aIndex, int gIndex, clFFT_DataFormat dataFormat)
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	215 {
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	216 if(dataFormat == clFFT_InterleavedComplexFormat)
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	217 kernelString += string(" out[") + num2str(gIndex) + string("] = a[") + num2str(aIndex) + string("];\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	218 else
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	219 {
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	220 kernelString += string(" out_real[") + num2str(gIndex) + string("] = a[") + num2str(aIndex) + string("].x;\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	221 kernelString += string(" out_imag[") + num2str(gIndex) + string("] = a[") + num2str(aIndex) + string("].y;\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	222 }
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	223 }
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	224
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	225 static int
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	226 insertGlobalLoadsAndTranspose(string &kernelString, int N, int numWorkItemsPerXForm, int numXFormsPerWG, int R0, int mem_coalesce_width, clFFT_DataFormat dataFormat)
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	227 {
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	228 int log2NumWorkItemsPerXForm = (int) log2(numWorkItemsPerXForm);
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	229 int groupSize = numWorkItemsPerXForm * numXFormsPerWG;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	230 int i, j;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	231 int lMemSize = 0;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	232
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	233 if(numXFormsPerWG > 1)
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	234 kernelString += string(" s = S & ") + num2str(numXFormsPerWG - 1) + string(";\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	235
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	236 if(numWorkItemsPerXForm >= mem_coalesce_width)
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	237 {
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	238 if(numXFormsPerWG > 1)
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	239 {
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	240 kernelString += string(" ii = lId & ") + num2str(numWorkItemsPerXForm-1) + string(";\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	241 kernelString += string(" jj = lId >> ") + num2str(log2NumWorkItemsPerXForm) + string(";\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	242 kernelString += string(" if( !s \|\| (groupId < get_num_groups(0)-1) \|\| (jj < s) ) {\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	243 kernelString += string(" offset = mad24( mad24(groupId, ") + num2str(numXFormsPerWG) + string(", jj), ") + num2str(N) + string(", ii );\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	244 if(dataFormat == clFFT_InterleavedComplexFormat)
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	245 {
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	246 kernelString += string(" in += offset;\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	247 kernelString += string(" out += offset;\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	248 }
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	249 else
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	250 {
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	251 kernelString += string(" in_real += offset;\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	252 kernelString += string(" in_imag += offset;\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	253 kernelString += string(" out_real += offset;\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	254 kernelString += string(" out_imag += offset;\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	255 }
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	256 for(i = 0; i < R0; i++)
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	257 formattedLoad(kernelString, i, i*numWorkItemsPerXForm, dataFormat);
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	258 kernelString += string(" }\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	259 }
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	260 else
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	261 {
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	262 kernelString += string(" ii = lId;\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	263 kernelString += string(" jj = 0;\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	264 kernelString += string(" offset = mad24(groupId, ") + num2str(N) + string(", ii);\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	265 if(dataFormat == clFFT_InterleavedComplexFormat)
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	266 {
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	267 kernelString += string(" in += offset;\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	268 kernelString += string(" out += offset;\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	269 }
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	270 else
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	271 {
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	272 kernelString += string(" in_real += offset;\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	273 kernelString += string(" in_imag += offset;\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	274 kernelString += string(" out_real += offset;\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	275 kernelString += string(" out_imag += offset;\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	276 }
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	277 for(i = 0; i < R0; i++)
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	278 formattedLoad(kernelString, i, i*numWorkItemsPerXForm, dataFormat);
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	279 }
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	280 }
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	281 else if( N >= mem_coalesce_width )
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	282 {
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	283 int numInnerIter = N / mem_coalesce_width;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	284 int numOuterIter = numXFormsPerWG / ( groupSize / mem_coalesce_width );
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	285
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	286 kernelString += string(" ii = lId & ") + num2str(mem_coalesce_width - 1) + string(";\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	287 kernelString += string(" jj = lId >> ") + num2str((int)log2(mem_coalesce_width)) + string(";\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	288 kernelString += string(" lMemStore = sMem + mad24( jj, ") + num2str(N + numWorkItemsPerXForm) + string(", ii );\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	289 kernelString += string(" offset = mad24( groupId, ") + num2str(numXFormsPerWG) + string(", jj);\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	290 kernelString += string(" offset = mad24( offset, ") + num2str(N) + string(", ii );\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	291 if(dataFormat == clFFT_InterleavedComplexFormat)
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	292 {
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	293 kernelString += string(" in += offset;\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	294 kernelString += string(" out += offset;\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	295 }
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	296 else
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	297 {
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	298 kernelString += string(" in_real += offset;\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	299 kernelString += string(" in_imag += offset;\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	300 kernelString += string(" out_real += offset;\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	301 kernelString += string(" out_imag += offset;\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	302 }
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	303
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	304 kernelString += string("if((groupId == get_num_groups(0)-1) && s) {\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	305 for(i = 0; i < numOuterIter; i++ )
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	306 {
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	307 kernelString += string(" if( jj < s ) {\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	308 for(j = 0; j < numInnerIter; j++ )
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	309 formattedLoad(kernelString, i * numInnerIter + j, j * mem_coalesce_width + i * ( groupSize / mem_coalesce_width ) * N, dataFormat);
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	310 kernelString += string(" }\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	311 if(i != numOuterIter - 1)
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	312 kernelString += string(" jj += ") + num2str(groupSize / mem_coalesce_width) + string(";\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	313 }
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	314 kernelString += string("}\n ");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	315 kernelString += string("else {\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	316 for(i = 0; i < numOuterIter; i++ )
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	317 {
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	318 for(j = 0; j < numInnerIter; j++ )
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	319 formattedLoad(kernelString, i * numInnerIter + j, j * mem_coalesce_width + i * ( groupSize / mem_coalesce_width ) * N, dataFormat);
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	320 }
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	321 kernelString += string("}\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	322
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	323 kernelString += string(" ii = lId & ") + num2str(numWorkItemsPerXForm - 1) + string(";\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	324 kernelString += string(" jj = lId >> ") + num2str(log2NumWorkItemsPerXForm) + string(";\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	325 kernelString += string(" lMemLoad = sMem + mad24( jj, ") + num2str(N + numWorkItemsPerXForm) + string(", ii);\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	326
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	327 for( i = 0; i < numOuterIter; i++ )
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	328 {
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	329 for( j = 0; j < numInnerIter; j++ )
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	330 {
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	331 kernelString += string(" lMemStore[") + num2str(j * mem_coalesce_width + i * ( groupSize / mem_coalesce_width ) * (N + numWorkItemsPerXForm )) + string("] = a[") +
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	332 num2str(i * numInnerIter + j) + string("].x;\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	333 }
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	334 }
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	335 kernelString += string(" barrier( CLK_LOCAL_MEM_FENCE );\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	336
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	337 for( i = 0; i < R0; i++ )
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	338 kernelString += string(" a[") + num2str(i) + string("].x = lMemLoad[") + num2str(i * numWorkItemsPerXForm) + string("];\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	339 kernelString += string(" barrier( CLK_LOCAL_MEM_FENCE );\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	340
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	341 for( i = 0; i < numOuterIter; i++ )
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	342 {
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	343 for( j = 0; j < numInnerIter; j++ )
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	344 {
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	345 kernelString += string(" lMemStore[") + num2str(j * mem_coalesce_width + i * ( groupSize / mem_coalesce_width ) * (N + numWorkItemsPerXForm )) + string("] = a[") +
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	346 num2str(i * numInnerIter + j) + string("].y;\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	347 }
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	348 }
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	349 kernelString += string(" barrier( CLK_LOCAL_MEM_FENCE );\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	350
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	351 for( i = 0; i < R0; i++ )
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	352 kernelString += string(" a[") + num2str(i) + string("].y = lMemLoad[") + num2str(i * numWorkItemsPerXForm) + string("];\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	353 kernelString += string(" barrier( CLK_LOCAL_MEM_FENCE );\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	354
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	355 lMemSize = (N + numWorkItemsPerXForm) * numXFormsPerWG;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	356 }
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	357 else
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	358 {
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	359 kernelString += string(" offset = mad24( groupId, ") + num2str(N * numXFormsPerWG) + string(", lId );\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	360 if(dataFormat == clFFT_InterleavedComplexFormat)
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	361 {
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	362 kernelString += string(" in += offset;\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	363 kernelString += string(" out += offset;\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	364 }
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	365 else
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	366 {
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	367 kernelString += string(" in_real += offset;\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	368 kernelString += string(" in_imag += offset;\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	369 kernelString += string(" out_real += offset;\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	370 kernelString += string(" out_imag += offset;\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	371 }
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	372
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	373 kernelString += string(" ii = lId & ") + num2str(N-1) + string(";\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	374 kernelString += string(" jj = lId >> ") + num2str((int)log2(N)) + string(";\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	375 kernelString += string(" lMemStore = sMem + mad24( jj, ") + num2str(N + numWorkItemsPerXForm) + string(", ii );\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	376
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	377 kernelString += string("if((groupId == get_num_groups(0)-1) && s) {\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	378 for( i = 0; i < R0; i++ )
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	379 {
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	380 kernelString += string(" if(jj < s )\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	381 formattedLoad(kernelString, i, i*groupSize, dataFormat);
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	382 if(i != R0 - 1)
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	383 kernelString += string(" jj += ") + num2str(groupSize / N) + string(";\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	384 }
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	385 kernelString += string("}\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	386 kernelString += string("else {\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	387 for( i = 0; i < R0; i++ )
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	388 {
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	389 formattedLoad(kernelString, i, i*groupSize, dataFormat);
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	390 }
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	391 kernelString += string("}\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	392
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	393 if(numWorkItemsPerXForm > 1)
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	394 {
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	395 kernelString += string(" ii = lId & ") + num2str(numWorkItemsPerXForm - 1) + string(";\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	396 kernelString += string(" jj = lId >> ") + num2str(log2NumWorkItemsPerXForm) + string(";\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	397 kernelString += string(" lMemLoad = sMem + mad24( jj, ") + num2str(N + numWorkItemsPerXForm) + string(", ii );\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	398 }
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	399 else
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	400 {
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	401 kernelString += string(" ii = 0;\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	402 kernelString += string(" jj = lId;\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	403 kernelString += string(" lMemLoad = sMem + mul24( jj, ") + num2str(N + numWorkItemsPerXForm) + string(");\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	404 }
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	405
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	406
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	407 for( i = 0; i < R0; i++ )
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	408 kernelString += string(" lMemStore[") + num2str(i * ( groupSize / N ) * ( N + numWorkItemsPerXForm )) + string("] = a[") + num2str(i) + string("].x;\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	409 kernelString += string(" barrier( CLK_LOCAL_MEM_FENCE );\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	410
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	411 for( i = 0; i < R0; i++ )
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	412 kernelString += string(" a[") + num2str(i) + string("].x = lMemLoad[") + num2str(i * numWorkItemsPerXForm) + string("];\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	413 kernelString += string(" barrier( CLK_LOCAL_MEM_FENCE );\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	414
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	415 for( i = 0; i < R0; i++ )
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	416 kernelString += string(" lMemStore[") + num2str(i * ( groupSize / N ) * ( N + numWorkItemsPerXForm )) + string("] = a[") + num2str(i) + string("].y;\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	417 kernelString += string(" barrier( CLK_LOCAL_MEM_FENCE );\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	418
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	419 for( i = 0; i < R0; i++ )
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	420 kernelString += string(" a[") + num2str(i) + string("].y = lMemLoad[") + num2str(i * numWorkItemsPerXForm) + string("];\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	421 kernelString += string(" barrier( CLK_LOCAL_MEM_FENCE );\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	422
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	423 lMemSize = (N + numWorkItemsPerXForm) * numXFormsPerWG;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	424 }
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	425
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	426 return lMemSize;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	427 }
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	428
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	429 static int
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	430 insertGlobalStoresAndTranspose(string &kernelString, int N, int maxRadix, int Nr, int numWorkItemsPerXForm, int numXFormsPerWG, int mem_coalesce_width, clFFT_DataFormat dataFormat)
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	431 {
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	432 int groupSize = numWorkItemsPerXForm * numXFormsPerWG;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	433 int i, j, k, ind;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	434 int lMemSize = 0;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	435 int numIter = maxRadix / Nr;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	436 string indent = string("");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	437
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	438 if( numWorkItemsPerXForm >= mem_coalesce_width )
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	439 {
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	440 if(numXFormsPerWG > 1)
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	441 {
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	442 kernelString += string(" if( !s \|\| (groupId < get_num_groups(0)-1) \|\| (jj < s) ) {\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	443 indent = string(" ");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	444 }
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	445 for(i = 0; i < maxRadix; i++)
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	446 {
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	447 j = i % numIter;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	448 k = i / numIter;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	449 ind = j * Nr + k;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	450 formattedStore(kernelString, ind, i*numWorkItemsPerXForm, dataFormat);
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	451 }
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	452 if(numXFormsPerWG > 1)
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	453 kernelString += string(" }\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	454 }
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	455 else if( N >= mem_coalesce_width )
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	456 {
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	457 int numInnerIter = N / mem_coalesce_width;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	458 int numOuterIter = numXFormsPerWG / ( groupSize / mem_coalesce_width );
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	459
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	460 kernelString += string(" lMemLoad = sMem + mad24( jj, ") + num2str(N + numWorkItemsPerXForm) + string(", ii );\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	461 kernelString += string(" ii = lId & ") + num2str(mem_coalesce_width - 1) + string(";\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	462 kernelString += string(" jj = lId >> ") + num2str((int)log2(mem_coalesce_width)) + string(";\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	463 kernelString += string(" lMemStore = sMem + mad24( jj,") + num2str(N + numWorkItemsPerXForm) + string(", ii );\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	464
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	465 for( i = 0; i < maxRadix; i++ )
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	466 {
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	467 j = i % numIter;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	468 k = i / numIter;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	469 ind = j * Nr + k;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	470 kernelString += string(" lMemLoad[") + num2str(i*numWorkItemsPerXForm) + string("] = a[") + num2str(ind) + string("].x;\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	471 }
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	472 kernelString += string(" barrier( CLK_LOCAL_MEM_FENCE );\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	473
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	474 for( i = 0; i < numOuterIter; i++ )
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	475 for( j = 0; j < numInnerIter; j++ )
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	476 kernelString += string(" a[") + num2str(inumInnerIter + j) + string("].x = lMemStore[") + num2str(jmem_coalesce_width + i( groupSize / mem_coalesce_width )(N + numWorkItemsPerXForm)) + string("];\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	477 kernelString += string(" barrier( CLK_LOCAL_MEM_FENCE );\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	478
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	479 for( i = 0; i < maxRadix; i++ )
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	480 {
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	481 j = i % numIter;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	482 k = i / numIter;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	483 ind = j * Nr + k;
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	484 kernelString += string(" lMemLoad[") + num2str(i*numWorkItemsPerXForm) + string("] = a[") + num2str(ind) + string("].y;\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	485 }
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	486 kernelString += string(" barrier( CLK_LOCAL_MEM_FENCE );\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	487
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	488 for( i = 0; i < numOuterIter; i++ )
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	489 for( j = 0; j < numInnerIter; j++ )
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	490 kernelString += string(" a[") + num2str(inumInnerIter + j) + string("].y = lMemStore[") + num2str(jmem_coalesce_width + i( groupSize / mem_coalesce_width )(N + numWorkItemsPerXForm)) + string("];\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	491 kernelString += string(" barrier( CLK_LOCAL_MEM_FENCE );\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	492
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	493 kernelString += string("if((groupId == get_num_groups(0)-1) && s) {\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	494 for(i = 0; i < numOuterIter; i++ )
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	495 {
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	496 kernelString += string(" if( jj < s ) {\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	497 for(j = 0; j < numInnerIter; j++ )
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	498 formattedStore(kernelString, inumInnerIter + j, jmem_coalesce_width + i(groupSize/mem_coalesce_width)N, dataFormat);
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	499 kernelString += string(" }\n");
ccea4e6a1945 add OpenCL example Yuhi TOMARI <yuhi@cr.ie.u-ryukyu.ac.jp> parents: diff changeset	500 if(i != numOuterIter - 1)

2

ccea4e6a1945 add OpenCL example