CbC/CbC_gcc: libgomp/plugin/plugin-nvptx.c annotate

annotate libgomp/plugin/plugin-nvptx.c @ 131:84e7813d76e9

gcc-8.2

author	mir3636
date	Thu, 25 Oct 2018 07:37:49 +0900
parents	04ced10e8804
children	1830386684a0

rev	line source
111 04ced10e8804 gcc 7 kono parents: diff changeset	1 /* Plugin for NVPTX execution.
04ced10e8804 gcc 7 kono parents: diff changeset	2
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	3 Copyright (C) 2013-2018 Free Software Foundation, Inc.
111 04ced10e8804 gcc 7 kono parents: diff changeset	4
04ced10e8804 gcc 7 kono parents: diff changeset	5 Contributed by Mentor Embedded.
04ced10e8804 gcc 7 kono parents: diff changeset	6
04ced10e8804 gcc 7 kono parents: diff changeset	7 This file is part of the GNU Offloading and Multi Processing Library
04ced10e8804 gcc 7 kono parents: diff changeset	8 (libgomp).
04ced10e8804 gcc 7 kono parents: diff changeset	9
04ced10e8804 gcc 7 kono parents: diff changeset	10 Libgomp is free software; you can redistribute it and/or modify it
04ced10e8804 gcc 7 kono parents: diff changeset	11 under the terms of the GNU General Public License as published by
04ced10e8804 gcc 7 kono parents: diff changeset	12 the Free Software Foundation; either version 3, or (at your option)
04ced10e8804 gcc 7 kono parents: diff changeset	13 any later version.
04ced10e8804 gcc 7 kono parents: diff changeset	14
04ced10e8804 gcc 7 kono parents: diff changeset	15 Libgomp is distributed in the hope that it will be useful, but WITHOUT ANY
04ced10e8804 gcc 7 kono parents: diff changeset	16 WARRANTY; without even the implied warranty of MERCHANTABILITY or FITNESS
04ced10e8804 gcc 7 kono parents: diff changeset	17 FOR A PARTICULAR PURPOSE. See the GNU General Public License for
04ced10e8804 gcc 7 kono parents: diff changeset	18 more details.
04ced10e8804 gcc 7 kono parents: diff changeset	19
04ced10e8804 gcc 7 kono parents: diff changeset	20 Under Section 7 of GPL version 3, you are granted additional
04ced10e8804 gcc 7 kono parents: diff changeset	21 permissions described in the GCC Runtime Library Exception, version
04ced10e8804 gcc 7 kono parents: diff changeset	22 3.1, as published by the Free Software Foundation.
04ced10e8804 gcc 7 kono parents: diff changeset	23
04ced10e8804 gcc 7 kono parents: diff changeset	24 You should have received a copy of the GNU General Public License and
04ced10e8804 gcc 7 kono parents: diff changeset	25 a copy of the GCC Runtime Library Exception along with this program;
04ced10e8804 gcc 7 kono parents: diff changeset	26 see the files COPYING3 and COPYING.RUNTIME respectively. If not, see
04ced10e8804 gcc 7 kono parents: diff changeset	27 <http://www.gnu.org/licenses/>. */
04ced10e8804 gcc 7 kono parents: diff changeset	28
04ced10e8804 gcc 7 kono parents: diff changeset	29 /* Nvidia PTX-specific parts of OpenACC support. The cuda driver
04ced10e8804 gcc 7 kono parents: diff changeset	30 library appears to hold some implicit state, but the documentation
04ced10e8804 gcc 7 kono parents: diff changeset	31 is not clear as to what that state might be. Or how one might
04ced10e8804 gcc 7 kono parents: diff changeset	32 propagate it from one thread to another. */
04ced10e8804 gcc 7 kono parents: diff changeset	33
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	34 #define _GNU_SOURCE
111 04ced10e8804 gcc 7 kono parents: diff changeset	35 #include "openacc.h"
04ced10e8804 gcc 7 kono parents: diff changeset	36 #include "config.h"
04ced10e8804 gcc 7 kono parents: diff changeset	37 #include "libgomp-plugin.h"
04ced10e8804 gcc 7 kono parents: diff changeset	38 #include "oacc-plugin.h"
04ced10e8804 gcc 7 kono parents: diff changeset	39 #include "gomp-constants.h"
04ced10e8804 gcc 7 kono parents: diff changeset	40
04ced10e8804 gcc 7 kono parents: diff changeset	41 #include <pthread.h>
04ced10e8804 gcc 7 kono parents: diff changeset	42 #include <cuda.h>
04ced10e8804 gcc 7 kono parents: diff changeset	43 #include <stdbool.h>
04ced10e8804 gcc 7 kono parents: diff changeset	44 #include <stdint.h>
04ced10e8804 gcc 7 kono parents: diff changeset	45 #include <limits.h>
04ced10e8804 gcc 7 kono parents: diff changeset	46 #include <string.h>
04ced10e8804 gcc 7 kono parents: diff changeset	47 #include <stdio.h>
04ced10e8804 gcc 7 kono parents: diff changeset	48 #include <unistd.h>
04ced10e8804 gcc 7 kono parents: diff changeset	49 #include <assert.h>
04ced10e8804 gcc 7 kono parents: diff changeset	50 #include <errno.h>
04ced10e8804 gcc 7 kono parents: diff changeset	51
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	52 #if CUDA_VERSION < 6000
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	53 extern CUresult cuGetErrorString (CUresult, const char **);
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	54 #define CU_DEVICE_ATTRIBUTE_MAX_REGISTERS_PER_MULTIPROCESSOR 82
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	55 #endif
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	56
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	57 #if CUDA_VERSION >= 6050
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	58 #undef cuLinkCreate
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	59 #undef cuLinkAddData
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	60 CUresult cuLinkAddData (CUlinkState, CUjitInputType, void *, size_t,
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	61 const char , unsigned, CUjit_option , void **);
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	62 CUresult cuLinkCreate (unsigned, CUjit_option , void , CUlinkState );
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	63 #else
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	64 typedef size_t (*CUoccupancyB2DSize)(int);
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	65 CUresult cuLinkAddData_v2 (CUlinkState, CUjitInputType, void *, size_t,
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	66 const char , unsigned, CUjit_option , void **);
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	67 CUresult cuLinkCreate_v2 (unsigned, CUjit_option , void , CUlinkState );
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	68 CUresult cuOccupancyMaxPotentialBlockSize(int , int , CUfunction,
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	69 CUoccupancyB2DSize, size_t, int);
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	70 #endif
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	71
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	72 #define DO_PRAGMA(x) _Pragma (#x)
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	73
111 04ced10e8804 gcc 7 kono parents: diff changeset	74 #if PLUGIN_NVPTX_DYNAMIC
04ced10e8804 gcc 7 kono parents: diff changeset	75 # include <dlfcn.h>
04ced10e8804 gcc 7 kono parents: diff changeset	76
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	77 struct cuda_lib_s {
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	78
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	79 # define CUDA_ONE_CALL(call) \
111 04ced10e8804 gcc 7 kono parents: diff changeset	80 __typeof (call) *call;
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	81 # define CUDA_ONE_CALL_MAYBE_NULL(call) \
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	82 CUDA_ONE_CALL (call)
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	83 #include "cuda-lib.def"
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	84 # undef CUDA_ONE_CALL
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	85 # undef CUDA_ONE_CALL_MAYBE_NULL
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	86
111 04ced10e8804 gcc 7 kono parents: diff changeset	87 } cuda_lib;
04ced10e8804 gcc 7 kono parents: diff changeset	88
04ced10e8804 gcc 7 kono parents: diff changeset	89 /* -1 if init_cuda_lib has not been called yet, false
04ced10e8804 gcc 7 kono parents: diff changeset	90 if it has been and failed, true if it has been and succeeded. */
04ced10e8804 gcc 7 kono parents: diff changeset	91 static signed char cuda_lib_inited = -1;
04ced10e8804 gcc 7 kono parents: diff changeset	92
04ced10e8804 gcc 7 kono parents: diff changeset	93 /* Dynamically load the CUDA runtime library and initialize function
04ced10e8804 gcc 7 kono parents: diff changeset	94 pointers, return false if unsuccessful, true if successful. */
04ced10e8804 gcc 7 kono parents: diff changeset	95 static bool
04ced10e8804 gcc 7 kono parents: diff changeset	96 init_cuda_lib (void)
04ced10e8804 gcc 7 kono parents: diff changeset	97 {
04ced10e8804 gcc 7 kono parents: diff changeset	98 if (cuda_lib_inited != -1)
04ced10e8804 gcc 7 kono parents: diff changeset	99 return cuda_lib_inited;
04ced10e8804 gcc 7 kono parents: diff changeset	100 const char *cuda_runtime_lib = "libcuda.so.1";
04ced10e8804 gcc 7 kono parents: diff changeset	101 void *h = dlopen (cuda_runtime_lib, RTLD_LAZY);
04ced10e8804 gcc 7 kono parents: diff changeset	102 cuda_lib_inited = false;
04ced10e8804 gcc 7 kono parents: diff changeset	103 if (h == NULL)
04ced10e8804 gcc 7 kono parents: diff changeset	104 return false;
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	105
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	106 # define CUDA_ONE_CALL(call) CUDA_ONE_CALL_1 (call, false)
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	107 # define CUDA_ONE_CALL_MAYBE_NULL(call) CUDA_ONE_CALL_1 (call, true)
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	108 # define CUDA_ONE_CALL_1(call, allow_null) \
111 04ced10e8804 gcc 7 kono parents: diff changeset	109 cuda_lib.call = dlsym (h, #call); \
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	110 if (!allow_null && cuda_lib.call == NULL) \
111 04ced10e8804 gcc 7 kono parents: diff changeset	111 return false;
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	112 #include "cuda-lib.def"
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	113 # undef CUDA_ONE_CALL
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	114 # undef CUDA_ONE_CALL_1
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	115 # undef CUDA_ONE_CALL_MAYBE_NULL
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	116
111 04ced10e8804 gcc 7 kono parents: diff changeset	117 cuda_lib_inited = true;
04ced10e8804 gcc 7 kono parents: diff changeset	118 return true;
04ced10e8804 gcc 7 kono parents: diff changeset	119 }
04ced10e8804 gcc 7 kono parents: diff changeset	120 # define CUDA_CALL_PREFIX cuda_lib.
04ced10e8804 gcc 7 kono parents: diff changeset	121 #else
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	122
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	123 # define CUDA_ONE_CALL(call)
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	124 # define CUDA_ONE_CALL_MAYBE_NULL(call) DO_PRAGMA (weak call)
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	125 #include "cuda-lib.def"
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	126 #undef CUDA_ONE_CALL_MAYBE_NULL
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	127 #undef CUDA_ONE_CALL
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	128
111 04ced10e8804 gcc 7 kono parents: diff changeset	129 # define CUDA_CALL_PREFIX
04ced10e8804 gcc 7 kono parents: diff changeset	130 # define init_cuda_lib() true
04ced10e8804 gcc 7 kono parents: diff changeset	131 #endif
04ced10e8804 gcc 7 kono parents: diff changeset	132
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	133 #include "secure_getenv.h"
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	134
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	135 #undef MIN
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	136 #undef MAX
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	137 #define MIN(X,Y) ((X) < (Y) ? (X) : (Y))
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	138 #define MAX(X,Y) ((X) > (Y) ? (X) : (Y))
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	139
111 04ced10e8804 gcc 7 kono parents: diff changeset	140 /* Convenience macros for the frequently used CUDA library call and
04ced10e8804 gcc 7 kono parents: diff changeset	141 error handling sequence as well as CUDA library calls that
04ced10e8804 gcc 7 kono parents: diff changeset	142 do the error checking themselves or don't do it at all. */
04ced10e8804 gcc 7 kono parents: diff changeset	143
04ced10e8804 gcc 7 kono parents: diff changeset	144 #define CUDA_CALL_ERET(ERET, FN, ...) \
04ced10e8804 gcc 7 kono parents: diff changeset	145 do { \
04ced10e8804 gcc 7 kono parents: diff changeset	146 unsigned __r \
04ced10e8804 gcc 7 kono parents: diff changeset	147 = CUDA_CALL_PREFIX FN (__VA_ARGS__); \
04ced10e8804 gcc 7 kono parents: diff changeset	148 if (__r != CUDA_SUCCESS) \
04ced10e8804 gcc 7 kono parents: diff changeset	149 { \
04ced10e8804 gcc 7 kono parents: diff changeset	150 GOMP_PLUGIN_error (#FN " error: %s", \
04ced10e8804 gcc 7 kono parents: diff changeset	151 cuda_error (__r)); \
04ced10e8804 gcc 7 kono parents: diff changeset	152 return ERET; \
04ced10e8804 gcc 7 kono parents: diff changeset	153 } \
04ced10e8804 gcc 7 kono parents: diff changeset	154 } while (0)
04ced10e8804 gcc 7 kono parents: diff changeset	155
04ced10e8804 gcc 7 kono parents: diff changeset	156 #define CUDA_CALL(FN, ...) \
04ced10e8804 gcc 7 kono parents: diff changeset	157 CUDA_CALL_ERET (false, FN, __VA_ARGS__)
04ced10e8804 gcc 7 kono parents: diff changeset	158
04ced10e8804 gcc 7 kono parents: diff changeset	159 #define CUDA_CALL_ASSERT(FN, ...) \
04ced10e8804 gcc 7 kono parents: diff changeset	160 do { \
04ced10e8804 gcc 7 kono parents: diff changeset	161 unsigned __r \
04ced10e8804 gcc 7 kono parents: diff changeset	162 = CUDA_CALL_PREFIX FN (__VA_ARGS__); \
04ced10e8804 gcc 7 kono parents: diff changeset	163 if (__r != CUDA_SUCCESS) \
04ced10e8804 gcc 7 kono parents: diff changeset	164 { \
04ced10e8804 gcc 7 kono parents: diff changeset	165 GOMP_PLUGIN_fatal (#FN " error: %s", \
04ced10e8804 gcc 7 kono parents: diff changeset	166 cuda_error (__r)); \
04ced10e8804 gcc 7 kono parents: diff changeset	167 } \
04ced10e8804 gcc 7 kono parents: diff changeset	168 } while (0)
04ced10e8804 gcc 7 kono parents: diff changeset	169
04ced10e8804 gcc 7 kono parents: diff changeset	170 #define CUDA_CALL_NOCHECK(FN, ...) \
04ced10e8804 gcc 7 kono parents: diff changeset	171 CUDA_CALL_PREFIX FN (__VA_ARGS__)
04ced10e8804 gcc 7 kono parents: diff changeset	172
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	173 #define CUDA_CALL_EXISTS(FN) \
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	174 CUDA_CALL_PREFIX FN
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	175
111 04ced10e8804 gcc 7 kono parents: diff changeset	176 static const char *
04ced10e8804 gcc 7 kono parents: diff changeset	177 cuda_error (CUresult r)
04ced10e8804 gcc 7 kono parents: diff changeset	178 {
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	179 const char *fallback = "unknown cuda error";
111 04ced10e8804 gcc 7 kono parents: diff changeset	180 const char *desc;
04ced10e8804 gcc 7 kono parents: diff changeset	181
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	182 if (!CUDA_CALL_EXISTS (cuGetErrorString))
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	183 return fallback;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	184
111 04ced10e8804 gcc 7 kono parents: diff changeset	185 r = CUDA_CALL_NOCHECK (cuGetErrorString, r, &desc);
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	186 if (r == CUDA_SUCCESS)
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	187 return desc;
111 04ced10e8804 gcc 7 kono parents: diff changeset	188
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	189 return fallback;
111 04ced10e8804 gcc 7 kono parents: diff changeset	190 }
04ced10e8804 gcc 7 kono parents: diff changeset	191
04ced10e8804 gcc 7 kono parents: diff changeset	192 static unsigned int instantiated_devices = 0;
04ced10e8804 gcc 7 kono parents: diff changeset	193 static pthread_mutex_t ptx_dev_lock = PTHREAD_MUTEX_INITIALIZER;
04ced10e8804 gcc 7 kono parents: diff changeset	194
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	195 struct cuda_map
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	196 {
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	197 CUdeviceptr d;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	198 size_t size;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	199 bool active;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	200 struct cuda_map *next;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	201 };
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	202
111 04ced10e8804 gcc 7 kono parents: diff changeset	203 struct ptx_stream
04ced10e8804 gcc 7 kono parents: diff changeset	204 {
04ced10e8804 gcc 7 kono parents: diff changeset	205 CUstream stream;
04ced10e8804 gcc 7 kono parents: diff changeset	206 pthread_t host_thread;
04ced10e8804 gcc 7 kono parents: diff changeset	207 bool multithreaded;
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	208 struct cuda_map *map;
111 04ced10e8804 gcc 7 kono parents: diff changeset	209 struct ptx_stream *next;
04ced10e8804 gcc 7 kono parents: diff changeset	210 };
04ced10e8804 gcc 7 kono parents: diff changeset	211
04ced10e8804 gcc 7 kono parents: diff changeset	212 /* Thread-specific data for PTX. */
04ced10e8804 gcc 7 kono parents: diff changeset	213
04ced10e8804 gcc 7 kono parents: diff changeset	214 struct nvptx_thread
04ced10e8804 gcc 7 kono parents: diff changeset	215 {
04ced10e8804 gcc 7 kono parents: diff changeset	216 struct ptx_stream *current_stream;
04ced10e8804 gcc 7 kono parents: diff changeset	217 struct ptx_device *ptx_dev;
04ced10e8804 gcc 7 kono parents: diff changeset	218 };
04ced10e8804 gcc 7 kono parents: diff changeset	219
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	220 static struct cuda_map *
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	221 cuda_map_create (size_t size)
111 04ced10e8804 gcc 7 kono parents: diff changeset	222 {
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	223 struct cuda_map *map = GOMP_PLUGIN_malloc (sizeof (struct cuda_map));
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	224
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	225 assert (map);
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	226
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	227 map->next = NULL;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	228 map->size = size;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	229 map->active = false;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	230
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	231 CUDA_CALL_ERET (NULL, cuMemAlloc, &map->d, size);
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	232 assert (map->d);
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	233
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	234 return map;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	235 }
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	236
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	237 static void
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	238 cuda_map_destroy (struct cuda_map *map)
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	239 {
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	240 CUDA_CALL_ASSERT (cuMemFree, map->d);
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	241 free (map);
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	242 }
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	243
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	244 /* The following map_* routines manage the CUDA device memory that
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	245 contains the data mapping arguments for cuLaunchKernel. Each
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	246 asynchronous PTX stream may have multiple pending kernel
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	247 invocations, which are launched in a FIFO order. As such, the map
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	248 routines maintains a queue of cuLaunchKernel arguments.
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	249
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	250 Calls to map_push and map_pop must be guarded by ptx_event_lock.
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	251 Likewise, calls to map_init and map_fini are guarded by
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	252 ptx_dev_lock inside GOMP_OFFLOAD_init_device and
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	253 GOMP_OFFLOAD_fini_device, respectively. */
111 04ced10e8804 gcc 7 kono parents: diff changeset	254
04ced10e8804 gcc 7 kono parents: diff changeset	255 static bool
04ced10e8804 gcc 7 kono parents: diff changeset	256 map_init (struct ptx_stream *s)
04ced10e8804 gcc 7 kono parents: diff changeset	257 {
04ced10e8804 gcc 7 kono parents: diff changeset	258 int size = getpagesize ();
04ced10e8804 gcc 7 kono parents: diff changeset	259
04ced10e8804 gcc 7 kono parents: diff changeset	260 assert (s);
04ced10e8804 gcc 7 kono parents: diff changeset	261
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	262 s->map = cuda_map_create (size);
111 04ced10e8804 gcc 7 kono parents: diff changeset	263
04ced10e8804 gcc 7 kono parents: diff changeset	264 return true;
04ced10e8804 gcc 7 kono parents: diff changeset	265 }
04ced10e8804 gcc 7 kono parents: diff changeset	266
04ced10e8804 gcc 7 kono parents: diff changeset	267 static bool
04ced10e8804 gcc 7 kono parents: diff changeset	268 map_fini (struct ptx_stream *s)
04ced10e8804 gcc 7 kono parents: diff changeset	269 {
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	270 assert (s->map->next == NULL);
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	271 assert (!s->map->active);
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	272
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	273 cuda_map_destroy (s->map);
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	274
111 04ced10e8804 gcc 7 kono parents: diff changeset	275 return true;
04ced10e8804 gcc 7 kono parents: diff changeset	276 }
04ced10e8804 gcc 7 kono parents: diff changeset	277
04ced10e8804 gcc 7 kono parents: diff changeset	278 static void
04ced10e8804 gcc 7 kono parents: diff changeset	279 map_pop (struct ptx_stream *s)
04ced10e8804 gcc 7 kono parents: diff changeset	280 {
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	281 struct cuda_map *next;
111 04ced10e8804 gcc 7 kono parents: diff changeset	282
04ced10e8804 gcc 7 kono parents: diff changeset	283 assert (s != NULL);
04ced10e8804 gcc 7 kono parents: diff changeset	284
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	285 if (s->map->next == NULL)
111 04ced10e8804 gcc 7 kono parents: diff changeset	286 {
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	287 s->map->active = false;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	288 return;
111 04ced10e8804 gcc 7 kono parents: diff changeset	289 }
04ced10e8804 gcc 7 kono parents: diff changeset	290
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	291 next = s->map->next;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	292 cuda_map_destroy (s->map);
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	293 s->map = next;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	294 }
111 04ced10e8804 gcc 7 kono parents: diff changeset	295
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	296 static CUdeviceptr
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	297 map_push (struct ptx_stream *s, size_t size)
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	298 {
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	299 struct cuda_map map = NULL, t = NULL;
111 04ced10e8804 gcc 7 kono parents: diff changeset	300
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	301 assert (s);
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	302 assert (s->map);
111 04ced10e8804 gcc 7 kono parents: diff changeset	303
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	304 /* Each PTX stream requires a separate data region to store the
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	305 launch arguments for cuLaunchKernel. Allocate a new
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	306 cuda_map and push it to the end of the list. */
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	307 if (s->map->active)
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	308 {
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	309 map = cuda_map_create (size);
111 04ced10e8804 gcc 7 kono parents: diff changeset	310
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	311 for (t = s->map; t->next != NULL; t = t->next)
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	312 ;
111 04ced10e8804 gcc 7 kono parents: diff changeset	313
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	314 t->next = map;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	315 }
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	316 else if (s->map->size < size)
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	317 {
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	318 cuda_map_destroy (s->map);
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	319 map = cuda_map_create (size);
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	320 }
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	321 else
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	322 map = s->map;
111 04ced10e8804 gcc 7 kono parents: diff changeset	323
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	324 s->map = map;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	325 s->map->active = true;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	326
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	327 return s->map->d;
111 04ced10e8804 gcc 7 kono parents: diff changeset	328 }
04ced10e8804 gcc 7 kono parents: diff changeset	329
04ced10e8804 gcc 7 kono parents: diff changeset	330 /* Target data function launch information. */
04ced10e8804 gcc 7 kono parents: diff changeset	331
04ced10e8804 gcc 7 kono parents: diff changeset	332 struct targ_fn_launch
04ced10e8804 gcc 7 kono parents: diff changeset	333 {
04ced10e8804 gcc 7 kono parents: diff changeset	334 const char *fn;
04ced10e8804 gcc 7 kono parents: diff changeset	335 unsigned short dim[GOMP_DIM_MAX];
04ced10e8804 gcc 7 kono parents: diff changeset	336 };
04ced10e8804 gcc 7 kono parents: diff changeset	337
04ced10e8804 gcc 7 kono parents: diff changeset	338 /* Target PTX object information. */
04ced10e8804 gcc 7 kono parents: diff changeset	339
04ced10e8804 gcc 7 kono parents: diff changeset	340 struct targ_ptx_obj
04ced10e8804 gcc 7 kono parents: diff changeset	341 {
04ced10e8804 gcc 7 kono parents: diff changeset	342 const char *code;
04ced10e8804 gcc 7 kono parents: diff changeset	343 size_t size;
04ced10e8804 gcc 7 kono parents: diff changeset	344 };
04ced10e8804 gcc 7 kono parents: diff changeset	345
04ced10e8804 gcc 7 kono parents: diff changeset	346 /* Target data image information. */
04ced10e8804 gcc 7 kono parents: diff changeset	347
04ced10e8804 gcc 7 kono parents: diff changeset	348 typedef struct nvptx_tdata
04ced10e8804 gcc 7 kono parents: diff changeset	349 {
04ced10e8804 gcc 7 kono parents: diff changeset	350 const struct targ_ptx_obj *ptx_objs;
04ced10e8804 gcc 7 kono parents: diff changeset	351 unsigned ptx_num;
04ced10e8804 gcc 7 kono parents: diff changeset	352
04ced10e8804 gcc 7 kono parents: diff changeset	353 const char const var_names;
04ced10e8804 gcc 7 kono parents: diff changeset	354 unsigned var_num;
04ced10e8804 gcc 7 kono parents: diff changeset	355
04ced10e8804 gcc 7 kono parents: diff changeset	356 const struct targ_fn_launch *fn_descs;
04ced10e8804 gcc 7 kono parents: diff changeset	357 unsigned fn_num;
04ced10e8804 gcc 7 kono parents: diff changeset	358 } nvptx_tdata_t;
04ced10e8804 gcc 7 kono parents: diff changeset	359
04ced10e8804 gcc 7 kono parents: diff changeset	360 /* Descriptor of a loaded function. */
04ced10e8804 gcc 7 kono parents: diff changeset	361
04ced10e8804 gcc 7 kono parents: diff changeset	362 struct targ_fn_descriptor
04ced10e8804 gcc 7 kono parents: diff changeset	363 {
04ced10e8804 gcc 7 kono parents: diff changeset	364 CUfunction fn;
04ced10e8804 gcc 7 kono parents: diff changeset	365 const struct targ_fn_launch *launch;
04ced10e8804 gcc 7 kono parents: diff changeset	366 int regs_per_thread;
04ced10e8804 gcc 7 kono parents: diff changeset	367 int max_threads_per_block;
04ced10e8804 gcc 7 kono parents: diff changeset	368 };
04ced10e8804 gcc 7 kono parents: diff changeset	369
04ced10e8804 gcc 7 kono parents: diff changeset	370 /* A loaded PTX image. */
04ced10e8804 gcc 7 kono parents: diff changeset	371 struct ptx_image_data
04ced10e8804 gcc 7 kono parents: diff changeset	372 {
04ced10e8804 gcc 7 kono parents: diff changeset	373 const void *target_data;
04ced10e8804 gcc 7 kono parents: diff changeset	374 CUmodule module;
04ced10e8804 gcc 7 kono parents: diff changeset	375
04ced10e8804 gcc 7 kono parents: diff changeset	376 struct targ_fn_descriptor fns; / Array of functions. */
04ced10e8804 gcc 7 kono parents: diff changeset	377
04ced10e8804 gcc 7 kono parents: diff changeset	378 struct ptx_image_data *next;
04ced10e8804 gcc 7 kono parents: diff changeset	379 };
04ced10e8804 gcc 7 kono parents: diff changeset	380
04ced10e8804 gcc 7 kono parents: diff changeset	381 struct ptx_device
04ced10e8804 gcc 7 kono parents: diff changeset	382 {
04ced10e8804 gcc 7 kono parents: diff changeset	383 CUcontext ctx;
04ced10e8804 gcc 7 kono parents: diff changeset	384 bool ctx_shared;
04ced10e8804 gcc 7 kono parents: diff changeset	385 CUdevice dev;
04ced10e8804 gcc 7 kono parents: diff changeset	386 struct ptx_stream *null_stream;
04ced10e8804 gcc 7 kono parents: diff changeset	387 /* All non-null streams associated with this device (actually context),
04ced10e8804 gcc 7 kono parents: diff changeset	388 either created implicitly or passed in from the user (via
04ced10e8804 gcc 7 kono parents: diff changeset	389 acc_set_cuda_stream). */
04ced10e8804 gcc 7 kono parents: diff changeset	390 struct ptx_stream *active_streams;
04ced10e8804 gcc 7 kono parents: diff changeset	391 struct {
04ced10e8804 gcc 7 kono parents: diff changeset	392 struct ptx_stream **arr;
04ced10e8804 gcc 7 kono parents: diff changeset	393 int size;
04ced10e8804 gcc 7 kono parents: diff changeset	394 } async_streams;
04ced10e8804 gcc 7 kono parents: diff changeset	395 /* A lock for use when manipulating the above stream list and array. */
04ced10e8804 gcc 7 kono parents: diff changeset	396 pthread_mutex_t stream_lock;
04ced10e8804 gcc 7 kono parents: diff changeset	397 int ord;
04ced10e8804 gcc 7 kono parents: diff changeset	398 bool overlap;
04ced10e8804 gcc 7 kono parents: diff changeset	399 bool map;
04ced10e8804 gcc 7 kono parents: diff changeset	400 bool concur;
04ced10e8804 gcc 7 kono parents: diff changeset	401 bool mkern;
04ced10e8804 gcc 7 kono parents: diff changeset	402 int mode;
04ced10e8804 gcc 7 kono parents: diff changeset	403 int clock_khz;
04ced10e8804 gcc 7 kono parents: diff changeset	404 int num_sms;
04ced10e8804 gcc 7 kono parents: diff changeset	405 int regs_per_block;
04ced10e8804 gcc 7 kono parents: diff changeset	406 int regs_per_sm;
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	407 int warp_size;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	408 int max_threads_per_block;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	409 int max_threads_per_multiprocessor;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	410 int default_dims[GOMP_DIM_MAX];
111 04ced10e8804 gcc 7 kono parents: diff changeset	411
04ced10e8804 gcc 7 kono parents: diff changeset	412 struct ptx_image_data images; / Images loaded on device. */
04ced10e8804 gcc 7 kono parents: diff changeset	413 pthread_mutex_t image_lock; /* Lock for above list. */
04ced10e8804 gcc 7 kono parents: diff changeset	414
04ced10e8804 gcc 7 kono parents: diff changeset	415 struct ptx_device *next;
04ced10e8804 gcc 7 kono parents: diff changeset	416 };
04ced10e8804 gcc 7 kono parents: diff changeset	417
04ced10e8804 gcc 7 kono parents: diff changeset	418 enum ptx_event_type
04ced10e8804 gcc 7 kono parents: diff changeset	419 {
04ced10e8804 gcc 7 kono parents: diff changeset	420 PTX_EVT_MEM,
04ced10e8804 gcc 7 kono parents: diff changeset	421 PTX_EVT_KNL,
04ced10e8804 gcc 7 kono parents: diff changeset	422 PTX_EVT_SYNC,
04ced10e8804 gcc 7 kono parents: diff changeset	423 PTX_EVT_ASYNC_CLEANUP
04ced10e8804 gcc 7 kono parents: diff changeset	424 };
04ced10e8804 gcc 7 kono parents: diff changeset	425
04ced10e8804 gcc 7 kono parents: diff changeset	426 struct ptx_event
04ced10e8804 gcc 7 kono parents: diff changeset	427 {
04ced10e8804 gcc 7 kono parents: diff changeset	428 CUevent *evt;
04ced10e8804 gcc 7 kono parents: diff changeset	429 int type;
04ced10e8804 gcc 7 kono parents: diff changeset	430 void *addr;
04ced10e8804 gcc 7 kono parents: diff changeset	431 int ord;
04ced10e8804 gcc 7 kono parents: diff changeset	432 int val;
04ced10e8804 gcc 7 kono parents: diff changeset	433
04ced10e8804 gcc 7 kono parents: diff changeset	434 struct ptx_event *next;
04ced10e8804 gcc 7 kono parents: diff changeset	435 };
04ced10e8804 gcc 7 kono parents: diff changeset	436
04ced10e8804 gcc 7 kono parents: diff changeset	437 static pthread_mutex_t ptx_event_lock;
04ced10e8804 gcc 7 kono parents: diff changeset	438 static struct ptx_event *ptx_events;
04ced10e8804 gcc 7 kono parents: diff changeset	439
04ced10e8804 gcc 7 kono parents: diff changeset	440 static struct ptx_device **ptx_devices;
04ced10e8804 gcc 7 kono parents: diff changeset	441
04ced10e8804 gcc 7 kono parents: diff changeset	442 static inline struct nvptx_thread *
04ced10e8804 gcc 7 kono parents: diff changeset	443 nvptx_thread (void)
04ced10e8804 gcc 7 kono parents: diff changeset	444 {
04ced10e8804 gcc 7 kono parents: diff changeset	445 return (struct nvptx_thread *) GOMP_PLUGIN_acc_thread ();
04ced10e8804 gcc 7 kono parents: diff changeset	446 }
04ced10e8804 gcc 7 kono parents: diff changeset	447
04ced10e8804 gcc 7 kono parents: diff changeset	448 static bool
04ced10e8804 gcc 7 kono parents: diff changeset	449 init_streams_for_device (struct ptx_device *ptx_dev, int concurrency)
04ced10e8804 gcc 7 kono parents: diff changeset	450 {
04ced10e8804 gcc 7 kono parents: diff changeset	451 int i;
04ced10e8804 gcc 7 kono parents: diff changeset	452 struct ptx_stream *null_stream
04ced10e8804 gcc 7 kono parents: diff changeset	453 = GOMP_PLUGIN_malloc (sizeof (struct ptx_stream));
04ced10e8804 gcc 7 kono parents: diff changeset	454
04ced10e8804 gcc 7 kono parents: diff changeset	455 null_stream->stream = NULL;
04ced10e8804 gcc 7 kono parents: diff changeset	456 null_stream->host_thread = pthread_self ();
04ced10e8804 gcc 7 kono parents: diff changeset	457 null_stream->multithreaded = true;
04ced10e8804 gcc 7 kono parents: diff changeset	458 if (!map_init (null_stream))
04ced10e8804 gcc 7 kono parents: diff changeset	459 return false;
04ced10e8804 gcc 7 kono parents: diff changeset	460
04ced10e8804 gcc 7 kono parents: diff changeset	461 ptx_dev->null_stream = null_stream;
04ced10e8804 gcc 7 kono parents: diff changeset	462 ptx_dev->active_streams = NULL;
04ced10e8804 gcc 7 kono parents: diff changeset	463 pthread_mutex_init (&ptx_dev->stream_lock, NULL);
04ced10e8804 gcc 7 kono parents: diff changeset	464
04ced10e8804 gcc 7 kono parents: diff changeset	465 if (concurrency < 1)
04ced10e8804 gcc 7 kono parents: diff changeset	466 concurrency = 1;
04ced10e8804 gcc 7 kono parents: diff changeset	467
04ced10e8804 gcc 7 kono parents: diff changeset	468 /* This is just a guess -- make space for as many async streams as the
04ced10e8804 gcc 7 kono parents: diff changeset	469 current device is capable of concurrently executing. This can grow
04ced10e8804 gcc 7 kono parents: diff changeset	470 later as necessary. No streams are created yet. */
04ced10e8804 gcc 7 kono parents: diff changeset	471 ptx_dev->async_streams.arr
04ced10e8804 gcc 7 kono parents: diff changeset	472 = GOMP_PLUGIN_malloc (concurrency * sizeof (struct ptx_stream *));
04ced10e8804 gcc 7 kono parents: diff changeset	473 ptx_dev->async_streams.size = concurrency;
04ced10e8804 gcc 7 kono parents: diff changeset	474
04ced10e8804 gcc 7 kono parents: diff changeset	475 for (i = 0; i < concurrency; i++)
04ced10e8804 gcc 7 kono parents: diff changeset	476 ptx_dev->async_streams.arr[i] = NULL;
04ced10e8804 gcc 7 kono parents: diff changeset	477
04ced10e8804 gcc 7 kono parents: diff changeset	478 return true;
04ced10e8804 gcc 7 kono parents: diff changeset	479 }
04ced10e8804 gcc 7 kono parents: diff changeset	480
04ced10e8804 gcc 7 kono parents: diff changeset	481 static bool
04ced10e8804 gcc 7 kono parents: diff changeset	482 fini_streams_for_device (struct ptx_device *ptx_dev)
04ced10e8804 gcc 7 kono parents: diff changeset	483 {
04ced10e8804 gcc 7 kono parents: diff changeset	484 free (ptx_dev->async_streams.arr);
04ced10e8804 gcc 7 kono parents: diff changeset	485
04ced10e8804 gcc 7 kono parents: diff changeset	486 bool ret = true;
04ced10e8804 gcc 7 kono parents: diff changeset	487 while (ptx_dev->active_streams != NULL)
04ced10e8804 gcc 7 kono parents: diff changeset	488 {
04ced10e8804 gcc 7 kono parents: diff changeset	489 struct ptx_stream *s = ptx_dev->active_streams;
04ced10e8804 gcc 7 kono parents: diff changeset	490 ptx_dev->active_streams = ptx_dev->active_streams->next;
04ced10e8804 gcc 7 kono parents: diff changeset	491
04ced10e8804 gcc 7 kono parents: diff changeset	492 ret &= map_fini (s);
04ced10e8804 gcc 7 kono parents: diff changeset	493
04ced10e8804 gcc 7 kono parents: diff changeset	494 CUresult r = CUDA_CALL_NOCHECK (cuStreamDestroy, s->stream);
04ced10e8804 gcc 7 kono parents: diff changeset	495 if (r != CUDA_SUCCESS)
04ced10e8804 gcc 7 kono parents: diff changeset	496 {
04ced10e8804 gcc 7 kono parents: diff changeset	497 GOMP_PLUGIN_error ("cuStreamDestroy error: %s", cuda_error (r));
04ced10e8804 gcc 7 kono parents: diff changeset	498 ret = false;
04ced10e8804 gcc 7 kono parents: diff changeset	499 }
04ced10e8804 gcc 7 kono parents: diff changeset	500 free (s);
04ced10e8804 gcc 7 kono parents: diff changeset	501 }
04ced10e8804 gcc 7 kono parents: diff changeset	502
04ced10e8804 gcc 7 kono parents: diff changeset	503 ret &= map_fini (ptx_dev->null_stream);
04ced10e8804 gcc 7 kono parents: diff changeset	504 free (ptx_dev->null_stream);
04ced10e8804 gcc 7 kono parents: diff changeset	505 return ret;
04ced10e8804 gcc 7 kono parents: diff changeset	506 }
04ced10e8804 gcc 7 kono parents: diff changeset	507
04ced10e8804 gcc 7 kono parents: diff changeset	508 /* Select a stream for (OpenACC-semantics) ASYNC argument for the current
04ced10e8804 gcc 7 kono parents: diff changeset	509 thread THREAD (and also current device/context). If CREATE is true, create
04ced10e8804 gcc 7 kono parents: diff changeset	510 the stream if it does not exist (or use EXISTING if it is non-NULL), and
04ced10e8804 gcc 7 kono parents: diff changeset	511 associate the stream with the same thread argument. Returns stream to use
04ced10e8804 gcc 7 kono parents: diff changeset	512 as result. */
04ced10e8804 gcc 7 kono parents: diff changeset	513
04ced10e8804 gcc 7 kono parents: diff changeset	514 static struct ptx_stream *
04ced10e8804 gcc 7 kono parents: diff changeset	515 select_stream_for_async (int async, pthread_t thread, bool create,
04ced10e8804 gcc 7 kono parents: diff changeset	516 CUstream existing)
04ced10e8804 gcc 7 kono parents: diff changeset	517 {
04ced10e8804 gcc 7 kono parents: diff changeset	518 struct nvptx_thread *nvthd = nvptx_thread ();
04ced10e8804 gcc 7 kono parents: diff changeset	519 /* Local copy of TLS variable. */
04ced10e8804 gcc 7 kono parents: diff changeset	520 struct ptx_device *ptx_dev = nvthd->ptx_dev;
04ced10e8804 gcc 7 kono parents: diff changeset	521 struct ptx_stream *stream = NULL;
04ced10e8804 gcc 7 kono parents: diff changeset	522 int orig_async = async;
04ced10e8804 gcc 7 kono parents: diff changeset	523
04ced10e8804 gcc 7 kono parents: diff changeset	524 /* The special value acc_async_noval (-1) maps (for now) to an
04ced10e8804 gcc 7 kono parents: diff changeset	525 implicitly-created stream, which is then handled the same as any other
04ced10e8804 gcc 7 kono parents: diff changeset	526 numbered async stream. Other options are available, e.g. using the null
04ced10e8804 gcc 7 kono parents: diff changeset	527 stream for anonymous async operations, or choosing an idle stream from an
04ced10e8804 gcc 7 kono parents: diff changeset	528 active set. But, stick with this for now. */
04ced10e8804 gcc 7 kono parents: diff changeset	529 if (async > acc_async_sync)
04ced10e8804 gcc 7 kono parents: diff changeset	530 async++;
04ced10e8804 gcc 7 kono parents: diff changeset	531
04ced10e8804 gcc 7 kono parents: diff changeset	532 if (create)
04ced10e8804 gcc 7 kono parents: diff changeset	533 pthread_mutex_lock (&ptx_dev->stream_lock);
04ced10e8804 gcc 7 kono parents: diff changeset	534
04ced10e8804 gcc 7 kono parents: diff changeset	535 /* NOTE: AFAICT there's no particular need for acc_async_sync to map to the
04ced10e8804 gcc 7 kono parents: diff changeset	536 null stream, and in fact better performance may be obtainable if it doesn't
04ced10e8804 gcc 7 kono parents: diff changeset	537 (because the null stream enforces overly-strict synchronisation with
04ced10e8804 gcc 7 kono parents: diff changeset	538 respect to other streams for legacy reasons, and that's probably not
04ced10e8804 gcc 7 kono parents: diff changeset	539 needed with OpenACC). Maybe investigate later. */
04ced10e8804 gcc 7 kono parents: diff changeset	540 if (async == acc_async_sync)
04ced10e8804 gcc 7 kono parents: diff changeset	541 stream = ptx_dev->null_stream;
04ced10e8804 gcc 7 kono parents: diff changeset	542 else if (async >= 0 && async < ptx_dev->async_streams.size
04ced10e8804 gcc 7 kono parents: diff changeset	543 && ptx_dev->async_streams.arr[async] && !(create && existing))
04ced10e8804 gcc 7 kono parents: diff changeset	544 stream = ptx_dev->async_streams.arr[async];
04ced10e8804 gcc 7 kono parents: diff changeset	545 else if (async >= 0 && create)
04ced10e8804 gcc 7 kono parents: diff changeset	546 {
04ced10e8804 gcc 7 kono parents: diff changeset	547 if (async >= ptx_dev->async_streams.size)
04ced10e8804 gcc 7 kono parents: diff changeset	548 {
04ced10e8804 gcc 7 kono parents: diff changeset	549 int i, newsize = ptx_dev->async_streams.size * 2;
04ced10e8804 gcc 7 kono parents: diff changeset	550
04ced10e8804 gcc 7 kono parents: diff changeset	551 if (async >= newsize)
04ced10e8804 gcc 7 kono parents: diff changeset	552 newsize = async + 1;
04ced10e8804 gcc 7 kono parents: diff changeset	553
04ced10e8804 gcc 7 kono parents: diff changeset	554 ptx_dev->async_streams.arr
04ced10e8804 gcc 7 kono parents: diff changeset	555 = GOMP_PLUGIN_realloc (ptx_dev->async_streams.arr,
04ced10e8804 gcc 7 kono parents: diff changeset	556 newsize * sizeof (struct ptx_stream *));
04ced10e8804 gcc 7 kono parents: diff changeset	557
04ced10e8804 gcc 7 kono parents: diff changeset	558 for (i = ptx_dev->async_streams.size; i < newsize; i++)
04ced10e8804 gcc 7 kono parents: diff changeset	559 ptx_dev->async_streams.arr[i] = NULL;
04ced10e8804 gcc 7 kono parents: diff changeset	560
04ced10e8804 gcc 7 kono parents: diff changeset	561 ptx_dev->async_streams.size = newsize;
04ced10e8804 gcc 7 kono parents: diff changeset	562 }
04ced10e8804 gcc 7 kono parents: diff changeset	563
04ced10e8804 gcc 7 kono parents: diff changeset	564 /* Create a new stream on-demand if there isn't one already, or if we're
04ced10e8804 gcc 7 kono parents: diff changeset	565 setting a particular async value to an existing (externally-provided)
04ced10e8804 gcc 7 kono parents: diff changeset	566 stream. */
04ced10e8804 gcc 7 kono parents: diff changeset	567 if (!ptx_dev->async_streams.arr[async] \|\| existing)
04ced10e8804 gcc 7 kono parents: diff changeset	568 {
04ced10e8804 gcc 7 kono parents: diff changeset	569 CUresult r;
04ced10e8804 gcc 7 kono parents: diff changeset	570 struct ptx_stream *s
04ced10e8804 gcc 7 kono parents: diff changeset	571 = GOMP_PLUGIN_malloc (sizeof (struct ptx_stream));
04ced10e8804 gcc 7 kono parents: diff changeset	572
04ced10e8804 gcc 7 kono parents: diff changeset	573 if (existing)
04ced10e8804 gcc 7 kono parents: diff changeset	574 s->stream = existing;
04ced10e8804 gcc 7 kono parents: diff changeset	575 else
04ced10e8804 gcc 7 kono parents: diff changeset	576 {
04ced10e8804 gcc 7 kono parents: diff changeset	577 r = CUDA_CALL_NOCHECK (cuStreamCreate, &s->stream,
04ced10e8804 gcc 7 kono parents: diff changeset	578 CU_STREAM_DEFAULT);
04ced10e8804 gcc 7 kono parents: diff changeset	579 if (r != CUDA_SUCCESS)
04ced10e8804 gcc 7 kono parents: diff changeset	580 {
04ced10e8804 gcc 7 kono parents: diff changeset	581 pthread_mutex_unlock (&ptx_dev->stream_lock);
04ced10e8804 gcc 7 kono parents: diff changeset	582 GOMP_PLUGIN_fatal ("cuStreamCreate error: %s",
04ced10e8804 gcc 7 kono parents: diff changeset	583 cuda_error (r));
04ced10e8804 gcc 7 kono parents: diff changeset	584 }
04ced10e8804 gcc 7 kono parents: diff changeset	585 }
04ced10e8804 gcc 7 kono parents: diff changeset	586
04ced10e8804 gcc 7 kono parents: diff changeset	587 /* If CREATE is true, we're going to be queueing some work on this
04ced10e8804 gcc 7 kono parents: diff changeset	588 stream. Associate it with the current host thread. */
04ced10e8804 gcc 7 kono parents: diff changeset	589 s->host_thread = thread;
04ced10e8804 gcc 7 kono parents: diff changeset	590 s->multithreaded = false;
04ced10e8804 gcc 7 kono parents: diff changeset	591
04ced10e8804 gcc 7 kono parents: diff changeset	592 if (!map_init (s))
04ced10e8804 gcc 7 kono parents: diff changeset	593 {
04ced10e8804 gcc 7 kono parents: diff changeset	594 pthread_mutex_unlock (&ptx_dev->stream_lock);
04ced10e8804 gcc 7 kono parents: diff changeset	595 GOMP_PLUGIN_fatal ("map_init fail");
04ced10e8804 gcc 7 kono parents: diff changeset	596 }
04ced10e8804 gcc 7 kono parents: diff changeset	597
04ced10e8804 gcc 7 kono parents: diff changeset	598 s->next = ptx_dev->active_streams;
04ced10e8804 gcc 7 kono parents: diff changeset	599 ptx_dev->active_streams = s;
04ced10e8804 gcc 7 kono parents: diff changeset	600 ptx_dev->async_streams.arr[async] = s;
04ced10e8804 gcc 7 kono parents: diff changeset	601 }
04ced10e8804 gcc 7 kono parents: diff changeset	602
04ced10e8804 gcc 7 kono parents: diff changeset	603 stream = ptx_dev->async_streams.arr[async];
04ced10e8804 gcc 7 kono parents: diff changeset	604 }
04ced10e8804 gcc 7 kono parents: diff changeset	605 else if (async < 0)
04ced10e8804 gcc 7 kono parents: diff changeset	606 {
04ced10e8804 gcc 7 kono parents: diff changeset	607 if (create)
04ced10e8804 gcc 7 kono parents: diff changeset	608 pthread_mutex_unlock (&ptx_dev->stream_lock);
04ced10e8804 gcc 7 kono parents: diff changeset	609 GOMP_PLUGIN_fatal ("bad async %d", async);
04ced10e8804 gcc 7 kono parents: diff changeset	610 }
04ced10e8804 gcc 7 kono parents: diff changeset	611
04ced10e8804 gcc 7 kono parents: diff changeset	612 if (create)
04ced10e8804 gcc 7 kono parents: diff changeset	613 {
04ced10e8804 gcc 7 kono parents: diff changeset	614 assert (stream != NULL);
04ced10e8804 gcc 7 kono parents: diff changeset	615
04ced10e8804 gcc 7 kono parents: diff changeset	616 /* If we're trying to use the same stream from different threads
04ced10e8804 gcc 7 kono parents: diff changeset	617 simultaneously, set stream->multithreaded to true. This affects the
04ced10e8804 gcc 7 kono parents: diff changeset	618 behaviour of acc_async_test_all and acc_wait_all, which are supposed to
04ced10e8804 gcc 7 kono parents: diff changeset	619 only wait for asynchronous launches from the same host thread they are
04ced10e8804 gcc 7 kono parents: diff changeset	620 invoked on. If multiple threads use the same async value, we make note
04ced10e8804 gcc 7 kono parents: diff changeset	621 of that here and fall back to testing/waiting for all threads in those
04ced10e8804 gcc 7 kono parents: diff changeset	622 functions. */
04ced10e8804 gcc 7 kono parents: diff changeset	623 if (thread != stream->host_thread)
04ced10e8804 gcc 7 kono parents: diff changeset	624 stream->multithreaded = true;
04ced10e8804 gcc 7 kono parents: diff changeset	625
04ced10e8804 gcc 7 kono parents: diff changeset	626 pthread_mutex_unlock (&ptx_dev->stream_lock);
04ced10e8804 gcc 7 kono parents: diff changeset	627 }
04ced10e8804 gcc 7 kono parents: diff changeset	628 else if (stream && !stream->multithreaded
04ced10e8804 gcc 7 kono parents: diff changeset	629 && !pthread_equal (stream->host_thread, thread))
04ced10e8804 gcc 7 kono parents: diff changeset	630 GOMP_PLUGIN_fatal ("async %d used on wrong thread", orig_async);
04ced10e8804 gcc 7 kono parents: diff changeset	631
04ced10e8804 gcc 7 kono parents: diff changeset	632 return stream;
04ced10e8804 gcc 7 kono parents: diff changeset	633 }
04ced10e8804 gcc 7 kono parents: diff changeset	634
04ced10e8804 gcc 7 kono parents: diff changeset	635 /* Initialize the device. Return TRUE on success, else FALSE. PTX_DEV_LOCK
04ced10e8804 gcc 7 kono parents: diff changeset	636 should be locked on entry and remains locked on exit. */
04ced10e8804 gcc 7 kono parents: diff changeset	637
04ced10e8804 gcc 7 kono parents: diff changeset	638 static bool
04ced10e8804 gcc 7 kono parents: diff changeset	639 nvptx_init (void)
04ced10e8804 gcc 7 kono parents: diff changeset	640 {
04ced10e8804 gcc 7 kono parents: diff changeset	641 int ndevs;
04ced10e8804 gcc 7 kono parents: diff changeset	642
04ced10e8804 gcc 7 kono parents: diff changeset	643 if (instantiated_devices != 0)
04ced10e8804 gcc 7 kono parents: diff changeset	644 return true;
04ced10e8804 gcc 7 kono parents: diff changeset	645
04ced10e8804 gcc 7 kono parents: diff changeset	646 ptx_events = NULL;
04ced10e8804 gcc 7 kono parents: diff changeset	647 pthread_mutex_init (&ptx_event_lock, NULL);
04ced10e8804 gcc 7 kono parents: diff changeset	648
04ced10e8804 gcc 7 kono parents: diff changeset	649 if (!init_cuda_lib ())
04ced10e8804 gcc 7 kono parents: diff changeset	650 return false;
04ced10e8804 gcc 7 kono parents: diff changeset	651
04ced10e8804 gcc 7 kono parents: diff changeset	652 CUDA_CALL (cuInit, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	653
04ced10e8804 gcc 7 kono parents: diff changeset	654 CUDA_CALL (cuDeviceGetCount, &ndevs);
04ced10e8804 gcc 7 kono parents: diff changeset	655 ptx_devices = GOMP_PLUGIN_malloc_cleared (sizeof (struct ptx_device *)
04ced10e8804 gcc 7 kono parents: diff changeset	656 * ndevs);
04ced10e8804 gcc 7 kono parents: diff changeset	657 return true;
04ced10e8804 gcc 7 kono parents: diff changeset	658 }
04ced10e8804 gcc 7 kono parents: diff changeset	659
04ced10e8804 gcc 7 kono parents: diff changeset	660 /* Select the N'th PTX device for the current host thread. The device must
04ced10e8804 gcc 7 kono parents: diff changeset	661 have been previously opened before calling this function. */
04ced10e8804 gcc 7 kono parents: diff changeset	662
04ced10e8804 gcc 7 kono parents: diff changeset	663 static bool
04ced10e8804 gcc 7 kono parents: diff changeset	664 nvptx_attach_host_thread_to_device (int n)
04ced10e8804 gcc 7 kono parents: diff changeset	665 {
04ced10e8804 gcc 7 kono parents: diff changeset	666 CUdevice dev;
04ced10e8804 gcc 7 kono parents: diff changeset	667 CUresult r;
04ced10e8804 gcc 7 kono parents: diff changeset	668 struct ptx_device *ptx_dev;
04ced10e8804 gcc 7 kono parents: diff changeset	669 CUcontext thd_ctx;
04ced10e8804 gcc 7 kono parents: diff changeset	670
04ced10e8804 gcc 7 kono parents: diff changeset	671 r = CUDA_CALL_NOCHECK (cuCtxGetDevice, &dev);
04ced10e8804 gcc 7 kono parents: diff changeset	672 if (r != CUDA_SUCCESS && r != CUDA_ERROR_INVALID_CONTEXT)
04ced10e8804 gcc 7 kono parents: diff changeset	673 {
04ced10e8804 gcc 7 kono parents: diff changeset	674 GOMP_PLUGIN_error ("cuCtxGetDevice error: %s", cuda_error (r));
04ced10e8804 gcc 7 kono parents: diff changeset	675 return false;
04ced10e8804 gcc 7 kono parents: diff changeset	676 }
04ced10e8804 gcc 7 kono parents: diff changeset	677
04ced10e8804 gcc 7 kono parents: diff changeset	678 if (r != CUDA_ERROR_INVALID_CONTEXT && dev == n)
04ced10e8804 gcc 7 kono parents: diff changeset	679 return true;
04ced10e8804 gcc 7 kono parents: diff changeset	680 else
04ced10e8804 gcc 7 kono parents: diff changeset	681 {
04ced10e8804 gcc 7 kono parents: diff changeset	682 CUcontext old_ctx;
04ced10e8804 gcc 7 kono parents: diff changeset	683
04ced10e8804 gcc 7 kono parents: diff changeset	684 ptx_dev = ptx_devices[n];
04ced10e8804 gcc 7 kono parents: diff changeset	685 if (!ptx_dev)
04ced10e8804 gcc 7 kono parents: diff changeset	686 {
04ced10e8804 gcc 7 kono parents: diff changeset	687 GOMP_PLUGIN_error ("device %d not found", n);
04ced10e8804 gcc 7 kono parents: diff changeset	688 return false;
04ced10e8804 gcc 7 kono parents: diff changeset	689 }
04ced10e8804 gcc 7 kono parents: diff changeset	690
04ced10e8804 gcc 7 kono parents: diff changeset	691 CUDA_CALL (cuCtxGetCurrent, &thd_ctx);
04ced10e8804 gcc 7 kono parents: diff changeset	692
04ced10e8804 gcc 7 kono parents: diff changeset	693 /* We don't necessarily have a current context (e.g. if it has been
04ced10e8804 gcc 7 kono parents: diff changeset	694 destroyed. Pop it if we do though. */
04ced10e8804 gcc 7 kono parents: diff changeset	695 if (thd_ctx != NULL)
04ced10e8804 gcc 7 kono parents: diff changeset	696 CUDA_CALL (cuCtxPopCurrent, &old_ctx);
04ced10e8804 gcc 7 kono parents: diff changeset	697
04ced10e8804 gcc 7 kono parents: diff changeset	698 CUDA_CALL (cuCtxPushCurrent, ptx_dev->ctx);
04ced10e8804 gcc 7 kono parents: diff changeset	699 }
04ced10e8804 gcc 7 kono parents: diff changeset	700 return true;
04ced10e8804 gcc 7 kono parents: diff changeset	701 }
04ced10e8804 gcc 7 kono parents: diff changeset	702
04ced10e8804 gcc 7 kono parents: diff changeset	703 static struct ptx_device *
04ced10e8804 gcc 7 kono parents: diff changeset	704 nvptx_open_device (int n)
04ced10e8804 gcc 7 kono parents: diff changeset	705 {
04ced10e8804 gcc 7 kono parents: diff changeset	706 struct ptx_device *ptx_dev;
04ced10e8804 gcc 7 kono parents: diff changeset	707 CUdevice dev, ctx_dev;
04ced10e8804 gcc 7 kono parents: diff changeset	708 CUresult r;
04ced10e8804 gcc 7 kono parents: diff changeset	709 int async_engines, pi;
04ced10e8804 gcc 7 kono parents: diff changeset	710
04ced10e8804 gcc 7 kono parents: diff changeset	711 CUDA_CALL_ERET (NULL, cuDeviceGet, &dev, n);
04ced10e8804 gcc 7 kono parents: diff changeset	712
04ced10e8804 gcc 7 kono parents: diff changeset	713 ptx_dev = GOMP_PLUGIN_malloc (sizeof (struct ptx_device));
04ced10e8804 gcc 7 kono parents: diff changeset	714
04ced10e8804 gcc 7 kono parents: diff changeset	715 ptx_dev->ord = n;
04ced10e8804 gcc 7 kono parents: diff changeset	716 ptx_dev->dev = dev;
04ced10e8804 gcc 7 kono parents: diff changeset	717 ptx_dev->ctx_shared = false;
04ced10e8804 gcc 7 kono parents: diff changeset	718
04ced10e8804 gcc 7 kono parents: diff changeset	719 r = CUDA_CALL_NOCHECK (cuCtxGetDevice, &ctx_dev);
04ced10e8804 gcc 7 kono parents: diff changeset	720 if (r != CUDA_SUCCESS && r != CUDA_ERROR_INVALID_CONTEXT)
04ced10e8804 gcc 7 kono parents: diff changeset	721 {
04ced10e8804 gcc 7 kono parents: diff changeset	722 GOMP_PLUGIN_error ("cuCtxGetDevice error: %s", cuda_error (r));
04ced10e8804 gcc 7 kono parents: diff changeset	723 return NULL;
04ced10e8804 gcc 7 kono parents: diff changeset	724 }
04ced10e8804 gcc 7 kono parents: diff changeset	725
04ced10e8804 gcc 7 kono parents: diff changeset	726 if (r != CUDA_ERROR_INVALID_CONTEXT && ctx_dev != dev)
04ced10e8804 gcc 7 kono parents: diff changeset	727 {
04ced10e8804 gcc 7 kono parents: diff changeset	728 /* The current host thread has an active context for a different device.
04ced10e8804 gcc 7 kono parents: diff changeset	729 Detach it. */
04ced10e8804 gcc 7 kono parents: diff changeset	730 CUcontext old_ctx;
04ced10e8804 gcc 7 kono parents: diff changeset	731 CUDA_CALL_ERET (NULL, cuCtxPopCurrent, &old_ctx);
04ced10e8804 gcc 7 kono parents: diff changeset	732 }
04ced10e8804 gcc 7 kono parents: diff changeset	733
04ced10e8804 gcc 7 kono parents: diff changeset	734 CUDA_CALL_ERET (NULL, cuCtxGetCurrent, &ptx_dev->ctx);
04ced10e8804 gcc 7 kono parents: diff changeset	735
04ced10e8804 gcc 7 kono parents: diff changeset	736 if (!ptx_dev->ctx)
04ced10e8804 gcc 7 kono parents: diff changeset	737 CUDA_CALL_ERET (NULL, cuCtxCreate, &ptx_dev->ctx, CU_CTX_SCHED_AUTO, dev);
04ced10e8804 gcc 7 kono parents: diff changeset	738 else
04ced10e8804 gcc 7 kono parents: diff changeset	739 ptx_dev->ctx_shared = true;
04ced10e8804 gcc 7 kono parents: diff changeset	740
04ced10e8804 gcc 7 kono parents: diff changeset	741 CUDA_CALL_ERET (NULL, cuDeviceGetAttribute,
04ced10e8804 gcc 7 kono parents: diff changeset	742 &pi, CU_DEVICE_ATTRIBUTE_GPU_OVERLAP, dev);
04ced10e8804 gcc 7 kono parents: diff changeset	743 ptx_dev->overlap = pi;
04ced10e8804 gcc 7 kono parents: diff changeset	744
04ced10e8804 gcc 7 kono parents: diff changeset	745 CUDA_CALL_ERET (NULL, cuDeviceGetAttribute,
04ced10e8804 gcc 7 kono parents: diff changeset	746 &pi, CU_DEVICE_ATTRIBUTE_CAN_MAP_HOST_MEMORY, dev);
04ced10e8804 gcc 7 kono parents: diff changeset	747 ptx_dev->map = pi;
04ced10e8804 gcc 7 kono parents: diff changeset	748
04ced10e8804 gcc 7 kono parents: diff changeset	749 CUDA_CALL_ERET (NULL, cuDeviceGetAttribute,
04ced10e8804 gcc 7 kono parents: diff changeset	750 &pi, CU_DEVICE_ATTRIBUTE_CONCURRENT_KERNELS, dev);
04ced10e8804 gcc 7 kono parents: diff changeset	751 ptx_dev->concur = pi;
04ced10e8804 gcc 7 kono parents: diff changeset	752
04ced10e8804 gcc 7 kono parents: diff changeset	753 CUDA_CALL_ERET (NULL, cuDeviceGetAttribute,
04ced10e8804 gcc 7 kono parents: diff changeset	754 &pi, CU_DEVICE_ATTRIBUTE_COMPUTE_MODE, dev);
04ced10e8804 gcc 7 kono parents: diff changeset	755 ptx_dev->mode = pi;
04ced10e8804 gcc 7 kono parents: diff changeset	756
04ced10e8804 gcc 7 kono parents: diff changeset	757 CUDA_CALL_ERET (NULL, cuDeviceGetAttribute,
04ced10e8804 gcc 7 kono parents: diff changeset	758 &pi, CU_DEVICE_ATTRIBUTE_INTEGRATED, dev);
04ced10e8804 gcc 7 kono parents: diff changeset	759 ptx_dev->mkern = pi;
04ced10e8804 gcc 7 kono parents: diff changeset	760
04ced10e8804 gcc 7 kono parents: diff changeset	761 CUDA_CALL_ERET (NULL, cuDeviceGetAttribute,
04ced10e8804 gcc 7 kono parents: diff changeset	762 &pi, CU_DEVICE_ATTRIBUTE_CLOCK_RATE, dev);
04ced10e8804 gcc 7 kono parents: diff changeset	763 ptx_dev->clock_khz = pi;
04ced10e8804 gcc 7 kono parents: diff changeset	764
04ced10e8804 gcc 7 kono parents: diff changeset	765 CUDA_CALL_ERET (NULL, cuDeviceGetAttribute,
04ced10e8804 gcc 7 kono parents: diff changeset	766 &pi, CU_DEVICE_ATTRIBUTE_MULTIPROCESSOR_COUNT, dev);
04ced10e8804 gcc 7 kono parents: diff changeset	767 ptx_dev->num_sms = pi;
04ced10e8804 gcc 7 kono parents: diff changeset	768
04ced10e8804 gcc 7 kono parents: diff changeset	769 CUDA_CALL_ERET (NULL, cuDeviceGetAttribute,
04ced10e8804 gcc 7 kono parents: diff changeset	770 &pi, CU_DEVICE_ATTRIBUTE_MAX_REGISTERS_PER_BLOCK, dev);
04ced10e8804 gcc 7 kono parents: diff changeset	771 ptx_dev->regs_per_block = pi;
04ced10e8804 gcc 7 kono parents: diff changeset	772
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	773 /* CU_DEVICE_ATTRIBUTE_MAX_REGISTERS_PER_MULTIPROCESSOR is defined only
111 04ced10e8804 gcc 7 kono parents: diff changeset	774 in CUDA 6.0 and newer. */
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	775 r = CUDA_CALL_NOCHECK (cuDeviceGetAttribute, &pi,
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	776 CU_DEVICE_ATTRIBUTE_MAX_REGISTERS_PER_MULTIPROCESSOR,
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	777 dev);
111 04ced10e8804 gcc 7 kono parents: diff changeset	778 /* Fallback: use limit of registers per block, which is usually equal. */
04ced10e8804 gcc 7 kono parents: diff changeset	779 if (r == CUDA_ERROR_INVALID_VALUE)
04ced10e8804 gcc 7 kono parents: diff changeset	780 pi = ptx_dev->regs_per_block;
04ced10e8804 gcc 7 kono parents: diff changeset	781 else if (r != CUDA_SUCCESS)
04ced10e8804 gcc 7 kono parents: diff changeset	782 {
04ced10e8804 gcc 7 kono parents: diff changeset	783 GOMP_PLUGIN_error ("cuDeviceGetAttribute error: %s", cuda_error (r));
04ced10e8804 gcc 7 kono parents: diff changeset	784 return NULL;
04ced10e8804 gcc 7 kono parents: diff changeset	785 }
04ced10e8804 gcc 7 kono parents: diff changeset	786 ptx_dev->regs_per_sm = pi;
04ced10e8804 gcc 7 kono parents: diff changeset	787
04ced10e8804 gcc 7 kono parents: diff changeset	788 CUDA_CALL_ERET (NULL, cuDeviceGetAttribute,
04ced10e8804 gcc 7 kono parents: diff changeset	789 &pi, CU_DEVICE_ATTRIBUTE_WARP_SIZE, dev);
04ced10e8804 gcc 7 kono parents: diff changeset	790 if (pi != 32)
04ced10e8804 gcc 7 kono parents: diff changeset	791 {
04ced10e8804 gcc 7 kono parents: diff changeset	792 GOMP_PLUGIN_error ("Only warp size 32 is supported");
04ced10e8804 gcc 7 kono parents: diff changeset	793 return NULL;
04ced10e8804 gcc 7 kono parents: diff changeset	794 }
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	795 ptx_dev->warp_size = pi;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	796
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	797 CUDA_CALL_ERET (NULL, cuDeviceGetAttribute, &pi,
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	798 CU_DEVICE_ATTRIBUTE_MAX_THREADS_PER_BLOCK, dev);
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	799 ptx_dev->max_threads_per_block = pi;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	800
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	801 CUDA_CALL_ERET (NULL, cuDeviceGetAttribute, &pi,
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	802 CU_DEVICE_ATTRIBUTE_MAX_THREADS_PER_MULTIPROCESSOR, dev);
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	803 ptx_dev->max_threads_per_multiprocessor = pi;
111 04ced10e8804 gcc 7 kono parents: diff changeset	804
04ced10e8804 gcc 7 kono parents: diff changeset	805 r = CUDA_CALL_NOCHECK (cuDeviceGetAttribute, &async_engines,
04ced10e8804 gcc 7 kono parents: diff changeset	806 CU_DEVICE_ATTRIBUTE_ASYNC_ENGINE_COUNT, dev);
04ced10e8804 gcc 7 kono parents: diff changeset	807 if (r != CUDA_SUCCESS)
04ced10e8804 gcc 7 kono parents: diff changeset	808 async_engines = 1;
04ced10e8804 gcc 7 kono parents: diff changeset	809
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	810 for (int i = 0; i != GOMP_DIM_MAX; i++)
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	811 ptx_dev->default_dims[i] = 0;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	812
111 04ced10e8804 gcc 7 kono parents: diff changeset	813 ptx_dev->images = NULL;
04ced10e8804 gcc 7 kono parents: diff changeset	814 pthread_mutex_init (&ptx_dev->image_lock, NULL);
04ced10e8804 gcc 7 kono parents: diff changeset	815
04ced10e8804 gcc 7 kono parents: diff changeset	816 if (!init_streams_for_device (ptx_dev, async_engines))
04ced10e8804 gcc 7 kono parents: diff changeset	817 return NULL;
04ced10e8804 gcc 7 kono parents: diff changeset	818
04ced10e8804 gcc 7 kono parents: diff changeset	819 return ptx_dev;
04ced10e8804 gcc 7 kono parents: diff changeset	820 }
04ced10e8804 gcc 7 kono parents: diff changeset	821
04ced10e8804 gcc 7 kono parents: diff changeset	822 static bool
04ced10e8804 gcc 7 kono parents: diff changeset	823 nvptx_close_device (struct ptx_device *ptx_dev)
04ced10e8804 gcc 7 kono parents: diff changeset	824 {
04ced10e8804 gcc 7 kono parents: diff changeset	825 if (!ptx_dev)
04ced10e8804 gcc 7 kono parents: diff changeset	826 return true;
04ced10e8804 gcc 7 kono parents: diff changeset	827
04ced10e8804 gcc 7 kono parents: diff changeset	828 if (!fini_streams_for_device (ptx_dev))
04ced10e8804 gcc 7 kono parents: diff changeset	829 return false;
04ced10e8804 gcc 7 kono parents: diff changeset	830
04ced10e8804 gcc 7 kono parents: diff changeset	831 pthread_mutex_destroy (&ptx_dev->image_lock);
04ced10e8804 gcc 7 kono parents: diff changeset	832
04ced10e8804 gcc 7 kono parents: diff changeset	833 if (!ptx_dev->ctx_shared)
04ced10e8804 gcc 7 kono parents: diff changeset	834 CUDA_CALL (cuCtxDestroy, ptx_dev->ctx);
04ced10e8804 gcc 7 kono parents: diff changeset	835
04ced10e8804 gcc 7 kono parents: diff changeset	836 free (ptx_dev);
04ced10e8804 gcc 7 kono parents: diff changeset	837 return true;
04ced10e8804 gcc 7 kono parents: diff changeset	838 }
04ced10e8804 gcc 7 kono parents: diff changeset	839
04ced10e8804 gcc 7 kono parents: diff changeset	840 static int
04ced10e8804 gcc 7 kono parents: diff changeset	841 nvptx_get_num_devices (void)
04ced10e8804 gcc 7 kono parents: diff changeset	842 {
04ced10e8804 gcc 7 kono parents: diff changeset	843 int n;
04ced10e8804 gcc 7 kono parents: diff changeset	844
04ced10e8804 gcc 7 kono parents: diff changeset	845 /* PR libgomp/65099: Currently, we only support offloading in 64-bit
04ced10e8804 gcc 7 kono parents: diff changeset	846 configurations. */
04ced10e8804 gcc 7 kono parents: diff changeset	847 if (sizeof (void *) != 8)
04ced10e8804 gcc 7 kono parents: diff changeset	848 {
04ced10e8804 gcc 7 kono parents: diff changeset	849 GOMP_PLUGIN_debug (0, "Disabling nvptx offloading;"
04ced10e8804 gcc 7 kono parents: diff changeset	850 " only 64-bit configurations are supported\n");
04ced10e8804 gcc 7 kono parents: diff changeset	851 return 0;
04ced10e8804 gcc 7 kono parents: diff changeset	852 }
04ced10e8804 gcc 7 kono parents: diff changeset	853
04ced10e8804 gcc 7 kono parents: diff changeset	854 /* This function will be called before the plugin has been initialized in
04ced10e8804 gcc 7 kono parents: diff changeset	855 order to enumerate available devices, but CUDA API routines can't be used
04ced10e8804 gcc 7 kono parents: diff changeset	856 until cuInit has been called. Just call it now (but don't yet do any
04ced10e8804 gcc 7 kono parents: diff changeset	857 further initialization). */
04ced10e8804 gcc 7 kono parents: diff changeset	858 if (instantiated_devices == 0)
04ced10e8804 gcc 7 kono parents: diff changeset	859 {
04ced10e8804 gcc 7 kono parents: diff changeset	860 if (!init_cuda_lib ())
04ced10e8804 gcc 7 kono parents: diff changeset	861 return 0;
04ced10e8804 gcc 7 kono parents: diff changeset	862 CUresult r = CUDA_CALL_NOCHECK (cuInit, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	863 /* This is not an error: e.g. we may have CUDA libraries installed but
04ced10e8804 gcc 7 kono parents: diff changeset	864 no devices available. */
04ced10e8804 gcc 7 kono parents: diff changeset	865 if (r != CUDA_SUCCESS)
04ced10e8804 gcc 7 kono parents: diff changeset	866 {
04ced10e8804 gcc 7 kono parents: diff changeset	867 GOMP_PLUGIN_debug (0, "Disabling nvptx offloading; cuInit: %s\n",
04ced10e8804 gcc 7 kono parents: diff changeset	868 cuda_error (r));
04ced10e8804 gcc 7 kono parents: diff changeset	869 return 0;
04ced10e8804 gcc 7 kono parents: diff changeset	870 }
04ced10e8804 gcc 7 kono parents: diff changeset	871 }
04ced10e8804 gcc 7 kono parents: diff changeset	872
04ced10e8804 gcc 7 kono parents: diff changeset	873 CUDA_CALL_ERET (-1, cuDeviceGetCount, &n);
04ced10e8804 gcc 7 kono parents: diff changeset	874 return n;
04ced10e8804 gcc 7 kono parents: diff changeset	875 }
04ced10e8804 gcc 7 kono parents: diff changeset	876
04ced10e8804 gcc 7 kono parents: diff changeset	877 static void
04ced10e8804 gcc 7 kono parents: diff changeset	878 notify_var (const char var_name, const char env_var)
04ced10e8804 gcc 7 kono parents: diff changeset	879 {
04ced10e8804 gcc 7 kono parents: diff changeset	880 if (env_var == NULL)
04ced10e8804 gcc 7 kono parents: diff changeset	881 GOMP_PLUGIN_debug (0, "%s: <Not defined>\n", var_name);
04ced10e8804 gcc 7 kono parents: diff changeset	882 else
04ced10e8804 gcc 7 kono parents: diff changeset	883 GOMP_PLUGIN_debug (0, "%s: '%s'\n", var_name, env_var);
04ced10e8804 gcc 7 kono parents: diff changeset	884 }
04ced10e8804 gcc 7 kono parents: diff changeset	885
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	886 static void
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	887 process_GOMP_NVPTX_JIT (intptr_t *gomp_nvptx_o)
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	888 {
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	889 const char *var_name = "GOMP_NVPTX_JIT";
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	890 const char *env_var = secure_getenv (var_name);
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	891 notify_var (var_name, env_var);
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	892
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	893 if (env_var == NULL)
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	894 return;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	895
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	896 const char *c = env_var;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	897 while (*c != '\0')
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	898 {
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	899 while (*c == ' ')
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	900 c++;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	901
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	902 if (c[0] == '-' && c[1] == 'O'
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	903 && '0' <= c[2] && c[2] <= '4'
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	904 && (c[3] == '\0' \|\| c[3] == ' '))
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	905 {
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	906 *gomp_nvptx_o = c[2] - '0';
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	907 c += 3;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	908 continue;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	909 }
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	910
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	911 GOMP_PLUGIN_error ("Error parsing %s", var_name);
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	912 break;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	913 }
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	914 }
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	915
111 04ced10e8804 gcc 7 kono parents: diff changeset	916 static bool
04ced10e8804 gcc 7 kono parents: diff changeset	917 link_ptx (CUmodule module, const struct targ_ptx_obj ptx_objs,
04ced10e8804 gcc 7 kono parents: diff changeset	918 unsigned num_objs)
04ced10e8804 gcc 7 kono parents: diff changeset	919 {
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	920 CUjit_option opts[7];
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	921 void *optvals[7];
111 04ced10e8804 gcc 7 kono parents: diff changeset	922 float elapsed = 0.0;
04ced10e8804 gcc 7 kono parents: diff changeset	923 char elog[1024];
04ced10e8804 gcc 7 kono parents: diff changeset	924 char ilog[16384];
04ced10e8804 gcc 7 kono parents: diff changeset	925 CUlinkState linkstate;
04ced10e8804 gcc 7 kono parents: diff changeset	926 CUresult r;
04ced10e8804 gcc 7 kono parents: diff changeset	927 void *linkout;
04ced10e8804 gcc 7 kono parents: diff changeset	928 size_t linkoutsize __attribute__ ((unused));
04ced10e8804 gcc 7 kono parents: diff changeset	929
04ced10e8804 gcc 7 kono parents: diff changeset	930 opts[0] = CU_JIT_WALL_TIME;
04ced10e8804 gcc 7 kono parents: diff changeset	931 optvals[0] = &elapsed;
04ced10e8804 gcc 7 kono parents: diff changeset	932
04ced10e8804 gcc 7 kono parents: diff changeset	933 opts[1] = CU_JIT_INFO_LOG_BUFFER;
04ced10e8804 gcc 7 kono parents: diff changeset	934 optvals[1] = &ilog[0];
04ced10e8804 gcc 7 kono parents: diff changeset	935
04ced10e8804 gcc 7 kono parents: diff changeset	936 opts[2] = CU_JIT_INFO_LOG_BUFFER_SIZE_BYTES;
04ced10e8804 gcc 7 kono parents: diff changeset	937 optvals[2] = (void *) sizeof ilog;
04ced10e8804 gcc 7 kono parents: diff changeset	938
04ced10e8804 gcc 7 kono parents: diff changeset	939 opts[3] = CU_JIT_ERROR_LOG_BUFFER;
04ced10e8804 gcc 7 kono parents: diff changeset	940 optvals[3] = &elog[0];
04ced10e8804 gcc 7 kono parents: diff changeset	941
04ced10e8804 gcc 7 kono parents: diff changeset	942 opts[4] = CU_JIT_ERROR_LOG_BUFFER_SIZE_BYTES;
04ced10e8804 gcc 7 kono parents: diff changeset	943 optvals[4] = (void *) sizeof elog;
04ced10e8804 gcc 7 kono parents: diff changeset	944
04ced10e8804 gcc 7 kono parents: diff changeset	945 opts[5] = CU_JIT_LOG_VERBOSE;
04ced10e8804 gcc 7 kono parents: diff changeset	946 optvals[5] = (void *) 1;
04ced10e8804 gcc 7 kono parents: diff changeset	947
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	948 static intptr_t gomp_nvptx_o = -1;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	949
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	950 static bool init_done = false;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	951 if (!init_done)
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	952 {
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	953 process_GOMP_NVPTX_JIT (&gomp_nvptx_o);
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	954 init_done = true;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	955 }
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	956
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	957 int nopts = 6;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	958 if (gomp_nvptx_o != -1)
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	959 {
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	960 opts[nopts] = CU_JIT_OPTIMIZATION_LEVEL;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	961 optvals[nopts] = (void *) gomp_nvptx_o;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	962 nopts++;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	963 }
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	964
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	965 if (CUDA_CALL_EXISTS (cuLinkCreate_v2))
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	966 CUDA_CALL (cuLinkCreate_v2, nopts, opts, optvals, &linkstate);
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	967 else
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	968 CUDA_CALL (cuLinkCreate, nopts, opts, optvals, &linkstate);
111 04ced10e8804 gcc 7 kono parents: diff changeset	969
04ced10e8804 gcc 7 kono parents: diff changeset	970 for (; num_objs--; ptx_objs++)
04ced10e8804 gcc 7 kono parents: diff changeset	971 {
04ced10e8804 gcc 7 kono parents: diff changeset	972 /* cuLinkAddData's 'data' argument erroneously omits the const
04ced10e8804 gcc 7 kono parents: diff changeset	973 qualifier. */
04ced10e8804 gcc 7 kono parents: diff changeset	974 GOMP_PLUGIN_debug (0, "Loading:\n---\n%s\n---\n", ptx_objs->code);
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	975 if (CUDA_CALL_EXISTS (cuLinkAddData_v2))
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	976 r = CUDA_CALL_NOCHECK (cuLinkAddData_v2, linkstate, CU_JIT_INPUT_PTX,
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	977 (char *) ptx_objs->code, ptx_objs->size,
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	978 0, 0, 0, 0);
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	979 else
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	980 r = CUDA_CALL_NOCHECK (cuLinkAddData, linkstate, CU_JIT_INPUT_PTX,
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	981 (char *) ptx_objs->code, ptx_objs->size,
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	982 0, 0, 0, 0);
111 04ced10e8804 gcc 7 kono parents: diff changeset	983 if (r != CUDA_SUCCESS)
04ced10e8804 gcc 7 kono parents: diff changeset	984 {
04ced10e8804 gcc 7 kono parents: diff changeset	985 GOMP_PLUGIN_error ("Link error log %s\n", &elog[0]);
04ced10e8804 gcc 7 kono parents: diff changeset	986 GOMP_PLUGIN_error ("cuLinkAddData (ptx_code) error: %s",
04ced10e8804 gcc 7 kono parents: diff changeset	987 cuda_error (r));
04ced10e8804 gcc 7 kono parents: diff changeset	988 return false;
04ced10e8804 gcc 7 kono parents: diff changeset	989 }
04ced10e8804 gcc 7 kono parents: diff changeset	990 }
04ced10e8804 gcc 7 kono parents: diff changeset	991
04ced10e8804 gcc 7 kono parents: diff changeset	992 GOMP_PLUGIN_debug (0, "Linking\n");
04ced10e8804 gcc 7 kono parents: diff changeset	993 r = CUDA_CALL_NOCHECK (cuLinkComplete, linkstate, &linkout, &linkoutsize);
04ced10e8804 gcc 7 kono parents: diff changeset	994
04ced10e8804 gcc 7 kono parents: diff changeset	995 GOMP_PLUGIN_debug (0, "Link complete: %fms\n", elapsed);
04ced10e8804 gcc 7 kono parents: diff changeset	996 GOMP_PLUGIN_debug (0, "Link log %s\n", &ilog[0]);
04ced10e8804 gcc 7 kono parents: diff changeset	997
04ced10e8804 gcc 7 kono parents: diff changeset	998 if (r != CUDA_SUCCESS)
04ced10e8804 gcc 7 kono parents: diff changeset	999 {
04ced10e8804 gcc 7 kono parents: diff changeset	1000 GOMP_PLUGIN_error ("cuLinkComplete error: %s", cuda_error (r));
04ced10e8804 gcc 7 kono parents: diff changeset	1001 return false;
04ced10e8804 gcc 7 kono parents: diff changeset	1002 }
04ced10e8804 gcc 7 kono parents: diff changeset	1003
04ced10e8804 gcc 7 kono parents: diff changeset	1004 CUDA_CALL (cuModuleLoadData, module, linkout);
04ced10e8804 gcc 7 kono parents: diff changeset	1005 CUDA_CALL (cuLinkDestroy, linkstate);
04ced10e8804 gcc 7 kono parents: diff changeset	1006 return true;
04ced10e8804 gcc 7 kono parents: diff changeset	1007 }
04ced10e8804 gcc 7 kono parents: diff changeset	1008
04ced10e8804 gcc 7 kono parents: diff changeset	1009 static void
04ced10e8804 gcc 7 kono parents: diff changeset	1010 event_gc (bool memmap_lockable)
04ced10e8804 gcc 7 kono parents: diff changeset	1011 {
04ced10e8804 gcc 7 kono parents: diff changeset	1012 struct ptx_event *ptx_event = ptx_events;
04ced10e8804 gcc 7 kono parents: diff changeset	1013 struct ptx_event *async_cleanups = NULL;
04ced10e8804 gcc 7 kono parents: diff changeset	1014 struct nvptx_thread *nvthd = nvptx_thread ();
04ced10e8804 gcc 7 kono parents: diff changeset	1015
04ced10e8804 gcc 7 kono parents: diff changeset	1016 pthread_mutex_lock (&ptx_event_lock);
04ced10e8804 gcc 7 kono parents: diff changeset	1017
04ced10e8804 gcc 7 kono parents: diff changeset	1018 while (ptx_event != NULL)
04ced10e8804 gcc 7 kono parents: diff changeset	1019 {
04ced10e8804 gcc 7 kono parents: diff changeset	1020 CUresult r;
04ced10e8804 gcc 7 kono parents: diff changeset	1021 struct ptx_event *e = ptx_event;
04ced10e8804 gcc 7 kono parents: diff changeset	1022
04ced10e8804 gcc 7 kono parents: diff changeset	1023 ptx_event = ptx_event->next;
04ced10e8804 gcc 7 kono parents: diff changeset	1024
04ced10e8804 gcc 7 kono parents: diff changeset	1025 if (e->ord != nvthd->ptx_dev->ord)
04ced10e8804 gcc 7 kono parents: diff changeset	1026 continue;
04ced10e8804 gcc 7 kono parents: diff changeset	1027
04ced10e8804 gcc 7 kono parents: diff changeset	1028 r = CUDA_CALL_NOCHECK (cuEventQuery, *e->evt);
04ced10e8804 gcc 7 kono parents: diff changeset	1029 if (r == CUDA_SUCCESS)
04ced10e8804 gcc 7 kono parents: diff changeset	1030 {
04ced10e8804 gcc 7 kono parents: diff changeset	1031 bool append_async = false;
04ced10e8804 gcc 7 kono parents: diff changeset	1032 CUevent *te;
04ced10e8804 gcc 7 kono parents: diff changeset	1033
04ced10e8804 gcc 7 kono parents: diff changeset	1034 te = e->evt;
04ced10e8804 gcc 7 kono parents: diff changeset	1035
04ced10e8804 gcc 7 kono parents: diff changeset	1036 switch (e->type)
04ced10e8804 gcc 7 kono parents: diff changeset	1037 {
04ced10e8804 gcc 7 kono parents: diff changeset	1038 case PTX_EVT_MEM:
04ced10e8804 gcc 7 kono parents: diff changeset	1039 case PTX_EVT_SYNC:
04ced10e8804 gcc 7 kono parents: diff changeset	1040 break;
04ced10e8804 gcc 7 kono parents: diff changeset	1041
04ced10e8804 gcc 7 kono parents: diff changeset	1042 case PTX_EVT_KNL:
04ced10e8804 gcc 7 kono parents: diff changeset	1043 map_pop (e->addr);
04ced10e8804 gcc 7 kono parents: diff changeset	1044 break;
04ced10e8804 gcc 7 kono parents: diff changeset	1045
04ced10e8804 gcc 7 kono parents: diff changeset	1046 case PTX_EVT_ASYNC_CLEANUP:
04ced10e8804 gcc 7 kono parents: diff changeset	1047 {
04ced10e8804 gcc 7 kono parents: diff changeset	1048 /* The function gomp_plugin_async_unmap_vars needs to claim the
04ced10e8804 gcc 7 kono parents: diff changeset	1049 memory-map splay tree lock for the current device, so we
04ced10e8804 gcc 7 kono parents: diff changeset	1050 can't call it when one of our callers has already claimed
04ced10e8804 gcc 7 kono parents: diff changeset	1051 the lock. In that case, just delay the GC for this event
04ced10e8804 gcc 7 kono parents: diff changeset	1052 until later. */
04ced10e8804 gcc 7 kono parents: diff changeset	1053 if (!memmap_lockable)
04ced10e8804 gcc 7 kono parents: diff changeset	1054 continue;
04ced10e8804 gcc 7 kono parents: diff changeset	1055
04ced10e8804 gcc 7 kono parents: diff changeset	1056 append_async = true;
04ced10e8804 gcc 7 kono parents: diff changeset	1057 }
04ced10e8804 gcc 7 kono parents: diff changeset	1058 break;
04ced10e8804 gcc 7 kono parents: diff changeset	1059 }
04ced10e8804 gcc 7 kono parents: diff changeset	1060
04ced10e8804 gcc 7 kono parents: diff changeset	1061 CUDA_CALL_NOCHECK (cuEventDestroy, *te);
04ced10e8804 gcc 7 kono parents: diff changeset	1062 free ((void *)te);
04ced10e8804 gcc 7 kono parents: diff changeset	1063
04ced10e8804 gcc 7 kono parents: diff changeset	1064 /* Unlink 'e' from ptx_events list. */
04ced10e8804 gcc 7 kono parents: diff changeset	1065 if (ptx_events == e)
04ced10e8804 gcc 7 kono parents: diff changeset	1066 ptx_events = ptx_events->next;
04ced10e8804 gcc 7 kono parents: diff changeset	1067 else
04ced10e8804 gcc 7 kono parents: diff changeset	1068 {
04ced10e8804 gcc 7 kono parents: diff changeset	1069 struct ptx_event *e_ = ptx_events;
04ced10e8804 gcc 7 kono parents: diff changeset	1070 while (e_->next != e)
04ced10e8804 gcc 7 kono parents: diff changeset	1071 e_ = e_->next;
04ced10e8804 gcc 7 kono parents: diff changeset	1072 e_->next = e_->next->next;
04ced10e8804 gcc 7 kono parents: diff changeset	1073 }
04ced10e8804 gcc 7 kono parents: diff changeset	1074
04ced10e8804 gcc 7 kono parents: diff changeset	1075 if (append_async)
04ced10e8804 gcc 7 kono parents: diff changeset	1076 {
04ced10e8804 gcc 7 kono parents: diff changeset	1077 e->next = async_cleanups;
04ced10e8804 gcc 7 kono parents: diff changeset	1078 async_cleanups = e;
04ced10e8804 gcc 7 kono parents: diff changeset	1079 }
04ced10e8804 gcc 7 kono parents: diff changeset	1080 else
04ced10e8804 gcc 7 kono parents: diff changeset	1081 free (e);
04ced10e8804 gcc 7 kono parents: diff changeset	1082 }
04ced10e8804 gcc 7 kono parents: diff changeset	1083 }
04ced10e8804 gcc 7 kono parents: diff changeset	1084
04ced10e8804 gcc 7 kono parents: diff changeset	1085 pthread_mutex_unlock (&ptx_event_lock);
04ced10e8804 gcc 7 kono parents: diff changeset	1086
04ced10e8804 gcc 7 kono parents: diff changeset	1087 /* We have to do these here, after ptx_event_lock is released. */
04ced10e8804 gcc 7 kono parents: diff changeset	1088 while (async_cleanups)
04ced10e8804 gcc 7 kono parents: diff changeset	1089 {
04ced10e8804 gcc 7 kono parents: diff changeset	1090 struct ptx_event *e = async_cleanups;
04ced10e8804 gcc 7 kono parents: diff changeset	1091 async_cleanups = async_cleanups->next;
04ced10e8804 gcc 7 kono parents: diff changeset	1092
04ced10e8804 gcc 7 kono parents: diff changeset	1093 GOMP_PLUGIN_async_unmap_vars (e->addr, e->val);
04ced10e8804 gcc 7 kono parents: diff changeset	1094 free (e);
04ced10e8804 gcc 7 kono parents: diff changeset	1095 }
04ced10e8804 gcc 7 kono parents: diff changeset	1096 }
04ced10e8804 gcc 7 kono parents: diff changeset	1097
04ced10e8804 gcc 7 kono parents: diff changeset	1098 static void
04ced10e8804 gcc 7 kono parents: diff changeset	1099 event_add (enum ptx_event_type type, CUevent e, void h, int val)
04ced10e8804 gcc 7 kono parents: diff changeset	1100 {
04ced10e8804 gcc 7 kono parents: diff changeset	1101 struct ptx_event *ptx_event;
04ced10e8804 gcc 7 kono parents: diff changeset	1102 struct nvptx_thread *nvthd = nvptx_thread ();
04ced10e8804 gcc 7 kono parents: diff changeset	1103
04ced10e8804 gcc 7 kono parents: diff changeset	1104 assert (type == PTX_EVT_MEM \|\| type == PTX_EVT_KNL \|\| type == PTX_EVT_SYNC
04ced10e8804 gcc 7 kono parents: diff changeset	1105 \|\| type == PTX_EVT_ASYNC_CLEANUP);
04ced10e8804 gcc 7 kono parents: diff changeset	1106
04ced10e8804 gcc 7 kono parents: diff changeset	1107 ptx_event = GOMP_PLUGIN_malloc (sizeof (struct ptx_event));
04ced10e8804 gcc 7 kono parents: diff changeset	1108 ptx_event->type = type;
04ced10e8804 gcc 7 kono parents: diff changeset	1109 ptx_event->evt = e;
04ced10e8804 gcc 7 kono parents: diff changeset	1110 ptx_event->addr = h;
04ced10e8804 gcc 7 kono parents: diff changeset	1111 ptx_event->ord = nvthd->ptx_dev->ord;
04ced10e8804 gcc 7 kono parents: diff changeset	1112 ptx_event->val = val;
04ced10e8804 gcc 7 kono parents: diff changeset	1113
04ced10e8804 gcc 7 kono parents: diff changeset	1114 pthread_mutex_lock (&ptx_event_lock);
04ced10e8804 gcc 7 kono parents: diff changeset	1115
04ced10e8804 gcc 7 kono parents: diff changeset	1116 ptx_event->next = ptx_events;
04ced10e8804 gcc 7 kono parents: diff changeset	1117 ptx_events = ptx_event;
04ced10e8804 gcc 7 kono parents: diff changeset	1118
04ced10e8804 gcc 7 kono parents: diff changeset	1119 pthread_mutex_unlock (&ptx_event_lock);
04ced10e8804 gcc 7 kono parents: diff changeset	1120 }
04ced10e8804 gcc 7 kono parents: diff changeset	1121
04ced10e8804 gcc 7 kono parents: diff changeset	1122 static void
04ced10e8804 gcc 7 kono parents: diff changeset	1123 nvptx_exec (void (fn), size_t mapnum, void hostaddrs, void *devaddrs,
04ced10e8804 gcc 7 kono parents: diff changeset	1124 int async, unsigned dims, void targ_mem_desc)
04ced10e8804 gcc 7 kono parents: diff changeset	1125 {
04ced10e8804 gcc 7 kono parents: diff changeset	1126 struct targ_fn_descriptor targ_fn = (struct targ_fn_descriptor ) fn;
04ced10e8804 gcc 7 kono parents: diff changeset	1127 CUfunction function;
04ced10e8804 gcc 7 kono parents: diff changeset	1128 CUresult r;
04ced10e8804 gcc 7 kono parents: diff changeset	1129 int i;
04ced10e8804 gcc 7 kono parents: diff changeset	1130 struct ptx_stream *dev_str;
04ced10e8804 gcc 7 kono parents: diff changeset	1131 void *kargs[1];
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1132 void *hp;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1133 CUdeviceptr dp;
111 04ced10e8804 gcc 7 kono parents: diff changeset	1134 struct nvptx_thread *nvthd = nvptx_thread ();
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1135 int warp_size = nvthd->ptx_dev->warp_size;
111 04ced10e8804 gcc 7 kono parents: diff changeset	1136 const char *maybe_abort_msg = "(perhaps abort was called)";
04ced10e8804 gcc 7 kono parents: diff changeset	1137
04ced10e8804 gcc 7 kono parents: diff changeset	1138 function = targ_fn->fn;
04ced10e8804 gcc 7 kono parents: diff changeset	1139
04ced10e8804 gcc 7 kono parents: diff changeset	1140 dev_str = select_stream_for_async (async, pthread_self (), false, NULL);
04ced10e8804 gcc 7 kono parents: diff changeset	1141 assert (dev_str == nvthd->current_stream);
04ced10e8804 gcc 7 kono parents: diff changeset	1142
04ced10e8804 gcc 7 kono parents: diff changeset	1143 /* Initialize the launch dimensions. Typically this is constant,
04ced10e8804 gcc 7 kono parents: diff changeset	1144 provided by the device compiler, but we must permit runtime
04ced10e8804 gcc 7 kono parents: diff changeset	1145 values. */
04ced10e8804 gcc 7 kono parents: diff changeset	1146 int seen_zero = 0;
04ced10e8804 gcc 7 kono parents: diff changeset	1147 for (i = 0; i != GOMP_DIM_MAX; i++)
04ced10e8804 gcc 7 kono parents: diff changeset	1148 {
04ced10e8804 gcc 7 kono parents: diff changeset	1149 if (targ_fn->launch->dim[i])
04ced10e8804 gcc 7 kono parents: diff changeset	1150 dims[i] = targ_fn->launch->dim[i];
04ced10e8804 gcc 7 kono parents: diff changeset	1151 if (!dims[i])
04ced10e8804 gcc 7 kono parents: diff changeset	1152 seen_zero = 1;
04ced10e8804 gcc 7 kono parents: diff changeset	1153 }
04ced10e8804 gcc 7 kono parents: diff changeset	1154
04ced10e8804 gcc 7 kono parents: diff changeset	1155 if (seen_zero)
04ced10e8804 gcc 7 kono parents: diff changeset	1156 {
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1157 pthread_mutex_lock (&ptx_dev_lock);
111 04ced10e8804 gcc 7 kono parents: diff changeset	1158
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1159 static int gomp_openacc_dims[GOMP_DIM_MAX];
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1160 if (!gomp_openacc_dims[0])
111 04ced10e8804 gcc 7 kono parents: diff changeset	1161 {
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1162 /* See if the user provided GOMP_OPENACC_DIM environment
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1163 variable to specify runtime defaults. */
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1164 for (int i = 0; i < GOMP_DIM_MAX; ++i)
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1165 gomp_openacc_dims[i] = GOMP_PLUGIN_acc_default_dim (i);
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1166 }
111 04ced10e8804 gcc 7 kono parents: diff changeset	1167
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1168 if (!nvthd->ptx_dev->default_dims[0])
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1169 {
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1170 int default_dims[GOMP_DIM_MAX];
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1171 for (int i = 0; i < GOMP_DIM_MAX; ++i)
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1172 default_dims[i] = gomp_openacc_dims[i];
111 04ced10e8804 gcc 7 kono parents: diff changeset	1173
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1174 int gang, worker, vector;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1175 {
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1176 int block_size = nvthd->ptx_dev->max_threads_per_block;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1177 int cpu_size = nvthd->ptx_dev->max_threads_per_multiprocessor;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1178 int dev_size = nvthd->ptx_dev->num_sms;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1179 GOMP_PLUGIN_debug (0, " warp_size=%d, block_size=%d,"
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1180 " dev_size=%d, cpu_size=%d\n",
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1181 warp_size, block_size, dev_size, cpu_size);
111 04ced10e8804 gcc 7 kono parents: diff changeset	1182
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1183 gang = (cpu_size / block_size) * dev_size;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1184 worker = block_size / warp_size;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1185 vector = warp_size;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1186 }
111 04ced10e8804 gcc 7 kono parents: diff changeset	1187
04ced10e8804 gcc 7 kono parents: diff changeset	1188 /* There is no upper bound on the gang size. The best size
04ced10e8804 gcc 7 kono parents: diff changeset	1189 matches the hardware configuration. Logical gangs are
04ced10e8804 gcc 7 kono parents: diff changeset	1190 scheduled onto physical hardware. To maximize usage, we
04ced10e8804 gcc 7 kono parents: diff changeset	1191 should guess a large number. */
04ced10e8804 gcc 7 kono parents: diff changeset	1192 if (default_dims[GOMP_DIM_GANG] < 1)
04ced10e8804 gcc 7 kono parents: diff changeset	1193 default_dims[GOMP_DIM_GANG] = gang ? gang : 1024;
04ced10e8804 gcc 7 kono parents: diff changeset	1194 /* The worker size must not exceed the hardware. */
04ced10e8804 gcc 7 kono parents: diff changeset	1195 if (default_dims[GOMP_DIM_WORKER] < 1
04ced10e8804 gcc 7 kono parents: diff changeset	1196 \|\| (default_dims[GOMP_DIM_WORKER] > worker && gang))
04ced10e8804 gcc 7 kono parents: diff changeset	1197 default_dims[GOMP_DIM_WORKER] = worker;
04ced10e8804 gcc 7 kono parents: diff changeset	1198 /* The vector size must exactly match the hardware. */
04ced10e8804 gcc 7 kono parents: diff changeset	1199 if (default_dims[GOMP_DIM_VECTOR] < 1
04ced10e8804 gcc 7 kono parents: diff changeset	1200 \|\| (default_dims[GOMP_DIM_VECTOR] != vector && gang))
04ced10e8804 gcc 7 kono parents: diff changeset	1201 default_dims[GOMP_DIM_VECTOR] = vector;
04ced10e8804 gcc 7 kono parents: diff changeset	1202
04ced10e8804 gcc 7 kono parents: diff changeset	1203 GOMP_PLUGIN_debug (0, " default dimensions [%d,%d,%d]\n",
04ced10e8804 gcc 7 kono parents: diff changeset	1204 default_dims[GOMP_DIM_GANG],
04ced10e8804 gcc 7 kono parents: diff changeset	1205 default_dims[GOMP_DIM_WORKER],
04ced10e8804 gcc 7 kono parents: diff changeset	1206 default_dims[GOMP_DIM_VECTOR]);
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1207
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1208 for (i = 0; i != GOMP_DIM_MAX; i++)
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1209 nvthd->ptx_dev->default_dims[i] = default_dims[i];
111 04ced10e8804 gcc 7 kono parents: diff changeset	1210 }
04ced10e8804 gcc 7 kono parents: diff changeset	1211 pthread_mutex_unlock (&ptx_dev_lock);
04ced10e8804 gcc 7 kono parents: diff changeset	1212
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1213 {
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1214 bool default_dim_p[GOMP_DIM_MAX];
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1215 for (i = 0; i != GOMP_DIM_MAX; i++)
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1216 default_dim_p[i] = !dims[i];
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1217
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1218 if (!CUDA_CALL_EXISTS (cuOccupancyMaxPotentialBlockSize))
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1219 {
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1220 for (i = 0; i != GOMP_DIM_MAX; i++)
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1221 if (default_dim_p[i])
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1222 dims[i] = nvthd->ptx_dev->default_dims[i];
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1223
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1224 if (default_dim_p[GOMP_DIM_VECTOR])
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1225 dims[GOMP_DIM_VECTOR]
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1226 = MIN (dims[GOMP_DIM_VECTOR],
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1227 (targ_fn->max_threads_per_block / warp_size
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1228 * warp_size));
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1229
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1230 if (default_dim_p[GOMP_DIM_WORKER])
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1231 dims[GOMP_DIM_WORKER]
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1232 = MIN (dims[GOMP_DIM_WORKER],
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1233 targ_fn->max_threads_per_block / dims[GOMP_DIM_VECTOR]);
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1234 }
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1235 else
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1236 {
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1237 /* Handle the case that the compiler allows the runtime to choose
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1238 the vector-length conservatively, by ignoring
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1239 gomp_openacc_dims[GOMP_DIM_VECTOR]. TODO: actually handle
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1240 it. */
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1241 int vectors = 0;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1242 /* TODO: limit gomp_openacc_dims[GOMP_DIM_WORKER] such that that
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1243 gomp_openacc_dims[GOMP_DIM_WORKER] * actual_vectors does not
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1244 exceed targ_fn->max_threads_per_block. */
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1245 int workers = gomp_openacc_dims[GOMP_DIM_WORKER];
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1246 int gangs = gomp_openacc_dims[GOMP_DIM_GANG];
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1247 int grids, blocks;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1248
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1249 CUDA_CALL_ASSERT (cuOccupancyMaxPotentialBlockSize, &grids,
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1250 &blocks, function, NULL, 0,
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1251 dims[GOMP_DIM_WORKER] * dims[GOMP_DIM_VECTOR]);
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1252 GOMP_PLUGIN_debug (0, "cuOccupancyMaxPotentialBlockSize: "
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1253 "grid = %d, block = %d\n", grids, blocks);
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1254
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1255 /* Keep the num_gangs proportional to the block size. In
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1256 the case were a block size is limited by shared-memory
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1257 or the register file capacity, the runtime will not
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1258 excessively over assign gangs to the multiprocessor
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1259 units if their state is going to be swapped out even
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1260 more than necessary. The constant factor 2 is there to
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1261 prevent threads from idling when there is insufficient
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1262 work for them. */
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1263 if (gangs == 0)
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1264 gangs = 2 * grids * (blocks / warp_size);
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1265
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1266 if (vectors == 0)
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1267 vectors = warp_size;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1268
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1269 if (workers == 0)
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1270 {
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1271 int actual_vectors = (default_dim_p[GOMP_DIM_VECTOR]
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1272 ? vectors
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1273 : dims[GOMP_DIM_VECTOR]);
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1274 workers = blocks / actual_vectors;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1275 }
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1276
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1277 for (i = 0; i != GOMP_DIM_MAX; i++)
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1278 if (default_dim_p[i])
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1279 switch (i)
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1280 {
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1281 case GOMP_DIM_GANG: dims[i] = gangs; break;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1282 case GOMP_DIM_WORKER: dims[i] = workers; break;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1283 case GOMP_DIM_VECTOR: dims[i] = vectors; break;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1284 default: GOMP_PLUGIN_fatal ("invalid dim");
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1285 }
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1286 }
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1287 }
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1288 }
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1289
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1290 /* Check if the accelerator has sufficient hardware resources to
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1291 launch the offloaded kernel. */
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1292 if (dims[GOMP_DIM_WORKER] * dims[GOMP_DIM_VECTOR]
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1293 > targ_fn->max_threads_per_block)
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1294 {
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1295 int suggest_workers
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1296 = targ_fn->max_threads_per_block / dims[GOMP_DIM_VECTOR];
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1297 GOMP_PLUGIN_fatal ("The Nvidia accelerator has insufficient resources to"
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1298 " launch '%s' with num_workers = %d; recompile the"
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1299 " program with 'num_workers = %d' on that offloaded"
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1300 " region or '-fopenacc-dim=:%d'",
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1301 targ_fn->launch->fn, dims[GOMP_DIM_WORKER],
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1302 suggest_workers, suggest_workers);
111 04ced10e8804 gcc 7 kono parents: diff changeset	1303 }
04ced10e8804 gcc 7 kono parents: diff changeset	1304
04ced10e8804 gcc 7 kono parents: diff changeset	1305 /* This reserves a chunk of a pre-allocated page of memory mapped on both
04ced10e8804 gcc 7 kono parents: diff changeset	1306 the host and the device. HP is a host pointer to the new chunk, and DP is
04ced10e8804 gcc 7 kono parents: diff changeset	1307 the corresponding device pointer. */
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1308 pthread_mutex_lock (&ptx_event_lock);
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1309 dp = map_push (dev_str, mapnum * sizeof (void *));
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1310 pthread_mutex_unlock (&ptx_event_lock);
111 04ced10e8804 gcc 7 kono parents: diff changeset	1311
04ced10e8804 gcc 7 kono parents: diff changeset	1312 GOMP_PLUGIN_debug (0, " %s: prepare mappings\n", __FUNCTION__);
04ced10e8804 gcc 7 kono parents: diff changeset	1313
04ced10e8804 gcc 7 kono parents: diff changeset	1314 /* Copy the array of arguments to the mapped page. */
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1315 hp = alloca(sizeof(void ) mapnum);
111 04ced10e8804 gcc 7 kono parents: diff changeset	1316 for (i = 0; i < mapnum; i++)
04ced10e8804 gcc 7 kono parents: diff changeset	1317 ((void **) hp)[i] = devaddrs[i];
04ced10e8804 gcc 7 kono parents: diff changeset	1318
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1319 /* Copy the (device) pointers to arguments to the device */
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1320 CUDA_CALL_ASSERT (cuMemcpyHtoD, dp, hp,
111 04ced10e8804 gcc 7 kono parents: diff changeset	1321 mapnum * sizeof (void *));
04ced10e8804 gcc 7 kono parents: diff changeset	1322 GOMP_PLUGIN_debug (0, " %s: kernel %s: launch"
04ced10e8804 gcc 7 kono parents: diff changeset	1323 " gangs=%u, workers=%u, vectors=%u\n",
04ced10e8804 gcc 7 kono parents: diff changeset	1324 __FUNCTION__, targ_fn->launch->fn, dims[GOMP_DIM_GANG],
04ced10e8804 gcc 7 kono parents: diff changeset	1325 dims[GOMP_DIM_WORKER], dims[GOMP_DIM_VECTOR]);
04ced10e8804 gcc 7 kono parents: diff changeset	1326
04ced10e8804 gcc 7 kono parents: diff changeset	1327 // OpenACC CUDA
04ced10e8804 gcc 7 kono parents: diff changeset	1328 //
04ced10e8804 gcc 7 kono parents: diff changeset	1329 // num_gangs nctaid.x
04ced10e8804 gcc 7 kono parents: diff changeset	1330 // num_workers ntid.y
04ced10e8804 gcc 7 kono parents: diff changeset	1331 // vector length ntid.x
04ced10e8804 gcc 7 kono parents: diff changeset	1332
04ced10e8804 gcc 7 kono parents: diff changeset	1333 kargs[0] = &dp;
04ced10e8804 gcc 7 kono parents: diff changeset	1334 CUDA_CALL_ASSERT (cuLaunchKernel, function,
04ced10e8804 gcc 7 kono parents: diff changeset	1335 dims[GOMP_DIM_GANG], 1, 1,
04ced10e8804 gcc 7 kono parents: diff changeset	1336 dims[GOMP_DIM_VECTOR], dims[GOMP_DIM_WORKER], 1,
04ced10e8804 gcc 7 kono parents: diff changeset	1337 0, dev_str->stream, kargs, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	1338
04ced10e8804 gcc 7 kono parents: diff changeset	1339 #ifndef DISABLE_ASYNC
04ced10e8804 gcc 7 kono parents: diff changeset	1340 if (async < acc_async_noval)
04ced10e8804 gcc 7 kono parents: diff changeset	1341 {
04ced10e8804 gcc 7 kono parents: diff changeset	1342 r = CUDA_CALL_NOCHECK (cuStreamSynchronize, dev_str->stream);
04ced10e8804 gcc 7 kono parents: diff changeset	1343 if (r == CUDA_ERROR_LAUNCH_FAILED)
04ced10e8804 gcc 7 kono parents: diff changeset	1344 GOMP_PLUGIN_fatal ("cuStreamSynchronize error: %s %s\n", cuda_error (r),
04ced10e8804 gcc 7 kono parents: diff changeset	1345 maybe_abort_msg);
04ced10e8804 gcc 7 kono parents: diff changeset	1346 else if (r != CUDA_SUCCESS)
04ced10e8804 gcc 7 kono parents: diff changeset	1347 GOMP_PLUGIN_fatal ("cuStreamSynchronize error: %s", cuda_error (r));
04ced10e8804 gcc 7 kono parents: diff changeset	1348 }
04ced10e8804 gcc 7 kono parents: diff changeset	1349 else
04ced10e8804 gcc 7 kono parents: diff changeset	1350 {
04ced10e8804 gcc 7 kono parents: diff changeset	1351 CUevent *e;
04ced10e8804 gcc 7 kono parents: diff changeset	1352
04ced10e8804 gcc 7 kono parents: diff changeset	1353 e = (CUevent *)GOMP_PLUGIN_malloc (sizeof (CUevent));
04ced10e8804 gcc 7 kono parents: diff changeset	1354
04ced10e8804 gcc 7 kono parents: diff changeset	1355 r = CUDA_CALL_NOCHECK (cuEventCreate, e, CU_EVENT_DISABLE_TIMING);
04ced10e8804 gcc 7 kono parents: diff changeset	1356 if (r == CUDA_ERROR_LAUNCH_FAILED)
04ced10e8804 gcc 7 kono parents: diff changeset	1357 GOMP_PLUGIN_fatal ("cuEventCreate error: %s %s\n", cuda_error (r),
04ced10e8804 gcc 7 kono parents: diff changeset	1358 maybe_abort_msg);
04ced10e8804 gcc 7 kono parents: diff changeset	1359 else if (r != CUDA_SUCCESS)
04ced10e8804 gcc 7 kono parents: diff changeset	1360 GOMP_PLUGIN_fatal ("cuEventCreate error: %s", cuda_error (r));
04ced10e8804 gcc 7 kono parents: diff changeset	1361
04ced10e8804 gcc 7 kono parents: diff changeset	1362 event_gc (true);
04ced10e8804 gcc 7 kono parents: diff changeset	1363
04ced10e8804 gcc 7 kono parents: diff changeset	1364 CUDA_CALL_ASSERT (cuEventRecord, *e, dev_str->stream);
04ced10e8804 gcc 7 kono parents: diff changeset	1365
04ced10e8804 gcc 7 kono parents: diff changeset	1366 event_add (PTX_EVT_KNL, e, (void *)dev_str, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	1367 }
04ced10e8804 gcc 7 kono parents: diff changeset	1368 #else
04ced10e8804 gcc 7 kono parents: diff changeset	1369 r = CUDA_CALL_NOCHECK (cuCtxSynchronize, );
04ced10e8804 gcc 7 kono parents: diff changeset	1370 if (r == CUDA_ERROR_LAUNCH_FAILED)
04ced10e8804 gcc 7 kono parents: diff changeset	1371 GOMP_PLUGIN_fatal ("cuCtxSynchronize error: %s %s\n", cuda_error (r),
04ced10e8804 gcc 7 kono parents: diff changeset	1372 maybe_abort_msg);
04ced10e8804 gcc 7 kono parents: diff changeset	1373 else if (r != CUDA_SUCCESS)
04ced10e8804 gcc 7 kono parents: diff changeset	1374 GOMP_PLUGIN_fatal ("cuCtxSynchronize error: %s", cuda_error (r));
04ced10e8804 gcc 7 kono parents: diff changeset	1375 #endif
04ced10e8804 gcc 7 kono parents: diff changeset	1376
04ced10e8804 gcc 7 kono parents: diff changeset	1377 GOMP_PLUGIN_debug (0, " %s: kernel %s: finished\n", __FUNCTION__,
04ced10e8804 gcc 7 kono parents: diff changeset	1378 targ_fn->launch->fn);
04ced10e8804 gcc 7 kono parents: diff changeset	1379
04ced10e8804 gcc 7 kono parents: diff changeset	1380 #ifndef DISABLE_ASYNC
04ced10e8804 gcc 7 kono parents: diff changeset	1381 if (async < acc_async_noval)
04ced10e8804 gcc 7 kono parents: diff changeset	1382 #endif
04ced10e8804 gcc 7 kono parents: diff changeset	1383 map_pop (dev_str);
04ced10e8804 gcc 7 kono parents: diff changeset	1384 }
04ced10e8804 gcc 7 kono parents: diff changeset	1385
04ced10e8804 gcc 7 kono parents: diff changeset	1386 void * openacc_get_current_cuda_context (void);
04ced10e8804 gcc 7 kono parents: diff changeset	1387
04ced10e8804 gcc 7 kono parents: diff changeset	1388 static void *
04ced10e8804 gcc 7 kono parents: diff changeset	1389 nvptx_alloc (size_t s)
04ced10e8804 gcc 7 kono parents: diff changeset	1390 {
04ced10e8804 gcc 7 kono parents: diff changeset	1391 CUdeviceptr d;
04ced10e8804 gcc 7 kono parents: diff changeset	1392
04ced10e8804 gcc 7 kono parents: diff changeset	1393 CUDA_CALL_ERET (NULL, cuMemAlloc, &d, s);
04ced10e8804 gcc 7 kono parents: diff changeset	1394 return (void *) d;
04ced10e8804 gcc 7 kono parents: diff changeset	1395 }
04ced10e8804 gcc 7 kono parents: diff changeset	1396
04ced10e8804 gcc 7 kono parents: diff changeset	1397 static bool
04ced10e8804 gcc 7 kono parents: diff changeset	1398 nvptx_free (void *p)
04ced10e8804 gcc 7 kono parents: diff changeset	1399 {
04ced10e8804 gcc 7 kono parents: diff changeset	1400 CUdeviceptr pb;
04ced10e8804 gcc 7 kono parents: diff changeset	1401 size_t ps;
04ced10e8804 gcc 7 kono parents: diff changeset	1402
04ced10e8804 gcc 7 kono parents: diff changeset	1403 CUDA_CALL (cuMemGetAddressRange, &pb, &ps, (CUdeviceptr) p);
04ced10e8804 gcc 7 kono parents: diff changeset	1404 if ((CUdeviceptr) p != pb)
04ced10e8804 gcc 7 kono parents: diff changeset	1405 {
04ced10e8804 gcc 7 kono parents: diff changeset	1406 GOMP_PLUGIN_error ("invalid device address");
04ced10e8804 gcc 7 kono parents: diff changeset	1407 return false;
04ced10e8804 gcc 7 kono parents: diff changeset	1408 }
04ced10e8804 gcc 7 kono parents: diff changeset	1409
04ced10e8804 gcc 7 kono parents: diff changeset	1410 CUDA_CALL (cuMemFree, (CUdeviceptr) p);
04ced10e8804 gcc 7 kono parents: diff changeset	1411 return true;
04ced10e8804 gcc 7 kono parents: diff changeset	1412 }
04ced10e8804 gcc 7 kono parents: diff changeset	1413
04ced10e8804 gcc 7 kono parents: diff changeset	1414
04ced10e8804 gcc 7 kono parents: diff changeset	1415 static bool
04ced10e8804 gcc 7 kono parents: diff changeset	1416 nvptx_host2dev (void d, const void h, size_t s)
04ced10e8804 gcc 7 kono parents: diff changeset	1417 {
04ced10e8804 gcc 7 kono parents: diff changeset	1418 CUdeviceptr pb;
04ced10e8804 gcc 7 kono parents: diff changeset	1419 size_t ps;
04ced10e8804 gcc 7 kono parents: diff changeset	1420 struct nvptx_thread *nvthd = nvptx_thread ();
04ced10e8804 gcc 7 kono parents: diff changeset	1421
04ced10e8804 gcc 7 kono parents: diff changeset	1422 if (!s)
04ced10e8804 gcc 7 kono parents: diff changeset	1423 return true;
04ced10e8804 gcc 7 kono parents: diff changeset	1424 if (!d)
04ced10e8804 gcc 7 kono parents: diff changeset	1425 {
04ced10e8804 gcc 7 kono parents: diff changeset	1426 GOMP_PLUGIN_error ("invalid device address");
04ced10e8804 gcc 7 kono parents: diff changeset	1427 return false;
04ced10e8804 gcc 7 kono parents: diff changeset	1428 }
04ced10e8804 gcc 7 kono parents: diff changeset	1429
04ced10e8804 gcc 7 kono parents: diff changeset	1430 CUDA_CALL (cuMemGetAddressRange, &pb, &ps, (CUdeviceptr) d);
04ced10e8804 gcc 7 kono parents: diff changeset	1431
04ced10e8804 gcc 7 kono parents: diff changeset	1432 if (!pb)
04ced10e8804 gcc 7 kono parents: diff changeset	1433 {
04ced10e8804 gcc 7 kono parents: diff changeset	1434 GOMP_PLUGIN_error ("invalid device address");
04ced10e8804 gcc 7 kono parents: diff changeset	1435 return false;
04ced10e8804 gcc 7 kono parents: diff changeset	1436 }
04ced10e8804 gcc 7 kono parents: diff changeset	1437 if (!h)
04ced10e8804 gcc 7 kono parents: diff changeset	1438 {
04ced10e8804 gcc 7 kono parents: diff changeset	1439 GOMP_PLUGIN_error ("invalid host address");
04ced10e8804 gcc 7 kono parents: diff changeset	1440 return false;
04ced10e8804 gcc 7 kono parents: diff changeset	1441 }
04ced10e8804 gcc 7 kono parents: diff changeset	1442 if (d == h)
04ced10e8804 gcc 7 kono parents: diff changeset	1443 {
04ced10e8804 gcc 7 kono parents: diff changeset	1444 GOMP_PLUGIN_error ("invalid host or device address");
04ced10e8804 gcc 7 kono parents: diff changeset	1445 return false;
04ced10e8804 gcc 7 kono parents: diff changeset	1446 }
04ced10e8804 gcc 7 kono parents: diff changeset	1447 if ((void )(d + s) > (void )(pb + ps))
04ced10e8804 gcc 7 kono parents: diff changeset	1448 {
04ced10e8804 gcc 7 kono parents: diff changeset	1449 GOMP_PLUGIN_error ("invalid size");
04ced10e8804 gcc 7 kono parents: diff changeset	1450 return false;
04ced10e8804 gcc 7 kono parents: diff changeset	1451 }
04ced10e8804 gcc 7 kono parents: diff changeset	1452
04ced10e8804 gcc 7 kono parents: diff changeset	1453 #ifndef DISABLE_ASYNC
04ced10e8804 gcc 7 kono parents: diff changeset	1454 if (nvthd && nvthd->current_stream != nvthd->ptx_dev->null_stream)
04ced10e8804 gcc 7 kono parents: diff changeset	1455 {
04ced10e8804 gcc 7 kono parents: diff changeset	1456 CUevent e = (CUevent )GOMP_PLUGIN_malloc (sizeof (CUevent));
04ced10e8804 gcc 7 kono parents: diff changeset	1457 CUDA_CALL (cuEventCreate, e, CU_EVENT_DISABLE_TIMING);
04ced10e8804 gcc 7 kono parents: diff changeset	1458 event_gc (false);
04ced10e8804 gcc 7 kono parents: diff changeset	1459 CUDA_CALL (cuMemcpyHtoDAsync,
04ced10e8804 gcc 7 kono parents: diff changeset	1460 (CUdeviceptr) d, h, s, nvthd->current_stream->stream);
04ced10e8804 gcc 7 kono parents: diff changeset	1461 CUDA_CALL (cuEventRecord, *e, nvthd->current_stream->stream);
04ced10e8804 gcc 7 kono parents: diff changeset	1462 event_add (PTX_EVT_MEM, e, (void *)h, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	1463 }
04ced10e8804 gcc 7 kono parents: diff changeset	1464 else
04ced10e8804 gcc 7 kono parents: diff changeset	1465 #endif
04ced10e8804 gcc 7 kono parents: diff changeset	1466 CUDA_CALL (cuMemcpyHtoD, (CUdeviceptr) d, h, s);
04ced10e8804 gcc 7 kono parents: diff changeset	1467
04ced10e8804 gcc 7 kono parents: diff changeset	1468 return true;
04ced10e8804 gcc 7 kono parents: diff changeset	1469 }
04ced10e8804 gcc 7 kono parents: diff changeset	1470
04ced10e8804 gcc 7 kono parents: diff changeset	1471 static bool
04ced10e8804 gcc 7 kono parents: diff changeset	1472 nvptx_dev2host (void h, const void d, size_t s)
04ced10e8804 gcc 7 kono parents: diff changeset	1473 {
04ced10e8804 gcc 7 kono parents: diff changeset	1474 CUdeviceptr pb;
04ced10e8804 gcc 7 kono parents: diff changeset	1475 size_t ps;
04ced10e8804 gcc 7 kono parents: diff changeset	1476 struct nvptx_thread *nvthd = nvptx_thread ();
04ced10e8804 gcc 7 kono parents: diff changeset	1477
04ced10e8804 gcc 7 kono parents: diff changeset	1478 if (!s)
04ced10e8804 gcc 7 kono parents: diff changeset	1479 return true;
04ced10e8804 gcc 7 kono parents: diff changeset	1480 if (!d)
04ced10e8804 gcc 7 kono parents: diff changeset	1481 {
04ced10e8804 gcc 7 kono parents: diff changeset	1482 GOMP_PLUGIN_error ("invalid device address");
04ced10e8804 gcc 7 kono parents: diff changeset	1483 return false;
04ced10e8804 gcc 7 kono parents: diff changeset	1484 }
04ced10e8804 gcc 7 kono parents: diff changeset	1485
04ced10e8804 gcc 7 kono parents: diff changeset	1486 CUDA_CALL (cuMemGetAddressRange, &pb, &ps, (CUdeviceptr) d);
04ced10e8804 gcc 7 kono parents: diff changeset	1487
04ced10e8804 gcc 7 kono parents: diff changeset	1488 if (!pb)
04ced10e8804 gcc 7 kono parents: diff changeset	1489 {
04ced10e8804 gcc 7 kono parents: diff changeset	1490 GOMP_PLUGIN_error ("invalid device address");
04ced10e8804 gcc 7 kono parents: diff changeset	1491 return false;
04ced10e8804 gcc 7 kono parents: diff changeset	1492 }
04ced10e8804 gcc 7 kono parents: diff changeset	1493 if (!h)
04ced10e8804 gcc 7 kono parents: diff changeset	1494 {
04ced10e8804 gcc 7 kono parents: diff changeset	1495 GOMP_PLUGIN_error ("invalid host address");
04ced10e8804 gcc 7 kono parents: diff changeset	1496 return false;
04ced10e8804 gcc 7 kono parents: diff changeset	1497 }
04ced10e8804 gcc 7 kono parents: diff changeset	1498 if (d == h)
04ced10e8804 gcc 7 kono parents: diff changeset	1499 {
04ced10e8804 gcc 7 kono parents: diff changeset	1500 GOMP_PLUGIN_error ("invalid host or device address");
04ced10e8804 gcc 7 kono parents: diff changeset	1501 return false;
04ced10e8804 gcc 7 kono parents: diff changeset	1502 }
04ced10e8804 gcc 7 kono parents: diff changeset	1503 if ((void )(d + s) > (void )(pb + ps))
04ced10e8804 gcc 7 kono parents: diff changeset	1504 {
04ced10e8804 gcc 7 kono parents: diff changeset	1505 GOMP_PLUGIN_error ("invalid size");
04ced10e8804 gcc 7 kono parents: diff changeset	1506 return false;
04ced10e8804 gcc 7 kono parents: diff changeset	1507 }
04ced10e8804 gcc 7 kono parents: diff changeset	1508
04ced10e8804 gcc 7 kono parents: diff changeset	1509 #ifndef DISABLE_ASYNC
04ced10e8804 gcc 7 kono parents: diff changeset	1510 if (nvthd && nvthd->current_stream != nvthd->ptx_dev->null_stream)
04ced10e8804 gcc 7 kono parents: diff changeset	1511 {
04ced10e8804 gcc 7 kono parents: diff changeset	1512 CUevent e = (CUevent ) GOMP_PLUGIN_malloc (sizeof (CUevent));
04ced10e8804 gcc 7 kono parents: diff changeset	1513 CUDA_CALL (cuEventCreate, e, CU_EVENT_DISABLE_TIMING);
04ced10e8804 gcc 7 kono parents: diff changeset	1514 event_gc (false);
04ced10e8804 gcc 7 kono parents: diff changeset	1515 CUDA_CALL (cuMemcpyDtoHAsync,
04ced10e8804 gcc 7 kono parents: diff changeset	1516 h, (CUdeviceptr) d, s, nvthd->current_stream->stream);
04ced10e8804 gcc 7 kono parents: diff changeset	1517 CUDA_CALL (cuEventRecord, *e, nvthd->current_stream->stream);
04ced10e8804 gcc 7 kono parents: diff changeset	1518 event_add (PTX_EVT_MEM, e, (void *)h, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	1519 }
04ced10e8804 gcc 7 kono parents: diff changeset	1520 else
04ced10e8804 gcc 7 kono parents: diff changeset	1521 #endif
04ced10e8804 gcc 7 kono parents: diff changeset	1522 CUDA_CALL (cuMemcpyDtoH, h, (CUdeviceptr) d, s);
04ced10e8804 gcc 7 kono parents: diff changeset	1523
04ced10e8804 gcc 7 kono parents: diff changeset	1524 return true;
04ced10e8804 gcc 7 kono parents: diff changeset	1525 }
04ced10e8804 gcc 7 kono parents: diff changeset	1526
04ced10e8804 gcc 7 kono parents: diff changeset	1527 static void
04ced10e8804 gcc 7 kono parents: diff changeset	1528 nvptx_set_async (int async)
04ced10e8804 gcc 7 kono parents: diff changeset	1529 {
04ced10e8804 gcc 7 kono parents: diff changeset	1530 struct nvptx_thread *nvthd = nvptx_thread ();
04ced10e8804 gcc 7 kono parents: diff changeset	1531 nvthd->current_stream
04ced10e8804 gcc 7 kono parents: diff changeset	1532 = select_stream_for_async (async, pthread_self (), true, NULL);
04ced10e8804 gcc 7 kono parents: diff changeset	1533 }
04ced10e8804 gcc 7 kono parents: diff changeset	1534
04ced10e8804 gcc 7 kono parents: diff changeset	1535 static int
04ced10e8804 gcc 7 kono parents: diff changeset	1536 nvptx_async_test (int async)
04ced10e8804 gcc 7 kono parents: diff changeset	1537 {
04ced10e8804 gcc 7 kono parents: diff changeset	1538 CUresult r;
04ced10e8804 gcc 7 kono parents: diff changeset	1539 struct ptx_stream *s;
04ced10e8804 gcc 7 kono parents: diff changeset	1540
04ced10e8804 gcc 7 kono parents: diff changeset	1541 s = select_stream_for_async (async, pthread_self (), false, NULL);
04ced10e8804 gcc 7 kono parents: diff changeset	1542
04ced10e8804 gcc 7 kono parents: diff changeset	1543 if (!s)
04ced10e8804 gcc 7 kono parents: diff changeset	1544 GOMP_PLUGIN_fatal ("unknown async %d", async);
04ced10e8804 gcc 7 kono parents: diff changeset	1545
04ced10e8804 gcc 7 kono parents: diff changeset	1546 r = CUDA_CALL_NOCHECK (cuStreamQuery, s->stream);
04ced10e8804 gcc 7 kono parents: diff changeset	1547 if (r == CUDA_SUCCESS)
04ced10e8804 gcc 7 kono parents: diff changeset	1548 {
04ced10e8804 gcc 7 kono parents: diff changeset	1549 /* The oacc-parallel.c:goacc_wait function calls this hook to determine
04ced10e8804 gcc 7 kono parents: diff changeset	1550 whether all work has completed on this stream, and if so omits the call
04ced10e8804 gcc 7 kono parents: diff changeset	1551 to the wait hook. If that happens, event_gc might not get called
04ced10e8804 gcc 7 kono parents: diff changeset	1552 (which prevents variables from getting unmapped and their associated
04ced10e8804 gcc 7 kono parents: diff changeset	1553 device storage freed), so call it here. */
04ced10e8804 gcc 7 kono parents: diff changeset	1554 event_gc (true);
04ced10e8804 gcc 7 kono parents: diff changeset	1555 return 1;
04ced10e8804 gcc 7 kono parents: diff changeset	1556 }
04ced10e8804 gcc 7 kono parents: diff changeset	1557 else if (r == CUDA_ERROR_NOT_READY)
04ced10e8804 gcc 7 kono parents: diff changeset	1558 return 0;
04ced10e8804 gcc 7 kono parents: diff changeset	1559
04ced10e8804 gcc 7 kono parents: diff changeset	1560 GOMP_PLUGIN_fatal ("cuStreamQuery error: %s", cuda_error (r));
04ced10e8804 gcc 7 kono parents: diff changeset	1561
04ced10e8804 gcc 7 kono parents: diff changeset	1562 return 0;
04ced10e8804 gcc 7 kono parents: diff changeset	1563 }
04ced10e8804 gcc 7 kono parents: diff changeset	1564
04ced10e8804 gcc 7 kono parents: diff changeset	1565 static int
04ced10e8804 gcc 7 kono parents: diff changeset	1566 nvptx_async_test_all (void)
04ced10e8804 gcc 7 kono parents: diff changeset	1567 {
04ced10e8804 gcc 7 kono parents: diff changeset	1568 struct ptx_stream *s;
04ced10e8804 gcc 7 kono parents: diff changeset	1569 pthread_t self = pthread_self ();
04ced10e8804 gcc 7 kono parents: diff changeset	1570 struct nvptx_thread *nvthd = nvptx_thread ();
04ced10e8804 gcc 7 kono parents: diff changeset	1571
04ced10e8804 gcc 7 kono parents: diff changeset	1572 pthread_mutex_lock (&nvthd->ptx_dev->stream_lock);
04ced10e8804 gcc 7 kono parents: diff changeset	1573
04ced10e8804 gcc 7 kono parents: diff changeset	1574 for (s = nvthd->ptx_dev->active_streams; s != NULL; s = s->next)
04ced10e8804 gcc 7 kono parents: diff changeset	1575 {
04ced10e8804 gcc 7 kono parents: diff changeset	1576 if ((s->multithreaded \|\| pthread_equal (s->host_thread, self))
04ced10e8804 gcc 7 kono parents: diff changeset	1577 && CUDA_CALL_NOCHECK (cuStreamQuery,
04ced10e8804 gcc 7 kono parents: diff changeset	1578 s->stream) == CUDA_ERROR_NOT_READY)
04ced10e8804 gcc 7 kono parents: diff changeset	1579 {
04ced10e8804 gcc 7 kono parents: diff changeset	1580 pthread_mutex_unlock (&nvthd->ptx_dev->stream_lock);
04ced10e8804 gcc 7 kono parents: diff changeset	1581 return 0;
04ced10e8804 gcc 7 kono parents: diff changeset	1582 }
04ced10e8804 gcc 7 kono parents: diff changeset	1583 }
04ced10e8804 gcc 7 kono parents: diff changeset	1584
04ced10e8804 gcc 7 kono parents: diff changeset	1585 pthread_mutex_unlock (&nvthd->ptx_dev->stream_lock);
04ced10e8804 gcc 7 kono parents: diff changeset	1586
04ced10e8804 gcc 7 kono parents: diff changeset	1587 event_gc (true);
04ced10e8804 gcc 7 kono parents: diff changeset	1588
04ced10e8804 gcc 7 kono parents: diff changeset	1589 return 1;
04ced10e8804 gcc 7 kono parents: diff changeset	1590 }
04ced10e8804 gcc 7 kono parents: diff changeset	1591
04ced10e8804 gcc 7 kono parents: diff changeset	1592 static void
04ced10e8804 gcc 7 kono parents: diff changeset	1593 nvptx_wait (int async)
04ced10e8804 gcc 7 kono parents: diff changeset	1594 {
04ced10e8804 gcc 7 kono parents: diff changeset	1595 struct ptx_stream *s;
04ced10e8804 gcc 7 kono parents: diff changeset	1596
04ced10e8804 gcc 7 kono parents: diff changeset	1597 s = select_stream_for_async (async, pthread_self (), false, NULL);
04ced10e8804 gcc 7 kono parents: diff changeset	1598 if (!s)
04ced10e8804 gcc 7 kono parents: diff changeset	1599 GOMP_PLUGIN_fatal ("unknown async %d", async);
04ced10e8804 gcc 7 kono parents: diff changeset	1600
04ced10e8804 gcc 7 kono parents: diff changeset	1601 CUDA_CALL_ASSERT (cuStreamSynchronize, s->stream);
04ced10e8804 gcc 7 kono parents: diff changeset	1602
04ced10e8804 gcc 7 kono parents: diff changeset	1603 event_gc (true);
04ced10e8804 gcc 7 kono parents: diff changeset	1604 }
04ced10e8804 gcc 7 kono parents: diff changeset	1605
04ced10e8804 gcc 7 kono parents: diff changeset	1606 static void
04ced10e8804 gcc 7 kono parents: diff changeset	1607 nvptx_wait_async (int async1, int async2)
04ced10e8804 gcc 7 kono parents: diff changeset	1608 {
04ced10e8804 gcc 7 kono parents: diff changeset	1609 CUevent *e;
04ced10e8804 gcc 7 kono parents: diff changeset	1610 struct ptx_stream s1, s2;
04ced10e8804 gcc 7 kono parents: diff changeset	1611 pthread_t self = pthread_self ();
04ced10e8804 gcc 7 kono parents: diff changeset	1612
04ced10e8804 gcc 7 kono parents: diff changeset	1613 /* The stream that is waiting (rather than being waited for) doesn't
04ced10e8804 gcc 7 kono parents: diff changeset	1614 necessarily have to exist already. */
04ced10e8804 gcc 7 kono parents: diff changeset	1615 s2 = select_stream_for_async (async2, self, true, NULL);
04ced10e8804 gcc 7 kono parents: diff changeset	1616
04ced10e8804 gcc 7 kono parents: diff changeset	1617 s1 = select_stream_for_async (async1, self, false, NULL);
04ced10e8804 gcc 7 kono parents: diff changeset	1618 if (!s1)
04ced10e8804 gcc 7 kono parents: diff changeset	1619 GOMP_PLUGIN_fatal ("invalid async 1\n");
04ced10e8804 gcc 7 kono parents: diff changeset	1620
04ced10e8804 gcc 7 kono parents: diff changeset	1621 if (s1 == s2)
04ced10e8804 gcc 7 kono parents: diff changeset	1622 GOMP_PLUGIN_fatal ("identical parameters");
04ced10e8804 gcc 7 kono parents: diff changeset	1623
04ced10e8804 gcc 7 kono parents: diff changeset	1624 e = (CUevent *) GOMP_PLUGIN_malloc (sizeof (CUevent));
04ced10e8804 gcc 7 kono parents: diff changeset	1625
04ced10e8804 gcc 7 kono parents: diff changeset	1626 CUDA_CALL_ASSERT (cuEventCreate, e, CU_EVENT_DISABLE_TIMING);
04ced10e8804 gcc 7 kono parents: diff changeset	1627
04ced10e8804 gcc 7 kono parents: diff changeset	1628 event_gc (true);
04ced10e8804 gcc 7 kono parents: diff changeset	1629
04ced10e8804 gcc 7 kono parents: diff changeset	1630 CUDA_CALL_ASSERT (cuEventRecord, *e, s1->stream);
04ced10e8804 gcc 7 kono parents: diff changeset	1631
04ced10e8804 gcc 7 kono parents: diff changeset	1632 event_add (PTX_EVT_SYNC, e, NULL, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	1633
04ced10e8804 gcc 7 kono parents: diff changeset	1634 CUDA_CALL_ASSERT (cuStreamWaitEvent, s2->stream, *e, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	1635 }
04ced10e8804 gcc 7 kono parents: diff changeset	1636
04ced10e8804 gcc 7 kono parents: diff changeset	1637 static void
04ced10e8804 gcc 7 kono parents: diff changeset	1638 nvptx_wait_all (void)
04ced10e8804 gcc 7 kono parents: diff changeset	1639 {
04ced10e8804 gcc 7 kono parents: diff changeset	1640 CUresult r;
04ced10e8804 gcc 7 kono parents: diff changeset	1641 struct ptx_stream *s;
04ced10e8804 gcc 7 kono parents: diff changeset	1642 pthread_t self = pthread_self ();
04ced10e8804 gcc 7 kono parents: diff changeset	1643 struct nvptx_thread *nvthd = nvptx_thread ();
04ced10e8804 gcc 7 kono parents: diff changeset	1644
04ced10e8804 gcc 7 kono parents: diff changeset	1645 pthread_mutex_lock (&nvthd->ptx_dev->stream_lock);
04ced10e8804 gcc 7 kono parents: diff changeset	1646
04ced10e8804 gcc 7 kono parents: diff changeset	1647 /* Wait for active streams initiated by this thread (or by multiple threads)
04ced10e8804 gcc 7 kono parents: diff changeset	1648 to complete. */
04ced10e8804 gcc 7 kono parents: diff changeset	1649 for (s = nvthd->ptx_dev->active_streams; s != NULL; s = s->next)
04ced10e8804 gcc 7 kono parents: diff changeset	1650 {
04ced10e8804 gcc 7 kono parents: diff changeset	1651 if (s->multithreaded \|\| pthread_equal (s->host_thread, self))
04ced10e8804 gcc 7 kono parents: diff changeset	1652 {
04ced10e8804 gcc 7 kono parents: diff changeset	1653 r = CUDA_CALL_NOCHECK (cuStreamQuery, s->stream);
04ced10e8804 gcc 7 kono parents: diff changeset	1654 if (r == CUDA_SUCCESS)
04ced10e8804 gcc 7 kono parents: diff changeset	1655 continue;
04ced10e8804 gcc 7 kono parents: diff changeset	1656 else if (r != CUDA_ERROR_NOT_READY)
04ced10e8804 gcc 7 kono parents: diff changeset	1657 GOMP_PLUGIN_fatal ("cuStreamQuery error: %s", cuda_error (r));
04ced10e8804 gcc 7 kono parents: diff changeset	1658
04ced10e8804 gcc 7 kono parents: diff changeset	1659 CUDA_CALL_ASSERT (cuStreamSynchronize, s->stream);
04ced10e8804 gcc 7 kono parents: diff changeset	1660 }
04ced10e8804 gcc 7 kono parents: diff changeset	1661 }
04ced10e8804 gcc 7 kono parents: diff changeset	1662
04ced10e8804 gcc 7 kono parents: diff changeset	1663 pthread_mutex_unlock (&nvthd->ptx_dev->stream_lock);
04ced10e8804 gcc 7 kono parents: diff changeset	1664
04ced10e8804 gcc 7 kono parents: diff changeset	1665 event_gc (true);
04ced10e8804 gcc 7 kono parents: diff changeset	1666 }
04ced10e8804 gcc 7 kono parents: diff changeset	1667
04ced10e8804 gcc 7 kono parents: diff changeset	1668 static void
04ced10e8804 gcc 7 kono parents: diff changeset	1669 nvptx_wait_all_async (int async)
04ced10e8804 gcc 7 kono parents: diff changeset	1670 {
04ced10e8804 gcc 7 kono parents: diff changeset	1671 struct ptx_stream waiting_stream, other_stream;
04ced10e8804 gcc 7 kono parents: diff changeset	1672 CUevent *e;
04ced10e8804 gcc 7 kono parents: diff changeset	1673 struct nvptx_thread *nvthd = nvptx_thread ();
04ced10e8804 gcc 7 kono parents: diff changeset	1674 pthread_t self = pthread_self ();
04ced10e8804 gcc 7 kono parents: diff changeset	1675
04ced10e8804 gcc 7 kono parents: diff changeset	1676 /* The stream doing the waiting. This could be the first mention of the
04ced10e8804 gcc 7 kono parents: diff changeset	1677 stream, so create it if necessary. */
04ced10e8804 gcc 7 kono parents: diff changeset	1678 waiting_stream
04ced10e8804 gcc 7 kono parents: diff changeset	1679 = select_stream_for_async (async, pthread_self (), true, NULL);
04ced10e8804 gcc 7 kono parents: diff changeset	1680
04ced10e8804 gcc 7 kono parents: diff changeset	1681 /* Launches on the null stream already block on other streams in the
04ced10e8804 gcc 7 kono parents: diff changeset	1682 context. */
04ced10e8804 gcc 7 kono parents: diff changeset	1683 if (!waiting_stream \|\| waiting_stream == nvthd->ptx_dev->null_stream)
04ced10e8804 gcc 7 kono parents: diff changeset	1684 return;
04ced10e8804 gcc 7 kono parents: diff changeset	1685
04ced10e8804 gcc 7 kono parents: diff changeset	1686 event_gc (true);
04ced10e8804 gcc 7 kono parents: diff changeset	1687
04ced10e8804 gcc 7 kono parents: diff changeset	1688 pthread_mutex_lock (&nvthd->ptx_dev->stream_lock);
04ced10e8804 gcc 7 kono parents: diff changeset	1689
04ced10e8804 gcc 7 kono parents: diff changeset	1690 for (other_stream = nvthd->ptx_dev->active_streams;
04ced10e8804 gcc 7 kono parents: diff changeset	1691 other_stream != NULL;
04ced10e8804 gcc 7 kono parents: diff changeset	1692 other_stream = other_stream->next)
04ced10e8804 gcc 7 kono parents: diff changeset	1693 {
04ced10e8804 gcc 7 kono parents: diff changeset	1694 if (!other_stream->multithreaded
04ced10e8804 gcc 7 kono parents: diff changeset	1695 && !pthread_equal (other_stream->host_thread, self))
04ced10e8804 gcc 7 kono parents: diff changeset	1696 continue;
04ced10e8804 gcc 7 kono parents: diff changeset	1697
04ced10e8804 gcc 7 kono parents: diff changeset	1698 e = (CUevent *) GOMP_PLUGIN_malloc (sizeof (CUevent));
04ced10e8804 gcc 7 kono parents: diff changeset	1699
04ced10e8804 gcc 7 kono parents: diff changeset	1700 CUDA_CALL_ASSERT (cuEventCreate, e, CU_EVENT_DISABLE_TIMING);
04ced10e8804 gcc 7 kono parents: diff changeset	1701
04ced10e8804 gcc 7 kono parents: diff changeset	1702 /* Record an event on the waited-for stream. */
04ced10e8804 gcc 7 kono parents: diff changeset	1703 CUDA_CALL_ASSERT (cuEventRecord, *e, other_stream->stream);
04ced10e8804 gcc 7 kono parents: diff changeset	1704
04ced10e8804 gcc 7 kono parents: diff changeset	1705 event_add (PTX_EVT_SYNC, e, NULL, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	1706
04ced10e8804 gcc 7 kono parents: diff changeset	1707 CUDA_CALL_ASSERT (cuStreamWaitEvent, waiting_stream->stream, *e, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	1708 }
04ced10e8804 gcc 7 kono parents: diff changeset	1709
04ced10e8804 gcc 7 kono parents: diff changeset	1710 pthread_mutex_unlock (&nvthd->ptx_dev->stream_lock);
04ced10e8804 gcc 7 kono parents: diff changeset	1711 }
04ced10e8804 gcc 7 kono parents: diff changeset	1712
04ced10e8804 gcc 7 kono parents: diff changeset	1713 static void *
04ced10e8804 gcc 7 kono parents: diff changeset	1714 nvptx_get_current_cuda_device (void)
04ced10e8804 gcc 7 kono parents: diff changeset	1715 {
04ced10e8804 gcc 7 kono parents: diff changeset	1716 struct nvptx_thread *nvthd = nvptx_thread ();
04ced10e8804 gcc 7 kono parents: diff changeset	1717
04ced10e8804 gcc 7 kono parents: diff changeset	1718 if (!nvthd \|\| !nvthd->ptx_dev)
04ced10e8804 gcc 7 kono parents: diff changeset	1719 return NULL;
04ced10e8804 gcc 7 kono parents: diff changeset	1720
04ced10e8804 gcc 7 kono parents: diff changeset	1721 return &nvthd->ptx_dev->dev;
04ced10e8804 gcc 7 kono parents: diff changeset	1722 }
04ced10e8804 gcc 7 kono parents: diff changeset	1723
04ced10e8804 gcc 7 kono parents: diff changeset	1724 static void *
04ced10e8804 gcc 7 kono parents: diff changeset	1725 nvptx_get_current_cuda_context (void)
04ced10e8804 gcc 7 kono parents: diff changeset	1726 {
04ced10e8804 gcc 7 kono parents: diff changeset	1727 struct nvptx_thread *nvthd = nvptx_thread ();
04ced10e8804 gcc 7 kono parents: diff changeset	1728
04ced10e8804 gcc 7 kono parents: diff changeset	1729 if (!nvthd \|\| !nvthd->ptx_dev)
04ced10e8804 gcc 7 kono parents: diff changeset	1730 return NULL;
04ced10e8804 gcc 7 kono parents: diff changeset	1731
04ced10e8804 gcc 7 kono parents: diff changeset	1732 return nvthd->ptx_dev->ctx;
04ced10e8804 gcc 7 kono parents: diff changeset	1733 }
04ced10e8804 gcc 7 kono parents: diff changeset	1734
04ced10e8804 gcc 7 kono parents: diff changeset	1735 static void *
04ced10e8804 gcc 7 kono parents: diff changeset	1736 nvptx_get_cuda_stream (int async)
04ced10e8804 gcc 7 kono parents: diff changeset	1737 {
04ced10e8804 gcc 7 kono parents: diff changeset	1738 struct ptx_stream *s;
04ced10e8804 gcc 7 kono parents: diff changeset	1739 struct nvptx_thread *nvthd = nvptx_thread ();
04ced10e8804 gcc 7 kono parents: diff changeset	1740
04ced10e8804 gcc 7 kono parents: diff changeset	1741 if (!nvthd \|\| !nvthd->ptx_dev)
04ced10e8804 gcc 7 kono parents: diff changeset	1742 return NULL;
04ced10e8804 gcc 7 kono parents: diff changeset	1743
04ced10e8804 gcc 7 kono parents: diff changeset	1744 s = select_stream_for_async (async, pthread_self (), false, NULL);
04ced10e8804 gcc 7 kono parents: diff changeset	1745
04ced10e8804 gcc 7 kono parents: diff changeset	1746 return s ? s->stream : NULL;
04ced10e8804 gcc 7 kono parents: diff changeset	1747 }
04ced10e8804 gcc 7 kono parents: diff changeset	1748
04ced10e8804 gcc 7 kono parents: diff changeset	1749 static int
04ced10e8804 gcc 7 kono parents: diff changeset	1750 nvptx_set_cuda_stream (int async, void *stream)
04ced10e8804 gcc 7 kono parents: diff changeset	1751 {
04ced10e8804 gcc 7 kono parents: diff changeset	1752 struct ptx_stream *oldstream;
04ced10e8804 gcc 7 kono parents: diff changeset	1753 pthread_t self = pthread_self ();
04ced10e8804 gcc 7 kono parents: diff changeset	1754 struct nvptx_thread *nvthd = nvptx_thread ();
04ced10e8804 gcc 7 kono parents: diff changeset	1755
04ced10e8804 gcc 7 kono parents: diff changeset	1756 if (async < 0)
04ced10e8804 gcc 7 kono parents: diff changeset	1757 GOMP_PLUGIN_fatal ("bad async %d", async);
04ced10e8804 gcc 7 kono parents: diff changeset	1758
04ced10e8804 gcc 7 kono parents: diff changeset	1759 pthread_mutex_lock (&nvthd->ptx_dev->stream_lock);
04ced10e8804 gcc 7 kono parents: diff changeset	1760
04ced10e8804 gcc 7 kono parents: diff changeset	1761 /* We have a list of active streams and an array mapping async values to
04ced10e8804 gcc 7 kono parents: diff changeset	1762 entries of that list. We need to take "ownership" of the passed-in stream,
04ced10e8804 gcc 7 kono parents: diff changeset	1763 and add it to our list, removing the previous entry also (if there was one)
04ced10e8804 gcc 7 kono parents: diff changeset	1764 in order to prevent resource leaks. Note the potential for surprise
04ced10e8804 gcc 7 kono parents: diff changeset	1765 here: maybe we should keep track of passed-in streams and leave it up to
04ced10e8804 gcc 7 kono parents: diff changeset	1766 the user to tidy those up, but that doesn't work for stream handles
04ced10e8804 gcc 7 kono parents: diff changeset	1767 returned from acc_get_cuda_stream above... */
04ced10e8804 gcc 7 kono parents: diff changeset	1768
04ced10e8804 gcc 7 kono parents: diff changeset	1769 oldstream = select_stream_for_async (async, self, false, NULL);
04ced10e8804 gcc 7 kono parents: diff changeset	1770
04ced10e8804 gcc 7 kono parents: diff changeset	1771 if (oldstream)
04ced10e8804 gcc 7 kono parents: diff changeset	1772 {
04ced10e8804 gcc 7 kono parents: diff changeset	1773 if (nvthd->ptx_dev->active_streams == oldstream)
04ced10e8804 gcc 7 kono parents: diff changeset	1774 nvthd->ptx_dev->active_streams = nvthd->ptx_dev->active_streams->next;
04ced10e8804 gcc 7 kono parents: diff changeset	1775 else
04ced10e8804 gcc 7 kono parents: diff changeset	1776 {
04ced10e8804 gcc 7 kono parents: diff changeset	1777 struct ptx_stream *s = nvthd->ptx_dev->active_streams;
04ced10e8804 gcc 7 kono parents: diff changeset	1778 while (s->next != oldstream)
04ced10e8804 gcc 7 kono parents: diff changeset	1779 s = s->next;
04ced10e8804 gcc 7 kono parents: diff changeset	1780 s->next = s->next->next;
04ced10e8804 gcc 7 kono parents: diff changeset	1781 }
04ced10e8804 gcc 7 kono parents: diff changeset	1782
04ced10e8804 gcc 7 kono parents: diff changeset	1783 CUDA_CALL_ASSERT (cuStreamDestroy, oldstream->stream);
04ced10e8804 gcc 7 kono parents: diff changeset	1784
04ced10e8804 gcc 7 kono parents: diff changeset	1785 if (!map_fini (oldstream))
04ced10e8804 gcc 7 kono parents: diff changeset	1786 GOMP_PLUGIN_fatal ("error when freeing host memory");
04ced10e8804 gcc 7 kono parents: diff changeset	1787
04ced10e8804 gcc 7 kono parents: diff changeset	1788 free (oldstream);
04ced10e8804 gcc 7 kono parents: diff changeset	1789 }
04ced10e8804 gcc 7 kono parents: diff changeset	1790
04ced10e8804 gcc 7 kono parents: diff changeset	1791 pthread_mutex_unlock (&nvthd->ptx_dev->stream_lock);
04ced10e8804 gcc 7 kono parents: diff changeset	1792
04ced10e8804 gcc 7 kono parents: diff changeset	1793 (void) select_stream_for_async (async, self, true, (CUstream) stream);
04ced10e8804 gcc 7 kono parents: diff changeset	1794
04ced10e8804 gcc 7 kono parents: diff changeset	1795 return 1;
04ced10e8804 gcc 7 kono parents: diff changeset	1796 }
04ced10e8804 gcc 7 kono parents: diff changeset	1797
04ced10e8804 gcc 7 kono parents: diff changeset	1798 /* Plugin entry points. */
04ced10e8804 gcc 7 kono parents: diff changeset	1799
04ced10e8804 gcc 7 kono parents: diff changeset	1800 const char *
04ced10e8804 gcc 7 kono parents: diff changeset	1801 GOMP_OFFLOAD_get_name (void)
04ced10e8804 gcc 7 kono parents: diff changeset	1802 {
04ced10e8804 gcc 7 kono parents: diff changeset	1803 return "nvptx";
04ced10e8804 gcc 7 kono parents: diff changeset	1804 }
04ced10e8804 gcc 7 kono parents: diff changeset	1805
04ced10e8804 gcc 7 kono parents: diff changeset	1806 unsigned int
04ced10e8804 gcc 7 kono parents: diff changeset	1807 GOMP_OFFLOAD_get_caps (void)
04ced10e8804 gcc 7 kono parents: diff changeset	1808 {
04ced10e8804 gcc 7 kono parents: diff changeset	1809 return GOMP_OFFLOAD_CAP_OPENACC_200 \| GOMP_OFFLOAD_CAP_OPENMP_400;
04ced10e8804 gcc 7 kono parents: diff changeset	1810 }
04ced10e8804 gcc 7 kono parents: diff changeset	1811
04ced10e8804 gcc 7 kono parents: diff changeset	1812 int
04ced10e8804 gcc 7 kono parents: diff changeset	1813 GOMP_OFFLOAD_get_type (void)
04ced10e8804 gcc 7 kono parents: diff changeset	1814 {
04ced10e8804 gcc 7 kono parents: diff changeset	1815 return OFFLOAD_TARGET_TYPE_NVIDIA_PTX;
04ced10e8804 gcc 7 kono parents: diff changeset	1816 }
04ced10e8804 gcc 7 kono parents: diff changeset	1817
04ced10e8804 gcc 7 kono parents: diff changeset	1818 int
04ced10e8804 gcc 7 kono parents: diff changeset	1819 GOMP_OFFLOAD_get_num_devices (void)
04ced10e8804 gcc 7 kono parents: diff changeset	1820 {
04ced10e8804 gcc 7 kono parents: diff changeset	1821 return nvptx_get_num_devices ();
04ced10e8804 gcc 7 kono parents: diff changeset	1822 }
04ced10e8804 gcc 7 kono parents: diff changeset	1823
04ced10e8804 gcc 7 kono parents: diff changeset	1824 bool
04ced10e8804 gcc 7 kono parents: diff changeset	1825 GOMP_OFFLOAD_init_device (int n)
04ced10e8804 gcc 7 kono parents: diff changeset	1826 {
04ced10e8804 gcc 7 kono parents: diff changeset	1827 struct ptx_device *dev;
04ced10e8804 gcc 7 kono parents: diff changeset	1828
04ced10e8804 gcc 7 kono parents: diff changeset	1829 pthread_mutex_lock (&ptx_dev_lock);
04ced10e8804 gcc 7 kono parents: diff changeset	1830
04ced10e8804 gcc 7 kono parents: diff changeset	1831 if (!nvptx_init () \|\| ptx_devices[n] != NULL)
04ced10e8804 gcc 7 kono parents: diff changeset	1832 {
04ced10e8804 gcc 7 kono parents: diff changeset	1833 pthread_mutex_unlock (&ptx_dev_lock);
04ced10e8804 gcc 7 kono parents: diff changeset	1834 return false;
04ced10e8804 gcc 7 kono parents: diff changeset	1835 }
04ced10e8804 gcc 7 kono parents: diff changeset	1836
04ced10e8804 gcc 7 kono parents: diff changeset	1837 dev = nvptx_open_device (n);
04ced10e8804 gcc 7 kono parents: diff changeset	1838 if (dev)
04ced10e8804 gcc 7 kono parents: diff changeset	1839 {
04ced10e8804 gcc 7 kono parents: diff changeset	1840 ptx_devices[n] = dev;
04ced10e8804 gcc 7 kono parents: diff changeset	1841 instantiated_devices++;
04ced10e8804 gcc 7 kono parents: diff changeset	1842 }
04ced10e8804 gcc 7 kono parents: diff changeset	1843
04ced10e8804 gcc 7 kono parents: diff changeset	1844 pthread_mutex_unlock (&ptx_dev_lock);
04ced10e8804 gcc 7 kono parents: diff changeset	1845
04ced10e8804 gcc 7 kono parents: diff changeset	1846 return dev != NULL;
04ced10e8804 gcc 7 kono parents: diff changeset	1847 }
04ced10e8804 gcc 7 kono parents: diff changeset	1848
04ced10e8804 gcc 7 kono parents: diff changeset	1849 bool
04ced10e8804 gcc 7 kono parents: diff changeset	1850 GOMP_OFFLOAD_fini_device (int n)
04ced10e8804 gcc 7 kono parents: diff changeset	1851 {
04ced10e8804 gcc 7 kono parents: diff changeset	1852 pthread_mutex_lock (&ptx_dev_lock);
04ced10e8804 gcc 7 kono parents: diff changeset	1853
04ced10e8804 gcc 7 kono parents: diff changeset	1854 if (ptx_devices[n] != NULL)
04ced10e8804 gcc 7 kono parents: diff changeset	1855 {
04ced10e8804 gcc 7 kono parents: diff changeset	1856 if (!nvptx_attach_host_thread_to_device (n)
04ced10e8804 gcc 7 kono parents: diff changeset	1857 \|\| !nvptx_close_device (ptx_devices[n]))
04ced10e8804 gcc 7 kono parents: diff changeset	1858 {
04ced10e8804 gcc 7 kono parents: diff changeset	1859 pthread_mutex_unlock (&ptx_dev_lock);
04ced10e8804 gcc 7 kono parents: diff changeset	1860 return false;
04ced10e8804 gcc 7 kono parents: diff changeset	1861 }
04ced10e8804 gcc 7 kono parents: diff changeset	1862 ptx_devices[n] = NULL;
04ced10e8804 gcc 7 kono parents: diff changeset	1863 instantiated_devices--;
04ced10e8804 gcc 7 kono parents: diff changeset	1864 }
04ced10e8804 gcc 7 kono parents: diff changeset	1865
04ced10e8804 gcc 7 kono parents: diff changeset	1866 pthread_mutex_unlock (&ptx_dev_lock);
04ced10e8804 gcc 7 kono parents: diff changeset	1867 return true;
04ced10e8804 gcc 7 kono parents: diff changeset	1868 }
04ced10e8804 gcc 7 kono parents: diff changeset	1869
04ced10e8804 gcc 7 kono parents: diff changeset	1870 /* Return the libgomp version number we're compatible with. There is
04ced10e8804 gcc 7 kono parents: diff changeset	1871 no requirement for cross-version compatibility. */
04ced10e8804 gcc 7 kono parents: diff changeset	1872
04ced10e8804 gcc 7 kono parents: diff changeset	1873 unsigned
04ced10e8804 gcc 7 kono parents: diff changeset	1874 GOMP_OFFLOAD_version (void)
04ced10e8804 gcc 7 kono parents: diff changeset	1875 {
04ced10e8804 gcc 7 kono parents: diff changeset	1876 return GOMP_VERSION;
04ced10e8804 gcc 7 kono parents: diff changeset	1877 }
04ced10e8804 gcc 7 kono parents: diff changeset	1878
04ced10e8804 gcc 7 kono parents: diff changeset	1879 /* Initialize __nvptx_clocktick, if present in MODULE. */
04ced10e8804 gcc 7 kono parents: diff changeset	1880
04ced10e8804 gcc 7 kono parents: diff changeset	1881 static void
04ced10e8804 gcc 7 kono parents: diff changeset	1882 nvptx_set_clocktick (CUmodule module, struct ptx_device *dev)
04ced10e8804 gcc 7 kono parents: diff changeset	1883 {
04ced10e8804 gcc 7 kono parents: diff changeset	1884 CUdeviceptr dptr;
04ced10e8804 gcc 7 kono parents: diff changeset	1885 CUresult r = CUDA_CALL_NOCHECK (cuModuleGetGlobal, &dptr, NULL,
04ced10e8804 gcc 7 kono parents: diff changeset	1886 module, "__nvptx_clocktick");
04ced10e8804 gcc 7 kono parents: diff changeset	1887 if (r == CUDA_ERROR_NOT_FOUND)
04ced10e8804 gcc 7 kono parents: diff changeset	1888 return;
04ced10e8804 gcc 7 kono parents: diff changeset	1889 if (r != CUDA_SUCCESS)
04ced10e8804 gcc 7 kono parents: diff changeset	1890 GOMP_PLUGIN_fatal ("cuModuleGetGlobal error: %s", cuda_error (r));
04ced10e8804 gcc 7 kono parents: diff changeset	1891 double __nvptx_clocktick = 1e-3 / dev->clock_khz;
04ced10e8804 gcc 7 kono parents: diff changeset	1892 r = CUDA_CALL_NOCHECK (cuMemcpyHtoD, dptr, &__nvptx_clocktick,
04ced10e8804 gcc 7 kono parents: diff changeset	1893 sizeof (__nvptx_clocktick));
04ced10e8804 gcc 7 kono parents: diff changeset	1894 if (r != CUDA_SUCCESS)
04ced10e8804 gcc 7 kono parents: diff changeset	1895 GOMP_PLUGIN_fatal ("cuMemcpyHtoD error: %s", cuda_error (r));
04ced10e8804 gcc 7 kono parents: diff changeset	1896 }
04ced10e8804 gcc 7 kono parents: diff changeset	1897
04ced10e8804 gcc 7 kono parents: diff changeset	1898 /* Load the (partial) program described by TARGET_DATA to device
04ced10e8804 gcc 7 kono parents: diff changeset	1899 number ORD. Allocate and return TARGET_TABLE. */
04ced10e8804 gcc 7 kono parents: diff changeset	1900
04ced10e8804 gcc 7 kono parents: diff changeset	1901 int
04ced10e8804 gcc 7 kono parents: diff changeset	1902 GOMP_OFFLOAD_load_image (int ord, unsigned version, const void *target_data,
04ced10e8804 gcc 7 kono parents: diff changeset	1903 struct addr_pair **target_table)
04ced10e8804 gcc 7 kono parents: diff changeset	1904 {
04ced10e8804 gcc 7 kono parents: diff changeset	1905 CUmodule module;
04ced10e8804 gcc 7 kono parents: diff changeset	1906 const char const var_names;
04ced10e8804 gcc 7 kono parents: diff changeset	1907 const struct targ_fn_launch *fn_descs;
04ced10e8804 gcc 7 kono parents: diff changeset	1908 unsigned int fn_entries, var_entries, i, j;
04ced10e8804 gcc 7 kono parents: diff changeset	1909 struct targ_fn_descriptor *targ_fns;
04ced10e8804 gcc 7 kono parents: diff changeset	1910 struct addr_pair *targ_tbl;
04ced10e8804 gcc 7 kono parents: diff changeset	1911 const nvptx_tdata_t img_header = (const nvptx_tdata_t ) target_data;
04ced10e8804 gcc 7 kono parents: diff changeset	1912 struct ptx_image_data *new_image;
04ced10e8804 gcc 7 kono parents: diff changeset	1913 struct ptx_device *dev;
04ced10e8804 gcc 7 kono parents: diff changeset	1914
04ced10e8804 gcc 7 kono parents: diff changeset	1915 if (GOMP_VERSION_DEV (version) > GOMP_VERSION_NVIDIA_PTX)
04ced10e8804 gcc 7 kono parents: diff changeset	1916 {
04ced10e8804 gcc 7 kono parents: diff changeset	1917 GOMP_PLUGIN_error ("Offload data incompatible with PTX plugin"
04ced10e8804 gcc 7 kono parents: diff changeset	1918 " (expected %u, received %u)",
04ced10e8804 gcc 7 kono parents: diff changeset	1919 GOMP_VERSION_NVIDIA_PTX, GOMP_VERSION_DEV (version));
04ced10e8804 gcc 7 kono parents: diff changeset	1920 return -1;
04ced10e8804 gcc 7 kono parents: diff changeset	1921 }
04ced10e8804 gcc 7 kono parents: diff changeset	1922
04ced10e8804 gcc 7 kono parents: diff changeset	1923 if (!nvptx_attach_host_thread_to_device (ord)
04ced10e8804 gcc 7 kono parents: diff changeset	1924 \|\| !link_ptx (&module, img_header->ptx_objs, img_header->ptx_num))
04ced10e8804 gcc 7 kono parents: diff changeset	1925 return -1;
04ced10e8804 gcc 7 kono parents: diff changeset	1926
04ced10e8804 gcc 7 kono parents: diff changeset	1927 dev = ptx_devices[ord];
04ced10e8804 gcc 7 kono parents: diff changeset	1928
04ced10e8804 gcc 7 kono parents: diff changeset	1929 /* The mkoffload utility emits a struct of pointers/integers at the
04ced10e8804 gcc 7 kono parents: diff changeset	1930 start of each offload image. The array of kernel names and the
04ced10e8804 gcc 7 kono parents: diff changeset	1931 functions addresses form a one-to-one correspondence. */
04ced10e8804 gcc 7 kono parents: diff changeset	1932
04ced10e8804 gcc 7 kono parents: diff changeset	1933 var_entries = img_header->var_num;
04ced10e8804 gcc 7 kono parents: diff changeset	1934 var_names = img_header->var_names;
04ced10e8804 gcc 7 kono parents: diff changeset	1935 fn_entries = img_header->fn_num;
04ced10e8804 gcc 7 kono parents: diff changeset	1936 fn_descs = img_header->fn_descs;
04ced10e8804 gcc 7 kono parents: diff changeset	1937
04ced10e8804 gcc 7 kono parents: diff changeset	1938 targ_tbl = GOMP_PLUGIN_malloc (sizeof (struct addr_pair)
04ced10e8804 gcc 7 kono parents: diff changeset	1939 * (fn_entries + var_entries));
04ced10e8804 gcc 7 kono parents: diff changeset	1940 targ_fns = GOMP_PLUGIN_malloc (sizeof (struct targ_fn_descriptor)
04ced10e8804 gcc 7 kono parents: diff changeset	1941 * fn_entries);
04ced10e8804 gcc 7 kono parents: diff changeset	1942
04ced10e8804 gcc 7 kono parents: diff changeset	1943 *target_table = targ_tbl;
04ced10e8804 gcc 7 kono parents: diff changeset	1944
04ced10e8804 gcc 7 kono parents: diff changeset	1945 new_image = GOMP_PLUGIN_malloc (sizeof (struct ptx_image_data));
04ced10e8804 gcc 7 kono parents: diff changeset	1946 new_image->target_data = target_data;
04ced10e8804 gcc 7 kono parents: diff changeset	1947 new_image->module = module;
04ced10e8804 gcc 7 kono parents: diff changeset	1948 new_image->fns = targ_fns;
04ced10e8804 gcc 7 kono parents: diff changeset	1949
04ced10e8804 gcc 7 kono parents: diff changeset	1950 pthread_mutex_lock (&dev->image_lock);
04ced10e8804 gcc 7 kono parents: diff changeset	1951 new_image->next = dev->images;
04ced10e8804 gcc 7 kono parents: diff changeset	1952 dev->images = new_image;
04ced10e8804 gcc 7 kono parents: diff changeset	1953 pthread_mutex_unlock (&dev->image_lock);
04ced10e8804 gcc 7 kono parents: diff changeset	1954
04ced10e8804 gcc 7 kono parents: diff changeset	1955 for (i = 0; i < fn_entries; i++, targ_fns++, targ_tbl++)
04ced10e8804 gcc 7 kono parents: diff changeset	1956 {
04ced10e8804 gcc 7 kono parents: diff changeset	1957 CUfunction function;
04ced10e8804 gcc 7 kono parents: diff changeset	1958 int nregs, mthrs;
04ced10e8804 gcc 7 kono parents: diff changeset	1959
04ced10e8804 gcc 7 kono parents: diff changeset	1960 CUDA_CALL_ERET (-1, cuModuleGetFunction, &function, module,
04ced10e8804 gcc 7 kono parents: diff changeset	1961 fn_descs[i].fn);
04ced10e8804 gcc 7 kono parents: diff changeset	1962 CUDA_CALL_ERET (-1, cuFuncGetAttribute, &nregs,
04ced10e8804 gcc 7 kono parents: diff changeset	1963 CU_FUNC_ATTRIBUTE_NUM_REGS, function);
04ced10e8804 gcc 7 kono parents: diff changeset	1964 CUDA_CALL_ERET (-1, cuFuncGetAttribute, &mthrs,
04ced10e8804 gcc 7 kono parents: diff changeset	1965 CU_FUNC_ATTRIBUTE_MAX_THREADS_PER_BLOCK, function);
04ced10e8804 gcc 7 kono parents: diff changeset	1966
04ced10e8804 gcc 7 kono parents: diff changeset	1967 targ_fns->fn = function;
04ced10e8804 gcc 7 kono parents: diff changeset	1968 targ_fns->launch = &fn_descs[i];
04ced10e8804 gcc 7 kono parents: diff changeset	1969 targ_fns->regs_per_thread = nregs;
04ced10e8804 gcc 7 kono parents: diff changeset	1970 targ_fns->max_threads_per_block = mthrs;
04ced10e8804 gcc 7 kono parents: diff changeset	1971
04ced10e8804 gcc 7 kono parents: diff changeset	1972 targ_tbl->start = (uintptr_t) targ_fns;
04ced10e8804 gcc 7 kono parents: diff changeset	1973 targ_tbl->end = targ_tbl->start + 1;
04ced10e8804 gcc 7 kono parents: diff changeset	1974 }
04ced10e8804 gcc 7 kono parents: diff changeset	1975
04ced10e8804 gcc 7 kono parents: diff changeset	1976 for (j = 0; j < var_entries; j++, targ_tbl++)
04ced10e8804 gcc 7 kono parents: diff changeset	1977 {
04ced10e8804 gcc 7 kono parents: diff changeset	1978 CUdeviceptr var;
04ced10e8804 gcc 7 kono parents: diff changeset	1979 size_t bytes;
04ced10e8804 gcc 7 kono parents: diff changeset	1980
04ced10e8804 gcc 7 kono parents: diff changeset	1981 CUDA_CALL_ERET (-1, cuModuleGetGlobal,
04ced10e8804 gcc 7 kono parents: diff changeset	1982 &var, &bytes, module, var_names[j]);
04ced10e8804 gcc 7 kono parents: diff changeset	1983
04ced10e8804 gcc 7 kono parents: diff changeset	1984 targ_tbl->start = (uintptr_t) var;
04ced10e8804 gcc 7 kono parents: diff changeset	1985 targ_tbl->end = targ_tbl->start + bytes;
04ced10e8804 gcc 7 kono parents: diff changeset	1986 }
04ced10e8804 gcc 7 kono parents: diff changeset	1987
04ced10e8804 gcc 7 kono parents: diff changeset	1988 nvptx_set_clocktick (module, dev);
04ced10e8804 gcc 7 kono parents: diff changeset	1989
04ced10e8804 gcc 7 kono parents: diff changeset	1990 return fn_entries + var_entries;
04ced10e8804 gcc 7 kono parents: diff changeset	1991 }
04ced10e8804 gcc 7 kono parents: diff changeset	1992
04ced10e8804 gcc 7 kono parents: diff changeset	1993 /* Unload the program described by TARGET_DATA. DEV_DATA is the
04ced10e8804 gcc 7 kono parents: diff changeset	1994 function descriptors allocated by G_O_load_image. */
04ced10e8804 gcc 7 kono parents: diff changeset	1995
04ced10e8804 gcc 7 kono parents: diff changeset	1996 bool
04ced10e8804 gcc 7 kono parents: diff changeset	1997 GOMP_OFFLOAD_unload_image (int ord, unsigned version, const void *target_data)
04ced10e8804 gcc 7 kono parents: diff changeset	1998 {
04ced10e8804 gcc 7 kono parents: diff changeset	1999 struct ptx_image_data image, *prev_p;
04ced10e8804 gcc 7 kono parents: diff changeset	2000 struct ptx_device *dev = ptx_devices[ord];
04ced10e8804 gcc 7 kono parents: diff changeset	2001
04ced10e8804 gcc 7 kono parents: diff changeset	2002 if (GOMP_VERSION_DEV (version) > GOMP_VERSION_NVIDIA_PTX)
04ced10e8804 gcc 7 kono parents: diff changeset	2003 {
04ced10e8804 gcc 7 kono parents: diff changeset	2004 GOMP_PLUGIN_error ("Offload data incompatible with PTX plugin"
04ced10e8804 gcc 7 kono parents: diff changeset	2005 " (expected %u, received %u)",
04ced10e8804 gcc 7 kono parents: diff changeset	2006 GOMP_VERSION_NVIDIA_PTX, GOMP_VERSION_DEV (version));
04ced10e8804 gcc 7 kono parents: diff changeset	2007 return false;
04ced10e8804 gcc 7 kono parents: diff changeset	2008 }
04ced10e8804 gcc 7 kono parents: diff changeset	2009
04ced10e8804 gcc 7 kono parents: diff changeset	2010 bool ret = true;
04ced10e8804 gcc 7 kono parents: diff changeset	2011 pthread_mutex_lock (&dev->image_lock);
04ced10e8804 gcc 7 kono parents: diff changeset	2012 for (prev_p = &dev->images; (image = *prev_p) != 0; prev_p = &image->next)
04ced10e8804 gcc 7 kono parents: diff changeset	2013 if (image->target_data == target_data)
04ced10e8804 gcc 7 kono parents: diff changeset	2014 {
04ced10e8804 gcc 7 kono parents: diff changeset	2015 *prev_p = image->next;
04ced10e8804 gcc 7 kono parents: diff changeset	2016 if (CUDA_CALL_NOCHECK (cuModuleUnload, image->module) != CUDA_SUCCESS)
04ced10e8804 gcc 7 kono parents: diff changeset	2017 ret = false;
04ced10e8804 gcc 7 kono parents: diff changeset	2018 free (image->fns);
04ced10e8804 gcc 7 kono parents: diff changeset	2019 free (image);
04ced10e8804 gcc 7 kono parents: diff changeset	2020 break;
04ced10e8804 gcc 7 kono parents: diff changeset	2021 }
04ced10e8804 gcc 7 kono parents: diff changeset	2022 pthread_mutex_unlock (&dev->image_lock);
04ced10e8804 gcc 7 kono parents: diff changeset	2023 return ret;
04ced10e8804 gcc 7 kono parents: diff changeset	2024 }
04ced10e8804 gcc 7 kono parents: diff changeset	2025
04ced10e8804 gcc 7 kono parents: diff changeset	2026 void *
04ced10e8804 gcc 7 kono parents: diff changeset	2027 GOMP_OFFLOAD_alloc (int ord, size_t size)
04ced10e8804 gcc 7 kono parents: diff changeset	2028 {
04ced10e8804 gcc 7 kono parents: diff changeset	2029 if (!nvptx_attach_host_thread_to_device (ord))
04ced10e8804 gcc 7 kono parents: diff changeset	2030 return NULL;
04ced10e8804 gcc 7 kono parents: diff changeset	2031 return nvptx_alloc (size);
04ced10e8804 gcc 7 kono parents: diff changeset	2032 }
04ced10e8804 gcc 7 kono parents: diff changeset	2033
04ced10e8804 gcc 7 kono parents: diff changeset	2034 bool
04ced10e8804 gcc 7 kono parents: diff changeset	2035 GOMP_OFFLOAD_free (int ord, void *ptr)
04ced10e8804 gcc 7 kono parents: diff changeset	2036 {
04ced10e8804 gcc 7 kono parents: diff changeset	2037 return (nvptx_attach_host_thread_to_device (ord)
04ced10e8804 gcc 7 kono parents: diff changeset	2038 && nvptx_free (ptr));
04ced10e8804 gcc 7 kono parents: diff changeset	2039 }
04ced10e8804 gcc 7 kono parents: diff changeset	2040
04ced10e8804 gcc 7 kono parents: diff changeset	2041 bool
04ced10e8804 gcc 7 kono parents: diff changeset	2042 GOMP_OFFLOAD_dev2host (int ord, void dst, const void src, size_t n)
04ced10e8804 gcc 7 kono parents: diff changeset	2043 {
04ced10e8804 gcc 7 kono parents: diff changeset	2044 return (nvptx_attach_host_thread_to_device (ord)
04ced10e8804 gcc 7 kono parents: diff changeset	2045 && nvptx_dev2host (dst, src, n));
04ced10e8804 gcc 7 kono parents: diff changeset	2046 }
04ced10e8804 gcc 7 kono parents: diff changeset	2047
04ced10e8804 gcc 7 kono parents: diff changeset	2048 bool
04ced10e8804 gcc 7 kono parents: diff changeset	2049 GOMP_OFFLOAD_host2dev (int ord, void dst, const void src, size_t n)
04ced10e8804 gcc 7 kono parents: diff changeset	2050 {
04ced10e8804 gcc 7 kono parents: diff changeset	2051 return (nvptx_attach_host_thread_to_device (ord)
04ced10e8804 gcc 7 kono parents: diff changeset	2052 && nvptx_host2dev (dst, src, n));
04ced10e8804 gcc 7 kono parents: diff changeset	2053 }
04ced10e8804 gcc 7 kono parents: diff changeset	2054
04ced10e8804 gcc 7 kono parents: diff changeset	2055 bool
04ced10e8804 gcc 7 kono parents: diff changeset	2056 GOMP_OFFLOAD_dev2dev (int ord, void dst, const void src, size_t n)
04ced10e8804 gcc 7 kono parents: diff changeset	2057 {
04ced10e8804 gcc 7 kono parents: diff changeset	2058 struct ptx_device *ptx_dev = ptx_devices[ord];
04ced10e8804 gcc 7 kono parents: diff changeset	2059 CUDA_CALL (cuMemcpyDtoDAsync, (CUdeviceptr) dst, (CUdeviceptr) src, n,
04ced10e8804 gcc 7 kono parents: diff changeset	2060 ptx_dev->null_stream->stream);
04ced10e8804 gcc 7 kono parents: diff changeset	2061 return true;
04ced10e8804 gcc 7 kono parents: diff changeset	2062 }
04ced10e8804 gcc 7 kono parents: diff changeset	2063
04ced10e8804 gcc 7 kono parents: diff changeset	2064 void (device_run) (int n, void fn_ptr, void *vars) = NULL;
04ced10e8804 gcc 7 kono parents: diff changeset	2065
04ced10e8804 gcc 7 kono parents: diff changeset	2066 void
04ced10e8804 gcc 7 kono parents: diff changeset	2067 GOMP_OFFLOAD_openacc_exec (void (fn) (void ), size_t mapnum,
04ced10e8804 gcc 7 kono parents: diff changeset	2068 void hostaddrs, void devaddrs,
04ced10e8804 gcc 7 kono parents: diff changeset	2069 int async, unsigned dims, void targ_mem_desc)
04ced10e8804 gcc 7 kono parents: diff changeset	2070 {
04ced10e8804 gcc 7 kono parents: diff changeset	2071 nvptx_exec (fn, mapnum, hostaddrs, devaddrs, async, dims, targ_mem_desc);
04ced10e8804 gcc 7 kono parents: diff changeset	2072 }
04ced10e8804 gcc 7 kono parents: diff changeset	2073
04ced10e8804 gcc 7 kono parents: diff changeset	2074 void
04ced10e8804 gcc 7 kono parents: diff changeset	2075 GOMP_OFFLOAD_openacc_register_async_cleanup (void *targ_mem_desc, int async)
04ced10e8804 gcc 7 kono parents: diff changeset	2076 {
04ced10e8804 gcc 7 kono parents: diff changeset	2077 struct nvptx_thread *nvthd = nvptx_thread ();
04ced10e8804 gcc 7 kono parents: diff changeset	2078 CUevent e = (CUevent ) GOMP_PLUGIN_malloc (sizeof (CUevent));
04ced10e8804 gcc 7 kono parents: diff changeset	2079
04ced10e8804 gcc 7 kono parents: diff changeset	2080 CUDA_CALL_ASSERT (cuEventCreate, e, CU_EVENT_DISABLE_TIMING);
04ced10e8804 gcc 7 kono parents: diff changeset	2081 CUDA_CALL_ASSERT (cuEventRecord, *e, nvthd->current_stream->stream);
04ced10e8804 gcc 7 kono parents: diff changeset	2082 event_add (PTX_EVT_ASYNC_CLEANUP, e, targ_mem_desc, async);
04ced10e8804 gcc 7 kono parents: diff changeset	2083 }
04ced10e8804 gcc 7 kono parents: diff changeset	2084
04ced10e8804 gcc 7 kono parents: diff changeset	2085 int
04ced10e8804 gcc 7 kono parents: diff changeset	2086 GOMP_OFFLOAD_openacc_async_test (int async)
04ced10e8804 gcc 7 kono parents: diff changeset	2087 {
04ced10e8804 gcc 7 kono parents: diff changeset	2088 return nvptx_async_test (async);
04ced10e8804 gcc 7 kono parents: diff changeset	2089 }
04ced10e8804 gcc 7 kono parents: diff changeset	2090
04ced10e8804 gcc 7 kono parents: diff changeset	2091 int
04ced10e8804 gcc 7 kono parents: diff changeset	2092 GOMP_OFFLOAD_openacc_async_test_all (void)
04ced10e8804 gcc 7 kono parents: diff changeset	2093 {
04ced10e8804 gcc 7 kono parents: diff changeset	2094 return nvptx_async_test_all ();
04ced10e8804 gcc 7 kono parents: diff changeset	2095 }
04ced10e8804 gcc 7 kono parents: diff changeset	2096
04ced10e8804 gcc 7 kono parents: diff changeset	2097 void
04ced10e8804 gcc 7 kono parents: diff changeset	2098 GOMP_OFFLOAD_openacc_async_wait (int async)
04ced10e8804 gcc 7 kono parents: diff changeset	2099 {
04ced10e8804 gcc 7 kono parents: diff changeset	2100 nvptx_wait (async);
04ced10e8804 gcc 7 kono parents: diff changeset	2101 }
04ced10e8804 gcc 7 kono parents: diff changeset	2102
04ced10e8804 gcc 7 kono parents: diff changeset	2103 void
04ced10e8804 gcc 7 kono parents: diff changeset	2104 GOMP_OFFLOAD_openacc_async_wait_async (int async1, int async2)
04ced10e8804 gcc 7 kono parents: diff changeset	2105 {
04ced10e8804 gcc 7 kono parents: diff changeset	2106 nvptx_wait_async (async1, async2);
04ced10e8804 gcc 7 kono parents: diff changeset	2107 }
04ced10e8804 gcc 7 kono parents: diff changeset	2108
04ced10e8804 gcc 7 kono parents: diff changeset	2109 void
04ced10e8804 gcc 7 kono parents: diff changeset	2110 GOMP_OFFLOAD_openacc_async_wait_all (void)
04ced10e8804 gcc 7 kono parents: diff changeset	2111 {
04ced10e8804 gcc 7 kono parents: diff changeset	2112 nvptx_wait_all ();
04ced10e8804 gcc 7 kono parents: diff changeset	2113 }
04ced10e8804 gcc 7 kono parents: diff changeset	2114
04ced10e8804 gcc 7 kono parents: diff changeset	2115 void
04ced10e8804 gcc 7 kono parents: diff changeset	2116 GOMP_OFFLOAD_openacc_async_wait_all_async (int async)
04ced10e8804 gcc 7 kono parents: diff changeset	2117 {
04ced10e8804 gcc 7 kono parents: diff changeset	2118 nvptx_wait_all_async (async);
04ced10e8804 gcc 7 kono parents: diff changeset	2119 }
04ced10e8804 gcc 7 kono parents: diff changeset	2120
04ced10e8804 gcc 7 kono parents: diff changeset	2121 void
04ced10e8804 gcc 7 kono parents: diff changeset	2122 GOMP_OFFLOAD_openacc_async_set_async (int async)
04ced10e8804 gcc 7 kono parents: diff changeset	2123 {
04ced10e8804 gcc 7 kono parents: diff changeset	2124 nvptx_set_async (async);
04ced10e8804 gcc 7 kono parents: diff changeset	2125 }
04ced10e8804 gcc 7 kono parents: diff changeset	2126
04ced10e8804 gcc 7 kono parents: diff changeset	2127 void *
04ced10e8804 gcc 7 kono parents: diff changeset	2128 GOMP_OFFLOAD_openacc_create_thread_data (int ord)
04ced10e8804 gcc 7 kono parents: diff changeset	2129 {
04ced10e8804 gcc 7 kono parents: diff changeset	2130 struct ptx_device *ptx_dev;
04ced10e8804 gcc 7 kono parents: diff changeset	2131 struct nvptx_thread *nvthd
04ced10e8804 gcc 7 kono parents: diff changeset	2132 = GOMP_PLUGIN_malloc (sizeof (struct nvptx_thread));
04ced10e8804 gcc 7 kono parents: diff changeset	2133 CUcontext thd_ctx;
04ced10e8804 gcc 7 kono parents: diff changeset	2134
04ced10e8804 gcc 7 kono parents: diff changeset	2135 ptx_dev = ptx_devices[ord];
04ced10e8804 gcc 7 kono parents: diff changeset	2136
04ced10e8804 gcc 7 kono parents: diff changeset	2137 assert (ptx_dev);
04ced10e8804 gcc 7 kono parents: diff changeset	2138
04ced10e8804 gcc 7 kono parents: diff changeset	2139 CUDA_CALL_ASSERT (cuCtxGetCurrent, &thd_ctx);
04ced10e8804 gcc 7 kono parents: diff changeset	2140
04ced10e8804 gcc 7 kono parents: diff changeset	2141 assert (ptx_dev->ctx);
04ced10e8804 gcc 7 kono parents: diff changeset	2142
04ced10e8804 gcc 7 kono parents: diff changeset	2143 if (!thd_ctx)
04ced10e8804 gcc 7 kono parents: diff changeset	2144 CUDA_CALL_ASSERT (cuCtxPushCurrent, ptx_dev->ctx);
04ced10e8804 gcc 7 kono parents: diff changeset	2145
04ced10e8804 gcc 7 kono parents: diff changeset	2146 nvthd->current_stream = ptx_dev->null_stream;
04ced10e8804 gcc 7 kono parents: diff changeset	2147 nvthd->ptx_dev = ptx_dev;
04ced10e8804 gcc 7 kono parents: diff changeset	2148
04ced10e8804 gcc 7 kono parents: diff changeset	2149 return (void *) nvthd;
04ced10e8804 gcc 7 kono parents: diff changeset	2150 }
04ced10e8804 gcc 7 kono parents: diff changeset	2151
04ced10e8804 gcc 7 kono parents: diff changeset	2152 void
04ced10e8804 gcc 7 kono parents: diff changeset	2153 GOMP_OFFLOAD_openacc_destroy_thread_data (void *data)
04ced10e8804 gcc 7 kono parents: diff changeset	2154 {
04ced10e8804 gcc 7 kono parents: diff changeset	2155 free (data);
04ced10e8804 gcc 7 kono parents: diff changeset	2156 }
04ced10e8804 gcc 7 kono parents: diff changeset	2157
04ced10e8804 gcc 7 kono parents: diff changeset	2158 void *
04ced10e8804 gcc 7 kono parents: diff changeset	2159 GOMP_OFFLOAD_openacc_cuda_get_current_device (void)
04ced10e8804 gcc 7 kono parents: diff changeset	2160 {
04ced10e8804 gcc 7 kono parents: diff changeset	2161 return nvptx_get_current_cuda_device ();
04ced10e8804 gcc 7 kono parents: diff changeset	2162 }
04ced10e8804 gcc 7 kono parents: diff changeset	2163
04ced10e8804 gcc 7 kono parents: diff changeset	2164 void *
04ced10e8804 gcc 7 kono parents: diff changeset	2165 GOMP_OFFLOAD_openacc_cuda_get_current_context (void)
04ced10e8804 gcc 7 kono parents: diff changeset	2166 {
04ced10e8804 gcc 7 kono parents: diff changeset	2167 return nvptx_get_current_cuda_context ();
04ced10e8804 gcc 7 kono parents: diff changeset	2168 }
04ced10e8804 gcc 7 kono parents: diff changeset	2169
04ced10e8804 gcc 7 kono parents: diff changeset	2170 /* NOTE: This returns a CUstream, not a ptx_stream pointer. */
04ced10e8804 gcc 7 kono parents: diff changeset	2171
04ced10e8804 gcc 7 kono parents: diff changeset	2172 void *
04ced10e8804 gcc 7 kono parents: diff changeset	2173 GOMP_OFFLOAD_openacc_cuda_get_stream (int async)
04ced10e8804 gcc 7 kono parents: diff changeset	2174 {
04ced10e8804 gcc 7 kono parents: diff changeset	2175 return nvptx_get_cuda_stream (async);
04ced10e8804 gcc 7 kono parents: diff changeset	2176 }
04ced10e8804 gcc 7 kono parents: diff changeset	2177
04ced10e8804 gcc 7 kono parents: diff changeset	2178 /* NOTE: This takes a CUstream, not a ptx_stream pointer. */
04ced10e8804 gcc 7 kono parents: diff changeset	2179
04ced10e8804 gcc 7 kono parents: diff changeset	2180 int
04ced10e8804 gcc 7 kono parents: diff changeset	2181 GOMP_OFFLOAD_openacc_cuda_set_stream (int async, void *stream)
04ced10e8804 gcc 7 kono parents: diff changeset	2182 {
04ced10e8804 gcc 7 kono parents: diff changeset	2183 return nvptx_set_cuda_stream (async, stream);
04ced10e8804 gcc 7 kono parents: diff changeset	2184 }
04ced10e8804 gcc 7 kono parents: diff changeset	2185
04ced10e8804 gcc 7 kono parents: diff changeset	2186 /* Adjust launch dimensions: pick good values for number of blocks and warps
04ced10e8804 gcc 7 kono parents: diff changeset	2187 and ensure that number of warps does not exceed CUDA limits as well as GCC's
04ced10e8804 gcc 7 kono parents: diff changeset	2188 own limits. */
04ced10e8804 gcc 7 kono parents: diff changeset	2189
04ced10e8804 gcc 7 kono parents: diff changeset	2190 static void
04ced10e8804 gcc 7 kono parents: diff changeset	2191 nvptx_adjust_launch_bounds (struct targ_fn_descriptor *fn,
04ced10e8804 gcc 7 kono parents: diff changeset	2192 struct ptx_device *ptx_dev,
04ced10e8804 gcc 7 kono parents: diff changeset	2193 int teams_p, int threads_p)
04ced10e8804 gcc 7 kono parents: diff changeset	2194 {
04ced10e8804 gcc 7 kono parents: diff changeset	2195 int max_warps_block = fn->max_threads_per_block / 32;
04ced10e8804 gcc 7 kono parents: diff changeset	2196 /* Maximum 32 warps per block is an implementation limit in NVPTX backend
04ced10e8804 gcc 7 kono parents: diff changeset	2197 and libgcc, which matches documented limit of all GPUs as of 2015. */
04ced10e8804 gcc 7 kono parents: diff changeset	2198 if (max_warps_block > 32)
04ced10e8804 gcc 7 kono parents: diff changeset	2199 max_warps_block = 32;
04ced10e8804 gcc 7 kono parents: diff changeset	2200 if (*threads_p <= 0)
04ced10e8804 gcc 7 kono parents: diff changeset	2201 *threads_p = 8;
04ced10e8804 gcc 7 kono parents: diff changeset	2202 if (*threads_p > max_warps_block)
04ced10e8804 gcc 7 kono parents: diff changeset	2203 *threads_p = max_warps_block;
04ced10e8804 gcc 7 kono parents: diff changeset	2204
04ced10e8804 gcc 7 kono parents: diff changeset	2205 int regs_per_block = fn->regs_per_thread * 32 * *threads_p;
04ced10e8804 gcc 7 kono parents: diff changeset	2206 /* This is an estimate of how many blocks the device can host simultaneously.
04ced10e8804 gcc 7 kono parents: diff changeset	2207 Actual limit, which may be lower, can be queried with "occupancy control"
04ced10e8804 gcc 7 kono parents: diff changeset	2208 driver interface (since CUDA 6.0). */
04ced10e8804 gcc 7 kono parents: diff changeset	2209 int max_blocks = ptx_dev->regs_per_sm / regs_per_block * ptx_dev->num_sms;
04ced10e8804 gcc 7 kono parents: diff changeset	2210 if (teams_p <= 0 \|\| teams_p > max_blocks)
04ced10e8804 gcc 7 kono parents: diff changeset	2211 *teams_p = max_blocks;
04ced10e8804 gcc 7 kono parents: diff changeset	2212 }
04ced10e8804 gcc 7 kono parents: diff changeset	2213
04ced10e8804 gcc 7 kono parents: diff changeset	2214 /* Return the size of per-warp stacks (see gcc -msoft-stack) to use for OpenMP
04ced10e8804 gcc 7 kono parents: diff changeset	2215 target regions. */
04ced10e8804 gcc 7 kono parents: diff changeset	2216
04ced10e8804 gcc 7 kono parents: diff changeset	2217 static size_t
04ced10e8804 gcc 7 kono parents: diff changeset	2218 nvptx_stacks_size ()
04ced10e8804 gcc 7 kono parents: diff changeset	2219 {
04ced10e8804 gcc 7 kono parents: diff changeset	2220 return 128 * 1024;
04ced10e8804 gcc 7 kono parents: diff changeset	2221 }
04ced10e8804 gcc 7 kono parents: diff changeset	2222
04ced10e8804 gcc 7 kono parents: diff changeset	2223 /* Return contiguous storage for NUM stacks, each SIZE bytes. */
04ced10e8804 gcc 7 kono parents: diff changeset	2224
04ced10e8804 gcc 7 kono parents: diff changeset	2225 static void *
04ced10e8804 gcc 7 kono parents: diff changeset	2226 nvptx_stacks_alloc (size_t size, int num)
04ced10e8804 gcc 7 kono parents: diff changeset	2227 {
04ced10e8804 gcc 7 kono parents: diff changeset	2228 CUdeviceptr stacks;
04ced10e8804 gcc 7 kono parents: diff changeset	2229 CUresult r = CUDA_CALL_NOCHECK (cuMemAlloc, &stacks, size * num);
04ced10e8804 gcc 7 kono parents: diff changeset	2230 if (r != CUDA_SUCCESS)
04ced10e8804 gcc 7 kono parents: diff changeset	2231 GOMP_PLUGIN_fatal ("cuMemAlloc error: %s", cuda_error (r));
04ced10e8804 gcc 7 kono parents: diff changeset	2232 return (void *) stacks;
04ced10e8804 gcc 7 kono parents: diff changeset	2233 }
04ced10e8804 gcc 7 kono parents: diff changeset	2234
04ced10e8804 gcc 7 kono parents: diff changeset	2235 /* Release storage previously allocated by nvptx_stacks_alloc. */
04ced10e8804 gcc 7 kono parents: diff changeset	2236
04ced10e8804 gcc 7 kono parents: diff changeset	2237 static void
04ced10e8804 gcc 7 kono parents: diff changeset	2238 nvptx_stacks_free (void *p, int num)
04ced10e8804 gcc 7 kono parents: diff changeset	2239 {
04ced10e8804 gcc 7 kono parents: diff changeset	2240 CUresult r = CUDA_CALL_NOCHECK (cuMemFree, (CUdeviceptr) p);
04ced10e8804 gcc 7 kono parents: diff changeset	2241 if (r != CUDA_SUCCESS)
04ced10e8804 gcc 7 kono parents: diff changeset	2242 GOMP_PLUGIN_fatal ("cuMemFree error: %s", cuda_error (r));
04ced10e8804 gcc 7 kono parents: diff changeset	2243 }
04ced10e8804 gcc 7 kono parents: diff changeset	2244
04ced10e8804 gcc 7 kono parents: diff changeset	2245 void
04ced10e8804 gcc 7 kono parents: diff changeset	2246 GOMP_OFFLOAD_run (int ord, void tgt_fn, void tgt_vars, void **args)
04ced10e8804 gcc 7 kono parents: diff changeset	2247 {
04ced10e8804 gcc 7 kono parents: diff changeset	2248 CUfunction function = ((struct targ_fn_descriptor *) tgt_fn)->fn;
04ced10e8804 gcc 7 kono parents: diff changeset	2249 CUresult r;
04ced10e8804 gcc 7 kono parents: diff changeset	2250 struct ptx_device *ptx_dev = ptx_devices[ord];
04ced10e8804 gcc 7 kono parents: diff changeset	2251 const char *maybe_abort_msg = "(perhaps abort was called)";
04ced10e8804 gcc 7 kono parents: diff changeset	2252 int teams = 0, threads = 0;
04ced10e8804 gcc 7 kono parents: diff changeset	2253
04ced10e8804 gcc 7 kono parents: diff changeset	2254 if (!args)
04ced10e8804 gcc 7 kono parents: diff changeset	2255 GOMP_PLUGIN_fatal ("No target arguments provided");
04ced10e8804 gcc 7 kono parents: diff changeset	2256 while (*args)
04ced10e8804 gcc 7 kono parents: diff changeset	2257 {
04ced10e8804 gcc 7 kono parents: diff changeset	2258 intptr_t id = (intptr_t) *args++, val;
04ced10e8804 gcc 7 kono parents: diff changeset	2259 if (id & GOMP_TARGET_ARG_SUBSEQUENT_PARAM)
04ced10e8804 gcc 7 kono parents: diff changeset	2260 val = (intptr_t) *args++;
04ced10e8804 gcc 7 kono parents: diff changeset	2261 else
04ced10e8804 gcc 7 kono parents: diff changeset	2262 val = id >> GOMP_TARGET_ARG_VALUE_SHIFT;
04ced10e8804 gcc 7 kono parents: diff changeset	2263 if ((id & GOMP_TARGET_ARG_DEVICE_MASK) != GOMP_TARGET_ARG_DEVICE_ALL)
04ced10e8804 gcc 7 kono parents: diff changeset	2264 continue;
04ced10e8804 gcc 7 kono parents: diff changeset	2265 val = val > INT_MAX ? INT_MAX : val;
04ced10e8804 gcc 7 kono parents: diff changeset	2266 id &= GOMP_TARGET_ARG_ID_MASK;
04ced10e8804 gcc 7 kono parents: diff changeset	2267 if (id == GOMP_TARGET_ARG_NUM_TEAMS)
04ced10e8804 gcc 7 kono parents: diff changeset	2268 teams = val;
04ced10e8804 gcc 7 kono parents: diff changeset	2269 else if (id == GOMP_TARGET_ARG_THREAD_LIMIT)
04ced10e8804 gcc 7 kono parents: diff changeset	2270 threads = val;
04ced10e8804 gcc 7 kono parents: diff changeset	2271 }
04ced10e8804 gcc 7 kono parents: diff changeset	2272 nvptx_adjust_launch_bounds (tgt_fn, ptx_dev, &teams, &threads);
04ced10e8804 gcc 7 kono parents: diff changeset	2273
04ced10e8804 gcc 7 kono parents: diff changeset	2274 size_t stack_size = nvptx_stacks_size ();
04ced10e8804 gcc 7 kono parents: diff changeset	2275 void stacks = nvptx_stacks_alloc (stack_size, teams threads);
04ced10e8804 gcc 7 kono parents: diff changeset	2276 void fn_args[] = {tgt_vars, stacks, (void ) stack_size};
04ced10e8804 gcc 7 kono parents: diff changeset	2277 size_t fn_args_size = sizeof fn_args;
04ced10e8804 gcc 7 kono parents: diff changeset	2278 void *config[] = {
04ced10e8804 gcc 7 kono parents: diff changeset	2279 CU_LAUNCH_PARAM_BUFFER_POINTER, fn_args,
04ced10e8804 gcc 7 kono parents: diff changeset	2280 CU_LAUNCH_PARAM_BUFFER_SIZE, &fn_args_size,
04ced10e8804 gcc 7 kono parents: diff changeset	2281 CU_LAUNCH_PARAM_END
04ced10e8804 gcc 7 kono parents: diff changeset	2282 };
04ced10e8804 gcc 7 kono parents: diff changeset	2283 r = CUDA_CALL_NOCHECK (cuLaunchKernel, function, teams, 1, 1,
04ced10e8804 gcc 7 kono parents: diff changeset	2284 32, threads, 1, 0, ptx_dev->null_stream->stream,
04ced10e8804 gcc 7 kono parents: diff changeset	2285 NULL, config);
04ced10e8804 gcc 7 kono parents: diff changeset	2286 if (r != CUDA_SUCCESS)
04ced10e8804 gcc 7 kono parents: diff changeset	2287 GOMP_PLUGIN_fatal ("cuLaunchKernel error: %s", cuda_error (r));
04ced10e8804 gcc 7 kono parents: diff changeset	2288
04ced10e8804 gcc 7 kono parents: diff changeset	2289 r = CUDA_CALL_NOCHECK (cuCtxSynchronize, );
04ced10e8804 gcc 7 kono parents: diff changeset	2290 if (r == CUDA_ERROR_LAUNCH_FAILED)
04ced10e8804 gcc 7 kono parents: diff changeset	2291 GOMP_PLUGIN_fatal ("cuCtxSynchronize error: %s %s\n", cuda_error (r),
04ced10e8804 gcc 7 kono parents: diff changeset	2292 maybe_abort_msg);
04ced10e8804 gcc 7 kono parents: diff changeset	2293 else if (r != CUDA_SUCCESS)
04ced10e8804 gcc 7 kono parents: diff changeset	2294 GOMP_PLUGIN_fatal ("cuCtxSynchronize error: %s", cuda_error (r));
04ced10e8804 gcc 7 kono parents: diff changeset	2295 nvptx_stacks_free (stacks, teams * threads);
04ced10e8804 gcc 7 kono parents: diff changeset	2296 }
04ced10e8804 gcc 7 kono parents: diff changeset	2297
04ced10e8804 gcc 7 kono parents: diff changeset	2298 void
04ced10e8804 gcc 7 kono parents: diff changeset	2299 GOMP_OFFLOAD_async_run (int ord, void tgt_fn, void tgt_vars, void **args,
04ced10e8804 gcc 7 kono parents: diff changeset	2300 void *async_data)
04ced10e8804 gcc 7 kono parents: diff changeset	2301 {
04ced10e8804 gcc 7 kono parents: diff changeset	2302 GOMP_PLUGIN_fatal ("GOMP_OFFLOAD_async_run unimplemented");
04ced10e8804 gcc 7 kono parents: diff changeset	2303 }

Mercurial > hg > CbC > CbC_gcc

annotate libgomp/plugin/plugin-nvptx.c @ 131:84e7813d76e9