DPCT1020

メッセージ

<api name> の移行が __global__ または __device__ 関数から呼び出される場合、サポートされません。代わりにホスト側の <api name> を使うようにコードを再設計する必要があります。この場合、SYCL* キューにこの呼び出しが自動的に送信されます。

詳細な説明

この警告は、<api name> が SYCL* カーネルをコマンドキューに送信し、<api-name> の呼び出し元がコマンドキューに送信された SYCL* カーネルの場合に生成されます。これにより、デバイス側でカーネルをエンキューすることになりますが、これは SYCL* 1.2.1 ではサポートされていません。

修正方法の提案

ホスト側の API を使うようにコードを再設計します。そうすることで、SYCL* キューにこの呼び出しが自動的に送信されます。

例えば、以下のオリジナル CUDA* コードについて考えてみます。

__global__ void kernel(float *d_data) { 
 int tid = threadIdx.x; 
 d_data[tid + 1] = tid; 
 
 __syncthreads(); 
 
 if (tid == 0) { 
 cublasHandle_t handle; 
 cublasCreate(&handle); 
 cublasSasum(handle, 128, d_data + 1, 1, d_data) 
 cublasDestroy(handle); 
 } 
} 
 
void foo() { 
 float *d_data; 
 cudaMalloc((void **)&d_data, sizeof(float) * (1 + 128)); 
 kernel<<<1, 128>>>(d_data); 
 
 float data; 
 cudaMemcpy(data, d_data, sizeof(float), cudaMemcpyDeviceToHost); 
 cudaFree(d_data); 
}

このコードは、以下の SYCL* コードに移行されます。

void kernel(float *d_data, sycl::nd_item<3> item_ct1) { 
 int tid = item_ct1.get_local_id(2); 
 d_data[tid + 1] = tid; 
 
 item_ct1.barrier(); 
 
 if (tid == 0) { 
 /* 
 DPCT1021:2: Migration of cublasHandle_t in __global__ or __device__ function 
 is not supported. You may need to redesign the code. 
 */ 
 cublasHandle_t handle; 
 handle = &dpct::get_default_queue(); 
 /* 
 DPCT1020:1: Migration of cublasSasum, if it is called from __global__ or 
 __device__ function, is not supported.You may need to redesign the code to 
 use the host-side oneapi::mkl::blas::column_major::asum instead, which submits 
 this call to the SYCL queue automatically.
 */ 
 cublasSasum(handle, 128, d_data + 1, 1, d_data); 
 handle = nullptr; 
 } 
} 
 
void foo() { 
 dpct::device_ext &dev_ct1 = dpct::get_current_device(); 
 sycl::queue &q_ct1 = dev_ct1.default_queue(); 
 float *d_data; 
 d_data = sycl::malloc_device<float>((1 + 128), q_ct1); 
 q_ct1.parallel_for( 
 sycl::nd_range<3>(sycl::range<3>(1, 1, 128), sycl::range<3>(1, 1, 128)), 
 [=](sycl::nd_item<3> item_ct1) { 
 kernel(d_data, item_ct1); 
 }); 
 
 float data; 
 q_ct1.memcpy(&data, d_data, sizeof(float)).wait(); 
 sycl::free(d_data, q_ct1); 
}

このコードは次のように書き換えられます。

void kernel(float *d_data, sycl::nd_item<3> item_ct1) { 
 int tid = item_ct1.get_local_id(2); 
 d_data[tid + 1] = tid; 
} 
 
void foo() { 
 dpct::device_ext &dev_ct1 = dpct::get_current_device(); 
 sycl::queue &q_ct1 = dev_ct1.default_queue(); 
 float *d_data; 
 d_data = sycl::malloc_device<float>((1 + 128), q_ct1); 
 q_ct1.parallel_for( 
 sycl::nd_range<3>(sycl::range<3>(1, 1, 128), sycl::range<3>(1, 1, 128)), 
 [=](sycl::nd_item<3> item_ct1) { 
 kernel(d_data, item_ct1); 
 }); 
 oneapi::mkl::blas::column_major::asum(q_ct1, 128, d_data + 1, 1, d_data); 
 
 float data; 
 q_ct1.memcpy(&data, d_data, sizeof(float)).wait(); 
 sycl::free(d_data, q_ct1); 
}

インテル® DPC++
互換性ツール・
デベロッパー・ガイド
およびリファレンス

DPCT1020

目次

DPCT1020

メッセージ

詳細な説明

修正方法の提案

インテル® DPC++互換性ツール・デベロッパー・ガイドおよびリファレンス

DPCT1020

目次

DPCT1020

メッセージ

詳細な説明

修正方法の提案

インテル® DPC++
互換性ツール・
デベロッパー・ガイド
およびリファレンス