DPCT1065#

メッセージ#

グローバルメモリーにアクセスしない場合、パフォーマンスを向上するには sycl::<...>::barrier() を sycl::<...>::barrier(sycl::access::fence_space::local_space) に置き換えることを検討してください。

詳細な説明#

sycl::<...>::barrier() 関数は、グローバルおよびローカルアドレス空間で適切なメモリーアクセス順序を保証します。カーネル関数がグローバルメモリー内のメモリーアクセスを行わない場合、パフォーマンスを向上するため sycl::<...>::barrier() を sycl::<...>::barrier(sycl::access::fence_space::local_space) に置き換えても安全です。

修正方法の提案

sycl::<...>::barrier() を sycl::<...>::barrier(sycl::access::fence_space::local_space) に置き換えます。

例えば、以下のオリジナル CUDA* コードについて考えてみます。

  struct Data_t { 
   float *host_data; 
   float *device_data; 
  }; 
 
  __global__ void k(Data_t *data) { 
   auto tid = threadIdx.x + blockDim.x * blockIdx.x; 
   only_read_data(data[tid].device_data); 
   __syncthreads(); 
  only_read_data(data[tid].device_data); 
 }

このコードは、以下の SYCL* コードに移行されます。

  struct Data_t { 
   float *host_data; 
   float *device_data; 
  }; 
 
  void k(Data_t *data, const sycl::nd_item<3> &item_ct1) { 
   auto tid = item_ct1.get_local_id(2) + 
   item_ct1.get_local_range(2) * item_ct1.get_group(2); 
   only_read_data(data[tid].device_data); 
  /* 
  DPCT1065:0: Consider replacing sycl::nd_item::barrier() with 
  sycl::nd_item::barrier(sycl::access::fence_space::local_space) for better 
  performance if there is no access to global memory.
  */ 
  item_ct1.barrier(); 
  only_read_data(data[tid].device_data); 
 }

このコードは次のように書き換えられます。

  struct Data_t { 
   float *host_data; 
   float *device_data; 
  }; 
 
  void k(Data_t *data, const sycl::nd_item<3> &item_ct1) { 
   auto tid = item_ct1.get_local_id(2) + 
   item_ct1.get_local_range(2) * item_ct1.get_group(2); 
   only_read_data(data[tid].device_data); 
  // バリアー後のグローバルメモリーのアクセスが、現在のワークグループ内のワークアイテム間のバリアー前の 
  // 同じグローバルメモリーのアクセス (読み取り後書き込み、 
  // 読み取り後書き込み、または書き込み後書き込み) に依存しない場合は、 
  // global_local_space を local_space に置き換えることができます。 
  item_ct1.barrier(sycl::access::fence_space::local_space); 
  only_read_data(data[tid].device_data); 
 }

DPCT1065

目次

DPCT1065#

メッセージ#

詳細な説明#

修正方法の提案