DPCT1113

メッセージ

<function name> が多次元カーネルで呼び出される場合、sycl::nd_item::barrier(sycl::access::fence_space::local_space) を sycl::nd_item::barrier() に置き換えることを検討してください。

詳細な説明

work-group 内の各ワーク項目間でグローバル・デバイス・メモリーへの重複するアクセスがない場合、__syncthreads() API は、sycl::nd_item::barrier(sycl::access::fence_space::local_space) に移行可能なカーネル実行の 1D インデックス空間を使用してカーネルを呼び出します。2D/3D インデックス空間を使用してカーネルを呼び出す場合、work-group 内の各ワーク項目からグローバルメモリーへのアクセスが重複する可能性があり、バリアを超えたワーク項目間でデータの依存関係が生じる可能性があります。この場合、sycl::nd_item::barrier() 呼び出しを sycl::access::fence_space::global_and_local に置き換える必要があります。

修正方法の提案

例えば、以下のオリジナル CUDA* コードについて考えてみます。

__global__ void kernel(float *mem) { 
    unsigned int tid = threadIdx.x + blockDim.x * blockIdx.x; 
       ...
    mem[tid] = ...; 
    __syncthreads(); 
       ... 
       ... = mem[tid]; 
} 
 
void foo(float *mem) { 
    kernel<<<16, 16>>>(mem); //1D index space of a SYCL kernel execution 
}

このコードは、以下の SYCL* コードに移行されます。

void kernel(float *mem, const sycl::nd_item<3> &item_ct1) { 
    unsigned int tid = item_ct1.get_local_id(2) + 
    item_ct1.get_local_range(2) * item_ct1.get_group(2); 
       ... 
    mem[tid] = ...; // global memory access without overlap among each work-item in a work-group 
    /* 
    DPCT1113:0: Consider replacing 
    sycl::nd_item::barrier(sycl::access::fence_space::local_space) with 
    sycl::nd_item::barrier() if function "kernel" is called in a multidimensional 
    kernel.
    */ 
   item_ct1.barrier(sycl::access::fence_space::local_space); 
      ... 
      ... = mem[tid]; // global memory access without overlap among each work-item in a work-group 
} 
 
void foo(float *mem) { 
    dpct::get_default_queue().parallel_for( 
    sycl::nd_range<3>(sycl::range<3>(1, 1, 16) * sycl::range<3>(1, 1, 16), 
    sycl::range<3>(1, 1, 16)), 
              [=](sycl::nd_item<3> item_ct1) { 
       kernel(mem, item_ct1); 
    }); 
}

移行後、移行された SYCL* カーネルコードを 2D カーネルに更新します。

void kernel(float *mem, const sycl::nd_item<3> &item_ct1) { 
    unsigned int tidx = item_ct1.get_local_id(2) + 
    item_ct1.get_local_range(2) * item_ct1.get_group(2); 
    unsigned int tidy = item_ct1.get_local_id(1) + 
    item_ct1.get_local_range(1) * item_ct1.get_group(1); 
 
       ... 
    mem[tidx] = ...; // global memory access with overlap among each work-item in a work-group 
    mem[tidy] = ...; // global memory access with overlap among each work-item in a work-group 
    /* 
    DPCT1113:0: Consider replacing 
    sycl::nd_item::barrier(sycl::access::fence_space::local_space) with 
    sycl::nd_item::barrier() if function "kernel" is called in a multidimensional 
    kernel.
    */ 
    item_ct1.barrier(sycl::access::fence_space::local_space); 
       ... 
       ... = mem[tidx]; // global memory access with overlap among each work-item in a work-group 
       ... = mem[tidy]; // global memory access with overlap among each work-item in a work-group 
} 
 
void foo(float *mem) { 
    dpct::get_default_queue().parallel_for( 
    sycl::nd_range<3>(sycl::range<3>(1, 4, 4) * sycl::range<3>(1, 4, 4), 
    sycl::range<3>(1, 4, 4)), /*2D index space of a SYCL kernel execution */ 
 
              [=](sycl::nd_item<3> item_ct1) { 
       kernel(mem, item_ct1); 
    }); 
}

このコードは次のように書き換えられます。

void kernel(float *mem, const sycl::nd_item<3> &item_ct1) { 
    unsigned int tidx = item_ct1.get_local_id(2) + 
    item_ct1.get_local_range(2) * item_ct1.get_group(2); 
    unsigned int tidy = item_ct1.get_local_id(1) + 
    item_ct1.get_local_range(1) * item_ct1.get_group(1); 
 
       ... 
    mem[tidx] = ...; // global memory access with overlap among each work-item in a work-group 
    mem[tidy] = ...; // global memory access with overlap among each work-item in a work-group 
    item_ct1.barrier(sycl::access::fence_space::global_and_local); 
      ... 
      ... = mem[tidx]; // global memory access with overlap among each work-item in a work-group 
      ... = mem[tidy]; // global memory access with overlap among each work-item in a work-group 
} 
 
void foo(float *mem) { 
    dpct::get_default_queue().parallel_for( 
    sycl::nd_range<3>(sycl::range<3>(1, 4, 4) * sycl::range<3>(1, 4, 4), 
    sycl::range<3>(1, 4, 4)), 
              [=](sycl::nd_item<3> item_ct1) { 
       kernel(mem, item_ct1); 
    }); 
}

インテル® DPC++
互換性ツール・
デベロッパー・ガイド
およびリファレンス

DPCT1113

目次

DPCT1113

メッセージ

詳細な説明

修正方法の提案

インテル® DPC++互換性ツール・デベロッパー・ガイドおよびリファレンス

DPCT1113

目次

DPCT1113

メッセージ

詳細な説明

修正方法の提案

インテル® DPC++
互換性ツール・
デベロッパー・ガイド
およびリファレンス