DPCT1085#

メッセージ#

関数 <function name> は sub-group サイズが <size> である必要がありますが、同じ SYCL* カーネル内のほかの sub-group 関数では異なる sub-group サイズが必要です。コードを調整する必要があります。

詳細な説明#

各カーネルは、1 つの sub-group サイズでしか修飾できません。この警告は、カーネルが異なる sub-group サイズを必要とする場合に出力されます。sub-group サイズを 1 つの値に統一できるかどうかを確認し、統一できない場合はコードのロジックを再設計します。

例えば、以下のオリジナル CUDA* コードについて考えてみます。

   __global__ void kernel(int* data1, int* data2) { 
    typedef cub::WarpScan<int> WarpScan; 
    typedef cub::WarpScan<int, 16> WarpScan16; 
 
    typename WarpScan::TempStorage temp1; 
    typename WarpScan16::TempStorage temp2; 
 
    int input = data1[threadIdx.x]; 
    int output1 = 0; 
   int output2 = 0; 
   WarpScan(temp1).InclusiveSum(input, output1); 
   data1[threadIdx.x] = output1; 
   WarpScan16(temp2).InclusiveSum(input, output2); 
   data2[threadIdx.x] = output1; 
  } 
 
  void foo(int* data1, int* data2) { 
   kernel<<<1, 32>>>(data1, data2); 
  }

このコードは、以下の SYCL* コードに移行されます。

   void kernel(int* data1, int* data2, const sycl::nd_item<3> &item_ct1) { 
 
    int input = data1[item_ct1.get_local_id(2)]; 
    int output1 = 0; 
    int output2 = 0; 
    output1 = sycl::inclusive_scan_over_group(item_ct1.get_sub_group(), input, 
    sycl::plus<>()); 
    data1[item_ct1.get_local_id(2)] = output1; 
    /* 
   DPCT1085:0: The function inclusive_scan_over_group requires sub-group size to 
   be 16, while other sub-group functions in the same SYCL kernel require a 
   different sub-group size. You may need to adjust the code. 
   */ 
   output2 = sycl::inclusive_scan_over_group(item_ct1.get_sub_group(), input, 
   sycl::plus<>()); 
   data2[item_ct1.get_local_id(2)] = output1; 
  } 
 
  void foo(int* data1, int* data2) { 
   dpct::get_in_order_queue().parallel_for( 
   sycl::nd_range<3>(sycl::range<3>(1, 1, 32), sycl::range<3>(1, 1, 32)), 
   [=](sycl::nd_item<3> item_ct1) [[intel::reqd_sub_group_size(32)]] { 
   kernel(data1, data2, item_ct1); 
   }); 
  } 
 
  void foo(int* data) { 
   dpct::get_in_order_queue().parallel_for( 
   sycl::nd_range<3>(sycl::range<3>(1, 1, 32), sycl::range<3>(1, 1, 32)), 
   [=](sycl::nd_item<3> item_ct1) [[intel::reqd_sub_group_size(32)]] { 
   kernel(data, item_ct1); 
   }); 
  }

このコードを以下のように手動で調整します。

   void kernel(int* data1, int* data2, const sycl::nd_item<3> &item_ct1) { 
 
    int input = data1[item_ct1.get_local_id(2)]; 
    int output1 = 0; 
    int output2 = 0; 
    output1 = sycl::inclusive_scan_over_group(item_ct1.get_sub_group(), input, 
    sycl::plus<>()); 
    data1[item_ct1.get_local_id(2)] = output1; 
    output2 = sycl::inclusive_scan_over_group(item_ct1.get_sub_group(), input, 
   sycl::plus<>()); 
   data2[item_ct1.get_local_id(2)] = output1; 
   item_ct1.barrier(); 
   if (item_ct1.get_local_id(2) % 32 >= 16) { 
    int warp_id = item_ct1.get_local_id(2) / 32; 
    data2[item_ct1.get_local_id(2)] -= data2[warp_id * 32 + 15]; 
   } 
  } 
 
  void foo(int* data1, int* data2) { 
   dpct::get_in_order_queue().parallel_for( 
   sycl::nd_range<3>(sycl::range<3>(1, 1, 32), sycl::range<3>(1, 1, 32)), 
   [=](sycl::nd_item<3> item_ct1) [[intel::reqd_sub_group_size(32)]] { 
   kernel(data1, data2, item_ct1); 
   }); 
  }

修正方法の提案#

コードを手動で修正する必要があります。このコードを手動で書き換えてください。

DPCT1085

目次

DPCT1085#

メッセージ#

詳細な説明#

修正方法の提案#