< 目次

置換のない複数の単純なランダム・サンプリング

目的

サイズ N (1 MN) の母集団から置換なしで K>>1 の単純なランダム長 M のサンプルを生成する。

解決方法

問題の定義と詳細は、[SRSWOR] を参照してください。

部分 Fisher-Yates シャッフル・アルゴリズム [KnuthV2] の次の実装と oneMKL 乱数ジェネレーター (RNG) を使用して各サンプルを生成します。

部分 Fisher-Yates シャッフル・アルゴリズム

A2.1: (初期化ステップ) PERMUT_BUF は自然数1, 2, ..., N を含むものとする 
A2.2: i は1 から M までの繰り返し:     A2.3: {i,...,N} で一様なランダムな整数 X を生成
    A2.4: PERMUT_BUF[i] とPERMUT_BUF[X] を交換 
A2.5: (コピーステップ) i は1 から M までの繰り返し : RESULTS_ARRAY[i]=PERMUT_BUF[i] 
終了。

アルゴリズムを実装するプログラムは 11 969 664 の実験を行います。各実験 (1 から N までの M の一様なランダム自然数のシーケンスを生成) は、実際には N 要素の母集団から部分長 M をランダムにシャッフルします。アルゴリズムのメインループは実際に抽選を行うため、プログラムで各実験は「N から M の抽選」と呼ばれています。

プログラムは M=6 および N=49 を使用して、結果のサンプル (長さ M のシーケンス) を単一配列 RESULTS_ARRAY に格納し、利用可能な並列スレッドをすべて使用します。

ソースコード: サンプル (https://www.intel.com/content/dam/develop/external/us/en/documents/mkl-cookbook-samples-120115.zip (英語)) の lottery6of49 フォルダーを参照してください。

並列処理

#pragma omp parallel 
  { 
      thr = omp_get_thread_num(); /* スレッドのインデックス */ 
      VSLStreamStatePtr stream; 
      /* このスレッドのRNG ストリームを初期化 */ 
      vslNewStream( &stream, VSL_BRNG_MT2203+thr, seed ); 
      ... 
      /* (スレッド番号 thr で) 実験サンプルを生成 */ 
      vslDeleteStream( &stream ); 
  }

コードは、OpenMP* #pragma parallel ディレクティブを使用して、すべての CPU のすべての利用可能なプロセッサー・コアを利用します。実験結果の配列 RESULTS_ARRAYTHREADS_NUM の部分に分割されます。ここで、THREADS_NUM は利用可能なスレッド数で、各スレッド (並列領域) は配列の個別の部分を処理します。

oneMKL 基本乱数ジェネレーターは、VSL_BRNG_MT2203 パラメーターを指定することにより、各スレッドで並列の独立したストリームをサポートします。

実験サンプルの生成

/* A2.1: 初期化ステップ */ 
/* PERMUT_BUF は自然数1, 2, ..., N を含むものとする */ 
 for( i=0; i<N; i++ ) PERMUT_BUF[i]=i+1; /* セット{1,...,N} を使用 */ 
 for( sample_num=0; sample_num<EXPERIM_NUM/THREADS_NUM; sample_num++ ){ 
     /* 次の抽選サンプルを生成 (ステップ A2.2A2.3、および A2.4): */ 
     Fisher_Yates_shuffle(...); 
     /* A2.5: コピーステップ */ 
     for(i=0; i<M; i++) 
         RESULTS_ARRAY[thr*ONE_THR_PORTION_SIZE + sample_num*M + i] = PERMUT_BUF[i]; 
 }

このコードは各スレッドで部分 Fisher-Yates シャッフル・アルゴリズムを実装します。

多くの実験をシミュレーションする場合、初期化ステップは各実験の最初に 1 回のみ必要です。(実際の抽選のように) PERMUT_BUF 配列の自然数 1...N の順序は重要ではありません。

Fisher_Yates_shuffle 関数

/* A2.2: i は 0 から M-1 の繰り返し */ 
Fisher_Yates_shuffle (...) 
{ 
    for(i=0; i<M; i++) { 
        /* A2.3: {i,...,N-1} からランダム自然数X を生成 */ 
        j = Next_Uniform_Int(...); 
        /* A2.4: PERMUT_BUF[i] とPERMUT_BUF[X] を交換 */ 
        tmp = PERMUT_BUF[i]; 
        PERMUT_BUF[i] = PERMUT_BUF[j]; 
        PERMUT_BUF[j] = tmp; 
    } 
}

ループ A2.2 の各反復は、実際に抽選を行います。残りのアイテム PERMUT_BUF[i], ..., PERMUT_BUF[N] を含む箱からランダムなアイテム X を取り出し、アイテム X を結果行 PERMUT_BUF[1],...,PERMUT_BUF[i] の最後に追加します。長さ N の完全な置換ではなく、一部の長さ M のみを生成するため、アルゴリズムは部分的です。

アルゴリズムで説明した擬似コードと異なり、プログラムはゼロベースの配列を使用します。

説明

ステップ A2.3 で、プログラムは Next_Uniform_Int 関数を呼び出して次のランダム整数 X を生成し、{i, ..., N-1} で一様にします (詳細はソースコードを参照)。oneMKL のベクトル化された RNG の能力を引き出しつつ、ベクトル化のオーバーヘッドを最小限に抑えるため、ジェネレーターは L1 キャッシュに収まるサイズ RNGBUFSIZE のベクトル D_UNIFORM01_BUF を生成する必要があります。各スレッドは、独自のバッファー D_UNIFORM01_BUF およびそのバッファーで最後に使用された乱数の後を指すインデックス D_UNIFORM01_IDX を使用します。Next_Uniform_Int 関数の最初の呼び出しでは (あるいはバッファーの乱数がすべて使用された場合は)、長さ RNGBUFSIZE とインデックス D_UNIFORM01_IDX をゼロにセットして vdRngUniform 関数を呼び出し、乱数バッファーを生成し直します。

vdRngUniform( ... RNGBUFSIZE, D_UNIFORM01_BUF ... );

oneMKL は同じ分布の乱数値ジェネレーターのみ提供しますが、ステップ A2.3 では異なる範囲のランダム整数が必要なため、[0;1) で一様に分布された倍精度乱数をバッファーに格納した後、「整数スケーリング」ステップで、これらの倍精度値を必要な整数範囲に収まるように変換します。

number 0 distributed on {0,...,N-1} = 0 + {0,...,N-1} 
number 1 distributed on {1,...,N-1} = 1 + {0,...,N-2} 
... 
number M-1 distributed on {M-1,...,N-1} = M-1 + {0,...,N-M} 
(前のM ステップを繰り返す) 
number M distributed on: see (0) 
number M+1 distributed on: see (1) 
... 
number 2*M-1 distributed on: see (M-1) 
(前のM ステップを再度繰り返す) 
... 
など

整数スケーリング

/* 整数スケーリング・ステップ */ 
for(i=0;i<RNGBUFSIZE/M;i++) 
    for(k=0;k<M;k++) 
        I_RNG_BUF[i*M+k] = k + (unsigned int)(D_UNIFORM01_BUF[i*M+k] * (double)(N-k));

ここで RNGBUFSIZEM の倍数。

このコードに関するパフォーマンスの注意点は [SRSWOR] を参照してください。

使用するルーチン

タスク

ルーチン

RNG ストリームを作成して初期化する

vslNewStream

区間 [0;1) に一様に分散された倍精度数を生成する

vdRngUniform

RNG ストリームを削除する

vslDeleteStream

64 ビット境界でアライメントされたメモリーバッファーを割り当てる

mkl_malloc

mkl_malloc で割り当てられたメモリーを解放する

mkl_free

製品とパフォーマンス情報

パフォーマンスは、利用、構成、およびその他の要因によって異なります。詳細については、www.Intel.com/PerformanceIndex (英語) をご覧ください。

改訂 #20201201