HPL.dat の最も重要なパラメーターは、P、Q、NB および N です。次のように指定します。
P および Q - プロセッサー・グリッドの行と列の数。
P*Q は、HPL が使用する MPI プロセスの数です。
P≤Q を選択します。
N – 問題サイズ:
同種 (ホモジニアス) 実行の場合、NB*LCM(P,Q) で分割可能な N を選択します (LCM は最小公倍数)。
異種 (ヘテロジニアス) 実行での N の選択については、「インテル® ディストリビューションの LINPACK ベンチマークの異種サポート」を参照してください。
N を大きくすると通常パフォーマンスが向上しますが、N のサイズはメモリーにより制限されます。一般に、行列の格納に必要なメモリー量は、次のように計算できます (各種バッファーは含みません): 8*N*N/(P*Q) バイト。N は問題サイズ、P と Q は HPL.dat のプロセスグリッドです。一般的な経験則として、メモリーの 80% を使用する問題サイズを選択します。
NB - データ配布のブロックサイズ。
以下の表は、CPU バージョンの NB と要素サイズの推奨値を示しています。
プロセッサー |
インテル® ディストリビューションの LINPACK* ベンチマーク |
Intel® Optimized HPL-AI* Benchmark |
|---|---|---|
| インテル® アドバンスト・ベクトル・エクステンション 2 (インテル® AVX-512) 命令対応インテル® Xeon® プロセッサー | 192 | 192 |
| インテル® アドバンスト・ベクトル・エクステンション 512 (インテル® AVX-512) 命令対応インテル® Xeon® プロセッサー | 384 | 384 |
| インテル® ディープ・ラーニング・ブーストおよび bfloat16 を搭載したインテル® アドバンスト・ベクトル・エクステンション 512 (インテル® AVX-512) 命令対応インテル® Xeon® プロセッサー | 384 | 768 |
| インテル® AMX bfloat16 を搭載したインテル® アドバンスト・ベクトル・エクステンション 512 (インテル® AVX-512) 命令対応インテル® Xeon® プロセッサー | 384 | 1536 |
| 要素サイズ | 8 バイト | 4 バイト |
以下の表は、GPU バージョンの NB と要素サイズの推奨値を示しています。
プロセッサー |
インテル® ディストリビューションの LINPACK* ベンチマーク |
Intel® Optimized HPL-AI* Benchmark |
|---|---|---|
| インテル® データセンター GPU シリーズ | 384 | 1152 または 1536 |
| 要素サイズ | 8 バイト | 2 バイト |