インテル® GPU Optimized HPCG 導入ガイド

ベンチマークを開始するには、以下の操作を行います。

  1. クラスター・ファイル・システムでは、すべてのノードがアクセスできるディレクトリーにインテル® Optimized HPCG パッケージを展開します。パッケージに含まれている readme.txt ファイルに示されているライセンスを承諾します。

  2. hpcg/hpcg_gpu/bin ディレクトリーに移動します。

  3. システムに最適なベンチマークの事前ビルド済みバージョンを決定するか、README.md の手順に従って、ビルドと実行用に提供されている example_*_runscript.sh ファイルを変更して利用するなど、MPI 実装用のベンチマークのバージョンを作成します。

  4. インテル® oneAPI マス・カーネル・ライブラリー (インテル® oneMKL)、インテル® DPC++/C++ コンパイラー、およびインテル® MPI ランタイム環境が適切に設定されていることを確認します。これには、ディストリビューションに含まれている vars.sh スクリプトを使用するか、oneAPI HPCG ツールキットの vars.sh スクリプトを使用して実行できます。

  5. 選択したベンチマークのバージョンを実行します。

    インテル® データセンター GPU マックスシリーズの場合、PVC 最適化バージョンは、GPU タイルごとに 1 つの MPI プロセスで最適なパフォーマンスを発揮します。リファレンス・コード (正当性と収束の検証に使用) は OpenMP* スレッドを利用しますが、これはノード上のランク間で均等に分割される必要があります。具体的には、ノードあたり 4 枚のインテル® データセンター GPU マックス・シリーズ・カード (各カードに 2 つのソケットがあり、ソケットあたり 56 個のコアとコアあたり 2 つの同時マルチスレッド (SMT) スレッドを備えた 2 ソケットの第 4 世代インテル® Xeon® Platinum 8480+) を備えた 128 ノード クラスターの場合、次のように実行可能ファイルを実行します。

    #> export OMP_NUM_THREADS=28; export KMP_AFFINITY=granularity=fine,compact; export SYCL_QUEUE_THREAD_POOL_SIZE=26; mpiexec.hydra --genvall -np 1024 --ppn 8 -f ${nodefile} ./bin/xhpcg_impi_pvc --nx=320 --ny=320 --nz=320 --run-real-ref=1 --affinity-per-node=compact

  6. ベンチマークが実行を完了したら (通常は数分かかります)、現在のディレクトリーにある YAML ファイルを調べて結果を確認します。ベンチマーク・テストを行ったシステムの性能評価は、ファイルの最後のセクションに記述されています。

    HPCG の結果は GFLOPS [GFLOP/s] 評価です。

製品および性能に関する情報

性能は、使用状況、構成、およびその他の要因によって異なります。詳細については、www.Intel.com/PerformanceIndex (英語) をご覧ください。

改訂 #20201201