GPU ルーフラインの調査パースペクティブを実行すると、 ハードウェアによって制限されるパフォーマンスの上限に対するベンチマークとハードウェア・メトリックのプロファイルを使用して、GPU カーネルの実際のパフォーマンスを推測して視覚化し、主な制限の要因を特定するのに役立ちます。
[Roofline (ルーフライン)] グラフを使用すると、次のようなことが分かります。
現在のハードウェア・リソースで達成可能な最大パフォーマンスは?
アプリケーションは現在のハードウェア・リソースで最適に動作するか?
そうでない場合、最適化の最良の候補は?
メモリー帯域幅や計算能力が各最適化候補のパフォーマンスを制限しているか?
GPU ルーフラインの調査を実行し、GPU での実行が有効になっている SYCL*、OpenMP* を使用した C++/Fortran、インテル® oneAPI レベルゼロ (レベルゼロ)、または OpenCL* アプリケーションのパフォーマンスを測定します。
GPU ルーフラインの調査パースペクティブには次の手順が含まれます。
インテル® Advisor は、次の命令グループの加重合計として計算操作 (FLOP と INTOP) を計算します。BASIC COMPUTE、FMA、BIT、DIV、POW、MATH。
インテル® Advisor は、dst レジスターを使用して、収集された操作のデータタイプを自動的に判別します。
GPU ルーフラインの調査パースペクティブは、GPU で実行されるカーネルと、CPU で実行されるループ/関数のパフォーマンスを測定し、アプリケーションの最適化の必要性を示します。次のパフォーマンス・データを調査します。
GPU と CPU でのアプリケーションの実行時間、CPU と GPU 間のデータ転送時間、アプリケーションが GPU リソースをどの程度活用しているか。
アプリケーションの CPU および GPU 領域のルーフライン・グラフを確認します。
アプリケーションの CPU および GPU で実行される領域の実行時間と各種パフォーマンス・メトリックを示します。
GPU と CPU で時間を消費するループの上位 5 つをセルフ時間とパフォーマンス・メトリックでソートし表示します。パフォーマンスの問題を調査する場合、ここで示されるループから開始することを推奨します。

アプリケーションのパフォーマンスの概要を知るには、[Summary (サマリー)] セクションを参照し、さらに詳しく調査するには [GPU Roofline Insights Regions (GPU ルーフラインの調査領域)] タブを開いてください。