このリファレンス・セクションでは、オフロードのモデル化と GPU ルーフラインの調査パースペクティブ・レポートのデータカラムについて説明します。
# | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | XYZ
説明: 両方の浮動小数点ユニット (FPU) が使用されている時間の平均パーセンテージ。
GPU ルーフラインの調査パースペクティブのSurvey解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [EU Instructions] カラムグループに表示されます。
説明: すべての実行ユニット (EU) またはベクトルエンジン (XVE) で命令をアクティブに実行するサイクルのパーセンテージ。
GPU ルーフラインの調査パースペクティブでのサーベイ解析中に収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [EU Array] カラムグループ、または [GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [XVE Array] カラムグループ (fインテル® Arc™ グラフィックス・コード名 Alchemist 以降で実行されるコード) にあります。
説明: 達成されたパフォーマンスを理解するのに役立つ、コード領域に関連する追加情報。
オフロードのモデル化パースペクティブのサーベイ解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペインに表示されます。
説明: メモリー割り当て費やされた合計時間。
GPU ルーフラインの調査パースペクティブの特性化解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Data Transferred] カラムグループに表示されます。
表示の要件: [Data Transferred] カラムグループを展開します。
説明: アトミック・メモリー・アクセスの合計数。
オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Atomics] カラムグループに表示されます。
説明: カーネルのアトミックの平均スループット (1 秒あたりの操作数)。
オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Atomics] カラムグループに表示されます。
表示の要件: [Atomics] カラムグループを展開します。
説明: カーネルのアトミックの平均スループット (サイクルあたりの操作数)。
オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Atomics] カラムグループに表示されます。
表示の要件: [Atomics] カラムグループを展開します。
説明: タスク・インスタンスの実行に費やされた平均時間。
GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Kernel Details] カラムグループに表示されます。
表示の要件: [Kernel Details] カラムを展開します。
説明: タスク・インスタンスの実行に費やされた平均時間。このメトリックは、GPU から GPU へのモデル化にのみ利用できます。
オフロードのモデル化パースペクティブの GPU プロファイルを有効にしたサーベイ解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Measured] カラムグループに表示されます。
表示の要件: [Measured] カラムを展開します。
説明: ループ/関数が実行された平均回数。
オフロードのモデル化パースペクティブのトリップカウント (特性化) 解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Measured] カラムグループに表示されます。
表示の要件: [Measured] カラムグループを展開します。
説明: GPU、チップアンコア(LLC) およびメインメモリーから転送されたデータの比率 (ギガバイト/秒)。
GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [GPU Memory] カラムグループに表示されます。
表示の要件: [GPU Memory] カラムを展開します。このメトリックは、折りたたまれた [GPU Memory] カラムにも表示されます。
説明: 実行ユニットまたはベクトルエンジンと L3 キャッシュ間で転送されたデータの比率 (ギガバイト/秒)。
GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [L3 Shader] カラムグループに表示されます。
表示の要件: [L3 Shader] カラムを展開します。このメトリックは、折りたたまれた [L3 Shader] カラムにも表示されます。
説明: データが共有ローカルメモリー (SLM) との間で転送された比率 (ギガバイト/秒)。
GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [SLM] カラムグループに表示されます。
表示の要件: [SLM] カラムを展開します。このメトリックは、折りたたまれた [SLM] カラムにも表示されます。
説明: アプリケーションが実行されるホスト・プラットフォーム。
オフロードのモデル化パースペクティブのサーベイ解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Measured] カラムグループに表示されます。
表示の要件: [Measured] カラムグループを展開します。
説明: ターゲットデバイスにオフロードされるコード領域で推測されるパフォーマンスを制限する要因のリスト。
オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Basic Estimated Metrics] カラムグループに表示されます。
解釈: このメトリックは、コード領域内の 1 つ以上のボトルネックを示します。
カテゴリー |
ボトルネック |
説明 |
|---|---|---|
アルゴリズム |
依存関係 |
データの依存関係により、並列実行の効率が制限されます。依存関係を解決して、このコード領域をオフロードします。 |
カーネルの分解 |
ワークロードを分解する場合、選択したターゲットデバイス上のすべての実行ユニット、またはベクトルエンジンを使用するのに十分な並列スレッドをスケジュールできません。 |
|
トリップカウント |
ループの反復数は、選択したターゲットデバイス上のすべての実行ユニット、またはベクトルエンジンを使用するのに十分ではありません。 |
|
コスト |
データ転送 |
データ転送コストは、最大スループット時間とレイテンシー時間の合計よりも大きくなります。 |
起動コスト |
カーネル起動コストは、最大スループット時間とレイテンシー時間の合計よりも大きくなります。 |
|
スループット |
計算 |
コード領域はターゲットデバイスの機能を十分に活用していますが、計算時間はまだ長いままです。この時間は、ターゲットデバイスの他のすべての実行時間コンポーネントよりも長くなります。 |
グローバルアトミック |
グローバルアトミックの帯域幅時間は、ターゲットデバイスの他のすべての実行時間コンポーネントよりも長くなります。 |
|
メモリー・サブシステム帯域幅 (BW): 例えば、L3 BW、LLC BW、DRAM BW |
メモリー・サブシステムの帯域幅時間は、ターゲットデバイスの他のすべての実行時間コンポーネントよりも長くなります。 |
|
レイテンシー |
レイテンシー |
命令レイテンシーが最大スループット時間を上回っています。 |
推測される時間は、スループット、レイテンシー、データ転送コストと送信コストを含むコストの 4 つの要素の合計として求められます。
時間 = max_throughput_bottleneck_time + non_overlaped_latency + data_transfer_time + kernel_submission_taxes_time
このモデルでは、スループットで定義される時間が完全にオーバーラップしていると仮定し、カラムに示す最大スループットのボトルネックのみを選択します。他のコンポーネントの影響がスループット・コンポーネントと同程度である場合、4 つの要因すべて (スループット、レイテンシー、データ転送/送信) の上位のボトルネックがこのカラムに表示されます。これは、コード領域がこの要因の組み合わせによって制限され、領域のパフォーマンスへの影響が順序付けされることを意味します。
それ以外、例えば相対的なスループットへの影響がレイテンシーやデータ転送の影響よりもはるかに大きい場合、最大スループットのボトルネックのみがほかのボトルネックよりも支配的であるとして表示されます。最大スループット時間が計算時間である場合、インテル® Advisor は、アルゴリズム要因 (依存関係、カーネル分割、トリップカウント) によってコード領域のオフロードが制限されると想定します。
例えば、データ転送と DRAM 帯域幅値の合計は、以下を意味します。

説明: 実行ユニットまたはベクトルエンジンによって使用されるグローバル・メモリー・トラフィックの比率。
GPU ルーフラインの調査パースペクティブの GPU プロファイルが有効にされたサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [L3 Shader] カラムグループに表示されます。
表示の要件: [L3 シェーダー] カラムグループを展開します。このメトリックは、折りたたまれた [L3 Shader] カラムにも表示されます。
計算方法: 観測されたキャッシュ・トラフィックに対するグローバル・メモリー・トラフィックの比率。
解釈: 値が低い場合、カーネルのメモリー・アクセス・パターンは非効率であるか、CPU に適していないことを示す可能性があります。
説明: ループ/関数が呼び出された回数。
オフロードのモデル化パースペクティブのトリップカウント (特性化) 解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Measured] カラムグループに表示されます。
表示の要件: [Measured] カラムグループを展開します。
説明: 実行ユニットまたはベクトルエンジンとの間で転送される合計データ (ギガバイト単位)。
GPU ルーフラインの調査パースペクティブの GPU プロファイルが有効にされた特性化解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペインに表示されます。
説明: オフロードされるループが計算スループットによってのみ制限されていると仮定した場合に推測される実行時間。
オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペインにある [Estimated Bounded By] カラムグループに表示されます。
表示の要件: [Estimated Bounded By]カラムグループを展開します。
説明: 計算タスクのすべての実行ユニット、またはベクトルエンジンで開始されたスレッドの合計数。
GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペインに表示されます。
説明: ホストとターゲット・プラットフォーム間でループがデータを転送するために推測される時間コスト (ミリ秒単位)。パフォーマンスのモデル化でデータの再利用解析を有効にした場合、ターゲット・プラットフォーム上のコード領域間でデータが再利用されることを考慮してメトリック値が計算されます。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Bounded By] カラムグループに表示されます。
収集の要件:
表示の要件: [Estimated Bounded By]カラムグループを展開します。
説明: データが再利用されないことを考慮した、ホストとターゲット・プラットフォーム間でループがデータを転送するために推測される時間コスト (ミリ秒単位)。このメトリックは、パフォーマンスのモデル化でデータの再利用解析が有効である場合にのみ利用されます。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Bounded By] カラムグループに表示されます。
収集の要件:
表示の要件: [Estimated Bounded By]カラムグループを展開します。
説明: データを再利用した場合と、再利用しない場合の推定されるデータ転送時間の差 (ミリ秒単位)。このオプションは、パフォーマンスのモデル化でデータの再利用解析が有効である場合にのみ利用されます。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Bounded By] カラムグループに表示されます。
収集の要件:
表示の要件: [Estimated Bounded By]カラムグループを展開します。
説明: ループの反復間に依存関係が存在するかしないか。
オフロードのモデル化パースペクティブのサーベイと依存関係解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Measured] カラムグループに表示されます。
表示の要件: [Measured] カラムグループを展開します。
設定可能な値:
収集/表示の要件:
このカラムの一部の値は、データ収集時に特定のオプションを指定することで、または依存関係解析を実行した場合にのみ表示されます。
並列の場合: ワークロードと依存関係: <dependency-type>:
並列の場合: ユーザー:
依存関係の場合: ユーザー:
並列の場合: 想定された:
依存関係の場合: 想定された:
解釈:
説明: デバイスからホストへ転送された合計データ。
GPU ルーフラインの調査パースペクティブの FLOP 解析 (特性化) で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Data Transferred] カラムグループに表示されます。
表示の要件: [Data Transferred] カラムグループを展開します。
説明: デバイスからホストへのデータ転送に費やされた合計時間。
GPU ルーフラインの調査パースペクティブの FLOP 解析 (特性化) で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Data Transferred] カラムグループに表示されます。
表示の要件: [Data Transferred] カラムグループを展開します。
説明: DRAM 帯域幅を含む推測される DRAM メモリー使用量 (ギガバイト/秒) と、読み取りおよび書き込みトラフィックの合計として計算された合計 DRAM トラフィックのサマリー。
オフロードのモデル化パースペクティブのトリップカウント (特性化) とパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。
収集の要件:
説明: DRAM 帯域幅。最大 DRAM メモリー帯域幅が達成されたと想定して、DRAM メモリー間との読み書きに費やされる推測時間 (秒単位)。
オフロードのモデル化パースペクティブのトリップカウント (特性化) とパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Bounded By] カラムグループに表示されます。
表示の要件: [Estimated Bounded By]カラムグループを展開します。
説明: DRAM 帯域幅。DRAM との間でデータが転送される推定比率 (ギガバイト/秒)。
オフロードのモデル化パースペクティブのトリップカウント (特性化) とパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。
収集の要件:
表示の要件: [Memory Estimations] カラムグループを展開します。
説明: 推定される DRAM 帯域幅の利用率 (パーセント単位)。
オフロードのモデル化パースペクティブのトリップカウント (特性化) とパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。
収集の要件:
GUI: [Analysis Workflow] ペインで [Cache Simulation] チェックボックスを有効にします。
CLI : 実行するには、--collect=tripcountsアクションを--enable-cache-simulationと--target-device=<target>アクションオプションで実行します。
表示の要件: [Memory Estimations] カラムグループを展開します。
計算方法: 理論上の最大帯域幅に対する平均帯域幅の比率。
説明: DRAM メモリーから読み取られた推測合計データ。
オフロードのモデル化パースペクティブのトリップカウント (特性化) とパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。
収集の要件:
表示の要件: [Memory Estimations] カラムグループを展開します。
説明: 推測される DRAM メモリーとの間で読み書きされた合計データ。
オフロードのモデル化パースペクティブのトリップカウント (特性化) とパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。
収集の要件:
表示の要件: [Memory Estimations] カラムグループを展開します。
説明: DRAM メモリーへ書き込まれた推測合計データ。
オフロードのモデル化パースペクティブのトリップカウント (特性化) とパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。
収集の要件:
表示の要件: [Memory Estimations] カラムグループを展開します。
説明: 計算タスクの実行開始から終了までの実時間。
GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペインに表示されます。
説明: 拡張数学ユニット (EM) パイプラインが処理中の時間の平均パーセンテージ。このメトリックは、インテル® Arc™ グラフィックス (コード名 Alchemist) 以降で実行されるコードで利用できます。
GPU ルーフラインの調査パースペクティブのSurvey解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [XVE Instructions] カラムグループに表示されます。
説明: ターゲット・プラットフォームとの間で読み書きされたデータのサマリー。パフォーマンスのモデル化でデータの再利用解析を有効にした場合、ターゲット・プラットフォーム上のコード領域間でデータが再利用されることを考慮してメトリック値が計算されます。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペインに表示されます。
収集の要件:
説明: オフロードによりターゲット・プラットフォームで推測される、ループの実行開始から終了までの推測経過時間とオフロードされていないコード領域の時間 (オフロードのオーバーヘッドは含まれません)。
オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Basic Estimated Metrics] カラムグループに表示されます。
表示の要件: [Basic Estimated Metrics] カラムグループを展開します。
説明: スロットにスケジュールされたスレッドがある場合、すべての実行ユニット (EU) とスレッドスロットのサイクルのパーセンテージ。
GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペインに表示されます。
説明: GRF からメモリー (L3 キャッシュ) にスピルされたデータを読み取るために使用されるフィル命令数。
GPU ルーフラインの調査パースペクティブのトリップカウントと GPU プロファイルが有効にされた特性化解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Register Spilling] カラムグループに表示されます。
表示の要件: [Register Spilling] カラムグループを展開します。
解釈: メモリーのスピル/フィル (またはロード/ストア) 操作数が多いと、メモリー・トラフィックが大幅に増加してパフォーマンスが低下します。
説明: カーネルの浮動小数点操作のサマリー。
GPU ルーフラインの調査パースペクティブの GPU プロファイル付き特性化解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [GPU Compute Performance] カラムグループに表示されます。
集計:
セル内にカーソルを移動すると、値の説明が表示されます。
説明: 浮動小数点操作 (FLOP) の推測される演算強度 (バイトあたりの操作数)。
オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated FLOAT Operations] カラムグループに表示されます。
グローバルメモリー (DRAM、HBM または GDDR6) に転送された合計バイト数に対する浮動小数点操作の比率として計算されます。
説明: GPU メモリーに転送されたバイト数に対する浮動小数点操作の比率。
GPU ルーフラインの調査パースペクティブの GPU プロファイル付き特性化解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [GPU Compute Performance] カラムグループに表示されます。
表示の要件: [GPU Compute Performance] カラムグループを展開します。このメトリックは、折りたたまれた [FLOAT Operations] カラムにも表示されます。
説明: 浮動小数点ユニット (FPU) パイプラインが処理中の時間の平均パーセンテージ。このメトリックは、インテル® Arc™ グラフィックス (コード名 Alchemist) 以降で実行されるコードで利用できます。
GPU ルーフラインの調査パースペクティブのSurvey解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [XVE Instructions] カラムグループに表示されます。
説明: 浮動小数点ユニット (FPU) および拡張数学 (EM) ユニットのパイプラインが処理中の時間の平均パーセンテージ。このメトリックは、インテル® Arc™ グラフィックス (コード名 Alchemist) 以降で実行されるコードで利用できます。
GPU ルーフラインの調査パースペクティブのSurvey解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [XVE Instructions] カラムグループに表示されます。
説明: 浮動小数点ユニット (FPU) および行列エンジンのパイプラインが処理中の時間の平均パーセンテージ。このメトリックは、インテル® Arc™ グラフィックス (コード名 Alchemist) 以降で実行されるコードで利用できます。
GPU ルーフラインの調査パースペクティブのSurvey解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [XVE Instructions] カラムグループに表示されます。
説明: 領域の合計実行時間に対する、オフロードに有益なコード領域で費やされた時間の比率。
オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Basic Estimated Metrics] カラムグループに表示されます。
表示の要件: [Basic Estimated Metrics] カラムグループを展開します。
解釈: 100% は、オフロードされていない子領域、並列ランタイム・ライブラリーの呼び出し、またはシステムコールが領域内に存在しないことを意味します。
説明: ループが共有メモリーからターゲット・プラットフォームに転送すると推測されるデータ (メガバイト単位)。パフォーマンスのモデル化でデータの再利用解析を有効にした場合、ターゲット・プラットフォーム上のコード領域間でデータが再利用されることを考慮してメトリック値が計算されます。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Data Transfer with Reuse] カラムグループに表示されます。
収集の要件:
表示の要件: [Estimated Data Transfer with Reuse] カラムグループを展開します。
説明: ギガ浮動小数点操作の数。
GPU ルーフラインの調査パースペクティブの GPU プロファイル付き特性化解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [GPU Compute Performance] カラムグループに表示されます。
命令タイプカウント: BASIC COMPUTE、FMA、BIT、DIV、POW、MATH。
表示の要件: [GPU Compute Performance] カラムグループを展開します。このメトリックは、折りたたまれた [FLOAT Operations] カラムにも表示されます。
説明: ギガ浮動小数点操作の推測数。
オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated FLOAT Operations] カラムグループに表示されます。
説明: 32 ビットギガ浮動小数点操作の推定数。
オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated FLOAT Operations] カラムグループに表示されます。
表示の要件: [Estimated FLOAT Operations] カラムグループを展開します。
説明: 64 ビットギガ浮動小数点操作の推定数。
オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated FLOAT Operations] カラムグループに表示されます。
表示の要件: [Estimated FLOAT Operations] カラムグループを展開します。
説明: 1 秒あたりに実行されたギガ浮動小数点操作の数。
GPU ルーフラインの調査パースペクティブの GPU プロファイル付き特性化解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [GPU Compute Performance] カラムグループに表示されます。
命令タイプカウント: BASIC COMPUTE、FMA、BIT、DIV、POW、MATH。
表示の要件: [GPU Compute Performance] カラムグループを展開します。このメトリックは、折りたたまれた [FLOAT Operations] カラムにも表示されます。
説明: 1 秒あたりに実行されたギガ浮動小数点操作の推測数。
オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated FLOAT Operations] カラムグループに表示されます。
説明: 推測される 1 秒あたりに実行された 32 ビットギガ浮動小数点操作の数。
オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated FLOAT Operations] カラムグループに表示されます。
表示の要件: [Estimated FLOAT Operations] カラムグループを展開します。
説明: 推測される 1 秒あたりに実行された 64 ビットギガ浮動小数点操作の数。
オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated FLOAT Operations] カラムグループに表示されます。
表示の要件: [Estimated FLOAT Operations] カラムグループを展開します。
説明: 32 ビットギガ整数操作の推定数。
オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated INT Operations] カラムグループに表示されます。
表示の要件: [Estimated INT Operations] カラムグループを展開します。
説明: 64 ビットギガ整数操作の推定数。
オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated INT Operations] カラムグループに表示されます。
表示の要件: [Estimated INT Operations] カラムグループを展開します。
説明: ギガ整数操作の数。
GPU ルーフラインの調査パースペクティブの GPU プロファイル付き特性化解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [GPU Compute Performance] カラムグループに表示されます。
命令タイプカウント: BASIC COMPUTE、FMA、BIT、DIV、POW、MATH。
表示の要件: [GPU Compute Performance] カラムグループを展開します。このメトリックは、折りたたまれた [INT Operations] カラムにも表示されます。
説明: 推測されるギガ整数操作の数。
オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated INT Operations] カラムグループに表示されます。
説明: 1 秒あたりに実行されたギガ整数操作の数。
GPU ルーフラインの調査パースペクティブの GPU プロファイル付き特性化解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [GPU Compute Performance] カラムグループに表示されます。
命令タイプカウント: BASIC COMPUTE、FMA、BIT、DIV、POW、MATH。
表示の要件: [GPU Compute Performance] カラムグループを展開します。このメトリックは、折りたたまれた [INT Operations] カラムにも表示されます。
説明: 推測される 1 秒あたりに実行されたギガ整数操作の数。
オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated INT Operations] カラムグループに表示されます。
説明: 1 秒あたりに実行される 32 ビットギガ整数操作の推定数。
オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated INT Operations] カラムグループに表示されます。
表示の要件: [Estimated INT Operations] カラムグループを展開します。
説明: 1 秒あたりに実行される 64 ビットギガ整数操作の推定数。
オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated INT Operations] カラムグループに表示されます。
表示の要件: [Estimated INT Operations] カラムグループを展開します。
説明: すべてのワークグループのワーク項目の合計数。
GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Work Size] カラムグループに表示されます。
説明: ターゲット・プラットフォームにオフロードされ、実行されるループ内で推測されるワーク項目の合計数。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Compute Estimates] カラムグループに表示されます。
表示の要件: [Compute Estimates] カラムグループを展開します。
説明: ベースライン・デバイス上のカーネル・インスタンス内のワーク項目の合計数。このメトリックは、GPU から GPU へのモデル化にのみ利用できます。
オフロードのモデル化パースペクティブの GPU プロファイルを有効にしたサーベイ解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Measured] カラムグループに表示されます。
表示の要件: [Measured] カラムグループを展開します。
説明: カーネルでの GPUメモリーの使用状況のサマリー。GPU メモリーは、GPU、チップアンコア(LLC) およびメインメモリーとの間で転送されたデータの比率です。
GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペインに表示されます。
集計: カラムでは次のメトリックがレポートされます。
セル内にカーソルを移動すると、値の説明が表示されます。
説明: シェーダー・アトミック・メモリー・アクセスの合計数。
GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペインに表示されます。
説明: シェーダー・バリア・メッセージの合計数。
GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペインに表示されます。
説明: GTI 帯域幅を含む推測される GTI メモリー使用量 (ギガバイト/秒) と、読み取りおよび書き込みトラフィックの合計として計算された合計 GTI トラフィックのサマリー。
オフロードのモデル化パースペクティブのトリップカウント (特性化) とパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。
収集の要件:
説明: グラフィックス・テクノロジー・インターフェイス (GTI) 帯域幅最大 GTI メモリー帯域幅が達成されたと想定して、GTI メモリー間との読み書きに費やされる推測時間 (秒単位)。
オフロードのモデル化パースペクティブのトリップカウント (特性化) とパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Bounded By] カラムグループに表示されます。
表示の要件: [Estimated Bounded By]カラムグループを展開します。
説明: グラフィックス・テクノロジー・インターフェイス (GTI) 帯域幅GTI との間でデータが転送される推定比率 (ギガバイト/秒)。
オフロードのモデル化パースペクティブのトリップカウント (特性化) とパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。
収集の要件:
表示の要件: [Memory Estimations] カラムグループを展開します。
説明: グラフィックス・テクノロジー・インターフェイス (GTI) 利用率推定される GTI 帯域幅の利用率 (パーセント単位)。
オフロードのモデル化パースペクティブのトリップカウント (特性化) とパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。
収集の要件:
GUI: [Analysis Workflow] ペインで [Cache Simulation] チェックボックスを有効にします。
CLI : 実行するには、--collect=tripcountsアクションを--enable-cache-simulationと--target-device=<target>アクションオプションで実行します。
表示の要件: [Memory Estimations] カラムグループを展開します。
計算方法: 理論上の最大帯域幅に対する平均帯域幅の比率。
説明: GTI メモリーからの読み取りが推測される合計データ。
オフロードのモデル化パースペクティブのトリップカウント (特性化) とパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。
収集の要件:
表示の要件: [Memory Estimations] カラムグループを展開します。
説明: 推測される GTI メモリーとの間で読み書きされた合計データ。
オフロードのモデル化パースペクティブのトリップカウント (特性化) とパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。
収集の要件:
表示の要件: [Memory Estimations] カラムグループを展開します。
説明: GTI メモリーへ書き込まれた推定合計データ。
オフロードのモデル化パースペクティブのトリップカウント (特性化) とパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。
収集の要件:
表示の要件: [Memory Estimations] カラムグループを展開します。
説明: 1 つのアトミック SEND 命令によって生成されるアトミックアクセスの平均数。
オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Atomics] カラムグループに表示されます。
表示の要件: [Atomics] カラムグループを展開します。
説明: ホストからデバイスへ転送された合計データ。
GPU ルーフラインの調査パースペクティブの FLOP 付きの特性化解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Data Transferred] カラムグループに表示されます。
表示の要件: [Data Transferred] カラムグループを展開します。
説明: ホストからデバイスへのデータ転送に費やされた合計時間。
GPU ルーフラインの調査パースペクティブの FLOP 付きの特性化解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Data Transferred] カラムグループに表示されます。
表示の要件: [Data Transferred] カラムグループを展開します。
説明: EU または XVE でスレッドがスケジュールされていない場合、すべての実行ユニット (EU) またはベクトルエンジン (XVE) のサイクルのパーセンテージ。
GPU ルーフラインの調査パースペクティブでのサーベイ解析中に収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [EU Array] カラムグループ、または [GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [XVE Array] カラムグループ (インテル® Arc™ グラフィックス・コード名 Alchemist 以降で実行されるコード) に表示されます。
説明: システムコールと、オフロードが推奨されるコード領域内で無視されたモジュールまたは並列ランタイム・ライブラリー呼び出して費やされた時間。
オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Non-User Code Metrics] カラムグループに表示されます。
収集の要件: CLI から--collect=projectionアクションを--ignore=<code-to-ignore>アクションオプションで実行します。例えば、MPI および OpenMP* 呼び出しを無視するには、--ignore=MPI,OMP フラグを使用します。
表示の要件: [Time in Non-User Code] カラムグループを展開します。
解釈: 無視されたコード部分は推測には使用されません。オフロードされたコード領域の推測時間には影響しません。
説明: GPU でタスクが実行された合計回数。
GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Kernel Details] カラムグループに表示されます。
表示の要件: [Kernel Details] カラムを展開します。
説明: ターゲット・プラットフォームでループが実行される推測合計回数。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Compute Estimates] カラムグループに表示されます。
表示の要件: [Compute Estimates] カラムグループを展開します。
説明: ベースライン GPU デバイスでループが実行される合計回数。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Measured] カラムグループに表示されます。
説明: 転送されたバイト数に対する整数操作の数。
GPU ルーフラインの調査パースペクティブの GPU プロファイル付き特性化解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [GPU Compute Performance] カラムグループに表示されます。
命令タイプカウント: BASIC COMPUTE、FMA、BIT、DIV、POW、MATH。
表示の要件: [GPU Compute Performance] カラムグループを展開します。このメトリックは、折りたたまれた [INT Operations] カラムにも表示されます。
説明: 整数操作の推測される演算強度 (バイトあたりの操作数)。
オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated FLOAT Operations] カラムグループに表示されます。
グローバルメモリー (DRAM、HBM または GDDR6) に転送された合計バイト数に対する整数操作の比率として計算されます。
説明: カーネルで使用される整数操作のサマリー。
GPU ルーフラインの調査パースペクティブの GPU プロファイル付き特性化解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [GPU Compute Performance] カラムグループに表示されます。
集計:
セル内にカーソルを移動すると、値の説明が表示されます。
説明: 2 つの浮動小数点ユニット (FPU) パイプラインで計算された 1 サイクルあたりの平均命令比率 (IPC)。インテル® Arc™ グラフィックス・コード名 Alchemist 以降で実行されるコードは、IPC レートは拡張数学 (EM) ユニットおよび浮動小数点ユニット (FPU) パイプラインに対して計算されます。
GPU ルーフラインの調査パースペクティブでのサーベイ解析中に収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [EU Instructions] カラムグループ、または [GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [XVE Instructions] カラムグループ (インテル® Arc™ グラフィックス・コード名 Alchemist 以降で実行されるコード) に表示されます。
説明: ベースライン・デバイスで測定された反復メトリックのサマリー。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、または GPU プロファイルが有効にされたサーベイ解析中 (GPU 領域向け) に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Measured] カラムグループに表示されます。
集計: CPU - GPU のモデル化では、このカラムには次のメトリックが示されます。
GPU - GPU のモデル化では、このカラムには次のメトリックが示されます。
説明: カーネル名
GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペインに表示されます。
説明: ループをターゲット・プラットフォームにオフロードする際に、カーネルを起動するために推測される合計時間コスト。データ転送のコストは含みません。
オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Bounded By] カラムグループに表示されます。
表示の要件: [Estimated Bounded By]カラムグループを展開します。
説明: カーネルが実行するアクション。
GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペインに表示されます。
設定可能な値:
説明: ループ/関数内で検出された上位レイテンシー (ミリ秒単位)。
オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Bounded By] カラムグループに表示されます。
説明: L3 帯域幅最大 L3 キャッシュ帯域幅が達成されたと想定して、L3 キャッシュ間との読み書きに費やされる推測時間 (秒単位)。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Bounded By] カラムグループに表示されます。
表示の要件: [Estimated Bounded By]カラムグループを展開します。
説明: L3 キャッシュ帯域幅を含む推測される L3 キャッシュの使用量 (ギガバイト/秒) と、読み取りおよび書き込みトラフィックの合計として計算された合計 L3 キャッシュ・トラフィックのサマリー。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。
収集の要件:
説明: L3 キャッシュとの間でデータが転送される推定比率 (ギガバイト/秒)。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。
収集の要件:
表示の要件: [Memory Estimations] カラムグループを展開します。
説明: L3 キャッシュ帯域幅の推測される利用率 (パーセント) は、理論上の最大帯域幅に対する平均帯域幅の比率として計算されます。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。
収集の要件:
表示の要件: [Memory Estimations] カラムグループを展開します。
説明: 推測される L3 キャッシュから読み取られた合計データ。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。
収集の要件:
表示の要件: [Memory Estimations] カラムグループを展開します。
説明: 推測される L3 キャッシュとの間で読み書きされた合計データ。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。
収集の要件:
表示の要件: [Memory Estimations] カラムグループを展開します。
説明: L3 キャッシュへ書き込まれた推測合計データ。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。
収集の要件:
表示の要件: [Memory Estimations] カラムグループを展開します。
説明: カーネルの L3 キャッシュ使用状況のサマリー。
GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペインに表示されます。
集計: カラムでは次のメトリックがレポートされます。
セル内にカーソルを移動すると、値の説明と解釈のヒントが表示されます。
説明: LLC 帯域幅を含む推測される LLC の使用量 (ギガバイト/秒) と、読み取りおよび書き込みトラフィックの合計として計算された合計 LLC トラフィックのサマリー。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。
収集の要件:
説明: ラスト・レベル・キャッシュ (LLC) 帯域幅。最大 LLC 帯域幅が達成されたと想定して、LLC 間との読み書きに費やされる推測時間 (秒単位)。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Bounded By] カラムグループに表示されます。
表示の要件: [Estimated Bounded By]カラムグループを展開します。
説明: LLC との間でデータが転送される推定比率 (ギガバイト/秒)。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。
収集の要件:
表示の要件: [Memory Estimations] カラムグループを展開します。
説明: 推定される LLC 帯域幅の利用率 (パーセント単位)。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。
収集の要件:
GUI: [Analysis Workflow] ペインで [Cache Simulation] チェックボックスを有効にします。
CLI : 実行するには、--collect=tripcountsアクションを--enable-cache-simulationと--target-device=<target>アクションオプションで実行します。
表示の要件: [Memory Estimations] カラムグループを展開します。
計算方法: 理論上の最大帯域幅に対する平均帯域幅の比率。
説明: 推測される LLC キャッシュから読み取られた合計データ。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。
収集の要件:
表示の要件: [Memory Estimations] カラムグループを展開します。
説明: 推測される LLC キャッシュとの間で読み書きされた合計データ。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。
収集の要件:
表示の要件: [Memory Estimations] カラムグループを展開します。
説明: 推測される LLC キャッシュへ書き込まれた合計データ。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。
収集の要件:
表示の要件: [Memory Estimations] カラムグループを展開します。
説明: コード領域で明らかになったキャッシュ、またはメモリーのロード・レイテンシー (ミリ秒単位)
オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Bounded By] カラムグループに表示されます。
表示の要件: [Estimated Bounded By]カラムグループ。
説明: 1 つのワークグループ内のワーク項目の合計数。
GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Work Size] カラムグループに表示されます。
説明: 各スレッド・グループで使用されたローカル・メモリー・サイズ。
GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Kernel Details] カラムグループに表示されます。
表示の要件: [Kernel Details] カラムを展開します。
説明: ターゲット・プラットフォームにオフロードされ、実行されるループ内のワークグループで推測されるワーク項目の合計数。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Compute Estimates] カラムグループに表示されます。
表示の要件: [Compute Estimates] カラムグループを展開します。
説明: カーネルの 1 つのワークグループ内のワーク項目の合計数。このメトリックは、GPU から GPU へのモデル化にのみ利用できます。
オフロードのモデル化パースペクティブの GPU プロファイルを有効にしたサーベイ解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Measured] カラムグループに表示されます。
表示の要件: [Measured] カラムグループを展開します。
説明: 呼び出しツリーのループ/関数のサブツリー領域内のループ/関数の名前とソースの場所。
オフロードのモデル化パースペクティブのサーベイ解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペインに表示されます。
説明: 行列エンジン・パイプラインが処理中の時間の平均パーセンテージ。このメトリックは、インテル® Arc™ グラフィックス (コード名 Alchemist) 以降で実行されるコードで利用できます。
GPU ルーフラインの調査パースペクティブのSurvey解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [XVE Instructions] カラムグループに表示されます。
説明: スレッドごとに汎用レジスターファイル (GRF) からスピルされたデータ (変数) のサイズ (バイト単位)。
GPU ルーフラインの調査パースペクティブのトリップカウントと GPU プロファイルが有効にされた特性化解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Register Spilling] カラムグループに表示されます。
表示の要件: [Register Spilling] カラムグループを展開します。このメトリックは、折りたたまれた [Register Spilling] カラムにも表示されます。
解釈: 値が大きいほど、レジスタースピルによってパフォーマンスが低下することを意味します。
説明: レジスタースピルによって発生した汎用レジスターファイル (GRF) と L3 間のメモリー・トラフィックの合計 (合計トラフィックに対する比率)。
GPU ルーフラインの調査パースペクティブのトリップカウントと GPU プロファイルが有効にされた特性化解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Register Spilling] カラムグループに表示されます。
表示の要件: [Register Spilling] カラムグループを展開します。
解釈: 比率が低いほどカーネルは適切に最適化されていることを意味します。高い値が示される場合、スピル/フィルのトラフィックが合計トラフィックの大部分を占めており、カーネルのパフォーマンスを大幅に制限する可能性があることを意味します。
計算方法: 観測されたキャッシュ・トラフィックの合計に対するスピル/フィル・トラフィックの合計の比率。
説明: プログラムモジュール名。
オフロードのモデル化パースペクティブのサーベイ解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Location] カラムグループに表示されます。
表示の要件: [Location] カラムグループを展開します。
説明: データ転送とカーネル起動に費やされた合計時間 (ミリ秒単位)。
オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Bounded By] カラムグループに表示されます。
表示の要件: [Estimated Bounded By]カラムグループを展開します。
説明: コード領域をターゲット・プラットフォームにオフロードすることが有益であるかを示す指標。トップダウン・ペインでは、子ループや子関数のオフロードのノード位置もレポートされます。
オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Basic Estimated Metrics] カラムグループに表示されます。
説明: オフロードされたコードのオフロードされない領域で費やされる推測合計時間。
オフロードのモデル化パースペクティブのサーベイとパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Time in Non-User Code] カラムグループに表示されます。
計算方法: このカラムには、次のメトリックの合計が示されます。
解釈: これらのコード部分はオスロード領域内にありますが、パフォーマンス・モデルでは、ベースライン・デバイスで実行されることを前提としています。このようなコードの例として、OpenMP コード領域、SYCL ランタイム、そしてシステムコールなどがあります。
説明: ループ/関数のターゲットデバイス上で並列実行されるループ反復やカーネルのワーク項目数。
オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Compute Estimates] カラムグループに表示されます。
説明: すべての実行ユニット (EU) またはベクトルエンジン (XVE) で同時にスケジュールされるスレッドの推定数。
オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Compute Estimates] カラムグループに表示されます。
表示の要件: [Compute Estimates] カラムグループを展開します。
説明: パフォーマンスの問題と、GPU で実行されるコード領域を最適化する推奨事項。
GPU ルーフラインの調査パースペクティブのサーベイ、特性化、およびパフォーマンスのモデル化解析中に収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペインに表示されます。
解釈: クリックすると、[GPU Roofline Regions] タブの [Recommendations] ペインで、サンプルコードと修正例を含む推奨事項がすべて表示されます。
説明: コード領域をオフロードする際の推奨事項と、推測されるパフォーマンスのサマリーおよび最適化のヒントと潜在的な問題が示されます。
オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペインに表示されます。
解釈: クリックすると、[Accelerated Regions] タブの [Recommendations] ペインで、SYCL と OpenMP* プログラミング・モデルを使用してコード領域をオフロードしたり、パフォーマンスの問題を修正する例を含む推奨事項がすべて表示されます。
説明: ターゲットターゲット・プラットフォームからループがプライベート・メモリーに転送した推測データの合計。パフォーマンスのモデル化でデータの再利用解析を有効にした場合、ターゲット・プラットフォーム上のコード領域間でデータが再利用されることを考慮してメトリック値が計算されます。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Data Transfer with Reuse] カラムグループに表示されます。
収集の要件:
表示の要件: [Estimated Data Transfers with Reuse] カラムグループを展開します。
説明: コンパイラーによって各スレッドに割り当てられたプライベート・メモリー・サイズ。
GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Kernel Details] カラムグループに表示されます。
表示の要件: [Kernel Details] カラムを展開します。
説明: オフロード領域によるターゲット・プラットフォームからの読み取り推測データ (ギガバイト単位)。パフォーマンスのモデル化でデータの再利用解析を有効にした場合、ターゲット・プラットフォーム上のコード領域間でデータが再利用されることを考慮してメトリック値が計算されます。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Data Transfer with Reuse] カラムグループに表示されます。
収集の要件:
表示の要件: [Estimated Data Transfers with Reuse] カラムグループを展開します。
説明: GPU、チップアンコア (LLC) およびメインメモリーから読み取られた合計データ (ギガバイト)。
GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [GPU Memory] カラムグループに表示されます。
表示の要件: [GPU Memory] カラムグループを展開します。
説明: レジスタースピルにより、L3 メモリーから読み取りまたはフィルされたデータの合計 (ギガバイト単位)。
GPU ルーフラインの調査パースペクティブのトリップカウントと GPU プロファイルが有効にされた特性化解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Register Spilling] カラムグループに表示されます。
表示の要件: [Register Spilling] カラムグループを展開します。
説明: 共有ローカルメモリー (SLM) から読み取られた合計データ (ギガバイト単位)。
GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [SLM] カラムグループに表示されます。
表示の要件: [SLM] カラムグループを展開します。
説明: GPU、チップアンコア(LLC) およびメインメモリーからデータが読み取られる比率 (ギガバイト/秒)。
GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [GPU Memory] カラムグループに表示されます。
表示の要件: [GPU Memory] カラムグループを展開します。
説明: データが共有ローカルメモリー (SLM) からの読み取られる比率 (ギガバイト/秒)。
GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [SLM] カラムグループに表示されます。
表示の要件: [SLM] カラムグループを展開します。
説明: データが再利用されないことを考慮し、コード領域でターゲット・プラットフォームから読み取られた推測データ (メガバイト単位)。このメトリックは、パフォーマンスのモデル化でデータの再利用解析が有効である場合にのみ利用されます。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Data Transfer with Reuse] カラムグループに表示されます。
収集の要件:
表示の要件: [Estimated Data Transfers with Reuse] カラムグループを展開します。
説明: コード領域で使用されるプログラミング・モデル。
オフロードのモデル化パースペクティブのサーベイ解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Measured] カラムグループに表示されます。
説明: カーネルのパフォーマンスに対するレジスタースピルの影響のサマリー
GPU ルーフラインの調査パースペクティブのトリップカウントと GPU プロファイルが有効にされた特性化解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペインに表示されます。
解釈: レジスタースピルは、スレッドブロック (またはワーク項目) が汎用レジスターファイル (GRF) 内で利用可能な空間よりも多くの空間を必要とするため、レジスターのデータが L3 キャッシュを介してメモリーに保存されます。次のそのデータが必要になると、アプリケーションはそれを L3 キャッシュメモリーから読み取るか、フィルする必要があるためメモリー操作が増えます。その結果、カーネル内でレジスタースピルが発生するとパフォーマンスが低下します。
最高のパフォーマンスを達成するには、カーネル内にスピルがあってはなりません。
集計:
説明: アトミックな SEND 命令の平均繰り返し回数。
GPU がアトミック操作をサポートしていない場合、比較とスワップ (CAS) アトミックが呼び出されます。データをレジスターにロードして計算し、結果を前の値と比較します。値が一致しない場合、別のスレッドが値を変更したため、現在の結果は無効であることを意味します。そして、再計算のため CAS アトミックはデータを再びロードして、操作し、比較を繰り返します。アトミック SEND 命令の平均的な繰り返し回数は、repetitions (繰り返し) メトリックとしてレポートされます。
オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Atomics] カラムグループに表示されます。
表示の要件: [Atomics] カラムグループを展開します。
シェーダーアトミック / 想定されるアトミックとして計算されます。 説明:
想定されるアトミックの数は、繰り返しなしでカーネル内で呼び出されるアトミックの予想数です。これは、静的アトミック * ワーク項目 / 平均実行サイズとして計算されます。
静的アトミックは、ソースコードで定義されるアトミックの数です。それぞれの静的アトミックは、特定の平均実行サイズ (命令が並列実行できる要素数) を持つアトミック SEND 命令に変換されます (SIMD モデル)。平均実行サイズに対するワーク項目の比率は、1 つのソースの静的アトミックに対するアトミック SEND による制限の推定数です。
説明: 送信パイプラインがアクティブに処理されている場合の、すべての実行ユニット (EU) またはベクトルエンジン (XVE) のサイクルのパーセンテージ。
GPU ルーフラインの調査パースペクティブでのサーベイ解析中に収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [EU Instructions] カラムグループ、または [GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [XVE Instructions] カラムグループ (インテル® Arc™ グラフィックス・コード名 Alchemist 以降で実行されるコード) に表示されます。
説明: シングル GPU スレッドによって処理されるワーク項目数。
GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Kernel Details] カラムグループに表示されます。
表示の要件: [Kernel Details] カラムを展開します。
説明: ターゲット・プラットフォーム上の単一スレッドによって処理されるワーク項目の推定数。
オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Compute Estimates] カラムグループに表示されます。
表示の要件: [Compute Estimates] カラムグループを展開します。
説明: ベースライン・デバイス上の単一スレッドによって処理されるワーク項目の数。このメトリックは、GPU から GPU へのモデル化にのみ利用できます。
オフロードのモデル化パースペクティブの GPU プロファイルを有効にしたサーベイ解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Measured] カラムグループに表示されます。
表示の要件: [Measured] カラムグループを展開します。
説明: カーネルでの共有ローカルメモリー (SLM) の使用状況のサマリー。
GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペインに表示されます。
集計: カラムでは次のメトリックがレポートされます。
セル内にカーソルを移動すると、値の説明が表示されます。
説明: SLM 帯域幅を含む推測される SLM 使用量 (ギガバイト/秒) と、読み取りおよび書き込みトラフィックの合計として計算された合計 SLM トラフィックのサマリー。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。
説明: 共有ローカルメモリー (SLM) 帯域幅。最大 SLM 帯域幅が達成されたと想定して、SLM 間との読み書きに費やされる推測時間 (秒単位)。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Bounded By] カラムグループに表示されます。
表示の要件: [Estimated Bounded By]カラムグループを展開します。
説明: 共有ローカルメモリー (SLM) 帯域幅。SLM との間でデータが転送される推定平均比率。この値は動的であり、帯域幅の値に対応して 1 秒あたりのバイト、1 秒あたりのキロバイト、1 秒あたりのメガバイトなどで測定できます。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。
表示の要件: [Memory Estimations] カラムグループを展開します。
説明: 推定される SLM 帯域幅の利用率 (パーセント単位)。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。
表示の要件: [Memory Estimations] カラムグループを展開します。
計算方法: 理論上の最大帯域幅に対する平均帯域幅の比率。
説明: SLM から読み取られた推測合計データ。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。
表示の要件: [Memory Estimations] カラムグループを展開します。
説明: 推測される SLM との間で読み書きされた合計データ。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。
表示の要件: [Memory Estimations] カラムグループを展開します。
説明: 共有ローカルメモリー (SLM) への書き込み推測合計データ。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。
表示の要件: [Memory Estimations] カラムグループを展開します。
説明: ソースファイル名と行番号。
オフロードのモデル化パースペクティブのサーベイ解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Location] カラムグループに表示されます。
解釈: このカラムでは、コード領域がどこにあるかを確かめることができます。
説明: ソースファイル名と行番号。
GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペインに表示されます。
解釈: このカラムでは、カーネルがどこにあるかを確かめることができます。
説明: GRF からメモリー (L3 キャッシュ) に退避するために使用されるスピル命令数。
GPU ルーフラインの調査パースペクティブのトリップカウントと GPU プロファイルが有効にされた特性化解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Register Spilling] カラムグループに表示されます。
表示の要件: [Register Spilling] カラムグループを展開します。
解釈: メモリーのスピル/フィル (またはロード/ストア) 操作数が多いと、メモリー・トラフィックが大幅に増加してパフォーマンスが低下します。
説明: 最低 1 つのスレッドがスケジュールされ EU または XVE がストールしている場合の、すべての実行ユニット (EU) またはベクトルエンジン (XVE) のサイクルのパーセンテージ。
GPU ルーフラインの調査パースペクティブでのサーベイ解析中に収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [EU Array] カラムグループ、または [GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [XVE Array] カラムグループ (fインテル® Arc™ グラフィックス・コード名 Alchemist 以降で実行されるコード) にあります。
GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Kernel Details] カラムグループに表示されます。
表示の要件: [Kernel Details] カラムを展開します。
説明: 元の経過時間と比較した、ターゲットデバイスでのオフロード後に推定されるスピードアップ。
オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Basic Estimated Metrics] カラムグループに表示されます。
解釈: スピードアップが 1 より大きい場合、コード領域をターゲットデバイスにオフロードすることが推奨されます。また、1 以下の場合はオフロードの恩恵がないことを意味します。
説明: 同期タスクに費やされた合計時間。
GPU ルーフラインの調査パースペクティブの特性化解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Data Transferred] カラムグループに表示されます。
表示の要件: [Data Transferred] カラムグループを展開します。
説明: ホストからターゲット・プラットフォームにループをオフロードする際に推測される最大時間コストと他のすべてのコストの合計。パフォーマンスのモデル化でデータの再利用解析を有効にした場合、ターゲット・プラットフォーム上のコード領域間でデータが再利用されることを考慮してメトリック値が計算されます。セルに表示される三角形のアイコンは、この領域でデータが再使用されたことを示します。
これにより、推測されるデータ転送コストが軽減します。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Bounded By] カラムグループに表示されます。
説明: ターゲットデバイスで推測される、すべての実行ユニットまたはベクトルエンジンで占有されるスレッドスロットの平均パーセンテージ。
オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Compute Estimates] カラムグループに表示されます。
表示の要件: [Compute Estimates] カラムグループを展開します。
説明: ベースライン・デバイスで測定された、すべての実行ユニットまたはベクトルエンジンで占有されるスレッドスロットの平均パーセンテージ。このメトリックは、GPU から GPU へのモデル化にのみ利用できます。
オフロードのモデル化パースペクティブの GPU プロファイルを有効にしたサーベイ解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Measured] カラムグループに表示されます。
表示の要件: [Measured] カラムグループを展開します。
説明: 実行ユニット (EU) ごとに同時にスケジュールされるスレッドの推定数。
オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Compute Estimates] カラムグループに表示されます。
表示の要件: [Compute Estimates] カラムグループを展開します。
説明: ベクトルエンジン (XVE) ごとに同時にスケジュールされるスレッドの推定数。このメトリックは、インテル® Arc™ グラフィックス・コード名 Alchemist (インテル® Advisor の XeHPG 256 および XeHPG 512 ターゲットデバイス構成以降) のパフォーマンスをモデル化する場合に使用できます。このメトリックは、従来の用語 EU ごとのスレッドメトリックと同じ意味です。
オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Compute Estimates] カラムグループに表示されます。
表示の要件: [Compute Estimates] カラムグループを展開します。
説明: ループ/関数が依存する上位 2 つの要因 (ミリ秒単位)。
オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Bounded By] カラムグループに表示されます。
説明: オフロードによりターゲット・プラットフォームで推測される、ループの実行開始から終了までに推測される経過時間 (オフロードのオーバーヘッドは含む) の合計時間に対するパーセンテージ。
オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Basic Estimated Metrics] カラムグループに表示されます。
説明: ホスト・プラットフォームで測定されたループの実行開始から終了までの経過時間。
オフロードのモデル化パースペクティブのサーベイ解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Measured] カラムグループに表示されます。
説明: 最大 DRAM メモリー帯域幅が達成されたと想定して、DRAM メモリー間との読み書きに費やされる推測時間 (秒単位)。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。
収集の要件:
表示の要件: [Memory Estimations] カラムグループを展開します。
説明: 最大 GTI 帯域幅が達成されたと想定して、グラフィックス・テクノロジー・インターフェイス (GTI) 間との読み書きに費やされる推測時間 (秒単位)。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。
表示の要件: [Memory Estimations] カラムグループを展開します。
説明: 最大 L3 キャッシュ帯域幅が達成されたと想定して、L3 キャッシュ間との読み書きに費やされる推測時間 (秒単位)。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。
収集の要件:
表示の要件: [Memory Estimations] カラムグループを展開します。
説明: 最大ラスト・レベル・キャッシュ (LLC) 帯域幅が達成されたと想定して、LLC 間との読み書きに費やされる推測時間 (秒単位)。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。
収集の要件:
表示の要件: [Memory Estimations] カラムグループを展開します。
説明: 最大 SLM 帯域幅が達成されたと想定して、SLM 間との読み書きに費やされる推測時間 (秒単位)。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。
表示の要件: [Memory Estimations] カラムグループを展開します。
説明: 共有メモリーからループがターゲット・プラットフォームに転送した推測データ (ギガバイト単位)。パフォーマンスのモデル化でデータの再利用解析を有効にした場合、ターゲット・プラットフォーム上のコード領域間でデータが再利用されることを考慮してメトリック値が計算されます。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Data Transfer with Reuse] カラムグループに表示されます。
収集の要件:
表示の要件: [Estimated Data Transfer with Reuse] カラムグループを展開します。
説明: ループによって共有メモリーとターゲットターゲット・プラットフォームとの間で転送された推測データの合計 (メガバイト単位)。パフォーマンスのモデル化でデータの再利用解析を有効にした場合、ターゲット・プラットフォーム上のコード領域間でデータが再利用されることを考慮してメトリック値が計算されます。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Data Transfer with Reuse] カラムグループに表示されます。
収集の要件:
表示の要件: [Estimated Data Transfer with Reuse] カラムグループを展開します。
説明: ループをオフロードする際にターゲット・プラットフォームへ送信される推測合計トラフィックと、ターゲット・プラットフォームから受信する推測合計トラフィック (メガバイト単位)。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Data Transfer with Reuse] カラムグループに表示されます。
収集の要件:
表示の要件: [Estimated Data Transfer with Reuse] カラムグループを展開します。
計算方法: (MappedTo + MappedFrom + 2*MappedToFrom)。パフォーマンスのモデル化でデータの再利用解析を有効にした場合、ターゲット・プラットフォーム上のコード領域間でデータが再利用されることを考慮してメトリック値が計算されます。
説明: GPU、チップアンコア (LLC) およびメインメモリーとの間で転送された合計データ (ギガバイト)。
GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [GPU Memory] カラムグループに表示されます。
表示の要件: [GPU Memory] カラムを展開します。このメトリックは、折りたたまれた [GPU Memory] カラムにも表示されます。
説明: 実行ユニットまたはベクトルエンジンと L3 キャッシュ間で転送された合計データ (ギガバイト)。
GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [L3 Shader] カラムグループに表示されます。
表示の要件: L3 シェーダーカラムを展開します。このメトリックは、折りたたまれた [L3 Shader] カラムにも表示されます。
説明: 共有ローカルメモリー (SLM) との間で転送された合計データ (ギガバイト単位)。
GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [SLM] カラムグループに表示されます。
表示の要件: [SLM] カラムを展開します。このメトリックは、折りたたまれた [SLM] カラムにも表示されます。
説明: CPU と GPU 間で転送されたデータの平均帯域幅。
GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Data Transferred] カラムグループに表示されます。
表示の要件: [Data Transferred] カラムグループを展開します。
解釈: clEnqueueMapBufferなど一部のケースでは、メモリーにコピーされずに L3 キャッシュが共有されることで、髙い帯域幅値の転送が行われる可能性があります。
説明: GPU で処理された合計データ。
GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Data Transferred] カラムグループに表示されます。
説明: ホストからデバイスへ、およびデバイスからホストへのデータ転送にかかる合計時間。
GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Data Transferred] カラムグループに表示されます。
説明: タスクの実行に費やされた合計時間。
GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Kernel Details] カラムグループに表示されます。
表示の要件: [Kernel Details] カラムを展開します。
説明: オフロードされたコード領域でインテル® データ・アナリティクス・アクセラレーション・ライブラリー (インテル® DAAL) 呼び出しに費やされた合計時間 (秒単位)。
オフロードのモデル化パースペクティブのサーベイ解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Time in Non-User Code] カラムグループに表示されます。
表示の要件: [Time in Non-User Code] カラムグループを展開します。
解釈: カラムの値が 0 より大きい場合、コード領域には DAAL 呼び出しが含まれます。
説明: オフロードされたコード領域で SYCL 呼び出しに費やされた合計時間 (秒単位)。
オフロードのモデル化パースペクティブのサーベイ解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Time in Non-User Code] カラムグループに表示されます。
表示の要件: [Time in Non-User Code] カラムグループを展開します。
解釈: カラムの値が 0 より大きい場合、コード領域には SYCL 呼び出しが含まれます。
説明: オフロードされたコード領域で MPI 呼び出しに費やされた合計時間 (秒単位)。
オフロードのモデル化パースペクティブのサーベイ解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Time in Non-User Code] カラムグループに表示されます。
解釈: カラムの値が 0 より大きい場合、コード領域には MPI 呼び出しが含まれます。
説明: オフロードされたコード領域で OpenCL 呼び出しに費やされた合計時間 (秒単位)。
オフロードのモデル化パースペクティブのサーベイ解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Time in Non-User Code] カラムグループに表示されます。
表示の要件: [Time in Non-User Code] カラムグループを展開します。
解釈: カラムの値が 0 より大きい場合、コード領域には OpenCL 呼び出しが含まれます。
説明: オフロードされたコード領域で OpenMP 呼び出しに費やされた合計時間 (秒単位)。
オフロードのモデル化パースペクティブのサーベイ解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Time in Non-User Code] カラムグループに表示されます。
表示の要件: [Time in Non-User Code] カラムグループを展開します。
解釈: カラムの値が 0 より大きい場合、コード領域には OpenMP 呼び出しが含まれます。
説明: オフロードされたコード領域でシステムコールに費やされた合計時間 (秒単位)。
オフロードのモデル化パースペクティブのサーベイ解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Time in Non-User Code] カラムグループに表示されます。
表示の要件: [Time in Non-User Code] カラムグループを展開します。
解釈: カラムの値が 0 より大きい場合、コード領域にはシステムコールが含まれます。
説明: オフロードされたコード領域でインテル® oneAPI スレッディング・ビルディング・ブロック (oneTBB) 呼び出しに費やされた合計時間 (秒単位)。
オフロードのモデル化パースペクティブのサーベイ解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Time in Non-User Code] カラムグループに表示されます。
表示の要件: [Time in Non-User Code] カラムグループを展開します。
解釈: カラムの値が 0 より大きい場合、コード領域には oneTBB 呼び出しが含まれます。
説明: レジスタースピルにより、L3 メモリーとの間でフィルまたはスピルされたデータの合計 (ギガバイト単位)。
GPU ルーフラインの調査パースペクティブの GPU プロファイル付きのトリップカウント解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Register Spilling] カラムグループに表示されます。
表示の要件: [Register Spilling] カラムグループを展開します。
解釈: この値が高い場合、スピル/フィルのトラフィックがカーネル内の合計データ・トラフィックの大部分を占め、パフォーマンスが低下する可能性があることを示します。合計トラフィックのどれくらいであるかを知るには、メモリーへの影響カラムを参照してください。
計算方法: 汎用レジスターファイル (GRF) から L3 にスピルされた、または L3 から GRF にフィルされたデータの合計。
説明: ループ/関数が実行された合計回数。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Measured] カラムグループに表示されます。
表示の要件: [Measured] カラムグループを展開します。
説明: ターゲット・プラットフォームが受信する推測合計トラフィックと、データが再利用されないと想定しターゲット・プラットフォームから送信される推測合計トラフィックの合計 (メガバイト単位)。このメトリックは、パフォーマンスのモデル化でデータの再利用解析が有効である場合にのみ利用されます。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Data Transfer with Reuse] カラムグループに表示されます。
収集の要件:
表示の要件: [Estimated Data Transfer with Reuse] カラムグループを展開します。
計算方法: (MappedTo + MappedFrom + 2*MappedToFrom)。
説明: コンパイラーにより適用されたループアンロール係数。
オフロードのモデル化パースペクティブのサーベイ解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Measured] カラムグループに表示されます。
表示の要件: [Measured] カラムグループを展開します。
説明: それぞれの命令に使用される最上位のベクトル命令セット・アーキテクチャー (ISA)。
オフロードのモデル化パースペクティブのサーベイ解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Measured] カラムグループに表示されます。
表示の要件: [Measured] カラムグループを展開します。
説明: 単一のベクトルループ反復で処理される要素数、バイナリーの静的解析またはインテル® コンパイラーによって決定される個々のベクトル命令で処理される要素数です。
オフロードのモデル化パースペクティブのサーベイ解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Measured] カラムグループに表示されます。
表示の要件: [Measured] カラムグループを展開します。
説明: コード領域を現在のターゲット GPU デバイスにオフロードすることが推奨されない理由。
オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Basic Estimated Metrics] カラムグループに表示されます。
解釈: 考えられる理由の詳細については、オフロードされていないコード領域を調査を参照してください。
説明: ループがターゲット・プラットフォームに書き込むことが推測されるデータ。パフォーマンスのモデル化でデータの再利用解析を有効にした場合、ターゲット・プラットフォーム上のコード領域間でデータが再利用されることを考慮してメトリック値が計算されます。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Data Transfer with Reuse] カラムグループに表示されます。
収集の要件:
表示の要件: [Estimated Data Transfer with Reuse] カラムグループを展開します。
説明: GPU、チップアンコア (LLC) およびメインメモリーに書き込まれた合計データ (ギガバイト)。
GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [GPU Memory] カラムグループに表示されます。
表示の要件: [GPU Memory] カラムグループを展開します。
説明: レジスタースピルにより、L3 メモリーに書き込まれた、またはスピルされたデータの合計 (ギガバイト単位)。
GPU ルーフラインの調査パースペクティブのトリップカウントと GPU プロファイルが有効にされた特性化解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Register Spilling] カラムグループに表示されます。
表示の要件: [Register Spilling] カラムグループを展開します。
説明: 共有ローカルメモリー (SLM) へ書き込まれる合計データ (ギガバイト単位)。
GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [SLM] カラムグループに表示されます。
表示の要件: [SLM] カラムグループを展開します。
説明: データが GPU、チップアンコア(LLC) およびメインメモリーに書き込まれる比率 (ギガバイト/秒)。
GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [GPU Memory] カラムグループに表示されます。
表示の要件: [GPU Memory] カラムグループを展開します。
説明: データが共有ローカルメモリー (SLM) に書き込まれる比率 (ギガバイト/秒)。
GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [SLM] カラムグループに表示されます。
表示の要件: [SLM] カラムグループを展開します。
説明: データが再利用されないことを考慮し、コード領域でターゲット・プラットフォームに書き込まれる推測データ (メガバイト単位)。このメトリックは、パフォーマンスのモデル化でデータの再利用解析が有効である場合にのみ利用されます。
オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Data Transfer with Reuse] カラムグループに表示されます。
収集の要件:
表示の要件: [Estimated Data Transfer with Reuse] カラムグループを展開します。
説明: スロットにスケジュールされたスレッドがある場合、すべてのベクトルエンジン (XVE) とスレッドスロットのサイクルのパーセンテージ。このメトリックは、インテル® Arc™ グラフィックス (コード名 Alchemist) 以降で実行されるコードで利用できます。このメトリックは、従来の用語 EU スレッド占有メトリックと同じ意味です。
GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペインに表示されます。