アクセラレーター・メトリック

#

注

インテル® Arc™ Alchemist (DG2) 以降のインテル® X^e グラフィックス製品ファミリーと以降の世代では、従来の用語から GPU アーキテクチャーの用語が変更されています。用語変更の詳細と、従来のコンテンツとの対応については、インテル® X^e グラフィックスの GPU アーキテクチャー用語を参照してください。

2 つの FPU がアクティブ

2 つの FPU がアクティブ

説明: 両方の浮動小数点ユニット (FPU) が使用されている時間の平均パーセンテージ。

GPU ルーフラインの調査パースペクティブのSurvey解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [EU Instructions] カラムグループに表示されます。

アクティブ

説明: すべての実行ユニット (EU) またはベクトルエンジン (XVE) で命令をアクティブに実行するサイクルのパーセンテージ。

GPU ルーフラインの調査パースペクティブでのサーベイ解析中に収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [EU Array] カラムグループ、または [GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [XVE Array] カラムグループ (fインテル® Arc™ グラフィックス・コード名 Alchemist 以降で実行されるコード) にあります。

高度な診断

説明: 達成されたパフォーマンスを理解するのに役立つ、コード領域に関連する追加情報。

オフロードのモデル化パースペクティブのサーベイ解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペインに表示されます。

割り当て時間

説明: メモリー割り当て費やされた合計時間。

GPU ルーフラインの調査パースペクティブの特性化解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Data Transferred] カラムグループに表示されます。

表示の要件: [Data Transferred] カラムグループを展開します。

アトミックアクセス

説明: アトミック・メモリー・アクセスの合計数。

オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Atomics] カラムグループに表示されます。

アトミック・スループット

説明: カーネルのアトミックの平均スループット (1 秒あたりの操作数)。

オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Atomics] カラムグループに表示されます。

表示の要件: [Atomics] カラムグループを展開します。

サイクルごとのアトミック・スループット

説明: カーネルのアトミックの平均スループット (サイクルあたりの操作数)。

オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Atomics] カラムグループに表示されます。

表示の要件: [Atomics] カラムグループを展開します。

平均期間 (GPU ルーフライン)

説明: タスク・インスタンスの実行に費やされた平均時間。

GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Kernel Details] カラムグループに表示されます。

表示の要件: [Kernel Details] カラムを展開します。

平均期間 (オフロードのモデル化)

説明: タスク・インスタンスの実行に費やされた平均時間。このメトリックは、GPU から GPU へのモデル化にのみ利用できます。

オフロードのモデル化パースペクティブの GPU プロファイルを有効にしたサーベイ解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Measured] カラムグループに表示されます。

表示の要件: [Measured] カラムを展開します。

平均トリップカウント

説明: ループ/関数が実行された平均回数。

オフロードのモデル化パースペクティブのトリップカウント (特性化) 解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Measured] カラムグループに表示されます。

表示の要件: [Measured] カラムグループを展開します。

B

帯域幅、GB/秒 (GPU メモリー)
帯域幅、GB/秒 (L3 シェーダー)
帯域幅、GB/秒 (SLM)
ベースライン・デバイス
制限される要因

帯域幅、GB/秒 (GPU メモリー)

説明: GPU、チップアンコア(LLC) およびメインメモリーから転送されたデータの比率 (ギガバイト/秒)。

GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [GPU Memory] カラムグループに表示されます。

表示の要件: [GPU Memory] カラムを展開します。このメトリックは、折りたたまれた [GPU Memory] カラムにも表示されます。

帯域幅、GB/秒 (L3 シェーダー)

説明: 実行ユニットまたはベクトルエンジンと L3 キャッシュ間で転送されたデータの比率 (ギガバイト/秒)。

GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [L3 Shader] カラムグループに表示されます。

表示の要件: [L3 Shader] カラムを展開します。このメトリックは、折りたたまれた [L3 Shader] カラムにも表示されます。

帯域幅、GB/秒 (SLM)

説明: データが共有ローカルメモリー (SLM) との間で転送された比率 (ギガバイト/秒)。

GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [SLM] カラムグループに表示されます。

表示の要件: [SLM] カラムを展開します。このメトリックは、折りたたまれた [SLM] カラムにも表示されます。

ベースライン・デバイス

説明: アプリケーションが実行されるホスト・プラットフォーム。

オフロードのモデル化パースペクティブのサーベイ解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Measured] カラムグループに表示されます。

表示の要件: [Measured] カラムグループを展開します。

制限される要因

説明: ターゲットデバイスにオフロードされるコード領域で推測されるパフォーマンスを制限する要因のリスト。

オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Basic Estimated Metrics] カラムグループに表示されます。

解釈: このメトリックは、コード領域内の 1 つ以上のボトルネックを示します。

カテゴリー	ボトルネック	説明
アルゴリズム	依存関係	データの依存関係により、並列実行の効率が制限されます。依存関係を解決して、このコード領域をオフロードします。
	カーネルの分解	ワークロードを分解する場合、選択したターゲットデバイス上のすべての実行ユニット、またはベクトルエンジンを使用するのに十分な並列スレッドをスケジュールできません。
	トリップカウント	ループの反復数は、選択したターゲットデバイス上のすべての実行ユニット、またはベクトルエンジンを使用するのに十分ではありません。
コスト	データ転送	データ転送コストは、最大スループット時間とレイテンシー時間の合計よりも大きくなります。
コスト	起動コスト	カーネル起動コストは、最大スループット時間とレイテンシー時間の合計よりも大きくなります。
スループット	計算	コード領域はターゲットデバイスの機能を十分に活用していますが、計算時間はまだ長いままです。この時間は、ターゲットデバイスの他のすべての実行時間コンポーネントよりも長くなります。
	グローバルアトミック	グローバルアトミックの帯域幅時間は、ターゲットデバイスの他のすべての実行時間コンポーネントよりも長くなります。
	メモリー・サブシステム帯域幅 (BW): 例えば、L3 BW、LLC BW、DRAM BW	メモリー・サブシステムの帯域幅時間は、ターゲットデバイスの他のすべての実行時間コンポーネントよりも長くなります。
レイテンシー	レイテンシー	命令レイテンシーが最大スループット時間を上回っています。

推測される時間は、スループット、レイテンシー、データ転送コストと送信コストを含むコストの 4 つの要素の合計として求められます。

時間 = max_throughput_bottleneck_time + non_overlaped_latency + data_transfer_time + kernel_submission_taxes_time

このモデルでは、スループットで定義される時間が完全にオーバーラップしていると仮定し、カラムに示す最大スループットのボトルネックのみを選択します。他のコンポーネントの影響がスループット・コンポーネントと同程度である場合、4 つの要因すべて (スループット、レイテンシー、データ転送/送信) の上位のボトルネックがこのカラムに表示されます。これは、コード領域がこの要因の組み合わせによって制限され、領域のパフォーマンスへの影響が順序付けされることを意味します。

それ以外、例えば相対的なスループットへの影響がレイテンシーやデータ転送の影響よりもはるかに大きい場合、最大スループットのボトルネックのみがほかのボトルネックよりも支配的であるとして表示されます。最大スループット時間が計算時間である場合、インテル® Advisor は、アルゴリズム要因 (依存関係、カーネル分割、トリップカウント) によってコード領域のオフロードが制限されると想定します。

例えば、データ転送と DRAM 帯域幅値の合計は、以下を意味します。

コード領域の主な制限要因は、データ転送コストです。このコストは、最大スループット時間とレイテンシー時間の合計よりも大きくなります。
コード領域の 2 番目の制限要因は、DRAM 帯域幅時間です。この時間は、ターゲットデバイスの他の実行時間コンポーネントよりも長くなります。

オフロードのモデル化レポートの制限されるメトリックを組み合わせた例: データ転送、DRAM BW

C

キャッシュライン使用率 (Cache Line Utilization)
呼び出しカウント (Call Count)
CARM (GB)
計算
計算スレッドの開始 (Computing Threads Started)

キャッシュライン利用率

説明: 実行ユニットまたはベクトルエンジンによって使用されるグローバル・メモリー・トラフィックの比率。

GPU ルーフラインの調査パースペクティブの GPU プロファイルが有効にされたサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [L3 Shader] カラムグループに表示されます。

表示の要件: [L3 シェーダー] カラムグループを展開します。このメトリックは、折りたたまれた [L3 Shader] カラムにも表示されます。

計算方法: 観測されたキャッシュ・トラフィックに対するグローバル・メモリー・トラフィックの比率。

グローバル・メモリー・トラフィックは、キャッシュラインの粒度トランザクションにおける、実行ユニットまたはベクトルエンジンとキャッシュ・データ・ポート間のトラフィックです。
観測されたキャッシュ・トラフィックは、キャッシュラインの粒度トランザクションにおけるデータポートとキャッシュ間のトラフィックです。

解釈: 値が低い場合、カーネルのメモリー・アクセス・パターンは非効率であるか、CPU に適していないことを示す可能性があります。

呼び出しカウント (Call Count)

説明: ループ/関数が呼び出された回数。

オフロードのモデル化パースペクティブのトリップカウント (特性化) 解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Measured] カラムグループに表示されます。

表示の要件: [Measured] カラムグループを展開します。

CARM (GB)

説明: 実行ユニットまたはベクトルエンジンとの間で転送される合計データ (ギガバイト単位)。

GPU ルーフラインの調査パースペクティブの GPU プロファイルが有効にされた特性化解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペインに表示されます。

計算

説明: オフロードされるループが計算スループットによってのみ制限されていると仮定した場合に推測される実行時間。

オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペインにある [Estimated Bounded By] カラムグループに表示されます。

表示の要件: [Estimated Bounded By]カラムグループを展開します。

計算スレッドの開始 (Computing Threads Started)

説明: 計算タスクのすべての実行ユニット、またはベクトルエンジンで開始されたスレッドの合計数。

GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペインに表示されます。

D

データ転送コスト

説明: ホストとターゲット・プラットフォーム間でループがデータを転送するために推測される時間コスト (ミリ秒単位)。パフォーマンスのモデル化でデータの再利用解析を有効にした場合、ターゲット・プラットフォーム上のコード領域間でデータが再利用されることを考慮してメトリック値が計算されます。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Bounded By] カラムグループに表示されます。

収集の要件:

GUI: [Analysis Workflow] ペイン、[Data Transfer Simulation] を [Light]、[Medium]、または [Full] に設定します。
CLI : 実行するには、--collect=tripcountsアクションを--data-transfer=[full | medium | light]アクションオプションで実行します。

表示の要件: [Estimated Bounded By]カラムグループを展開します。

再利用なしのデータ転送のコスト (Data Transfer Tax without Reuse)

説明: データが再利用されないことを考慮した、ホストとターゲット・プラットフォーム間でループがデータを転送するために推測される時間コスト (ミリ秒単位)。このメトリックは、パフォーマンスのモデル化でデータの再利用解析が有効である場合にのみ利用されます。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Bounded By] カラムグループに表示されます。

収集の要件:

GUI: [Analysis Workflow] ペインで、[Characterization] の [Data Transfer Simulation] を Full に設定し、[Performance Modeling] の [Data Reuse Analysis] チェックボックスを有効にします。
CLI : リンク時に SVML ABI 互換ライブラリーを使用するには、--data-transfer=fullアクションオプションは、--collect=tripcounts アクションとともに使用し、--data-reuse-analysis オプションは --collect=tripcounts および --collect=projection アクションとともに使用します。

表示の要件: [Estimated Bounded By]カラムグループを展開します。

データ再利用のゲイン (Data Reuse Gain)

説明: データを再利用した場合と、再利用しない場合の推定されるデータ転送時間の差 (ミリ秒単位)。このオプションは、パフォーマンスのモデル化でデータの再利用解析が有効である場合にのみ利用されます。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Bounded By] カラムグループに表示されます。

収集の要件:

GUI: [Analysis Workflow] ペインで、[Characterization] の [Data Transfer Simulation] を Full に設定し、[Performance Modeling] の [Data Reuse Analysis] チェックボックスを有効にします。
CLI : リンク時に SVML ABI 互換ライブラリーを使用するには、--data-transfer=fullアクションオプションは、--collect=tripcounts アクションとともに使用し、--data-reuse-analysis オプションは --collect=tripcounts および --collect=projection アクションとともに使用します。

表示の要件: [Estimated Bounded By]カラムグループを展開します。

依存関係タイプ (Dependency Type)

説明: ループの反復間に依存関係が存在するかしないか。

オフロードのモデル化パースペクティブのサーベイと依存関係解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Measured] カラムグループに表示されます。

表示の要件: [Measured] カラムグループを展開します。

設定可能な値:

並列: 明示的 - ループは CPU 上で明示的にベクトル化されているか、スレッド化されているため依存関係はありません。
並列: 実証された - コンパイラーは、コンパイル時にループ内の依存関係を検出できませんでしたが、何らかの理由でループを自動ベクトル化できませんでした。
並列: カーネル (GPU - GPU モデル化のみ) - カーネルは GPU 上で実行されます。
並列: プログラミング・モデル - ループは、パフォーマンス・モデル (OpenMP*、oneAPI スレッディング・ビルディング・ブロック、インテル® oneAPI データ・アナリティクス・ライブラリー、SYCL) を使用して、ターゲット・プラットフォーム上で実行する際に並列化されるため、依存関係はありません。
並列: ワークロード - インテル® Advisor は、依存関係解析で使用されたワークロードに、ループ内の依存関係を検出しませんでした。
並列: ユーザー - ループは --set-parallel=<string> オプションで依存関係がないとしてマークされます。
並列: 想定された - インテル® Advisor は、ループの依存関係に関する情報を持っていませんが、そのようなループはすべて並列である (依存関係がない) と想定します。
依存関係: <dependency-type> - インテル® Advisor は、依存関係解析でループ内に特定のタイプの依存関係を検出しました。検出可能な依存関係のタイプは、RAW (書き込み後の読み取り)、WAR (読み取り後の書き込み)、WAW (書き込み後の書き込み)、およびリダクションです。
依存関係: ユーザー - ループは --set-dependency=<string> オプションで依存関係があるとしてマークされます。
依存関係: 想定された - インテル® Advisor は、ループの依存関係に関する情報を持っていませんが、そのようなループはすべて依存関係があると想定します。

収集/表示の要件:

このカラムの一部の値は、データ収集時に特定のオプションを指定することで、または依存関係解析を実行した場合にのみ表示されます。

並列の場合: ワークロードと依存関係: <dependency-type>:

GUI: [Analysis Workflow] ペインで、依存関係解析を有効にします。
CLI : 次のコマンドラインを実行します。advisor --collect=dependencies --project-dir=<project-dir> [<options>] -- <target>で指定されたディレクトリーにプロジェクトが作成されます。詳細は、advisor コマンドオプションのリファレンスをご覧ください。

並列の場合: ユーザー:

GUI: [Project Properties] > [Performance Modeling] に移動します。[Other parameters] フィールドに --set-parallel=<string> と、カンマで区切ったループ ID およびソースの場所を入力して、それらを並列としてマークします。
CLI : advisor --collect=projection を使用してパフォーマンスをモデル化する場合、--set-parallel=<string> オプションでカンマで区切ったループ ID およびソースの場所を指定します。advisor --collect=projectionコマンドを入力します。

依存関係の場合: ユーザー:

GUI: [Project Properties] > [Performance Modeling] に移動します。[Other parameters] フィールドに --set-dependency=<string> と、カンマで区切ったループ ID およびソースの場所を入力して、それらを並列としてマークします。
CLI : advisor --collect=projection を使用してパフォーマンスをモデル化する場合、--set-dependency=<string> オプションでカンマで区切ったループ ID およびソースの場所を指定します。advisor --collect=projectionコマンドを入力します。

並列の場合: 想定された:

GUI: [Analysis Workflow] ペインのパフォーマンスのモデル化解析で、[Assume Dependencies] を無効にします。
CLI : advisor --collect=projection を使用してパフォーマンスをモデル化する場合、--no-assume-dependencies オプションを使用します。advisor --collect=projectionコマンドを入力します。

依存関係の場合: 想定された:

GUI: [Analysis Workflow] ペインのパフォーマンスのモデル化解析で、[Assume Dependencies] を有効にします。
CLI : advisor --collect=projection を使用してパフォーマンスをモデル化する場合、--assume-dependencies オプションを使用します。advisor --collect=projectionコマンドを入力します。

解釈:

実際の依存関係がないループ (並列: 明示的、並列: 実証された, 並列: プログラミング・モデル、および並列: ユーザー マークされたループが並列であることが判明している場合)、をターゲット・プラットフォームに安全にオフロードできます。
多くのループが並列である場合: 想定または依存関係: 想定値は、依存関係解析を行うことを推奨します。詳細については、想定される依存関係がモデル化に影響するか確認を参照してください。

デバイスからホストへのサイズ

説明: デバイスからホストへ転送された合計データ。

GPU ルーフラインの調査パースペクティブの FLOP 解析 (特性化) で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Data Transferred] カラムグループに表示されます。

表示の要件: [Data Transferred] カラムグループを展開します。

デバイスからホストへの時間

説明: デバイスからホストへのデータ転送に費やされた合計時間。

GPU ルーフラインの調査パースペクティブの FLOP 解析 (特性化) で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Data Transferred] カラムグループに表示されます。

表示の要件: [Data Transferred] カラムグループを展開します。

DRAM

説明: DRAM 帯域幅を含む推測される DRAM メモリー使用量 (ギガバイト/秒) と、読み取りおよび書き込みトラフィックの合計として計算された合計 DRAM トラフィックのサマリー。

オフロードのモデル化パースペクティブのトリップカウント (特性化) とパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。

収集の要件:

GUI: [Analysis Workflow] ペインで [Cache Simulation] チェックボックスを有効にします。
CLI : 実行するには、--collect=tripcountsアクションを--enable-cache-simulationと--target-device=<target>アクションオプションで実行します。

DRAM BW (推測される制限)

説明: DRAM 帯域幅。最大 DRAM メモリー帯域幅が達成されたと想定して、DRAM メモリー間との読み書きに費やされる推測時間 (秒単位)。

オフロードのモデル化パースペクティブのトリップカウント (特性化) とパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Bounded By] カラムグループに表示されます。

表示の要件: [Estimated Bounded By]カラムグループを展開します。

DRAM BW (メモリー推測)

説明: DRAM 帯域幅。DRAM との間でデータが転送される推定比率 (ギガバイト/秒)。

オフロードのモデル化パースペクティブのトリップカウント (特性化) とパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。

収集の要件:

GUI: [Analysis Workflow] ペインで [Cache Simulation] チェックボックスを有効にします。
CLI : 実行するには、--collect=tripcountsアクションを--enable-cache-simulationと--target-device=<target>アクションオプションで実行します。

表示の要件: [Memory Estimations] カラムグループを展開します。

DRAM BW 利用率

説明: 推定される DRAM 帯域幅の利用率 (パーセント単位)。

オフロードのモデル化パースペクティブのトリップカウント (特性化) とパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。

収集の要件:

GUI: [Analysis Workflow] ペインで [Cache Simulation] チェックボックスを有効にします。
CLI : 実行するには、--collect=tripcountsアクションを--enable-cache-simulationと--target-device=<target>アクションオプションで実行します。

表示の要件: [Memory Estimations] カラムグループを展開します。

計算方法: 理論上の最大帯域幅に対する平均帯域幅の比率。

DRAM 読み取りトラフィック

説明: DRAM メモリーから読み取られた推測合計データ。

オフロードのモデル化パースペクティブのトリップカウント (特性化) とパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。

収集の要件:

GUI: [Analysis Workflow] ペインで [Cache Simulation] チェックボックスを有効にします。
CLI : 実行するには、--collect=tripcountsアクションを--enable-cache-simulationと--target-device=<target>アクションオプションで実行します。

表示の要件: [Memory Estimations] カラムグループを展開します。

DRAM トラフィック

説明: 推測される DRAM メモリーとの間で読み書きされた合計データ。

オフロードのモデル化パースペクティブのトリップカウント (特性化) とパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。

収集の要件:

GUI: [Analysis Workflow] ペインで [Cache Simulation] チェックボックスを有効にします。
CLI : 実行するには、--collect=tripcountsアクションを--enable-cache-simulationと--target-device=<target>アクションオプションで実行します。

表示の要件: [Memory Estimations] カラムグループを展開します。

DRAM 書き込みトラフィック

説明: DRAM メモリーへ書き込まれた推測合計データ。

オフロードのモデル化パースペクティブのトリップカウント (特性化) とパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。

収集の要件:

GUI: [Analysis Workflow] ペインで [Cache Simulation] チェックボックスを有効にします。
CLI : 実行するには、--collect=tripcountsアクションを--enable-cache-simulationと--target-device=<target>アクションオプションで実行します。

表示の要件: [Memory Estimations] カラムグループを展開します。

E

経過時間 (Elapsed Time)
EM アクティブ
再利用されるデータ転送の見積もり (Estimated Data Transfer with Reuse)
デバイスの予測時間 (Estimated Time on Device)
EU スレッド占有率

経過時間 (Elapsed Time)

説明: 計算タスクの実行開始から終了までの実時間。

GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペインに表示されます。

EM アクティブ

説明: 拡張数学ユニット (EM) パイプラインが処理中の時間の平均パーセンテージ。このメトリックは、インテル® Arc™ グラフィックス (コード名 Alchemist) 以降で実行されるコードで利用できます。

GPU ルーフラインの調査パースペクティブのSurvey解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [XVE Instructions] カラムグループに表示されます。

再利用されるデータ転送の見積もり (Estimated Data Transfer with Reuse)

説明: ターゲット・プラットフォームとの間で読み書きされたデータのサマリー。パフォーマンスのモデル化でデータの再利用解析を有効にした場合、ターゲット・プラットフォーム上のコード領域間でデータが再利用されることを考慮してメトリック値が計算されます。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペインに表示されます。

収集の要件:

GUI: [Analysis Workflow] ペイン、[Data Transfer Simulation] を [Light]、[Medium]、または [Full] に設定します。
CLI : 実行するには、--collect=tripcountsアクションを--data-transfer=[full | medium | light]アクションオプションで実行します。

デバイスの予測時間 (Estimated Time on Device)

説明: オフロードによりターゲット・プラットフォームで推測される、ループの実行開始から終了までの推測経過時間とオフロードされていないコード領域の時間 (オフロードのオーバーヘッドは含まれません)。

オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Basic Estimated Metrics] カラムグループに表示されます。

表示の要件: [Basic Estimated Metrics] カラムグループを展開します。

EU スレッド占有率

説明: スロットにスケジュールされたスレッドがある場合、すべての実行ユニット (EU) とスレッドスロットのサイクルのパーセンテージ。

GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペインに表示されます。

F

スレッドごとのフィル数 (Fill Count per Thread)
FLOAT 操作
FLOP AI (グローバルメモリー)
FP AI
FPU アクティブ
FPU と EM アクティブ
FPU と行列エンジンアクティブ
オフロードの比率 (Fraction of Offloads)
ターゲットから (From Target)

スレッドごとのフィル数 (Fill Count per Thread)

説明: GRF からメモリー (L3 キャッシュ) にスピルされたデータを読み取るために使用されるフィル命令数。

GPU ルーフラインの調査パースペクティブのトリップカウントと GPU プロファイルが有効にされた特性化解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Register Spilling] カラムグループに表示されます。

表示の要件: [Register Spilling] カラムグループを展開します。

解釈: メモリーのスピル/フィル (またはロード/ストア) 操作数が多いと、メモリー・トラフィックが大幅に増加してパフォーマンスが低下します。

FLOAT 操作

説明: カーネルの浮動小数点操作のサマリー。

GPU ルーフラインの調査パースペクティブの GPU プロファイル付き特性化解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [GPU Compute Performance] カラムグループに表示されます。

集計:

GOp - ギガ浮動小数点操作の数。
GOp/s - 1 秒あたりに実行されたギガ浮動小数点操作の数。
AI - GPU メモリーに転送されたバイト数に対する浮動小数点操作の比率。

セル内にカーソルを移動すると、値の説明が表示されます。

FLOP AI (グローバルメモリー)

説明: 浮動小数点操作 (FLOP) の推測される演算強度 (バイトあたりの操作数)。

オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated FLOAT Operations] カラムグループに表示されます。

グローバルメモリー (DRAM、HBM または GDDR6) に転送された合計バイト数に対する浮動小数点操作の比率として計算されます。

FP AI

説明: GPU メモリーに転送されたバイト数に対する浮動小数点操作の比率。

GPU ルーフラインの調査パースペクティブの GPU プロファイル付き特性化解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [GPU Compute Performance] カラムグループに表示されます。

表示の要件: [GPU Compute Performance] カラムグループを展開します。このメトリックは、折りたたまれた [FLOAT Operations] カラムにも表示されます。

FPU アクティブ

説明: 浮動小数点ユニット (FPU) パイプラインが処理中の時間の平均パーセンテージ。このメトリックは、インテル® Arc™ グラフィックス (コード名 Alchemist) 以降で実行されるコードで利用できます。

GPU ルーフラインの調査パースペクティブのSurvey解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [XVE Instructions] カラムグループに表示されます。

FPU と EM アクティブ

説明: 浮動小数点ユニット (FPU) および拡張数学 (EM) ユニットのパイプラインが処理中の時間の平均パーセンテージ。このメトリックは、インテル® Arc™ グラフィックス (コード名 Alchemist) 以降で実行されるコードで利用できます。

GPU ルーフラインの調査パースペクティブのSurvey解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [XVE Instructions] カラムグループに表示されます。

FPU と行列エンジンアクティブ

説明: 浮動小数点ユニット (FPU) および行列エンジンのパイプラインが処理中の時間の平均パーセンテージ。このメトリックは、インテル® Arc™ グラフィックス (コード名 Alchemist) 以降で実行されるコードで利用できます。

GPU ルーフラインの調査パースペクティブのSurvey解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [XVE Instructions] カラムグループに表示されます。

オフロードの比率 (Fraction of Offloads)

説明: 領域の合計実行時間に対する、オフロードに有益なコード領域で費やされた時間の比率。

オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Basic Estimated Metrics] カラムグループに表示されます。

表示の要件: [Basic Estimated Metrics] カラムグループを展開します。

解釈: 100% は、オフロードされていない子領域、並列ランタイム・ライブラリーの呼び出し、またはシステムコールが領域内に存在しないことを意味します。

ターゲットから (From Target)

説明: ループが共有メモリーからターゲット・プラットフォームに転送すると推測されるデータ (メガバイト単位)。パフォーマンスのモデル化でデータの再利用解析を有効にした場合、ターゲット・プラットフォーム上のコード領域間でデータが再利用されることを考慮してメトリック値が計算されます。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Data Transfer with Reuse] カラムグループに表示されます。

収集の要件:

GUI: [Analysis Workflow] ペイン、[Data Transfer Simulation] を [Light]、[Medium]、または [Full] に設定します。
CLI : 実行するには、--collect=tripcountsアクションを--data-transfer=[full | medium | light]アクションオプションで実行します。

表示の要件: [Estimated Data Transfer with Reuse] カラムグループを展開します。

G

GFLOP (GPU ルーフライン)

説明: ギガ浮動小数点操作の数。

GPU ルーフラインの調査パースペクティブの GPU プロファイル付き特性化解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [GPU Compute Performance] カラムグループに表示されます。

命令タイプカウント: BASIC COMPUTE、FMA、BIT、DIV、POW、MATH。

表示の要件: [GPU Compute Performance] カラムグループを展開します。このメトリックは、折りたたまれた [FLOAT Operations] カラムにも表示されます。

GFLOP (オフロードのモデル化)

説明: ギガ浮動小数点操作の推測数。

オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated FLOAT Operations] カラムグループに表示されます。

GFLOP32

説明: 32 ビットギガ浮動小数点操作の推定数。

オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated FLOAT Operations] カラムグループに表示されます。

表示の要件: [Estimated FLOAT Operations] カラムグループを展開します。

GFLOP64

説明: 64 ビットギガ浮動小数点操作の推定数。

オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated FLOAT Operations] カラムグループに表示されます。

表示の要件: [Estimated FLOAT Operations] カラムグループを展開します。

GFLOPS (GPU ルーフライン)

説明: 1 秒あたりに実行されたギガ浮動小数点操作の数。

GPU ルーフラインの調査パースペクティブの GPU プロファイル付き特性化解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [GPU Compute Performance] カラムグループに表示されます。

命令タイプカウント: BASIC COMPUTE、FMA、BIT、DIV、POW、MATH。

表示の要件: [GPU Compute Performance] カラムグループを展開します。このメトリックは、折りたたまれた [FLOAT Operations] カラムにも表示されます。

GFLOPS (オフロードのモデル化)

説明: 1 秒あたりに実行されたギガ浮動小数点操作の推測数。

オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated FLOAT Operations] カラムグループに表示されます。

GFLOPS32

説明: 推測される 1 秒あたりに実行された 32 ビットギガ浮動小数点操作の数。

オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated FLOAT Operations] カラムグループに表示されます。

表示の要件: [Estimated FLOAT Operations] カラムグループを展開します。

GFLOPS64

説明: 推測される 1 秒あたりに実行された 64 ビットギガ浮動小数点操作の数。

オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated FLOAT Operations] カラムグループに表示されます。

表示の要件: [Estimated FLOAT Operations] カラムグループを展開します。

GINT32

説明: 32 ビットギガ整数操作の推定数。

オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated INT Operations] カラムグループに表示されます。

表示の要件: [Estimated INT Operations] カラムグループを展開します。

GINT64

説明: 64 ビットギガ整数操作の推定数。

オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated INT Operations] カラムグループに表示されます。

表示の要件: [Estimated INT Operations] カラムグループを展開します。

GINTOP (GPU ルーフライン)

説明: ギガ整数操作の数。

GPU ルーフラインの調査パースペクティブの GPU プロファイル付き特性化解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [GPU Compute Performance] カラムグループに表示されます。

命令タイプカウント: BASIC COMPUTE、FMA、BIT、DIV、POW、MATH。

表示の要件: [GPU Compute Performance] カラムグループを展開します。このメトリックは、折りたたまれた [INT Operations] カラムにも表示されます。

GINTOP (オフロードのモデル化)

説明: 推測されるギガ整数操作の数。

オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated INT Operations] カラムグループに表示されます。

GINTOPS (GPU ルーフライン)

説明: 1 秒あたりに実行されたギガ整数操作の数。

GPU ルーフラインの調査パースペクティブの GPU プロファイル付き特性化解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [GPU Compute Performance] カラムグループに表示されます。

命令タイプカウント: BASIC COMPUTE、FMA、BIT、DIV、POW、MATH。

表示の要件: [GPU Compute Performance] カラムグループを展開します。このメトリックは、折りたたまれた [INT Operations] カラムにも表示されます。

GINTOPS (オフロードのモデル化)

説明: 推測される 1 秒あたりに実行されたギガ整数操作の数。

オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated INT Operations] カラムグループに表示されます。

GINTOPS32

説明: 1 秒あたりに実行される 32 ビットギガ整数操作の推定数。

オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated INT Operations] カラムグループに表示されます。

表示の要件: [Estimated INT Operations] カラムグループを展開します。

GINTOPS64

説明: 1 秒あたりに実行される 64 ビットギガ整数操作の推定数。

オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated INT Operations] カラムグループに表示されます。

表示の要件: [Estimated INT Operations] カラムグループを展開します。

グローバル

説明: すべてのワークグループのワーク項目の合計数。

GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Work Size] カラムグループに表示されます。

グローバルサイズ (計算予測)

説明: ターゲット・プラットフォームにオフロードされ、実行されるループ内で推測されるワーク項目の合計数。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Compute Estimates] カラムグループに表示されます。

表示の要件: [Compute Estimates] カラムグループを展開します。

グローバルサイズ (測定)

説明: ベースライン・デバイス上のカーネル・インスタンス内のワーク項目の合計数。このメトリックは、GPU から GPU へのモデル化にのみ利用できます。

オフロードのモデル化パースペクティブの GPU プロファイルを有効にしたサーベイ解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Measured] カラムグループに表示されます。

表示の要件: [Measured] カラムグループを展開します。

GPU メモリー

説明: カーネルでの GPUメモリーの使用状況のサマリー。GPU メモリーは、GPU、チップアンコア(LLC) およびメインメモリーとの間で転送されたデータの比率です。

GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペインに表示されます。

集計: カラムでは次のメトリックがレポートされます。

合計 GPU メモリートラフィック (ギガバイト単位)
GPU メモリー帯域幅 (ギガバイト/秒)

セル内にカーソルを移動すると、値の説明が表示されます。

GPU シェーダーアトミック

説明: シェーダー・アトミック・メモリー・アクセスの合計数。

GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペインに表示されます。

GPU シェーダーバリア

説明: シェーダー・バリア・メッセージの合計数。

GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペインに表示されます。

GTI

説明: GTI 帯域幅を含む推測される GTI メモリー使用量 (ギガバイト/秒) と、読み取りおよび書き込みトラフィックの合計として計算された合計 GTI トラフィックのサマリー。

オフロードのモデル化パースペクティブのトリップカウント (特性化) とパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。

収集の要件:

GUI: [Analysis Workflow] ペインで [Cache Simulation] チェックボックスを有効にします。
CLI : 実行するには、--collect=tripcountsアクションを--enable-cache-simulationと--target-device=<target>アクションオプションで実行します。

GTI BW (推測される制限)

説明: グラフィックス・テクノロジー・インターフェイス (GTI) 帯域幅最大 GTI メモリー帯域幅が達成されたと想定して、GTI メモリー間との読み書きに費やされる推測時間 (秒単位)。

オフロードのモデル化パースペクティブのトリップカウント (特性化) とパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Bounded By] カラムグループに表示されます。

表示の要件: [Estimated Bounded By]カラムグループを展開します。

GTI BW (メモリー推測)

説明: グラフィックス・テクノロジー・インターフェイス (GTI) 帯域幅GTI との間でデータが転送される推定比率 (ギガバイト/秒)。

オフロードのモデル化パースペクティブのトリップカウント (特性化) とパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。

収集の要件:

GUI: [Analysis Workflow] ペインで [Cache Simulation] チェックボックスを有効にします。
CLI : 実行するには、--collect=tripcountsアクションを--enable-cache-simulationと--target-device=<target>アクションオプションで実行します。

表示の要件: [Memory Estimations] カラムグループを展開します。

GTI BW 利用率

説明: グラフィックス・テクノロジー・インターフェイス (GTI) 利用率推定される GTI 帯域幅の利用率 (パーセント単位)。

オフロードのモデル化パースペクティブのトリップカウント (特性化) とパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。

収集の要件:

GUI: [Analysis Workflow] ペインで [Cache Simulation] チェックボックスを有効にします。
CLI : 実行するには、--collect=tripcountsアクションを--enable-cache-simulationと--target-device=<target>アクションオプションで実行します。

表示の要件: [Memory Estimations] カラムグループを展開します。

計算方法: 理論上の最大帯域幅に対する平均帯域幅の比率。

GTI 読み取りトラフィック

説明: GTI メモリーからの読み取りが推測される合計データ。

オフロードのモデル化パースペクティブのトリップカウント (特性化) とパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。

収集の要件:

GUI: [Analysis Workflow] ペインで [Cache Simulation] チェックボックスを有効にします。
CLI : 実行するには、--collect=tripcountsアクションを--enable-cache-simulationと--target-device=<target>アクションオプションで実行します。

表示の要件: [Memory Estimations] カラムグループを展開します。

GTI トラフィック

説明: 推測される GTI メモリーとの間で読み書きされた合計データ。

オフロードのモデル化パースペクティブのトリップカウント (特性化) とパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。

収集の要件:

GUI: [Analysis Workflow] ペインで [Cache Simulation] チェックボックスを有効にします。
CLI : 実行するには、--collect=tripcountsアクションを--enable-cache-simulationと--target-device=<target>アクションオプションで実行します。

表示の要件: [Memory Estimations] カラムグループを展開します。

GTI 書き込みトラフィック

説明: GTI メモリーへ書き込まれた推定合計データ。

オフロードのモデル化パースペクティブのトリップカウント (特性化) とパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。

収集の要件:

GUI: [Analysis Workflow] ペインで [Cache Simulation] チェックボックスを有効にします。
CLI : 実行するには、--collect=tripcountsアクションを--enable-cache-simulationと--target-device=<target>アクションオプションで実行します。

表示の要件: [Memory Estimations] カラムグループを展開します。

H

SEND ごとのハードウェア・イベント (Hardware Events per SEND)
ホストからデバイスへのサイズ
ホストからデバイスへの時間

SEND ごとのハードウェア・イベント (Hardware Events per SEND)

説明: 1 つのアトミック SEND 命令によって生成されるアトミックアクセスの平均数。

オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Atomics] カラムグループに表示されます。

表示の要件: [Atomics] カラムグループを展開します。

ホストからデバイスへのサイズ

説明: ホストからデバイスへ転送された合計データ。

GPU ルーフラインの調査パースペクティブの FLOP 付きの特性化解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Data Transferred] カラムグループに表示されます。

表示の要件: [Data Transferred] カラムグループを展開します。

ホストからデバイスへの時間

説明: ホストからデバイスへのデータ転送に費やされた合計時間。

GPU ルーフラインの調査パースペクティブの FLOP 付きの特性化解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Data Transferred] カラムグループに表示されます。

表示の要件: [Data Transferred] カラムグループを展開します。

I

アイドル
無視された時間 (Ignored Time)
インスタンス (GPU ルーフライン)
インスタンス (オフロードのモデル化 - 推測値を計算)
インスタンス (オフロードのモデル化 - 測定値)
INT AI (GPU ルーフライン)
INT AI (グローバルメモリー)
INT 操作
IPC 比率
反復空間 (Iteration Space)

アイドル

説明: EU または XVE でスレッドがスケジュールされていない場合、すべての実行ユニット (EU) またはベクトルエンジン (XVE) のサイクルのパーセンテージ。

GPU ルーフラインの調査パースペクティブでのサーベイ解析中に収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [EU Array] カラムグループ、または [GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [XVE Array] カラムグループ (インテル® Arc™ グラフィックス・コード名 Alchemist 以降で実行されるコード) に表示されます。

無視された時間 (Ignored Time)

説明: システムコールと、オフロードが推奨されるコード領域内で無視されたモジュールまたは並列ランタイム・ライブラリー呼び出して費やされた時間。

オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Non-User Code Metrics] カラムグループに表示されます。

収集の要件: CLI から--collect=projectionアクションを--ignore=<code-to-ignore>アクションオプションで実行します。例えば、MPI および OpenMP* 呼び出しを無視するには、--ignore=MPI,OMP フラグを使用します。

表示の要件: [Time in Non-User Code] カラムグループを展開します。

解釈: 無視されたコード部分は推測には使用されません。オフロードされたコード領域の推測時間には影響しません。

インスタンス (GPU ルーフライン)

説明: GPU でタスクが実行された合計回数。

GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Kernel Details] カラムグループに表示されます。

表示の要件: [Kernel Details] カラムを展開します。

インスタンス (オフロードのモデル化 - 推測値を計算)

説明: ターゲット・プラットフォームでループが実行される推測合計回数。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Compute Estimates] カラムグループに表示されます。

表示の要件: [Compute Estimates] カラムグループを展開します。

インスタンス (オフロードのモデル化 - 測定値)

説明: ベースライン GPU デバイスでループが実行される合計回数。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Measured] カラムグループに表示されます。

INT AI (GPU 計算パフォーマンス)

説明: 転送されたバイト数に対する整数操作の数。

GPU ルーフラインの調査パースペクティブの GPU プロファイル付き特性化解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [GPU Compute Performance] カラムグループに表示されます。

命令タイプカウント: BASIC COMPUTE、FMA、BIT、DIV、POW、MATH。

表示の要件: [GPU Compute Performance] カラムグループを展開します。このメトリックは、折りたたまれた [INT Operations] カラムにも表示されます。

INT AI (グローバルメモリー)

説明: 整数操作の推測される演算強度 (バイトあたりの操作数)。

オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated FLOAT Operations] カラムグループに表示されます。

グローバルメモリー (DRAM、HBM または GDDR6) に転送された合計バイト数に対する整数操作の比率として計算されます。

INT 操作

説明: カーネルで使用される整数操作のサマリー。

GPU ルーフラインの調査パースペクティブの GPU プロファイル付き特性化解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [GPU Compute Performance] カラムグループに表示されます。

集計:

GOp - ギガ整数操作の数。
GOp/s - 1 秒あたりのギガ整数操作の数。
AI - GPU メモリーに転送されたバイト数に対する整数操作の比率。

セル内にカーソルを移動すると、値の説明が表示されます。

IPC 比率

説明: 2 つの浮動小数点ユニット (FPU) パイプラインで計算された 1 サイクルあたりの平均命令比率 (IPC)。インテル® Arc™ グラフィックス・コード名 Alchemist 以降で実行されるコードは、IPC レートは拡張数学 (EM) ユニットおよび浮動小数点ユニット (FPU) パイプラインに対して計算されます。

GPU ルーフラインの調査パースペクティブでのサーベイ解析中に収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [EU Instructions] カラムグループ、または [GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [XVE Instructions] カラムグループ (インテル® Arc™ グラフィックス・コード名 Alchemist 以降で実行されるコード) に表示されます。

反復空間 (Iteration Space)

説明: ベースライン・デバイスで測定された反復メトリックのサマリー。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、または GPU プロファイルが有効にされたサーベイ解析中 (GPU 領域向け) に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Measured] カラムグループに表示されます。

集計: CPU - GPU のモデル化では、このカラムには次のメトリックが示されます。

呼び出しカウント (CC) - ループ/関数が呼び出された回数。
トリップカウント (TC) - ループ/関数が実行された平均回数。

GPU - GPU のモデル化では、このカラムには次のメトリックが示されます。

グローバル - すべてのワークグループのワーク項目の合計数。
ローカル - 1 つのワークグループ内のワーク項目数。

J

K

カーネル
カーネル起動コスト (Kernel Launch Tax)
カーネルタイプ

カーネル

説明: カーネル名

GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペインに表示されます。

カーネル起動コスト (Kernel Launch Tax)

説明: ループをターゲット・プラットフォームにオフロードする際に、カーネルを起動するために推測される合計時間コスト。データ転送のコストは含みません。

オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Bounded By] カラムグループに表示されます。

表示の要件: [Estimated Bounded By]カラムグループを展開します。

カーネルタイプ

説明: カーネルが実行するアクション。

GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペインに表示されます。

設定可能な値:

計算
転送
転送(入力)
転送(出力)
同期
メモリー割り当て

L

レイテンシー

説明: ループ/関数内で検出された上位レイテンシー (ミリ秒単位)。

オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Bounded By] カラムグループに表示されます。

L3 帯域幅 (L3 BW)

説明: L3 帯域幅最大 L3 キャッシュ帯域幅が達成されたと想定して、L3 キャッシュ間との読み書きに費やされる推測時間 (秒単位)。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Bounded By] カラムグループに表示されます。

表示の要件: [Estimated Bounded By]カラムグループを展開します。

L3 キャッシュ (L3 Cache)

説明: L3 キャッシュ帯域幅を含む推測される L3 キャッシュの使用量 (ギガバイト/秒) と、読み取りおよび書き込みトラフィックの合計として計算された合計 L3 キャッシュ・トラフィックのサマリー。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。

収集の要件:

GUI: [Analysis Workflow] ペインで [Cache Simulation] チェックボックスを有効にします。
CLI : 実行するには、--collect=tripcountsアクションを--enable-cache-simulationと--target-device=<target>アクションオプションで実行します。

L3 キャッシュ帯域幅 (L3 Cache BW)

説明: L3 キャッシュとの間でデータが転送される推定比率 (ギガバイト/秒)。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。

収集の要件:

GUI: [Analysis Workflow] ペインで [Cache Simulation] チェックボックスを有効にします。
CLI : 実行するには、--collect=tripcountsアクションを--enable-cache-simulationと--target-device=<target>アクションオプションで実行します。

表示の要件: [Memory Estimations] カラムグループを展開します。

L3 キャッシュ帯域幅利用率 (L3 Cache BW Utilization)

説明: L3 キャッシュ帯域幅の推測される利用率 (パーセント) は、理論上の最大帯域幅に対する平均帯域幅の比率として計算されます。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。

収集の要件:

GUI: [Analysis Workflow] ペインで [Cache Simulation] チェックボックスを有効にします。
CLI : 実行するには、--collect=tripcountsアクションを--enable-cache-simulationと--target-device=<target>アクションオプションで実行します。

表示の要件: [Memory Estimations] カラムグループを展開します。

L3 キャッシュ読み取りトラフィック (L3 Cache Read Traffic)

説明: 推測される L3 キャッシュから読み取られた合計データ。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。

収集の要件:

GUI: [Analysis Workflow] ペインで [Cache Simulation] チェックボックスを有効にします。
CLI : 実行するには、--collect=tripcountsアクションを--enable-cache-simulationと--target-device=<target>アクションオプションで実行します。

表示の要件: [Memory Estimations] カラムグループを展開します。

L3 キャッシュ・トラフィック (L3 Cache Traffic)

説明: 推測される L3 キャッシュとの間で読み書きされた合計データ。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。

収集の要件:

GUI: [Analysis Workflow] ペインで [Cache Simulation] チェックボックスを有効にします。
CLI : 実行するには、--collect=tripcountsアクションを--enable-cache-simulationと--target-device=<target>アクションオプションで実行します。

表示の要件: [Memory Estimations] カラムグループを展開します。

L3 キャッシュ書き込みトラフィック (L3 Cache Write Traffic)

説明: L3 キャッシュへ書き込まれた推測合計データ。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。

収集の要件:

GUI: [Analysis Workflow] ペインで [Cache Simulation] チェックボックスを有効にします。
CLI : 実行するには、--collect=tripcountsアクションを--enable-cache-simulationと--target-device=<target>アクションオプションで実行します。

表示の要件: [Memory Estimations] カラムグループを展開します。

L3 シェーダー

説明: カーネルの L3 キャッシュ使用状況のサマリー。

GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペインに表示されます。

集計: カラムでは次のメトリックがレポートされます。

合計 L3 トラフィック (ギガバイト単位)
L3 帯域幅 (ギガバイト/秒)
キャッシュライン利用率 (パーセント)このメトリックは、CARM が収集された場合にのみ表示されます。カーネルが転送バイトの一部分のみを使用する場合、値は赤色でハイライト表示されます。

セル内にカーソルを移動すると、値の説明と解釈のヒントが表示されます。

LLC

説明: LLC 帯域幅を含む推測される LLC の使用量 (ギガバイト/秒) と、読み取りおよび書き込みトラフィックの合計として計算された合計 LLC トラフィックのサマリー。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。

収集の要件:

GUI: [Analysis Workflow] ペインで [Cache Simulation] チェックボックスを有効にします。
CLI : 実行するには、--collect=tripcountsアクションを--enable-cache-simulationと--target-device=<target>アクションオプションで実行します。

LLC BW (推測される制限)

説明: ラスト・レベル・キャッシュ (LLC) 帯域幅。最大 LLC 帯域幅が達成されたと想定して、LLC 間との読み書きに費やされる推測時間 (秒単位)。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Bounded By] カラムグループに表示されます。

表示の要件: [Estimated Bounded By]カラムグループを展開します。

LLC BW (メモリー推測)

説明: LLC との間でデータが転送される推定比率 (ギガバイト/秒)。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。

収集の要件:

GUI: [Analysis Workflow] ペインで [Cache Simulation] チェックボックスを有効にします。
CLI : 実行するには、--collect=tripcountsアクションを--enable-cache-simulationと--target-device=<target>アクションオプションで実行します。

表示の要件: [Memory Estimations] カラムグループを展開します。

LLC BW 利用率

説明: 推定される LLC 帯域幅の利用率 (パーセント単位)。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。

収集の要件:

GUI: [Analysis Workflow] ペインで [Cache Simulation] チェックボックスを有効にします。
CLI : 実行するには、--collect=tripcountsアクションを--enable-cache-simulationと--target-device=<target>アクションオプションで実行します。

表示の要件: [Memory Estimations] カラムグループを展開します。

計算方法: 理論上の最大帯域幅に対する平均帯域幅の比率。

LLC 読み取りトラフィック

説明: 推測される LLC キャッシュから読み取られた合計データ。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。

収集の要件:

GUI: [Analysis Workflow] ペインで [Cache Simulation] チェックボックスを有効にします。
CLI : 実行するには、--collect=tripcountsアクションを--enable-cache-simulationと--target-device=<target>アクションオプションで実行します。

表示の要件: [Memory Estimations] カラムグループを展開します。

LLC トラフィック

説明: 推測される LLC キャッシュとの間で読み書きされた合計データ。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。

収集の要件:

GUI: [Analysis Workflow] ペインで [Cache Simulation] チェックボックスを有効にします。
CLI : 実行するには、--collect=tripcountsアクションを--enable-cache-simulationと--target-device=<target>アクションオプションで実行します。

表示の要件: [Memory Estimations] カラムグループを展開します。

LLC 書き込みトラフィック

説明: 推測される LLC キャッシュへ書き込まれた合計データ。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。

収集の要件:

GUI: [Analysis Workflow] ペインで [Cache Simulation] チェックボックスを有効にします。
CLI : 実行するには、--collect=tripcountsアクションを--enable-cache-simulationと--target-device=<target>アクションオプションで実行します。

表示の要件: [Memory Estimations] カラムグループを展開します。

ロード・レイテンシー (Load Latency)

説明: コード領域で明らかになったキャッシュ、またはメモリーのロード・レイテンシー (ミリ秒単位)

オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Bounded By] カラムグループに表示されます。

表示の要件: [Estimated Bounded By]カラムグループ。

ローカル

説明: 1 つのワークグループ内のワーク項目の合計数。

GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Work Size] カラムグループに表示されます。

ローカル・メモリー・サイズ

説明: 各スレッド・グループで使用されたローカル・メモリー・サイズ。

GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Kernel Details] カラムグループに表示されます。

表示の要件: [Kernel Details] カラムを展開します。

ローカルサイズ (計算予測)

説明: ターゲット・プラットフォームにオフロードされ、実行されるループ内のワークグループで推測されるワーク項目の合計数。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Compute Estimates] カラムグループに表示されます。

表示の要件: [Compute Estimates] カラムグループを展開します。

ローカルサイズ (測定)

説明: カーネルの 1 つのワークグループ内のワーク項目の合計数。このメトリックは、GPU から GPU へのモデル化にのみ利用できます。

オフロードのモデル化パースペクティブの GPU プロファイルを有効にしたサーベイ解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Measured] カラムグループに表示されます。

表示の要件: [Measured] カラムグループを展開します。

ループ/関数

説明: 呼び出しツリーのループ/関数のサブツリー領域内のループ/関数の名前とソースの場所。

オフロードのモデル化パースペクティブのサーベイ解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペインに表示されます。

M

行列エンジンアクティブ
メモリー容量 (バイト)
メモリーインパクト
モジュール (Module)

行列エンジンアクティブ

説明: 行列エンジン・パイプラインが処理中の時間の平均パーセンテージ。このメトリックは、インテル® Arc™ グラフィックス (コード名 Alchemist) 以降で実行されるコードで利用できます。

GPU ルーフラインの調査パースペクティブのSurvey解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [XVE Instructions] カラムグループに表示されます。

メモリー容量 (バイト)

説明: スレッドごとに汎用レジスターファイル (GRF) からスピルされたデータ (変数) のサイズ (バイト単位)。

GPU ルーフラインの調査パースペクティブのトリップカウントと GPU プロファイルが有効にされた特性化解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Register Spilling] カラムグループに表示されます。

表示の要件: [Register Spilling] カラムグループを展開します。このメトリックは、折りたたまれた [Register Spilling] カラムにも表示されます。

解釈: 値が大きいほど、レジスタースピルによってパフォーマンスが低下することを意味します。

メモリーインパクト

説明: レジスタースピルによって発生した汎用レジスターファイル (GRF) と L3 間のメモリー・トラフィックの合計 (合計トラフィックに対する比率)。

GPU ルーフラインの調査パースペクティブのトリップカウントと GPU プロファイルが有効にされた特性化解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Register Spilling] カラムグループに表示されます。

表示の要件: [Register Spilling] カラムグループを展開します。

解釈: 比率が低いほどカーネルは適切に最適化されていることを意味します。高い値が示される場合、スピル/フィルのトラフィックが合計トラフィックの大部分を占めており、カーネルのパフォーマンスを大幅に制限する可能性があることを意味します。

計算方法: 観測されたキャッシュ・トラフィックの合計に対するスピル/フィル・トラフィックの合計の比率。

モジュール (Module)

説明: プログラムモジュール名。

オフロードのモデル化パースペクティブのサーベイ解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Location] カラムグループに表示されます。

表示の要件: [Location] カラムグループを展開します。

N

O

オフロードコスト (Offload Tax)
オフロードのサマリー (Offload Summary)
非アクセラレート時間概要 (Overall Non-Accelerable Time)

オフロードコスト (Offload Tax)

説明: データ転送とカーネル起動に費やされた合計時間 (ミリ秒単位)。

オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Bounded By] カラムグループに表示されます。

表示の要件: [Estimated Bounded By]カラムグループを展開します。

オフロードのサマリー (Offload Summary)

説明: コード領域をターゲット・プラットフォームにオフロードすることが有益であるかを示す指標。トップダウン・ペインでは、子ループや子関数のオフロードのノード位置もレポートされます。

オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Basic Estimated Metrics] カラムグループに表示されます。

非アクセラレート時間概要 (Overall Non-Accelerable Time)

説明: オフロードされたコードのオフロードされない領域で費やされる推測合計時間。

オフロードのモデル化パースペクティブのサーベイとパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Time in Non-User Code] カラムグループに表示されます。

計算方法: このカラムには、次のメトリックの合計が示されます。

DAAL 呼び出し合計時間 (Total Time in TBB Calls)
SYCL 呼び出し合計時間 (Total Time in TBB Calls)
MPI 呼び出し合計時間 (Total Time in TBB Calls)
OpenCL 呼び出し合計時間 (Total Time in OpenCL Calls)
OpenMP 呼び出し合計時間 (Total Time in OpenMP Calls)
システムコール合計時間 (Total Time in System Calls)
TBB 呼び出し合計時間 (Total Time in TBB Calls)

解釈: これらのコード部分はオスロード領域内にありますが、パフォーマンス・モデルでは、ベースライン・デバイスで実行されることを前提としています。このようなコードの例として、OpenMP コード領域、SYCL ランタイム、そしてシステムコールなどがあります。

P

並列要因 (Parallel Factor)
並列スレッド (Parallel Threads)
パフォーマンスの問題 (GPU ルーフライン)
パフォーマンスの問題 (オフロードのモデル化)
プライベート (Private)
プライベート・メモリー・サイズ

並列要因 (Parallel Factor)

説明: ループ/関数のターゲットデバイス上で並列実行されるループ反復やカーネルのワーク項目数。

オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Compute Estimates] カラムグループに表示されます。

並列スレッド (Parallel Threads)

説明: すべての実行ユニット (EU) またはベクトルエンジン (XVE) で同時にスケジュールされるスレッドの推定数。

オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Compute Estimates] カラムグループに表示されます。

表示の要件: [Compute Estimates] カラムグループを展開します。

パフォーマンスの問題 (GPU ルーフライン)

説明: パフォーマンスの問題と、GPU で実行されるコード領域を最適化する推奨事項。

GPU ルーフラインの調査パースペクティブのサーベイ、特性化、およびパフォーマンスのモデル化解析中に収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペインに表示されます。

解釈: クリックすると、[GPU Roofline Regions] タブの [Recommendations] ペインで、サンプルコードと修正例を含む推奨事項がすべて表示されます。

パフォーマンスの問題 (オフロードのモデル化)

説明: コード領域をオフロードする際の推奨事項と、推測されるパフォーマンスのサマリーおよび最適化のヒントと潜在的な問題が示されます。

オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペインに表示されます。

解釈: クリックすると、[Accelerated Regions] タブの [Recommendations] ペインで、SYCL と OpenMP* プログラミング・モデルを使用してコード領域をオフロードしたり、パフォーマンスの問題を修正する例を含む推奨事項がすべて表示されます。

プライベート (Private)

説明: ターゲットターゲット・プラットフォームからループがプライベート・メモリーに転送した推測データの合計。パフォーマンスのモデル化でデータの再利用解析を有効にした場合、ターゲット・プラットフォーム上のコード領域間でデータが再利用されることを考慮してメトリック値が計算されます。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Data Transfer with Reuse] カラムグループに表示されます。

収集の要件:

GUI: [Analysis Workflow] ペイン、[Data Transfer Simulation] を [Light]、[Medium]、または [Full] に設定します。
CLI : 実行するには、--collect=tripcountsアクションを--data-transfer=[full | medium | light]アクションオプションで実行します。

表示の要件: [Estimated Data Transfers with Reuse] カラムグループを展開します。

プライベート・メモリー・サイズ

説明: コンパイラーによって各スレッドに割り当てられたプライベート・メモリー・サイズ。

GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Kernel Details] カラムグループに表示されます。

表示の要件: [Kernel Details] カラムを展開します。

Q

R

読み取り
読み取り、GB (GPU メモリー)
読み取り、GB (レジスタースピル)
読み取り、GB (SLM)
読み取り、GB/秒 (GPU メモリー)
読み取り、GB/秒 (SLM)
再利用なしの読み取り
領域
レジスタースピル
繰り返し (Repetitions)

読み取り

説明: オフロード領域によるターゲット・プラットフォームからの読み取り推測データ (ギガバイト単位)。パフォーマンスのモデル化でデータの再利用解析を有効にした場合、ターゲット・プラットフォーム上のコード領域間でデータが再利用されることを考慮してメトリック値が計算されます。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Data Transfer with Reuse] カラムグループに表示されます。

収集の要件:

GUI: [Analysis Workflow] ペイン、[Data Transfer Simulation] を [Light]、[Medium]、または [Full] に設定します。
CLI : 実行するには、--collect=tripcountsアクションを--data-transfer=[full | medium | light]アクションオプションで実行します。

表示の要件: [Estimated Data Transfers with Reuse] カラムグループを展開します。

Read、GB (GPU メモリー)

説明: GPU、チップアンコア (LLC) およびメインメモリーから読み取られた合計データ (ギガバイト)。

GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [GPU Memory] カラムグループに表示されます。

表示の要件: [GPU Memory] カラムグループを展開します。

Read、GB (レジスタースピル)

説明: レジスタースピルにより、L3 メモリーから読み取りまたはフィルされたデータの合計 (ギガバイト単位)。

GPU ルーフラインの調査パースペクティブのトリップカウントと GPU プロファイルが有効にされた特性化解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Register Spilling] カラムグループに表示されます。

表示の要件: [Register Spilling] カラムグループを展開します。

Read、GB (SLM)

説明: 共有ローカルメモリー (SLM) から読み取られた合計データ (ギガバイト単位)。

GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [SLM] カラムグループに表示されます。

表示の要件: [SLM] カラムグループを展開します。

Read、GB/秒 (GPU メモリー)

説明: GPU、チップアンコア(LLC) およびメインメモリーからデータが読み取られる比率 (ギガバイト/秒)。

GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [GPU Memory] カラムグループに表示されます。

表示の要件: [GPU Memory] カラムグループを展開します。

Read、GB/秒 (SLM)

説明: データが共有ローカルメモリー (SLM) からの読み取られる比率 (ギガバイト/秒)。

GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [SLM] カラムグループに表示されます。

表示の要件: [SLM] カラムグループを展開します。

再利用なしの Read

説明: データが再利用されないことを考慮し、コード領域でターゲット・プラットフォームから読み取られた推測データ (メガバイト単位)。このメトリックは、パフォーマンスのモデル化でデータの再利用解析が有効である場合にのみ利用されます。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Data Transfer with Reuse] カラムグループに表示されます。

収集の要件:

GUI: [Analysis Workflow] ペインで、[Characterization] の [Data Transfer Simulation] を Full に設定し、[Performance Modeling] の [Data Reuse Analysis] チェックボックスを有効にします。
CLI : リンク時に SVML ABI 互換ライブラリーを使用するには、--data-transfer=fullアクションオプションは、--collect=tripcounts アクションとともに使用し、--data-reuse-analysis オプションは --collect=tripcounts および --collect=projection アクションとともに使用します。

表示の要件: [Estimated Data Transfers with Reuse] カラムグループを展開します。

領域

説明: コード領域で使用されるプログラミング・モデル。

オフロードのモデル化パースペクティブのサーベイ解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Measured] カラムグループに表示されます。

レジスタースピル

説明: カーネルのパフォーマンスに対するレジスタースピルの影響のサマリー

GPU ルーフラインの調査パースペクティブのトリップカウントと GPU プロファイルが有効にされた特性化解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペインに表示されます。

解釈: レジスタースピルは、スレッドブロック (またはワーク項目) が汎用レジスターファイル (GRF) 内で利用可能な空間よりも多くの空間を必要とするため、レジスターのデータが L3 キャッシュを介してメモリーに保存されます。次のそのデータが必要になると、アプリケーションはそれを L3 キャッシュメモリーから読み取るか、フィルする必要があるためメモリー操作が増えます。その結果、カーネル内でレジスタースピルが発生するとパフォーマンスが低下します。

最高のパフォーマンスを達成するには、カーネル内にスピルがあってはなりません。

集計:

フットプリント - スレッドごとに GRF からスピルされたデータ (変数) のサイズ (バイト単位)。値が大きいほど、レジスタースピルによってパフォーマンスが低下することを意味します。
トラフィック - レジスタースピルにより、L3 キャッシュとの間でフィルまたはスピルされたデータの合計 (ギガバイト単位)。値が大きいほど、レジスタースピルによってパフォーマンスが低下することを意味します。
影響 (パーセント) - スピル/フィルのトラフィックの合計と L3 トラフィックの合計との比率。これは、カーネルのアルゴリズムによってデータ交換が行われないトラフィックの量を示します。値が大きいほど、レジスタースピルによってパフォーマンスが低下することを意味します。

繰り返し (Repetitions)

説明: アトミックな SEND 命令の平均繰り返し回数。

GPU がアトミック操作をサポートしていない場合、比較とスワップ (CAS) アトミックが呼び出されます。データをレジスターにロードして計算し、結果を前の値と比較します。値が一致しない場合、別のスレッドが値を変更したため、現在の結果は無効であることを意味します。そして、再計算のため CAS アトミックはデータを再びロードして、操作し、比較を繰り返します。アトミック SEND 命令の平均的な繰り返し回数は、repetitions (繰り返し) メトリックとしてレポートされます。

オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Atomics] カラムグループに表示されます。

表示の要件: [Atomics] カラムグループを展開します。

シェーダーアトミック / 想定されるアトミックとして計算されます。説明:

シェーダーアトミックはハードウェア上で測定される、カーネル内で呼び出されるアトミックの数です。
想定されるアトミックの数は、繰り返しなしでカーネル内で呼び出されるアトミックの予想数です。これは、静的アトミック * ワーク項目 / 平均実行サイズとして計算されます。

静的アトミックは、ソースコードで定義されるアトミックの数です。それぞれの静的アトミックは、特定の平均実行サイズ (命令が並列実行できる要素数) を持つアトミック SEND 命令に変換されます (SIMD モデル)。平均実行サイズに対するワーク項目の比率は、1 つのソースの静的アトミックに対するアトミック SEND による制限の推定数です。

S

送信アクティブ (Send Active)
SIMD 幅 (GPU ルーフライン)
SIMD 幅 (オフロードのモデル化 - 推測値を計算)
SIMD 幅 (オフロードのモデル化 - 測定値)
SLM (GPU ルーフライン)
SLM (オフロードのモデル化)
SLM BW (推測される制限)
SLM BW (メモリー推測)
SLM BW 利用率
SLM 読み取りトラフィック
SLM トラフィック
SLM 書き込みトラフィック
ソースの場所 (GPU ルーフライン)
ソースの場所 (オフロードのモデル化)
スレッドごとのスピル数 (Spill Count per Thread)
ストール
SVM 使用タイプ
スピードアップ
同期時間

送信アクティブ (Send Active)

説明: 送信パイプラインがアクティブに処理されている場合の、すべての実行ユニット (EU) またはベクトルエンジン (XVE) のサイクルのパーセンテージ。

GPU ルーフラインの調査パースペクティブでのサーベイ解析中に収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [EU Instructions] カラムグループ、または [GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [XVE Instructions] カラムグループ (インテル® Arc™ グラフィックス・コード名 Alchemist 以降で実行されるコード) に表示されます。

SIMD 幅 (GPU ルーフライン)

説明: シングル GPU スレッドによって処理されるワーク項目数。

GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Kernel Details] カラムグループに表示されます。

表示の要件: [Kernel Details] カラムを展開します。

SIMD 幅 (オフロードのモデル化 - 推測値を計算)

説明: ターゲット・プラットフォーム上の単一スレッドによって処理されるワーク項目の推定数。

オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Compute Estimates] カラムグループに表示されます。

表示の要件: [Compute Estimates] カラムグループを展開します。

SIMD 幅 (オフロードのモデル化 - 測定値)

説明: ベースライン・デバイス上の単一スレッドによって処理されるワーク項目の数。このメトリックは、GPU から GPU へのモデル化にのみ利用できます。

オフロードのモデル化パースペクティブの GPU プロファイルを有効にしたサーベイ解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Measured] カラムグループに表示されます。

表示の要件: [Measured] カラムグループを展開します。

SLM (GPU ルーフライン)

説明: カーネルでの共有ローカルメモリー (SLM) の使用状況のサマリー。

GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペインに表示されます。

集計: カラムでは次のメトリックがレポートされます。

合計 SLM トラフィック (ギガバイト単位)
SLM 帯域幅 (ギガバイト/秒)

セル内にカーソルを移動すると、値の説明が表示されます。

SLM (オフロードのモデル化)

説明: SLM 帯域幅を含む推測される SLM 使用量 (ギガバイト/秒) と、読み取りおよび書き込みトラフィックの合計として計算された合計 SLM トラフィックのサマリー。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。

SLM BW (推測される制限)

説明: 共有ローカルメモリー (SLM) 帯域幅。最大 SLM 帯域幅が達成されたと想定して、SLM 間との読み書きに費やされる推測時間 (秒単位)。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Bounded By] カラムグループに表示されます。

表示の要件: [Estimated Bounded By]カラムグループを展開します。

SLM BW (メモリー推測)

説明: 共有ローカルメモリー (SLM) 帯域幅。SLM との間でデータが転送される推定平均比率。この値は動的であり、帯域幅の値に対応して 1 秒あたりのバイト、1 秒あたりのキロバイト、1 秒あたりのメガバイトなどで測定できます。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。

表示の要件: [Memory Estimations] カラムグループを展開します。

SLM BW 利用率

説明: 推定される SLM 帯域幅の利用率 (パーセント単位)。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。

表示の要件: [Memory Estimations] カラムグループを展開します。

計算方法: 理論上の最大帯域幅に対する平均帯域幅の比率。

SLM 読み取りトラフィック

説明: SLM から読み取られた推測合計データ。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。

表示の要件: [Memory Estimations] カラムグループを展開します。

SLM トラフィック

説明: 推測される SLM との間で読み書きされた合計データ。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。

表示の要件: [Memory Estimations] カラムグループを展開します。

SLM 書き込みトラフィック

説明: 共有ローカルメモリー (SLM) への書き込み推測合計データ。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。

表示の要件: [Memory Estimations] カラムグループを展開します。

ソースの場所 (オフロードのモデル化)

説明: ソースファイル名と行番号。

オフロードのモデル化パースペクティブのサーベイ解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Location] カラムグループに表示されます。

解釈: このカラムでは、コード領域がどこにあるかを確かめることができます。

ソースの場所 (GPU ルーフライン)

説明: ソースファイル名と行番号。

GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペインに表示されます。

解釈: このカラムでは、カーネルがどこにあるかを確かめることができます。

スレッドごとのスピル数 (Spill Count per Thread)

説明: GRF からメモリー (L3 キャッシュ) に退避するために使用されるスピル命令数。

GPU ルーフラインの調査パースペクティブのトリップカウントと GPU プロファイルが有効にされた特性化解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Register Spilling] カラムグループに表示されます。

表示の要件: [Register Spilling] カラムグループを展開します。

解釈: メモリーのスピル/フィル (またはロード/ストア) 操作数が多いと、メモリー・トラフィックが大幅に増加してパフォーマンスが低下します。

ストール

説明: 最低 1 つのスレッドがスケジュールされ EU または XVE がストールしている場合の、すべての実行ユニット (EU) またはベクトルエンジン (XVE) のサイクルのパーセンテージ。

GPU ルーフラインの調査パースペクティブでのサーベイ解析中に収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [EU Array] カラムグループ、または [GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [XVE Array] カラムグループ (fインテル® Arc™ グラフィックス・コード名 Alchemist 以降で実行されるコード) にあります。

SVM 使用タイプ

GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Kernel Details] カラムグループに表示されます。

表示の要件: [Kernel Details] カラムを展開します。

スピードアップ

説明: 元の経過時間と比較した、ターゲットデバイスでのオフロード後に推定されるスピードアップ。

オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Basic Estimated Metrics] カラムグループに表示されます。

解釈: スピードアップが 1 より大きい場合、コード領域をターゲットデバイスにオフロードすることが推奨されます。また、1 以下の場合はオフロードの恩恵がないことを意味します。

同期時間

説明: 同期タスクに費やされた合計時間。

GPU ルーフラインの調査パースペクティブの特性化解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Data Transferred] カラムグループに表示されます。

表示の要件: [Data Transferred] カラムグループを展開します。

T

再利用とコスト (Taxes with Reuse)
スレッド占有率 (推測値を計算)
スレッド占有率 (測定)
EU ごとのスレッド数
スループット
時間 (推測)
時間 (計測)
DRAM 帯域幅による時間 (Time by LLC BW)
GTI 帯域幅による時間 (Time by GTI BW)
L3 キャッシュ帯域幅による時間 (Time by L3 Cache BW)
LLC 帯域幅による時間 (Time by LLC BW)
SLM 帯域幅による時間 (Time by LLC BW)
ターゲットへ
ターゲット間
合計
合計、GB (GPU メモリー)
合計、GB (L3 シェーダー)
合計、GB (SLM )
合計 (GB/秒)
合計サイズ
合計時間 (データ転送)
合計時間 (カーネル詳細)
DAAL 呼び出し合計時間 (Total Time in TBB Calls)
SYCL 呼び出し合計時間 (Total Time in TBB Calls)
MPI 呼び出し合計時間 (Total Time in TBB Calls)
OpenCL 呼び出し合計時間 (Total Time in OpenCL Calls)
OpenMP 呼び出し合計時間 (Total Time in OpenMP Calls)
システムコール合計時間 (Total Time in System Calls)
TBB 呼び出し合計時間 (Total Time in TBB Calls)
合計トラフィック、GB (レジスタースピル)
合計トリップカウント
再利用なしの合計

再利用とコスト (Taxes with Reuse)

説明: ホストからターゲット・プラットフォームにループをオフロードする際に推測される最大時間コストと他のすべてのコストの合計。パフォーマンスのモデル化でデータの再利用解析を有効にした場合、ターゲット・プラットフォーム上のコード領域間でデータが再利用されることを考慮してメトリック値が計算されます。セルに表示される三角形のアイコンは、この領域でデータが再使用されたことを示します。

これにより、推測されるデータ転送コストが軽減します。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Bounded By] カラムグループに表示されます。

スレッド占有率 (推測値を計算)

説明: ターゲットデバイスで推測される、すべての実行ユニットまたはベクトルエンジンで占有されるスレッドスロットの平均パーセンテージ。

オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Compute Estimates] カラムグループに表示されます。

表示の要件: [Compute Estimates] カラムグループを展開します。

スレッド占有率 (測定)

説明: ベースライン・デバイスで測定された、すべての実行ユニットまたはベクトルエンジンで占有されるスレッドスロットの平均パーセンテージ。このメトリックは、GPU から GPU へのモデル化にのみ利用できます。

オフロードのモデル化パースペクティブの GPU プロファイルを有効にしたサーベイ解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Measured] カラムグループに表示されます。

表示の要件: [Measured] カラムグループを展開します。

EU ごとのスレッド数

説明: 実行ユニット (EU) ごとに同時にスケジュールされるスレッドの推定数。

オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Compute Estimates] カラムグループに表示されます。

表示の要件: [Compute Estimates] カラムグループを展開します。

XVE ごとのスレッド数

説明: ベクトルエンジン (XVE) ごとに同時にスケジュールされるスレッドの推定数。このメトリックは、インテル® Arc™ グラフィックス・コード名 Alchemist (インテル® Advisor の XeHPG 256 および XeHPG 512 ターゲットデバイス構成以降) のパフォーマンスをモデル化する場合に使用できます。このメトリックは、従来の用語 EU ごとのスレッドメトリックと同じ意味です。

オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Compute Estimates] カラムグループに表示されます。

表示の要件: [Compute Estimates] カラムグループを展開します。

スループット

説明: ループ/関数が依存する上位 2 つの要因 (ミリ秒単位)。

オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Bounded By] カラムグループに表示されます。

時間 (推測)

説明: オフロードによりターゲット・プラットフォームで推測される、ループの実行開始から終了までに推測される経過時間 (オフロードのオーバーヘッドは含む) の合計時間に対するパーセンテージ。

オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Basic Estimated Metrics] カラムグループに表示されます。

時間 (計測)

説明: ホスト・プラットフォームで測定されたループの実行開始から終了までの経過時間。

オフロードのモデル化パースペクティブのサーベイ解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Measured] カラムグループに表示されます。

DRAM 帯域幅による時間 (Time by LLC BW)

説明: 最大 DRAM メモリー帯域幅が達成されたと想定して、DRAM メモリー間との読み書きに費やされる推測時間 (秒単位)。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。

収集の要件:

GUI: [Analysis Workflow] ペインで [Cache Simulation] チェックボックスを有効にします。
CLI : 実行するには、--collect=tripcountsアクションを--enable-cache-simulationと--target-device=<target>アクションオプションで実行します。

表示の要件: [Memory Estimations] カラムグループを展開します。

GTI 帯域幅による時間 (Time by GTI BW)

説明: 最大 GTI 帯域幅が達成されたと想定して、グラフィックス・テクノロジー・インターフェイス (GTI) 間との読み書きに費やされる推測時間 (秒単位)。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。

表示の要件: [Memory Estimations] カラムグループを展開します。

L3 キャッシュ帯域幅による時間 (Time by L3 Cache BW)

説明: 最大 L3 キャッシュ帯域幅が達成されたと想定して、L3 キャッシュ間との読み書きに費やされる推測時間 (秒単位)。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。

収集の要件:

GUI: [Analysis Workflow] ペインで [Cache Simulation] チェックボックスを有効にします。
CLI : 実行するには、--collect=tripcountsアクションを--enable-cache-simulationと--target-device=<target>アクションオプションで実行します。

表示の要件: [Memory Estimations] カラムグループを展開します。

LLC 帯域幅による時間 (Time by LLC BW)

説明: 最大ラスト・レベル・キャッシュ (LLC) 帯域幅が達成されたと想定して、LLC 間との読み書きに費やされる推測時間 (秒単位)。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。

収集の要件:

GUI: [Analysis Workflow] ペインで [Cache Simulation] チェックボックスを有効にします。
CLI : 実行するには、--collect=tripcountsアクションを--enable-cache-simulationと--target-device=<target>アクションオプションで実行します。

表示の要件: [Memory Estimations] カラムグループを展開します。

SLM 帯域幅による時間 (Time by LLC BW)

説明: 最大 SLM 帯域幅が達成されたと想定して、SLM 間との読み書きに費やされる推測時間 (秒単位)。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中、およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Memory Estimations] カラムグループに表示されます。

表示の要件: [Memory Estimations] カラムグループを展開します。

ターゲットへ

説明: 共有メモリーからループがターゲット・プラットフォームに転送した推測データ (ギガバイト単位)。パフォーマンスのモデル化でデータの再利用解析を有効にした場合、ターゲット・プラットフォーム上のコード領域間でデータが再利用されることを考慮してメトリック値が計算されます。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Data Transfer with Reuse] カラムグループに表示されます。

収集の要件:

GUI: [Analysis Workflow] ペイン、[Data Transfer Simulation] を [Light]、[Medium]、または [Full] に設定します。
CLI : 実行するには、--collect=tripcountsアクションを--data-transfer=[full | medium | light]アクションオプションで実行します。

表示の要件: [Estimated Data Transfer with Reuse] カラムグループを展開します。

ターゲット間

説明: ループによって共有メモリーとターゲットターゲット・プラットフォームとの間で転送された推測データの合計 (メガバイト単位)。パフォーマンスのモデル化でデータの再利用解析を有効にした場合、ターゲット・プラットフォーム上のコード領域間でデータが再利用されることを考慮してメトリック値が計算されます。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Data Transfer with Reuse] カラムグループに表示されます。

収集の要件:

GUI: [Analysis Workflow] ペイン、[Data Transfer Simulation] を [Light]、[Medium]、または [Full] に設定します。
CLI : 実行するには、--collect=tripcountsアクションを--data-transfer=[full | medium | light]アクションオプションで実行します。

表示の要件: [Estimated Data Transfer with Reuse] カラムグループを展開します。

合計

説明: ループをオフロードする際にターゲット・プラットフォームへ送信される推測合計トラフィックと、ターゲット・プラットフォームから受信する推測合計トラフィック (メガバイト単位)。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Data Transfer with Reuse] カラムグループに表示されます。

収集の要件:

GUI: [Analysis Workflow] ペイン、[Data Transfer Simulation] を [Light]、[Medium]、または [Full] に設定します。
CLI : 実行するには、--collect=tripcountsアクションを--data-transfer=[full | medium | light]アクションオプションで実行します。

表示の要件: [Estimated Data Transfer with Reuse] カラムグループを展開します。

計算方法: (MappedTo + MappedFrom + 2*MappedToFrom)。パフォーマンスのモデル化でデータの再利用解析を有効にした場合、ターゲット・プラットフォーム上のコード領域間でデータが再利用されることを考慮してメトリック値が計算されます。

合計、GB (GPU メモリー)

説明: GPU、チップアンコア (LLC) およびメインメモリーとの間で転送された合計データ (ギガバイト)。

GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [GPU Memory] カラムグループに表示されます。

合計、GB (L3 シェーダー)

説明: 実行ユニットまたはベクトルエンジンと L3 キャッシュ間で転送された合計データ (ギガバイト)。

GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [L3 Shader] カラムグループに表示されます。

表示の要件: L3 シェーダーカラムを展開します。このメトリックは、折りたたまれた [L3 Shader] カラムにも表示されます。

合計、GB (SLM )

説明: 共有ローカルメモリー (SLM) との間で転送された合計データ (ギガバイト単位)。

GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [SLM] カラムグループに表示されます。

表示の要件: [SLM] カラムを展開します。このメトリックは、折りたたまれた [SLM] カラムにも表示されます。

合計 (GB/秒)

説明: CPU と GPU 間で転送されたデータの平均帯域幅。

GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Data Transferred] カラムグループに表示されます。

表示の要件: [Data Transferred] カラムグループを展開します。

解釈: clEnqueueMapBufferなど一部のケースでは、メモリーにコピーされずに L3 キャッシュが共有されることで、髙い帯域幅値の転送が行われる可能性があります。

合計サイズ

説明: GPU で処理された合計データ。

GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Data Transferred] カラムグループに表示されます。

合計時間 (データ転送)

説明: ホストからデバイスへ、およびデバイスからホストへのデータ転送にかかる合計時間。

GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Data Transferred] カラムグループに表示されます。

合計時間 (カーネル詳細)

説明: タスクの実行に費やされた合計時間。

GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Kernel Details] カラムグループに表示されます。

表示の要件: [Kernel Details] カラムを展開します。

DAAL 呼び出し合計時間 (Total Time in TBB Calls)

説明: オフロードされたコード領域でインテル® データ・アナリティクス・アクセラレーション・ライブラリー (インテル® DAAL) 呼び出しに費やされた合計時間 (秒単位)。

オフロードのモデル化パースペクティブのサーベイ解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Time in Non-User Code] カラムグループに表示されます。

表示の要件: [Time in Non-User Code] カラムグループを展開します。

解釈: カラムの値が 0 より大きい場合、コード領域には DAAL 呼び出しが含まれます。

SYCL 呼び出し合計時間 (Total Time in TBB Calls)

説明: オフロードされたコード領域で SYCL 呼び出しに費やされた合計時間 (秒単位)。

オフロードのモデル化パースペクティブのサーベイ解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Time in Non-User Code] カラムグループに表示されます。

表示の要件: [Time in Non-User Code] カラムグループを展開します。

解釈: カラムの値が 0 より大きい場合、コード領域には SYCL 呼び出しが含まれます。

MPI 呼び出し合計時間 (Total Time in TBB Calls)

説明: オフロードされたコード領域で MPI 呼び出しに費やされた合計時間 (秒単位)。

オフロードのモデル化パースペクティブのサーベイ解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Time in Non-User Code] カラムグループに表示されます。

解釈: カラムの値が 0 より大きい場合、コード領域には MPI 呼び出しが含まれます。

OpenCL 呼び出し合計時間 (Total Time in OpenCL Calls)

説明: オフロードされたコード領域で OpenCL 呼び出しに費やされた合計時間 (秒単位)。

オフロードのモデル化パースペクティブのサーベイ解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Time in Non-User Code] カラムグループに表示されます。

表示の要件: [Time in Non-User Code] カラムグループを展開します。

解釈: カラムの値が 0 より大きい場合、コード領域には OpenCL 呼び出しが含まれます。

OpenMP 呼び出し合計時間 (Total Time in OpenMP Calls)

説明: オフロードされたコード領域で OpenMP 呼び出しに費やされた合計時間 (秒単位)。

オフロードのモデル化パースペクティブのサーベイ解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Time in Non-User Code] カラムグループに表示されます。

表示の要件: [Time in Non-User Code] カラムグループを展開します。

解釈: カラムの値が 0 より大きい場合、コード領域には OpenMP 呼び出しが含まれます。

システムコール合計時間 (Total Time in System Calls)

説明: オフロードされたコード領域でシステムコールに費やされた合計時間 (秒単位)。

オフロードのモデル化パースペクティブのサーベイ解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Time in Non-User Code] カラムグループに表示されます。

表示の要件: [Time in Non-User Code] カラムグループを展開します。

解釈: カラムの値が 0 より大きい場合、コード領域にはシステムコールが含まれます。

TBB 呼び出し合計時間 (Total Time in TBB Calls)

説明: オフロードされたコード領域でインテル® oneAPI スレッディング・ビルディング・ブロック (oneTBB) 呼び出しに費やされた合計時間 (秒単位)。

オフロードのモデル化パースペクティブのサーベイ解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Time in Non-User Code] カラムグループに表示されます。

表示の要件: [Time in Non-User Code] カラムグループを展開します。

解釈: カラムの値が 0 より大きい場合、コード領域には oneTBB 呼び出しが含まれます。

合計トラフィック、GB (レジスタースピル)

説明: レジスタースピルにより、L3 メモリーとの間でフィルまたはスピルされたデータの合計 (ギガバイト単位)。

GPU ルーフラインの調査パースペクティブの GPU プロファイル付きのトリップカウント解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Register Spilling] カラムグループに表示されます。

表示の要件: [Register Spilling] カラムグループを展開します。

解釈: この値が高い場合、スピル/フィルのトラフィックがカーネル内の合計データ・トラフィックの大部分を占め、パフォーマンスが低下する可能性があることを示します。合計トラフィックのどれくらいであるかを知るには、メモリーへの影響カラムを参照してください。

計算方法: 汎用レジスターファイル (GRF) から L3 にスピルされた、または L3 から GRF にフィルされたデータの合計。

合計トリップカウント

説明: ループ/関数が実行された合計回数。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Measured] カラムグループに表示されます。

表示の要件: [Measured] カラムグループを展開します。

再利用なしの合計

説明: ターゲット・プラットフォームが受信する推測合計トラフィックと、データが再利用されないと想定しターゲット・プラットフォームから送信される推測合計トラフィックの合計 (メガバイト単位)。このメトリックは、パフォーマンスのモデル化でデータの再利用解析が有効である場合にのみ利用されます。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Data Transfer with Reuse] カラムグループに表示されます。

収集の要件:

GUI: [Analysis Workflow] ペインで、[Characterization] の [Data Transfer Simulation] を Full に設定し、[Performance Modeling] の [Data Reuse Analysis] チェックボックスを有効にします。
CLI : リンク時に SVML ABI 互換ライブラリーを使用するには、--data-transfer=fullアクションオプションは、--collect=tripcounts アクションとともに使用し、--data-reuse-analysis オプションは --collect=tripcounts および --collect=projection アクションとともに使用します。

表示の要件: [Estimated Data Transfer with Reuse] カラムグループを展開します。

計算方法: (MappedTo + MappedFrom + 2*MappedToFrom)。

U

アンロール係数 (Unroll Factor)

アンロール係数 (Unroll Factor)

説明: コンパイラーにより適用されたループアンロール係数。

オフロードのモデル化パースペクティブのサーベイ解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Measured] カラムグループに表示されます。

表示の要件: [Measured] カラムグループを展開します。

V

ベクトル ISA (Vector ISA)
ベクトル長 (Vector Length)

ベクトル ISA (Vector ISA)

説明: それぞれの命令に使用される最上位のベクトル命令セット・アーキテクチャー (ISA)。

オフロードのモデル化パースペクティブのサーベイ解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Measured] カラムグループに表示されます。

表示の要件: [Measured] カラムグループを展開します。

ベクトル長 (Vector Length)

説明: 単一のベクトルループ反復で処理される要素数、バイナリーの静的解析またはインテル® コンパイラーによって決定される個々のベクトル命令で処理される要素数です。

オフロードのモデル化パースペクティブのサーベイ解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Measured] カラムグループに表示されます。

表示の要件: [Measured] カラムグループを展開します。

W

オフロードされない理由
書き込み
書き込み、GB (GPU メモリー)
書き込み、GB (レジスタースピル)
書き込み、GB (SLM)
書き込み、GB/秒 (GPU メモリー)
書き込み、GB/秒 (SLM)
再利用なしで書き込み

オフロードされない理由

説明: コード領域を現在のターゲット GPU デバイスにオフロードすることが推奨されない理由。

オフロードのモデル化パースペクティブのパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Basic Estimated Metrics] カラムグループに表示されます。

解釈: 考えられる理由の詳細については、オフロードされていないコード領域を調査を参照してください。

書き込み

説明: ループがターゲット・プラットフォームに書き込むことが推測されるデータ。パフォーマンスのモデル化でデータの再利用解析を有効にした場合、ターゲット・プラットフォーム上のコード領域間でデータが再利用されることを考慮してメトリック値が計算されます。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Data Transfer with Reuse] カラムグループに表示されます。

収集の要件:

GUI: [Analysis Workflow] ペイン、[Data Transfer Simulation] を [Light]、[Medium]、または [Full] に設定します。
CLI : リンク時に SVML ABI 互換ライブラリーを使用するには、--data-transfer=[full | medium | light]オプションは、--collect=tripcounts アクションとともに使用します。

表示の要件: [Estimated Data Transfer with Reuse] カラムグループを展開します。

書き込み、GB (GPU メモリー)

説明: GPU、チップアンコア (LLC) およびメインメモリーに書き込まれた合計データ (ギガバイト)。

GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [GPU Memory] カラムグループに表示されます。

表示の要件: [GPU Memory] カラムグループを展開します。

書き込み、GB (レジスタースピル)

説明: レジスタースピルにより、L3 メモリーに書き込まれた、またはスピルされたデータの合計 (ギガバイト単位)。

GPU ルーフラインの調査パースペクティブのトリップカウントと GPU プロファイルが有効にされた特性化解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [Register Spilling] カラムグループに表示されます。

表示の要件: [Register Spilling] カラムグループを展開します。

書き込み、GB (SLM)

説明: 共有ローカルメモリー (SLM) へ書き込まれる合計データ (ギガバイト単位)。

GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [SLM] カラムグループに表示されます。

表示の要件: [SLM] カラムグループを展開します。

書き込み、GB/秒 (GPU メモリー)

説明: データが GPU、チップアンコア(LLC) およびメインメモリーに書き込まれる比率 (ギガバイト/秒)。

GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [GPU Memory] カラムグループに表示されます。

表示の要件: [GPU Memory] カラムグループを展開します。

書き込み、GB/秒 (SLM)

説明: データが共有ローカルメモリー (SLM) に書き込まれる比率 (ギガバイト/秒)。

GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペイン > [SLM] カラムグループに表示されます。

表示の要件: [SLM] カラムグループを展開します。

再利用なしで書き込み

説明: データが再利用されないことを考慮し、コード領域でターゲット・プラットフォームに書き込まれる推測データ (メガバイト単位)。このメトリックは、パフォーマンスのモデル化でデータの再利用解析が有効である場合にのみ利用されます。

オフロードのモデル化パースペクティブのトリップカウント付きの特性化解析およびパフォーマンスのモデル化解析中に収集され、[Accelerated Regions] タブ > [Code Regions] ペイン > [Estimated Data Transfer with Reuse] カラムグループに表示されます。

収集の要件:

GUI: [Analysis Workflow] ペインで、[Characterization] の [Data Transfer Simulation] を Full に設定し、[Performance Modeling] の [Data Reuse Analysis] チェックボックスを有効にします。
CLI : リンク時に SVML ABI 互換ライブラリーを使用するには、--data-transfer=fullアクションオプションは、--collect=tripcounts アクションとともに使用し、--data-reuse-analysis オプションは --collect=tripcounts および --collect=projection アクションとともに使用します。

表示の要件: [Estimated Data Transfer with Reuse] カラムグループを展開します。

X, Y, Z

XVE スレッド占有率

XVE スレッド占有率

説明: スロットにスケジュールされたスレッドがある場合、すべてのベクトルエンジン (XVE) とスレッドスロットのサイクルのパーセンテージ。このメトリックは、インテル® Arc™ グラフィックス (コード名 Alchemist) 以降で実行されるコードで利用できます。このメトリックは、従来の用語 EU スレッド占有メトリックと同じ意味です。

GPU ルーフラインの調査パースペクティブのサーベイ解析で収集され、[GPU Roofline Regions] タブ > [GPU Kernels] ペインに表示されます。