CPU と GPU カーネルの実行を可視化: インテル® VTune™ プロファイラーのタスク概要解析 (技術プレビュー機能) の使用

インテル® VTune™ プロファイラー

この記事は、インテルのウェブサイトで公開されている「Visualizing CPU and GPU Kernel Execution: Using Intel® VTune™ Profiler’s Tasks Overview Analysis (Technical Preview)」の日本語参考訳です。原文は更新される可能性があります。原文と翻訳文の内容が異なる場合は原文を優先してください。


インテル® VTune™ プロファイラー 2025.6 リリースでは、CPU と GPU カーネル実行の関係を視覚化する強力な技術プレビュー機能が導入されています。この機能強化により、CPU と GPU カーネル実行の関係を視覚化する統合されたインタラクティブなタイムラインが提供され、ヘテロジニアス・ワークロードにおけるオフロードパターン、同期、パフォーマンスのボトルネックを理解しやすくなります。

XPU オフロード・ワークフローの一部である新しいタスク概要解析は、ホストとデバイス (GPU/NPU) の両方で実行される計算タスクを高速かつ軽量に確認できます。改善されたグループ化、接続の視覚化、およびより効率的なデータ収集モデルが導入されています。

この機能を有効にするには次の環境変数を設定します: AMPLXE_EXPERIMENTAL=tasks-overview

タスク概要解析を収集する方法

  1. インテル® VTune™ プロファイラーを起動する前に、次の環境変数を設定して技術プレビューを有効にします。
    export AMPLXE_EXPERIMENTAL=tasks-overview
  2. ユースケースに応じてプロファイル・データを収集します。コマンドラインまたは GUI からデータを収集できます。
    • コマンドライン:
      vtune -collect xpu-offload -- <path-to-app>
    • GUI:
      GUI 構成パネルから [XPU Offload (XPU オフロード)] を選択し、実験的機能が有効になっていることを確認します。
  3. ファイナライズが完了したら、結果グループから GPU ごとまたは計算 API タイプごとにタスクを観察します。

以前に収集した結果を開く場合、環境変数が設定されていることを確認し、結果のビューポイントを [Tasks Overview (タスク概要)] に切り替えます。

結果を理解する追加機能

タスクの接続を視覚化

  • タイムラインには、関連する CPU タスクと GPU タスク間の接続線が表示されるようになり、システム全体のワークの流れを追跡するのに役立ちます。
  • 新しい [Thread/Task Domain (スレッド/タスクドメイン)] グループにより、どのスレッドがどのタイプの API タスク (L0、OpenCL、oneDNN など) に相当するかを確認できるため、混合ワークロードの解析が容易になります。

グループ化とフィルターの使用

  • グループ化:
    グループ化を使用してフィルター処理し、特定の GPU、API、またはスレッドドメインに焦点を当てます。これは、複数のデバイスや API が使用される複雑なワークロードで特に有用です。
  • ヒントの詳細:
    タスクの上にマウスを移動すると、実行時間、タスクのタイプ、データ転送の場合は転送サイズなどの詳細情報が表示されます。

パフォーマンスとデータサイズ

  • タスク概要解析が高速化され、生成される結果ファイルも小さくなります (例: 以前の方法では 1.40GB でしたが、現在は 135MB です)。

既知の問題

ズーム・アーティファクト:

  • 非常に小さいタスク (幅 1 ピクセル) の接続線は、ズームアウトすると表示されない場合がありますが、ズームインすると再び表示されます。

  • 表示可能な画面領域外のタスクへの接続は、ズームアウトして画面に現れるまで表示されません。


製品および性能に関する情報

1 性能は、使用状況、構成、その他の要因によって異なります。詳細については、http://www.intel.com/PerformanceIndex/ (英語) を参照してください。

タイトルとURLをコピーしました