インテル® VTune™ プロファイラーの新機能

同カテゴリーの次の記事

インテル® VTune™ プロファイラー 2020 の新機能: スロットリング解析の活用

この記事は、インテル® デベロッパー・ゾーンに公開されている「What’s New in Intel® VTune™ Profiler」の日本語参考訳です。


インテル® VTune™ プロファイラー 2020 Update 1 およびベータ版インテル® VTune™ プロファイラー 2021.1-beta05

インテル® VTune™ プロファイラー 2020 Update1 では、サードパーティー・コンポーネントのバージョンが更新され、最新の機能およびセキュリティー・アップデートが含まれます。最新バージョンにアップデートすることを強く推奨します。

このバージョンのインテル® VTune™ プロファイラーには、以下の改善と機能追加が含まれます。

  • GPU アクセラレーター:
    • カーネルレベルの SIMD 利用率メトリック
      動的命令カウントモードの GPU 計算/メディア・ホットスポット解析にカーネルおよび命令レベルの SIMD 利用率メトリックが追加されました。これらのメトリックは、SIMD 機能を十分に活用していない OpenCL* カーネルの命令を特定するのに役立ちます。
    • APS と HPC 解析タイプの GPU メトリック
      アプリケーション・パフォーマンス・スナップショット (APS) の GPU 利用率解析と HPC パフォーマンス特性解析に次の GPU 計算メトリックが追加されました。
      • GPU 時間
      • GPU IPC
      • GPU 利用率
      • ストールとアイドル EU のパーセンテージ
    • アプリケーション・パフォーマンス・スナップショット (APS) の GPU メトリック
      アプリケーション・パフォーマンス・スナップショット (APS) の GPU 計算メトリックセットが拡張され、オフロード領域のオーバーヘッドを含む OpenMP* オフロード効率メトリックが追加されました。これらのメトリックは、ベータ版インテル® oneAPI DPC++ コンパイラー 2021.1-beta05 以降でコンパイルされたバイナリーで利用できます。
    • インテル® Metric Discovery API ライブラリーの依存関係を簡素化
      Linux* システムで GPU ハードウェア統計を収集するインテル® Metric Discovery API ライブラリーの依存関係が簡素化されました。インテル® VTune™ プロファイラーは GPU 解析の要件を満たすため、ランタイムで利用可能な最新の libstdc++ を自動選択できるようになりました。古いバージョンの製品では、こちらの手順 (英語) に従って手動で設定を有効にします。
  • プラットフォーム解析:
    • CPU/FPGA 相互作用解析の改善
      CPU/FPGA 相互作用解析 (英語) は、OpenCL* プロファイル API (従来のモード) に加えて、AOCL プロファイラー (新しいモード) で収集されたデータソースを処理できるようになりました。新たに追加された設定オプションを使用して、ターゲットのアプリケーション名と引数を直接指定します。
    • ハードウェア・トレース・モードの新しいメトリック
      システムの概要解析のハードウェア・トレース・モード (英語) が拡張され、次のメトリックが追加されました。
      • OS カーネル・アクティビティー
      • OS スケジュール

      これらのメトリックは、予期しないカーネル・アクティビティーやプリエンプションによる異常動作を特定します。

    • ハードウェア・トレース・モードのモジュールのエントリーポイントによるグループ化
      ハードウェア・トレース・モード (英語) で収集されたデータを表示するため、システムの概要ビューポイントに新しく [モジュールのエントリーポイント] グループレベルが追加されました。これにより、システムコール、割り込み、またはランタイム・ライブラリーの特定の API で費やされる CPU 時間を正確に監視できるようになりました。
    • カーネルモードのスイッチの新しいメトリック
      新しいメトリックは、カーネルモードのスイッチ数とその頻度 (スイッチ/秒) を示します。CPU 時間メトリックは、以下に分割されます。
      • ユーザー時間
      • カーネル時間

      新しいメトリックは、解析をよりカーネルを意識したものにします。

  • ソフトウェア・サポート:
    • マイクロアーキテクチャー全般解析でインテル® プロセッサー開発コード名 Ice Lake がサポートされました。
    • インテル® VTune™ プロファイラーで次のプラットフォームのバージョン 13 以降がサポートされました。
      • OpenJDK* (ホットスポットおよびハードウェア・イベントベース解析タイプ) (Windows*/Linux*)
      • Oracle* Java Virtual Machine* (Linux*)

ベータ版インテル® VTune™ プロファイラー 2021.1-beta04

このバージョンのインテル® VTune™ プロファイラーには、以下の改善と機能追加が含まれます。

  • GPU アクセラレーター:
    • GPU 解析のシステム設定要件を簡素化しました。Linux* カーネルをリビルド (英語) しなくても GPU 利用率 (英語) 解析を利用できるようになりました。Ftrace テクノロジーに対応していないシステムでは、ハードウェア・イベントに基づいて GPU 利用率統計が収集され、レンダーと GPGPU エンジンのみが利用できます。エンジンごとの GPU 利用率統計を収集するには、カーネルをリビルドするか、モジュール i915 を設定してリビルドし、i915 Ftrace イベント収集を有効にしてください。
  • プラットフォーム解析:
    • システムの概要解析の ハードウェア・トレース・モード (英語) が最適化され、ユーザー/カーネルメトリック、スレッド/ハードウェア・グループ、モジュール のエントリーポイントが追加されました。

インテル® VTune™ プロファイラー 2020 およびベータ版インテル® VTune™ プロファイラー 2021.1-beta03

インテル® VTune™ Amplifier は、ベータ版インテル® oneAPI ベース・ツールキット向けのバージョンからインテル® VTune™ プロファイラーに名称が変更されています。インテル® VTune™ プロファイラーのスタンドアロン・バージョンとインテル® Parallel Studio XE またはインテル® System Studio に同梱されたバージョンも引き続きご利用いただけます。

インテル® VTune™ プロファイラーの新しいバージョンには、以前のインテル® VTune™ Amplifier に次の機能が追加されています。

  • GPU アクセラレーターのサポート:
    • 新しい GPU オフロード (英語) 解析が追加され、CPU と GPU でのコードの実行を調査および関連付け、GPU 計算/メディア・ホットスポット解析によってさらに詳しく調査が必要な GPU 依存のアプリケーションのカーネルを特定できます。
    • GPU 計算/メディア・ホットスポット (英語) 解析は、OpenCL* コードの GPU In-kernel 解析および対象のカーネルでフィルター処理を行う機能により拡張されました。
    • GPU 解析タイプをサポートするため、コマンドラインの hotspots (英語) レポートの範囲が拡張されました。収集したデータに computing-task (計算タスク) と computing-instance (計算インスタンス) のグループ化を適用して、時間のかかる計算タスクに集中できます。
    • GPU 計算/メディア・ホットスポット解析の一部として利用可能な動的命令カウント (英語) 収集が改善され、基本ブロックのアセンブリー解析の精度が向上しました。
    • インテル® プロセッサー・グラフィックス Gen11 をサポートしました。
  • プラットフォーム解析サポート:
    • システム概要 (英語) 解析は、システム (I/O、アクセラレーター、CPU) のパフォーマンスを評価し、次のステップのガイドを提供するプラットフォーム解析への開始点として機能するように改善されました。
    • システム概要解析の新しいハードウェア・トレース・モード (英語) により、マイクロ秒単位でアプリケーションの解析が可能となり、待機時間の問題の原因を特定できます。
  • HPC 解析の改善:
    • DRAM、MCDRAM、インテル® Optane™ DC パーシステント・メモリー、およびインテル® Omni-Path の使用効率を正確に推測するため、アプリケーション・パフォーマンス・スナップショットに最大帯域幅および帯域幅依存メトリックが追加されました。
  • 電力解析の改善:
    • 発熱や電力の制限を超えるなど、システム・スロットリングの原因を特定する新しいスロットリング解析が追加されました。
    • インテル® SoC Watch データコレクターをベースとする電力解析 (英語) オプションは、プロセッサー・パッケージ全体の電力消費量を時系列で監視し、CPU スロットリングとの関係を特定できるように拡張されました。
  • プラットフォーム・プロファイラー (英語) の改善:
    • 不均一メモリーアクセス (NUMA) の動作を解析する新しいメトリックにより概要およびメモリービューが拡張されました。
    • データのアクセス制御のためユーザー認証と承認が追加されました。
    • プラットフォーム・プロファイラーのデータファイルの場所を選択または変更するための新しいオプションが追加されました。
  • クラウドとコンテナー化のサポート:
    • Docker* コンテナーにインテル® VTune™ プロファイラーをインストールして実行するオプションと、同一コンテナー内とコンテナー外の両方のターゲットのプロファイルによりコンテナー化のサポート (英語) が拡張されました。
    • インテル® マイクロアーキテクチャー開発コード名 Cascade Lake X をベースとする Amazon Web Service* (AWS*) EC2* インスタンスで実行されるアプリケーションのプロファイルがサポートされました。
  • 新しいプロファイル・ツールとしてインテル® VTune™ プロファイラーに追加されたファブリック・プロファイラー (英語) (プレビュー)。ファブリック・プロファイラーを使用して、OpenSHMEM* アプリケーションのランタイム動作の特性を詳しく識別できます。
  • 品質と利便性の改善:
    • Linux* システム上の crossgen (JIT 事前コンパイラー) 機能で有効なソースレベルのシンボル解決。
    • サンプルプロジェクトを使用して製品のインターフェイスをガイドするインタラクティブなヘルプツアーがようこそページから利用できるようになりました。
    • セキュリティーと機能を更新するため、サードパーティーのコンポーネントが最新バージョンに更新されました。製品を最新バージョンに更新することを推奨します。
  • 新しいハードウェア/オペレーティング・システム/IDE のサポート:

    • 第 10 世代インテル® Core™ プロセッサー
    • Ubuntu* 19.10
    • Red Hat* Enterprise Linux* 8
    • Microsoft* Windows* 10 (November 2019 Update)

    サポートされるプラットフォームの全リストについては、インテル® VTune™ プロファイラーのリリースノートを参照してください。

ベータ版インテル® oneAPI ベース・ツールキットの一部として提供されるインテル® VTune™ プロファイラーは次の機能を提供します。

  • GPU と FPGA を含む複数のアクセラレーター・アーキテクチャー全体でデータ並列 C++ (DPC++) コードのプロファイル機能がサポートされました。
  • GPU オフロードおよび GPU 計算/メディア・ホットスポットのタイプが拡張され、GPU へオフロードされた DPC++ コードと OpenMP* コードのプロファイルがサポートされました。
  • ストール、グローバル帯域幅、占有率などの FPGA デバイス上のメトリックと、ソースコードへの FPGA カーネルのパフォーマンス・データへのマッピングにより CPU/FPGA 相互作用 (英語) 解析が拡張されました。
  • アプリケーション・パフォーマンス・スナップショットに追加された GPU 時間と使用率メトリックにより、パフォーマンスの問題を優先付けし、コードが CPU に依存しているか GPU に依存しているかを特定できます。

コンパイラーの最適化に関する詳細は、最適化に関する注意事項を参照してください。

関連記事