インテル® VTune™ Amplifier の注目ドキュメント

インテル® VTune™ プロファイラー

注目ドキュメント

導入ガイド | ユーザーガイド | リリースノート (英語)

プロセッサー・チューニング・ガイド



特定のマイクロアーキテクチャー向けに高度なチューニングを行う方法を学びます。

インテル® VTune™ Amplifier と Python* プロファイラー
https://software.intel.com/en-us/articles/profiling-python-with-intel-vtune-amplifier-a-covariance-demonstration


この Python* チューニングの例では、NumPy* とインテル® DAAL に組込まれた、共分散実装を使用します。コード例も含まれます。

インテル® Advisor とインテル® VTune™ Amplifier でメッセージ・パッシング・インターフェイス (MPI) を使用
https://software.intel.com/en-us/articles/using-intel-advisor-and-vtune-amplifier-with-mpi

Linux* 環境で MPI およびハイブリッド MPI & スレッドコードのパフォーマンス・データを取得する手順を説明します。すべてのランクまたは一部のランクをプロファイルする柔軟性を備えています。


オンライン・トレーニング


ハイブリッド・クラウド: オンプレミスとクラウドでの HPC パフォーマンスのベスト・プラクティス

インテル® MKL や インテル® IPP などの最適化ライブラリーを使用するとともに、インテル® Advisor とインテル® VTune™ Amplifier による解析およびチューニングにより、クラウドでワークロードを最適化するワークフローを紹介します。


インテル® VTune™ Amplifier + OpenMP* によりスレッドのパフォーマンスとスケーラビリティーを向上する

インテル® VTune™ Amplifier と OpenMP* でスレッドのパフォーマンスとスケーラビリティーを向上する方法を、サンプルプログラムを使用しながら紹介しています。


HPC アプリケーションに役立つハイパフォーマンス解析



HPC の分野に特化したパフォーマンス解析技術を性能解析ツール「インテル® VTune™ Amplifier」を使用してご紹介します。


メモリー・アクセス・プロファイル: 一般的なパフォーマンス・ボトルネックの特定と修正


コードのパフォーマンス改善が必要な場所を特定して修正方法を学びます。


インテル® MKL を使用した小行列乗算の高速化


小規模な行列乗算の課題を解決し、インテル® MKL を使用して行列-行列乗算を高速化します。


ハイブリッド・アプリケーションのパフォーマンスをチューニング

このビデオで説明する問題の検出と解決手順により、ハイブリッド・アプリケーションが期待通りに動作しない根本的な原因を見つけます。


再現性のある結果

https://techdecoded.intel.io/essentials/under-what-conditions-will-my-application-give-reproducible-results/



インテル® パフォーマンス・ライブラリーを使用して、再現性のある結果をもたらすシリアル・アプリケーションと並列アプリケーションを構築する条件を学びます。


専用コード解析

https://techdecoded.intel.io/essentials/the-24-7-code-analyst-dedicated-to-revving-your-platform-applications/



インテル® VTune™ Amplifier を使用して HPC ワークロードを監視し、多様なプラットフォームのコンポーネントを最適化するために必要なレポートを作成する方法を学びます。


アプリケーションをうまくチューニング

https://techdecoded.intel.io/essentials/expertly-tune-your-application-for-intel-hardware/


インテル® Xeon® スケーラブル・プロセッサーのアーキテクチャーとインテル® ソフトウェア開発ツールの機能を活用して、計算集約型のパフォーマンスをチューニングおよび向上する方法をご覧ください。


スレッド化されたアプリケーションのパフォーマンスに関する典型的な問題

https://techdecoded.intel.io/essentials/better-threaded-performance-uncovering-common-issues/

パフォーマンスとスケーラビリティーの問題を検出し、その原因がインバランス、ロック競合、生成のオーバーヘッドまたはスケジュールのオーバーヘッドであるかを特定します。


クリティカルなパフォーマンスのホットスポットとボトルネックを解決

https://techdecoded.intel.io/essentials/find-fix-critical-performance-hotspots-bottlenecks-far-less-time/

インテル® System Studio の主要な機能を使用して、ホットスポット、電量効率の低下、メモリーリーク、最適化されていないスレッド、その他のシステムの問題を解決します。


アプリケーション・パフォーマンスのスナップショットを取得

https://software.intel.com/en-us/videos/snapshot-your-application-performance-and-improve

アプリケーション・パフォーマンス・スナップショットのデモをご覧ください。活用されていないパフォーマンスを素早く検出し、ハードウェアを最大限に利用します。


Python* アプリケーションのパフォーマンス解析

(https://software.intel.com/en-us/videos/performance-analysis-of-python-applications-with-intel-vtune-amplifier)

このビデオでは、Python* アプリケーションをプロファイルするニーズ、利点、および一般的なツールとテクニックについて説明します。デモとサンプルコードが含まれます。


NUMA メモリーアクセスがワークロードに与える影響

https://software.intel.com/en-us/videos/how-numa-affects-your-workloads-intel-vtune-amplifier

マルチソケットの不均一メモリーアクセス (NUMA) システムでは、ローカル・メモリー・サブシステムにメモリー・オブジェクトを配置することで最高のパフォーマンスが得られます。


マルチレベル並列性のチューニング戦略

https://software.intel.com/en-us/videos/strategies-for-tuning-multi-level-parallelism

アプリケーションに並列処理を実装する場所を特定してスケーラビリティーを確認します。

 


パフォーマンス解析クックブック

インテル® VTune™ Amplifier を使用した解析手法の利点を見つけてください。
パフォーマンス・チューニングの例と環境依存の構成を調査するいくつかのレシピをご覧ください。

フォルス・シェアリング


マイクロアーキテクチャー全般解析とメモリーアクセス解析を使用して、メモリー依存の線形回帰アプリケーションのパフォーマンスを調査します。

I/O の問題: リモート・ソケット・アクセス

マイクロアーキテクチャー全般解析を使用して、Data Plane Developer Kit (DPDK) を使用するアプリケーションのマルチソケット・システムにおける潜在的な設定の問題を解析します。

OpenMP* インバランスとスケジュールのオーバーヘッド

バリアやスケジュール・オーバーヘッドのインバランスなど、OpenMP* プログラムでよくある並列ボトルネックを検出して修正する方法を説明します。

Docker* コンテナーの Java* アプリケーションをプロファイル

インテル® VTune™ Amplifier の解析向けに Docker* コンテナーを構成して、独立したコンテナー環境で動作している Java* アプリケーションのホットスポットを特定します。

Node.js* で JavaScript* コードをプロファイル

Node.js* をリビルドし、インテル® VTune™ Amplifier を使用して、JavaScript* フレームとネイティブフレームから成る混在モードのコールスタックを含む JavaScript* コードのパフォーマンスを解析します。

Microsoft* .NET Core アプリケーションのプロファイル

インテル® VTune™ Amplifier を使用して .NET Core ダイナミックコードをプロファイルし、マネージドコードのホットスポットを特定してパフォーマンスが向上するようにアプリケーションを最適化します。


トレーニング・サンプル

事前作成されたサンプルコードのプロジェクトを開いて、インテル® VTune™ Amplifier の使用方法を学びます。

インストール

インテル® VTune™ Amplifier のサンプルコードをインストールしてセットアップします。

  1. 製品のインストール先から圧縮ファイルをシステムの書き込み可能なフォルダーにコピーします。
  2. ファイルを展開します。

注:

  • サンプルの結果は非決定論的です。実際の画面は、このチュートリアルで示されている画面とは異なることがあります。
  • それぞれのサンプルは、インテル® VTune™ Amplifier の機能を説明するためだけに設計されており、コードをチューニングするベスト・プラクティス示すものではありません。結果は、解析の性質と適用されるコードによって変わります。

サンプル

名前 説明
tachyon_find_hotspots
  • 説明: インテル® VTune™ Amplifier の解析が、C++ アプリケーションのホットスポットとパフォーマンス・ボトルネックの特定に役立つことを示す 2D レイトレーサーとレンダラーの例です。
  • 注目するパフォーマンスの問題: 不適切なアルゴリズムの採用と非効率な並列化。
  • 場所: \samples\<locale>\C++\tachyon_vtune_amp_xe.zip
tachyon_analyze_locks
  • 説明: C++ アプリケーションの効率良い並列性を損ねるロックを特定します。
  • 注目するパフォーマンスの問題: ロックと待機。
  • 場所: \samples\<locale>\C++\tachyon_vtune_amp_xe.zip
matrix
  • 説明: 行列変換を計算し、ホストシステムおよびインテル® Xeon Phi™ コプロセッサー上の C++ アプリケーションのハードウェアの問題を特定します。
  • 注目するパフォーマンスの問題: 低い CPI 命令ごとのサイクルレート、キャッシュミス、リタイアのストール、実行ストールなど。
  • 場所: \samples\<locale>\C++\matrix_vtune_amp_xe.zip
nqueens_parallel
  • 説明: 多様なボードサイズで n-queens 問題を解決し、Fortran アプリケーションの一般的なハードウェアの問題を特定します。
  • 注目するパフォーマンスの問題: スレッドの競合と非効率な並列化。
  • 場所: \samples\<locale>\Fortran\nqueens_parallel.zip
serial_nqueens_csharp & parallel_nqueens_csharp
  • 説明: 特定ボードサイズの n-queens 問題の解を計算し、Microsoft* Visual C#* アプリケーションのホットスポットを特定します。
  • 注目するパフォーマンスの問題: 基本的なパフォーマンス解析の手順を示します。
  • 場所: \samples\<locale>\C#\serial_nqueens_csharp.zip
jitprofiling
  • 説明: JIT プロファイル API を使用してアプリケーションをインストルメントする例です (この API は、独自コンパイラーを利用するユーザーや、コードが動的に生成される場合に役立ちます)。
  • 注目するパフォーマンスの問題: JIT コンパイルされたアプリケーションのプロファイル方法を示します。
  • 場所: \samples\<locale>\C++\jitprofiling_vtune_amp_xe.zip

コンパイラーの最適化に関する詳細は、最適化に関する注意事項を参照してください。

タイトルとURLをコピーしました