インテル® VTune™ プロファイラー・ユーザーガイド

コマンドラインからリモート Linux* システム上のデータを収集

インテル® VTune™ プロファイラーを使用すると、ホストシステム (Linux* リモートシステムのリモート・パフォーマンス解析ワークフロー) から、コマンドライン・インターフェイス (vtune) を使用して、解析結果を GUI でローカルに表示できます。ホストで実行される vtune コマンドを使用したリモートデータ収集は、target-system オプションがコマンドラインに追加されることを除いて、ターゲット上のネイティブ収集に類似します。

必要条件:

ターゲット Linux* システムにインストールされているインテル® VTune™ プロファイラーのコマンドライン・インターフェイスを使用して、リモートでデータを収集する場合、「コマンドライン解析の実行」を参照してください。インテル® VTune™ プロファイラーのグラフィカル・インターフェイスの [コマンドライン] オプションを使用して、GUI で選択されている解析設定のコマンドラインを自動生成することもできます。「GUI からコマンドライン設定を生成」の説明に従って、リモート収集向けに生成されたコマンドラインを編集します。

リモートの Linux* システムで解析を実行するには、次のコマンドラインを使用します。

host>./vtune -target-system=ssh:user@target <-action> <analysis_type> [<-knob> [knobName=knobValue]] [-target-tmp-dir=PATH] [-target-install-dir=PATH][--] <target>

説明:

例 1: イベントベースのシステム全体のサンプリング収集

次のコマンドラインは、コールスタックなしでシステム全体のホットスポット解析情報を収集します。このコマンドは、デバイスからの結果を表示するのに必要なモジュールを自動的に読み込み、それらをホスト上の temp ディレクトリーにキャッシュします。これは最初の収集でのみ行われ、以降の収集ではキャッシュからモジュールが再利用されます。

host>./vtune -target-system=ssh:user1@172.16.254.1 –collect hotspots -knob sampling-mode=hw -duration 10

システム全体の収集では、収集中にシステムで実行されるモジュールがターゲットからホストにコピーされます。これにはオーバーヘッドが生じます。vtune は、ホスト上でターゲットシステムのモジュールをキャッシュして以降の収集でアクセスを高速化するため、これは一度しか行われません。コマンドでデバイスからモジュールを取得したくない場合、モジュールを最初に検索する場所としてローカル・ディレクトリーを指定できます。次に例を示します。

host>./vtune -target-system=ssh:user1@172.16.254.1 –collect hotspots -knob sampling-mode=hw -duration 10 -search-dir /search/path

この場合、<PATH> はモジュールが格納されているディレクトリー、またはターゲットデバイスのルート・ファイル・システムへのポインターになります。例えば、コレクターはターゲットデバイスから /usr/lib64/libstdc++.so.6.0.16 ファイルを検索する場合、最初に <PATH>/usr/lib64/libstdc++.so.6.0.16 を検索し、次に <PATH>/libstdc++.so.6.0.16 を検索し、その後ターゲットデバイスからファイルをコピーします。

例 2: イベントベース・サンプリング収集

この例では、PID を使用して実行中のアプリケーションに解析をアタッチする方法を示します。

host>./vtune -target-system=ssh:user1@172.16.254.1 –collect hotspots -knob sampling-mode=hw -target-pid 333

例 3: 高度なイベントベース・サンプリング収集

パフォーマンス・モニタリング・ユニット (PMU) によってサポートされるイベントを取得できます。さらに、一度に複数のイベントを収集することもできます。

次の例では、潜在的な待機時間、または応答性の問題を特定します。

host>./vtune -target=ssh:user1@172.16.254.1 -duration 10 -collect-with runsa -knob event-config="CPU_CLK_UNHALTED.REF:sa=20000”

このコマンドラインは、コンテキスト・スイッチのおよそ 2 倍のレートでサンプルを取得するため、約 20% のパフォーマンスにヒットします。

関連情報