advisor コマンドオプションのリファレンス

advisor コマンドは、現在、次のアクションをサポートしています。

オプション

説明

accuracy

事前定義されたオフロードのモデル化収集の精度レベルを設定します。

append

(ファイルと行番号で) さらに詳しく解析するループを選択して追加します。

app-working-dir

解析中にターゲット・アプリケーションが実行されるディレクトリーを指定します (現在の作業ディレクトリーと異なる場合)。

assume-dependencies

ループの依存性タイプが不明 (unknown) である場合、ループには依存関係があると想定します。

assume-hide-taxes

呼び出しコストが最初のカーネルの起動に対してのみ課せられると仮定して、呼び出しコストを見積もります。

assume-ndim-dependency

最適な N 次元のオフロードを検索する場合、内部ループと外部ループには依存関係があると仮定します。

assume-single-data-transfer

想定されるデータはオフロードごとに 1 度転送され、すべてのインスタンスがデータを共有します。

auto-finalize

収集が完了したら、サーベイおよびトリップカウント & FLOP 解析データをファイナライズします。

batching

トップレベルのオフロードの複数インスタンスの同時実行をシミュレーションします。

benchmarks-sync

実行しているインテル® Advisor の 1 つのインスタンスのみでベンチマークを実行し、プラットフォームの上限に関する同時実行の問題を回避します。

bottom-up

[ボトムアップ] ビューでサーベイレポートを生成します。

cache-binaries

いつでも呼び出せる読み取り専用のスナップショットで、バイナリーの可視化を有効にします。

cache-binaries-mode

読み取り専用スナップショットに追加するバイナリーを選択します。

cache-config

キャッシュ階層を指定して、トリップカウント & FLOP 解析の実行中に CPU キャッシュの動作をモデル化するデータを収集します。

cache-simulation

アプリケーションのデバイスキャッシュの動作をシミュレートします。

cache-sources

いつでも表示できる読み取り専用のスナップショットでソースコードの可視性を有効にします(--snapshot アクション)。プロジェクトでソースコードのキャッシュを保持できるようにします (-collect アクション)。

cachesim

パフォーマンスのモデル化でキャッシュ・シミュレーションを有効にします。

cachesim-associativity

メモリー・アクセス・パターン解析中の CPU キャッシュ動作をモデル化するため、キャッシュの連想性を設定します。

cachesim-cacheline-size

メモリー・アクセス・パターン解析で CPU キャッシュの動作をモデル化するキャッシュ・ライン・サイズ (バイト単位) を設定します。

cachesim-mode

メモリー・アクセス・パターン解析中の CPU キャッシュ動作のモデル化を設定します。

cachesim-sampling-factor

キャッシュ・シミュレーション中に合計メモリーアクセスの何パーセントを処理するか指定します。

cachesim-sets

メモリー・アクセス・パターン解析で CPU キャッシュの動作をモデル化するキャッシュ・セット・サイズ (バイト単位) を設定します。

check-profitability

オフロード領域の収益性を確認し、収益性の高い領域のみをレポートに追加します。

clear

詳しく解析するため、以前選択されたすべてのループをクリアします。

config

アプリケーションのパフォーマンスをモデル化するデバイス構成を指定します。

count-logical-instructions

GPU 論理命令への x86 論理命令のプロジェクションを使用します。

count-memory-instructions

メモリーアクセスをともなう x86 命令を GPU SEND/SENDS 命令へ対応させます。

count-memory-objects-accesses

コード領域によって生成されたメモリー・オブジェクトへのアクセス数をカウントします。

count-mov-instructions

x86 MOV 命令を GPU MOV 命令へ対応させます。

count-send-latency

SEND 命令のレイテンシーをモデル化する方法を選択します。

cpu-scale-factor

スケール係数を指定して、ベースラインの CPU よりも係数分だけ高速なホスト CPU に近似します。

csv-delimiter

CSV 形式レポートの区切り文字を設定します。

custom-config

追加のモデル化パラメーターを含むカスタム TOML 構成ファイルの絶対パス、または名前を指定します。

data-limit

サーベイ解析中に収集されるデータの最大量 (MB) を制限します。

data-reuse-analysis

コード領域間でのデータ再利用の可能性を解析します。

data-transfer

特性化中にデータ転送をモデル化するため詳細レベルを設定します。

data-transfer-histogram

転送された各オブジェクトのデータ転送の詳細とレイテンシーを見積もります。

data-transfer-page-size

メモリー・ページ・サイズを指定して、データ転送シミュレーターのトラフィック測定の粒度を設定します。

data-type

インタラクティブなルーフライン HTML レポートで、浮動小数点データのみ、整数データのみ、または両方のデータ型の合計データを表示します。

delete-tripcounts

変更されたバイナリーのサーベイ解析を再実行する際に、以前収集したトリップカウント・データを削除します。

disable-fp64-math-optimization

GPU の抽象化向けに最適化されたトラフィックの計測を無効にします。

display-callstack

レポートに各ループ/関数呼び出しのコールスタックを示します。

dry-run

オフロードのモデル化バッチ収集に含まれるすべてのステップを、実行することなく指定された精度レベルでリストします。

duration

解析を実行する最大時間 (秒) を指定します。

dynamic

トリップカウント & FLOP 解析中、実際に実行された特定タイプの命令数を (サーベイレポートに) 表示します。

enable-batching

非推奨です。

enable-cache-simulation

ターゲット・アプリケーションの CPU キャッシュ動作をモデル化します。

enable-data-transfer-analysis

ホストメモリーとデバイスメモリー間のデータ転送をモデル化します。

enable-grf-simulation

シミュレーターで GRF のモデル化を有効にします。

enable-slm

非推奨です。利用可能であれば、デフォルトで SLM をモデル化します。

enable-task-chunking

スータビリティー・レポートを使用して、指定したアノテーション・サイトでタスクのチャンクモデルを適用する可能性を調査します。

enforce-baseline-decomposition

ベースライン・デバイスで測定したのと同じローカルサイズと SIMD 幅を使用します。

enforce-fallback

スタック収集が無効である場合、スタック全体のデータ分散をエミュレートします。

enforce-offloads

子ループ/関数をオフロードする方が収益性が髙くても、選択したすべてのコード領域をオフロードします。

estimate-max-speedup

緩和された制約で領域の高速化を推測します。

evaluate-min-speedup

オフロードに推奨されるループは、設定ファイルで指定される最小の推定スピードアップに達した場合にのみ検討してください。

exclude-files

指定するファイルまたはディレクトリーを解析中のアノテーション・スキャンから除外します。

executable-of-interest

開始アプリケーションではない解析アプリケーションを指定します。

project-dir

レポートまたはモデルのパフォーマンスを生成する場合、展開された結果スナップショットまたは MPI ランク結果へのパスを指定します。

filter

サーベイとトリップカウント & FLOP レポートで指定するカラム名と値でデータをフィルター処理します。

filter-by-scope

依存関係解析で検出されたスタック変数をスコープでフィルター処理します (警告とエラー)。

filter-reductions

依存関係解析の診断ですべての潜在的なリダクションをマークします 。

flex-cachesim

収集を再実行することなくキャッシュ構成を変更するため、柔軟なキャッシュ・シミュレーションを有効にします。

flop

トリップカウントと FLOP 解析中に、AVX-512 プラットフォームの浮動小数点演算と整数演算、メモリー・トラフィック、およびマスク利用率メトリックに関連するデータを収集します。

force-32bit-arithmetics

すべての算術操作を単精度浮動小数点操作、または int32 操作とみなします。

force-64bit-arithmetics

すべての算術操作を倍精度浮動小数点操作、または int64 操作とみなします。

format

レポートの出力形式を設定します。

gpu

インテル® プロセッサー・グラフィックス上で実行される OpenCL* と oneAPI レベルゼロプログラムの解析を有効にします。GPU で収集されたデータからルーフラインの対話型 HTML レポートを生成します。

gpu-carm

インテル® プロセッサー・グラフィックス上で実行される OpenCL* とインテル® Media SDK プログラムによるメモリー・トラフィックを収集します。

gpu-kernels-of-interest

プロファイルする GPU カーネルを正確に含めることで、データ収集のオーバーヘッドを最小限に抑えます。

gpu-kernel-matching-mode

サーベイ収集とトリップカウント収集間の結果を一致させるため、GPU カーネルの一致モードを指定します。

gpu-sampling-intervals

[サーベイ] 解析中の GPU サンプリングの間隔をミリ秒単位で指定します。

hide-data-transfer-tax

データ転送コストの見積もりを無効にします。

ignore

プログラムごとのスピードアップを計算する際に、これらの領域で費やされた時間を無視するようにランタイムやライブラリーを指定します。

ignore-app-mismatch

解析を始める前に、一致しないターゲットやアプリケーションのパラメーターのエラーを無視します。

ignore-checksums

解析を始める前に、チェックサムが一致しないモジュールを無視します。

instance-of-interest

メモリー・アクセス・パターンと依存関係解析中に、N 番目の子プロセスを解析します。

integrated

ルーフライン・レポートのメモリー階層のすべてでトラフィックをモデル化します。

interval

サーベイ解析中に各サンプルを収集する前に、待機する時間 (ミリ秒単位) を設定します。

limit

レポートの上位に表示する項目の最大数を設定します。

loop-call-count-limit

マークされたすべてのループで解析するインスタンスの最大数を設定します。

loop-filter-threshold

指定した値を下回るループをフィルターで除外する合計時間を指定します (ミリ秒)。

loops

詳細な解析を行うためループを選択します (手動ではなく基準値で)。

mark-up

詳しく解析するため特定されたループ/関数を制御する方法として、ユーザー選択を有効/無効にします。

mark-up-list

サーベイ解析を実行して、注目するループを特定したら、さらに詳しく解析するためループを選択 (ファイルおよび行番号または ID で) します。

memory-level

インタラクティブなルーフライン HTML レポートで特定のメモリー階層 (L1、L2、L3、DRAM など) をモデル化します。

memory-operation-type

インタラクティブなルーフライン HTML レポートで、ロード、ストア、または両方のメモリー操作をモデル化します。

mix

サーベイレポートに動的または静的命令ミックスデータを表示します。

mkl-user-mode

サーベイ解析中にインテル® oneAPI マス・カーネル・ライブラリー (oneMKL) のループと関数データを収集します。

model-baseline-gpu

ベースライン GPU 構成をモデル化のターゲット・デバイスとして使用します。

model-children

領域の先頭の子ループを解析して、子ループの一部がより収益性の高いオフロードもたらすか確認します。

model-extended-math

可能であれば、EXP、LOG、SIN、COS などの数学関数の呼び出しをモデル化します。

model-system-calls

システムコールがオフロードコードから分離され、ホストデバイスで実行されることを考慮してコード領域を解析します。

module-filter

解析に含める、または除外するアプリケーション (または子アプリケーション) モジュールを指定します。

module-filter-mode

解析対象のアプリケーション (または子アプリケーション) のモジュールを含めるか、除外するかを制御します。

mpi-rank

インポートする MPI プロセスのデータを指定します。

mrte-mode

解析用に Microsoft* ランタイム環境を設定します。

ndim-depth-limit

最適な N 次元オフロードを検索する場合、1 つのオフロードに変換できる最大ループ深度を制限します。

option-file

コマンドライン引数を含むテキストファイルを指定します。

overlap-taxes

非同期実行を有効にして、オフロードのオーバーヘッドを実行時間にオーバーラップさせます。

pack

スナップショットをアーカイブへパックします。

profile-gpu

インテル® プロセッサー・グラフィックス上で実行される OpenCL* と oneAPI レベルゼロのプログラムを解析します。

profile-intel-perf-libs

インテル® Advisor のレポートでインテル® パフォーマンス・ライブラリーのループと関数を表示します。

profile-jit

トリップカウントと FLOP 解析中にジャストインタイム (JIT) 生成されたコード領域のメトリックを収集します。

profile-python

サーベイ解析で Python *ループと関数のデータを収集します。

profile-stripped-binaries

ストリップされたバイナリーのメトリックを収集します。

project-dir

現在の作業ディレクトリー以外の場所に収集結果を保存する場合、結果を保存する最上位のディレクトリーを指定します。

quiet

コマンドを実行中のステータスメッセージを最小化します。

recalculate-time

レポートをフィルター処理した後、合計時間を再計算します。

record-mem-allocations

スタック・フレーム・ポインターをキャプチャーして、メモリー・アクセス・パターン解析中にアクセスストライドが検出されたヒープに割り当てら変数を特定します。

record-stack-frame

スタック・フレーム・ポインターをキャプチャーして、メモリー・アクセス・パターン解析中にアクセスストライドが検出されたスタック変数を特定します。

reduce-lock-contention

スータビリティー・レポートで指定したアノテートサイトのロック競合軽減の可能性やデッドロックの検出を検証します。

reduce-lock-overhead

スータビリティー・レポートを参照して、ロックのオーバーヘッドを軽減する可能性を調査します。

reduce-site-overhead

スータビリティー・レポートを使用して、指定したアノテーション・サイトでサイトのオーバーヘッドを軽減する可能性を調査します。

reduce-task-overhead

スータビリティー・レポートを使用して、指定したアノテーション・サイトでタスクのオーバーヘッドを軽減する可能性を調査します。

refinalize-survey

依存のバージョンのインテル® Advisor で収集したサーベイ結果使用するか、ソース及びバイナリー検索パスを変更する必要がある場合に再ファイナライズします。

remove

(ファイルと行番号で) さらに詳しく解析するループからループを削除します。

report-output

レポートの出力を stdout から別の場所へリダイレクトします。

report-template

カスタム・レポート・テンプレート・ファイルのパス/名前を指定します。

result-dir

実行中の解析を識別するディレクトリーを指定します。

resume-after

指定されたミリ秒後に収集を再開します。

return-app-exitcode

コマンドライン・インターフェイスの終了コードの代わりにターゲットの終了コードを返します。

search-dir

ターゲットのサポートファイルを検索する場所を指定します。

search-n-dim

最適な N 次元オフロードの検索を有効にします。

select

(ファイルと行番号で) ループを選択してさらに詳しく解析します。

set-dependency

指定された ID またはソースの場所のループに依存関係があると想定します。

set-parallel

指定された ID またはソースの場所のループは並列化されていると想定します。

set-parameter

ターゲットデバイス構成で変更するパラメーターを 1 行で指定します。

show-all-columns

利用可能なすべてのカラムのデータをサーベイレポートに表示します。

show-all-rows

子ループのデータを含む利用可能なすべての行データをサーベイレポートに表示します。

show-functions

レポートに関数のみを表示します。

show-loops

レポートにループのみを表示します。

show-not-executed

サーベイレポートに実行されなかった子ループを表示します。

show-report

GPU カーネル向けに収集されたデータのサーベイレポートを生成します。

small-node-filter

PDF および DOT レポートから指定する値を下回るノードをフィルター処理で除外するため合計時間のしきい値を指定します (ミリ秒単位)。

sort-asc

レポート内の (指定したカラムの) データを昇順にソートします。

sort-desc

レポート内の (指定したカラムの) データを降順にソートします。

spill-analysis

レジスターフロー解析は、レジスターの連続したロード/ストア操作数と、サーベイ解析中の関連するメモリー・トラフィックをバイト単位で計算します。

stack-access-granularity

スタック・アクセス・サイズを指定して、データ転送シミュレーターのスタック・メモリー・アクセス測定の粒度を設定します。

stack-stitching

サーベイ解析中に呼び出しフローを再構築して、並列ワークロードの導入ポイントにスタックを関連付けます。

stack-unwind-limit

収集後にスタックを解析するためスタックサイズの上限を設定します。

stacks

ルーフラインおよびトリップカウント & FLOP 解析中に、高度なコールスタック・データを収集します。

stackwalk-mode

サーベイ解析でスタックを解析するには、オンラインモードとオフラインモードのいずれかを選択します。

start-paused

解析のためターゲット・アプリケーションを起動しますが、データ収集を遅らせます。

static-instruction-mix

サーベイ解析中にバイナリー内の特定の命令数を静的に計算します。

strategy

サーベイ解析中にインストルメントするプロセスや子を指定します。

support-multi-isa-binaries

実行されないコードパスにあるループのサーベイ解析中に各種データを収集します。

target-device

トリップカウントの収集中にキャッシュをモデル化するデバイス構成を指定します。

target-gpu

システムに複数の GPU が接続されている場合、データを収集するターゲット GPU を指定します。

target-pid

プロセス ID で指定する実行中のプロセスに、サーベイまたはトリップカウント & FLOP 収集をアタッチします。

target-process

プロセス名で指定した実行中のプロセスに、サーベイまたはトリップカウント & FLOP 収集にアタッチします。

target-system

スータビリティー・レポートのモデル化で使用するハードウェア構成を指定します。

threading-model

スータビリティー・レポートのモデル化で使用するスレッド化モデルを指定します。

threads

オフロードの先頭に使用する並列スレッド数を指定します。

top-down

[top-down (トップダウン)] ビューでサーベイレポートを生成します。

trace-mode

メモリー・アクセス・パターン解析中にループをトレースする方法を設定します。

trace-mpi

MPI コードを追跡するためコレクターを設定し、インテル® MPI ライブラリー実装の MPI ランク ID を調査します。

track-memory-objects

解析中にオブジェクトにアクセスしたループにメモリー・オブジェクトを属性化します。

track-stack-accesses

スタックメモリーへのアクセスを追跡します。

track-stack-variables

依存関係解析でスタック変数の並列データ共有解析を有効にします。

trip-counts

トリップカウント & FLOP 解析中にループのトリップカウント・データを収集します。

use-collect-configs

非推奨です。

user-data-dir

非推奨です。

verbose

コマンドを実行中のステータスメッセージを最大化します。

with-stack

インタラクティブなルーフライン HTML レポートに、コールスタック・データを表示します (コールスタック・データが収集されている場合)。