advisor コマンドは、現在、次のアクションをサポートしています。
オプション |
説明 |
|---|---|
事前定義されたオフロードのモデル化収集の精度レベルを設定します。 |
|
(ファイルと行番号で) さらに詳しく解析するループを選択して追加します。 |
|
解析中にターゲット・アプリケーションが実行されるディレクトリーを指定します (現在の作業ディレクトリーと異なる場合)。 |
|
ループの依存性タイプが不明 (unknown) である場合、ループには依存関係があると想定します。 |
|
呼び出しコストが最初のカーネルの起動に対してのみ課せられると仮定して、呼び出しコストを見積もります。 |
|
最適な N 次元のオフロードを検索する場合、内部ループと外部ループには依存関係があると仮定します。 |
|
想定されるデータはオフロードごとに 1 度転送され、すべてのインスタンスがデータを共有します。 |
|
収集が完了したら、サーベイおよびトリップカウント & FLOP 解析データをファイナライズします。 |
|
トップレベルのオフロードの複数インスタンスの同時実行をシミュレーションします。 |
|
実行しているインテル® Advisor の 1 つのインスタンスのみでベンチマークを実行し、プラットフォームの上限に関する同時実行の問題を回避します。 |
|
[ボトムアップ] ビューでサーベイレポートを生成します。 |
|
いつでも呼び出せる読み取り専用のスナップショットで、バイナリーの可視化を有効にします。 |
|
読み取り専用スナップショットに追加するバイナリーを選択します。 |
|
キャッシュ階層を指定して、トリップカウント & FLOP 解析の実行中に CPU キャッシュの動作をモデル化するデータを収集します。 |
|
アプリケーションのデバイスキャッシュの動作をシミュレートします。 |
|
いつでも表示できる読み取り専用のスナップショットでソースコードの可視性を有効にします(--snapshot アクション)。プロジェクトでソースコードのキャッシュを保持できるようにします (-collect アクション)。 |
|
パフォーマンスのモデル化でキャッシュ・シミュレーションを有効にします。 |
|
メモリー・アクセス・パターン解析中の CPU キャッシュ動作をモデル化するため、キャッシュの連想性を設定します。 |
|
メモリー・アクセス・パターン解析で CPU キャッシュの動作をモデル化するキャッシュ・ライン・サイズ (バイト単位) を設定します。 |
|
メモリー・アクセス・パターン解析中の CPU キャッシュ動作のモデル化を設定します。 |
|
キャッシュ・シミュレーション中に合計メモリーアクセスの何パーセントを処理するか指定します。 |
|
メモリー・アクセス・パターン解析で CPU キャッシュの動作をモデル化するキャッシュ・セット・サイズ (バイト単位) を設定します。 |
|
オフロード領域の収益性を確認し、収益性の高い領域のみをレポートに追加します。 |
|
詳しく解析するため、以前選択されたすべてのループをクリアします。 |
|
アプリケーションのパフォーマンスをモデル化するデバイス構成を指定します。 |
|
GPU 論理命令への x86 論理命令のプロジェクションを使用します。 |
|
メモリーアクセスをともなう x86 命令を GPU SEND/SENDS 命令へ対応させます。 |
|
コード領域によって生成されたメモリー・オブジェクトへのアクセス数をカウントします。 |
|
x86 MOV 命令を GPU MOV 命令へ対応させます。 |
|
SEND 命令のレイテンシーをモデル化する方法を選択します。 |
|
スケール係数を指定して、ベースラインの CPU よりも係数分だけ高速なホスト CPU に近似します。 |
|
CSV 形式レポートの区切り文字を設定します。 |
|
追加のモデル化パラメーターを含むカスタム TOML 構成ファイルの絶対パス、または名前を指定します。 |
|
サーベイ解析中に収集されるデータの最大量 (MB) を制限します。 |
|
コード領域間でのデータ再利用の可能性を解析します。 |
|
特性化中にデータ転送をモデル化するため詳細レベルを設定します。 |
|
転送された各オブジェクトのデータ転送の詳細とレイテンシーを見積もります。 |
|
メモリー・ページ・サイズを指定して、データ転送シミュレーターのトラフィック測定の粒度を設定します。 |
|
インタラクティブなルーフライン HTML レポートで、浮動小数点データのみ、整数データのみ、または両方のデータ型の合計データを表示します。 |
|
変更されたバイナリーのサーベイ解析を再実行する際に、以前収集したトリップカウント・データを削除します。 |
|
GPU の抽象化向けに最適化されたトラフィックの計測を無効にします。 |
|
レポートに各ループ/関数呼び出しのコールスタックを示します。 |
|
オフロードのモデル化バッチ収集に含まれるすべてのステップを、実行することなく指定された精度レベルでリストします。 |
|
解析を実行する最大時間 (秒) を指定します。 |
|
トリップカウント & FLOP 解析中、実際に実行された特定タイプの命令数を (サーベイレポートに) 表示します。 |
|
enable-batching |
非推奨です。 |
ターゲット・アプリケーションの CPU キャッシュ動作をモデル化します。 |
|
ホストメモリーとデバイスメモリー間のデータ転送をモデル化します。 |
|
シミュレーターで GRF のモデル化を有効にします。 |
|
enable-slm |
非推奨です。利用可能であれば、デフォルトで SLM をモデル化します。 |
スータビリティー・レポートを使用して、指定したアノテーション・サイトでタスクのチャンクモデルを適用する可能性を調査します。 |
|
ベースライン・デバイスで測定したのと同じローカルサイズと SIMD 幅を使用します。 |
|
スタック収集が無効である場合、スタック全体のデータ分散をエミュレートします。 |
|
子ループ/関数をオフロードする方が収益性が髙くても、選択したすべてのコード領域をオフロードします。 |
|
緩和された制約で領域の高速化を推測します。 |
|
オフロードに推奨されるループは、設定ファイルで指定される最小の推定スピードアップに達した場合にのみ検討してください。 |
|
指定するファイルまたはディレクトリーを解析中のアノテーション・スキャンから除外します。 |
|
開始アプリケーションではない解析アプリケーションを指定します。 |
|
レポートまたはモデルのパフォーマンスを生成する場合、展開された結果スナップショットまたは MPI ランク結果へのパスを指定します。 |
|
サーベイとトリップカウント & FLOP レポートで指定するカラム名と値でデータをフィルター処理します。 |
|
依存関係解析で検出されたスタック変数をスコープでフィルター処理します (警告とエラー)。 |
|
依存関係解析の診断ですべての潜在的なリダクションをマークします 。 |
|
収集を再実行することなくキャッシュ構成を変更するため、柔軟なキャッシュ・シミュレーションを有効にします。 |
|
トリップカウントと FLOP 解析中に、AVX-512 プラットフォームの浮動小数点演算と整数演算、メモリー・トラフィック、およびマスク利用率メトリックに関連するデータを収集します。 |
|
すべての算術操作を単精度浮動小数点操作、または int32 操作とみなします。 |
|
すべての算術操作を倍精度浮動小数点操作、または int64 操作とみなします。 |
|
レポートの出力形式を設定します。 |
|
インテル® プロセッサー・グラフィックス上で実行される OpenCL* と oneAPI レベルゼロプログラムの解析を有効にします。GPU で収集されたデータからルーフラインの対話型 HTML レポートを生成します。 |
|
インテル® プロセッサー・グラフィックス上で実行される OpenCL* とインテル® Media SDK プログラムによるメモリー・トラフィックを収集します。 |
|
プロファイルする GPU カーネルを正確に含めることで、データ収集のオーバーヘッドを最小限に抑えます。 |
|
| サーベイ収集とトリップカウント収集間の結果を一致させるため、GPU カーネルの一致モードを指定します。 | |
[サーベイ] 解析中の GPU サンプリングの間隔をミリ秒単位で指定します。 |
|
データ転送コストの見積もりを無効にします。 |
|
プログラムごとのスピードアップを計算する際に、これらの領域で費やされた時間を無視するようにランタイムやライブラリーを指定します。 |
|
解析を始める前に、一致しないターゲットやアプリケーションのパラメーターのエラーを無視します。 |
|
解析を始める前に、チェックサムが一致しないモジュールを無視します。 |
|
メモリー・アクセス・パターンと依存関係解析中に、N 番目の子プロセスを解析します。 |
|
ルーフライン・レポートのメモリー階層のすべてでトラフィックをモデル化します。 |
|
サーベイ解析中に各サンプルを収集する前に、待機する時間 (ミリ秒単位) を設定します。 |
|
レポートの上位に表示する項目の最大数を設定します。 |
|
マークされたすべてのループで解析するインスタンスの最大数を設定します。 |
|
指定した値を下回るループをフィルターで除外する合計時間を指定します (ミリ秒)。 |
|
詳細な解析を行うためループを選択します (手動ではなく基準値で)。 |
|
詳しく解析するため特定されたループ/関数を制御する方法として、ユーザー選択を有効/無効にします。 |
|
サーベイ解析を実行して、注目するループを特定したら、さらに詳しく解析するためループを選択 (ファイルおよび行番号または ID で) します。 |
|
インタラクティブなルーフライン HTML レポートで特定のメモリー階層 (L1、L2、L3、DRAM など) をモデル化します。 |
|
インタラクティブなルーフライン HTML レポートで、ロード、ストア、または両方のメモリー操作をモデル化します。 |
|
サーベイレポートに動的または静的命令ミックスデータを表示します。 |
|
サーベイ解析中にインテル® oneAPI マス・カーネル・ライブラリー (oneMKL) のループと関数データを収集します。 |
|
ベースライン GPU 構成をモデル化のターゲット・デバイスとして使用します。 |
|
領域の先頭の子ループを解析して、子ループの一部がより収益性の高いオフロードもたらすか確認します。 |
|
可能であれば、EXP、LOG、SIN、COS などの数学関数の呼び出しをモデル化します。 |
|
システムコールがオフロードコードから分離され、ホストデバイスで実行されることを考慮してコード領域を解析します。 |
|
解析に含める、または除外するアプリケーション (または子アプリケーション) モジュールを指定します。 |
|
解析対象のアプリケーション (または子アプリケーション) のモジュールを含めるか、除外するかを制御します。 |
|
インポートする MPI プロセスのデータを指定します。 |
|
解析用に Microsoft* ランタイム環境を設定します。 |
|
最適な N 次元オフロードを検索する場合、1 つのオフロードに変換できる最大ループ深度を制限します。 |
|
コマンドライン引数を含むテキストファイルを指定します。 |
|
非同期実行を有効にして、オフロードのオーバーヘッドを実行時間にオーバーラップさせます。 |
|
スナップショットをアーカイブへパックします。 |
|
インテル® プロセッサー・グラフィックス上で実行される OpenCL* と oneAPI レベルゼロのプログラムを解析します。 |
|
インテル® Advisor のレポートでインテル® パフォーマンス・ライブラリーのループと関数を表示します。 |
|
トリップカウントと FLOP 解析中にジャストインタイム (JIT) 生成されたコード領域のメトリックを収集します。 |
|
サーベイ解析で Python *ループと関数のデータを収集します。 |
|
ストリップされたバイナリーのメトリックを収集します。 |
|
現在の作業ディレクトリー以外の場所に収集結果を保存する場合、結果を保存する最上位のディレクトリーを指定します。 |
|
コマンドを実行中のステータスメッセージを最小化します。 |
|
レポートをフィルター処理した後、合計時間を再計算します。 |
|
スタック・フレーム・ポインターをキャプチャーして、メモリー・アクセス・パターン解析中にアクセスストライドが検出されたヒープに割り当てら変数を特定します。 |
|
スタック・フレーム・ポインターをキャプチャーして、メモリー・アクセス・パターン解析中にアクセスストライドが検出されたスタック変数を特定します。 |
|
スータビリティー・レポートで指定したアノテートサイトのロック競合軽減の可能性やデッドロックの検出を検証します。 |
|
スータビリティー・レポートを参照して、ロックのオーバーヘッドを軽減する可能性を調査します。 |
|
スータビリティー・レポートを使用して、指定したアノテーション・サイトでサイトのオーバーヘッドを軽減する可能性を調査します。 |
|
スータビリティー・レポートを使用して、指定したアノテーション・サイトでタスクのオーバーヘッドを軽減する可能性を調査します。 |
|
依存のバージョンのインテル® Advisor で収集したサーベイ結果使用するか、ソース及びバイナリー検索パスを変更する必要がある場合に再ファイナライズします。 |
|
(ファイルと行番号で) さらに詳しく解析するループからループを削除します。 |
|
レポートの出力を stdout から別の場所へリダイレクトします。 |
|
カスタム・レポート・テンプレート・ファイルのパス/名前を指定します。 |
|
実行中の解析を識別するディレクトリーを指定します。 |
|
指定されたミリ秒後に収集を再開します。 |
|
コマンドライン・インターフェイスの終了コードの代わりにターゲットの終了コードを返します。 |
|
ターゲットのサポートファイルを検索する場所を指定します。 |
|
最適な N 次元オフロードの検索を有効にします。 |
|
(ファイルと行番号で) ループを選択してさらに詳しく解析します。 |
|
指定された ID またはソースの場所のループに依存関係があると想定します。 |
|
指定された ID またはソースの場所のループは並列化されていると想定します。 |
|
ターゲットデバイス構成で変更するパラメーターを 1 行で指定します。 |
|
利用可能なすべてのカラムのデータをサーベイレポートに表示します。 |
|
子ループのデータを含む利用可能なすべての行データをサーベイレポートに表示します。 |
|
レポートに関数のみを表示します。 |
|
レポートにループのみを表示します。 |
|
サーベイレポートに実行されなかった子ループを表示します。 |
|
GPU カーネル向けに収集されたデータのサーベイレポートを生成します。 |
|
PDF および DOT レポートから指定する値を下回るノードをフィルター処理で除外するため合計時間のしきい値を指定します (ミリ秒単位)。 |
|
レポート内の (指定したカラムの) データを昇順にソートします。 |
|
レポート内の (指定したカラムの) データを降順にソートします。 |
|
レジスターフロー解析は、レジスターの連続したロード/ストア操作数と、サーベイ解析中の関連するメモリー・トラフィックをバイト単位で計算します。 |
|
スタック・アクセス・サイズを指定して、データ転送シミュレーターのスタック・メモリー・アクセス測定の粒度を設定します。 |
|
サーベイ解析中に呼び出しフローを再構築して、並列ワークロードの導入ポイントにスタックを関連付けます。 |
|
収集後にスタックを解析するためスタックサイズの上限を設定します。 |
|
ルーフラインおよびトリップカウント & FLOP 解析中に、高度なコールスタック・データを収集します。 |
|
サーベイ解析でスタックを解析するには、オンラインモードとオフラインモードのいずれかを選択します。 |
|
解析のためターゲット・アプリケーションを起動しますが、データ収集を遅らせます。 |
|
サーベイ解析中にバイナリー内の特定の命令数を静的に計算します。 |
|
サーベイ解析中にインストルメントするプロセスや子を指定します。 |
|
実行されないコードパスにあるループのサーベイ解析中に各種データを収集します。 |
|
トリップカウントの収集中にキャッシュをモデル化するデバイス構成を指定します。 |
|
システムに複数の GPU が接続されている場合、データを収集するターゲット GPU を指定します。 |
|
プロセス ID で指定する実行中のプロセスに、サーベイまたはトリップカウント & FLOP 収集をアタッチします。 |
|
プロセス名で指定した実行中のプロセスに、サーベイまたはトリップカウント & FLOP 収集にアタッチします。 |
|
スータビリティー・レポートのモデル化で使用するハードウェア構成を指定します。 |
|
スータビリティー・レポートのモデル化で使用するスレッド化モデルを指定します。 |
|
オフロードの先頭に使用する並列スレッド数を指定します。 |
|
[top-down (トップダウン)] ビューでサーベイレポートを生成します。 |
|
メモリー・アクセス・パターン解析中にループをトレースする方法を設定します。 |
|
MPI コードを追跡するためコレクターを設定し、インテル® MPI ライブラリー実装の MPI ランク ID を調査します。 |
|
解析中にオブジェクトにアクセスしたループにメモリー・オブジェクトを属性化します。 |
|
スタックメモリーへのアクセスを追跡します。 |
|
依存関係解析でスタック変数の並列データ共有解析を有効にします。 |
|
トリップカウント & FLOP 解析中にループのトリップカウント・データを収集します。 |
|
use-collect-configs |
非推奨です。 |
user-data-dir |
非推奨です。 |
コマンドを実行中のステータスメッセージを最大化します。 |
|
インタラクティブなルーフライン HTML レポートに、コールスタック・データを表示します (コールスタック・データが収集されている場合)。 |