インテル® VTune™ プロファイラー・ユーザーガイド

ホットスポット・レポート

コマンドラインの hotspots レポートを使用して、プロセッサー時間を最も要する (ホットスポット解析)、利用可能な CPU を活用していない、または待機時間が長い (スレッド化解析) などのプログラム単位 (関数、モジュール、オブジェクトなど) を特定します。

ホットスポット・レポートを使用して、 gpu-hotspots または gpu-offload 解析で特定された最もホットな GPU 計算タスク (またはインスタンス) を表示します。

このレポートではデフォルトで、最もパフォーマンス上重要なユニットから、最もホットなプログラム単位が降順で表示されます。コマンドライン・レポートには、デフォルトの GUI 解析ビューポイントで表示される内容と同じデータが示されます。

ホットスポット・レポートで利用可能なグループのリストを表示するには、次のように入力します: vtune -report hotspots -r <result_dir> group-by=?。結果ディレクトリーを指定しない場合、最後に使用した結果がデフォルトで使用されます。

例 1: モジュールでグループ化されたホットスポット

この例では、ホットスポットの解析結果 r001hs を開き、モジュール別にデータをグループします。

 vtune -report hotspots -r	r001hs -group-by module


Module             CPU Time  
-----------------  -------- 
analyze_locks      10.080s
KERNELBASE          0.679s
ntdl                0.164s
...

例 2: 項目を限定したホットスポット・レポート

この例は、CPU 時間値が最も高い上位 2 つの関数のみを含む r001hs 解析結果のホットスポット・レポートを表示します。パフォーマンスにそれほど影響しない関数は出力から除外されます。

 vtune -report hotspots -r	r001hs -limit 2 
  

Function          CPU Time
----------------  --------
grid_intersect      5.489s                   
sphere_intersect    3.590s

例 3: OpenCL* カーネルごとのレポート

この例は、GPU で送信および実行された OpenCL* カーネルごとに収集されたデータを表示する方法を示します。

vtune -report hotspots -group-by=computing-task -r r000gh
Computing Task       Work Size:Global  Computing Task:Total Time  Data Transferred:Size  EU Array:Active(%)  L3 <-> GTI Total Bandwidth, GB/sec
-------------------  ----------------  -------------------------  ---------------------  ------------------  ----------------------------------
AdvancePaths                    65536                    13.170s                                      25.0%                              22.928
Init                            65536                     0.006s                                      34.4%                              45.802
Intersect                       65536                    49.139s                                      61.5%                              23.149
Sampler                         65536                     6.525s                                      76.4%                              11.745
InitFrameBuffer                362432                     0.000s                                       4.7%                              17.456
clEnqueueReadBuffer                                       1.045s                  3 GB                 1.5%                               8.840

例 4: DPC++ タスク・インスタンスごとにグループ化されたレポート

この例は、収集したデータを DPC++ タスク・インスタンスでフィルター処理およびグループ化します。

vtune -report hotspots -group-by=computing-instance -r r000gh

Computing Task       Instance            Work Size:Global  Computing Task:Total Time  Data Transferred:Size  GPU Time
-------------------  ------------------  ----------------  -------------------------  ---------------------  --------
CopyVector2          2                            6553600                     0.190s                           0.190s
clEnqueueReadBuffer  1                                                        0.034s                400 MB     0.034s

関連情報