インテル® C++/Fortran コンパイラーのベクトル化レポートを基にソースに注釈を付ける Python* スクリプト

同カテゴリーの次の記事

ガイド付き自動並列化

この記事は、インテル® デベロッパー・ゾーンに掲載されている「VecAnalysis Python* Script for Annotating Intel C++ & Fortran Compilers Vectorization Reports」の日本語参考訳です。


この記事では、インテル® C++/Fortran コンパイラー 13.1 (インテル® C++/Fortran/Visual Fortran Composer XE 2013 Update 2 以降) の -vec-report7 オプションにより生成したベクトル化レポートを基にソースに注釈を付ける Python* スクリプトを紹介します。ダウンロード可能な圧縮ファイルには、次のファイルが含まれています。

  • vecanalysis.py
  • vecmessages.py
  • README.vecanalysis

注意: Python* バージョン 2.6.5 以上が必要です。Python* の詳細およびダウンロード方法については、こちらを参照してください。

インテル® C++/Fortran コンパイラー 13.1 で追加された新しい -vec-report7 (Linux*) または /Qvec-report7 (Windows*) コンパイラー・オプションを指定すると、コンパイラーは、ベクトルコード品質メッセージと対応するメッセージ ID 、およびベクトル化されたループのデータ値を出力します。メッセージには、スピードアップの予想、メモリー・アクセス・パターン、ベクトル化されたループのベクトルスタイルの数などの情報が含まれます。-vec-report7 オプションにより出力されるメッセージの種類を次に示します。

  • loop was vectorized (with peel / with remainder)
  • unmasked aligned unit stride loads: 4
  • unmasked aligned unit stride stores: 2
  • saturating add/subtract: 3
  • estimated potential speedup: 6.270000

vecanalysis Python* スクリプトは、コンパイラーにより生成されたメッセージ ID を取得して、オリジナルのソースコードに -vec-report7 によるメッセージの注釈を付けた、.txt ファイルを生成します。これらの情報を参照することで、アセンブリー・コードを解析することなく、生成されたベクトルコードの品質に関する詳しい情報を得ることができます。

出力ファイルの命名規則は (ファイル名_拡張子_vr.txt) です。例えば、ソースファイル satSub.c に対応する出力ファイルは satSub_c_vr.txt です。 コンパイラーは Python* スクリプトを自動的に起動しません。ユーザーは、コンパイラーが生成した出力ファイルに Python* スクリプトを手動で適用する必要があります。

以下に Linux* 環境における英語版インテル® C++ コンパイラーの利用例を示します。このコマンド例では、vecanalysis Python* スクリプトは “vecanalysis” ディレクトリー以下にあります。

例: icc -c -vec-report7 satSub.c 2>&1 | ./vecanalysis/vecanalysis.py –list

詳細は、README.vecanalysis を参照してください。

$ python
Python 2.6.5 (r265:79063, Jul  5 2010, 11:46:13)
[GCC 4.5.0 20100604 [gcc-4_5-branch revision 160292]] on linux2
Type “help”, “copyright”, “credits” or “license” for more information.

$ icc -c -vec-report7 satSub.c 2>&1 | ./vecanalysis/vecanalysis.py –list
satSub.c(9): (col. 3) remark: SIMD LOOP WAS VECTORIZED.
satSub.c(9): (col. 3) remark: VEC#00001WPWR 1.
satSub.c(9): (col. 3) remark: VEC#00052 1.
satSub.c(9): (col. 3) remark: VEC#00101UASL 4.
satSub.c(9): (col. 3) remark: VEC#00101UASS 2.
satSub.c(9): (col. 3) remark: VEC#00101UUSL 2.
satSub.c(9): (col. 3) remark: VEC#00101UUSS 1.
satSub.c(9): (col. 3) remark: VEC#00201 5.
satSub.c(9): (col. 3) remark: VEC#00202 0.310000.
satSub.c(9): (col. 3) remark: VEC#00203 6.270000.
satSub.c(9): (col. 3) remark: VEC#00204 15.
satSub.c(9): (col. 3) remark: VEC#00405 3.
Writing satSub_c_vr.txt … done
Statistics for all files

// satSub.c のベクトル化サマリー
Source Locations
Message                                                                 Count     %

// 最初の行は、飽和加算/減算が 3 つあったことを示しています。  
// 100% は、
メッセージがプログラムの 1 つの場所/ループを参照していることを示しています。
// (Count = 1) は、プログラムのループについてこのメッセージのインスタンスが 1 つあることを示しています。
saturating add/subtract: 3.                                            1 100.0%    
unmasked unaligned unit stride loads: 2.                     1 100.0%    
loop was vectorized (with peel/with remainder)            1 100.0%    
unmasked aligned unit stride stores: 2.                        1 100.0%

// プログラムのすべてのループ (この場合は 1 つのループ) がベクトル化されました。
// 例えば、10 個のループのうち 6 つのループがベクトル化された場合は 60% になります。

SIMD LOOP WAS VECTORIZED.                               1 100.0%    
unmasked aligned unit stride loads: 4.                         1 100.0%
scalar loop cost: 5.                                                       1 100.0%
lightweight vector operations: 15.                                 1 100.0%
vector loop cost: 0.310000.                                           1 100.0%
loop inside vectorized loop at nesting level: 1.              1 100.0%
unmasked unaligned unit stride stores: 1.                     1 100.0%
estimated potential speedup: 6.270000.                        1 100.0%
Total Source Locations:                                                 1

$ more satSub_c_vr.txt
VECRPT satSub.c
VECRPT                                                                    Source Locations
VECRPT Message                                                                 Count     %
VECRPT saturating add/subtract: 3.                                             1 100.0%
VECRPT unmasked unaligned unit stride loads: 2.                      1 100.0%
VECRPT loop was vectorized (with peel/with remainder)             1 100.0%
VECRPT unmasked aligned unit stride stores: 2.                         1 100.0%
VECRPT scalar loop cost: 5.                                                         1 100.0%
VECRPT unmasked aligned unit stride loads: 4.                           1 100.0%
VECRPT SIMD LOOP WAS VECTORIZED.                                 1 100.0%
VECRPT lightweight vector operations: 15.                                   1 100.0%
VECRPT vector loop cost: 0.310000.                                            1 100.0%
VECRPT loop inside vectorized loop at nesting level: 1.               1 100.0%
VECRPT unmasked unaligned unit stride stores: 1.                      1 100.0%
VECRPT estimated potential speedup: 6.270000.                         1 100.0%
VECRPT Total Source Locations:                                                               1

1: #define SAT_U8(x) ((x) < 0 ? 0 : (x))
2: void satsub(
3:   unsigned char *a,
4:   unsigned char *b,
5:   int n
6: ){
7:   int i;
8: #pragma simd
VECRPT (col. 3) SIMD LOOP WAS VECTORIZED.
VECRPT (col. 3) estimated potential speedup: 6.270000.
VECRPT (col. 3) lightweight vector operations: 15.
VECRPT (col. 3) loop inside vectorized loop at nesting level: 1.
VECRPT (col. 3) loop was vectorized (with peel/with remainder)
VECRPT (col. 3) saturating add/subtract: 3.
VECRPT (col. 3) scalar loop cost: 5.
VECRPT (col. 3) unmasked aligned unit stride loads: 4.
VECRPT (col. 3) unmasked aligned unit stride stores: 2.
VECRPT (col. 3) unmasked unaligned unit stride loads: 2.
VECRPT (col. 3) unmasked unaligned unit stride stores: 1.
VECRPT (col. 3) vector loop cost: 0.310000.
9:   for (i=0; i  10:     a[i] = SAT_U8(a[i] – b[i]);
11:   }
12: }
$

ダウンロード: vecanalysis.tgz

コンパイラーの最適化に関する詳細は、最適化に関する注意事項を参照してください。

関連記事

  • ベクトル化レポートと新しいレベル -vec-report6 の概要ベクトル化レポートと新しいレベル -vec-report6 の概要 この記事は、インテル® デベロッパー・ゾーンに掲載されている「Overview of Vectorization Reports and new vec-report6」の日本語参考訳です。 既存の –vec-report コンパイラー・オプション (レベル 0 から 5) […]
  • インテル® Xeon Phi™ コプロセッサー向けネイティブ・アプリケーションのビルドインテル® Xeon Phi™ コプロセッサー向けネイティブ・アプリケーションのビルド この記事は、インテル® デベロッパー・ゾーンに掲載されている「Building a Native Application for Intel® Xeon Phi™ Coprocessors」の日本語参考訳です。 はじめに アプリケーションによっては、ホストシステムからオフロードせずに、直接インテル® Xeon Phi™ […]
  • インテル® MIC アーキテクチャー向けの高度な最適化 - 精度を下げて最適化インテル® MIC アーキテクチャー向けの高度な最適化 - 精度を下げて最適化 この記事は、インテル® ソフトウェア・サイトに掲載されている「Advanced Optimizations for Intel® MIC Architecture, Low Precision Optimizations」の日本語参考訳です。 はじめに 2012 年 5 月以前にリリースされた、インテル® Xeon Phi™ […]
  • インテル® MIC アーキテクチャーの準備インテル® MIC アーキテクチャーの準備 この記事は、インテル® デベロッパー・ゾーンに掲載されている「Preparing for the Intel® Many Integrated Core Architecture」の日本語参考訳です。 インテル® MIC アーキテクチャー向けのコンパイラー手法 インテル® […]
  • インテル® MKL を Numpy/Scipy に実装インテル® MKL を Numpy/Scipy に実装 この記事は、インテル® デベロッパー・ゾーンに公開されている「Numpy/Scipy with Intel® MKL」の日本語参考訳です。 *著者注: この記事は 2014 年 8 月 27 日更新されました。 NumPy/SciPy アプリケーション・ノート ステップ 1 - 概要 このガイドは、現在 […]