インテル® DAAL を使用した主成分分析パフォーマンスの向上

この記事は、インテル® デベロッパー・ゾーンに公開されている「Improving the Performance of Principal Component Analysis with Intel® Data Analytics Acceleration Library」(https://software.intel.com/content/www/us/en/develop/articles/improving-performance-with-the-intel-data-analytics-acceleration-library.html) の日本語参考訳です。

この記事の PDF 版はこちらからご利用になれます。

ウェブサイトにアクセスしようとして、長時間待たされたり、アクセスできなかったことはありませんか? もしそうであれば、そのウェブサイトはサービス拒否¹ (DoS) 攻撃の犠牲になっていたかもしれません。DoS 攻撃は、攻撃者がスパムメールのような情報をネットワークに氾濫させ、ネットワークがその情報の処理に忙しくなり、ほかのユーザーからのリクエストを処理できなくなることで起こります。

スパムメールの DoS 攻撃を防ぐため、ネットワークは「ガベージ」/スパムメールを識別してフィルタリングする必要があります。これを行う方法の 1 つとして、メールパターンをメールスパム署名ライブラリーにあるものと比較します。ライブラリーのものと一致する受信パターンは、攻撃としてラベル付けされます。スパムメールは多種多様であるため、すべてのパターンを網羅したライブラリーを構築することは不可能です。スパムメールの検出率を高めるには、分析しやすくするためデータを再構成する方法が必要です。

この記事では、データの簡素化に使用可能な主成分分析⁴ (PCA) と呼ばれる、教師なし²マシンラーニング³・アルゴリズムについて説明し、インテル® データ・アナリティクス・アクセラレーション・ライブラリー (インテル® DAAL)⁵ を使用してこのアルゴリズムをインテル® Xeon® プロセッサー・ベースのシステム向けに最適化する方法を紹介します。

主成分分析とは?

PCA^7,8 は一般的な分析手法です。データの特性を失わずに複雑さを軽減して、視覚化や分析を容易にするため使用されます。データの複雑さを軽減するということは、元のデータセットの重要な特徴は維持しつつ、元の次元よりも小さい次元にすることを意味します。一般に、K 平均法⁶ などのマシンラーニング・アルゴリズムの前処理段階として使用され、モデルを簡素化して、パフォーマンスを向上します。

図 1 – 3 は、PCA アルゴリズムの仕組みを示しています。問題を簡素化するため、ここでは範囲を 2 次元空間に限定します。

図 1. 元のデータセットのレイアウト

図 1 は、データセットのオブジェクトを示しています。分散が最大になる方向を見つけます。

図 2. 平均値と分散が最大になる方向

図 2 は、データセットの平均値と、分散が最大になる方向を示しています。分散が最大となる方向を第 1 主成分と呼びます。

図 3. 次の主成分を見つける

図 3 は、次の主成分を示しています。次の主成分は、分散が 2 番目に大きくなる方向です。第 2 主成分は、第 1 主成分と直行しています。

図 4 – 6 は、PCA アルゴリズムを使用して次元を縮小する方法を示しています。

図 4. 回転したグラフ

図 4 は、第 1 主成分に対応する軸 (P1) が横軸になるように回転したグラフです。

図 5. オブジェクトを P1 軸に投影

図 5 では、第 1 主成分に対応する軸 (P1) が横軸になるようにグラフ全体が回転されています。

図 6. 2 次元から 1 次元に縮小

図 6 は、PCA を使用して、最大分散をベースに２次元 (P1 と P2) から１次元 (P1) に縮小した結果を示しています。同様に、多次元データセットで同じ概念を使用して、分散の低い次元を削除することで、特性を維持しつつ、次元を縮小します。

PCA の使用例

以下は、PCA の使用例です。

DoS 攻撃とネットワーク・プローブ攻撃の検出
画像圧縮
パターン認識
医用画像解析

PCA のメリットとデメリット

以下は、PCA のメリットとデメリットです。

メリット
- 高速なアルゴリズム
- データの最大分散を示すことができる
- 元のデータの次元を縮小できる
- ノイズを排除できる
デメリット
- 非線形構造は PCA ではモデル化が困難