インテル® DAAL を使用した外れ値検出の強化

この記事は、インテル® デベロッパー・ゾーンに公開されている「Enhancing Outlier Detection with Intel® DAAL」(https://software.intel.com/content/www/us/en/develop/articles/enhancing-outlier-detection-with-intel-data-analytics-acceleration-library.html) の日本語参考訳です。

この記事の PDF 版はこちらからご利用になれます。

はじめに

クレジットカード会社は、どのように不正や悪用を検出しているのでしょうか? ネットワーク管理者は、どのように侵入を発見しているのでしょうか? 科学者は、実験が正しく行われたかどうかをどのように知ることができるのでしょうか?

これらを行うためには、データセットを分析して正規性から外れたデータポイントを探します。例えば、クレジットカード会社は、特定の取引での異常な高額請求や、奇妙な購買行動を探します。これらは、クレジットカードが盗まれたことを示している可能性があります。ネットワーク管理者は、ネットワーク侵入の可能性を示す、特定の場所からの異常な負荷や国外の IP アドレスからのネットワーク・アクセスなどの不規則なアクティビティーをログファイルで探します。同様に、科学者は、実験が正しく行われていないことを示す指標として、正常な範囲または想定範囲から外れたデータを探します。

このような異常なアクティビティーや不規則なアクティビティーは、外れ値または異常値と呼ばれます。この記事では、データ内の外れ値¹ を検出するさまざまな方法について説明し、インテル® データ・アナリティクス・アクセラレーション・ライブラリー (インテル® DAAL)² を使用してインテル® Xeon® プロセッサー・ベースのシステム向けに外れ値の検出を最適化する方法を紹介します。

外れ値とは?

外れ値は、ほかのデータから大きく異なる (異常または不規則)、または乖離しているデータポイントです (図 1 を参照)。

図 1: 外れ値 – ケース #1

紫の点は、データセット内のデータポイントを示します。このグラフでは、ほかのデータポイントから大きく離れている 2 つのデータポイントが外れ値と見なされます。

図 2: 外れ値 – ケース #2

図 2 は別の外れ値の例です。このケースでは、データセットは 3 つのグループ (クラスター) に分けることができます。グループの外側のデータポイントはすべて外れ値と見なされます。

図 3: 外れ値 – ケース #3

図 3 は別の外れ値の例です。ここでも、データセットは 3 つのグループに分けることができますが、このケースは図 2 とは異なります。図２では、すべてのグループでデータポイントがほぼ一様に分布しているのに対し、図３ではグループごとにデータポイントの密度が異なります。

外れ値の原因は何か?

外れ値には、メリットとデメリットがあります。不規則なアクティビティー (外れ値) を検出することで、ネットワーク管理者は潜在的な侵入を検出して防ぐことができます。一方で、外れ値を検出して除外することで、計算結果への影響を排除したり、最小限に抑えることができます。外れ値は、マシンラーニング³ アルゴリズムのトレーニング・プロセスを歪曲したり、誤った方向に導く可能性があり、その結果、トレーニング時間が長くなったり、モデルの精度が低下することがあります。例えば、K 平均法クラスタリング・アルゴリズムでは、データセット内の外れ値は、クラスターのセントロイドを本来の位置から遠ざけます。

一般的な外れ値の原因には、以下のものがあります。

データ収集エラー: データ収集デバイスは、ノイズが原因で異常なデータを収集してしまうことがあります。
データ入力エラー: 入力されたデータが正しくありません。例えば、住宅の販売価格を誤入力すると、その住宅の価格はその地域の平均的な住宅価格の範囲外になります。
選択エラー: 例えば、高校生の身長について考えてみます。バスケットボール部に所属する一部の生徒の身長は、ほかの生徒と比べて非常に高いため、外れ値になります。バスケットボール部の生徒の身長は、生徒全体とは別に測定すべきです。
変換エラー: 複数のソースからデータを抽出する場合、操作ミスや抽出ミスが外れ値の原因になることがあります。

外れ値の検出方法

外れ値を検出する一般的な方法は、図 1 – 3 のようなデータセットをプロットしたグラフを見ることです。

Charu C. Aggarwal 著『Outlier Analysis』 (英語) 第 2 版⁴ では、次の外れ値検出方法が紹介されています。

確率モデル
線形モデル
近似ベースのモデル
高次元の外れ値検出

外れ値検出の使用例

外れ値検出方法は、奇妙なデータや異常データを検出できるため、次の用途があります。

ネットワーク・セキュリティー分析で不規則なアクティビティーや奇妙なアドレスを検出
異常な購入パターンや非常に高額な取引を監視して、クレジットカードの不正使用を識別
異常な症状や検査結果を発見して、患者の潜在的な健康問題を診断
ほかの選手と比較して異常なデータを分析して、優れたスポーツ選手を識別

これはほんの一部です。外れ値検出方法は、ほかの多くのものに適用できます。