インテルと Anaconda* によるオープン・データ・サイエンス向け Python* の強化

同カテゴリーの次の記事

インテル® VTune™ Amplifier XE を利用した Python* コードの高速化

この記事は、インテルの The Parallel Universe Magazine 25 号に収録されている、ビッグデータの課題への取り組みにおいて Python* を強化するテクノロジーに関する章を抜粋翻訳したものです。

現在、最も注目されている計算分野は、ハイパフォーマンス・コンピューティング (HPC)、ビッグデータ、データサイエンスでしょう。しかし、最近まで、これらの分野には関連性はほとんどありませんでした。ハードウェアの進歩は HPC における大躍進の原動力となりましたが、オープン・データ・サイエンス (ODS) では、Python* および R* コミュニティーからのフィードバックに依存しているのが現状です。

最適化を行わないと、Python* のような高水準言語は、大きなデータセットの解析に必要なパフォーマンスが得られません。幸いなことに、Continuum Analytics (Anaconda* の設立者および作成者) は、最先端の計算速度と開発の容易さを結び付ける方法を見つけました。

Anaconda* は、インテル® マス・カーネル・ライブラリー (インテル® MKL) がリンクされたハイパフォーマンスな Python* ディストリビューションを含む、優れた ODS プラットフォームです。Python* を始めたばかりの開発者でも利用可能な、ビッグデータ・プロジェクトへの取り組みを支援する強力なパッケージとテクノロジーを提供します。Anaconda* は、高度な解析、数値計算、JIT コンパイル、プロファイリング、並列処理、対話型の視覚化、コラボレーション、その他のニーズをサポートします。

最近の HPC の進歩と Python* ベースのデータサイエンスを組み合わせることにより、Anaconda* コミュニティーは、業界の将来を特徴付けるビッグデータの課題への取り組みを保証する高性能の (低コストで使いやすい) 解析テクノロジーの開発に取り組んでいます。

ODS と Python* でデータサイエンスの革新を加速

科学計算およびデータサイエンスの世界では、2 つのオープンソース言語、Python* および R* が利用されています。これらの言語は、ドメイン・エキスパート (金融アナリスト、データ・サイエンティスト、データエンジニア、ビジネスアナリストなど) に、熟練したプログラマーになることなく、解析ニーズに集中できる環境を提供します。

Python* は特に親しみやすい言語です。世界中のコンピューター・サイエンスの教室で教えられ、コミュニティーで活発に議論されています。Python* は、シンプルで読みやすいコードを記述すること (「Pythonic」であること) を特に重視しています。「Zen of Python」でも述べられているように、「シンプルは複雑より良い」のです。

Python* はデータサイエンスに理想的な言語です。Anaconda* は、Python*、R*、Hadoop* および成長を続けるオープンソース・テクノロジーのパフォーマンスを最大化する強固な ODS プラットフォームを提供します。Anaconda* は、さまざまなアーキテクチャー (Raspberry Pi* からハイパフォーマンス・クラスターまで)においてスケールアップとスケールアウトを実現し、企業の変化するパフォーマンス・ニーズを満たす柔軟性を備えています。

Python* には、「バッテリー同梱 (batteries included)」の哲学もあります。一般的なプログラミング・タスクを行うためにサイズの大きな標準ライブラリー・パッケージが用意されており、ポリシー・モデリングから化学まで、さまざまな分野に特化した多くのサードパーティー・ライブラリーと統合されます。Anaconda*プラットフォームは、これらの標準パッケージを含んでいるだけでなく、パッケージを簡単に追加できます。Python* を使用するデータ・サイエンス・チームは、(パフォーマンスや使いやすさを犠牲にすることなく) 思いつくほぼすべてのものをモデル化することができます。プラットフォームは単純なインストールでそのまま利用できる機能を提供するため、これらのパッケージはデプロイ環境で簡単にセットアップすることができます。

単純性、寛容さ、パフォーマンスを備えた Python* と Anaconda* の組み合わせは、ドメイン・エキスパートやデータ・サイエンティストに (革新をもたらす) さまざまなモデルをテストおよび操作する環境を提供します。インテル コーポレーションのチーフ・エバンジェリスト James Reinders は、「プログラミングを主要な作業であると考えないデータ・サイエンティスト、化学者、物理学者にとって、プログラミングは弊害となります。Python* のような環境を利用することは、必要なパフォーマンスを実現する合理的な投資であり、科学者はプログラミングではなく科学により集中することができるのです。」と述べています。

ありがたいことに、ドメイン・エキスパートには、ODS で今日のハードウェアの計算能力を利用できるように支援する多くの Python* ベースのオプションがあります。下記に説明するテクノロジーはすべて、Anaconda* Enterprise サブスクリプションに含まれており、開発環境に効率良く統合されます。また、これらはすべて、科学者、経済学者、財界人を含む、プログラマーでない人でも利用できます。

関連記事