インテル Parallel Universe マガジンの最新号 (英語) が公開されました。
注目記事: データ並列 C++ のリダクション操作のパフォーマンスを解析する
掲載記事
- ヘテロジニアスな処理にはデータ並列化が必要: SYCL* と DPC++ から始めよう
- OpenMP* のアクセラレーター・オフロード
- インテル® oneAPI ツールキットを使用した分散型 AI トレーニングの最適化
- ディープラーニングにおける CPU の役割と可能性
- SigOpt と Ray Tune を使用した MiniNAS ニューラル・アーキテクチャー検索
- エンドツーエンドの AI パイプラインのパフォーマンス最適化
- CatBoost のパフォーマンスを最大 4 倍に最適化
編集者からのメッセージ
ISC 2021 で大きな発表がありました!
インテル コーポレーションの副社長兼ハイパフォーマンス・コンピューティング事業本部長の Trish Damkroger は、2021 International Supercomputing ConferenceISC) の基調講演において、いくつかの新しい製品と製品拡張を発表しました。ここではそのすべてを取り上げることはできませんが (詳細は、「HPC および AI 向けの新しいインテルの XPU 革新」 (英語) を参照)、その中から私が特に関心を持っている 2 つを紹介したいと思います。1 つ目は、インテルの Xe-HPC ベースのディスクリート GPU (開発コード名 Ponte Vecchio、略称 PVC) が実働テスト段階に入りました。現在、私は統合 GPU で oneAPI の実験を行っていますが、PVC でプロダクション・スケールのワークロードを実行できるのを心待ちにしています。2 つ目は、統合高帯域幅メモリー (HBM) とインテル® Advanced Matrix Extensions (インテル® AMX) が、次世代のインテル® Xeon® スケーラブル・プロセッサー (開発コード名 Sapphire Rapids、略称 SPR) に搭載される予定です。インテル® アドバンスト・ベクトル・エクステンション (インテル® AVX) によるベクトル化は、すでにインテル® Xeon® スケーラブル・プロセッサーにおいて優れたアクセラレーションを提供していますが、HBM とインテル® AMX により、さらに効果的なインテル® Xeon® スケーラブル・プロセッサー・ベースのアクセラレーションを実現します。
本号では、データ並列 C++ での低レベルのパフォーマンス・チューニングから、AI パフォーマンスを向上させるシンプルかつ効果的な手法まで、さまざまなトピックを紹介します。oneAPI とヘテロジニアスな並列処理に関しては、注目記事「データ並列 C++ のリダクション操作のパフォーマンスを解析する」で前号の記事「データ並列 C++ のリダクション操作」をさらに深く掘り下げます。名誉編集長の James Reinders による寄稿記事 「ヘテロジニアスな処理にはデータ並列化が必要」もあります。「OpenMP* のアクセラレーター・オフロード」では、OpenACC* から移植性に優れた OpenMP* 標準へ移行する方法と OpenMP* オフロードのパフォーマンスを向上するヒントを紹介します。
データ・アナリティクスに関しては、インド工科大学ルーキー校の Sparsh Mittal 教授による寄稿記事「ディープラーニングにおける CPU の役割と可能性」を掲載しています。そして、ニューラル・ネットワークのトレーニングのパフォーマンスに関する 2 つの記事「インテル® oneAPI ツールキットを使用した分散型 AI トレーニングの最適化」と「SigOpt と Ray Tune を使用した MiniNAS ニューラル・アーキテクチャー検索」が続きます。最後に、インテル® oneAPI AI アナリティクス・ツールキット (英語) とインテルの最適化を含む既製のパッケージを使用して、古典的なマシンラーニングのパフォーマンスを大幅に向上する方法を紹介する 2 つの記事、「エンドツーエンドの AI パイプラインのパフォーマンス最適化」と「CatBoost のパフォーマンスを最大 4 倍に最適化」で本号を締めくくります。
コードの現代化、ビジュアル・コンピューティング、データセンターとクラウド・コンピューティング、データサイエンス、システムと IoT 開発、oneAPI を利用したヘテロジニアス並列コンピューティング向けのインテル・ソリューションの詳細は、Tech.Decoded (英語) を参照してください。