インテル・ラボと Hugging Face が LLM の効率を高めるツールを共同開発

AI

この記事は、インテルのブログで公開されている「Intel Labs Works with Hugging Face to Deploy Tools for Enhanced LLM Efficiency」の日本語参考訳です。原文は更新される可能性があります。原文と翻訳文の内容が異なる場合は原文を優先してください。


このブログ記事は、インテル・ラボ (英語) との共同研究の一環として、Moshe Wasserblat (英語)、Oren Pereg (英語)、Jonathan Mamou (英語)、Daniel Korat (英語)、Moshe Berchansky (英語) が、大学および業界のパートナーである Nadav Timor (英語)、Joao Gante (英語)、Lewis Tunstall (英語)、Roy Schwartz (英語) とともに執筆したものです。

概要:

  • 大規模言語モデル (LLM) は AI アプリケーションに革命をもたらしていますが、推論速度の低いことが課題となっています。インテルの研究者たちは、業界や大学のパートナーと協力して、この問題に対処し、LLM の効率向上に積極的に取り組んでいます。
  • インテルの研究者たちは、一連のブログ記事で、テキスト生成を最大 2.7 倍高速化する手法や、アシスト生成をどのモデルファミリーの小型言語モデルでも動作するように拡張する方法、そして語彙の違いにかかわらず、小型の「ドラフト」モデルでも LLM の高速化を可能にする技術など、いくつかの斬新な研究成果を発表しています。

大規模言語モデル (LLM) は、チャットボットからコード生成まで、あらゆる AI アプリケーションに革命をもたらしています。しかし、その能力にもかかわらず、推論速度の低さが依然として大きな課題です。投機的デコーディング (SD: Speculative Decoding) は、マルチトークン予測によってテキスト生成を高速化する有望な解決策です。しかし、従来の SD 手法では、アシスタント・モデルとターゲットモデルが同じ語彙を使用する必要がありました。多くの LLM には、アシスタント・モデルとして機能する小型で軽量なモデルがないため、この要件が SD 技術の柔軟性と幅広い採用を制限していました。

インテルの研究者たちは、業界や大学のパートナーと協力し、一連のブログ記事で、LLM の効率を高めるいくつかの革新的な方法を紹介しています。これには、タスクに応じてテキスト生成を最大 2.7 倍高速化する斬新な方法や、アシスト生成をどのモデルファミリーの小型言語モデルでも動作するように拡張する方法、そして語彙の違いにかかわらず、小型の「ドラフト」モデルでも LLM の高速化を可能にする技術が含まれます。これらの画期的な技術の詳細は、以下の要約を参照してください。

ダイナミック・スペキュレーションによるアシスト生成の高速化 (英語)
このブログ記事では、インテル・ラボと Hugging Face によって開発された、タスクに応じてテキスト生成を最大 2.7 倍高速化するダイナミック投機的デコーディング (Dynamic Speculative Decoding) という斬新な方法を紹介しています。ダイナミック・スペキュレーションは、Hugging Face Transformers ライブラリー 4.45.0 (英語) に統合され、現在ではアシスト・デコーディングのデフォルト動作モードとして機能しています。

ユニバーサル・アシスト生成: どのモデルでもデコーディングを高速化 (英語)
多くの LLM には、アシスト生成 (英語) に使用する小型バージョンがありません。この問題を解決するため、インテル・ラボは Hugging Face と協力して、ユニバーサル・アシスト生成 (UAG) を開発しました。これは、アシスト生成をどのモデルファミリーの小型言語モデルでも動作するように拡張します。その結果、どのデコーダーモデルや MoE (Mixture of Experts) モデル (英語) の推論も、ほぼゼロのオーバーヘッドで 1.5~2.0 倍に高速化できるようになりました。

高度なユニバーサル・アシスト生成技術による LLM デコーディングの高速化 (英語)
このブログ記事では、UAG の拡張版である UAG-TLI を紹介しています。これは、確率的コーディングを可能にし、どの小型 LM でも使用できるようにすることで、さらに高い速度向上を実現します。最先端の LLM を用いた実験では、最大 2.5 倍の高速化が実証されています。UAG-TLI 手法は、Transformers (英語) のバージョン 4.50.0 (英語) にアシスト生成 (AG) の一部として統合されており、高度な AG をより利用しやすくしています。

インテルとワイズマン科学研究所が投機的デコーディングの進化で AI を高速化 (英語)
この研究は、投機的デコーディングにおける重要な進歩である、語彙の違いにかかわらず、どの小型「ドラフト」モデルでも LLM の高速化を可能にする新しい技術を紹介しています。この革新は、柔軟な LLM の展開を可能にし、開発者が任意の小型ドラフトモデルと任意の大型モデルを組み合わせて、プラットフォーム全体で推論速度とコストを最適化できるようにしました。この手法は、出力品質を損なうことなく、最大 2.8 倍の推論速度向上を実現します。このアルゴリズムはすでに、オープンソースの Hugging Face Transformers ライブラリーに統合されています。

タイトルとURLをコピーしました