NVIDIAは最新GPUにOpenAIのChat APIのサポートを追加しました。これがなぜ重要なのか、その理由を説明します。

Howero
abmhh
0 comments

NvidiaのTensorRT-LLMは、展開に向けてLLMモデルを最適化する予定です。 (画像提供: NVIDIA)

知っておくべきこと

TensorRT-LLM は、8GB 以上の VRAM を搭載した RTX GPU を搭載したデスクトップおよびラップトップに OpenAI の Chat API サポートを追加します。
ユーザーは、データセットをクラウドにアップロードすることなく、LLM クエリをより高速かつローカルで処理できます。
NVIDIA はこれを「Retrieval-Augmented Generation (RAG)」と組み合わせることで、よりカスタマイズされた LLM ユースケースを可能にします。

本日開催されたMicrosoft Igniteカンファレンスにおいて、NVIDIAは10月にリリースされたTensorRT-LLMのアップデートを発表しました。本日の主な発表は、TensorRT-LLM機能がLLM API、特に現時点で最もよく知られているOpenAI Chat APIのサポートを開始したこと、そしてNVIDIAがTensorRT-LLMのパフォーマンス向上に取り組み、GPUのトークンあたりのパフォーマンスを向上させたことが挙げられます。

もう一つ、非常に興味深い発表があります。NVIDIAはTensorRT-LLMにRetrieval-Augmented Generation（検索拡張生成）を組み込む予定です。これにより、LLMはオンラインデータに依存せずに外部データソースを知識ベースとして利用できるようになります。これはAIにとって非常に求められている機能です。

TensorRT-LLM とは何ですか?

IGNITE 2023の詳細はこちら

NVIDIAは最近、NVIDIAハードウェア上でLLMのローカルコンピューティングを可能にするオープンソースライブラリ、NVIDIA TensorRT-LLMを発表しました。NVIDIAは、大規模なデータセットや個人情報を扱う際のプライバシーと効率性の向上を目的として、このライブラリを推奨しています。これらの情報がOpenAIのChat APIなどのAPIを介して送信される場合でも、安全です。NVIDIA TensorRT-LLMの詳細については、NVIDIAの開発者向けサイトをご覧ください。

本日発表された NVIDIA TensorRT-LLM の変更点は、OpenAI の Chat API の追加と、DirectML の機能強化による、これまでサポートされていた LLM および Llama 2 や Stable Diffusion などの AI モデルのパフォーマンス向上です。

この技術とコンピューティングは、NVIDIAのAI Workbenchを通じてローカルで実行できます。「この統合された使いやすいツールキットにより、開発者はPCまたはワークステーション上で、事前学習済みの生成AIモデルとLLMを迅速に作成、テスト、カスタマイズできます。」NVIDIAは、このツールキットの利用に興味のある方のために、早期アクセス登録ページを用意しています。

NVIDIA TensorRT-LLM は、NVIDIA AI プラットフォーム上で最新の大規模言語モデル (LLM) の推論パフォーマンスを高速化し最適化するオープンソースライブラリです。
NVIDIA

NVIDIAは、これらの社内ベンチマークで見られるように、LLMのトークンあたりのパフォーマンスも向上させています。パフォーマンス向上の正確な報告については、メーカーのベンチマークやテスト結果には常に注意が必要です。

TensorRT-LLM のパフォーマンスの画像 — （画像提供：NVIDIA）

NVIDIA の TensorRT-LLM について理解できたところで、これがなぜ特別で便利なのでしょうか？ NVIDIA 搭載のワークステーションや PC でローカルに実行すれば、クラウドコンピューティングの能力不足により速度は遅くなるものの、ほとんどの場合、クエリに対する回答は同じになるでしょう。

Windows と Xbox の熱狂的なファンのための最新ニュース、レビュー、ガイド。

NVIDIA のこのユースケースに対する考え方は、本日 NVIDIA から発表されたもう 1 つの内容、つまり Retrieval-Augmented Generation と呼ばれる新しいテクノロジまたは機能との統合について説明するときに明らかになります。

検索拡張生成とは

「検索拡張生成（RAG）」という用語は、パトリック・ルイス氏を筆頭著者とする複数の著者による論文で提唱されました。これは、LLM（学習言語モデル）を使用したことがある人なら誰もが直面する問題に対する解決策として、業界で広く採用されている名称です。この情報は古くなっているか、正しいものの議論の文脈においては誤りです。RAGの仕組みに関する詳細は、NVIDIAの技術概要をご覧ください。

検索拡張生成は、外部ソースから取得した事実を使用して生成 AI モデルの精度と信頼性を高める手法です。
リック・メリット

検索拡張生成とNVIDIAのTensorRT-LLMを組み合わせることで、エンドユーザーはLLMがクエリを実行する際にアクセスできる情報をカスタマイズできます。ChatGPTは最近、同様の結果を提供できるカスタムGPTを発表しました。

カスタム GPT に関する記事で説明したように、カスタム GPT、またはこの場合は検索拡張生成を使用してチャールズディケンズの出版されたすべての作品にのみアクセスできる LLM インスタンスのいずれかを使用して、特注の単一目的 LLM インスタンスを作成する機能は、さまざまなユースケース向けに特別に構築された、意味があり正確な LLM を作成するのに役立ちます。

TensorRT-LLM は役に立ちますか?

これらすべてを合わせると何を意味するのでしょうか？これを有意義に活用できる現実的な機会がいくつかあります。導入はどれほど容易になるのでしょうか？データはどれほど安全になるのでしょうか？それは時が経てば分かるでしょう。特に企業レベルでは、AIによる改善によってワークフローの改善、複雑な情報へのより容易なアクセス、そして困難なタスクに取り組む従業員の支援といった可能性が秘められています。

これらのタスクはローカルで実行されますが、通常のLLM APIを経由するため、現在と同じコンテンツ制限や制約が適用されます。しかし、NVIDIAのTensorRT-LLMなどの技術により、LLMをオフラインでより高速に使用できるようになり、動作に制限がなく、現在マルウェアの作成やサイバー攻撃の支援に使用されているEvilGPTなどの技術と統合できるようになるため、AIが実際に損害を与える可能性はますます高まります。

NVIDIA による TensorRT-LLM のアップデートについてどう思いますか？私が見逃しているような、何か使える用途があれば教えてください。コメント欄で教えてください。

コルトンは、Windows Centralの読者とテクノロジーへの情熱を共有したいと願う、経験豊富なサイバーセキュリティ専門家です。最新のゼロデイ攻撃から企業を守る活動や、記事を通して自身の考えを発信する活動に携わっていない時は、家族と過ごしたり、PCやXboxでビデオゲームを楽しんだりしています。コルトンは購入ガイド、PC、デバイスの執筆に注力しており、新興テクノロジーやゲームのニュースについて話し合うことを常に歓迎しています。