ローカルAIのためにPCでOllamaを実行する場合、最も重要なことが1つあります。その理由は次のとおりです。

Howero
abmhh
0 comments

どちらもゲームには最適ですが、VRAMを搭載しているため、AI用途にはより適しています。 (画像提供: PC Gamer)

Ollamaは、自分のPC上でローカルAIタスク用のLLMを試す最も簡単な方法の一つです。ただし、専用のGPUが必要です。

ただし、ゲームとは少し異なる点があります。例えば、ローカルAIを使う場合、新しいRTX 5080よりも古いRTX 3090の方が実際に快適にプレイできるかもしれません。

ゲーム用途であれば、新しいカードの方がより良い選択肢となるでしょう。しかし、AIワークロードにおいては、旧型の主力製品には明確な優位性があります。それは、メモリ容量が大きいことです。

PCでLLMを実行するならVRAMが重要

NVIDIA GeForce RTX 5090 Founders Edition を 600W アダプター付きの PC にインストール — RTX 5090は非常に高価で、ほとんどのゲーマーにとっては過剰なスペックですが、32GBのVRAMを搭載しているため、AIワークロードには十分なパワーを備えています。(画像クレジット: Windows Central | Ben Wilson)

後世代の GPU の計算能力は確かに優れているかもしれませんが、それをバックアップする VRAM がなければ、ローカル AI では無駄になります。

RTX 5060 は、古い RTX 3060 よりもゲーム用の GPU として優れていますが、新しい方の VRAM は 8GB であるのに対し、古い方の VRAM は 12GB であるため、AI にはあまり役立ちません。

Ollamaを使用する場合、最高のパフォーマンスを得るには、LLMを超高速VRAMプールに完全にロードする必要があります。もしそれが収まらない場合、システムメモリに溢れ出し、CPUが負荷の一部を担うようになります。そうなると、パフォーマンスは急激に低下し始めます。

OllamaではなくLM Studioを使用している場合でも、全く同じ原則が当てはまります。たとえ統合GPUを使用している場合でもです。LLMをロードし、CPUの負担を軽減するために、GPU用にできるだけ多くのメモリを確保しておく必要があります。

Windows と Xbox の熱狂的なファンのための最新ニュース、レビュー、ガイド。

GPU + GPU メモリは、パフォーマンスを最大限に高めるための鍵となります。

必要なVRAM容量を把握する最も簡単な方法は、モデルの物理的なサイズを確認することです。例えばOllamaでは、gpt-oss:20bには13GBがインストールされています。最低限、これらすべてをロードできるだけのメモリを確保する必要があります。

理想的には、バッファも確保する必要があります。大きなタスクと、それらを収めるコンテキストウィンドウも、ロード用のバッファ（KVキャッシュ）が必要になるためです。多くの人は、目標とするVRAMの概算値を得るために、モデルのサイズに1.2を掛けることを推奨しています。

LM Studio で使用するために iGPU 用のメモリを予約する場合も、同じ原則が適用されます。

VRAMが十分でないとパフォーマンスが低下します

RTX 5080を使用したOllamaでのDeepseek-r1のパフォーマンス — 理想的なシナリオは、GPU使用率が100%で、1秒あたりのトークン数が良好であることです。（画像提供：Windows Central）

例をいくつか挙げてみましょう！これは非常にシンプルなテストですが、私が言いたいことをよく表しています。RTX 5080を搭載した様々なモデルで、「短いストーリーを聞かせてください」というシンプルなプロンプトを実行しました。いずれの場合も、すべてのモデルが16GBのVRAMに完全にロードできました。

システムの残りの部分には、Intel Core i7-14700k と 32GB DDR5 6600 RAM が搭載されています。

しかし、各モデルのコンテキストウィンドウを拡大し、OllamaがシステムRAMとCPUにも負荷をかけるようにすることで、パフォーマンスがどの程度低下するかを示しました。それでは、数値を見てみましょう。

Deepseek-r1 14b (9GB):コンテキストウィンドウが最大16kの場合、GPU使用率は100%で、トークン/秒は約70トークンです。32kでは、CPU使用率が21%、GPU使用率が79%となり、パフォーマンスは19.2トークン/秒に低下します。
gpt-oss 20b (13GB):コンテキストウィンドウが最大8kの場合、GPU使用率は100%で、トークン数は1秒あたり約128トークンです。16kでは、CPU使用率が7%、GPU使用率が93%となり、パフォーマンスは50.5トークン/秒に低下します。
Gemma 3 12b (8.1GB):コンテキストウィンドウが最大32kの場合、GPU使用率は100%で、トークン数は約71/秒です。32kではCPU使用率が16%、GPU使用率が84%となり、パフォーマンスは39/秒まで低下します。
Llama 3.2 Vision (7.8GB):コンテキストウィンドウが最大16kの場合、GPU使用率は100%で、トークン/秒は約120トークンです。32kでは、CPU使用率が29%、GPU使用率が71%となり、パフォーマンスは68トークン/秒まで低下します。

最初に言っておきますが、これはこれらのモデルに関する最も詳細な科学的なテストではありません。これは単に要点を説明するためのものです。GPUが全ての処理を単独で実行できず、PCの残りの部分が処理を担う場合、LLMのパフォーマンスは劇的に低下します。

これは、LLMが最高のパフォーマンスを発揮するために十分なGPUメモリを確保することの重要性を示すための、非常に簡単なテストです。CPUとRAMに負担をかけたくない場合は、可能な限りその負担を軽減する必要があります。

少なくとも、その時点ではパフォーマンスは良好でした。ただし、これはGPUをバックアップする堅牢なハードウェアがある場合です。

gpt-oss:20bまでのモデルを実行したい場合は、少なくとも16GBのVRAMを搭載することをお勧めします。より高負荷なワークロードに対応できる容量が必要な場合は、24GBのVRAMが理想的です。価格が手頃なRTX 3060を2枚購入すれば、24GBのVRAMでも十分でしょう。自分に最適な容量を見つけることが重要です。

リチャード・ディバインは、10年以上の経験を持つWindows Centralの編集長です。元プロジェクトマネージャーであり、長年のテクノロジー愛好家でもある彼は、2011年にMobile Nationsに入社し、Windows Centralに加え、Android CentralやiMoreでも活躍しています。現在は、このサイトであらゆる種類のPCハードウェアとレビューの取材を担当しています。Mastodonでは、mstdn.social/@richdevine でフォローできます。