Ollama でローカル AI を実行するには、どのような GPU が必要ですか? — 答えは、想像するほど高価ではありません…

Howero
abmhh
0 comments

NVIDIA GeForce RTX 5080 Founders Edition (上) を RTX 5090 Founders Edition (下) の上に重ねた状態

OllamaでローカルAIを実行するために、わざわざ高額な費用を払う必要はありません。 (画像提供: Windows Central | Ben Wilson)

AIは今後も存在し続けるでしょう。そして、それはChatGPTやCopilotのようなオンラインツールを使うだけではありません。開発者、趣味人、あるいは単に新しいスキルを学びたい、あるいはAIの仕組みを少し知りたいという人にとって、ローカルAIはより良い選択肢です。

Ollamaは、ローカルPCでLLMを試す最も簡単で人気の高い方法の一つです。しかし、ChatGPTを使うときには必要ありませんが、Ollamaにはそれなりに高性能なローカルハードウェアが必要です。特にOllamaは、現時点では専用GPUしかサポートしていないため、その点が重要です。たとえ統合GPUを搭載したLM Studioを使用している場合でも、良好なパフォーマンスを得るにはそれなりのハードウェアが必要です。

法外な金額を費やす必要があると思っているかもしれませんね？違います。確かに、RTX 5090に何千ドルも費やすこともできますが、必ずしもそうする必要はありません。古いカードや安いカードでも十分に楽しめます。NVIDIA H100を買える予算があるなら、それはそれでいいのですが、もっと安い方法があります。

VRAMはOllamaにとって鍵となる

verbose フラグと ps コマンドを使用して、Ollama でのモデルの実行速度と、CPU と GPU の使用率の分割を確認します。 — Ollama を使用している場合は、100% GPU が理想です。(画像クレジット: Windows Central)

AI用GPUを購入する際の優先順位は、ゲーム用GPUを購入する場合とは異なります。新しいゲームシステムを探す際は、通常、最高のグラフィックと最高のフレームレートを求めて、最新世代で、予算内で最も高性能なものを選ぶでしょう。

AI用途でGPUを購入する際には、こうした考え方も考慮する必要がありますが、ホームユーザーにとってはそれほど重要ではありません。確かに、最新の50シリーズGPUはCUDAコア数が多く、演算速度も速く、メモリ帯域幅も優れています。しかし、重要なのはメモリです。

最新かつ最高性能のAI GPUを購入するほどの予算がない場合は、VRAMを優先すべきです。可能な限りVRAMを増やしましょう。

Ollama ではこのような状況が発生すると、CPU が不足分を補わなければならなくなりますが、そのたびにパフォーマンスが急激に低下します。

ローカルLLMを使用してGPUを最大限に活用するには、使用するモデルをGPUのVRAMに完全にロードする必要があります。VRAMはシステムメモリよりも高速です。しかし、システムRAMにロードしすぎるとパフォーマンスが低下します。CPUがその不足分を補わなければならない場合（Ollamaではこのような状況が発生するとCPUが負担します）、パフォーマンスが急激に低下することになります。

Windows と Xbox の熱狂的なファンのための最新ニュース、レビュー、ガイド。

簡単な例として、NVIDIA RTX 5080（16GB VRAM）、Intel Core i7-14700k、32GB DDR5 RAMを搭載した私のPCでDeepseek-r1:14bを実行した様子を見てみましょう。「物語を聞かせてください」というシンプルなプロンプトを入力すると、コンテキストウィンドウが最大16kまでの場合、1秒あたり約70トークンのパフォーマンスが返されます。これよりも大きな値にすると、モデルはGPUメモリに完全に収まらなくなり、システムRAMとCPUを使用するようになります。

これが発生すると、CPU/GPUの比率が21%/79%であるにもかかわらず、出力は1秒あたり19トークンに低下します。GPUが依然として大部分の処理を行っている場合でも、CPUとRAMが呼び出されるとパフォーマンスは急激に低下します。

ここではデスクトップGPUに焦点を当てていますが、ノートパソコンにも同じことが当てはまります。AIを重視するなら、できるだけ多くのVRAMを搭載したGPUを搭載したノートパソコンを選びましょう。

では、どれくらいの VRAM が必要ですか?

NVIDIA GeForce RTX 5080 Founders Edition デュアルファン搭載 — RTX 5080でさえ、ローカルAIでは苦戦することがあります。（画像クレジット：Windows Central | Ben Wilson）

簡単に言えば、できるだけ多く、です。より良い答えは、予算が許す限り多く、ということです。しかし、より正確な答えは、あなたが使いたいモデルによって異なります。その質問にはお答えできませんが、必要なものを見つけるお手伝いはできます。

Ollamaのウェブサイトのモデルページにアクセスすると、各モデルのサイズの詳細がリストアップされています。この数値は、GPUにメモリを完全にロードするために必要なVRAMの最小容量です。しかし、実際に何かを実行するには、これ以上の容量が必要になります。また、コンテキストウィンドウが大きいほど、LLMに取り込む情報量が増え、メモリ（KVキャッシュとも呼ばれます）の消費量も増加します。

したがって、理想的には、このモデルを快適に使用するために、24GB VRAM GPU が必要になると思います。

多くの人は、モデルの物理ファイルサイズに1.2を掛けて概算を出すことを推奨しています。例を見てみましょう！

OpenAIのgpt-oss:20bは14GBです。これを1.2倍すると16.8になります。個人的な経験から、これはある程度正確であると断言できます。16GBのRTX 5080で8K以下のコンテキストウィンドウで実行しない限り、GPUに完全にロードし続けることはできません。

16Kを超えるとCPUとRAMへの負荷が大きくなり、パフォーマンスが急激に低下し始めます。そのため、このモデルを快適に使いたいのであれば、理想的には24GBのVRAMを搭載したGPUが望ましいでしょう。

これは先ほどの点と関連しています。CPUとRAMの使用量が増えるほど、パフォーマンスは低下します。モデルが大きくても、コンテキストウィンドウが大きくても、あるいはその両方であっても、GPUをできるだけ長く稼働させたいものです。

古くて安価なGPUは、AIにとって依然として優れた選択肢となり得る

NVIDIA GeForce RTX 3060 — 旧型のRTX 3060でも、12GBのVRAMを搭載しているので、ローカルAI用途には最適な選択肢です。（画像提供：Windows Central）

ウェブでじっくり検索してみると、あるパターンが見えてきます。価格、VRAM、そして演算性能のバランスを考えると、RTX 3090がパワーユーザーにとって現時点で最もお買い得だと主張する人が多いでしょう。

アーキテクチャの違いを除けば、RTX 3090はCUDAコア数とメモリ帯域幅においてRTX 5080と同等です。VRAMに関しては、旧型カードが24GBだったのに対し、RTX 5080を大きく上回っています。RTX 3090の350W TDPは、24GBのRTX 4090や32GBのRTX 5090よりも大幅に優れています。もちろん後者の方がパフォーマンスは最高ですが、購入と運用に途方もなく高額です。

別の方法もあります。RTX 3060は、12GBのVRAMと比較的低価格であることから、AIコミュニティで大変人気があります。メモリ帯域幅は大幅に低いですが、TDPもわずか170Wと低くなっています。RTX 3060を2枚購入すれば、TDPとVRAM容量はRTX 3090に匹敵し、費用もはるかに抑えられます。

ウェブでじっくり検索してみると、あるパターンが見えてきます。パワーユーザーにとって、RTX 3090が現時点で最もお買い得だと主張する人は多いでしょう。

重要なのは、急いで最大で高価なGPUを購入する必要は絶対にないということです。バランスが重要なので、自分が使いたいGPUについてよく調べてください。

次に、予算を決め、可能な限り高速で大容量のVRAMを搭載したGPUを選びましょう。Ollamaは複数のGPUを使用できるため、12GBのカード2枚の方が24GBのカード1枚よりも安い場合は、検討する価値があります。

そして最後に...

サファイアパルスRX 9070 XT — AMD GPUは悪くないが、AIに関しては今のところNVIDIAを選ぶべきだろう。（画像クレジット：Future | TechRadar）

可能であればNVIDIAを選びましょう。OllamaはいくつかのAMD GPUをサポートしていますが、正直なところ、ローカルAIには今のところNVIDIAが最適です。レッドチームは常に進歩を遂げていますが、NVIDIAは圧倒的に先行しており、現状はそうではありません。

AMDは、特にノートパソコンやミニPC向けのモバイルチップにおいて強みを持っています。現在最高クラスのグラフィックカード1枚分の価格で、Strix Halo世代のRyzen AI Max+ 395 APU、128GBの統合メモリ、そして真のデスクトップクラスのRadeon 8060S統合グラフィックスを搭載したミニPCを購入できます。

OllamaはiGPUをサポートしていないため、このようなシステムやRyzen AIチップを搭載した他のシステムではプレイできません。しかし、VulkanをサポートするLM Studioなら可能です。128GBのStrix Haloシステムでは、LLM専用に最大96GBのメモリを搭載でき、これは非常に大きな容量です。

ただし、選択肢はいくつかあり、予算に優しいものもあります。希望するGPUが旧世代のカードの場合は、Ollamaのリストと照らし合わせて、可能な限りVRAMを増やしましょう。複数のGPUを使うのも理にかなっているでしょう。12GBのRTX 3060を2枚500～600ドルで購入できれば、かなり有利なスタートを切ることができます。

でも、ハードウェアや予算が限られているからといって、この楽しみを諦めないでください。まずは、少し調べて、最大限のリターンを得ましょう。

リチャード・ディバインは、10年以上の経験を持つWindows Centralの編集長です。元プロジェクトマネージャーであり、長年のテクノロジー愛好家でもある彼は、2011年にMobile Nationsに入社し、Windows Centralに加え、Android CentralやiMoreでも活躍しています。現在は、このサイトであらゆる種類のPCハードウェアとレビューの取材を担当しています。Mastodonでは、mstdn.social/@richdevine でフォローできます。