Ollama でローカル AI を実行するには、どのような GPU が必要ですか? — 答えは、想像するほど高価ではありません…

AIは今後も存在し続けるでしょう。そして、それはChatGPTやCopilotのようなオンラインツールを使うだけではありません。開発者、趣味人、あるいは単に新しいスキルを学びたい、あるいはAIの仕組みを少し知りたいという人にとって、ローカルAIはより良い選択肢です。
Ollamaは、ローカルPCでLLMを試す最も簡単で人気の高い方法の一つです。しかし、ChatGPTを使うときには必要ありませんが、Ollamaにはそれなりに高性能なローカルハードウェアが必要です。特にOllamaは、現時点では専用GPUしかサポートしていないため、その点が重要です。たとえ統合GPUを搭載したLM Studioを使用している場合でも、良好なパフォーマンスを得るにはそれなりのハードウェアが必要です。
法外な金額を費やす必要があると思っているかもしれませんね?違います。確かに、RTX 5090に何千ドルも費やすこともできますが、必ずしもそうする必要はありません。古いカードや安いカードでも十分に楽しめます。NVIDIA H100を買える予算があるなら、それはそれでいいのですが、もっと安い方法があります。
VRAMはOllamaにとって鍵となる
AI用GPUを購入する際の優先順位は、ゲーム用GPUを購入する場合とは異なります。新しいゲームシステムを探す際は、通常、最高のグラフィックと最高のフレームレートを求めて、最新世代で、予算内で最も高性能なものを選ぶでしょう。
AI用途でGPUを購入する際には、こうした考え方も考慮する必要がありますが、ホームユーザーにとってはそれほど重要ではありません。確かに、最新の50シリーズGPUはCUDAコア数が多く、演算速度も速く、メモリ帯域幅も優れています。しかし、重要なのはメモリです。
最新かつ最高性能のAI GPUを購入するほどの予算がない場合は、VRAMを優先すべきです。可能な限りVRAMを増やしましょう。
Ollama ではこのような状況が発生すると、CPU が不足分を補わなければならなくなりますが、そのたびにパフォーマンスが急激に低下します。
ローカルLLMを使用してGPUを最大限に活用するには、使用するモデルをGPUのVRAMに完全にロードする必要があります。VRAMはシステムメモリよりも高速です。しかし、システムRAMにロードしすぎるとパフォーマンスが低下します。CPUがその不足分を補わなければならない場合(Ollamaではこのような状況が発生するとCPUが負担します)、パフォーマンスが急激に低下することになります。
Windows と Xbox の熱狂的なファンのための最新ニュース、レビュー、ガイド。
簡単な例として、NVIDIA RTX 5080(16GB VRAM)、Intel Core i7-14700k、32GB DDR5 RAMを搭載した私のPCでDeepseek-r1:14bを実行した様子を見てみましょう。「物語を聞かせてください」というシンプルなプロンプトを入力すると、コンテキストウィンドウが最大16kまでの場合、1秒あたり約70トークンのパフォーマンスが返されます。これよりも大きな値にすると、モデルはGPUメモリに完全に収まらなくなり、システムRAMとCPUを使用するようになります。
これが発生すると、CPU/GPUの比率が21%/79%であるにもかかわらず、出力は1秒あたり19トークンに低下します。GPUが依然として大部分の処理を行っている場合でも、CPUとRAMが呼び出されるとパフォーマンスは急激に低下します。
ここではデスクトップGPUに焦点を当てていますが、ノートパソコンにも同じことが当てはまります。AIを重視するなら、できるだけ多くのVRAMを搭載したGPUを搭載したノートパソコンを選びましょう。
では、どれくらいの VRAM が必要ですか?
簡単に言えば、できるだけ多く、です。より良い答えは、予算が許す限り多く、ということです。しかし、より正確な答えは、あなたが使いたいモデルによって異なります。その質問にはお答えできませんが、必要なものを見つけるお手伝いはできます。
Ollamaのウェブサイトのモデルページにアクセスすると、各モデルのサイズの詳細がリストアップされています。この数値は、GPUにメモリを完全にロードするために必要なVRAMの最小容量です。しかし、実際に何かを実行するには、これ以上の容量が必要になります。また、コンテキストウィンドウが大きいほど、LLMに取り込む情報量が増え、メモリ(KVキャッシュとも呼ばれます)の消費量も増加します。
したがって、理想的には、このモデルを快適に使用するために、24GB VRAM GPU が必要になると思います。
多くの人は、モデルの物理ファイルサイズに1.2を掛けて概算を出すことを推奨しています。例を見てみましょう!
OpenAIのgpt-oss:20bは14GBです。これを1.2倍すると16.8になります。個人的な経験から、これはある程度正確であると断言できます。16GBのRTX 5080で8K以下のコンテキストウィンドウで実行しない限り、GPUに完全にロードし続けることはできません。
16Kを超えるとCPUとRAMへの負荷が大きくなり、パフォーマンスが急激に低下し始めます。そのため、このモデルを快適に使いたいのであれば、理想的には24GBのVRAMを搭載したGPUが望ましいでしょう。
これは先ほどの点と関連しています。CPUとRAMの使用量が増えるほど、パフォーマンスは低下します。モデルが大きくても、コンテキストウィンドウが大きくても、あるいはその両方であっても、GPUをできるだけ長く稼働させたいものです。
古くて安価なGPUは、AIにとって依然として優れた選択肢となり得る
ウェブでじっくり検索してみると、あるパターンが見えてきます。価格、VRAM、そして演算性能のバランスを考えると、RTX 3090がパワーユーザーにとって現時点で最もお買い得だと主張する人が多いでしょう。
アーキテクチャの違いを除けば、RTX 3090はCUDAコア数とメモリ帯域幅においてRTX 5080と同等です。VRAMに関しては、旧型カードが24GBだったのに対し、RTX 5080を大きく上回っています。RTX 3090の350W TDPは、24GBのRTX 4090や32GBのRTX 5090よりも大幅に優れています。もちろん後者の方がパフォーマンスは最高ですが、購入と運用に途方もなく高額です。
別の方法もあります。RTX 3060は、12GBのVRAMと比較的低価格であることから、AIコミュニティで大変人気があります。メモリ帯域幅は大幅に低いですが、TDPもわずか170Wと低くなっています。RTX 3060を2枚購入すれば、TDPとVRAM容量はRTX 3090に匹敵し、費用もはるかに抑えられます。
ウェブでじっくり検索してみると、あるパターンが見えてきます。パワーユーザーにとって、RTX 3090が現時点で最もお買い得だと主張する人は多いでしょう。
重要なのは、急いで最大で高価なGPUを購入する必要は絶対にないということです。バランスが重要なので、自分が使いたいGPUについてよく調べてください。
次に、予算を決め、可能な限り高速で大容量のVRAMを搭載したGPUを選びましょう。Ollamaは複数のGPUを使用できるため、12GBのカード2枚の方が24GBのカード1枚よりも安い場合は、検討する価値があります。
そして最後に...
可能であればNVIDIAを選びましょう。OllamaはいくつかのAMD GPUをサポートしていますが、正直なところ、ローカルAIには今のところNVIDIAが最適です。レッドチームは常に進歩を遂げていますが、NVIDIAは圧倒的に先行しており、現状はそうではありません。
AMDは、特にノートパソコンやミニPC向けのモバイルチップにおいて強みを持っています。現在最高クラスのグラフィックカード1枚分の価格で、Strix Halo世代のRyzen AI Max+ 395 APU、128GBの統合メモリ、そして真のデスクトップクラスのRadeon 8060S統合グラフィックスを搭載したミニPCを購入できます。
OllamaはiGPUをサポートしていないため、このようなシステムやRyzen AIチップを搭載した他のシステムではプレイできません。しかし、VulkanをサポートするLM Studioなら可能です。128GBのStrix Haloシステムでは、LLM専用に最大96GBのメモリを搭載でき、これは非常に大きな容量です。
ただし、選択肢はいくつかあり、予算に優しいものもあります。希望するGPUが旧世代のカードの場合は、Ollamaのリストと照らし合わせて、可能な限りVRAMを増やしましょう。複数のGPUを使うのも理にかなっているでしょう。12GBのRTX 3060を2枚500~600ドルで購入できれば、かなり有利なスタートを切ることができます。
でも、ハードウェアや予算が限られているからといって、この楽しみを諦めないでください。まずは、少し調べて、最大限のリターンを得ましょう。
リチャード・ディバインは、10年以上の経験を持つWindows Centralの編集長です。元プロジェクトマネージャーであり、長年のテクノロジー愛好家でもある彼は、2011年にMobile Nationsに入社し、Windows Centralに加え、Android CentralやiMoreでも活躍しています。現在は、このサイトであらゆる種類のPCハードウェアとレビューの取材を担当しています。Mastodonでは、mstdn.social/@richdevine でフォローできます。