ローカルLLMを自宅で動かすためのPC構成ガイド：メモリ容量とGPU性能の優先順位を徹底検証

ChatGPTやClaude 3、Geminiといったクラウド型AIの台頭により、AIは私たちの生活に欠かせないものとなりました。しかし、その一方で「機密情報を入力できない」「利用料金が高い」「検閲による制限がある」といった不満を持つユーザーが増えています。そこで注目されているのが、自分のPCで大規模言語モデルを動かす「ローカルLLM」です。

最新のオープンソースモデルである「Llama 3」や「Mistral」の登場により、一般消費者向けのPCでも驚くほど高い精度でAIを動かせるようになりました。しかし、いざPCを新調・増設しようとすると、一つの大きな壁にぶつかります。それは「GPUの性能（演算速度）と、ビデオメモリ（VRAM）の容量、どちらを優先すべきか？」という問題です。

本記事では、ローカルLLMを快適に動かすためのPCスペックの選び方を、専門的な視点から徹底的に解説します。

1. ローカルLLMにおける「GPU」と「VRAM」の決定的な役割の違い
1. VRAM（ビデオメモリ）：モデルを「読み込めるかどうか」の境界線
2. GPU性能（CUDAコア・Tensorコア）：モデルを「動かす速さ」
2. 「量子化」という魔法：なぜメモリ容量が重要なのか
3. GPU選定ガイド：予算と目的別のおすすめモデル
4. CPUとシステムメモリ（RAM）の優先順位
1. CPUの役割
2. メインメモリ（RAM）は最低32GB、できれば64GB以上
5. 電源ユニットと冷却：24時間稼働を支える基盤
6. 構成例：予算別ベストプラクティス
まとめ：自分に合った「VRAM容量」を見極めよう

1. ローカルLLMにおける「GPU」と「VRAM」の決定的な役割の違い

まず、ローカルLLMの動作原理から、パーツが果たす役割を整理しましょう。PCゲームや動画編集とは、求められる優先順位が全く異なります。

VRAM（ビデオメモリ）：モデルを「読み込めるかどうか」の境界線

LLMにおいて最も重要なのは、GPUに搭載されているVRAMの容量です。AIモデルのパラメータ（知能の大きさ）は、すべてVRAM上に展開される必要があります。もしVRAMが足りなければ、モデルは起動すらしないか、極端に低速なメインメモリ（CPU側）を使用することになり、実用的な速度は出ません。

7B（70億パラメータ）モデル： 最低8GB〜12GBのVRAMが必要。
13B〜14B（130億〜140億パラメータ）モデル： 最低12GB〜16GBのVRAMが必要。
70B（700億パラメータ）モデル： 量子化（後述）しても最低40GB〜48GBのVRAMが必要。

GPU性能（CUDAコア・Tensorコア）：モデルを「動かす速さ」

VRAMにモデルが収まった後、実際に文字を生成する速度（Token/sec）を決定するのが、GPUの演算性能です。RTX 4090のようなハイエンドGPUを使えば、1秒間に数十トークンという爆速で回答が生成されますが、RTX 3060のようなミドルレンジでは、人間が読むスピードに近い速度になります。

結論： ローカルLLMにおいては、「まずはVRAM容量を確保し、その予算内で最大のGPU性能を選ぶ」というのが鉄則です。

2. 「量子化」という魔法：なぜメモリ容量が重要なのか

ローカルLLMを語る上で欠かせないのが「量子化（Quantization）」という技術です。通常、モデルの重みは16bit（FP16）で保持されますが、これを4bitや8bitに圧縮することで、精度をほぼ維持したままVRAMの使用量を劇的に減らすことができます。

例えば、Llama 3 8Bモデルをそのまま動かすと約16GBのVRAMが必要ですが、4bit量子化（GGUFやEXL2形式）を行えば、約5.5GB程度で動作可能です。これにより、ミドルレンジのビデオカードでも最新AIが動かせるようになります。

しかし、パラメータ数が大きい「70B」クラスのモデルを動かそうとすると、4bit量子化しても約40GBのVRAMが必要です。このクラスを動かせるかどうかが、ホビーユーザーとプロフェッショナルなAI開発者の境界線となります。

3. GPU選定ガイド：予算と目的別のおすすめモデル

現在の市場で、ローカルLLM用途に最適なGPUをピックアップしました。NVIDIA製品が圧倒的に有利なのは、AIライブラリの標準である「CUDA」が利用できるためです。

【エントリークラス】RTX 3060 12GB / RTX 4060 Ti 16GB

「まずは安価に始めたい」という方に最適な選択肢です。特にRTX 3060 12GBは、中古市場でも安価でVRAMが12GBあるため、7B〜14Bクラスのモデルを快適に動かせます。RTX 4060 Tiの16GB版は、省電力で16GBのVRAMを確保できるため、将来性も高い選択です。

【ミドル〜ハイエンド】RTX 4070 Ti SUPER 16GB / RTX 4080 SUPER 16GB

最新のAda Lovelace世代は生成AIの処理性能が非常に高いです。VRAMは16GBと据え置きですが、推論速度（生成速度）が格段に上がります。14Bクラスのモデルを「一瞬」で出力させたい場合に適しています。

【究極の選択】RTX 4090 24GB

コンシューマー向けで最強のGPUです。24GBという広大なVRAMと圧倒的な演算能力により、ほとんどの量子化された中規模モデルを最高速で動かせます。AI画像生成（Stable Diffusion）との兼ね合いも考えるなら、これ以上の選択肢はありません。

【上級者の裏技】RTX 3090 24GB（中古）の2枚挿し

実は、ローカルLLMコミュニティで最も人気なのが「RTX 3090の中古」です。RTX 4090と同じ24GBのVRAMを持ちながら、中古価格は半額以下。これを2枚並列（Multi-GPU）で動作させることで、VRAM合計48GBを確保し、Llama 3 70Bモデルをネイティブ（あるいは高ビット量子化）で動作させることが可能になります。

4. CPUとシステムメモリ（RAM）の優先順位

GPUに目が行きがちですが、他のパーツも重要です。

CPUの役割

GPUで動かす場合、CPU負荷はそれほど高くありません。ただし、PCI Expressのレーン数や帯域幅（Gen4以上推奨）がボトルネックにならないよう、Intel Core i7/i9やRyzen 7/9クラスを選んでおくと安心です。また、GPUに収まりきらない巨大なモデルを動かす場合、CPUとメインメモリで推論を行う「llama.cpp」等のツールを使うことになります。その場合は、CPUのシングルスレッド性能とコア数が重要になります。

メインメモリ（RAM）は最低32GB、できれば64GB以上

VRAMから溢れたデータを処理するため、あるいはモデルのロードをスムーズにするために、メインメモリは余裕を持って搭載しましょう。DDR5メモリであれば帯域が広いため、CPU推論時の速度低下を抑えられます。70BクラスをCPUで動かすことを視野に入れるなら、128GB積むことも珍しくありません。

5. 電源ユニットと冷却：24時間稼働を支える基盤

AIの推論中はGPUがフルパワーで稼働し、大量の電力を消費し、熱を発します。

電源ユニット： RTX 4090や3090 2枚挿しを想定するなら、1200W〜1500Wの「80PLUS PLATINUM」以上の効率を持つ電源が推奨されます。
ケースと冷却： 長時間の推論を行うと、VRAMの温度（Junction Temperature）が100度近くまで上昇することがあります。エアフローの優れた大型のPCケースと、信頼性の高いファン（Noctua等）への換装を検討してください。

6. 構成例：予算別ベストプラクティス

構成タイプ	推奨GPU	VRAM計	ターゲットモデル
コスパ重視	RTX 3060 12GB	12GB	Llama 3 8B (4-8bit)
バランス型	RTX 4060 Ti 16GB	16GB	Mistral 7B / Command R
ハイエンド単体	RTX 4090 24GB	24GB	Llama 3 8B (Full) / 30Bクラス
本格AI開発	RTX 3090 24GB ×2枚	48GB	Llama 3 70B (4bit)