いつも読んでいただき、ありがとうございます。
14インチ MacBook Pro M5 Proモデルが届いたので、以前から使っていた15インチ MacBook Air M5モデルと、ローカルLLM性能を比較してみました。
今回比較したのは、
- MacBook Pro M5 Pro(CPU18コア / GPU20コア / メモリ64GB)
- MacBook Air M5(CPU10コア / GPU10コア / メモリ24GB)
です。
結論から言うと、やはりローカルLLM用途ではMacBook Proがかなり強かったです。
特に、
- 出力速度
- 推論速度
- 読み込めるモデルサイズ
この差はかなり大きいと感じました。
まず試したのは「Qwen3.6-27B」
最初に試したのは、比較的大型なモデルである「Qwen3.6-27B」です。
質問内容としては、
- 論理推論
- 地域知識
- 創作
を含む、そこそこ総合力が必要そうな内容を投げました。
質問内容は以下。
これからいくつかの質問をします。以下の指示に従って回答してください。
- 【推論・論理】
ある農夫が、オオカミ、ヤギ、キャベツを連れて川を渡ろうとしています。
一度にボートに乗せられるのは農夫と「1つのアイテム(または動物)」だけです。
「オオカミとヤギ」を一緒にするとヤギが食べられ、「ヤギとキャベツ」を一緒にするとヤギがキャベツを食べてしまいます。
誰も食べられることなく、安全にすべてを川の向こう岸に渡すための手順をステップ・バイ・ステップで説明してください。- 【事実確認・日本の地域知識】
神奈川県横浜市西区のみなとみらい地区にある、有名な遊園地の名前と、そのシンボルとなっている大観覧車の名前を教えてください。また、その観覧車が1周するのにかかるおよその時間を答えてください。- 【創造性・言語運用】
「桜」と「時計」という2つの単語を必ず使って、短くノスタルジックな物語を150文字以内で作成してください。
結果は想定通り
MacBook Pro M5 Pro
- 14.66 tokens/sec
- 思考時間:約1分36秒
MacBook Air M5
- 5.87 tokens/sec
- 思考時間:約6分48秒
結果として、
- 出力速度は約2.5倍
- 思考時間は約4.3倍
というかなり大きな差になりました。
実際かなり体感差がある
tokens/secの差も当然感じますが、それ以上に「考え始めるまでの待ち時間」の差がかなり大きかったです。
MacBook Airでも動作自体はするのですが、
「待たされる感」
がかなりあります。
一方MacBook Proは、比較的すぐに推論へ入る感じがありました。
ローカルLLMは、単純なベンチマーク以上に、
- 待ち時間
- 推論開始速度
- 長時間の安定性
が快適性へ直結するので、この差はかなり大きいです。
ただし、小型モデルでは不思議な結果も
次に、もう少し軽いモデルでも試しました。
すると、ちょっと面白い結果になりました。
GPT-OSS-20B
MacBook Pro
- 69.23 tokens/sec
- 思考時間:3.08秒
MacBook Air
- 37.28 tokens/sec
- 思考時間:1.13秒
なぜかMacBook Airの方が“考え始めるまで”は速いという結果になりました。
ただし、生成速度そのものはMacBook Proの方が圧倒的に速いです。
Qwen3.5-9Bでも謎挙動
MacBook Pro
- 35.89 tokens/sec
- 思考時間:約1分3秒
MacBook Air
- 18.67 tokens/sec
- 思考時間:約12.65秒
こっちも試行時間はなぜかAirの方が速い。
正直、ローカルLLMは、
- モデル構造
- キャッシュ
- Metal最適化
- 推論エンジン
- メモリ配置
などでかなり挙動が変わるので、一概には言えない部分があります。
ただ、最終的な出力速度はやはりProが強い
色々試して感じたのは、
「最終的な生成速度はやはりMacBook Proがかなり強い」
ということでした。
これは単純に、
- GPUコア数
- 冷却性能
- メモリ容量
- メモリ帯域
の差が大きいと思います。
GPU20コアはやはり強い
今回のMacBook ProはGPU20コア構成です。
MacBook Airの2倍のコア数を持ち、ローカルLLMではこの差がかなり効いている印象があります。
さらにMacBook Proはファン搭載なので、高負荷を長時間維持しやすいです。
Airはどうしても熱による制限が入りやすいと思われます。
64GBメモリの恩恵がかなり大きい
今回かなり大きかったのが、64GBメモリです。
これによって、MacBook Air 24GBでは読み込めないモデルも扱えるようになりました。
読み込めた大型モデル
Qwen3.6-32B-A3B
- 58.90 tokens/sec
- 思考時間:約29.93秒
unsloth / Llama-4-Scout-17B-16E-Instruct-GGUF
- 26.00 tokens/sec
- 思考時間:約15.88秒
この辺りのモデルは、24GBメモリでは大き過ぎてメモリ上に全て展開することができないです。
やはりローカルLLMでは、
「まずモデルを読み込めるかどうか」
がかなり重要になります。
パラメータ数が多ければ良いわけでもない
ただ、ここで難しいのが、
「結局どのモデルが一番使いやすいのか問題」
です。
確かにパラメータ数が多いモデルは賢い傾向があります。
ただ実際には、
- 推論速度
- 待ち時間
- VRAM(統合メモリ)使用量
- 実用性
とのバランスもかなり重要です。
ローカルLLMは“速度”がかなり重要
個人的に使っていて感じるのは、
「少し性能が落ちても速い方が使いやすい」
ケースがかなり多いことです。
特に対話用途では、
- 待たされない
- すぐ返ってくる
- ストレスが少ない
これがかなり重要です。
重要なのはGPUとメモリ帯域かもしれない
今回比較して感じたのは、ローカルLLMでは、
- GPU性能
- メモリ容量
- メモリ帯域幅
がかなり重要だということでした。
そう考えると、現状かなり強いのはやはりM5 Max系だと思います。
M5 Max + 128GBは“ローカルLLM特化機”としてかなり強そう
本気でローカルLLMを使い込むなら、
「M5 Max + 128GB」
はかなり理想的な構成に思えます。
もちろん価格は非常に高いです。
100万円近くになります。
ただ、
- AI開発
- ローカルLLM
- 画像生成
- 動画生成
- 業務効率化
などで明確な目的があるなら、十分ペイできる可能性もあります。
とはいえ、M5 Proでもかなり強い
一方で、今回使っていて感じたのは、
「M5 Proでも十分かなり強い」
ということでした。
少なくとも、
- 20B前後
- 30B級の軽量量子化
- 日常的な対話用途
であれば、かなり快適です。
今後は“モデル進化”も重要になりそう
あと個人的に面白いと思っているのは、
「ハードウェア進化」よりも、「モデル効率化」の進化です。
最近は、
- 小型高性能モデル
- MoE
- 推論最適化
- 量子化
などがかなり進化しています。
そのため、
「巨大メモリがないと何もできない」
時代ではなくなっていく可能性もあります。
まとめ
今回MacBook Pro M5 ProとMacBook Air M5でローカルLLMを比較してみましたが、やはりProはかなり強かったです。
特に、
- 出力速度
- 推論速度
- 長時間性能
- 大型モデル対応
などで差を感じました。
ただ一方で、MacBook Airでも軽量モデルなら十分実用的です。
そのため、
- 本格的にローカルLLMをやりたい → MacBook Pro (M5 Pro / M5 Max)
- 軽めに試したい → MacBook Air(できればメモリ24GB以上)
という住み分けはかなりアリだと思います。
個人的には、ローカルLLM用途では、
「GPUとメモリは正義」
という結論になりつつあります。
今後メモリ価格がさらに高騰する可能性があるため、必要な方は早めの購入をオススメします。












コメント