チームのブログ
64GBのMac miniでローカルLLMは実用になるのか? Ollamaで27Bモデルを動かして測ってみた
Ko Ohashi

こんにちは、喋ラボの大橋です。
最近、AIのエージェント的な使い方が広がってきましたが、それと一緒に「トークン、めちゃくちゃかかるな…」という声も増えてきました。クラウドのAIをエージェントとしてガンガン回すと、ツールを呼ぶたびにコンテキストを何度も読み直すので、利用料がぐっと膨らみます。
じゃあ、自分のセルフホストのモデルを使えばどうか。ローカルで動かせば、かかるのはほぼ電気代だけのはずです。ということで、64GBメモリを積んだMac miniを買ったので、これで実際に試してみました。結論を先に言うと、いくつか「最新版ならではの落とし穴」はあるものの、27Bクラスのモデルが十分実用的に動きました。順番に見ていきます。
元々Tomasz Tunguzがブログの中で1ヶ月で元が取れるみたいな記事を書いていて、本当にそんなことある?と思っていたのが元ネタです。27Bクラスのモデルであればそこそこやれる手応えはありますが、OpenAIやClaudeのフロンティアモデルと比べてどの程度劣るのかは実験をして体感を得ていかないとなんとも…といったところなのが本音です。
Tomasz Tunguzの記事
https://tomtunguz.com/qwen-9b-matches-frontier-models/
※この記事は[YouTube動画](の内容を、あとから読めるようにまとめたものです。デモを無音で流していた部分は、画面に出ていた数字を文章で補っています。
まずはOllamaをインストール
ローカルでLLMを動かすツールは色々ありますが、今回は定番のOllamaを使います。インストールはとても簡単で、Ollamaのページにアクセスして、Macを選んでダウンロードするだけ。
ダウンロードしたファイルをダブルクリックして、Ollamaをアプリケーションにコピーする。これだけでインストール完了です。起動すると、もうこれだけで動いています。
ターミナルで状態を確認しましょう。ollama --version と打って、バージョンが出ればOK。今回は0.30系が入りました。
動作確認のために、軽くて使えるGemma 3 4Bを入れてみます。ダウンロードは3.3GBくらい。しばらく待ちます。入ったら、本当にシンプルに「ローカルで動いていることを一言で自己紹介して」と聞いてみると、「私はあなたのPC上で動作しているAIです」と返ってきました。クラウドには何も送らず、Macの中だけで動いています。終了するときは /bye と打てばOKです。
ここまでは本当に一瞬。問題はこの先、本格的なモデルを動かしたときです。
なぜMac miniなのか
理由はシンプルで、メモリが64GBと大量にあるからです。
Macのメモリはユニファイドメモリといって、GPUでも使えるんですよね。ただ、通常のメモリとしても使うので、64GB全部をディープラーニングに回せるわけではありません。それでも、ざっくり48GBくらいは使えるイメージです。
どのくらいのモデルでどのくらいメモリが要るか、ざっくりした目安があります。モデルだけで「パラメータ数 × 0.6GB」くらい。なので4Bなら2.4GB、9Bなら5.4GB、今回メインで使う27Bなら16GBくらい。これにプラスして、コンテキストの分が乗ります。
そう考えると、48GBあれば27Bは余裕。70Bもメモリにギリギリ乗りますが、コンテキストを長くするとエラーになっちゃうかな、という感じです。
この「実質48GB」を、もしNVIDIAで用意しようとすると大変です。RTX 4090を2枚挿して連結するとか、A6000を使うとか。そもそもカード単体が高いし、電源もめちゃくちゃ食うんですよね。一方Mac miniはユニファイドメモリなので、スピードは多少落ちる可能性はあるものの、30万円ちょっとで買えて、何より消費電力が少なくて音も出ない。ここがすごくいいんです。
落とし穴①:num_ctxは「上げる」より「適正化」
ここから最新版ならではの話です。
昔のOllamaは、コンテキストサイズのデフォルトが8000くらいと結構小さくて、これを増やさないと、1時間の会議の要約みたいに入力が長くなったときに、途中でコンテキストが足りなくなる、ということがありました。なので当時は「num_ctxを上げろ」が定石だったんです。
ところが今回 ollama ps で確認したら、なんとデフォルトが262144、つまり約25万(256K)という膨大な数値になっていました。結果として、27Bのモデルはモデル自体が使うメモリは17〜18GBなのに、コンテキストの分まで含めると全体で35GB。倍くらいメモリを食っている状態です。
これが本当にデフォルト値なのか、48GBくらい使えるよという余裕を見て自動計算された数字なのかは、正直まだはっきりわかっていません。でも、ものすごく巨大になっているのは確かです。
1時間の会議なら、だいたい32K(32,000)もあれば十分。なので試しにコンテキストを小さくしてみました。8Kに下げると、SIZEは35GBから16GBまで下がりました。その差、19GB。
つまり今は、num_ctxは「上げる」ものというより、メモリに制限がある場合はむしろ意図的に小さくする=適正化するもの、という発想に変わってきています。空いた19GBを、もっと大きいモデルや別の用途に回せるわけですね。これは今回いちばんの気づきでした。
落とし穴②:Thinkingモードの暴走
もうひとつ、これが結構大きい落とし穴でした。
Ollamaは今、デフォルトでThinkingモード(答える前に思考を挟むモード)がオンになっています。これがどうも暴走するんですよね。1時間ぶんくらいのテキストを「300字くらいにまとめて」とお願いしたら、最大で12分くらいかかってしまいました。生成したトークンを見ると、なんと8000以上。300字の要約のはずなのに、です。
中身を覗くと、Thinkingが「一文字ずつ数えて、字数がずれていたらもう一回やる」みたいなことを延々と繰り返していて、これでレイテンシが爆発していました。これでは議事録ツールとして使えません。
そこでThinkingモードをオフにします。/set nothink と打つだけ。同じプロンプトをもう一度投げると…15秒で終わりました。生成トークンも175に収まって、出力もちゃんと300字程度の要約になっています。
ここで大事なのは、1秒あたりの生成速度(eval rate)は、オンでもオフでも約12トークンで変わっていないこと。27Bの素の速度は変わらないんです。Thinkingが大量のトークンを吐いていたせいで、12分かかっていただけ。最新のローカルモデルはThinkingがデフォルトでオンなので、ここを制御しないと暴走する、というのは大きな気づきでした。
サイズ別の速度
Thinkingをオフにして、サイズ別に速度を測ってみました。
4B → 1秒あたり 約54トークン
9B → 約36トークン
27B → 約12トークン
やっぱり小さいほうが速いですね。きれいにサイズと反比例しています。
ただ、会議の議事録をまとめるくらいの力量になると、やっぱり27Bくらいは欲しいんですよね。なので実際に使えるレベル感としては27Bかなと思っています。そして27Bでも、要約が15秒くらいで終わるなら、スピード的には十分実用の範囲内です。というかGPT-5.1とかよりスピードは早い気がします。
最後はお金の話:何ヶ月で元が取れるか
Mac miniは比較的安いとはいえ、30万円以上はかかります。これがどのくらいで回収できるのか、ざっくりシミュレーションしてみました。
比較対象は、今回クラウドのGPT-5.1。入力が100万トークンあたり約1.25ドル、出力が10ドルです。エージェント的にめちゃくちゃ使うと入力が圧倒的に多くなるので、実効で1Mあたり400円くらいかなと見積もっています。
Mac miniは買い切りなので、使えば使うほど、クラウドなら払っていたはずの差額が大きくなります。つまり、使うほど早く元が取れる。横軸が月に使うトークン量、縦軸が回収までの月数のグラフを描くと、右肩下がりのカーブになります。
エージェントでガンガン回して月に125Mトークン使うなら、半年もあれば回収できる計算です。さすがにそこまではいかないかもしれませんが、もし250M使うなら3ヶ月で回収。Tomasz Tunguzの話もまんざら嘘でもないですね。
ポイントは、買い切りなので一度元を取ったら、その後はずっと安いということ。もちろんクラウドの単価や使い方でガラッと変わりますが、コスト回収という意味でも、ローカルはアリだなという気がしています。
まとめ
今回やってみて、新しい発見だったのは2つです。
ひとつは、Ollamaのバージョンが上がって、コンテキストウィンドウのデフォルトがすごく大きくなっていたこと。「小さいのがデフォルトだから大きくしなきゃ」ではなく、むしろ「メモリに制限があるなら意図的に小さくする」時代になっていた、という気づきです。
もうひとつは、Thinkingモードの暴走。特に字数の指定があると、一文字ずつ数えてはやり直す、を延々と繰り返して、15秒で終わるところが10分以上かかってしまう。これは大きな発見でした。
ローカルLLMは今年のテーマでもあると思うので、これからも実験しつつ報告していきたいと思っています。
なお、今回の測定をもう少しきっちり詰めたテクニカルペーパーも準備中です。試行回数を増やした厳密な測定、出力品質の定量評価、そしてMLX(Apple Silicon専用の推論フレームワーク)との速度比較まで踏み込む予定なので、そちらもよければ。公開したらまたお知らせします。
ありがとうございました。
測定環境: Mac mini(ユニファイドメモリ64GB)/ Ollama 0.30系 / Qwen3.5 (4B/9B/27B)・Qwen3.6 (27B)。価格・クラウド単価・為替は2026年6月時点の概算です。測定に使ったデータはGitHubで公開しています(github.com)。

RTX 4060 8GB環境でGGUF Q4_K_MとAWQ INT4を日本語会議録タスクで実測比較。AWQ INT4はVRAM不足で起動不可、GGUFはJSON有効率100%を達成。速度・品質・メモリの実測データと実験コードを全公開。ローカルLLM導入を検討している方向け。
