GPT-OSS-120Bを128GBメモリのMacで動かしてみた動画を見て思ったこと

YouTubeで、「GPT-OSS-120Bを128GBメモリを積んだMac（Apple Silicon／ユニファイドメモリ構成）で動かしてみた」という動画を見た。
ついに120Bクラスの大規模モデルをローカルで動かす時代が来たのか――そんな感慨を覚えた。

動画内で紹介されていた環境は、
Apple Silicon Mac Studio M4 Max（ユニファイドメモリ128 GB）
モデル：GPT-OSS-120B（量子化・メモリ最適化済みと思われる）

ユニファイドメモリを活かして、
CPU・GPU・NPUが同じメモリ空間を共有しながらモデルをロード・推論していた。
一般的なVRAM 16 GB構成では到底動かないサイズだが、128 GBメモリ構成ならかろうじて動作可能という実例が報告されている。

YouTubeの検証では、確かに推論自体は動作していた。
ただし「コンテキスト長が増えると速度低下が激しい」とのこと。
メモリもVRAMも大量に消費するため、どちらか一方の性能だけでは支えきれず、“ユニファイドメモリで補う” という仕組みが鍵になっているようだ。

とはいえ、20Bや8Bモデルよりも明らかに思考の構成力が高い。
「考えを整理して答える」感覚が一段深く、
論理展開や説明の筋道が非常にしっかりしている。
まさに“大規模モデルらしい思考”をローカルで体感できるレベルだ。

もちろん、誰にでも再現できるわけではない。
メモリ128 GB＋最適化モデルという構成が必須。
モデルの量子化や軽量化を誤るとロードすらできない。

Apple Silicon環境ならではの制約もあり、
Windows＋GPU（VRAM主体）で動かす場合は別の最適化が必要になる。

要するに「動く」ことは確認できたが、
快適に使えるかどうかは別問題という印象だ。

それでも――
この動画を見て思ったのは、「ローカル大規模LLM時代」が確実に近づいているということ。

数年前なら120Bパラメータのモデルを動かすには巨大なGPUクラスタが必要だった。
それが今や、1台のMacで（しかも個人レベルで）試せる時代になったのだ。

実用レベルで快適に使うには、
まだ「メモリ量」「最適化モデル」「環境チューニング」という壁がある。
それでも、挑戦する価値は十分にある。

近い将来、こうしたモデルがより軽量化され、誰でも手元で扱えるようになる――
その日が待ち遠しい。

技術ブログ

GPT-OSS-120Bを128GBメモリのMacで動かしてみた動画を見て思ったこと

むらかみ