AI・機械学習
2分
GPT-OSS-120Bを128GBメモリのMacで動かしてみた動画を見て思ったこと
YouTubeで、「GPT-OSS-120Bを128GBメモリを積んだMac(Apple Silicon/ユニファイドメモリ構成)で動かしてみた」という動画を見た。 ついに120Bクラスの大規模モデルをローカルで動かす時代が来たのか――そんな感慨を覚えた。 動画内で紹介されていた環境は、 Appl...
2025/09/08 09:00
むらかみ

YouTubeで、「GPT-OSS-120Bを128GBメモリを積んだMac(Apple Silicon/ユニファイドメモリ構成)で動かしてみた」という動画を見た。
ついに120Bクラスの大規模モデルをローカルで動かす時代が来たのか――そんな感慨を覚えた。
動画内で紹介されていた環境は、
Apple Silicon Mac Studio M4 Max(ユニファイドメモリ128 GB)
モデル:GPT-OSS-120B(量子化・メモリ最適化済みと思われる)
ユニファイドメモリを活かして、
CPU・GPU・NPUが同じメモリ空間を共有しながらモデルをロード・推論していた。
一般的なVRAM 16 GB構成では到底動かないサイズだが、128 GBメモリ構成ならかろうじて動作可能という実例が報告されている。
YouTubeの検証では、確かに推論自体は動作していた。
ただし「コンテキスト長が増えると速度低下が激しい」とのこと。
メモリもVRAMも大量に消費するため、どちらか一方の性能だけでは支えきれず、“ユニファイドメモリで補う” という仕組みが鍵になっているようだ。
とはいえ、20Bや8Bモデルよりも明らかに思考の構成力が高い。
「考えを整理して答える」感覚が一段深く、
論理展開や説明の筋道が非常にしっかりしている。
まさに“大規模モデルらしい思考”をローカルで体感できるレベルだ。
もちろん、誰にでも再現できるわけではない。
メモリ128 GB+最適化モデルという構成が必須。
モデルの量子化や軽量化を誤るとロードすらできない。
Apple Silicon環境ならではの制約もあり、
Windows+GPU(VRAM主体)で動かす場合は別の最適化が必要になる。
要するに「動く」ことは確認できたが、
快適に使えるかどうかは別問題という印象だ。
それでも――
この動画を見て思ったのは、「ローカル大規模LLM時代」が確実に近づいているということ。
数年前なら120Bパラメータのモデルを動かすには巨大なGPUクラスタが必要だった。
それが今や、1台のMacで(しかも個人レベルで)試せる時代になったのだ。
実用レベルで快適に使うには、
まだ「メモリ量」「最適化モデル」「環境チューニング」という壁がある。
それでも、挑戦する価値は十分にある。
近い将来、こうしたモデルがより軽量化され、誰でも手元で扱えるようになる――
その日が待ち遠しい。
ついに120Bクラスの大規模モデルをローカルで動かす時代が来たのか――そんな感慨を覚えた。
動画内で紹介されていた環境は、
Apple Silicon Mac Studio M4 Max(ユニファイドメモリ128 GB)
モデル:GPT-OSS-120B(量子化・メモリ最適化済みと思われる)
ユニファイドメモリを活かして、
CPU・GPU・NPUが同じメモリ空間を共有しながらモデルをロード・推論していた。
一般的なVRAM 16 GB構成では到底動かないサイズだが、128 GBメモリ構成ならかろうじて動作可能という実例が報告されている。
YouTubeの検証では、確かに推論自体は動作していた。
ただし「コンテキスト長が増えると速度低下が激しい」とのこと。
メモリもVRAMも大量に消費するため、どちらか一方の性能だけでは支えきれず、“ユニファイドメモリで補う” という仕組みが鍵になっているようだ。
とはいえ、20Bや8Bモデルよりも明らかに思考の構成力が高い。
「考えを整理して答える」感覚が一段深く、
論理展開や説明の筋道が非常にしっかりしている。
まさに“大規模モデルらしい思考”をローカルで体感できるレベルだ。
もちろん、誰にでも再現できるわけではない。
メモリ128 GB+最適化モデルという構成が必須。
モデルの量子化や軽量化を誤るとロードすらできない。
Apple Silicon環境ならではの制約もあり、
Windows+GPU(VRAM主体)で動かす場合は別の最適化が必要になる。
要するに「動く」ことは確認できたが、
快適に使えるかどうかは別問題という印象だ。
それでも――
この動画を見て思ったのは、「ローカル大規模LLM時代」が確実に近づいているということ。
数年前なら120Bパラメータのモデルを動かすには巨大なGPUクラスタが必要だった。
それが今や、1台のMacで(しかも個人レベルで)試せる時代になったのだ。
実用レベルで快適に使うには、
まだ「メモリ量」「最適化モデル」「環境チューニング」という壁がある。
それでも、挑戦する価値は十分にある。
近い将来、こうしたモデルがより軽量化され、誰でも手元で扱えるようになる――
その日が待ち遠しい。
むらかみ
AI・機械学習分野の専門家として、企業のDX推進をサポートしています。
