個人ブログで、RTX 5080とRTX 3090を同じPCに載せて、Qwen 3.6 27B Q8を80 tok/s超で動かしたセットアップが紹介された。
大手ラボの新モデル発表ではない。けれど、個人でAIツールや小さなプロダクトを作る側にはかなり生々しい話だ。APIを叩くたびに課金される世界から、最初にGPUを買ってローカルで回す世界へ、少しずつ現実味が出てきている。
もちろん、誰でも真似できる簡単セットアップではない。BIOS、PCIe、NVIDIAドライバ、モデル量子化まで絡む。自分もこのレベルの自作GPU環境は触ったことがないので、正直かなり玄人寄りに見える。
- 一次ソース: https://imil.net/blog/posts/2026/rtx-5080-+-rtx-3090-setup-80+-tok-s-on-qwen-3.6-27b-q8/
この記事をわかりやすく
この記事をわかりやすく。 今回の話は、RTX 5080 (= NVIDIAの新しめの高性能GPU) と RTX 3090 (= 24GB VRAMを積んだ中古でも人気のGPU) を1台のPCに混在させ、Qwen 3.6 27B Q8 (= Alibaba系の27B規模モデルを高めの精度で圧縮したもの) をローカルLLM (= 自分のPC上で動かすAIモデル) として動かした、という実験だ。
tok/s (= 1秒あたりに生成できるトークン数) は80超。以前はQ4 quant (= モデルを軽くするための4bit量子化) で30 tok/s前後、MTP (= 複数トークンをまとめて予測して高速化する仕組み) を使って50〜60 tok/sだったらしいので、80 tok/s超は体感でかなり違うはずだ。
公式トーンは「古いGPUと新しいGPUを組み合わせても、工夫すればローカルAI環境はかなり戦える」という実験共有。具体的にやっていることは、PCIe x16を2本のx8に分けられるマザーボードを選び、CSM (= 古い起動方式との互換機能) を切り、Above 4G Decoding (= 大容量GPUメモリを正しく扱う設定) と ReSize BAR (= CPUがGPUメモリへ効率よくアクセスする機能) を有効にして、異種GPUを同時に使えるようにする作業だ。素人向けではないが、クラウドAPIだけに頼らない流れとしては見逃せない。
個人にとっての意味: 自分の動きにどう効くか
個人にとっての意味: 自分の動きにどう効くか。 自分にとっては「機会」より先に「罠」が見えた。中古3090を買えばAPI代から逃げられる、という話は魅力がある。でも、BIOS設定やドライバで詰まった瞬間、ノーコード寄りの人は普通に数日溶ける。ここを楽しめる人と、事業の時間を削られる人で分かれる。
Claude Code Maxユーザー目線。 Claude Code Max (= Anthropicのコーディング支援を厚めに使う有料プラン) を使う側から見ると、ローカルLLMは完全な置き換えではない。設計相談や難しいリファクタはまだクラウドの強いモデルに投げたい。ただ、ログ整形、下書き、単純なコード生成、ローカル文書検索みたいな作業をQwen側に逃がせるなら、使用量の圧迫を減らす補助輪になる。
個人builder目線。 何かプロダクトを作っている人には、プライバシーと原価の話が大きい。ユーザーのデータを外部APIに投げず、固定費で推論できるなら、ニッチな業務ツールを安く提供しやすい。反応でも「中古3090 + 27B級モデルが、月額API代から逃げる現実的な甘いスポット」という見方が出ていた。これは分かる。
ノーコード系AI副業狙い目線。 まだ作っていない人がいきなりGPUを買うのは保留判断でいい。Lovable (= 文章からWebアプリを作るAI開発ツール) や Bolt (= ブラウザ上でアプリを作れるAI開発環境) で需要確認してからで遅くない。別の反応では「クラウド費用の損益分岐が数カ月」という話もあったが、それは毎月かなり使う人の計算だ。副業初期なら、まず売れるかを見た方がいい。
明日からのアクション: これを糧にするには
明日からのアクション: これを糧にするには。 いきなりGPUを買うより、まず自分のAI利用がローカル化に向いているか切り分ける。速度より、毎月の外部API依存をどこまで減らせるかを見る。
- すぐやる 今週中にOllama (= ローカルLLMを簡単に動かすツール) を0円で入れ、Qwen 2.5系やGemma系の軽いモデルを手元PCで30分だけ試す。
- すぐやる 3日以内にOpenAI APIやClaudeの利用明細を見て、月$20、$50、$100のどこを超えているかメモする。GPU購入判断はそこから。
- 検討 1カ月以内に中古RTX 3090を探すなら、予算はだいたい$500〜$1,750の幅で見る。安さだけでなくVRAM 24GBと電源容量を確認する。
- 検討 2週間以内にLM Studio (= GUIでローカルモデルを動かせるアプリ) を0円で試し、記事下書き、コード要約、CSV整形のうち1つをローカル処理に移す。
- 保留判断 まだ売上ゼロなら、今月はGPUを買わない。LovableやBoltの有料枠に$20〜$50だけ使い、先に小さな業務ツールの需要を確認する。
- 罠の回避 今週中に「ローカルLLMでやる作業」と「ClaudeやOpenAIに投げる作業」を分ける。難しい設計まで全部ローカルで済ませようとすると、品質で時間を失う。
- 検討 逆張りの機会として、来月までに「APIにデータを出したくない小規模事業者向け」のローカルAI導入メニューを考える。初期相談0円、検証作業は数万円台からなら入り口を作りやすい。
この話は、全員が自作GPUマシンを組むべきという意味ではない。自分の感覚では、ローカルLLMは「クラウドAIの代替」ではなく「原価を下げる裏方」から入るのが現実的だ。副業で見るなら、GPUそのものより、外部APIに出せないデータを扱える点に値段がつく。