Googleが今回Gemma 4を公開した(2)

3060 12GB 本地跑下来,26B A4B 才是更现实的那个

ランキングだけを見ると、一番心が動くのは間違いなく 31B です。 しかし、実際にマシンを前にすると、やはりアップグレードされていない RTX 3060 12GB の方が、判断はすぐに変わります。どう言えばいいか、ローカルにデプロイするということは、最後に一番派手なものが勝つのではなく、長く一緒にいられそうなものを選ぶことなんです。私にとっては、今回まず試す価値があるのは 31B ではなく、26B A4B です。

前回の記事 GoogleがGemma 4を公開した件(一):急いでローカルに動かす前に、モデル名とプロトコルを理解すべき では、リリースとプロトコルについて説明しました。今回の記事ではローカルでの体験そのものに焦点を当てています。最後の記事では GoogleがGemma 4を公開した件(三):VRAM不足でなぜ急落するのか、Macはなぜバックアップになり得るのに速くないのか を続けます。

なぜ先に「26B A4B」を試すのか

理由は実はかなり現実的、つまりハードウェアの制約によるものです。 「31B」はもちろん強力で、公式ランキングやコミュニティからの初期フィードバックも非常に高いです。しかし、それを「RTX 3060 12GB」のようなマシンに載せると、問題はすぐに「どれだけ強いか」から「待つ価値があるか」へと変わってきます。モデルやキャッシュがシステムメモリに退避してしまうと、速度が急激に落ちてしまうことがあり、この件については第3弾で詳しく解説します。 「26B A4B」は違います。 総パラメータ数は「25.2B」ですが、実際にトークンごとにアクティブになるのは約「3.8B」程度です。平たく言えば、これは今回のGemma 4の中で、「ローカルユーザー向けに特別に用意された」モデルと言えます。 ですから、もしあなたのマシンが私と同じような、コンシューマーグレードの古いグラボであるなら、判断はシンプルになります:

  • ランキングを見たいだけなら、「31B」を試す
  • 本格的に長期でローカルに使いたいなら、まず「26B A4B」から始める

五芒星の問題、今回はついに誰かが私が罠を仕掛けていることに気づいた

私自身がずっと持っている、かなり原始的なテスト問題があります。モデルに C++ コードを書いて、コンソールに五芒星を出力させるというものです。

この問題は冗談のように見えますが、実際には結構厄介です。なぜなら、多くのモデルはこれを純粋な数学的な描画問題だと誤解し、座標系や三角関数、ループ処理などを持ち出してきてしまい、最終的にテキストコンソール上に、全く見づらい文字の塊を出力してしまうからです。

去年の小規模パラメータのオープンソースモデルの多くが、この点でつまずきました。

しかし、今回 Gemma 4 の最初の反応は、逆に私を驚かせました。すぐに理解したふりをするのではなく、制約条件を先に認識し、以下の判断を出してくれたのです:

純粋なテキストコンソール(Console)上で、正確な幾何学的構造を持つ五芒星を数学的なロジックだけで描画するのは非常に複雑です(座標変換やピクセル充填が関わってきます)。最も古典的で視覚的に効果的な方法は、ASCII Art(文字アート)を使用することです。

五芒星の問題、今回はついに誰かが私が仕掛けた罠を理解してくれた

端的に言うと、まず問題の背後にある環境的な制約を理解した点だ。コンソールはキャンバスではなく、文字グリッドもピクセルグリッドではない。先に「どうすれば安定して五芒星を出力できるか」を考え抜いてから、数学的な描画について語るべきだった。

そして、最初のバージョンではいきなりハードコーディングされた五芒星の文字列を提示した。 この行動は非常に的確だ。推論を見せるためではなく、まず問題を正しく解くことを優先した。

さらに驚いたのは、それがさらに進んでいくことだった

単にASCIIアートで止まっていただけなら、この問題はトラップを認識したとしか言えない。 私が高く評価したのは、その後も数学的な計算を要求し続けた際にも、それが失敗せず、むしろ幾何学的な関係性を文字のグリッド上にマッピングし、最終的に五芒星を算出した点だ。 これは「コードを書ける」ということではなく、この問題が実際には二層構造になっていることを理解している証拠だと考える。

  • 第一層:コンソール上で最も確実な答えは何か
  • 第二層:もし計算をしなければならない場合、どのように幾何学の問題を文字のグリッド上に落とし込むか 以前の多くのローカル小規模モデルは、最初から第二層に飛びつき、結局第一層ができていないことが多かった。Gemma 4 は今回、逆の手順を踏み、まず境界線を見極め、それからどう解くかを決定した。 私はこの点の方が、単体のベンチマークスコアよりも価値があると思う。

今回のコーディング能力の向上は、「賢くなった」だけではない

この五角星の問題が使いやすいのは、単に文法を問うものではないからです。 本当に試しているのは以下の点です:

  • 出力環境を先に理解できるか
  • 直感的な解法が不適切であることを認められるか
  • 「最適な表示効果」と「ユーザーによる強制計算要求」の間を切り替えられるか このような問題を正しく解けるということは、モデルが単にコードスニペットを補完するだけでなく、現実の制約を処理できる開発アシスタントらしくなり始めたことを示しています。 だからこそ、私にとって Gemma 4 の第一印象は、去年の小規模パラメータのオープンソースモデル群よりも格段に良いのです。昨年の多くのモデルは、チャットができる、補完できる、なんとかこなせるレベルでしたが、このような少し境界線を感じさせる問題に直面すると、脆さが露呈しがちでした。 今回、Googleはこの弱点を少なくとも補ってくれました。

この一文を翻訳すると、「Gemma 4 が全面的に引き継ぐ」と単純には言えない

あなたが以前指摘した点は非常に重要です。これまでローカルで翻訳を行う際によく Gemma を利用していましたよね。

この件は、Gemma 4 になると、実はそれほど直線的ではありません。なぜなら、Google は 2026 年 2 月に単独で TranslateGemma をリリースし、しかもそれは Gemma 3 のアーキテクチャをベースにしているからです。

これはどういう意味か? ということです。もしあなたがすでにローカルでの翻訳パイプラインを確立していて動いているなら、短期間で全てを Gemma 4 に切り替える必要はないかもしれません。特に、目的が非常に限定的で、単に安定した多言語変換だけを求めるシナリオにおいては、専用の翻訳モデルには依然として価値があります。

しかし、もしあなたが求めているのが、翻訳、質問応答、コード、一般的なテキストタスクなど、複数の用途を可能な限りカバーできるローカルモデルセットであるならば、26B A4B のようなより万能なアプローチの方がスムーズでしょう。

これが最も特化しているわけではないかもしれませんが、「とりあえず動く、十分なメインストリームモデルが欲しい」という現実的な選択肢に近いと言えます。

なぜ第2回で「31B」を褒め続けたくないのか

「31B」がダメだからというわけではない。むしろ、良すぎるからこそ、注意が逸れやすいのだ。 ずっと「31B」のベンチマークスコアばかり見ていると、「強力なモデルは本当にすごい」という記事になりがちだ。しかし、ローカル環境で最も怖いのは、そういった謳い文句である。なぜなら、あなたが毎日使い続けるかどうかを決定するのは、ランキングではなく、以下の点だからだ:

  • 起動が遅すぎないか
  • 回答速度が著しく落ちないか
  • 長いコンテキストを扱うとすぐに体験を台無しにしないか
  • 自分自身のマシンで本当に支えられるか 「3060 12GB」のようなマシンでは、これらの現実的な問題の方が、ランキングよりもずっと重要だ。 そのため、第2回の締めくくりはシンプルにした。 「31B」は見る価値があるが、「26B A4B」は使う価値がある。ローカルユーザーにとって、この二つの文は全くの別物なのだ。

私のローカルでの第一印象

今回の実測感触を一言でまとめると、それは以下の通りです。 Gemma 4 はついにシーンを考慮できるローカルモデルになり始めた。 特に 26B A4B がそうですね。これはベンチマーク表を飾るためのモデルというよりは、古いマシンやコンシューマー向けのグラフィックボード、ローカルでの長期利用といった現実的な制約の下では、かえって真の主力選択肢のように感じられます。 少なくとも今回の五角星テストに関しては、Googleは合格点を超えました。

参考資料

作成上の注記

元のプロンプト

$blog-writer Googleが1年ぶりにGemma4モデルをリリースしました。いつものように、ローカルでのデプロイを試します。使用するのはアップグレードされていないデスクトップPCに搭載されている3060 12GBのNVIDIAグラフィックボードです。今回は初出陣でしたが、以前よく使っていたGemma3のアップグレード版が見つかりませんでした。しかし、類似のバージョンであるGemmaE4bというものがあるので、まずこれを検索して紹介してください。今回リリースされた全モデルについて、含まれる略語アルファベットがそれぞれ何を意味するのかを説明し、さらにオンライン上のGemma4に関するレビューを検索してください。重要な点として、今回のGoogleの更新によりモデルのプロトコルが変更され、利用時の制限が緩和されました。最大の驚きは、私がよく使うテスト問題です。「C++コードを書いて、コンソールに五芒星を出力しなさい」というものです。去年の小規模パラメータのオープンソースモデルではこの問題をクリアできませんでしたが、Googleはこの回で成功させました。最初の回答は私の予想を完全に超えており、私の意図(トラップ)を理解していました。コンソールに出力する五芒星は非常に面倒なので、直接アスキーアート形式の文字列としてハードコーディングし、コンソールに直接出力しました。原文は以下の通りです:「純粋なテキストのコンソール(Console)で数学的なロジックだけで正確な幾何学的構造を持つ五芒星を描画するのは非常に複雑であるため(座標変換やピクセル充填が関わる)、最も古典的で視覚効果が高い方法はASCII Art(文字アート)を使用することです。私が計算を強制的に要求した後も、それは成功しました。数学的な計算を通じて、五芒星を描画することができました。」以前はローカルでの翻訳タスクにGemma4をよく使っていました。現在ブログにある多くの過去の記事の多言語版がこのようにして作られています。ローカルテストに使用したのは:gemma-4-26b-a4bモデルで、31bバージョンは本当に遅すぎます。しかし、レビューを見ると31bの効果は非常に良く、ランキングの成績も優れています。またフォーラムを閲覧していて気づいたのですが、VRAMが不足している場合、モデルパラメータを上げると生成トークンの速度が急激に低下します。この理由を説明してください。Macではこのような問題が発生しないのはなぜですか?ユニファイドメモリを使用する技術的な理由を説明してください。さらに、速度が必要な場合は、やはりNVIDIAの大容量VRAM搭載グラフィックボードが必要です。Macのソリューションはバックアップとしては機能しますが、速度が出ません。今回の内容は多岐にわたるので、シリーズ記事に分割すべきか評価してください。

ライティングの骨子要約

  • 第2編はローカル体験のみに留め、第1編の総括や第3編のVRAM原理の説明は行わない。
  • まず「なぜ先に 26B A4B を実行するのか」という明確な判断を提示し、その後で五芒星テストを展開する。
  • 五芒星の問題が主軸となるのは、ベンチマークスコアよりもコーディングシナリオにおける限界点をよりよく示せるからである。
  • 翻訳タスクは独立したセクションとして扱い、Gemma 4 が全ての旧プロセスを線形的に引き継いでいるという印象を避ける。
金融ITプログラマーのいじくり回しと日常のつぶやき
Hugo で構築されています。
テーマ StackJimmy によって設計されています。