「ベンチマークではね」——イーロン・マスクは6月18日、中国のAIモデルがAnthropicに追いついたという報道に対して、そうコメントした。本当の実用性で測れば、追いつくのは2027年の第1四半期でも「非常に印象的」だろう、と。
だが、数字はすでに出ている。そして、その数字はマスクの余裕を許さない内容だった。
バグ探しで「Claude超え」の衝撃
セキュリティツール企業のSemgrepが公開したベンチマーク結果が、業界に波紋を広げている。テスト対象はIDOR(安全でない直接オブジェクト参照)と呼ばれる、Webアプリケーションに多い脆弱性の検出能力だ。
結果を見ると、中国・智譜AI(Zhipu AI、ブランド名Z.ai)のGLM-5.2がF1スコア39%を記録し、Claude Code(Opus 4.6ベース)の37%を上回った。さらに注目すべきは、Opus 4.8を使ったClaude Codeが28%にとどまっている点で、モデルが新しければ強いとも限らないことを示している。
ちなみにトップはSemgrep自身のマルチモーダルツール(GPT 5.5ベース)で61%。ツールの作り込みがモデル単体の性能差を大きく上回ることも、このベンチマークの重要な教訓になっている。
「6分の1」の価格でフロンティア級
GLM-5.2の技術的な中身も興味深い。パラメータ総数は約7500億だが、MoE(Mixture-of-Experts)アーキテクチャを採用しており、推論時に動くのは400億パラメータだけ。コンテキストウィンドウは100万トークンに対応する。
コーディング系のベンチマークでは、Terminal-Bench 2.1で81.0点(Opus 4.8は85.0点)、SWE-bench Proで62.1点と、汎用タスクではまだAnthropicやOpenAIに差をつけられている。だが、サイバーセキュリティという特定領域で逆転が起きたことのインパクトは大きい。
しかも価格はフロンティアモデルの約6分の1。脆弱性1件あたりの発見コストは約0.17ドル(約26円)だという。
最大の脅威は「オープンウェイト」であること
AnthropicのClaudeやOpenAIのGPTと決定的に違うのは、GLM-5.2がオープンウェイトモデルだという点だ。誰でもダウンロードでき、手元のハードウェアで動かせて、監視なしに改変できる。
米国がAI輸出規制を強化し、先端モデルへのアクセスを国家安全保障上の理由で制限しようとしているなかで、中国勢がオープンウェイトで同等の能力を提供し始めたことは、規制の前提そのものを揺るがす。規制で囲い込もうとしたモデルの能力が、無料で世界中に公開されているわけだ。
「追いついてない」は通用するか
Zhipu AIの創業者・唐杰(タン・ジエ)は、マスクの「2027年Q1」発言に対して「そんなにかからない」と応じた。汎用ベンチマークではまだ差があるとはいえ、特定の実用領域で勝ち始めているのは事実であり、Wall Street Journalも6月28日付でこの動きを大きく報じている。
ベンチマーク上の数字がそのまま実戦の能力を意味するわけではない。だが、サイバーセキュリティのバグ検出という、現実のソフトウェア開発に直結する領域で、価格6分の1のオープンモデルが米国のフロンティアモデルを上回ったという事実は、「中国はまだ追いついていない」という言い分の賞味期限が切れつつあることを示している。