AIに長めの文章を頼むと、答えが上から少しずつ流れてくる。あの「ちょっと待たされる感じ」は、技術的にはAIが文字(トークン)を一つずつ生成しているために起きる。チャットでは味のある演出にも見えるが、サービスを運営する側からすると、これがコストとスピードの両方を圧迫する厄介な問題だった。
中国のAIスタートアップDeepSeekが6月28日に公開した新フレームワーク「DSpark」は、まさにここに切り込む。同社は、この一文字ずつの遅さを「AIを提供するうえでの最大のボトルネック」と表現している。
ドラフトを下書きし、本番がまとめて添削する
DSparkの核にあるのは「投機的デコーディング」と呼ばれる手法だ。少し噛み砕くと、こういう仕組みになっている。
まず、軽くて素早い「下書き用」の小さなモデルが、答えの候補をどんどん先回りして書いていく。それを、本体の大きなモデルがまとめてチェックして「ここはOK、ここは直す」と検証する。一人で全部書くのではなく、下書き役と添削役で分業するイメージだ。
しかもDSparkは、トークンを一つずつではなく、ひとかたまり(チャンク)単位で生成する「セミ自己回帰生成」という方式を使う。さらに、その時々の計算負荷に応じて検証の強度を自動で調整する仕組みも備えており、速さと回答の質のバランスを取りにいく。
体感速度は最大85%向上
結果として、ユーザー一人あたりの応答速度は最大85%向上したとDeepSeekは説明している。長い回答の途中で生成が失速する現象が抑えられ、利用者が感じる待ち時間も短くなる。
地味に効いてくるのが、GPUの「遊び」を減らせる点だ。AIの処理では高価な計算チップがフル稼働しきれず、もてあます時間が生まれがちだが、効率を上げることでこの無駄を圧縮できる。
米国の輸出規制をにらんだ一手でもある
DeepSeekが強調しているのは、計算効率の改善によって「より大きく、より強力なチップへの依存を減らせる」ことだ。
ここには中国勢ならではの事情がにじむ。米国による先端半導体の輸出規制で、中国のAI企業は最新・最強のGPUを思うように手に入れられない。だからこそ、限られたチップから性能を絞り出すソフトウェア側の工夫が、生き残りの戦略として重みを増している。
派手な新モデルの発表ではなく、こうした地道な効率化の積み重ね。だが、ハードで殴れないなら頭で勝つというこの姿勢こそ、いまの中国AIの底力を映している。