DeepSeek「識図モード」公開 — でも自社CEOの顔がわからない

画像: 腾讯新闻

参照元: 腾讯新闻

中国で「最強AI」の名をほしいままにしてきたDeepSeek。6月18日、待望の「識図モード」——つまり画像認識機能をWebとアプリで一般公開した。

テキスト生成では世界トップクラスの評価を受けるDeepSeek。画像もいけるのか。記者が早速テストした。

結果は、予想の斜め上だった。

自社CEOの顔を間違える

記者がDeepSeekに送った写真は、同社の創業者・梁文鋒（リャン・ウェンフォン）のもの。中国テック業界では知らない人がいない顔だ。

DeepSeekの回答：「これはByteDance創業者の張一鳴（チャン・イーミン）です」。

完全な誤認。

念のため2回目を試した。今度は別の角度の写真を送った。結果はまたも不正解。別の人物の名前が返ってきた。

自分の会社を作った人間の顔すらわからない。このAIは、いったい何を「識って」いるのか。

公平を期して言えば、識図モードのすべてがダメなわけではない。

書類や名刺の文字認識（OCR）は正確だ。グラフや表のデータ読み取りも実用レベルにある。テキスト情報の抽出という点では、確かに使える。

だが、顔認識と物体認識は壊滅的。記者の評価を借りれば「識図（画像認識）ではなく読図（テキスト読み取り）レベル」。看板は読めるが、人の顔は読めない。

中国のSNSでは瞬く間にネタにされた。

「DeepSeek、テキストでは天才。顔を見るとポンコツ」「自分の親の顔もわからないAI」——こうした投稿がWeiboやDouyinで拡散。「識図モード」のリリースが話題になったのは、性能の高さではなく、失敗の面白さだった。

DeepSeek側は具体的なコメントを出していない。だが、ユーザーの間では「次のアップデートで梁文鋒の顔を学習させてくるに違いない」という冗談がすでに飛び交っている。

この一件が示しているのは、マルチモーダルAI——テキスト、画像、音声を横断的に扱うAI——の現実だ。

2025年から2026年にかけて、各社がこぞって「マルチモーダル対応」を打ち出した。テキストも画像も音声も、ひとつのAIですべて処理できる。そんな売り文句が飛び交った。

だが実態は、得意分野と不得意分野の差が激しい。テキスト生成で世界一でも、画像認識では素人以下。ひとつの能力が高いからといって、すべての能力が高いわけではない。

人間だって同じだ。数学の天才が料理も天才とは限らない。AIも同じこと。ただ、AIの場合は「万能」という期待値が先行しすぎている。

誤解のないように言えば、DeepSeekのテキスト処理能力は依然として世界トップレベルだ。中国語のタスクではGPT-4oを上回る場面も多い。オープンソースで公開されている点も、研究者やスタートアップから高く評価されている。

識図モードの顔認識は、おそらく次のバージョンで大幅に改善されるだろう。技術的なハードルが特別高いわけではない。

ただ、このエピソードは覚えておく価値がある。AIの「できること」と「できないこと」の境界線は、まだはっきり引かれていない。使う側がそれを見極める目を持つ必要がある。

梁文鋒のことは、次こそ覚えてあげてほしい。