中国で「最強AI」の名をほしいままにしてきたDeepSeek。6月18日、待望の「識図モード」——つまり画像認識機能をWebとアプリで一般公開した。
テキスト生成では世界トップクラスの評価を受けるDeepSeek。画像もいけるのか。記者が早速テストした。
結果は、予想の斜め上だった。
自社CEOの顔を間違える
記者がDeepSeekに送った写真は、同社の創業者・梁文鋒(リャン・ウェンフォン)のもの。中国テック業界では知らない人がいない顔だ。
DeepSeekの回答:「これはByteDance創業者の張一鳴(チャン・イーミン)です」。
完全な誤認。
念のため2回目を試した。今度は別の角度の写真を送った。結果はまたも不正解。別の人物の名前が返ってきた。
自分の会社を作った人間の顔すらわからない。このAIは、いったい何を「識って」いるのか。
テキスト抽出は優秀、顔認識は壊滅的
公平を期して言えば、識図モードのすべてがダメなわけではない。
書類や名刺の文字認識(OCR)は正確だ。グラフや表のデータ読み取りも実用レベルにある。テキスト情報の抽出という点では、確かに使える。
だが、顔認識と物体認識は壊滅的。記者の評価を借りれば「識図(画像認識)ではなく読図(テキスト読み取り)レベル」。看板は読めるが、人の顔は読めない。
ミーム化する「うちのCEOわからないAI」
中国のSNSでは瞬く間にネタにされた。
「DeepSeek、テキストでは天才。顔を見るとポンコツ」「自分の親の顔もわからないAI」——こうした投稿がWeiboやDouyinで拡散。「識図モード」のリリースが話題になったのは、性能の高さではなく、失敗の面白さだった。
DeepSeek側は具体的なコメントを出していない。だが、ユーザーの間では「次のアップデートで梁文鋒の顔を学習させてくるに違いない」という冗談がすでに飛び交っている。
「なんでもできるAI」の幻想
この一件が示しているのは、マルチモーダルAI——テキスト、画像、音声を横断的に扱うAI——の現実だ。
2025年から2026年にかけて、各社がこぞって「マルチモーダル対応」を打ち出した。テキストも画像も音声も、ひとつのAIですべて処理できる。そんな売り文句が飛び交った。
だが実態は、得意分野と不得意分野の差が激しい。テキスト生成で世界一でも、画像認識では素人以下。ひとつの能力が高いからといって、すべての能力が高いわけではない。
人間だって同じだ。数学の天才が料理も天才とは限らない。AIも同じこと。ただ、AIの場合は「万能」という期待値が先行しすぎている。
それでもDeepSeekは強い
誤解のないように言えば、DeepSeekのテキスト処理能力は依然として世界トップレベルだ。中国語のタスクではGPT-4oを上回る場面も多い。オープンソースで公開されている点も、研究者やスタートアップから高く評価されている。
識図モードの顔認識は、おそらく次のバージョンで大幅に改善されるだろう。技術的なハードルが特別高いわけではない。
ただ、このエピソードは覚えておく価値がある。AIの「できること」と「できないこと」の境界線は、まだはっきり引かれていない。使う側がそれを見極める目を持つ必要がある。
梁文鋒のことは、次こそ覚えてあげてほしい。