いわゆるOCR技術自体というよりも、文字でなくそれを視覚情報で残すと情報を圧縮でき、より効率的にAIが使用できるというお話です。
<AIの「記憶力」を飛躍させる新手法 ― 画像トークン活用>
中国の DeepSeek が発表した新しいOCR(光学文字認識)モデルは、従来のテキストトークン方式ではなく「画像として保存」する手法を取り入れ、トークン数を大幅に削減しながら情報の保持精度を維持しています。
この「視覚トークン」化+“人間の記憶に似た階層的圧縮”というアプローチにより、長時間の対話や大量情報を扱うAIモデルの“忘却”や“コンテキスト劣化”問題への対処が期待されています。
<ちょっとした気づき>
「AIが全てをテキスト化して処理」する前提が崩れつつある――画像ベースで記憶を整理する発想、実務でのドキュメント管理/会話履歴保存にも応用できそうですね。
出典:[MIT Technology Review Japan・2025.10.30]
https://www.technologyreview.jp/s/371535/deepseek-may-have-found-a-new-way-to-improve-ais-ability-to-remember/
