LVLM(Large Video Language Models)を利用した、映像から直接知識を引き出し、質問に応答することを可能にする新しい生成AIアプローチです。
例えば、ネクタイに結び方を聞いた時は、RAG等を使用するよりも、この手法が一番良い答えが出たそうです。
AIは、どんどん進化していきますね。興味あるかたは下記6分程度でソフトバンクが解説しております。
https://www.youtube.com/watch?v=qqDLS7Mp4Gk