谷歌称Gemini开创“原生多模态”时代,但演示视频被指夸大性能
·谷歌的演示视频似乎暗示:当Gemini实时观察周围的世界并做出反应时,人可以与Gemini进行流畅的语音对话。但实际上,演示中的声音是在读出人向Gemini发出的文本提示,并识别人展示的静态图像,且响应时间比视频中展示的时间长。·谷歌DeepMind强调,Gemini是人工智能的新品种——“原生多模态”,区别于现有的“拼凑多模态”模型,即从一开始就使用多种模态(例如音频、视频和图像)训练而成。因此,Gemini开辟了一条人工智能领域前所未见的道路,可能会带来重大的新突破。Alphabet首席执行官…