更新时间:2026-01-21 01:02 来源:牛马见闻
8模型的视频理解能力是行业明确了物理AI(Physical AI)的大方向Google DeepMind CEO德米斯·哈萨比斯
<p id="48NLI4V3">想[象一下,!当你逛各类博物馆或美术馆,手中握着的手机不再是冰冷冷的硬件,而是一名可以通过视频语音陪伴讲解的“专属向导”,逛展这件事会否从过去的“走马观花”,变为一场更为生动的沉浸式体验?</p> <p id="48NLI4V4">1月20日,字节跳动旗下豆包与上海浦东美术馆达成合作,成为该馆两项国际大展——“图案的奇迹:卢浮宫印度、伊朗与奥斯曼的艺术杰作”与“非常毕加索:保罗·史密斯的新视角”的官方AI讲解员。双方通过独家数据合作和定向搜索优化,进一步提升豆包识别和讲解的准确性。</p> <p id="48NLI4V5">从人工智能行业发展的角度来看,AI逐渐落地普通老百姓日常生活场景,是多模态大模型“感知-推理-动作”能力在真实世界的闭环验证与数据反哺,既是AI能力的场景化落地,也是技术迭代的关键驱动。</p> <p class="f_center"><br></p> <p id="48NLI4V7"><strong>AI陪伴逛展</strong></p> <p id="48NLI4V8">第一财经记者在实际观展过程中发现,用户可以让豆包从艺术风格、历史背景、创作技法与文化意义等多个维度对作品进行解读。</p> <p id="48NLI4V9">字节跳动副总裁朱骏表示,AI和用户的交互本质上是一种对话体验。在观展过程中,希望豆包通过共情式的提问和启发式的对话,把用户已有的感受和经验调动出来,形成更有参与感的理解过程。</p> <p id="48NLI4VA">例如,当观众在“非常毕加索”展厅面对毕加索的《阅读》作品时,可以向豆包提问“画面中宁静的氛围是如何营造的”。豆包会结合画作创作于1932年的特定背景,分析其中柔和曲线与鲜明色块如何共同塑造出私密而宁静的阅读场景,阐述这一时期毕加索以其缪斯玛丽–特蕾兹·瓦尔特为灵感的创作风格特征,如何在具象与变形之间取得平衡。</p> <p id="48NLI4VB">技术层面,据豆包逛展项目负责人介绍,在博物馆场景中运用AI讲解,最大的挑战是保证内容的准确性。模型不仅要能区分外观高度相似的文物、理解小众且缺乏公开资料的展品,还要能在观众移动观展、从不同角度和距离观察同一件展品时,始终保持稳定识别。据了解,豆包相关视频讲解功能主要基于Seed1.8模型的视频理解能力。</p> <p id="48NLI4VC">Seed1.8是字节跳动于2025年12月发布的通用Agent模型,核心定位是打通 “感知-推理-动作”全链路,可直接执行复杂任务而非仅输出信息,聚焦真实世界多模态交互与任务执行。</p> <p id="48NLI4VD">火山引擎总裁谭待对第一财经记者表示,多模态代表着模型的应用逐渐进入更深的领域。过去用户让模型执行任务,通过文字聊天即可。但如今AI的很多输入内容带有视觉因素,如在车内、产品质检、餐饮各种场景。另外,模型处理任务需要调用各种工具,工具返回的结果很多也是视觉化的,因此需要具备视觉化理解能力。</p> <p id="48NLI4VE"><strong>“AI导览员”背后的技术趋势</strong></p> <p id="48NLI4VF">如果说多模态AI的进化还是一场“打破感知壁垒”的早期尝试,那么此次豆包与浦东美术馆的合作,就是一场鲜活的“生活切片”展示,它证明多模态已不仅仅是实验室内的技术参数,而是普通观众身边的“AI导览员”,用看得见、听得到、聊得来的能力,实现科技与人文的碰撞。</p> <p id="48NLI4VG">虽然多模态技术发展仍处于早期阶段,但行业普遍认为,多模态是步入AGI(通用人工智能)的必经之路。智谱(02513.HK)创始人唐杰表示,2025年是多模态的“适应年”,而多模态感统(感觉统合)将成为2026年的热点和重点,它是完成人机GUI(图形用户界面)交互与AI进入物理世界的关键。因为有了这个能力,AI才可以完成更复杂的长时效任务,形成一个AI工种,并通过AI实现具身智能,进入物理世界。</p> <p id="48NLI4VH">与多模态时常伴随出现的,是世界模型的概念。技术关系上,多模态是世界模型的核心技术基座与信息输入输出载体,具体包括图片、语音、视频等形式,凡是能够处理两种及以上信息类型,即属于多模态范畴。而世界模型则是多模态能力的高阶进化形态。</p> <p class="f_center"><br></p> <p id="48NLI4VJ">今年以来,行业内关于多模态与世界模型的动态逐渐增多。1月5日,中科院自动化研究所与CreateAI(原图森未来)研究者提出NeoVerse;13日,爱诗科技发布最高支持1080P分辨率的通用实时世界模型PixVerse R1。</p> <p id="48NLI4VK">截至目前,字节跳动暂未对外明确发布独立世界模型研发路线,但正尝试将世界理解能力融入通用大模型(Seed系列)与多模态生态,通过感知、推理、动作的能力叠加,逐步构建“世界建模-交互-执行”的闭环。</p> <p id="48NLI4VL">字节跳动Seed官方页面显示,Seed多模态交互与世界模型团队致力于研发具备人类水平的多模态理解与交互能力的模型,并推动多模态助手类产品的探索和研发。其中,官方对“世界模型”的定义是利用预训练、仿真等技术对虚拟/现实世界的各类环境进行建模,提供多模态交互探索的基本能力。</p> <p id="48NLI4VM">在此前的采访中,智源研究院院长王仲远表示,大语言模型技术路线已相对收敛,但多模态领域,包括世界模型,暂未统一。随着模型不断研发推进,相信多模态与世界模型将会组成多模态世界大模型这一统称。</p> <p id="48NLI4VN"><strong>AI转向理解物理世界规律</strong></p> <p id="48NLI4VO">今年行业对世界模型讨论增多的原因,在创新奇智(02121.HK)CTO张发恩看来,是行业明确了物理AI(Physical AI)的大方向,后者的主战场具身智能快速发展,但多模态数据采集成本高、周期长,因此大家希望先做世界模型,借此自动产出多模态数据,用于训练VLA(视觉语言动作模型)模型。</p> <p id="48NLI4VP">张发恩对第一财经表示,包括视觉、声音等在内的多模态要素是必要的,因为AI与物理世界的结合需要输入和输出多模态信息,而世界模型的核心是要理解物理世界规律,如重力、摩擦力、易碎材料等。</p> <p id="48NLI4VQ">Google DeepMind CEO德米斯·哈萨比斯(Demis Hassabis)曾明确表示,打开AGI之门的钥匙是世界模型。他称,世界模型旨在让AI理解物理世界的底层规律、因果关系,并进行长期规划和模拟推演。</p> <p id="48NLI4VR">据智源研究院理事长黄铁军观察,当前人工智能正从功能模仿转向理解物理世界规律,这一根本转变意味着AI正褪去早期狂热,发展路径日益清晰,即真正融入实体世界,解决系统性挑战。</p> <p id="48NLI4VS">而世界模型对“预测世界下一状态”的核心诉求,正倒逼多模态技术从早期的跨模态识别、生成,向更复杂的时空一致性整合、因果逻辑对齐演进。在此背景下,多模态领域的发展呈现出明确的进阶趋势。</p> <p id="48NLI4VT">CreateAI首席科学家王峰对记者表示,今年一个明显趋势是多模态模型理解与生成逐渐实现一体化,其中谷歌的Gemini3是典型的原生多模态大模型,如其nano banana项目展示了强大的图片编辑能力。</p> <p id="48NLI4VU">但需注意的是,多模态与世界模型均面临技术成熟度不够、成本高昂、商业化应用率较低等问题。王仲远对记者表示,限制多模态发展的主要原因在于技术路线没有收敛,市面上很多模型仍旧分为多模态理解与多模态生成,多模态理解仍多以组合式模型为主,比如大语言模型先学语言、再学多模态,且模型记忆问题一直没有得到很好的解决。他认为目前行业正通过可实现的多模态智能路径,逐步厘清通向通用智能的技术路线。</p>
Copyright ® 版权 所有:吉林日报
违法和不良信息举报邮箱:dajilinwang@163.com 违法和不良信息举报: 0431-88600010
ICP备案号:吉ICP备18006035号 网络经营许可证号:吉B-2-4-20100020
地址:长春市高新技术产业开发区火炬路1518号 爆料电话:0431-88601901