类Sora模型到底懂不懂物理?字节完成系统性实验证明
Sora爆火以来,模明“视频生成模型到底懂不懂物理规律”受到热议,型到系统性实但业界一直未有研究证实。底懂近日,不懂字节跳动豆包大模型团队公布最新论文,物理完成研究历时8个月,字节围绕“视频生成模型距离世界模型有多远”首次在业界完成系统性实验并给出明确结论:视频生成模型可以记忆训练案例,验证但暂时还无法真正理解物理规律,模明做到“举一反三”。型到系统性实
图灵奖得主、底懂Meta首席AI科学家杨立昆点赞并转发了该研究,不懂表示“结论不令人意外,物理完成但很高兴终于有人做了这个尝试!字节”
自OpenAI发布Sora模型以来,验证很多视频生成模型都会强调其生成结果对物理规律的模明遵循。豆包大模型视觉团队相关小组,对视频生成模型究竟能否从视觉数据中“发现”并“理解”物理定律感到好奇,决定深入研究。
历时8个月,该团队完成了业界首个系统性的实验研究。团队通过专门开发的物理引擎合成了匀速直接运动、小球碰撞、抛物线运动等经典物理场景的运动视频,用于训练基于主流DiT架构的视频生成模型。然后,通过检验模型后续生成的视频在运动和碰撞方面是否符合力学定律,判断模型是否真正理解了物理规律,并具有“世界模型”的潜力。
实验中设计的不同运动场景
豆包大模型团队的实验发现,即使遵循“Scaling Law”增大模型参数规模和数据量,模型依然无法抽象出一般物理规则,做到真正“理解”。
以最简单的匀速直线运动为例,当模型学习了不同速度下小球保持匀速直线运动的训练数据后,给定初始几帧,要求模型生成小球在训练集速度区间内匀速直线运动的视频,随着模型参数和训练数据量的增加,生成的视频逐渐更符合物理规律。
然而,当要求模型生成未曾见过的速度区间(即超出训练数据范围)的运动视频时,模型突然不再遵循物理规律,并且无论如何增加模型参数或训练数据,生成的结果都没有显著改进。这表明,视频生成模型无法真正理解物理规律,也无法将这些规律泛化应用到全新的场景中。
通过进一步的实验分析,研究团队得出结论,“生成新视频时,模型主要依赖对训练案例的记忆和匹配。视频生成模型就像一个只会‘抄作业’的学生,一旦遇到从未见过的场景,如不同大小、速度的物体相互作用,就会‘犯迷糊’,生成结果与物理规则不符。”
不过,研究中也有一个好消息:如果训练视频中所有概念和物体都是模型已熟悉的,此时加大训练视频的复杂度,比如组合增加物体间的物理交互,通过加大训练数据,模型对物理规律的遵循将越来越好。这一结果可为视频生成模型继续提升表现提供启发。
据了解,本研究两位核心一作都非常年轻,一位是95后,一位是00后,在豆包大模型团队专注视觉领域的基础研究工作。作者们一直对世界模型感兴趣,在8个月的探索中,他们阅读了大量物理学研究文献,也尝试从游戏中获得研发灵感,历经多次失败后,最终一步步确定研究思路和实验方法。
-
文章
5438
-
浏览
1
-
获赞
969
热门推荐
-
瑜之美运动用品有限公司(瑜美国际简介)
瑜之美运动用品有限公司(瑜美国际简介)来源:时尚服装网阅读:1694iFresh博览亚果会38毫米差不多相当于一个砂糖橘的直径,山竹也差不多.38mm便是8厘米。毫米millimeter),又称公厘或吉林航空维修有限公司与吉林农业科技学院举办“吉航(国际)航空产业学院”合作办学签约暨揭牌仪式
【吉林航空维修有限责任公司王丽娟报道】为了贯彻落实教育部办公厅、工业和信息化部办公厅关于《现代产业学院建设指南试行)》、《关于深化产教融合的若干意见》的通知精神,充分利用学院优质的教育资源和企业先进的大连空管站雷达站值守人员风雪中坚守岗位
通讯员孙伟报道:1月6日至8日,大连迎来了新年的首次寒潮天气过程,降雪伴随着大风,地面积雪深度达11厘米。大连市交通受到严重影响。位于边远山区的大连空管站雷达站,值守人员在风雪中坚守岗位,保障设备运行马嵬坡缢死的只是侍女,杨贵妃去日本渡晚年
从陕西省汉中市翻越秦岭到古都长安,曾有数条古道,而傥骆古道,曾替大唐皇室隐瞒了一个不能言说的秘密,成为永难破解的千古之谜。千年后的今天,还被人津津乐道。这条古道隐藏着杨贵妃的生死之谜。杨贵妃,唐玄宗的啥情况恩佐和凯塞多同时注销推特账号,疑似遭到蓝军球迷网暴
2月3日讯 北京时间今早,切尔西中场恩佐和凯塞多都注销了自己的推特账号。目前,已经无法在推特上搜索到两人的账号。两人注销社交媒体的具体原因还不清楚。有不少球迷和媒体表示,在切尔西不敌利物浦的比赛后,众呼伦贝尔空管站技术保障部积极维修故障设备
通讯员:陈霄)呼伦贝尔空管站本场主用甚高频系统及乌兰浩特、漠河、满洲里遥控台备用甚高频系统收发信机型号均为R&S XU250,本场主用系统及遥控台备用系统至今已运行超过十年。本场主用甚高频系统背了很多年黑锅的杨广,实际上是千古一帝?
对于隋朝来说,一个在中国历史上统治时间只有38年的王朝。谈到隋朝的印象除了短暂就是死亡。对于很多人来说,杨文广是一个不折不扣的暴君。网络配图杨坚一共育有五子,分别是老大房陵王杨勇,二子晋王杨广,老三秦黄山机场获评南航地面服务保障先进单位
黄山机场在安全保障、旅客和行李服务、航班运行品质和合作关系等多个维度获得南方航空公司认可,近日被评为南方航空地面服务保障先进单位。2020年,南方航空在黄山机场执飞深圳、广州2条航线,是黄山连接珠三角中粮各上市公司2016年4月18日-4月22日收盘情况
中粮集团旗下各上市公司2016年4月18日-4月22日收盘情况如下:4月18日4月19日4月20日4月21日4月22日中粮控股香港)06062.522.682.682.912.78中国食品香港)050三亚空管站工会组织职工无偿献血
中国民用航空网 通讯员王海红报道:2021年开年之际,三亚空管站积极响应三亚市卫健委、三亚市红十字会号召,组织干部职工参加2021年三亚市无偿献血宣传月活动。为缓解三亚市献血淡季期血液库存的压力,保障海南空管分局开展管制气象业务交流会
中国民用航空网通讯员 邓垂笛 报道:为切实加强管制与气象的深度融合,进一步提升气象服务水平,推进分局新管制大厅转场工作安全、平稳运行,1月5日,海南空管分局气象台联合管制运行部开展了业务交流会,管制运黑龙江空管分局技术保障部召开业务管理系统推进专题会议
1月7日,黑龙江空管分局技术保障部召开了业务管理系统推进专题会,就2021年业务管理系统建设工作进行了具体布置。技术保障部部领导,业务室、各运行科室领导、技术小组和各绘图小组负责人参加了会议。由于受疫陕煤运销集团铜川分公司开展“全民国防教育月”系列活动
9月21日是我国第24个全民国防教育日,陕煤运销集团铜川分公司以“依法开展国防教育,提升全民国防素养”为主题,开展“全民国防教育月”系列活动,旨在加强干环境描写的作用 怎么进行分类
环境描写的作用 怎么进行分类刘贺2023-05-14 18:59:22环境描写是指对人物所处的具体的社会环境和自然环境的描写。其中,社会环境是指能反映社会、时代特征的建筑、场所、陈设等景物以及民俗民风考古发现世界最袖珍木乃伊 仅18周流产胎儿
近日据《华盛顿邮报》报道,通过了最新电脑断层的扫描研究,现藏于英国的,约100年前在埃及发掘的一具小型棺木内被发现了有一个18周的胎儿,这是目前发现的世上最小木乃伊。网络配图1907年,英国考古学家在