类Sora模型到底懂不懂物理?字节完成系统性实验证明
Sora爆火以来,模明“视频生成模型到底懂不懂物理规律”受到热议,型到系统性实但业界一直未有研究证实。底懂近日,不懂字节跳动豆包大模型团队公布最新论文,物理完成研究历时8个月,字节围绕“视频生成模型距离世界模型有多远”首次在业界完成系统性实验并给出明确结论:视频生成模型可以记忆训练案例,验证但暂时还无法真正理解物理规律,模明做到“举一反三”。型到系统性实
图灵奖得主、底懂Meta首席AI科学家杨立昆点赞并转发了该研究,不懂表示“结论不令人意外,物理完成但很高兴终于有人做了这个尝试!字节”
自OpenAI发布Sora模型以来,验证很多视频生成模型都会强调其生成结果对物理规律的模明遵循。豆包大模型视觉团队相关小组,对视频生成模型究竟能否从视觉数据中“发现”并“理解”物理定律感到好奇,决定深入研究。
历时8个月,该团队完成了业界首个系统性的实验研究。团队通过专门开发的物理引擎合成了匀速直接运动、小球碰撞、抛物线运动等经典物理场景的运动视频,用于训练基于主流DiT架构的视频生成模型。然后,通过检验模型后续生成的视频在运动和碰撞方面是否符合力学定律,判断模型是否真正理解了物理规律,并具有“世界模型”的潜力。
实验中设计的不同运动场景
豆包大模型团队的实验发现,即使遵循“Scaling Law”增大模型参数规模和数据量,模型依然无法抽象出一般物理规则,做到真正“理解”。
以最简单的匀速直线运动为例,当模型学习了不同速度下小球保持匀速直线运动的训练数据后,给定初始几帧,要求模型生成小球在训练集速度区间内匀速直线运动的视频,随着模型参数和训练数据量的增加,生成的视频逐渐更符合物理规律。
然而,当要求模型生成未曾见过的速度区间(即超出训练数据范围)的运动视频时,模型突然不再遵循物理规律,并且无论如何增加模型参数或训练数据,生成的结果都没有显著改进。这表明,视频生成模型无法真正理解物理规律,也无法将这些规律泛化应用到全新的场景中。
通过进一步的实验分析,研究团队得出结论,“生成新视频时,模型主要依赖对训练案例的记忆和匹配。视频生成模型就像一个只会‘抄作业’的学生,一旦遇到从未见过的场景,如不同大小、速度的物体相互作用,就会‘犯迷糊’,生成结果与物理规则不符。”
不过,研究中也有一个好消息:如果训练视频中所有概念和物体都是模型已熟悉的,此时加大训练视频的复杂度,比如组合增加物体间的物理交互,通过加大训练数据,模型对物理规律的遵循将越来越好。这一结果可为视频生成模型继续提升表现提供启发。
据了解,本研究两位核心一作都非常年轻,一位是95后,一位是00后,在豆包大模型团队专注视觉领域的基础研究工作。作者们一直对世界模型感兴趣,在8个月的探索中,他们阅读了大量物理学研究文献,也尝试从游戏中获得研发灵感,历经多次失败后,最终一步步确定研究思路和实验方法。
友链
外链
互链
Copyright © 2023 Powered by
六合彩图库源码【购买联系电报bc3979】AC彩票网站源码|六合彩源码|彩票搭建|新中原六合彩源码|【网站bc9797.com】六合彩论坛源码【联系飞机bc3979】
sitemap
-
文章
89
-
浏览
7
-
获赞
1
热门推荐
-
波切蒂诺教练收到了切尔西董事会的最后通牒。
波切蒂诺教练收到了切尔西董事会的最后通牒。如果他无法帮助球队赢得下赛季欧洲赛事门票,他很有可能被解雇。在球队以2比4输给狼队后,波切蒂诺面临巨大压力,球迷们强烈要求解雇他 。 切尔西董事会的一些成员也当扶起摔倒老人得到感谢成为新闻
当一位老人摔倒,有人正巧路过,出手相助,老人表示感谢。这对于一个60岁以上老人即将超过两亿的社会来说,本应是一件相当正常的事。而今,老人摔倒了没人敢扶这样的新闻不断刺激着国人脆弱的神经。于是,当有人扶古代在应答上级的时候说什么?“喏”与“喳”又有着什么区别?
很多古装影视作品当中经常会听见一个字,那就是下级应答上级的时候总会说一个字“喏”或是“喳”。在汉朝时期,下级应答上级往往会说“喏”。在清朝的时候变成了“喳”。那么在历史上,古人在应答上级的时候真的是这微博到底带给我们什么
一位音乐人的微博,引起了风波。他从老家“抵制”折迁归来,发了一条微博:“回到北京的第一天,就是清查一些人近期的微博……没有声援的一律销光,划清界限,仍然没被销的主儿愿好自为之……不要说最起码的原则与判华商储备商品管理中心再次向市场投放中央储备肉
根据商务部、发展改革委、财政部和中国农业发展银行的通知要求,2016年1月22日,华商储备商品管理中心再次组织实施了出库竞价交易。此次交易挂牌中央储备冻猪肉总量1.26万吨, 提货库点为浙江华统肉制品对待地铁列车信号故障不能心存侥幸
近来连续两次地铁列车信号故障导致列车临时停运事件,使很多市民对地铁列车运营安全产生质疑。记者昨日从市轨道办和地铁集团获悉,信号故障初步判定为便携式WiFi设备对地铁信号产生干扰。列车信号故障只会影响运从逃生食客返回买单看舆论引导力量
5日午间,武昌珞狮北路一餐馆突发大火,食客和店员迅速撤离。让店方意想不到的是,大火扑灭后,一些食客返回买单。11月7日《长江商报》)我们不妨回顾一下近两年关于餐厅着火后的双方表现。据《北京晚报》201中国遭遇“反倾销”最少应该“反思考”
商务部最新发布的《中国对外贸易形势报告(2012年秋季)》显示,中国是贸易保护主义的最大受害者,今年前三季度,中国出口产品遭遇国外贸易救济调查55起,增长38%,涉案金额243亿美元,增长近8倍。据英迟京涛会见古巴内贸部副部长
10月9日,集团副总裁迟京涛在中粮广场会见了古巴内贸部副部长Odalys Escandell Garcia(奥黛丽丝·加西亚)一行,双方就大宗商品批发和销售等事宜进行了探讨。迟京涛代表中梅新育:“开放型经济”的提法正当其时
在国内外普遍强调中国应扩大内需的背景下,十八大报告强调“全面提高开放型经济水平”。与沿用多年的“扩大对外开放”提法相比,“全面提高开放型经济水平”的提法意识到外向型经济“贫困化增长”的风险,将目标明确东璧堂的作用是什么?李时珍为什么要建立东璧堂?
东璧堂是李时珍于明世宗嘉靖三十七年(1558年)从太医院还乡后创立的堂号,辞官返乡后坐堂行医,致力于对药物的考察研究,在此期间,以自己的字——东璧为堂号,创立了东璧堂。下面趣历史小编就为大家带来详细的“无人豆浆摊”传递出诚信的温暖
湖北孝感市云梦县人老李在县城摆有一个豆浆摊,由于每天早晨有时有事要忙,豆浆摊摆出后他就离开,只在桌上摆上一个简易牌子:“豆浆自己拿,一元钱放桌上。”如今,无人豆浆摊运营了10个月,经老李清算,营业额几阿迪达斯 x KASINA 联名 Terrex Free Hiker 纯白鞋款亮相
潮牌汇 / 潮流资讯 / 阿迪达斯 x KASINA 联名 Terrex Free Hiker 纯白鞋款亮相2020年02月26日浏览:2917 此前美乐淘潮牌汇曾带来老人“错峰出行”传递理解“正能量”
年轻人上班,老年人遛早,上班高峰时候谁给谁让座?中国人民大学中国调查与数据中心11月9日发布2011年北京市民公共行为文明指数调查及市民公共场所文明行为观测数据显示,98%受访者能主动给老人让座。与此麻将赌博何其多,执法者不能作壁上观
家住大连大庆社区的宋女士养了一只棕色泰迪犬,宋女士称它为“小哈”。由于宋女士迷上打麻将,对阿哈疏于照顾,后来阿哈想出一个妙计,一看见主人打麻将,就假装晕过去,迫使宋女士减少打麻将的次数。11月14日中