新闻动态

开云体育(中国)官方网站达到了专科 5 段 9x9 围棋水平-开云(中国)kaiyun体育网址登录入口

开云体育(中国)官方网站达到了专科 5 段 9x9 围棋水平-开云(中国)kaiyun体育网址登录入口

现存的视频生成模子,大多依赖话语或标签数据学习常识,很少波及纯视觉信号的学习,比如 Sora。

然则,话语并不成捕捉确切寰球中的总计常识,举例,折纸、打领结等复杂任务难以通过话语廓清抒发。

那么,模子能否不依赖话语模子,从纯视觉视角学习常识、领略寰球进而掌抓推理和筹划等才能?

当今,豆包大模子团队集合北京交通大学、中国科学时期大学冷落了VideoWorld。

这是一种通用的视频生成模子,无需依赖话语模子存在,便可长入履行判辨和推理任务。VideoWorld 期骗一种潜在动态模子(Latent Dynamics Model,LDM),高效压缩视频帧间的视觉变化信息,显耀普及常识学习效率和恶果。

最终,VideoWorld 在不依赖任何强化学习搜索或奖励函数机制前提下,达到了专科 5 段 9x9 围棋水平,并大约在多种环境中,履行机器东谈主任务。

该职责在业内已引起一定热心。

� � 上的 AI 界限大 V、科技褒贬网站 ReadMultiplex 首创东谈主 Brian Roemmele 以为:

这是机器东谈主学习和推理的要紧进步。

论文作家则暗示,尽管确切寰球视频的生成和泛化仍存在很大挑战,视频生成模子不错成为一种通用的常识学习步骤,并充任在施行寰球中想考和行动的东谈主工大脑。

当前该姿色代码与模子已开源。

仅凭"视觉",就能学习复杂任务

就像李飞飞解说 9 年前演讲中提到"幼儿不错不依靠话语判辨确切寰球"一样,在当然界中,大猩猩和其他灵长类动物主要通过视觉不雅察来学习垂死手段,如觅食和酬酢互动。东谈主类婴幼儿相通不需要话语便不错判辨周围环境。

那么,东谈主工智能模子能否仅通过视觉输入来学习常识?

为探索其中谜底,团队构建了两个实验环境:视频围棋对战和视频机器东谈主模拟操控。

筹议者们以为,围棋不错很好地评估模子的规矩学习、推理和筹划才能,且围棋图像不错将外不雅、纹理等复杂细节与高等常识的评估相别离,特地适应对上述问题的探索。同期,机器东谈主任务则考试了模子判辨物化规矩和筹划任务的才能。

模子考验使用一个包含宽阔视频演示数据的离线数据集,以此,取得一个不错凭据过往不雅测展望将来帧的视频生成器。

考验完成后,模子不错径直学习一个任务关连的映射函数,将生成的视频帧颐养为任务履行所需当作。这使得视频生成模子不错在不依赖任何当作标签的情况下,学习和履行具体任务。

领先使用朴素的自追思模子实例化视频生成器,包含一个 VQ-VAE 编码器 - 解码器和一个自追思 Transformer。编码器将视频帧颐养为侵略的标志,Transformer 在考验时间使用这些标志进行下一标志的展望。

在推理经过中,Transformer 生成下一帧的侵略标志,这些标志随后由解码器颐养回像素空间。

基于上述朴素的框架,他们不雅测到,视频生成模子不错掌抓基本围棋规矩、走棋计谋以及机器东谈主主宰才能。

但团队也同期发现,视频序列的常识挖掘效率显耀过期于以文骨子式,具体如下图所示。

团队将这归因于——视频中存在宽阔冗余信息,影响了模子的学习效率。

举例,棋子转移不错仅通过现象序列中的极少位置标志进行编码,而在视频中,则需要视觉编码器产生多得多的标志。这种互异不利于模子对复杂常识的快速学习。

压缩视觉变化,让视频学习愈加高效

凭据上述不雅测完毕,团队冷落了 VideoWorld。它在保留丰富视觉信息的同期,对与要道决议和当作关连的视觉变化进行压缩,以完毕更有用的视频学习。

VideoWorld 引入了一个潜在动态模子(Latent Dynamics Model, LDM),压缩帧间视觉变化为紧凑的潜在编码,提高模子对常识的挖掘效率。

举例,围棋中的多步棋盘变化或机器东谈主中的连气儿当作进展出强时候关连性。通过将这些多步变化压缩成紧凑镶嵌,不仅可增多计谋信息的紧凑性,还编码了用于前向筹划的指点信息。

LDM 领受了 MAGVITv2 立场的编码器 - 解码器结构,但取消了时候维度下采样,以保留每帧细节。

接下来,LDM 界说了一组详确力模块和对应可学习向量。通过详确力机制,每个向量捕捉第一帧至后续多帧的动态变化信息,然后通过 FSQ 量化。

临了,解码器使用第一帧的特征图和帧之间的视觉变化编码重建后续帧。

通过使用多个向量圭表编码第一帧到后续多帧的动态变化,VideoWorld 罢明白紧凑且信息丰富的视觉暗示,不错捕捉视觉序列中的短期和永久依赖关系。

通过引入 LDM,VideoWorld 在仅有 300M 参数目下,达到专科 5 段的 9x9 围棋水平,且不依赖任何强化学习中的搜索或奖励函数机制。在机器东谈主任务上,VideoWorld 也展现出了对多任务、多环境的泛化才能。

研发团队对 LDM 提高视频学习效率的原因,得出以下论断:

LDM 建模了考验集的数据花式

UMAP 可视化标明:LDM 建模了考验围聚常见的走棋花式,并有用地将短期和永久数据花式压缩至潜在空间中。右图凭据机械臂沿 X/Y/Z 轴畅通标的可视化潜在编码,相通标明 LDM 不错建模多步动态依赖关系。

LDM 匡助模子在测试时进行前向筹划

研发者们还筹议了 LDM 在模子推理中的作用。如下图 UMAP 可视化所示,在测试阶段,模子生成的潜在编码按照时候步(Time-step)进行分组,使得模子大约从更长久视角作念出围棋决议。

在机器东谈主场景中,筹议者们也不雅察到了访佛景象。下图展示了 VideoWorld 在不同机器东谈主操控任务中展望的潜在编码。不同时间步的潜在编码凭据任务类型进行分组,凸显了模子逐渐捕捉特定任务长程变化的才能。

LDM 不错生成因果关连的编码

为进一步筹议潜在编码的影响,研发团队进行了一项阻扰实验:用立时标志替换不同时间步的潜在编码,并不雅察其对模子性能的影响。

实验完毕知道,阻扰第一个编码的影响最大,这可能由于编码之间存在因果依赖,团队以为:篡改第一个编码,即下一时候步的最好决议,会影响总计将来的决议。

One More Thing

尽管 VideoWorld 在围棋和模拟机器东谈主操控环境中展现了优秀的性能,团队同期也意志到,其在确切寰球环境中的应用,仍靠近着高质料视频生成和多环境泛化等挑战。

将来,团队将效率责罚这些险峻,鞭策视频生成模子成为确切寰球中的通用常识学习器。

对于豆包大模子团队:

字节越过豆包大模子团队缔造于 2023 年,勉力于开导业界最先进的 AI 大模子时期,成为寰球一流的筹议团队,为科技和社会发展作出孝顺,团队筹议标的涵盖深度学习、强化学习、LLM、语音、视觉、AI Infra、AI Safety 等。

了解这篇筹议真的定,可见以卑鄙畅:

论文流畅:https://arxiv.org/abs/2501.09781

代码流畅:https://github.com/bytedance/VideoWorld

姿色主页:https://maverickren.github.io/VideoWorld.github.io

—  完  —

投稿请发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿内容‍

附上论文 / 姿色主页流畅,以及筹划样子哦

咱们会(尽量)实时回话你

一键热心 � � 点亮星标

科技前沿进展逐日见

一键三连「点赞」「转发」「防卫心」

接待在褒贬区留住你的方针!开云体育(中国)官方网站



Powered by 开云(中国)kaiyun体育网址登录入口 @2013-2022 RSS地图 HTML地图

Copyright Powered by365建站 © 2013-2024