浆果儿 女同 轨迹可控视频生成新范式,复旦微软破解视频生成难题,精确限度淘气物体畅通
轨迹可控的视频生成来了浆果儿 女同,撑捏三种不同级别的轨迹限度条目——永诀为掩码、领域框和稀疏框。
连年来,视频生成期间快速发展 , 显耀擢升了视频的视觉质料与时候连贯性。在此基础上,(trajectory-controllable video generation)裸露了好多使命,使得通过明确界说的旅途精确限度生成视频中的物体畅通轨迹成为可能。
但是,现存轨范在处理复杂的物体畅通轨迹和多物体轨迹限度方面仍靠近挑战,导致生成的视频物体挪动轨迹不够精确,或者全体视觉质料较低。此外,这些轨范平淡仅撑捏单一口头的轨迹限度,截至了其在不同愚弄场景中的生动性。不仅如斯,当今尚无特地针对轨迹可控视频生成的公开数据集或评价基准,破碎了该领域的更进一步的深切参议与系统性评估。
为了处分这些挑战,参议东谈主员提倡了 MagicMotion,一种革命的图像到视频生成框架,共同第一作家为复旦大学参议生李全昊、邢桢,通信作家为复旦大学吴祖煊副西宾。
在给定一张输入图像和对应物体轨迹的情况下,MagicMotion 粗略精确地限度物体沿着指定轨迹畅通,同期保捏视频的视觉质料。
此外,本文构建了 MagicData,一个大领域的轨迹限度视频数据集,并配备了一套自动化的标注与筛选过程,以擢升数据质料和处理服从。
本文还引入了 MagicBench,一个专为轨迹限度视频生成策画的概括评测基准,旨在评估在限度不同数目物体畅通情况下的视频质料及轨迹限度精度。
大皆施行标明,MagicMotion 在多个舛误目的上均卓著现存轨范,展现出额外的性能。
轨范先容
MagicMotion 基于 CogVideoX5B-I2V 这一图像到视频生成模子,并引入了额外的轨迹限度收集(Trajectory ControlNet)。该策画粗略高效地将不同类型的轨迹信息编码到视频生成模子中,兑现轨迹可控的视频生成。如图所示,本文使用 3D VAE 编码器将轨迹图编码到隐空间,然后将其与编码后的视频拼接,动作轨迹限度收集的输入。轨迹限度收集由通盘预磨练的 DiT 模块的可磨练副本构建而成,用于编码用户提供的轨迹信息。每个轨迹限度收集模块的输出随后领路过一个零运转化的卷积层进行处理,并添加到基础模子中对应的 DiT 模块,以提供轨迹教养。
MagicMotion 接受了从密集轨迹限度到稀疏轨迹限度的渐进式磨练过程浆果儿 女同,其中每个阶段皆用前一阶段的权重来运转化其模子。这使得粗略兑现从密集到稀疏的三种类型的轨迹限度。本文发现,与使用稀疏条目重新起初磨练比较,这种渐进式磨练战术有助于模子得到更好的性能。具体来说,本文在各个阶段接受以下轨迹条目:阶段 1 使用分割掩码,阶段 2 使用领域框,阶段 3 使用稀疏领域框,其中少于 10 帧有领域框标注。此外,本文老是将轨迹条目的第一帧斥地为分割掩码,以指定应该挪动的远景对象。
此外,MagicMotion 还提倡了隐分割赔本(latent segment loss),它在模子磨练过程中引入分割掩码信息,增强了模子对物体细粒度口头的感知智力。参议者使用轻量级分割头获胜在隐空间中研究出分割掩码,从而在引入极小推断支出的情况下,无需进行解码操作,匡助模子在生成视频的同期在潜在空间中实行物体分割任务,从而更好地瓦解物体的细粒度口头。
参议者还提倡了一个全新的自动数据处理过程,包括两个主要阶段:数据整理过程(Curation Pipeline)和数据筛选过程(Filtering Pipeline)。数据整理过程认真从大领域的视频 - 文本数据辘集构造轨迹信息,而数据筛选过程则确保在磨练前移除不合适的视频。
施行与末端
MagicMotion 的每个阶段皆在 MagicData 上磨练一个轮次。磨练过程包括三个阶段。阶段 1 从零起初磨练轨迹限度收集(Trajectory ControlNet)。在阶段 2 中,使用阶段 1 的权重进一步优化轨迹限度收集(Trajectory ControlNet),同期从零起初磨练分割头(Segment Head)。终末,在阶段 3 中,轨迹限度收集(Trajectory ControlNet)和分割头(Segment Head)皆使用阶段 2 的权重连续磨练。参议者接受 AdamW 动作优化器,通盘磨练施行均在 4 张 NVIDIA A100-80G GPU 上进行,学习率设为 1e-5。
参议者将 MagicMotion 与 7 种流行的轨迹可控图像到视频(I2V)轨范进行了对比,在 MagicBench 和 DAVIS 上对通盘轨范进行评估。
自拍别人女友在线末端如下表所示,MagicMotion 在 MagicBench 和 DAVIS 上的通盘目的上皆优于以往的通盘轨范,这标明它粗略生成更高质料的视频并兑现更精确的轨迹限度。
此外,本文凭据受控对象的数目评估了每种轨范在 MagicBench 上的性能。如下图所示,MagicMotion 轨范在通盘受控物体数目的类别中皆得到了最好末端,进一步讲解了该轨范的优胜性。
定性对比末端
如下图所示,Tora 粗略精确限度畅通轨迹,但难以精确保捏物体的口头。DragAnything 、ImageConductor 和 MotionI2V 在 保捏主体一致性方面存在宝贵,导致后续帧中出现显然的形变。同期,DragNUWA、LeviTor 和 SG-I2V 生成的末端时时出现视频质料下面和细节不一致的问题。比较之下,MagicMotion 粗略使挪动的物体平滑地沿指定轨迹畅通,同期保捏高质料的视频生成后果。
论文地址:https://arxiv.org/abs/2503.16421
论文主页:https://quanhaol.github.io/magicmotion-site/
代码流畅:https://github.com/quanhaol/MagicMotion
一键三连「点赞」「转发」「防备心」
迎接在指摘区留住你的念念法!
— 完 —
学术投稿请于使命日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿实质
附上论文 / 神态主页流畅,以及干系方式哦
咱们会(尽量)实时回应你
� � 点亮星标 � �
科技前沿阐扬逐日见浆果儿 女同