你的位置:ai换脸刘涛 > 色表姐 > >大奶喵喵酱 13.8倍隐约提高!浙大上海AI Lab等提议视觉生成新范式,从“下一个token”到“下一个邻域”
热点资讯
色表姐

大奶喵喵酱 13.8倍隐约提高!浙大上海AI Lab等提议视觉生成新范式,从“下一个token”到“下一个邻域”

发布日期:2025-04-01 13:40    点击次数:127

大奶喵喵酱 13.8倍隐约提高!浙大上海AI Lab等提议视觉生成新范式,从“下一个token”到“下一个邻域”

在图像 / 视频生成任务中大奶喵喵酱,传统的"下一个 token 展望"措施正面对严重的效果瓶颈。

何如办?

来自浙大、上海 AI Lab 等机构的推敲东说念主员提议了一种全新的视觉生成范式——临近自讲究建模(Neighboring Autoregressive Modeling, NAR)。与传统的"下一个 token 展望"不同,NAR 模子摄取了"下一个邻域展望"的机制,将视觉生成经由视为一种迟缓膨胀的"外绘"经由。

具体来说,NAR 模子从开动 token 脱手,按照与开动 token 的曼哈顿距离从小到大次序生成 token。这种生成法例不仅保留了视觉践诺的空间和时分局部性,还允许模子在生成经由中并行展望多个相邻的 token。

为了完毕这少量,推敲东说念主员引入了维度导向的解船埠,每个头厚爱在空间或时分的一个正交维度上展望下一个 token。

通过这种格式,NAR 模子简略在每一步中并行生成多个 token,从而大幅减少了生成所需的模子前向计较门径。

底下具体来看。

从"下一个 token "到"下一个邻域"

在现时的 AI 领域,视觉生成任务(如图像和视频生成)正变得越来越热切。岂论是生成传神的图像,也曾创造连贯的视频,AI 模子的发达皆在不休提高。

然则,现存的视觉生成模子,尤其是基于自讲究(Autoregressive, AR)的模子,面对着严重的效果瓶颈。

传统的自讲究模子频繁摄取"下一个 token 展望"的范式,即按照光栅法例逐一生成图像或视频的 token。这种措施天然通俗直不雅,但在生成高永诀率图像或长视频时,模子需要进行数千次甚而数万次的前向计较,导致生成速率极其缓慢。

更倒霉的是,现存的加快措施经常以烽火生成质料为代价。

举例,一些措施尝试通过并行生成多个 token 来提高效果,但由于临近图像 token 之间的强相关性以及高下文信息的缺失,这种措施容易导致生成质料下跌。

因此,如安在保握高质料生成的同期,大幅提高生生效果,成为了视觉生成领域的一个要道挑战。

为了贬责上述问题,推敲东说念主员提议了临近自讲究建模(NAR)。

正如一发轫提到的,通过引入维度导向的解船埠,使每个头厚爱在空间或时分的一个正交维度上展望下一个 token,最终让 NAR 模子简略在每一步中并行生成多个 token,从而大幅减少了生成所需的模子前向计较门径。

值得一提的是,维度导向的解船埠假想出奇无邪,简略应酬膨胀到更高维的视觉践诺生成。

举例,在视频生成任务中,视频不错被视为三维数据(时分、行、列),NAR 模子只需增多一个时分维度的解船埠,即可在时分、行、列三个正交维度上并行生成 token。

关于由 t × n × n 个 token 暗意的视频,NAR 模子仅需 2n+t − 2 步即可完成生成经由,远远少于传统"下一个 token 展望"模子所需的 tn2   步。

这一显耀的效果提高使得 NAR 模子在处理高永诀率视频生成任务时具有极大的上风。

13.8 倍隐约提高

推敲东说念主员在多个视觉生成任务上对 NAR 模子进行了全面评估,实验按捺令东说念主激越:

1、类别图像生成

在 ImageNet 256 × 256 数据集上,领有 372M 参数的 NAR-L 取得了比领有 1.4B 参数的 LlamaGen-XXL 更低的 FID(3.06 vs. 3.09),同期将生成步数减少了 87.8% 并带来了13.8 倍的隐约提高 ( 195.4 images/s vs. 14.1 images/s ) 。

888米奇第四色在线av

与 VAR-d16 模子比拟,NAR-M 取得了更低的 FID 的同期(3.27 vs. 3.30),能带来 92% 的隐约提高(248.5 images/s vs. 129.3 images/s)。

这评释与现存的自讲究生成措施比拟,NAR 模子在生生效果和质料上均取得了显耀提高。

2、类别视频生成

在 UCF-101 数据集上,NAR 模子比拟基于"下一个词展望"(next-token prediction)的自讲究模子在生成门径上减少了 97.3%。

比拟并行解码措施 PAR,NAR 在 FVD 更低的同期将隐约提高了 8.6 倍。

这获利于 NAR 模子在时分维度上的并行生成智商,确保了视频帧之间的连贯性和高质料生成。

3、文本到图像生成

在 GenEval 基准测试中,NAR 模子仅使用了 0.4% 的测验数据(6M)便获取了和 Stable Diffusion v1.5 相握平的综合得分。

与参数目更大且领有 1.4B 测验数据的 Chameleon-7B 模子比拟,NAR 的综合得分更高(0.43 vs. 0.39)且将隐约率提高了 166 倍。

这些实验按捺不仅评释注解了 NAR 模子在生生效果上的坚韧上风,还展示了其在生成质料上的不凡发达。

综合而言,NAR 模子为视觉生成任务提供了一种高效且高质料的贬责有策画,有望在往常的 AI 愚弄中阐扬热切作用。

更多细节宽宥查阅原论文。

论文地址:

https://www.arxiv.org/abs/2503.10696

技俩主页:

https://yuanyu0.github.io/nar/

代码地址:

https://github.com/ThisisBillhe/NAR

一键三连「点赞」「转发」「防御心」

宽宥在驳倒区留住你的思法!

—  完  —

学术投稿请于责任日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿践诺‍

附上论文 / 技俩主页连气儿,以及相关格式哦

咱们会(尽量)实时回应你

� � 点亮星标 � �

科技前沿进展逐日见大奶喵喵酱



上一篇:大奶喵喵酱 诗词原创《鹊桥仙・相想》
下一篇:小母狗 文爱 超巨造作!澳大利亚国门马修-瑞安禁区内带球拌蒜,法甲送大礼
友情链接: