首先,将图像编码为多尺度的token映射,然后,自回归过程从1×1token映射开始,并逐步扩展分辨率。
【新智元导读】NeurIPS 2024最佳论文终于正式揭晓了!今年,来自北大字节,以及新加坡国立大学等机构的团队摘得桂冠。
今年,NeurIPS 2024的总投稿数量再创新高,共有15000多篇论文提交,录用率为25.8%。
LLM 能够结合论文内容和清单要求,为作者提供具体的反馈。对于清单中的15个问题,LLM通常会针对每个问题提供4-6个不同且具体的反馈点。
从研究内容主题的整体分布来看,主要集中在大模型、文生图/文生视频、强化学习、优化这四大块。
通过反向模式自动微分(AD)的重复应用,计算函数F(⋅)的二阶梯度的计算图。该函数包含4个基本操作(L=4),用于计算Hessian矩阵与向量的乘积。红色节点表示在第二次反向传播过程中出现的余切节点。随着向量-雅可比积(VJP)的每次重复应用,顺序计算的长度会加倍
第二阶段,通过下一尺度预测对VAR Transformer进行训练:它以低分辨率token映射 ([s],r1,r2,…,rK−1)作为输入,预测更高分辨率的token映射 (r1,r2,r3,…,rK)。训练过程中,使用注意力掩码确保每个rk仅能关注 r≤k。训练目标采用标准的交叉熵损失函数,用于优化预测精度。
该计算图显示了函数F的二阶导数d⊃2;F,其中F包含4个基本操作,参数θi被省略。最左侧的第一列表示输入的二阶射流(2-jet)
如今,虽然存在着不准确性和偏见等风险,但LLM已经开始被用于科学论文的审查工作。
除此之外,大会还公布了「数据集与基准」赛道的最佳论文,以及主赛道最佳论文奖委员会,数据集和基准赛道最佳论文奖委员会。
不出所料,今年两篇最佳论文分别颁给了,和新加坡国立大学Sea AI Lab团队。
实验证明,VAR在多个维度上超越了扩散Transformer(DiT),包括图像质量、推理速度、数据效率和可扩展性。
总的来说,这项研究具有重要的社会价值,并推动了关于RLHF中多元化和分歧的研究。
今年,是NeurIPS第38届年会,于12月9日-15日在加拿大温哥华正式拉开帷幕。
再细分来看,机器视觉、自然语言处理、强化学习、学习理论、基于扩散的模型是最热的5个线名参会者,也创下历年新高。