全国咨询热线
如今,扩散模型被广泛用于生成图像和视频,并在生成文本或生物序列等离散数据方面变得越来越有效。从技术上讲,与自回归模型相比,扩散模型具有加速生成和提高模型输出可控性的潜力。
目前,离散扩散模型目前面临至少三个限制。首先,在聊天系统等应用中,模型必须生成任意长度的输出序列(例如对用户问题的回答)。但是,大多数最新的扩散架构仅能生成固定长度的向量。其次,离散扩散模型在生成过程中使用双向上下文,因此无法使用 KV 缓存重用以前的计算,这会降低推理效率。第三,以困惑度等标准指标衡量的离散扩散模型,质量落后于自回归方法,进一步限制了其适用性。
具体来讲,块扩散模型(也是半自回归模型)定义了离散随机变量块的自回归概率分布,而给定先前块的条件概率由离散去噪扩散模型指定。
下图为 Block Diffusion 与自回归、扩散模型的生成效果对比:
研究者表示,开发有效的 BD3-LM 面临以下两个挑战:一是使用神经网络的一次标准前向传递无法有效地计算块扩散模型的训练目标,需要开发专门的算法。二是扩散目标梯度的高方差阻碍了训练,导致 BD3-LM 即使在块大小为 1 的情况下(当两个模型等效时)也表现不佳。
因此,研究者推导出梯度方差的估计量,并证明它是自回归和扩散之间困惑度差距的关键因素。然后,他们提出了自定义噪声过程,以实现最小化梯度方差并进一步缩小困惑度差距。
实验部分,研究者在多个语言建模基准上评估了 BD3-LM,并证明它们能够生成任意长度的序列,包括超出其训练上下文的长度。此外,BD3-LM 在离散扩散模型中实现了新的 SOTA 困惑度。与对嵌入进行高斯扩散的替代半自回归方法相比,本文离散方法实现了易于处理的似然估计,并在少一个数量级生成步骤的情况下,生成的样本在困惑度方面得到了改进。
论文一作 Marianne Arriola 发推称,扩散语言模型在并行文本生成领域正在崛起,但与自回归模型相比,它们存在质量、固定长度限制和缺乏 KV 缓存等问题。本文 Block Diffusion 将自回归和扩散模型结合了起来,实现了两全其美。
研究者结合建模范式,从自回归模型中获得更好的似然估计和灵活的长度生成,并从扩散模型中获得了快速的并行生成效果。
研究者提出了一个建模框架,该框架对 token 块进行自回归建模,并在每个块内执行扩散操作。他们对长度为 L′ 的 B 个块进行似然分解,如下所示:
研究者使用简单的离散扩散参数化对每个块的似然进行建模,最终目标是对交叉熵项进行加权总和:
该研究中的块扩散参数化在期望上等同于自回归负对数似然 (NLL)乐虎lehu唯一官网,,特别是在 L′=1 的极限情况下。令人惊讶的是,当在 LM1B 数据集上训练两种模型时,研究发现块扩散模型 (L′=1) 与自回归模型之间存在两点困惑度差距。研究确定扩散目标的高训练方差是导致这一困惑度差距的原因。
BD3-LMs 在扩散模型中实现了最先进的似然水平。研究表明,通过调整块长度 L′,BD3-LMs 可以在扩散和自回归似然之间实现插值。
许多现有扩散语言模型的一个主要缺点是,它们无法生成超过训练时选择的输出上下文长度的完整文档。例如,OpenWebText 包含最长达 131K tokens 的文档,而离散扩散模型 SEDD(Lou 等人)仅限于生成 1024 tokens。研究表明,BD3-LMs 能够通过解码任意数量的块来生成可变长度的文档。
从在 OWT 上训练的模型中抽样 500 个文档得出的生成长度统计信息。
研究者评估了 BD3-LMs 在变长序列上的生成质量,使用相同数量的生成步骤(NFEs)比较了所有方法。他们用 GPT2-Large 模型测量生成序列的困惑度。结果表明,与之前所有的扩散方法相比,BD3-LMs 实现了最佳的生成困惑度。
300 个可变长度样本的生成困惑度 (Gen. PPL;↓) 和功能评估次数 (NFE;↓)。所有模型都在 OWT 上进行训练,上下文长度为 L = 1024,并使用核采样。
对于 MDLM,研究者使用了其分块解码技术(该技术不同于 BD3-LMs 中的分块扩散训练)处理 L=2048 的序列。研究者还与 SSD-LM(Han 等人提出)进行了比较,后者是一种替代性的分块自回归方法(也称为半自回归),它对词嵌入执行高斯扩散,但无法进行似然估计。该研究的离散方法使用比其他方法少一个数量级的生成步骤,产生了具有更好生成困惑度的样本。
同志们,火灾猛如虎!我们经常会在电视、在媒体看到火灾危及人民生命财产安全的新闻报道,有些火灾甚至造成了重大人员伤亡的惨剧!所以我们要居安思危,一旦火灾真的发生,我们能否从容应对,及时撤离?!我们能否有效灭火,把灾害减到最小?!这就体现了消防安全的极端重要性。当然消防安全我认为主要还是要有消防的意识、消防的常识、消防的措施乐虎lehu唯一官网,,特别是要有消防的能力!这次消防演练也主要围绕这些方面来进行,我觉得非常好!
此时,宝骨失落,分成六块,很难被集全。那么多大势力在此,有尊者降临,一方能抢到一块就不错了。
第二百六十章 解脱,云顶娱乐网站官网首页,英亚体育滚球平台,真钱火凤凰棋牌。
03月12日,【理响中国·人民至上@中国式现代化】推动物质文明和精神文明比翼齐飞,
,ManBetx在线日,(寻味中华|侨乡)在梅家大院探寻台山侨圩今昔“电报”创始人被捕 俄罗斯外交部发声,
时事3:澳门威斯尼人网上平台03月12日,乌什县发生7.1级地震 新疆电网全力做好应急抢险,
时事4:新万博mantbex官网03月12日,提效能降风险 广东电力市场开展多月集中竞争交易,
,Z6尊龙官网,线上游戏平台,ag国际线日,南水北调:一渠通南北 清流润万家,
第一个M是道德。还记得三年前你们拿到录取通知书吗,上面有两段英文。第二段的意思是,当你为你的成功庆贺时别忘了含辛茹苦的父母和所有帮助过你的人。这是入学的第一课,百善孝为先,常怀感恩之心。曾经有位母亲在女儿进入一中学习后告诉我,孩子变得懂事了。那是一个周末的中午,母亲在厨房做饭,女儿看着她忙碌的身影,轻轻地说了句妈妈您好辛苦!母亲感慨落泪。同学们,请别吝啬自己的语言,多给父母一点温暖吧。我也不例外。5月21日下午,我的电话铃声响起。电话那头是你们的声音:“老师,6月9日是我们的毕业典礼,您可要回来呀!”离高考只剩半个月的你们,还惦念着这事,让我感动不已!谢谢你们!即将远行的你们,请记得“临行密密缝,意恐迟迟归”中的“密密缝”岂止是母亲的针线!常给父母多一声问候,多一份惦记吧。请记住千万不要让父母担心。这届同学遇到了前所未有的“高考移民”问题。你们为了阻止父母去省厅了解情况,冲着父母嚷叫“你们若去,我就不读书了!”也许你们的出发点是好的,但这样着实不妥。有诗云“由爱固生忧,由爱固生怖”,正是因为父母对孩子有无私的爱,才会为孩子无端生出各种担忧与害怕。你们已经长大了,希望你们懂得父母的不易,对父母孝敬有加。谢谢!
新闻信息服务许可证音像制品出版许可证广播电视节目制作经营许可证网络视听许可证网络文化经营许可证山东省互联网传媒集团主办联系电话 违法不良信息举报电话lehu乐虎,lehu乐虎,lehu乐虎,