该论文提出了一个为多模态设想的概率建模框架 UniDiffuser,除了单向的文生图,还能真现图生文、图文结折生成、无条件图文生成、图文改写等多种罪能。
据悉 GPT-4 将于原周发布,多模态将成为其一大亮点。当前的大语言模型正正在成了解各类模态的通用接口,能够依据差异模态信息来给出回复文原,但大语言模型生成的内容也仅仅局限于文原。另一方面,当前的扩散模型 DALL・E 2、Imagen、Stable Diffusion 等正在室觉创做上掀起一场革命,但那些模型仅仅撑持文到图的单一跨模态罪能,离通用式生成模型另有一定距离。而多模态大模型将能够打通各类模态才华,真现任意模态之间转化,被认为是通用式生成模型的将来展开标的目的。
清华大学计较机系墨军教授带领的 TSAIL 团队近期公然的一篇论文《One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale》,率先发布了对多模态生成式模型的一些摸索工做,真现了任意模态之间的互相转化。
论文链接:hts://ml.cs.tsinghua.eduss/diffusion/unidiffuser.pdf
开源代码:hts://githubss/thu-ml/unidiffuser
该论文提出了一个为多模态设想的概率建模框架 UniDiffuser,并给取该团队提出的基于 transformer 的网络架构 U-xiT,正在开源的大范围图文数据集 LAION-5B 上训练了一个十亿参数质的模型,使得一个底层模型能够高量质地完成多种生成任务(图 1)。简略来讲,除了单向的文生图,还能真现图生文、图文结折生成、无条件图文生成、图文改写等多种罪能,大幅提升文图内容的消费效率,也进一步提升了生成式模型的使用想象力。
该论文一做鲍凡目前博士正在读,是此前 Analytic-DPM 的提出者,仰仗正在扩散模型方面的良好工做荣获 ICLR 2022 的 outstanding paper award(目前唯逐个篇大陆单位独立完成的获奖论文)。
另外,呆板之心之前还报导过 TSAIL 团队提出的 ,目前仍是扩散模型最快的生成算法。多模态大模型正是该团队正在深度概率模型的算法和本理方面上历久深刻积攒的一个会合展示。该工做的竞争者蕴含人民大学高瓴人工智能学院的李崇轩、北京智源钻研院的曹越等。
值得留心的是,该项宗旨论文和代码均已开源。
成效展示
如下的图 8 展示了 UniDiffuser 正在图文结折生成的成效:
如下的图 9 展示了 UniDiffuser 正在文到图上的成效:
如下的图 10 展示了 UniDiffuser 正在图到文上的成效:
如下的图 11 展示了 UniDiffuser 正在无条件图像生成上的成效:
如下的图 12 展示了 UniDiffuser 正在图像改写上的成效:
如下的图 15 展示了 UniDiffuser 能够真如今图文两个模态之间的来回跳跃 :
如下图 16 展示了 UniDiffuser 能对真正在的两张图像停行插值:
办法概览
钻研团队将针对通用生成式模型的设计分别红了两个子问题:
概率建模框架:能否能寻找到一个概率建模框架,能同时建模出模态之间所有的分布,譬喻图文之间的边缘分布、条件分布、结折分布等?
网络架构:能否能设想出一个统一的网络架构,来撑持各类差异模态的输入?
概率建模框架
针对概率建模框架,钻研团队提出 UniDiffuser,一个基于扩散模型的概率建模框架。UniDiffuser 能够显示地建模多模态数据中蕴含边缘分布、条件分布、结折分布正在内的所有分布。钻研团队发现,对于差异分布的扩散模型进修都可以统一成一个室角:首先向两个模态的数据划分参预某种大小的噪声,而后再预测两个模态数据上的噪声。此中两个模态数据上的噪声大小决议了详细的分布。譬喻,将文原的噪声大小设置为 0,则对应了文生图的条件分布;将文原噪声大小设置为最大值,则对应了无条件图像生成的分布;将图文噪声大小设置为雷同,则对应了图文的结折分布。依据该统一的室角,UniDiffuser 只须要将本始扩散模型的训练算法作少许的批改,便能同时进修上述的所有分布 — 如下图所示,UniDiffuser 同时向所有模态加噪而非单个模态,输入所有模态对应的噪声大小,以及预测所有模态上的噪声。
以双模态为例子,最末的训练目的函数如下所示:
此中
正在训练后,通过向噪声预测网络设置两个模态适宜的光阳,UniDiffuser 能够真现无条件、条件以及结折生成。譬喻将文原的光阳设置为 0,可以真现文到图生成;将文原的光阳设置为最大值,可以真现无条件图像生成;将图文光阳设置为雷同值,可以真现图文结折生成。
下面胪列了 UniDiffuser 的训练和采样算法,可见那些算法相对本始的扩散模型均只作了微小的改变,易于真现。
另外,由于 UniDiffuser 同时建模了条件分布和无条件分布,因而 UniDiffuser 自然地撑持 classifier-free guidance。下面的图 3 展示了 UniDiffuser 的条件生成和结折生成正在差异的 guidance scale 下的成效:
网络架构
针对网络架构,钻研团队提出运用基于 transformer 的架构来参数化噪声预测网络。详细地,钻研团队给取了最近提出的 U-xiT 架构。U-xiT 将所有的输入都室做 token,并正在 transformer 块之间参预了 U 型连贯。钻研团队也给取了 Stable Diffusion 的战略,将差异模态的数据都转换到了隐空间再停行扩散模型的建模。值得留心的是,U-xiT 架构同样来自该钻研团队,并且已被开源正在 hts://githubss/baofff/U-xiT。
实验结果
UniDiffuser 首先和 xersatile Diffusion 停行了比较。xersatile Diffusion 是已往的一个基于多任务框架的多模态扩散模型。首先 UniDiffuser 和 xersatile Diffusion 停行了文到图上的成效比较。如下面的图 5 所示,正在差异的 classifier-free guidance scale 下,UniDiffuser 正在 CLIP Score 和 FID 目标上均要好于 xersatile Diffusion。
而后 UniDiffuser 和 xersatile Diffusion 停行了图到文上的成效比较。如下面的图 6 所示,UniDiffuser 正在图到文上有更好的 CLIP Score。
UniDiffuser 也和公用的文到图模型正在 MS-COCO 上停行了 zero-shot FID 的比较。如下面的表 1 所示,UniDiffuser 可以和公用的文到图模型得到可比的成效。
内容中包孕的图片若波及版权问题,请实时取咱们联络增除