当前位置:首页>全部工具>AI绘画>ELLA – 腾讯开源文生图扩散模型,利用LLM增强语义对齐,本地整合包,免训练,一键运行,效果赶超DALL-E~

ELLA – 腾讯开源文生图扩散模型,利用LLM增强语义对齐,本地整合包,免训练,一键运行,效果赶超DALL-E~

一、ELLA是什么?

ELLA(Efficient Large Language Model Adapter,高效大型语言模型适配器)由腾讯研究人员开发。该技术旨在提高文本到图像生成模型在处理复杂文本提示时的语义对齐能力。通过整合大型语言模型(LLM),ELLA极大增强了模型的文本对齐性能,而这一切无需对U-Net或LLM进行额外的训练。

二、ELLA的网站地址:

1、Github开源地址:

https://github.com/TencentQQGYLab/ELLA

2、项目地址:

https://ella-diffusion.github.io/

3、论文地址:

https://arxiv.org/abs/2403.05135

三、ELLA的功能特性:

  1. 语义对齐增强:通过与大型语言模型(LLM)的结合,ELLA提升了扩散模型对文本提示中的多样对象、细节属性以及复杂关系的理解,生成与文本提示更加匹配的图像。
  2. 时序感知语义提取:ELLA的Timestep-Aware Semantic Connector(TSC)模块能够根据扩散过程中的不同时间步骤动态提取语义信息,让模型在图像生成的不同阶段重点关注相应的文本内容。
  3. 无需重新训练:ELLA的独特设计使其能够直接应用于现有的预训练LLM和U-Net模型,免除了额外训练的需求,节约了大量计算资源和时间。
  4. 高度兼容性:ELLA能够无缝集成进现有的社区模型(例如Stable Diffusion)和下游工具(例如ControlNet),增强它们处理复杂文本提示时的性能。
  5. 灵活的token长度:在 ELLA 的训练过程中,使用了长合成字幕,最大 token 数量设置为 128。在使用短字幕测试 ELLA 时,除了前面提到的字幕上采样技术外,还可以使用“flexible_token_length”技巧。这涉及将标记生成器设置max_lengthNone,从而消除任何文本标记填充或截断。我们观察到,这个技巧可以帮助提高与短标题相对应的生成图像的质量。

四、ELLA的模型概述:

扩散模型在文本到图像生成领域表现出了卓越的性能。然而,这些模型中的大多数仍然使用 CLIP 作为文本编码器,这限制了它们理解密集提示的能力,这些提示包含多个对象、详细属性、复杂关系、长文本对齐等。在本文中,我们引入了E高效的大型语言模型适配器称为 ELLA,它为文本到图像的扩散模型配备了强大的大型语言模型 (LLM),以增强文本对齐 没有接受过 U-Net 或 LLM 的培训。为了无缝桥接两个预训练模型,我们研究了一系列语义对齐连接器设计,并提出了一个新颖的模块,即时间步感知语义连接器(TSC),它可以从 LLM 中动态提取与时间步相关的条件。我们的方法适应去噪过程不同阶段的语义特征,协助扩散模型解释采样时间步长的冗长而复杂的提示。此外,ELLA 可以轻松地与社区模型和工具结合,以提高其提示跟踪能力。为了评估密集提示跟踪中的文本到图像模型,我们引入了密集提示图基准(DPG-Bench),这是一个由 1K 密集提示组成的具有挑战性的基准。大量实验证明,与最先进的方法相比,ELLA 在密集提示跟踪方面具有优越性,特别是在涉及不同属性和关系的多个对象组合中。

我们提出了一种新颖的轻量级方法 ELLA,为现有的基于 CLIP 的扩散模型配备强大的 LLM。无需经过 U-Net 和 LLM 的训练,ELLA 就可以提高提示跟随能力,并实现文本到图像模型的长密集文本理解。

我们设计了一个时间感知语义连接器,以在各个去噪阶段从预训练的 LLM 中提取与时间步相关的条件。我们提出的 TSC 在采样时间步长上动态调整语义特征,从而有效地在不同的语义级别上调节冻结的 U-Net。

ELLA - 腾讯开源文生图扩散模型,利用LLM增强语义对齐,本地整合包,免训练,一键运行,效果赶超DALL-E~

五、ELLA与主流AI模型对比:

ELLA - 腾讯开源文生图扩散模型,利用LLM增强语义对齐,本地整合包,免训练,一键运行,效果赶超DALL-E~
ELLA - 腾讯开源文生图扩散模型,利用LLM增强语义对齐,本地整合包,免训练,一键运行,效果赶超DALL-E~
ELLA - 腾讯开源文生图扩散模型,利用LLM增强语义对齐,本地整合包,免训练,一键运行,效果赶超DALL-E~

ELLA、SDXL、PixArt-alpha、Playground v2 和 DALL-E 3 之间的比较。左侧四列仅包含 1 或 2 个实体,但右侧四列对应于具有 2 个以上实体的密集提示。所有提示均源自 PartiPrompts。

ELLA - 腾讯开源文生图扩散模型,利用LLM增强语义对齐,本地整合包,免训练,一键运行,效果赶超DALL-E~

经过训练后,ELLA 可以无缝集成社区模型和 LoRA 和 ControlNet 等下游工具,从而改善其文本图像对齐。

ELLA - 腾讯开源文生图扩散模型,利用LLM增强语义对齐,本地整合包,免训练,一键运行,效果赶超DALL-E~

六、如何使用ELLA?

为了让更多用户能够轻松体验这一技术,我们将ELLA打包成了一键启动包。现在,您无需繁琐地配置Python环境,只需简单点击即可启动程序,从而避免了潜在的环境配置问题。

  1. 下载压缩包,解压到电脑D盘,最好不要有中文路径;
  2. 解压后点击 启动.bat 文件即可运行;
  3. 浏览器访问:http://127.0.0.1:8082/,即可免费使用ELLA。
ELLA - 腾讯开源文生图扩散模型,利用LLM增强语义对齐,本地整合包,免训练,一键运行,效果赶超DALL-E~
下载权限
查看
  • 免费下载
    评论并刷新后下载
    登录后下载
  • {{attr.name}}:
您当前的等级为
登录后免费下载登录 小黑屋反思中,不准下载! 评论后刷新页面下载评论 支付以后下载 请先登录 您今天的下载次数(次)用完了,请明天再来 支付积分以后下载立即支付 支付以后下载立即支付 您当前的用户组不允许下载升级会员
您已获得下载权限 您可以每天下载资源次,今日剩余
1、山鲸AI所有文章,如无特殊说明或标注,均为本站作者原创发布。
2、任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。
3、如若此作者内容侵犯了原著者的合法权益,可联系客服提交工单进行处理。
4、山鲸AI内用户所发表的所有内容及言论仅代表其本人,并不反映任何山鲸AI之意见及观点。
AI绘画

AnyText - 精准控制中文汉字的AI绘图工具,动动嘴皮子,就能出电商大促海报,一键整合包,开箱即用,阿里开源

2024-4-7 23:47:07

AI绘画

StoryDiffusion - 专业漫画绘本生成AI工具,保持风格角色一致性,连贯性视觉故事,本地整合包,输入文字一键生成~

2024-5-7 23:41:58

!
你也想出现在这里? 立即联系
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索
error: 您点击的内容受到保护~