当前位置:首页>全部工具>AI绘画>AnyText – 精准控制中文汉字的AI绘图工具,动动嘴皮子,就能出电商大促海报,一键整合包,开箱即用,阿里开源

AnyText – 精准控制中文汉字的AI绘图工具,动动嘴皮子,就能出电商大促海报,一键整合包,开箱即用,阿里开源

AnyText - 精准控制中文汉字的AI绘图工具,动动嘴皮子,就能出电商大促海报,一键整合包,开箱即用,阿里开源

随着人工智能技术的不断发展,视觉文字生成与编辑成为了一个备受关注的领域。AnyText作为一款多语言视觉文字生成与编辑工具,具有强大的功能和广泛的应用场景。

一、AnyText是什么?

AnyText是阿里巴巴智能计算研究院的团队推出的一个基于扩散的多语言视觉文本生成和编辑模型,专注于在图像中渲染准确和连贯的文本。AnyText包括两个主要元素的扩散管线:辅助潜在模块和文本嵌入模块。前者使用文本字形、位置和蒙版图像等输入来生成文本生成或编辑的潜在特征。后者采用OCR模型对笔划数据进行编码,这些编码与来自分词器的图像标题嵌入结合,生成与背景无缝融合的文本。该技术解决了在生成图像中的文本区域时合成文本模糊、不可读或错误的挑战,提高了图像中文本书写的准确性。

AnyText - 精准控制中文汉字的AI绘图工具,动动嘴皮子,就能出电商大促海报,一键整合包,开箱即用,阿里开源

AnyText以其直观易用的界面和强大的功能,吸引了众多用户的关注。它不仅支持多种语言,包括中文、英文、法文、德文等,还提供了丰富的文本编辑选项,如字体、颜色、大小、对齐方式等。通过AnyText,用户可以轻松创建出高质量的文本内容,满足各种场景的需求。

AnyText的技术原理主要基于自然语言处理和机器学习技术。它通过对大量语料库进行训练,使得模型能够理解和生成各种语言的文本内容。同时,AnyText还采用了视觉文本生成技术,将文本与图像相结合,使得生成的文本更加生动、直观。

在实际应用中,AnyText有着广泛的应用场景。在教育领域,教师可以利用AnyText创建多语言的课件、试卷和教材,提高教学效率和质量。在广告行业,设计师可以使用AnyText快速生成多语言的广告文案,满足不同市场的需求。在社交媒体上,AnyText也可以帮助用户快速编辑和分享多语言的内容,扩大影响力。

AnyText通过以下模块的协同工作,AnyText能够在图像中准确地生成和编辑多语言文本,同时保持与背景的无缝融合,具体如下:

  1. 文本控制扩散管道
    • AnyText使用变分自编码器(VAE)对输入图像进行编码,生成一个潜在表示。
    • 然后,通过扩散算法逐步向这个潜在表示中添加噪声,生成一系列时间步骤的噪声潜在图像。
    • 在每个时间步骤,AnyText应用一个网络(TextControlNet)来预测应该添加到噪声潜在图像上的噪声,以控制文本的生成。
  2. 辅助潜在模块
    • 该模块接收文本字形(glyph)、位置(position)和蒙版图像(masked image)作为输入,生成一个辅助潜在特征图。
    • 字形信息通过渲染文本到图像上生成,位置信息标记文本在图像中的位置,掩膜图像指示在扩散过程中应保留的图像区域。
  3. 文本嵌入模块
    • 该模块使用预训练的OCR模型(如PP-OCRv3)来提取文本的笔画信息,并将其编码为嵌入。
    • 这些嵌入与来自分词器的图像标题嵌入结合,生成一个融合的中间表示,然后通过交叉注意力机制映射到UNet的中间层。
  4. 文本感知损失
    • 在训练过程中,AnyText使用文本感知损失来进一步提高文本生成的准确性。
    • 这种损失通过比较生成图像和原始图像中的文本区域来实现,只关注文本本身的正确性,排除背景、字符位置偏差、颜色或字体样式等因素。
  5. 训练和优化
    • AnyText的训练目标是最小化文本控制扩散损失和文本感知损失的加权和。
    • 在训练过程中,模型通过调整权重比(λ)来平衡这两种损失。

二、AnyText的网站地址:

1、Github开源地址:

https://github.com/tyxsspa/AnyText

2、论文地址:

https://arxiv.org/abs/2311.03054

3、ModelScope地址:

https://modelscope.cn/studios/damo/studio_anytext/

4、HuggingFace地址:

https://huggingface.co/spaces/modelscope/AnyText

三、AnyText的功能特色:

  • 多语言支持:AnyText能够生成多种语言的文本,包括中文、英文、日文、韩文等。
  • 多行文本生成:用户可以指定在图像的多个位置生成文本。
  • 变形区域书写:AnyText能够生成水平、垂直甚至曲线或不规则区域内的文本。
  • 文本编辑能力:AnyText提供了修改图像中指定位置文本内容的功能,同时保持与周围文本风格的一致性。
  • 即插即用:AnyText可以无缝集成到现有的扩散模型中,提供生成文本的能力。

四、AnyText的模型概述:

AnyText 包含一个具有两个主要元素的扩散管道:辅助潜在模块和文本嵌入模块。前者使用文本字形、位置和蒙版图像等输入来生成用于文本生成或编辑的潜在特征。后者采用 OCR 模型将笔划数据编码为嵌入,与标记生成器中的图像标题嵌入混合,生成与背景无缝集成的文本。我们采用文本控制扩散损失和文本感知损失进行训练,以进一步提高书写准确性。

AnyText - 精准控制中文汉字的AI绘图工具,动动嘴皮子,就能出电商大促海报,一键整合包,开箱即用,阿里开源

五、AnyText的画廊案例:

AnyText - 精准控制中文汉字的AI绘图工具,动动嘴皮子,就能出电商大促海报,一键整合包,开箱即用,阿里开源
AnyText - 精准控制中文汉字的AI绘图工具,动动嘴皮子,就能出电商大促海报,一键整合包,开箱即用,阿里开源
AnyText - 精准控制中文汉字的AI绘图工具,动动嘴皮子,就能出电商大促海报,一键整合包,开箱即用,阿里开源
AnyText - 精准控制中文汉字的AI绘图工具,动动嘴皮子,就能出电商大促海报,一键整合包,开箱即用,阿里开源
AnyText - 精准控制中文汉字的AI绘图工具,动动嘴皮子,就能出电商大促海报,一键整合包,开箱即用,阿里开源

六、如何使用AnyText?

为了让更多用户能够轻松体验这一技术,我们将AnyText打包成了一键启动包。现在,您无需繁琐地配置Python环境,只需简单点击即可启动程序,从而避免了潜在的环境配置问题。

  • 1、下载压缩包,解压到电脑D盘,最好不要有中文路径;
  • 2、首次使用,需要按下面步骤操作一次:

选择右键开始菜单>> 系统 >> 时间和语言 >>语言和区域 >> 管理语言设置 >> 管理 >> 更改系统区域设置 >> 开启Beta版:使用Unicode UTF-8 提供全球语言支持(U),确定后重启电脑。

AnyText - 精准控制中文汉字的AI绘图工具,动动嘴皮子,就能出电商大促海报,一键整合包,开箱即用,阿里开源
AnyText - 精准控制中文汉字的AI绘图工具,动动嘴皮子,就能出电商大促海报,一键整合包,开箱即用,阿里开源
AnyText - 精准控制中文汉字的AI绘图工具,动动嘴皮子,就能出电商大促海报,一键整合包,开箱即用,阿里开源
  • 3、重启后点击 启动.bat 文件即可运行;
  • 4、浏览器访问:http://127.0.0.1:7860,即可免费使用AnyText。
AnyText - 精准控制中文汉字的AI绘图工具,动动嘴皮子,就能出电商大促海报,一键整合包,开箱即用,阿里开源
下载权限
查看
  • 免费下载
    评论并刷新后下载
    登录后下载
  • {{attr.name}}:
您当前的等级为
登录后免费下载登录 小黑屋反思中,不准下载! 评论后刷新页面下载评论 支付以后下载 请先登录 您今天的下载次数(次)用完了,请明天再来 支付积分以后下载立即支付 支付以后下载立即支付 您当前的用户组不允许下载升级会员
您已获得下载权限 您可以每天下载资源次,今日剩余
1、山鲸AI所有文章,如无特殊说明或标注,均为本站作者原创发布。
2、任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。
3、如若此作者内容侵犯了原著者的合法权益,可联系客服提交工单进行处理。
4、山鲸AI内用户所发表的所有内容及言论仅代表其本人,并不反映任何山鲸AI之意见及观点。
AI绘画

RunDiffusion - 托管式SD绘画聚合云平台,OpenAI旗下产品, 整合所有Stable Diffusion绘画工具,不用再到处找云端了~

2024-4-3 1:35:57

AI绘画开源模型

ELLA - 腾讯开源文生图扩散模型,利用LLM增强语义对齐,本地整合包,免训练,一键运行,效果赶超DALL-E~

2024-4-17 22:40:10

!
你也想出现在这里? 立即联系
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索
error: 您点击的内容受到保护~