-
AnyDoor任意门 - 完美服装替换,一键换装,实现图片上任意元素的挪移变幻,效果出色!!!
AnyDoor的命名灵感来源于其功能与神奇的“任意门”相似,能够实现物体的即时移动。 一、AnyDoor是什么? AnyDoor 是一款创新的AI工具,能够将任何对象(如人物、动物或物品)无缝集成到新的图像或视频场景中。这款扩散的图像生成器,借助先进的算法,实现了在用户指定的位置,以自然和谐的方式将目标对象“传送”到新的场景中,自动调整光线和角度以适应新环境。 由阿里巴巴与香港大学共同研…- 15.1k
-
Manga Image Translator - 日漫图片翻译AI神器,妈妈再也不用担心我看不懂漫画了~
一、Manga Image Translator是什么? Manga Image Translator是一款图片翻译工具,一个使用 Python 打造的开源项目,支持粘贴图片、选择图片或拖放图片进行翻译。该工具可以帮助用户快速翻译图片中的文字,提高工作效率。Manga Image Translator的优势在于翻译速度快、准确度高、操作简单。该工具免费使用,但用户可以通过捐赠支持该服务的维护和开发…- 5.4k
-
Whisper-WebUI - 音视频字幕AI生成翻译工具,免部署,免安装,一键使用
Whisper-WebUI是一个基于Whisper模型的Gradio 的浏览器界面,可以轻松地将其用作字幕生成器! 一、Whisper-WebUI的开源地址: https://github.com/jhj0517/Whisper-WebUI 二、Whisper-WebUI的功能特点: 从多种来源生成字幕,包括: 从音视频文件自动识别字幕 从Youtube链接自动识别字幕 从麦克风输入实时识别字幕 …- 6.3k
-
Lobe Chat - 广受欢迎的在线AI对话聊天机器人,一键部署,免费开源
开源、现代化设计的 ChatGPT/LLMs 聊天应用与开发框架支持语音合成、多模态、可扩展的(function call)插件系统一键免费拥有你自己的 ChatGPT/Gemini/Ollama 应用 一、Lobe Chat是什么? Lobe Chat是一个免费开源的高性能AI聊天机器人框架,提供了高颜值的聊天界面程序和丰富灵活的功能,支持语音合成、多模态、可扩展的插件系统,可一键免费部署私人 …- 3k
-
WNR.AI - 使用模板轻松驾驭AI绘画,注意开启NSFW~
一、WNR.AI是什么? WNR.AI 是一个使用AI模板帮助用户轻松创建提示词的平台。这些AI模板可以将简单的表单转化为复杂的提示词,帮助用户从AI中获取高质量、可靠的结果。这些模板可以保存、分享和重复使用。 二、WNR.AI的官方网址: https://wnr.ai/ 三、WNR.AI可以做什么? 模板灵感来源:WNR.AI可以将你的内容转化为受YC、Sequoia、Asana、McKinse…- 2.4k
-
OOTDiffusion - 本地整合包,一键完美AI换装,虚拟换衣服不再困难,效果超神,支持半身,全身!!!
OOTDiffusion 支持上半身、全身的换装,如果你想要自定义模特或者衣服,需要自己提供背景干净的模特或者衣服模型。对于从事服装销售的行业来说,完全可以依赖AI 虚拟换装的方式生成营销宣传海报,无需聘请高昂的模特和拍摄费用,这是一个低成本的试装方案。 一、OOTDiffusion是什么? OOTDiffusion是一种基于潜在扩散的虚拟试穿技术,其主要目的是通过实现控制性的换装融合,让用户能够…- 13.7k
-
VideoReTalking - 虚拟数字人视频AI工具整合包,同步音频嘴型/面部表情,腾讯出品~
你只需要输入任意一个视频和一个音频文件,它能给你生成一个新的视频,在这个视频里,人物的嘴型会与音频同步。VideoReTalking不仅可以让嘴型与声音同步,还可以根据声音改变视频中人物的表情。整个过程不需要用户干预,都是自动完成的。 一、什么是VideoReTalking? VideoReTalking,这是一种新的AI系统,可以根据输入音频编辑现实世界中头部说话视频的面孔,即使具有不同的情绪,…- 9.6k
-
Sora - OpenAI旗下视频图片生成平台
一、Sora是什么? Sora 是 OpenAI 开发的AI视频生成模型,它能够根据用户的文本描述生成长达 60 秒、1080P 高质量视频,其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。 Sora能够创造出包含多个角色、特定动作类型以及与主题和背景相符的详细场景。这款模型不仅能理解用户的指令,还能洞察这些元素在现实世界中的表现。 Sora对语言有着深刻的理解,能够精准地捕捉到用户的需…- 2k
-
Osprey - 首个像素级别的区域图像分析多模态AI工具
A part of Along the River During the Qingming Festival (清明上河图) Spirited Away (千与千寻) Osprey 是一款创新图像分析AI工具,旨在提升大型语言模型(LLM)对图像的理解能力,精确到像素级别。它使用户能够在图像上选择特定区域,并对这些区域进行深入分析和识别。 一、什么是Osprey? Osprey 是一种掩码文本指令…- 3.2k
-
Logo Diffusion - 全球顶尖LOGO商标生成AI工具,在线一键生成,LOGO生成式AI天花板产品~
今年一月份,官方迎来V3的版本更新,借助从头开始构建的新徽标设计 AI 模型,这是官方迄今为止最雄心勃勃的版本。 一、Logo Diffusion是什么? Logo Diffusion是一个利用生成式AI技术帮助用户快速生成和创建独特Logo标志的工具。只需要输入简单的文本提示,AI会在几秒钟内创建出原创设计。 此外,Logo Diffusion还提供将生成的标志转换成清晰的行业标准矢量文件的功能…- 3.9k
-
v2vt - 视频自动翻译AI工具,本地整合包,HeyGen最佳平替,B站大神免费开源~
hilary duff nude cecile-duquenne 大家最近肯定刷到很多名人说英文的视频,今天分享一个能够将任意语言视频自动翻译成中文的小工具,可以解决语言障碍问题,轻松英文语音转中文。 一、v2vt是什么? 带有口型同步功能的视频翻译的开源项目,可以完成转录视频语音并翻译、语音克隆、口型同步、压制字幕、支持中英视频互相转换等工作。 二、v2vt的开源地址: https://gith…- 4.2k
-
VALL-E - 微软最强AI声音克隆工具,免训练,免安装,本地整合包,三秒偷走你的声音~
该模型支持多种语言(英语、中文和日语)和零样本语音克隆,你只需要提供一个人短短几秒钟的录音(3-10秒),就能模仿出那个人的声音。此外,它还具有语音情感控制和口音控制等高级功能。同时相对于其他模型,它更轻量、更快速… 一、VALL-E是什么? Vall-E AI是微软开发的一款基于人工智能的文本到语音转换器。该工具将文本输入转换为音频,并将其与人的情绪和房间的声学效果相匹配。它可以使用三秒的短音频…- 6.6k
-
Vocal Separate - 极简音乐人声分离AI工具,本地部署,无需网络,支持CPU
glorilla nude julia711 将一首歌曲或者含有背景音乐的音视频文件,拖拽到本地网页中,即可将其中的人声和音乐声分离为单独的音频wav文件,可选单独分离“钢琴声”、“贝斯声”、“鼓声”等 一、Vocal Separate是什么? 这是一个极简的人声和背景音乐分离工具,本地化网页操作,无需连接外网,使用 2stems/4stems/5stems 模型。 二、Vocal Separat…- 5.9k
-
-
Adobe Premiere Pro 将支持 AI 视频编辑功能! 可接入 Sora、Runwa 等模型
Adobe 也宣布将为其旗下的专业视频编辑软件 Premiere Pro 接入一系列生成式 AI 功能,包括添加对象、删除对象、视频内容延长以及根据文本生成视频,为用户提供更便捷精准地视频编辑服务。 Adobe Premiere Pro的AI功能: 1、视频生成Video Generate: AI 技术目前在视频生成领域有广泛应用,出现了很多成熟的工具,比如 Sora、Runway、Pi…- 2.4k
-
DDColor - 阿里AI老照片上色一键修复工具
一、什么是DDColor? 🎨DDColor 是最新的 SOTA 图像上色算法,能够对输入的黑白图像生成自然生动的彩色结果,使用 UNet 结构的骨干网络和图像解码器分别实现图像特征提取和特征图上采样,并利用 Transformer 结构的颜色解码器完成基于视觉语义的颜色查询,最终聚合输出彩色通道预测结果。 🪄 DDColor 可以为历史黑白老照片提供生动自然的着色。 🎲 它甚至可以对动漫游戏中的…- 4.7k
-
OMS-Diffusion - AI换装升级版来了,虚拟试衣间,本地整合包,免训练,免安装
OMS-Diffusion 是OOTDiffusion的分支版本,与原来的 OOTDiffusion 训练两个 Unet 不同,OMS-Diffusion 只训练一个 Unet,这意味着一台 24GB 内存的机器(3090 或 4090)就足够了。 如今已有很多关于虚拟试穿的项目,如谷歌的Tryon Diffusion, 阿里的Outfit Anyone, 亚马的Diffuse to Choose…- 6.1k
-
WinkStudio - 美图旗下专业视频人像精修AI工具,像修图一样修视频,操作如此简单,支持Windows/MacOS
像修图一样修视频,操作如此简单~ 一、WinkStudio 是什么? 专业的视频人像精修工具,让你的视频创作更高效。全面的美颜美妆等视频人像精修功能,可自由定制美容参数,批量处理视频。搭载强大的AI工具箱,提供画质修复、AI动漫、水印消除等常用功能支持。 “Winkstudio”类似“开拍”,但功能更丰富,定制性更高,添加了“瑕疵消除”、“一键抠像”、“AI 美颜调色”等功能,还具有一些滤镜,例如…- 25.2k
-
ASR - 视频/语音自动生成字幕工具,本地整合包,AI视频剪辑必备神器~
一、ASR是什么? ASR全称Automatic Speech Recognition,自动语音识别也称为语音转文本 (STT),是将给定音频转录为文本的任务。它有很多应用,例如语音用户界面。 二、ASR的项目地址: https://huggingface.co/tasks/automatic-speech-recognition 三、ASR的使用场景: 1、虚拟语音助手 许多边缘设备都有嵌入式虚…- 3.7k
-
TeleChat - 星辰语义AI对话大模型,中国电信出品,免费开源
一、TeleChat是什么? 星辰语义大模型TeleChat是由中电信人工智能科技有限公司研发训练的大语言模型,其中7B模型基座采用1.5万亿 Tokens中英文高质量语料进行训练,12B模型基座采用3万亿 Tokens中英文高质量语料进行训练。 我们开源了对话模型TeleChat-7B-bot与TeleChat-12B-bot,以及其huggingface格式的权重文件。此外,我们还开源了7B、…- 2.3k
-
DemoFusion - 专业优化放大AI图像/细节增强高清神器,无需$$$
DemoFusion 是一款能够显著提高图像分辨率的增强工具。它允许用户将图像的分辨率提升至原来的4倍、16倍甚至更高,不仅增强图片的清晰度,还能够细化图片中的小细节,如纹理和边缘,创造出更为自然和逼真的视觉效果。DemoFusion 与基于潜在扩散模型(LDM)的多种应用无缝集成,例如ControlNet,同时还能放大真实世界中拍摄的图像。 一、DemoFusion的技术剖析: 使用生…- 4.8k
-
DeepFaceLab - 官方原生AI换脸软件,开箱即用,可支持A卡和N卡~
DeepFaceLab(后面简称DFL)是一个GitHub上的一个开源项目,用于视频换脸,使用Python编写,基于Tensorflow框架。DFL是目前开源软件中最好用的AI换脸软件之一,现在还在不断更新,同时作者也在开发DeepFaceLive,用于实时换脸。哔哩哔哩上很多换脸视频都是基于此框架,包括著名的肌肉金轮。 一、DeepFaceLab是什么? Deepfacelab是一款基于深度学习…- 9k
-
-
DiffBIR - 新一代高质量图像修复技术AI工具(支持Google Colab)
在人工智能照片修复方面,我们通常会想到像SD(StyleGAN等)这类的生成式对抗网络。然而,这些模型有时候会在图像修复过程中“发挥过头”,导致生成的图片与原始内容大相径庭。 本次我们要分享的AI照片修复工具,有效解决了上述问题。这个工具不仅能够有效去除图片噪声、模糊等问题,还能复原老照片中褪色或缺失的细节,使其看起来更加鲜活和真实。同时,保证修复后的图片忠实于原图内容。这一突破性的算法模型被称为…- 9.6k



























