-
👕👔👚IDM-VTON – 超真实的一键虚拟换装AI工具,支持户外模特,虚拟试衣间,在线免费使用
一、IDM-VTON 是什么? IDM-VTON(Improved Diffusion Models for Virtual Try-ON)是由韩国科学技术院和OMNIOUS.AI的研究人员提出的一种先进的AI虚拟试穿技术,通过改进扩散模型来生成逼真的人物穿戴图像,实现更真实的虚拟试穿效果。该技术包含两个关键组件:一是视觉编码器,用于提取服装图像的高级语义信息;二是GarmentNet,一个并行U…- 1.4k
-
MagicTime – 高质量延时视频生成AI工具,本地整合包,一键制作生长动画,北大开源
马斯克克星,又一开源Sora模型火了,已开源! 一、MagicTime 是什么? 由北京大学团队研发的MagicTime是一个创新性的框架,旨在生成具有可变时间特性的延时视频(又称为Metamorphic Videos)。这意味着用户能够仅通过输入文本提示,就能创造出展示物体随时间变化过程的延时摄影视频。比如花朵开放,冰块融化等,能够学习并应用现实世界的物理规律。 这个项目通过分析大量的时间延迟视…- 1.2k
-
Fish Speech – 低显存高效语音克隆生成AI工具,免训练,免安装,本地整合包,复制声音如此轻松~
高效的低显存语音克隆工具,媲美GPT-SoVITS! 一、Fish Speech是什么? Fish Speech 是一个全新的文本转语音(TTS)解决方案。作为一个前沿的技术,它提供了高度的自定义和灵活性,允许用户按照他们的个性化需求和期望进行设置。适应多元化环境,可无缝兼容 Linux 和 Windows 操作系统,一站式满足不同用户群体的需求。为了运行此程序,您需要至少 4GB 的 GPU 内…- 1.9k
-
StoryDiffusion – 专业漫画绘本生成AI工具,保持风格角色一致性,连贯性视觉故事,本地整合包,输入文字一键生成~
这个Story Diffusion很强大,输入你的照片,然后再写一些 prompt ,就可以生成和你模样一致的漫画故事书,而且还可以生成视频,太强大了! 一、StoryDiffusion是什么? StoryDiffusion 是由南开大学HVision团队开发的创新人工智能工具。它的核心功能是生成连贯的图像和视频故事,尤其擅长于漫画创作。该工具采用了先进的一致性自注意力(Consistent Se…- 1.6k
-
ELLA – 腾讯开源文生图扩散模型,利用LLM增强语义对齐,本地整合包,免训练,一键运行,效果赶超DALL-E~
一、ELLA是什么? ELLA(Efficient Large Language Model Adapter,高效大型语言模型适配器)由腾讯研究人员开发。该技术旨在提高文本到图像生成模型在处理复杂文本提示时的语义对齐能力。通过整合大型语言模型(LLM),ELLA极大增强了模型的文本对齐性能,而这一切无需对U-Net或LLM进行额外的训练。 二、ELLA的网站地址: 1、Github开源地址: ht…- 718
-
零一万物 – 首款开源中英双语大模型,本地部署包,免训练,免安装,李开复最快AI独角兽开源项目~
支持输入30万汉字,看不懂《百年孤独》的人有救了 一、零一万物是什么? 知名投资人、创新工场董事长兼CEO李开复博士带队创办 AI 2.0大模型公司“零一万物”(01.AI),正式发布首款研发的最强开源人工智能(AI)大模型系列,名为“Yi”。 此次 Yi 系列基础模型的首个公开版本包括两款:Yi-6B(数据参数量为60亿)、Yi-34B(340亿),均是双语(英文/中文)、支持开源。其中,Yi-…- 2.7k
-
FRESCO – 一键视频风格转换AI工具,告别复杂工作流,北京大学开源,本地整合包,一键运行~
北京大学近日发布了一项全新的视频风格转换工具——FRESCO。这一工具旨在简化视频转视频的处理流程,使之更加便捷、高效。FRESCO支持将视频转换为多种不同的风格,并且独特之处在于,它可以选择性地转换视频中特定的部分。值得一提的是,该项目的代码已经开源,供广大研究人员和爱好者使用和探索。 一、FRESCO是什么? FRESCO在设计时考虑了帧间对应关系,并引入了帧内对应概念,从而构建了一个更加稳定…- 2.5k
-
APISR – 专注二次元动漫图像分辨率增强,无损放大AI神器,让漫画焕然一新,动漫爱好者的福音~
APISR:动漫制作启发现实世界动漫超分辨率 APISR旨在恢复和增强低质量、低分辨率的动漫图像和视频源,这些图像和视频源与现实世界场景相比存在各种退化。 一、APISR是什么? APISR 是一个新的放大算法,专门用于恢复和增强各种低质量、低分辨率的动漫图像和视频,其模型代码已经开源,并且有免费的在线 Demo 可以体验。试了一下效果的确非常不错,可以有效提升线条细节的清晰度,并且色彩的还原度也…- 2.4k
-
DiffSynth Studio – 专业视频“三渲二”风格转绘/换衣,递进式AI绘图工具,最佳DomoAI本地平替,国内B站大神开源~
在数字内容创作的领域,扩散模型已经崭露头角,成为图像合成技术中的一股不可忽视的力量。然而,当这些模型被应用到视频合成时,它们往往面临着一系列挑战,比如内容闪烁等问题。针对这一问题,最新研发的 DiffSynth 方法便应运而生,它将图像合成技术巧妙地延伸至视频领域,取得了令人瞩目的成果。 一、DiffSynth Studio是什么? DiffSynth Studio 不仅仅是一个工具,它融合了多项…- 5.1k
-
Cutie – 高质量视频一键精准抠像分离AI工具,短视频剪辑利器,视频换背景、去人物原来如此简单!
Cutie用于自动识别和追踪视频里的特定物体,比如一个人或一辆车。假设你有一段视频,里面有很多人和物体在移动,Cutie可以自动找出其中一个特定的人并一直追踪他。 一、Cutie是什么? Cutie 是一个视频对象分割框架,是XMem的后续作品,具有更好的一致性、鲁棒性和速度。该存储库包含用于标准视频对象分割的代码和用于交互式视频分割的 GUI 工具。 GUI 工具还包含“永久内存”(来自XMem…- 2.4k
-
v2vt – 视频自动翻译AI工具,本地整合包,HeyGen最佳平替,B站大神免费开源~
大家最近肯定刷到很多名人说英文的视频,今天分享一个能够将任意语言视频自动翻译成中文的小工具,可以解决语言障碍问题,轻松英文语音转中文。 一、v2vt是什么? 带有口型同步功能的视频翻译的开源项目,可以完成转录视频语音并翻译、语音克隆、口型同步、压制字幕、支持中英视频互相转换等工作。 二、v2vt的开源地址: https://github.com/halfzm/v2vt 三、v2vt的功能亮点: ⚙…- 1.9k
-
LaVie – 高质量文生视频AI大模型,本地整合包,免安装,免训练,免费使用。
一、LaVie是什么? LaVie是一个高质量视频生成项目,使用级联潜在扩散模型。这个项目是由Vchitect开发的官方PyTorch实现。LaVie是一个文本到视频(T2V)生成框架,是视频生成系统Vchitect的主要部分。它还包括一个针对图像到视频(I2V)模型SEINE的微调版本。 二、LaVie的网站地址: 1、论文地址: https://arxiv.org/abs/2309.15103…- 1.9k
-
FaceFusion – 重磅更新,最强AI换脸汉化软化,去遮挡,高清化,卡通脸一键替换,本地整合包,无需部署,无需训练,免费使用!
一个替代Roop的开源软件,通过AI换脸技术实现简单的面部替换操作。Roop项目由于团队成员不当使用而停更,但其中一位作者开源了新项目FaceFusion,在GitHub上已经获得超过5000星的关注。 一、FaceFusion是什么? Facefusion是一款最新的开源AI视频/图片换脸项目。项目官方介绍只有一句话,下一代换脸器和增强器。采用了全新的界面设计,可以像Stable Diffuis…- 5k
-
Stable Doodle – 零门槛AI绘画神器,手残党福音,Stability AI 推出素描转图像工具,让你的涂鸦变成艺术品~
Stability AI 推出的 Stable Doodle 是一款颠覆性的素描转图像工具,它能够将简易的手绘素描转化为栩栩如生的动态图像。这款工具不仅适用于专业人士,同样适合业余爱好者,为用户开启无限的图像创作可能性。 一、Stable Doodle是什么? Stable Doodle是由Stability AI推出的一款零门槛AI绘画神器,可以将简单的草图转化为精美的图像。它可以将随手的涂鸦草…- 1.9k
-
OMS-Diffusion – AI换装升级版来了,虚拟试衣间,本地整合包,免训练,免安装
OMS-Diffusion 是OOTDiffusion的分支版本,与原来的 OOTDiffusion 训练两个 Unet 不同,OMS-Diffusion 只训练一个 Unet,这意味着一台 24GB 内存的机器(3090 或 4090)就足够了。 如今已有很多关于虚拟试穿的项目,如谷歌的Tryon Diffusion, 阿里的Outfit Anyone, 亚马的Diffuse to Choose…- 3.1k
-
LaTeX OCR – 数学公式图像识别AI工具,完美替代坑爹MathPix,本地整合包,无需环境,一键安装,开源免费~
由于mathpix开始收费了,于是我们将开源免费的LaTeX-OCR工具制作成本地整合包,点击即可使用,避免大家配置Python环境出现各种问题。 一、LaTeX OCR是什么? LaTeX-OCR 是一个开源的光学字符识别(OCR)软件,专为LaTeX 文档提供支持。 其主要目的是帮助用户将扫描的文档转换为LaTeX 编辑器可以使用的可编辑文本,从而方便进行修改、编辑和排版。 LaTeX广泛用于…- 2.3k
-
ASR – 视频/语音自动生成字幕工具,本地整合包,AI视频剪辑必备神器~
一、ASR是什么? ASR全称Automatic Speech Recognition,自动语音识别也称为语音转文本 (STT),是将给定音频转录为文本的任务。它有很多应用,例如语音用户界面。 二、ASR的项目地址: https://huggingface.co/tasks/automatic-speech-recognition 三、ASR的使用场景: 1、虚拟语音助手 许多边缘设备都有嵌入式虚…- 1.8k
-
Lama Cleaner – 一键去水印、去人物、去背景AI工具,本地整合包,修复老照片,轻松去除旅行照片中的路人~
这是一款 AI 修复神器,对于照片中不想要的东西,我们只需要简单涂抹,后台就会自动抹去对应的部分且尽量让抹去的部分和周围的环境相融合。 比如想去个图片的水印,自拍照去掉背景中杂乱的人物或事物,都可以用这款软件帮到你。 就连有破损的老照片也能修复,让我们一起探索它的更多功能。 一、Lama Cleaner是什么? Lama Cleaner是一款开源的去水印工具,专为Windows平台设计。它采用了先…- 2.6k
-
Manga Image Translator – 日漫图片翻译AI神器,妈妈再也不用担心我看不懂漫画了~
一、Manga Image Translator是什么? Manga Image Translator是一款图片翻译工具,一个使用 Python 打造的开源项目,支持粘贴图片、选择图片或拖放图片进行翻译。该工具可以帮助用户快速翻译图片中的文字,提高工作效率。Manga Image Translator的优势在于翻译速度快、准确度高、操作简单。该工具免费使用,但用户可以通过捐赠支持该服务的维护和开发…- 1.9k
-
Nougat – 强出天际,学术之光,PDF OCR神器,Meta AI开源,让人头疼的公式表格全部拿下~
科学知识主要存储在书籍和科学期刊中,通常以 PDF 的形式存储。然而,PDF 格式会导致语义信息丢失,尤其是数学表达式。我们提出了 Nougat(学术文档的神经光学 理解),这是一种 Visual Transformer模型,它执行光学字符识别(OCR)任务,将科学文档处理为标记语言,并证明了我们的模型在新的科学文献数据集。所提出的方法提供了一种有前途的解决方案,通过弥合人类可读文档和机器可读文本…- 2.4k
-
AudioCraft – 顶级音乐生成AI工具,来自Meta AI免费开源,音乐效果媲美音乐家作品~
一、AudioCraft是什么? AudioCraft是Meta AI免费开源的一款深度学习进行音频处理和生成的库。可满足您所有的生成音频需求:音乐、音效以及原始音频信号训练后的压缩。 它具有最先进的EnCodec音频压缩器/标记器,沿着MusicGen,一个简单可控的音乐生成LM,具有文本和旋律调节。 素材训练使用2万小时的授权音乐来训练MusicGen。 二、AudioCraft的项目地址: …- 2.3k
-
VALL-E – 微软最强AI声音克隆工具,免训练,免安装,本地整合包,三秒偷走你的声音~
该模型支持多种语言(英语、中文和日语)和零样本语音克隆,你只需要提供一个人短短几秒钟的录音(3-10秒),就能模仿出那个人的声音。此外,它还具有语音情感控制和口音控制等高级功能。同时相对于其他模型,它更轻量、更快速… 一、VALL-E是什么? Vall-E AI是微软开发的一款基于人工智能的文本到语音转换器。该工具将文本输入转换为音频,并将其与人的情绪和房间的声学效果相匹配。它可以使用三秒的短音频…- 3k
-
SadTalker – 图片配合音频秒变声音视频,头部、嘴型超自然,中英双语全能,还会唱歌~
单个肖像图像 🙎♂️ + 音频 🎤 = 头部说话视频🎞 一、SadTalker是什么? SadTalker模型是一个使用图片与音频文件自动合成人物说话动画的开源模型,我们自己给模型一张图片以及一段音频文件,模型会根据音频文件把传递的图片进行人脸的相应动作,比如张嘴,眨眼,移动头部等动作。SadTalker,它从音频中生成 3DMM 的 3D 运动系数(头部姿势、表情),并隐式调制一种新颖的 3D…- 2.3k
-
VideoReTalking – 虚拟数字人视频AI工具整合包,同步音频嘴型/面部表情,腾讯出品~
你只需要输入任意一个视频和一个音频文件,它能给你生成一个新的视频,在这个视频里,人物的嘴型会与音频同步。VideoReTalking不仅可以让嘴型与声音同步,还可以根据声音改变视频中人物的表情。整个过程不需要用户干预,都是自动完成的。 一、什么是VideoReTalking? VideoReTalking,这是一种新的AI系统,可以根据输入音频编辑现实世界中头部说话视频的面孔,即使具有不同的情绪,…- 4.1k