-
AnyDoor任意门 – 完美服装替换,一键换装,实现图片上任意元素的挪移变幻,效果出色!!!
AnyDoor的命名灵感来源于其功能与神奇的“任意门”相似,能够实现物体的即时移动。 一、AnyDoor是什么? AnyDoor 是一款创新的AI工具,能够将任何对象(如人物、动物或物品)无缝集成到新的图像或视频场景中。这款扩散的图像生成器,借助先进的算法,实现了在用户指定的位置,以自然和谐的方式将目标对象“传送”到新的场景中,自动调整光线和角度以适应新环境。 由阿里巴巴与香港大学共同研…- 8.9k
-
EmotiVoice易魔声 – 爆火国产文本转语音AI工具,支持中英文,具有情绪控制功能~
网易有道AI算法团队也开源了一款国产TTS语音合成引擎EmotiVoice,刚上线仅一周时间就暴涨4200颗星,问鼎当周GitHub trending流行榜第一。而如今已冲到了 4.5k Star。 一、EmotiVoice是什么? EmotiVoice是一款功能强大且现代的开源文本转语音引擎,您可以免费使用。EmotiVoice 提供中英文两种语言,超过 2000 种不同的语音。最突出的功能是情…- 2.6k
-
秋叶Lora炼丹炉 – AI模型训练一键包,人人都可以当炼金术士
一、Lora是什么? LORA是Low-Rank Adaptation的缩写,最早在2021年论文《LoRA: Low-Rank Adaptation of Large Language Models》中提出。是一种大语言模型低秩适配器,简单来说就是它可以降低模型可训练参数,使其尽量不损失模型表现的大模型微调方法,在此之前,StableDiffusion只能通过使用Dreambooth的方法训练大…- 3.4k
-
DiffSynth Studio – 专业视频“三渲二”风格转绘/换衣,递进式AI绘图工具,最佳DomoAI本地平替,国内B站大神开源~
在数字内容创作的领域,扩散模型已经崭露头角,成为图像合成技术中的一股不可忽视的力量。然而,当这些模型被应用到视频合成时,它们往往面临着一系列挑战,比如内容闪烁等问题。针对这一问题,最新研发的 DiffSynth 方法便应运而生,它将图像合成技术巧妙地延伸至视频领域,取得了令人瞩目的成果。 一、DiffSynth Studio是什么? DiffSynth Studio 不仅仅是一个工具,它融合了多项…- 4.8k
-
VideoReTalking – 虚拟数字人视频AI工具整合包,同步音频嘴型/面部表情,腾讯出品~
你只需要输入任意一个视频和一个音频文件,它能给你生成一个新的视频,在这个视频里,人物的嘴型会与音频同步。VideoReTalking不仅可以让嘴型与声音同步,还可以根据声音改变视频中人物的表情。整个过程不需要用户干预,都是自动完成的。 一、什么是VideoReTalking? VideoReTalking,这是一种新的AI系统,可以根据输入音频编辑现实世界中头部说话视频的面孔,即使具有不同的情绪,…- 4k
-
InpaintAnything- 一键智能局部重绘变装/换发型AI工具
一、InpaintAnything是什么? AI换装换发型局部重绘软件,可以用来重绘图片、换装、换发型等。它的独立版不需要依赖其他软件,而整合版则更为方便。 二、InpaintAnything的开源地址: https://github.com/Uminosachi/inpaint-anything 三、InpaintAnything的操作界面: 四、InpaintAnything的主要特点: 🎨 …- 3.4k
-
FaceFusion – 重磅更新,最强AI换脸汉化软化,去遮挡,高清化,卡通脸一键替换,本地整合包,无需部署,无需训练,免费使用!
一个替代Roop的开源软件,通过AI换脸技术实现简单的面部替换操作。Roop项目由于团队成员不当使用而停更,但其中一位作者开源了新项目FaceFusion,在GitHub上已经获得超过5000星的关注。 一、FaceFusion是什么? Facefusion是一款最新的开源AI视频/图片换脸项目。项目官方介绍只有一句话,下一代换脸器和增强器。采用了全新的界面设计,可以像Stable Diffuis…- 4.7k
-
Jamba – 首个基于Mamba架构的生产级别大语言模型,AI21 Labs开源
首次推出基于 Mamba 的生产级模型,提供一流的质量和性能。 一、Jamba是什么? Jamba是由AI21 Labs推出的首个基于Mamba架构的生产级别的大语言模型,目前大部分的大模型(如GPT、Gemini 和 Llama)都是基于 Transformer 结构。而 Jamba 结合了 Mamba 结构化状态空间模型(SSM)和 传统Transformer 架构,兼具了高质量输出、高吞吐量…- 1k
-
启真医学Chat – 私人家庭医生,国内开源中文医疗大模型~
一 、启真医学模型是什么? 启真医学大模型坚持“数据+知识双轮驱动”的技术路线,通过大模型技术和医学知识库的紧密结合,融合医疗应用场景中的实际需求,从医学数据治理、医学推理、医患问答、病历自动生成、临床决策辅助支持系统等方面开展迭代研发,助力大模型技术在医疗行业的落地和应用实践。 目前大多数开源的ChatLLM项目使用的是其他模型(如:ChatGPT)生成的指令数据,其不可避免的存在数据幻想的问题…- 1.9k
-
MagicTime – 高质量延时视频生成AI工具,本地整合包,一键制作生长动画,北大开源
马斯克克星,又一开源Sora模型火了,已开源! 一、MagicTime 是什么? 由北京大学团队研发的MagicTime是一个创新性的框架,旨在生成具有可变时间特性的延时视频(又称为Metamorphic Videos)。这意味着用户能够仅通过输入文本提示,就能创造出展示物体随时间变化过程的延时摄影视频。比如花朵开放,冰块融化等,能够学习并应用现实世界的物理规律。 这个项目通过分析大量的时间延迟视…- 1.2k
-
Image to Line Drawings – 图片一键转素描线稿AI工具
一、Image to Line Drawings是什么? 在传统艺术学习过程中,绘制一幅素描作品往往需要耗费大量时间和精力。然而,在AI的帮助下,这一过程可以被大幅简化。本文介绍的Image to Line Drawings整合包,便是这样一个工具,它能够帮助用户迅速将普通图片转换成素描风格的线条图。 二、Image to Line Drawing如何使用? 为了让更多用户能够轻松体验这一技术,我…- 1.9k
-
CausalLM 7B – 本地AI对话大语言模型系统,未内容审查/无思想钢印,兼容GUP/CPU
该模型是根据Qwen的模型权重训练的(并且使用了LLaMA2,是的,用于计算一些初始权重),您可能还需要根据情况遵守这两个模型的商业使用限制。训练过程采用与 LLaMA2 相同的模型架构,使用与原始 MHA LLaMA2 模型相同的注意力计算方法,并且没有对旋转位置编码 (RoPE) 应用额外的缩放。 我们利用 Hugging Face 的开源数据集手动整理了 1.3B 代币的 SFT 数据集进行…- 1.8k
-
Stable Audio – 革命性AI音乐/音效生成工具,Stability AI旗下又一重磅产品,音乐人的噩梦~
在Stable Audio 我们可以免费体验其文生音乐功能。只需先填写提示词,然后设置时长,点击 Generate 后等待 30 秒左右就完成了,拿来做视频的背景音乐完全没有问题。写提示词时记得要详细描述你想要的风格流派、乐器以及相关的情绪和氛围细节,可以多用描述性的短语。 一、Stable Audio是什么? Stable Audio是Stability AI 推出的AI生成音乐平台,你只需要输…- 1k
-
Lama Cleaner – 一键去水印、去人物、去背景AI工具,本地整合包,修复老照片,轻松去除旅行照片中的路人~
这是一款 AI 修复神器,对于照片中不想要的东西,我们只需要简单涂抹,后台就会自动抹去对应的部分且尽量让抹去的部分和周围的环境相融合。 比如想去个图片的水印,自拍照去掉背景中杂乱的人物或事物,都可以用这款软件帮到你。 就连有破损的老照片也能修复,让我们一起探索它的更多功能。 一、Lama Cleaner是什么? Lama Cleaner是一款开源的去水印工具,专为Windows平台设计。它采用了先…- 2.6k
-
FRESCO – 一键视频风格转换AI工具,告别复杂工作流,北京大学开源,本地整合包,一键运行~
北京大学近日发布了一项全新的视频风格转换工具——FRESCO。这一工具旨在简化视频转视频的处理流程,使之更加便捷、高效。FRESCO支持将视频转换为多种不同的风格,并且独特之处在于,它可以选择性地转换视频中特定的部分。值得一提的是,该项目的代码已经开源,供广大研究人员和爱好者使用和探索。 一、FRESCO是什么? FRESCO在设计时考虑了帧间对应关系,并引入了帧内对应概念,从而构建了一个更加稳定…- 2.4k
-
👕👔👚IDM-VTON – 超真实的一键虚拟换装AI工具,支持户外模特,虚拟试衣间,在线免费使用
一、IDM-VTON 是什么? IDM-VTON(Improved Diffusion Models for Virtual Try-ON)是由韩国科学技术院和OMNIOUS.AI的研究人员提出的一种先进的AI虚拟试穿技术,通过改进扩散模型来生成逼真的人物穿戴图像,实现更真实的虚拟试穿效果。该技术包含两个关键组件:一是视觉编码器,用于提取服装图像的高级语义信息;二是GarmentNet,一个并行U…- 1.3k
-
TeleChat – 星辰语义AI对话大模型,中国电信出品,免费开源
一、TeleChat是什么? 星辰语义大模型TeleChat是由中电信人工智能科技有限公司研发训练的大语言模型,其中7B模型基座采用1.5万亿 Tokens中英文高质量语料进行训练,12B模型基座采用3万亿 Tokens中英文高质量语料进行训练。 我们开源了对话模型TeleChat-7B-bot与TeleChat-12B-bot,以及其huggingface格式的权重文件。此外,我们还开源了7B、…- 744
-
GFPGAN – 老照片人脸修复AI工具本地整合包,腾讯团队出品~
在数字时代,老照片的修复和保存成为了一项挑战性的任务。幸运的是,随着人工智能技术的发展,我们现在能够以前所未有的方式恢复这些珍贵的回忆。GFPGAN,由腾讯开源,代表了这一技术进步的前沿。这款先进的人脸修复算法不仅仅是一个工具,它集成了一系列的先验知识,以支持对老旧照片中的人脸进行高效、自动化的修复。 通过使用预训练的模型,GFPGAN能够处理所谓的“盲脸”(blind face)修复任务,即在没…- 2.1k
-
川虎GPT🐯 – 本地开源AI对话客户端,速度优于ChatGPT,支持联网~
川虎GPT🐯为ChatGPT等多种LLM提供了一个轻快好用的Web图形界面和众多附加功能 一、川虎GPT的最近更新: 全新的用户界面!精致得不像 Gradio,甚至有毛玻璃效果! 适配了移动端(包括全面屏手机的挖孔/刘海),层级更加清晰。 历史记录移到左侧,使用更加方便。并且支持搜索(支持正则)、删除、重命名。 现在可以让大模型自动命名历史记录(需在设置或配置文件中开启)。 现在可以将…- 760
-
NeuCo AI – 全新声音克隆AI工具,无需训练,一键翻唱任意歌手任意歌曲~
🥳💕🎶 NeuCo AI歌手,无需训练、一键翻唱,🌟 只需10秒音频,一键翻唱任意歌手的任意歌曲!相较于传统的ASVC,NeuCoSVC只需要上传一个角色的声音,然后就能模拟这个角色的声音唱歌 NeuCo AI的特色亮点: 🎤 NeuCoSVC是一个虚拟项目,可用于模拟角色的声音唱歌 🎧 建议上传你喜欢的参考音频,然后选择时间长度以及声音去除等操作 🎶 可选择上传B站视频或本地音频,并在上传后选择…- 2.3k
-
Whisper-WebUI – 音视频字幕AI生成翻译工具,免部署,免安装,一键使用
Whisper-WebUI是一个基于Whisper模型的Gradio 的浏览器界面,可以轻松地将其用作字幕生成器! 一、Whisper-WebUI的开源地址: https://github.com/jhj0517/Whisper-WebUI 二、Whisper-WebUI的功能特点: 从多种来源生成字幕,包括: 从音视频文件自动识别字幕 从Youtube链接自动识别字幕 从麦克风输入实时识别字幕 …- 2.5k
-
OpenVoice – 专业即时语音克隆复制AI工具,免训练,免部署,一键使用
多功能的即时语音克隆AI工具,只需要参考说话者的一个简短的音频剪辑即可复制他们的声音并生成多种语言的语音。除了复制参考说话者的音色之外,OpenVoice 还可以对语音风格进行精细控制,包括情感、口音、节奏、停顿和语调。OpenVoice还可以针对海量说话人训练集中未包含的语言实现零样本跨语言语音克隆。OpenVoice 的计算效率也很高,其成本比性能较差的商用 API 低数十倍。 一、OpenV…- 2.2k
-
SOME – 高质量音乐MIDI提取AI工具
一、SOME是什么? SOME(Singing-Oriented MIDI Extractor)是一个旨在将人声音频文件自动转换为MIDI序列的项目。这个工具对于音乐制作人和爱好者来说是一个创新的解决方案,因为它可以自动化音乐制作过程中的一个关键步骤,即将人声转换为可以编辑和进一步处理的数字格式。 在i5 12400 CPU上,它可以以9倍于实时的速度运行,而在3080Ti GPU上,速度更是达到…- 1.8k
-
Stable Doodle – 零门槛AI绘画神器,手残党福音,Stability AI 推出素描转图像工具,让你的涂鸦变成艺术品~
Stability AI 推出的 Stable Doodle 是一款颠覆性的素描转图像工具,它能够将简易的手绘素描转化为栩栩如生的动态图像。这款工具不仅适用于专业人士,同样适合业余爱好者,为用户开启无限的图像创作可能性。 一、Stable Doodle是什么? Stable Doodle是由Stability AI推出的一款零门槛AI绘画神器,可以将简单的草图转化为精美的图像。它可以将随手的涂鸦草…- 1.9k