-
Fish Speech – 低显存高效语音克隆生成AI工具,免训练,免安装,本地整合包,复制声音如此轻松~
高效的低显存语音克隆工具,媲美GPT-SoVITS! 一、Fish Speech是什么? Fish Speech 是一个全新的文本转语音(TTS)解决方案。作为一个前沿的技术,它提供了高度的自定义和灵活性,允许用户按照他们的个性化需求和期望进行设置。适应多元化环境,可无缝兼容 Linux 和 Windows 操作系统,一站式满足不同用户群体的需求。为了运行此程序,您需要至少 4GB 的 GPU 内…- 1.7k
-
Stable Audio – 革命性AI音乐/音效生成工具,Stability AI旗下又一重磅产品,音乐人的噩梦~
在Stable Audio 我们可以免费体验其文生音乐功能。只需先填写提示词,然后设置时长,点击 Generate 后等待 30 秒左右就完成了,拿来做视频的背景音乐完全没有问题。写提示词时记得要详细描述你想要的风格流派、乐器以及相关的情绪和氛围细节,可以多用描述性的短语。 一、Stable Audio是什么? Stable Audio是Stability AI 推出的AI生成音乐平台,你只需要输…- 1k
-
AudioCraft – 顶级音乐生成AI工具,来自Meta AI免费开源,音乐效果媲美音乐家作品~
一、AudioCraft是什么? AudioCraft是Meta AI免费开源的一款深度学习进行音频处理和生成的库。可满足您所有的生成音频需求:音乐、音效以及原始音频信号训练后的压缩。 它具有最先进的EnCodec音频压缩器/标记器,沿着MusicGen,一个简单可控的音乐生成LM,具有文本和旋律调节。 素材训练使用2万小时的授权音乐来训练MusicGen。 二、AudioCraft的项目地址: …- 2.3k
-
VALL-E – 微软最强AI声音克隆工具,免训练,免安装,本地整合包,三秒偷走你的声音~
该模型支持多种语言(英语、中文和日语)和零样本语音克隆,你只需要提供一个人短短几秒钟的录音(3-10秒),就能模仿出那个人的声音。此外,它还具有语音情感控制和口音控制等高级功能。同时相对于其他模型,它更轻量、更快速… 一、VALL-E是什么? Vall-E AI是微软开发的一款基于人工智能的文本到语音转换器。该工具将文本输入转换为音频,并将其与人的情绪和房间的声学效果相匹配。它可以使用三秒的短音频…- 2.9k
-
MeloTTS – 高质量实时文本转语音AI工具,支持多国语言,同时兼容GPU/CPU
一、MeloTTS是什么? MeloTTS 是一个强大的多语言文本转语音库,特别设计以支持CPU环境下的实时语音合成,无需依赖GPU。该库能够输出自然流畅的语音,提供了一种高效便捷的方式,将文本信息转换为听觉内容。 MeloTTS不仅支持多种语言,包括英语、西班牙语、法语、中文、日语和韩语,还能处理混合语言文本,如含有英语单词的中文文本。此外,用户还可以根据需求调整语速,选择不同的发音口音,如美式…- 2.2k
-
SOME – 高质量音乐MIDI提取AI工具
一、SOME是什么? SOME(Singing-Oriented MIDI Extractor)是一个旨在将人声音频文件自动转换为MIDI序列的项目。这个工具对于音乐制作人和爱好者来说是一个创新的解决方案,因为它可以自动化音乐制作过程中的一个关键步骤,即将人声转换为可以编辑和进一步处理的数字格式。 在i5 12400 CPU上,它可以以9倍于实时的速度运行,而在3080Ti GPU上,速度更是达到…- 1.8k