Bark - 高度逼真的开源文本转语音AI工具，最强TTS本地整合包

文生语音
24年3月6日
编辑

Po山鲸AI官方编辑

Bark是一个开源的文本转语音的AI模型。Bark 可以生成高度逼真的多语言语音以及其他音频 - 包括音乐、背景噪音和简单的音效。该模型可以模拟正常说话口气的语音，如笑、叹息和哭泣。支持多语言，包括中文。

一、Bark的项目地址：

二、Bark支持的语言

语言	是否支持
英语（en）	✅
德语 (de)	✅
西班牙语（西班牙文）	✅
法语（fr）	✅
印地语（嗨）	✅
意大利语（它）	✅
日语 (ja)	✅
韩语 (ko)	✅
波兰语（pl）	✅
葡萄牙语（点）	✅
俄语 (ru)	✅
土耳其语 (tr)	✅
简体中文 (zh)	✅

三、Bark的常见问题：

1、如何指定模型的下载和缓存位置？

Bark 使用 Hugging Face 来下载和存储模型。您可以在此处查看更多信息。

2、Bark 支持哪些声音？

Bark 支持 100 多种语言的扬声器预设。您可以在此处浏览扬声器预设库。社区还共享Discord中的预设。Bark 还支持生成适合输入文本的独特随机语音。Bark 目前不支持自定义语音克隆。

3、为什么输出限制在 ~13-14 秒？

Bark 是一种 GPT 风格的模型，其架构/上下文窗口经过优化，可以输出大约这个长度的生成。

4、我需要多少显存？

Bark 的完整版本需要大约 12Gb 内存才能同时保存 GPU 上的所有内容。然而，即使是低至约 2Gb 的较小卡也可以使用一些额外的设置。只需在生成之前添加以下代码片段：

import os os.environ["SUNO_OFFLOAD_CPU"] = "True" os.environ["SUNO_USE_SMALL_MODELS"] = "True"

5、我生成的音频听起来像 20 世纪 80 年代的电话。发生了什么？

Bark 从头开始生成音频。它不仅仅旨在创造高保真、录音室品质的语音。相反，输出可以是任何东西，从完美的演讲到用糟糕的麦克风录制的棒球比赛中多人争论。

下载权限

查看

￥

免费下载

评论并刷新后下载

登录后下载

查看演示

{{attr.name}}：

您当前的等级为

登录后免费下载登录小黑屋反思中，不准下载！评论后刷新页面下载评论支付以后下载请先登录您今天的下载次数（次）用完了，请明天再来支付积分以后下载立即支付支付以后下载立即支付您当前的用户组不允许下载升级会员

您已获得下载权限您可以每天下载资源次，今日剩余次

1、山鲸AI所有文章，如无特殊说明或标注，均为本站作者原创发布。
2、任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。
3、如若此作者内容侵犯了原著者的合法权益，可联系客服或提交工单进行处理。
4、山鲸AI内用户所发表的所有内容及言论仅代表其本人，并不反映任何山鲸AI之意见及观点。

{{userData.name}}已认证

Bark - 高度逼真的开源文本转语音AI工具，最强TTS本地整合包

一、Bark的项目地址：

1、论文地址：

2、Github仓库：

3、项目地址：

4、在线体验：

二、Bark支持的语言