-
v2vt – 视频自动翻译AI工具,本地整合包,HeyGen最佳平替,B站大神免费开源~
大家最近肯定刷到很多名人说英文的视频,今天分享一个能够将任意语言视频自动翻译成中文的小工具,可以解决语言障碍问题,轻松英文语音转中文。 一、v2vt是什么? 带有口型同步功能的视频翻译的开源项目,可以完成转录视频语音并翻译、语音克隆、口型同步、压制字幕、支持中英视频互相转换等工作。 二、v2vt的开源地址: https://github.com/halfzm/v2vt 三、v2vt的功能亮点: ⚙…- 1.9k
-
零一万物 – 首款开源中英双语大模型,本地部署包,免训练,免安装,李开复最快AI独角兽开源项目~
支持输入30万汉字,看不懂《百年孤独》的人有救了 一、零一万物是什么? 知名投资人、创新工场董事长兼CEO李开复博士带队创办 AI 2.0大模型公司“零一万物”(01.AI),正式发布首款研发的最强开源人工智能(AI)大模型系列,名为“Yi”。 此次 Yi 系列基础模型的首个公开版本包括两款:Yi-6B(数据参数量为60亿)、Yi-34B(340亿),均是双语(英文/中文)、支持开源。其中,Yi-…- 2.6k
-
MuseV – 数字虚拟人视频生成AI工具,一键整合包,开箱即用,腾讯天琴实验室开源
一、MuseV是什么? MuseV是一个由腾讯音乐娱乐的天琴实验室开源的虚拟人视频生成框架,专注于生成高质量的虚拟人视频和口型同步。它利用先进的算法,能够制作出具有高度一致性和自然表情的长视频内容。MuseV支持自定义动作和风格,视频时长理论上无限,且生成速度快。这一技术在AI创作领域中表现出色,为虚拟人视频制作提供了新的可能性。 二、MuseV的网站地址: 1、Github开源地址: https…- 4.8k
-
Roop Unleashed – 一键单图换脸AI工具,中文整合包,无需训练LoRA,已更新至3.6.5
ROOP-Unleashed是一款基于ROOP的换脸web UI,界面简单易用。 一、Roop Unleashed的主要特征: 独立于平台的浏览器 GUI 一次性选择多个输入/输出面 许多不同的交换模式,首先检测到,面部选择,按性别 图像/视频的批量处理 使用文本提示遮盖面部遮挡物 使用不同增强剂的可选面部修复 预览不同视频帧的交换 使用您的网络摄像头进行实时假摄像头 用于剪切视频等的附加选项卡。…- 3.5k
-
OOTDiffusion – 本地整合包,一键完美AI换装,虚拟换衣服不再困难,效果超神,支持半身,全身!!!
OOTDiffusion 支持上半身、全身的换装,如果你想要自定义模特或者衣服,需要自己提供背景干净的模特或者衣服模型。对于从事服装销售的行业来说,完全可以依赖AI 虚拟换装的方式生成营销宣传海报,无需聘请高昂的模特和拍摄费用,这是一个低成本的试装方案。 一、OOTDiffusion是什么? OOTDiffusion是一种基于潜在扩散的虚拟试穿技术,其主要目的是通过实现控制性的换装融合,让用户能够…- 5.5k
-
Fooocus 2.0 中文版 – 傻瓜式AI绘画神器,超180种预置风格,体验直追Midjourney,三天登顶GitHub热榜!
玩AI画画,现在终于不用担心被老黄刀法“背刺”了! 只需要一块4年前的GTX 1650(显存4GB),AI出图效果堪比当前最好的开源模型SDXL。 一、Fooocus是什么? Fooocus是一款离线、开源且免费的AI绘画软件,仅需4G显存即可使用SDXL模型。通过重新思考Stable Diffusion和Midjourney的设计理念,Fooocus简化了安装过程,降低了使用门槛,让更多人能够体…- 4k
-
Manga Image Translator – 日漫图片翻译AI神器,妈妈再也不用担心我看不懂漫画了~
一、Manga Image Translator是什么? Manga Image Translator是一款图片翻译工具,一个使用 Python 打造的开源项目,支持粘贴图片、选择图片或拖放图片进行翻译。该工具可以帮助用户快速翻译图片中的文字,提高工作效率。Manga Image Translator的优势在于翻译速度快、准确度高、操作简单。该工具免费使用,但用户可以通过捐赠支持该服务的维护和开发…- 1.9k
-
AudioCraft – 顶级音乐生成AI工具,来自Meta AI免费开源,音乐效果媲美音乐家作品~
一、AudioCraft是什么? AudioCraft是Meta AI免费开源的一款深度学习进行音频处理和生成的库。可满足您所有的生成音频需求:音乐、音效以及原始音频信号训练后的压缩。 它具有最先进的EnCodec音频压缩器/标记器,沿着MusicGen,一个简单可控的音乐生成LM,具有文本和旋律调节。 素材训练使用2万小时的授权音乐来训练MusicGen。 二、AudioCraft的项目地址: …- 2.3k
-
AnyText – 精准控制中文汉字的AI绘图工具,动动嘴皮子,就能出电商大促海报,一键整合包,开箱即用,阿里开源
随着人工智能技术的不断发展,视觉文字生成与编辑成为了一个备受关注的领域。AnyText作为一款多语言视觉文字生成与编辑工具,具有强大的功能和广泛的应用场景。 一、AnyText是什么? AnyText是阿里巴巴智能计算研究院的团队推出的一个基于扩散的多语言视觉文本生成和编辑模型,专注于在图像中渲染准确和连贯的文本。AnyText包括两个主要元素的扩散管线:辅助潜在模块和文本嵌入模块。前者使用文本字…- 2.6k
-
ASR – 视频/语音自动生成字幕工具,本地整合包,AI视频剪辑必备神器~
一、ASR是什么? ASR全称Automatic Speech Recognition,自动语音识别也称为语音转文本 (STT),是将给定音频转录为文本的任务。它有很多应用,例如语音用户界面。 二、ASR的项目地址: https://huggingface.co/tasks/automatic-speech-recognition 三、ASR的使用场景: 1、虚拟语音助手 许多边缘设备都有嵌入式虚…- 1.8k
-
EasyPhoto – 您的AI艺术写真AI工具,快速创建自己的AI数字分身,中文本地整合包
🦜 EasyPhoto 是一个 Webui UI 插件,用于生成 AI 肖像,可用于训练与您相关的数字分身。 一、EasyPhoto是什么? EasyPhoto 是一个 Webui UI 插件,用于生成 AI 肖像,可用于训练与您相关的数字分身。训练建议用5到20张人像图片进行,最好是半身照片,并且不要戴眼镜(几张图中的人物戴眼镜也没关系)。训练完成后,我们可以在推理部分生成它。我们支持使用预设的…- 1.8k
-
CodeFormer – 本地整合包,顶尖人脸补全修复技术,支持黑白照片上色
CodeFormer被誉为“业界顶尖AI去马赛克工具”,它能有效清除学习和研究道路上的障碍。这款工具运用了尖端的神经网络AI技术,能够精确地修复各种破损、模糊、不完整以及黑白的照片和视频,效果令人瞩目! 一、CodeFormer的技术剖析: CodeFormer 的天才在于其变革性方法:将人脸恢复设想为代码预测挑战。该算法利用简化的代理空间中精心学习的离散密码本的力量,极大地减少了与恢复过程相关的…- 2.6k
-
启真医学Chat – 私人家庭医生,国内开源中文医疗大模型~
一 、启真医学模型是什么? 启真医学大模型坚持“数据+知识双轮驱动”的技术路线,通过大模型技术和医学知识库的紧密结合,融合医疗应用场景中的实际需求,从医学数据治理、医学推理、医患问答、病历自动生成、临床决策辅助支持系统等方面开展迭代研发,助力大模型技术在医疗行业的落地和应用实践。 目前大多数开源的ChatLLM项目使用的是其他模型(如:ChatGPT)生成的指令数据,其不可避免的存在数据幻想的问题…- 1.9k
-
天机(来事儿AI)- 专业中国式传统人情世故语言训练AI大模型,化解一切尴尬场合和矛盾冲突,本地整合包,一键开启使用,你也是社牛达人!
江湖不是打打杀杀,江湖是人情世故~ 一、天机(来事儿AI)是什么? 天机是 SocialAI(来事儿AI)制作的一款免费使用、非商业用途的人工智能系统。您可以利用它进行涉及传统人情世故的任务,如如何敬酒、如何说好话、如何会来事儿等,以提升您的情商和核心竞争能力。我们坚信,只有人情世故才是未来AI的核心技术,只有会来事儿的AI才有机会走向AGI,让我们携手见证通用人工智能的来临。 —— "…- 2k
-
VideoReTalking – 虚拟数字人视频AI工具整合包,同步音频嘴型/面部表情,腾讯出品~
你只需要输入任意一个视频和一个音频文件,它能给你生成一个新的视频,在这个视频里,人物的嘴型会与音频同步。VideoReTalking不仅可以让嘴型与声音同步,还可以根据声音改变视频中人物的表情。整个过程不需要用户干预,都是自动完成的。 一、什么是VideoReTalking? VideoReTalking,这是一种新的AI系统,可以根据输入音频编辑现实世界中头部说话视频的面孔,即使具有不同的情绪,…- 4k
-
SOME – 高质量音乐MIDI提取AI工具
一、SOME是什么? SOME(Singing-Oriented MIDI Extractor)是一个旨在将人声音频文件自动转换为MIDI序列的项目。这个工具对于音乐制作人和爱好者来说是一个创新的解决方案,因为它可以自动化音乐制作过程中的一个关键步骤,即将人声转换为可以编辑和进一步处理的数字格式。 在i5 12400 CPU上,它可以以9倍于实时的速度运行,而在3080Ti GPU上,速度更是达到…- 1.8k
-
ELLA – 腾讯开源文生图扩散模型,利用LLM增强语义对齐,本地整合包,免训练,一键运行,效果赶超DALL-E~
一、ELLA是什么? ELLA(Efficient Large Language Model Adapter,高效大型语言模型适配器)由腾讯研究人员开发。该技术旨在提高文本到图像生成模型在处理复杂文本提示时的语义对齐能力。通过整合大型语言模型(LLM),ELLA极大增强了模型的文本对齐性能,而这一切无需对U-Net或LLM进行额外的训练。 二、ELLA的网站地址: 1、Github开源地址: ht…- 708
-
Osprey – 首个像素级别的区域图像分析多模态AI工具
A part of Along the River During the Qingming Festival (清明上河图) Spirited Away (千与千寻) Osprey 是一款创新图像分析AI工具,旨在提升大型语言模型(LLM)对图像的理解能力,精确到像素级别。它使用户能够在图像上选择特定区域,并对这些区域进行深入分析和识别。 一、什么是Osprey? Osprey 是一种掩码文本指令…- 1.7k
-
FaceChain – AI写真馆,妙鸭相机最强平替,仅需2张,即可获得专属写真大片~
FaceChain人物写真生成,仅需要某个人物的2张照片,即可训练得到该人物的专属形象,并批量生成各种风格的写真照片。FaceChain基于扩散模型的图像生成能力,结合LoRA训练实现人像和风格融合,并叠加一系列后处理能力,实现兼具相似度、真实感、美观度的写真生成能力。 一、FaceChain是什么? FaceChain是一款可以用于打造个人数字形象的深度学习模型工具。用户只需提供最低一张照片即可…- 2.2k
-
Lama Cleaner – 一键去水印、去人物、去背景AI工具,本地整合包,修复老照片,轻松去除旅行照片中的路人~
这是一款 AI 修复神器,对于照片中不想要的东西,我们只需要简单涂抹,后台就会自动抹去对应的部分且尽量让抹去的部分和周围的环境相融合。 比如想去个图片的水印,自拍照去掉背景中杂乱的人物或事物,都可以用这款软件帮到你。 就连有破损的老照片也能修复,让我们一起探索它的更多功能。 一、Lama Cleaner是什么? Lama Cleaner是一款开源的去水印工具,专为Windows平台设计。它采用了先…- 2.6k
-
Vocal Separate – 极简音乐人声分离AI工具,本地部署,无需网络,支持CPU
将一首歌曲或者含有背景音乐的音视频文件,拖拽到本地网页中,即可将其中的人声和音乐声分离为单独的音频wav文件,可选单独分离“钢琴声”、“贝斯声”、“鼓声”等 一、Vocal Separate是什么? 这是一个极简的人声和背景音乐分离工具,本地化网页操作,无需连接外网,使用 2stems/4stems/5stems 模型。 二、Vocal Separate的开源地址: https://github.…- 2.1k
-
Nougat – 强出天际,学术之光,PDF OCR神器,Meta AI开源,让人头疼的公式表格全部拿下~
科学知识主要存储在书籍和科学期刊中,通常以 PDF 的形式存储。然而,PDF 格式会导致语义信息丢失,尤其是数学表达式。我们提出了 Nougat(学术文档的神经光学 理解),这是一种 Visual Transformer模型,它执行光学字符识别(OCR)任务,将科学文档处理为标记语言,并证明了我们的模型在新的科学文献数据集。所提出的方法提供了一种有前途的解决方案,通过弥合人类可读文档和机器可读文本…- 2.4k
-
SadTalker – 图片配合音频秒变声音视频,头部、嘴型超自然,中英双语全能,还会唱歌~
单个肖像图像 🙎♂️ + 音频 🎤 = 头部说话视频🎞 一、SadTalker是什么? SadTalker模型是一个使用图片与音频文件自动合成人物说话动画的开源模型,我们自己给模型一张图片以及一段音频文件,模型会根据音频文件把传递的图片进行人脸的相应动作,比如张嘴,眨眼,移动头部等动作。SadTalker,它从音频中生成 3DMM 的 3D 运动系数(头部姿势、表情),并隐式调制一种新颖的 3D…- 2.2k
-
Bert-VITS 2 – 爆杀原版?原神&星穹铁道全角色文本转语音AI工具,栩栩如生,声色克隆,原神启动!
为游戏爱好者们带来一款新的体验工具,原神&星穹铁道全角色文本转语音AI工具。该工具基于先进的BERT-VITS模型,这是一种结合了Transformer架构的语音合成技术。BERT-VITS模型通过深度学习,能捕捉到不同音色的独特属性,并能够实现高度个性化的语音合成效果。这款整合包特别支持多角色对话模式,让用户能够体验到更加丰富和真实的交互对话。 一、Bert-VITS 2是什么? BER…- 2.5k