-
v2vt – 视频自动翻译AI工具,本地整合包,HeyGen最佳平替,B站大神免费开源~
大家最近肯定刷到很多名人说英文的视频,今天分享一个能够将任意语言视频自动翻译成中文的小工具,可以解决语言障碍问题,轻松英文语音转中文。 一、v2vt是什么? 带有口型同步功能的视频翻译的开源项目,可以完成转录视频语音并翻译、语音克隆、口型同步、压制字幕、支持中英视频互相转换等工作。 二、v2vt的开源地址: https://github.com/halfzm/v2vt 三、v2vt的功能亮点: ⚙…- 1.9k
-
OOTDiffusion – 本地整合包,一键完美AI换装,虚拟换衣服不再困难,效果超神,支持半身,全身!!!
OOTDiffusion 支持上半身、全身的换装,如果你想要自定义模特或者衣服,需要自己提供背景干净的模特或者衣服模型。对于从事服装销售的行业来说,完全可以依赖AI 虚拟换装的方式生成营销宣传海报,无需聘请高昂的模特和拍摄费用,这是一个低成本的试装方案。 一、OOTDiffusion是什么? OOTDiffusion是一种基于潜在扩散的虚拟试穿技术,其主要目的是通过实现控制性的换装融合,让用户能够…- 5.5k
-
零一万物 – 首款开源中英双语大模型,本地部署包,免训练,免安装,李开复最快AI独角兽开源项目~
支持输入30万汉字,看不懂《百年孤独》的人有救了 一、零一万物是什么? 知名投资人、创新工场董事长兼CEO李开复博士带队创办 AI 2.0大模型公司“零一万物”(01.AI),正式发布首款研发的最强开源人工智能(AI)大模型系列,名为“Yi”。 此次 Yi 系列基础模型的首个公开版本包括两款:Yi-6B(数据参数量为60亿)、Yi-34B(340亿),均是双语(英文/中文)、支持开源。其中,Yi-…- 2.6k
-
APISR – 专注二次元动漫图像分辨率增强,无损放大AI神器,让漫画焕然一新,动漫爱好者的福音~
APISR:动漫制作启发现实世界动漫超分辨率 APISR旨在恢复和增强低质量、低分辨率的动漫图像和视频源,这些图像和视频源与现实世界场景相比存在各种退化。 一、APISR是什么? APISR 是一个新的放大算法,专门用于恢复和增强各种低质量、低分辨率的动漫图像和视频,其模型代码已经开源,并且有免费的在线 Demo 可以体验。试了一下效果的确非常不错,可以有效提升线条细节的清晰度,并且色彩的还原度也…- 2.4k
-
Sora – OpenAI即将发布的AI视频模型
一、Sora是什么? Sora 是 OpenAI 开发的AI视频生成模型,它能够根据用户的文本描述生成长达 60 秒、1080P 高质量视频,其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。 Sora能够创造出包含多个角色、特定动作类型以及与主题和背景相符的详细场景。这款模型不仅能理解用户的指令,还能洞察这些元素在现实世界中的表现。 Sora对语言有着深刻的理解,能够精准地捕捉到用户的需…- 755
-
FRESCO – 一键视频风格转换AI工具,告别复杂工作流,北京大学开源,本地整合包,一键运行~
北京大学近日发布了一项全新的视频风格转换工具——FRESCO。这一工具旨在简化视频转视频的处理流程,使之更加便捷、高效。FRESCO支持将视频转换为多种不同的风格,并且独特之处在于,它可以选择性地转换视频中特定的部分。值得一提的是,该项目的代码已经开源,供广大研究人员和爱好者使用和探索。 一、FRESCO是什么? FRESCO在设计时考虑了帧间对应关系,并引入了帧内对应概念,从而构建了一个更加稳定…- 2.4k
-
LaTeX OCR – 数学公式图像识别AI工具,完美替代坑爹MathPix,本地整合包,无需环境,一键安装,开源免费~
由于mathpix开始收费了,于是我们将开源免费的LaTeX-OCR工具制作成本地整合包,点击即可使用,避免大家配置Python环境出现各种问题。 一、LaTeX OCR是什么? LaTeX-OCR 是一个开源的光学字符识别(OCR)软件,专为LaTeX 文档提供支持。 其主要目的是帮助用户将扫描的文档转换为LaTeX 编辑器可以使用的可编辑文本,从而方便进行修改、编辑和排版。 LaTeX广泛用于…- 2.3k
-
DiffMorpher – AI实现图像间平滑过渡视频工具,一键制作抖音爆火的小女孩的一生~
一、DiffMorpher是什么? DiffMorpher是一项人工智能技术,它利用先进的扩散模型,能够在两张图像之间实现平滑且自然的形变,生成过渡视频。这一技术在图像生成领域展现了突破性的进展,大幅提升了生成视频的质量,使其超越了以往的生成模型。 扩散模型在图像生成质量方面已经取得了令人瞩目的成就,但与生成对抗网络(GAN)相比,扩散模型在进行两个图像样本之间的平滑插值方面存在一些挑战。这是因为…- 1.8k
-
DDColor – 阿里AI老照片上色一键修复工具
一、什么是DDColor? 🎨DDColor 是最新的 SOTA 图像上色算法,能够对输入的黑白图像生成自然生动的彩色结果,使用 UNet 结构的骨干网络和图像解码器分别实现图像特征提取和特征图上采样,并利用 Transformer 结构的颜色解码器完成基于视觉语义的颜色查询,最终聚合输出彩色通道预测结果。 🪄 DDColor 可以为历史黑白老照片提供生动自然的着色。 🎲 它甚至可以对动漫游戏中的…- 2.2k
-
Cutie – 高质量视频一键精准抠像分离AI工具,短视频剪辑利器,视频换背景、去人物原来如此简单!
Cutie用于自动识别和追踪视频里的特定物体,比如一个人或一辆车。假设你有一段视频,里面有很多人和物体在移动,Cutie可以自动找出其中一个特定的人并一直追踪他。 一、Cutie是什么? Cutie 是一个视频对象分割框架,是XMem的后续作品,具有更好的一致性、鲁棒性和速度。该存储库包含用于标准视频对象分割的代码和用于交互式视频分割的 GUI 工具。 GUI 工具还包含“永久内存”(来自XMem…- 2.4k
-
LaVie – 高质量文生视频AI大模型,本地整合包,免安装,免训练,免费使用。
一、LaVie是什么? LaVie是一个高质量视频生成项目,使用级联潜在扩散模型。这个项目是由Vchitect开发的官方PyTorch实现。LaVie是一个文本到视频(T2V)生成框架,是视频生成系统Vchitect的主要部分。它还包括一个针对图像到视频(I2V)模型SEINE的微调版本。 二、LaVie的网站地址: 1、论文地址: https://arxiv.org/abs/2309.15103…- 1.9k
-
AnyDoor任意门 – 完美服装替换,一键换装,实现图片上任意元素的挪移变幻,效果出色!!!
AnyDoor的命名灵感来源于其功能与神奇的“任意门”相似,能够实现物体的即时移动。 一、AnyDoor是什么? AnyDoor 是一款创新的AI工具,能够将任何对象(如人物、动物或物品)无缝集成到新的图像或视频场景中。这款扩散的图像生成器,借助先进的算法,实现了在用户指定的位置,以自然和谐的方式将目标对象“传送”到新的场景中,自动调整光线和角度以适应新环境。 由阿里巴巴与香港大学共同研…- 9k
-
Logo Diffusion – 全球顶尖LOGO商标生成AI工具,在线一键生成,LOGO生成式AI天花板产品~
今年一月份,官方迎来V3的版本更新,借助从头开始构建的新徽标设计 AI 模型,这是官方迄今为止最雄心勃勃的版本。 一、Logo Diffusion是什么? Logo Diffusion是一个利用生成式AI技术帮助用户快速生成和创建独特Logo标志的工具。只需要输入简单的文本提示,AI会在几秒钟内创建出原创设计。 此外,Logo Diffusion还提供将生成的标志转换成清晰的行业标准矢量文件的功能…- 1.1k
-
Vid2Densepose + MagicAnimate – 一键AI本地整合包,视频生成骨骼动画,一张照片就能生成跳舞视频,抖音小姐姐要失业?
Vid2DensePose 将你的视频转换为 Densepose 序列,并在 MagicAnimate 上使用它,MagicAnimate目前依赖DensePose作为约束,如果想尝试转换自己的视频,需要先生成DensePose序列。我们将Vid2Densepose + MagicAnimate 制作成一键启动包,点击即可使用, 一、Vid2Densepose 1、Vid2Densepose是什么…- 2.3k
-
GFPGAN – 老照片人脸修复AI工具本地整合包,腾讯团队出品~
在数字时代,老照片的修复和保存成为了一项挑战性的任务。幸运的是,随着人工智能技术的发展,我们现在能够以前所未有的方式恢复这些珍贵的回忆。GFPGAN,由腾讯开源,代表了这一技术进步的前沿。这款先进的人脸修复算法不仅仅是一个工具,它集成了一系列的先验知识,以支持对老旧照片中的人脸进行高效、自动化的修复。 通过使用预训练的模型,GFPGAN能够处理所谓的“盲脸”(blind face)修复任务,即在没…- 2.1k
-
Replay – 智能视频音乐伴奏提取AI工具
Replay是什么? 在音乐制作和卡拉OK爱好者中,伴奏的提取一直是个技术活。传统软件操作复杂,而且对于冷门歌曲往往难以找到满意的伴奏版本。好在现在有了人工智能的加持,提取伴奏变得简单而高效。Replay正是这样一款利用AI技术自动提取伴奏的软件,它能够无损地还原最真实的音色,即使是新手也能轻松上手。 Replay的官方网址? https://www.tryreplay.io/ Replay的设备…- 2.3k
-
DiffSynth Studio – 专业视频“三渲二”风格转绘/换衣,递进式AI绘图工具,最佳DomoAI本地平替,国内B站大神开源~
在数字内容创作的领域,扩散模型已经崭露头角,成为图像合成技术中的一股不可忽视的力量。然而,当这些模型被应用到视频合成时,它们往往面临着一系列挑战,比如内容闪烁等问题。针对这一问题,最新研发的 DiffSynth 方法便应运而生,它将图像合成技术巧妙地延伸至视频领域,取得了令人瞩目的成果。 一、DiffSynth Studio是什么? DiffSynth Studio 不仅仅是一个工具,它融合了多项…- 4.9k
-
TripoSR – 快速单图生成3D模型,1秒完成,本地部署包,Stability AI与华人团队联合开源
TripoSR 的开发灵感来源于LRM(Large Reconstruction Models)的最新研究成果,即通过单一图像实现复杂三维结构的重建。这一突破性的图像到3D模型转换技术,旨在满足娱乐、游戏、工业设计以及建筑行业专业人士对高效3D建模工具的需求,通过快速响应输出,实现3D模型细节的精确可视化。 在性能测试中,TripoSR 在Nvidia A100硬件平台上运行仅需约0.5秒即可生成…- 4.6k
-
Video Subtitle Remover – 前沿VSR视频硬字幕去除AI工具,影视剪辑爱好者有福了~
引领科技前沿的Video-subtitle-remover(VSR)工具,专为那些希望清除视频中硬编码字幕的用户设计。借助尖端AI技术,VSR不仅仅是移除字幕那么简单,它还能够: 无损分辨率将视频中的硬字幕去除,生成去除字幕后的文件 通过超强AI算法模型,对去除字幕文本的区域进行填充(非相邻像素填充与马赛克去除) 支持自定义字幕位置,仅去除定义位置中的字幕(传入位置) 支持全视频自动去除所有文本(…- 4.3k
-
CodeFormer – 本地整合包,顶尖人脸补全修复技术,支持黑白照片上色
CodeFormer被誉为“业界顶尖AI去马赛克工具”,它能有效清除学习和研究道路上的障碍。这款工具运用了尖端的神经网络AI技术,能够精确地修复各种破损、模糊、不完整以及黑白的照片和视频,效果令人瞩目! 一、CodeFormer的技术剖析: CodeFormer 的天才在于其变革性方法:将人脸恢复设想为代码预测挑战。该算法利用简化的代理空间中精心学习的离散密码本的力量,极大地减少了与恢复过程相关的…- 2.6k
-
UVR5 – 最强人声伴奏分离AI工具,最新版v5.6
UVR5是什么? 全称Ultimate Vocal Remover GUI,目前已更新到5.6版本,是一款完全免费的伴奏制作/人声提取工具,比RX9,RipX和SpectraLayers 9都要好,UVR5提取出来的伴奏已经无限接近原版立体声了! 对于音乐爱好者来说,找到一款既简单易用又能提供专业效果的音频处理软件是非常重要的。无论是因为专业软件的操作难度让人望而却步,还是冷门歌曲难以找到合适的伴…- 2.9k
-
2Moons – 专业Midjourney和DALL-E绘画提示词分享平台,您AI绘画的终极灵感来源~
一、2Moons是什么? 2Moons平台提供了大量AI绘画提示词,包括Midjourney、Dall-E、Stable Diffusion等,帮助用户从不同的角度思考和创造新的设计。 无论是平面设计师、网页开发者、室内设计师、时尚设计师、广告营销专业人士、游戏开发者还是电影和动画制作者,2Moons都能提供灵感和创意支持。 二、2Moons的官网地址: https://www.2moons.ai…- 693
-
OMS-Diffusion – AI换装升级版来了,虚拟试衣间,本地整合包,免训练,免安装
OMS-Diffusion 是OOTDiffusion的分支版本,与原来的 OOTDiffusion 训练两个 Unet 不同,OMS-Diffusion 只训练一个 Unet,这意味着一台 24GB 内存的机器(3090 或 4090)就足够了。 如今已有很多关于虚拟试穿的项目,如谷歌的Tryon Diffusion, 阿里的Outfit Anyone, 亚马的Diffuse to Choose…- 3k
-
SDXL-Light – 目前最快文生图AI模型,让AI出图速度提升 10 倍!
生成式人工智能技术已成为业界的焦点,它能够根据文本提示创造出图像或视频。目前的先进模型依赖于一个耗时的扩散过程来生成单一图像,可能需要5秒钟,并且要多次调用庞大的神经网络。因此,研究的热点是如何在保证图像质量的同时,加快图像的生成速度。 一、SDXL-Lightning是什么? SDXL-Lightning 模型是从 Stability AI 的 stable-diffusion-xl-base-…- 4.6k