AI视频理解模型MiniGPT4-Video发布

根据arXiv网站,KAUST和哈佛大学研究团队在4月4日发表的论文中提出MiniGPT4-Video框架,一个专为视频理解而设计的多模态大模型。该模型能够处理时间视觉和文本数据,使其能够熟练地理解视频的复杂性。MiniGPT4-video不仅考虑视觉内容,还集成了文本对话,允许模型有效地回答涉及视觉和文本组件的查询。据称,该模型优于现有的最先进的方法,在MSVD、MSRVTT、TGIF和TVQA基准测试上分别获得4.22%、1.13%、20.82%和13.1%的成绩,模型和代码已公开。

论文地址:https://arxiv.org/pdf/2404.03413.pdf
GitHub地址:https://vision-cair.github.io/MiniGPT4-video/
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索
error: 您点击的内容受到保护~