苹果论文展示 Ferret-UI 大语言模型:可深度理解屏幕信息内容

本周,康奈尔大学发布了一篇名为「Ferret-UI:基于多模态大语言模型的移动 UI 理解」的论文。Ferret-UI 被描述为一种新的 MLLM,专为理解移动 UI 屏幕而定制,具有「指向、定位和推理功能」。它最大的特点是有一个放大系统,可以将图像放大到「任何分辨率」,使图标和文本更易于阅读。

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索
error: 您点击的内容受到保护~