您好,欢迎观临半岛体育官网!

咨询热线:

040-88888888

半岛体育登录入口苹果介绍 Ferret-UI 多模态大语言模型:更充分理解手机屏

发布时间:2024-04-10 22:13人气:

  半岛体育登录入口苹果介绍 Ferret-UI 多模态大语言模型:更充分理解手机屏幕内容以 ChatGPT 为代表的 AI 大语言模型(LLMs),其训练材料通常是文本内容。为了能够让 AI 模型能够理解图像、视频和音频等非文本内容,多模态大语言模型(MLLMs)因此孕育而生。

  与自然图像相比,用户界面屏幕的长宽比通常更长,包含的关注对象(如图标、文本)也更小半岛·体育网页版入口,因此我们在 Ferret 的基础上加入了 任意分辨率半岛·体育网页版入口,以放大细节并利用增强的视觉功能。 我们精心收集了大量初级用户界面任务的训练样本,如图标识别、查找文本和小部件列表半岛·体育网页版入口。这些样本的格式都是按照带有区域注释的指令来设计的,以便于精确引用和接地。 为了增强模型的推理能力,我们进一步编制了高级任务数据集,包括详细描述、感知 / 交互对话和功能推理。

  苹果在论文中表示相比较现有的 GPT-4V,以及 MLLMs 模型,Ferret-UI AI 模型更为优秀。


040-88888888