首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

苹果发布多模态模型 Ferret-UI,部分手机 UI 任务超越 GPT-4V

苹果的团队比较了 Ferret-UI-base、Ferret-UI-anyres、Ferret 和 GPT-4V 在所有 UI 任务上的性能,并在高级任务上将开源的 UI 多模态模型 Fuyu 和 CogAgent...Ferret-UI 在大多数基础 UI 任务上都展现出了优越的性能,尤其是在与iPhone相关的任务上,除了“查找文本”任务外,它在所有任务上都超过了Ferret和GPT-4V。...Ferret-UI 的一个关键创新是在 Ferret 的基础上引入了“任何分辨率”(any resolution,简称anyres)技术。...虽然 Ferret-UI-base 紧密遵循 Ferret 的架构,但 Ferret-UI-anyres 加入了额外的细粒度图像特征,尤其是一个预训练的图像编码器和投影层为整个屏幕生成图像特征。...无论是Ferret-UI、Ferret-UI的前身 Ferret 还是旨在改善与语音助手交互的ReALM,苹果正一步步推进着能够读取屏幕信息的模型研究。

23110
您找到你想要的搜索结果了吗?
是的
没有找到

即时按需原子 CSS 引擎:比 Tailwind JIT 快 5 倍! | 开源日报 No.149

Stars: 6.0k License: NOASSERTION picture Ferret 是一个端到端的 MLLM (多模态语言和视觉学习) 模型,可以接受任何形式的指代,并在响应中对任何内容进行定位...其主要功能包括 FERRET 模型、GRIT 数据集以及 Ferret-Bench 评估基准。...该项目的关键优势和核心特点包括: FERRET 模型采用混合区域表示+空间感知视觉采样器,实现了细粒度且开放词汇表范围内的指称与定位。...Ferret-Bench 是一个多模态评估基准,同时需要涵盖指称/定位、语义理解、知识获取和推理等能力。...提供 .NET/C/C++/Java/OCaml/Python 等各种编程语言绑定 支持在 Windows 和 Linux 下使用 Visual Studio, Makefile, CMake 进行构建

20910

5 款开源热搜项目「GitHub 热点速览」

Stirling-PDF 2.2 TikTok 下载器:TikTokDownloader 2.3 程序员的便签:heynote 2.4 爱上论文:papers-we-love 2.5 Apple 多模态 LLM:ml-ferret...周增长:900+ 专供开发者的便签应用,它的强大之处在于可以轻松将不同的内容分块暂存起来,支持自动语法高亮、自动格式化、计算器模式、多光标编辑、全局热键等功能,适用于 Windows、macOS 和 Linux...GitHub 地址→github.com/papers-we-love/papers-we-love 2.5 Apple 多模态 LLM:ml-ferret 主语言:Python,Star:5.4k,增长...:2.8k 雪貂(Ferret)是苹果公司开源的多模态 LLM 模型,它可以分析和识别图像上的信息,并绘制边界框,当查询时可以做出响应。...GitHub 地址→github.com/apple/ml-ferret 3.

19710

机器学习周刊 第4期:基于ChatGPT API的Android语音助手

Al 2、huggingface NLP、强化学习、语音课 3、Awesome Jupyter 4、计算机科学热门论文 5、LLM必读论文:检索增强生成技术综述 6、Apple 多模态大型语言模型 Ferret...6、 Apple 公布了多模态大型语言模型 Ferret 地址:github.com/apple/ml-ferret 苹果最新公布的 Ferret 是一种新的多模态大型语言模型(MLLM),能够理解图像中任何形状或粒度的空间参考...苹果开源了训练、微调、模型代码和模型权重:https://github.com/apple/ml-ferret/ 可以下载、安装后一个命令运行gradio前端 python -m ferret.serve.gradio_web_server...最低 CUDA 计算能力 7.0(V100、T4、Titan V、RTX 20、30、40x、A100、H100、L40 等)检查您的 GPU 在 Linux 和 Windows 通过 WSL 上运行。

18811

AI搞定谷歌验证码,最新多模态大模型比GPT-4V空间理解更准确 | 苹果AIML团队

所以,Ferret是如何做到的呢? “点一点”图像大模型都懂 Ferret解决的核心问题是让引用(referring)和定位(grounding)两方面空间理解能力更加紧密。...因此,Ferret可以接受各种区域输入,如点、边界框和自由形状,并理解其语义。 在输出中,它可以根据文本自动生成每个定位对象的坐标。...为了实现这一目标,Ferret模型的架构包括图像编码器、空间感知的视觉采样器和语言模型(LLM)等组成部分。 Ferret结合了离散坐标和连续特征,形成了一种混合区域表示。...此外,研究还提出了Ferret-Bench,可以评估图像局部区域的引用/定位、语义、知识和推理能力。...Ferret模型在LLaVA-Bench和Ferret-Bench上进行评估,在所有任务中都表现出色,特别是在需要指代和视觉grounding的三个新任务上,Ferret的表现很出色。

24220

每日学术速递10.14

3.Ferret: Refer and Ground Anything Anywhere at Any Granularity 标题:Ferret:以任何粒度参考和接地任何地方的任何内容 作者:Haoxuan...摘要: 我们引入了 Ferret,一种新的多模态大语言模型 (MLLM),能够理解图像中任何形状或粒度的空间指代,并准确地建立开放词汇描述。...为了统一 LLM 范式中的引用和基础,Ferret 采用了一种新颖且强大的混合区域表示,将离散坐标和连续特征联合集成来表示图像中的区域。...因此,Ferret 可以接受不同的区域输入,例如点、边界框和自由形状。...为了增强 Ferret 的所需功能,我们策划了 GRIT,这是一个全面的参考和基础指令调整数据集,其中包括 110 万个样本,其中包含丰富的分层空间知识,并具有 95K 硬负数据以提高模型的鲁棒性。

20310

细说中间人攻击(二)

抓取Cookie本地重现 在我搜索中间人攻击相关主题的时候,发现国内博客提及比较多的cookie盗取所用的软件是ferret&hamster,hamster这个软件是在2007年黑客大会上Robert...Graham展示用来方便在浏览器中快速重现所捕捉到的会话的,其中ferret用来扑捉数据或者对已经扑捉的.pcap数据进行格式化处理,生成一个txt文件,然后用hamster来读取这个txt并且在本机启动一个代理服务器...hamster和ferret可以到官网http://hamster.erratasec.com下载,但最近似乎没有更新了,毕竟快是十年前的东西。...再说使用方法,其实这倒是最简单的,关键就三步: 抓取指定端口的数据 用ferret格式化解析本地数据 ferret -r file.pcap //生成hamster.txt hamster...其中第一步可以用任何抓包工具来做,也可以用ferret -i来抓包,这样的话1、2步也可以合并成一步。

70230

肘子的 Swift 周报 #027 | 苹果助你成为一日“百万富翁”

除此之外,更受关注的是苹果的研究人员最近发表了一篇名为 Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs[3] 的论文。...这篇论文介绍了一种新型 AI 语言模型“Ferret-UI”,该模型专为提升移动设备用户界面(如 iPhone 和 Android)的交互体验而设计,能在多种输入形式下执行复杂的参考和交互任务。...l_tm1636144_sl04112_1_w490-zipic 论文显示,Ferret-UI 在各项基础和高级 UI 任务中表现出色,其性能超越了现有的多模态大规模语言模型和 GPT-4V,再次证明了苹果在用户体验和可访问性领域的领先地位...weekly.fatbobman.com: https://weekly.fatbobman.com [2] 肘子的 Swift 记事本: https://fatbobman.com [3] Ferret-UI

8710

数不胜数的单细胞文献全代码大放送

codes used in this study are available at Github and Zenodo ( https:// github.com/kijong-yi/SARS-CoV-2_Ferret_BAL...当然了,需要你有计算机基础知识 ,我把它粗略的分成基于R语言的统计可视化,以及基于Linux的NGS数据处理: 《生信分析人员如何系统入门R(2019更新版)》 《生信分析人员如何系统入门Linux(2019...的知识点路线图搞定,如下: 了解常量和变量概念 加减乘除等运算(计算器) 多种数据类型(数值,字符,逻辑,因子) 多种数据结构(向量,矩阵,数组,数据框,列表) 文件读取和写出 简单统计可视化 无限量函数学习 Linux...第3阶段:元字符,通配符及shell中的各种扩展,从此linux操作不再神秘! 第4阶段:高级目录管理:软硬链接,绝对路径和相对路径,环境变量。 第5阶段:任务提交及批处理,脚本编写解放你的双手。...第6阶段:软件安装及conda管理,让linux系统实用性放飞自我。

1K20
领券