产品介绍
产品是什么
Ferret 是一款由苹果团队研发的端到端多模态大语言模型(MLLM),能够接受任意形式的空间指代(如点、框、草图)并精准定位图像中任意粒度的物体,同时生成丰富的语义描述。该模型创新性地提出了混合区域表示与空间感知视觉采样器,首次实现了开放词汇的指代与定位能力。
Ferret 基于 LLaVA 框架构建,融合了 Vicuna 语言模型与 CLIP 视觉编码器,并通过大规模层次化指令微调数据集 GRIT(约110万样本)进行训练。模型支持 7B 和 13B 两个参数量版本,可在 8 张 A100 GPU 上完成训练,并提供了公开的权重差分文件,便于研究社区复现和使用。
项目还配套发布了 Ferret-Bench 多模态评估基准,专门测试模型在指代、定位、语义理解、知识推理等联合任务上的表现。Ferret 的研究成果已被 ICLR 2024 接收为 Spotlight 论文,后续衍生版本 Ferret-v2 和 Ferret-UI 进一步拓展了在 UI 理解等垂直场景的应用。
如何使用
1
安装环境— 克隆仓库并创建 conda 环境,安装依赖包
2
下载基础模型— 获取 Vicuna 权重和 LLaVA 投影器权重
3
应用权重差异— 下载 Ferret 的 delta 权重并合并到 Vicuna
4
启动服务— 依次运行 controller、Gradio 服务器和模型 worker
5
交互使用— 在浏览器中打开 Gradio 界面,选择模型并上传图片进行指代或问答
核心功能
混合区域表示:融合点、框、自由形状等多种空间指代形式
空间感知视觉采样器:高效提取区域级视觉特征并关联语言
开放词汇指代定位:支持未见过的物体类别和描述性指代
端到端多模态训练:联合优化视觉编码器与语言模型
GRIT 指令数据集:110万层次化标注,覆盖细粒度定位与描述
Ferret-Bench 基准:专门评估指代+定位+推理的联合能力
灵活部署:提供 7B 和 13B 模型权重,兼容 LLaVA 生态
交互式演示:基于 Gradio 的 Web UI,支持实时指代与问答
目标用户
多模态AI研究员计算机视觉开发者大模型应用工程师学术研究团队开源爱好者产品原型设计者人机交互研究者
使用场景
图像中任意物体的点选定位与属性描述
根据文本描述框选图片中的特定区域
医学影像中病灶区域的精准指代与诊断
自动驾驶场景中道路目标的细粒度识别
电商图片中商品部件的细节查询
UI界面中交互元素的定位与功能理解
视觉问答中需要指代支撑的复杂推理







