相关标签
网址预览
赞助商家
内容概述
Meta AI 发布了名为 Segment Anything Model(SAM)的新 AI 模型,其相关信息如下:
- 对象分割:可通过单次点击 “剪切” 任何图像中的任何对象,能对不熟悉的对象和图像进行零样本泛化,无需额外训练。
- 多种输入提示:支持通过交互式点、框、自动分割图像中的所有内容、为模糊提示生成多个有效掩码等方式指定要分割的内容。
- 灵活集成与扩展输出:可接受来自其他系统的输入提示,输出掩码可作为其他 AI 系统的输入,用于视频中的对象跟踪、图像编辑、3D 提升或创意任务等。
- 数据引擎:使用模型循环的 “数据引擎”,在数百万张图像和掩码上进行训练,研究人员利用 SAM 及其数据交互式注释图像并更新模型,最终数据集包含超过 11 亿个分割掩码,图像数量约 1100 万张。
- 训练时间与设备:在 256 个 NVIDIA A100 GPU 上训练 3 – 5 天。
- 结构:包括一次性图像编码器(ViT – H,632M 参数)、提示编码器和轻量级掩码解码器(共 4M 参数)。
- 平台支持:图像编码器用 PyTorch 实现,需 GPU 高效推理;提示编码器和掩码解码器可直接用 PyTorch 或转换为 ONNX,在支持 ONNX 运行时的多种平台上于 CPU 或 GPU 高效运行。
- 推理时间:图像编码器在 NVIDIA A100 GPU 上约 0.15 秒,提示编码器和掩码解码器在浏览器 CPU 上使用多线程 SIMD 执行约 50ms。
- 代码获取:可在 GitHub 获取代码。
- 团队成员:包括 Alexander Kirillov 等众多研究人员。