编码机

多模态GPT的号角SAM

发布时间:2023/5/31 16:45:49   
北京中科忽悠 http://www.xftobacco.com/zzbb/xlfd/

(报告作者:国盛证券分析师刘高畅)

Meta发布SAM,零样本分割图像中一切对象。SAM可以使用各种输入提示包括点击,框选和文字,指定要在图像中分割的内容,并且可以灵活集成其他系统。SAM初步验证了多模态技术路径及其泛化能力,相当于计算机视觉领域的GPT-3。

SAM,零样本分割图像中一切对象

4月6号,Meta发布SegmentAnythingModel(SAM),该模型可以用于分割图像中的一切对象,即使是训练数据中没有见过的对象。

SAM可以使用各种输入提示包括点击,框选和文字,指定要在图像中分割的内容。对于不明确的提示,比如到底要分割出人穿的衣服还是整个人,SAM会生成多个分割掩码。

SAM可以灵活集成其他系统,比如将AR/VR头盔的用户视线作为提示来选择对象,也可以将分割输出用作其他AI系统的输入,用于3D建模等任务。

SAM的模型结构设计高效灵活,先通过图像编码器为图像生成一次性编码,在用一个轻量级编码器将任何提示实时转换为编码。然后将这图像编码和提示编码两个信息源组合在一个轻量级解码器中,用于预测分割掩码。计算好图像编码后,每个提示只需要几毫秒就能在浏览器中运行。

Meta开源了SAM的模型和包含万张图像和11亿个掩码的训练数据集SA-1B,该数据集包含的图像数量是以前可用分割数据集的六倍,分割掩码数量是以前的倍。

2.SAM初步验证了多模态技术路径及其泛化能力,相当于计算机视觉领域的GPT-3

英伟达人工智能科学家JimFan在推特表示他认为Meta的这项研究是计算机视觉领域的“GPT-3时刻”之一。在NLP领域中,GPT-3的成功之处在于大量数据上进行预训练,得到了具有强大泛化能力的基础模型,在翻译,写作或对话等不同领域应用时都只需很少或不需要微调。

SAM是一个可以执行交互式分割和自动分割的通用模型。以前要解决分割问题,有两类方法。第一种是交互式分割,允许分割任何类别的对象,但需要一个人通过迭代完善掩码来指导方法。第二种是自动分割,允许对提前定义的特定对象类别(例如,猫或椅子)进行分割,但需要大量手动标注的对象来训练(例如,数千甚至数万个分割猫的例子)。

如同GPT-3在NLP领域的成功,SAM通过大规模分割数据集的训练,已经学会了物体是什么的一般概念,这种理解可以对不熟悉的物体和图像进行零样本泛化,而无需额外的训练,这让SAM可以成为计算机视觉领域各类任务的基础模型。并且GPT-3可以使用“提示”技术对新数据集和任务执行零样本和少样本学习,SAM也从中获得了灵感,将提示技术用于图像分割。

展望将来,SAM可以成为更大的AI系统的一个组成部分,用于对世界做更通用的多模态理解,例如,理解网页的视觉和文本内容;在AR/VR领域,SAM可以根据用户的目光选择对象,然后将其“提升”到3D中;对于内容创作者,SAM可以提取图像区域以进行拼贴或视频编辑;SAM还可通过定位动物或物体在视频中进行研究和跟踪。

3.多模态应用展望

当前多模态的输入输出主要是文本、图像和音频,可以应用于智能办公和,AIGC还有智能音箱等场景。微软已率先发布了Copilot产品助力智能办公,另外多模态在AI绘画、AI音乐创作以及看图写稿等AIGC方向也有广泛应用。目前office类工具和AIGC,年内预计海康大华商汤云从都有算法级的DEMO积累,全球产业链开始出现信号。多模态还能提升智能音箱的交互体验,有望助力智能音箱渗透率提升。

预计1~5年内,通用视觉、通用机械臂、通用物流搬运机器人、行业服务机器人、真正的智能家居会进入生活。谷歌的Palm-E模型现在已经能控制机器人完成一些需要泛化能力的任务。未来随着模型通用性的提高,部署成本降低,多模态会赋能众多工业领域,比如煤矿行业智能化提高生产安全和效率。

预计5-10年内,结合复杂多模态方案的大模型有望具备完备的与世界交互的能力,在通用机器人、虚拟现实等领域得到应用。从GPT到通用机器人的应用规模化落地,需要解决机械控制、模型泛化能力、模型规模扩大后算力扩展、续航能力等基础问题。

1)机械控制。人形机器人在运行的时候不需要特殊的环境或对环境进行改造,具备更开放的生态、更快的场景适应性。但由于不同的关节构造、不同的轴、不同的手指数或手之间承担的力量、转动幅度和灵活性存在差异,人形机器人的关节机械控制成为难点。

2)模型泛化。机器人下游场景差别很大,若想要实现应用大规模快速落地,需要增强模型泛化能力,提升模型的通用性,以降低推广成本。SAM的出现让视觉泛化能力迈进了一大步,有望应用于人形机器人。

3)模型规模扩大后算力扩展

模型扩大后算力将成为瓶颈,特斯拉打造Dojo平台,实现最佳的AI训练性能,启用更大、更复杂的神经网络模型,实现高能效且经济高效的计算。

4)能源问题

机器人能源问题包含两方面,一方面需要

转载请注明:http://www.aideyishus.com/lkyy/4723.html

------分隔线----------------------------