北京智源推出通用视觉分割模型SegGPT，具备上下文推理能力

文章来源：企鹅号 - 三言科技

5月28日，北京智源人工智能研究院在2023中关村论坛平行论坛之一的人工智能大模型发展论坛上推出通用分割模型SegGPT（Segment Everything In Contex），这是一个利用视觉提示（prompt）完成任意分割任务的通用视觉模型。SegGPT是智源通用视觉模型Painter的衍生模型，针对分割一切物体的目标做出优化。SegGPT具备上下文推理能力，训练完成后无需微调，只需提供示例即可自动推理并完成对应分割任务，包括图像和视频中的实例、类别、零部件、轮廓、文本、人脸、医学图像等。它的灵活推理能力支持任意数量的视觉提示。自动视频分割和追踪能力以第一帧图像和对应的物体掩码作为上下文示例，SegGPT能够自动对后续视频帧进行分割，并且可以用掩码的颜色作为物体的ID，实现自动追踪。（澎湃新闻）