前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >快来围观普通用户如何玩转GPT-4V

快来围观普通用户如何玩转GPT-4V

作者头像
一个正经的测试
发布2024-01-22 17:12:25
2170
发布2024-01-22 17:12:25
举报
文章被收录于专栏:一个正经的测试

GPT-4V

概述

先看官方文档的介绍

GPT-4 with Vision(有时称为GPT-4V或gpt-4-vision-preview在 API 中)允许模型接收图像并回答有关图像的问题。从历史上看,语言模型系统受到单一输入模式(文本)的限制。对于许多用例来说,这限制了 GPT-4 等模型的使用领域。

目前,所有可以通过模型和聊天完成 API访问 GPT- 4 的开发人员都可以使用具有视觉功能的 GPT-4,该 API 已更新为支持图像输入。gpt-4-vision-preview请注意,Assistants API目前不支持图像输入。

重要的是要注意以下几点:

  • 由于我们自动插入对话中的系统消息,具有视觉功能的 GPT-4 Turbo 的行为可能与 GPT-4 Turbo 略有不同
  • 具有视觉功能的 GPT-4 Turbo 与 GPT-4 Turbo 预览模型相同,在文本任务上的表现同样出色,但添加了视觉功能
  • 视觉只是模型拥有的众多功能之一

生成式AI 应用的一大突破,是ChatGPT 开始支援多模态(multi-modal),换句话说ChatGPT 现在可以看、可以听,也可以说了。在社群上,大家会用GPT-4V 来称呼可以读图片的GPT (V 代表Vision,也就是视觉的意思)。

举例来说,下面的截图是美国有个网友,分享他上传一个超复杂的停车告示牌照片,加上要停车的时间,ChatGPT 就直接帮忙判断现在能不能免费停车、可以免费停多久。

该网友评论「我从此不会再拿到违规停车罚单了」,只能说多模态真的开启非常多应用的可能性呀!

这边帮大家汇整网络上已经有的GPT-4V 应用,只能说非常惊人:

例子

把小学生写作业,只需要把试卷拍照,发给GPT-4V,GPT-4V就能够理解图片,并且将答案输出出来

按照图片,写前端页面代码

写高等题目

甚至还有,脑筋急转弯

题目:威利躲哪里去了?

甚至还有

ChatGPT 辨识出有毒的蘑菇,还可以演绎吃下蘑菇后产生幻觉

辨识漫画角色?就算背对着也没问题!

虽然很强大

但是还有有他的局限性

虽然具有视觉功能的 GPT-4 功能强大并且可以在许多情况下使用,但了解该模型的局限性也很重要。以下是我们意识到的一些限制:

  • 医学图像:该模型不适合解释 CT 扫描等专业医学图像,也不应用于提供医疗建议。
  • 非英语:在处理包含非拉丁字母文本(例如日语或韩语)的图像时,模型可能无法获得最佳性能。
  • 小文本:放大图像中的文本以提高可读性,但避免裁剪重要细节。
  • 旋转:模型可能会误解旋转/颠倒的文本或图像。
  • 视觉元素:模型可能难以理解颜色或样式(如实线、虚线或点线)变化的图形或文本。
  • 空间推理:该模型难以完成需要精确空间定位的任务,例如识别国际象棋位置。
  • 准确性:在某些情况下,模型可能会生成不正确的描述或标题。
  • 图像形状:模型难以处理全景和鱼眼图像。
  • 元数据和调整大小:模型不处理原始文件名或元数据,图像在分析之前会调整大小,从而影响其原始尺寸。
  • 计数:可以给出图像中对象的近似计数。
  • 验证码:出于安全原因,我们实施了一个系统来阻止验证码的提交。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-01-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 一个正经的测试 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • GPT-4V
    • 概述
      • 例子
      相关产品与服务
      验证码
      腾讯云新一代行为验证码(Captcha),基于十道安全栅栏, 为网页、App、小程序开发者打造立体、全面的人机验证。最大程度保护注册登录、活动秒杀、点赞发帖、数据保护等各大场景下业务安全的同时,提供更精细化的用户体验。
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档