前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >它能看到东西了-动手体验GPT的多模态API

它能看到东西了-动手体验GPT的多模态API

作者头像
花叔
发布2023-11-09 18:41:33
3440
发布2023-11-09 18:41:33
举报
文章被收录于专栏:花叔的专栏花叔的专栏

openai官方在11月6日的开发者大会上公布了一些消息,概括起来如下图:

(感谢这位网友的提炼)

我感兴趣的多模态支持了,于是动手做demo体验了下。

因为是接口调用方式,所以十几二十分钟就能做出demo,马上拿最近很火的一个游戏的宣传图测试一下。

不得不说,是真的厉害,比如:

这张它能力理解到其中的幽默。

这张它猜到了是音乐专辑封面,且把艺术字读出来了。

这张他还能说出风格和故事剧情的关系。

对实物理解也很到位。

测试了下一些网页截图,他很容易准备读出相关的数字。

对一些游戏的截图也能理解到关键点。

对流程图能识别,但逻辑不一定到位。

对思维导图理解得倒是很准确。

总得来说,相当厉害了。接下来简单mark一下技术侧如何调度:

方法很简单,用的是原来的chat接口,只不过在构造message参数时用这种方式传图,且前只有gpt-4-vision-preview模型支持多模态。

另外提醒下,目前每个openai key对应的gpt-4-vision-preview模型有每天调用次数限制的,一天100次,用完就报错。

而资费方面,这次官方直接降价到原来gpt4的三分之一,多模态上传时,图片也要折算到token里,大致的折算方式如下:

算下来,也还好。

但目前gpt-4-vision-preview还不能直接用,应该只是用于预览和体验功能。

期待未来正式版。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-11-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MinProgram 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯云服务器利旧
云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档