前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >GPT-4下一步?

GPT-4下一步?

作者头像
木羊
发布2023-09-09 09:21:24
2640
发布2023-09-09 09:21:24
举报
文章被收录于专栏:睡前机器学习

OpenAi现在有点牙膏厂的意思了。

这次GPT-4发布可谓万众瞩目,最重要的升级就是多模态,也就是不止支持文本,还支持图片了。

前面ChatGPT很强大,但是有个明显的短板,就是只支持文本,半点图片都不能沾。结果表现越好,能力越强,短板越明显,对强迫症特别不友好。

前面对于GPT-4到底要升级什么,我猜得到,相信很多人猜得到,微软也提前剧透了,就是多模态。所以,这次万众瞩目的GPT-4点出了多模态的科技树,可谓众望所归。

不过,今天真的试了试,心情却很复杂,先不说这平均每小时25次的限制符不符合尊贵的Plus会员,但至少有一点,这次GPT-4的多模态我觉得只能叫半双工的多模态。

半双工是信息通信里面的词。什么叫半双工?通信都是一边收一边发的,半双工有个限制,要么只能收,要么只能发。最典型的就是对讲机,别看电影玩得挺溜,初上手都觉得挺别扭。没有限制的叫全双工。

这次GPT-4的多模态就搞了个半双工,只能收不能发,效果就是给出一张图片,GPT-4生成一段文字。这种图-文多模态过去也有许多,不过基本都停留在图上有只鸟,有辆车,有个熊孩子在打猫之类的看图写话水平

但是GPT-4不一样,不是用更精致的文字语言来描述图上有什么东西,而是用了更GPT的方式。由于尊贵的Plus会员也没法发图,多模态效果只能看官方演示。有两个我印象很深,一个是根据一幅潦草的手绘来编写前端代码,制作一个布局类似的网页,另一个根据一张照片,照片上有鸡蛋和一些食物原材料,生成一份这些食材能做什么菜的菜谱。

没啥好说,这才是用GPT搞多模态该有的样子。

但是,问题还是很突出,那就是半双工。GPT-4仍然只能生成文字,不能生成图片,图文并茂的回复仍然只能在梦里。两个字,别扭。

是OpenAi能力不足吗?不可能。就算OpenAi赶工期来不及,直接后端接一个文-图生成模型总行了吧。这波Ai绘画据说都快把画师赶尽杀绝,用的就是文-图生成。始作俑者是谁?DALL-E 2模型,OpenAi家的另一位当家花旦。

没错,最早用文-图生成带出这波Ai绘画风潮的正是OpenAi,各位画师,别砸错别家店了。

是OpenAi觉得图片生成不重要吗?不可能。都说了DALL-E 2是OpenAi的当家花旦,而且点出了图片生成技能,可就不止文-图这么简单,还有图-图这种形式。CV的玩法很多,譬如什么语义分割,风格变化,不过说到底都可归结为图-图形式,图片生成一打通,想象空间和野心就能马上广阔起来

是找不到训练语料吗?更不可能。C站就有成吨的现成语料,而且图片和提示文本已经一一对应,是爬是买多的是办法。就算看不起C站,前面就有训练CLIP时整理好了的高质量数据集,用GPT-4的图-文能力随便努一把力,想不到办法肯定要比想到办法还困难

那为什么非得留个尾巴?不知道。

GPT-4这次公布技术资料动作很快,比起还在天国的ChatGPT论文,这次GPT-4的产品和论文是同步发布,当然,严格来说不叫论文,叫技术报告(Technical Report),说明OpenAi早有准备,而且图文并茂写了98页,粗看好像十分厉害。

仔细一看发现确实厉害,洋洋洒洒98页,关键信息是半点没有,用了多大的模型?不知道。用了多大的数据?不知道。用了多大的算力?不知道。98页,一问三不知,厉害厉害。

没有资料,下面就全是瞎猜了。为什么OpenAi要留给尾巴呢?我的观点前面就说了,三个字挤牙膏。GPT-4出来,ChatGPT就成了牛夫人,可是Google还跟在牛夫人后面边跑边喘呢,第二梯队更是连牛夫人的车尾灯都看不到,急啥,挤牙膏。

挤牙膏还有两个好处。一个给竞品留点门槛。这几天除了GPT-4,其它大模型也是风起云涌,斯坦福基于LLaMA搞出来的Alpaca,据说已经可以GPT-3.5五五开,而且关键是,这玩意要求低,才600美元就能训练,买不了吃亏买不了上当。

大模型最重要的门槛就是重氪,斯坦福这是用了什么理财黑科技么?还真是,用了GPT-3.5生成语料,最后反过来还要干掉GPT-3.5,这叫什么?这叫草船借箭,岂不妙哉。

在干这事不止斯坦福一家,还有好几篇用ChatGPT做数据增强都发了论文,大家都在琢磨怎样用OpenAi的氪金成果来跨过氪金门槛,只有OpenAi受伤的世界眼看就要形成了,OpenAi肯定得想点办法。想什么办法呢?文本生成已经无法可想了,那就想想图片生成吧。

第二是给留点想象空间。之前我说NLP已经不存在了,现在GPT-4出来,又有人说CV也不存在了。哪这么容易不存在,前面说了,很多CV任务可以归结为图-图,GPT怎么说也是NLP出身,估计也就做做分类还行,不可能马上就能在主流任务上制霸,急着放出来表现不好,还不如先扣着给大家留个念想。

最后猜一下GPT的下一步吧,其实也没啥好说的,就是图片生成,OpenAi说了要搞AGI,具体来说就是用大模型搞全任务制霸,现在江山打下一半,就差文-图和图-图,也就是剩下图片生成。我是不信OpenAi自己内部没有强迫症,把另一半也给占过来。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-03-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 睡前机器学习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档