首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

多模态,通用大模型新一轮竞争拉开了

通用大模型只拼生成内容,自动写代码,写文档是不行了。现在已经进入新一轮的竞争,就是多模态的大模型,大模型能够阅读和理解图像内容,还要能够创作图像,甚至视频。

OpenAI发布了新的图像生成的模型DALL-E 3,可以直接在ChatGPT里面通过对话,来生成图像,甚至进行创作了。

DALL-E 3看起来不逊色于文生图领域的王者MidJourney。看看用ChatGPT生成图像效果如何。

牛油果看医生的创意

心脏内的小宇宙创意

ChatGPT对图像能力的加强,可能对Midjourney是一个噩耗。不过对于用户来说,估计接下来会创造出茫茫多的有趣玩法。我就观察我9岁的儿子,发微信都是只发表情和动图的。只要大模型对图像和视频的阅读和生成能力上一个台阶,我甚至估计会出现很多有创意的To C的产品出来。

比方说,只是纯图像纯视频的沟通的社交App,不再需要文字了,甚至可以通过手机摄像头阅读用户表情,根据用户的心情随时变换头像的表情,想想就觉得很有趣。

其实OpenAI和Google这两个AI领域的重量级玩家,目前都在大模型的多模态方面持续发力。除了刚刚发布的DALL-E,很可能OpenAI还在研发下一代的GPT-5,代号戈壁(Gobi)。而Google的多模态的AI大模型产品Gemini也会在今年四季度正式发布。此外,今年11月6日,OpenAI在旧金山举办开发者大会,届时不知道会放出来什么大招。

总之,通用大模型下一个竞争热点会从文字转向图像和视频,特别是大模型如果能读懂图像,还是能创造很多新的需求场景的,想象空间真的很大,让我们拭目以待吧。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O1xOffWLVwQKyamEJWVijz4Q0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券