前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >三模态版ChatGPT震撼来袭,OpenAI卷起来了

三模态版ChatGPT震撼来袭,OpenAI卷起来了

作者头像
OpenMMLab 官方账号
发布2023-09-27 10:44:35
4600
发布2023-09-27 10:44:35
举报
文章被收录于专栏:OpenMMLabOpenMMLab

OpenAI作为大模型界的当红炸子鸡,以一己之力引领了大模型赛道的激烈竞争。上周发布的基于ChatGPT的DALL·E 3给AIGC社区带来的震撼还余温尚在,几个小时之前又宣布了多模态大模型的最新进展。相信对大模型赛道的诸多玩家来说,OpenAI真可谓是“比你优秀的对手比你还努力”的典范。就让我们一起快速学习一波,三模态ChatGPT究竟又整了那些活。

能动嘴不动手,ChatGPT打开麦克风和你交流

现在,我们可以用语音与ChatGPT交流。能听懂你说什么,更可以用语音回答你的提问。

其实语音识别功能早已在移动端上线,本次升级更多是引入了语音生成技术,能够通过声音来完成对话交流。在这个方面必须要夸一夸国产大模型在应用上的探索,字节的豆包早已上线语音输出功能,并支持多样丰富的声音类型。

左:ChatGPT 语音识别,右:豆包的多种语音合成风格

此次ChatGPT升级背后的技术主要依赖于语音识别和语音合成,语音识别部分则是基于自家开源的Whisper模型,生成部分是基于额外的TTS(text-to-speech)模型进行。语音合成部分支持五种语音,让我们一起听一听合成音频的效果吧。

Growing up with my sister, she had this touch that made regular days feel special. She’d pick a color each day, doodling moments in that hue, and would craft playlists to capture the essence of our week. So, to my new brother-in-law: with her, life won’t just be lived—every day will be turned into a gallery of beautiful memories. Cheers to the exhibit of moments you’ll craft together.

睁眼看世界,ChatGPT图文理解能力更上一层楼

依赖多模态版本的GPT-3.5或GPT-4,ChatGPT更是支持上传一张或多张图像,让用户与ChatGPT开展基于图文的对话。下边这个demo就展示了如何使用ChatGPT来指导你调低自行车的座椅。待图文能力开放体验之时,小编一定以最快速度来对ChatGPT的图文能力开展更全面的体验和评估。

视频:http://mpvideo.qpic.cn/0bc3imabqaaaoeacxgiskjsvaq6ddbbqagaa.f10102.mp4?

根据GPT-4V的技术报告,我们了解到多模版本的GPT-4(即GPT-4V) 的训练早在2022年就已基本完成,OpenAI从2023年的三月份开始对外提供多模态能力服务。GPT-4V是在GPT-4的基础上训练获得的,OpenAI基于海量文本语料进行了无监督训练,获得了GPT-4的大语言模型基座,然后再使用海量的版权合规的图文数据进行训练。同时也使用了RLHF来对齐人类偏好,笔者猜测OpenAI引入了图文场景的RLHF。

能力越强责任越大,重点关注安全问题

强大的语音技术带来解锁了更丰富的应用场景,但也不可避免的带来更多安全问题,比如声音伪造等。支持图片输入能满足用户对图文理解的需求的同时,也带来了更多的风险,比如模型幻觉,隐私与偏见等安全问题。拥有强大技术实力的OpenAI,并没有在模型训练完就立马对外提供服务,而是花了超过半年的时间致力于提升模型的安全性,减少各类风险。能力越大责任越大,安全问题日益成为整个大模型社区最为重要的问题之一,也期待整个社区在模型安全伦理问题上开展更多合作,共同构建安全可信负责任的人工智能技术。

除了官方博客对多模态ChatGPT的介绍,OpenAI更是发布了GPT-4V在安全问题上的具体探索,欢迎对相关细节感兴趣的读者前往https://openai.com/research/gpt-4v-system-card获取更多信息。

听说读写看,普通用户什么时候能体验?

从三月期待到现在,ChatGPT的多模态功能千呼万唤始出来,相关功能将在未来两周面向Plus和Enterprise用户开放,语音功能将会在iOS和安卓平台上线,图片功能将会全平台都可使用。

原文:https://openai.com/blog/chatgpt-can-now-see-hear-and-speak

你的3D感知模型够鲁棒吗?Robo3D告诉你答案!

2023-09-25

如何在秋招脱颖而出,从理论到实战的经验分享 |《offer来了》第2期

2023-09-22

20B的体量,70B的性能,书生·浦语InternLM-20B带领开源大模型进入新时代

2023-09-20

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-09-26 09:43,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 OpenMMLab 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档