首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

通信:Sora模型震撼发布,通信网络需求提升

2月16日凌晨,OpenAI发布旗下首个AI视频生成模型——Sora模型,Sora人工智能模型能够通过文本提示,生成逼真且富有想象力的视频。

OpenAI首个文生视频模型发布,效果震撼。Sora可以直接输出长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。目前官网上已经更新了48个视频demo,在这些demo中,Sora不仅能准确呈现细节,还能理解物体在物理世界中的存在,并生成具有丰富情感的角色。该模型甚至还可以根据提示、静止图像填补现有视频中的缺失帧来生成视频。Sora模型能够生成包含多个角色、特定类型运动和主体及背景精确细节的复杂场景。该模型不仅能理解用户在提示中所要求的内容,还能理解这些事物在现实世界中的存在方式。该模型对语言有深刻理解,能准确解读提示,并生成表达丰富情感的引人入胜的角色。Sora还能在单个生成的视频中创建多个镜头,使角色和视觉风格保持准确一致。

Sora实现多维度突破,模型带来无限可能。Sora模型是在DALL·E和GPT的研究基础上进一步发展。它利用了DALL·E3的重新标注技术,为视觉训练数据生成高度描述性的说明文字,借鉴了GPT模型的成功,采用了Transformer架构,实现了前所未有的扩展性能。Sora模型出众点在三方面:1、技术领先,Sora与ChatGPT一样是有理解能力的,它可以感知真实的物理世界和自然语言。2、大幅降低短视频制作成本。只需一个简单的提示词,就能生成一段制作精良的60秒视频。还支持使用图片或视频片段进行扩展,生成全新的视频。同时也支持将两个视频合并整合成一个新的视频。3、生成4K高清图片。Sora还能够生成图像,分辨率高达2048x2048。但同样,目前Sora模型也有不足点,难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系,还可能混淆提示词的空间细节,例如混淆左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。

多模态模型迭代节奏加快,算力通信大宽带受益。当前,AI算力及基础设施投入加速,2月9日,OpenAI创始人SamAltman与包括阿联酋政府在内的潜在投资者进行谈判,计划筹集5万亿至7万亿美元,推进提升全球芯片制造能力的AI芯片项目;2月13日,英伟达计划进军ASIC定制芯片领域,同时推出ChatWithRTX本地部署AI大模型;2月16日,谷歌发布新一代AI大模型Gemini1.5,自2023年12月发布Gemini1.0后迭代速度进一步加快,其最大亮点在于首次采用多模态通用模型Gemini1.5Pro,将稳定处理上下文的上限扩大至100万tokens;算力包括单体GPU的性能和群体数据中心的性能,算力的提升需要大带宽的支撑。面向单体GPU,通信带宽越大,GPU之间的数据交换速度越快,模型也就能更快地训练出来;面向数据中心,低延迟、高带宽以及可扩展性来满足大规模计算和数据传输的需求,需要不断的升级架构、采用先进的协议以支持更大的接口带宽。

我们认为,随着模型应用端的爆发以及新型算力的涌现,不仅将加速硬件尤其网络端设备的升级更新,甚至会驱动如LPO\CPO等新型光模块等网络设备的落地。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/Ovf-RIwabHS7Xtd-IyJu5GTg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券