智通财经APP获悉,国泰君安发布研究报告称,Sora模型推动AI多模态领域飞跃式发展,AI创作等相关领域将迎来深度变革,AI赋能范围进一步扩大,多模态相关的训练及推理应用也将进一步提升对算力基础设施的相关需求。
▍国泰君安主要观点如下:
OpenAI首个文生视频模型Sora发布,实现AIGC 领域的里程碑式进展。
Sora能根据文字指令创造出包含丰富细节的逼真场景和角色,并能够用多角度镜头生成一镜到底的60s长镜头。Sora所生成的视频涵盖广泛的视觉数据类型、分辨率与纵横比,还可以对视频色彩风格等要素精确理解,创造出人物表情丰富、情感生动的视频内容,拥有深入的语言理解能力和复杂场景与角色生成能力。
Sora是一个基于大规模训练的文本控制视频生成diffusion模型。
Sora使用Transformer作为主要架构,释放出卓越的扩展性能,OpenAI开发了视频压缩网络来克服Transformer架构下的高昂计算成本问题,通过将LLM和Diffusion结合训练,Sora大量学习视频,理解现实世界的动态变化规律,并模拟、创造出新的视觉内容,由此产生的视频真实感十足。
OpenAI表示,视频生成模型是有希望向构建通用物理世界模拟器迈进的路径。
通过大量观察和训练后,Sora掌握了许多关于真实世界的物理规律。随着模型规模的扩大,视频模型能够处理更复杂、更多样化的输入数据,从而更好地模拟和理解真实世界中的各种现象,包括物体的运动、碰撞、重力等物理规律,以及人物、动物的行为和交互等方面。
风险提示:
地缘政治风险、竞争加剧风险及资本开支过大的风险。
领取专属 10元无门槛券
私享最新 技术干货