Sora的训练受到了大型语言模型(Large Language Model)的启发,这些模型通过在互联网规模的数据上进行训练,获得了广泛的能力。但Sora不同于传统的语言模型,它是一种扩散型变换器模型(Diffusion Transformer)。这意味着Sora能够通过逐步消除视频中的噪声,从一开始看似静态噪声的视频出发,逐步生成清晰的视频内容。与此同时,Sora还具备扩展视频长度的能力,使得已生成的视频能够更加长久地延续。通过预见多帧内容,Sora成功克服了确保视频主体即便暂时消失也能保持一致性的难题。