Sora是一个生成式模型,可以基于文本描述、图片和视频生成新的视频或图片,其底层技术类似DiT,在隐空间进行逆向扩散过程,基于条件信息使用Transformer对带噪声的隐空间视频进行噪声预测,并去噪,最后通过解码器生成像素空间的清晰视频。 从高等级的套件中继承的技术被运用到SORA中,让新手和爱好者都能享受骑行的舒适。 目前最新版本的SORA套件型号为R3000(18速圈刹),R3030(27速圈刹)。 Sora不止步于视频生成工具,它的背后是OpenAI的宏大愿景:开发出能够让计算机理解我们世界的算法和技术,而OpenAI认为最有可能的技术之一是生成模型 (generative model)。 OpenAI的blog中对Sora的定位正是“作为世界模拟器的视频生成模型”。 这里是OpenAI 2016 (!)
Xtina Aguilera Instagram
不过在相比之下,Sora最震撼的技术突破之一在于其输出的视频时长。 Runway能够生成4秒长的视频,用户可以将其最多延长至16秒,是AI生成视频在2023年所能达到的最长时长纪录。Stable Video也提供4秒的视频,Pika则提供3秒的视频。在这一方面,Sora以1分钟的时长向竞争对手们提出了挑战。
○ Sora也能为能生成不同尺寸的视频 ○ 裁剪后会使得生成的视频不完整, sora不会 • 利用基于DALL-E3提到的标注技术,训练了标注模型, 为大量视频生成丰富的文本解释,提高了文字准确度也提高了视频整体质量, 还用GPT把简短的提示转化成详细的文字说明
Sora 2这次最大的进步,是它开始尊重世界的物理规律了。 以前的AI视频,篮球进了可以突然消失,水里的船可以像纸片。 Sora 2开始修正这些玄学问题 。 OpenAI团队自己举了个例子:如果一个篮球运动员投篮没进,球现在知道要打板反弹,而不是像以前那样“瞬移”进篮筐。 可以看一个打排球的例子. 在这个画面生成上,Sora暴露了比较严重的缺点,镜头切换过于频繁,画面质感不足,而作为对比的国产模型可灵AI在这个视频中的表现,无论是镜头的连续性,还是画面效果,都明显优于Sora。 4.空中俯瞰 提示词: Sora基于DALL·E和GPT模型的研究成果,采用了DALL·E 3的重标注技术,通过为视觉训练数据生成详细描述的标题,使模型更加准确地遵循用户的文本指令生成视频。