当地时间周一,OpenAI宣布正式向用户开放人工智能 (AI)视频生成模型Sora,该系统可以根据文本提示生成逼真…由于知乎只能上传10个视频,我在后续的两个比较中就只拿一个国产模型进行对比。 在这个画面生成上,Sora暴露了比较严重的缺点,镜头切换过于频繁,画面质感不足,而作为对比的国产. 最近开发的 Sora 模型 [1] 在视频生成方面表现出了卓越的能力,引发了关于其模拟现实世界现象的能力的激烈讨论。 尽管它越来越受欢迎,但缺乏既定的指标来定量评估其对现实世界物理的保真度。 Sora不止步于视频生成工具,它的背后是OpenAI的宏大愿景:开发出能够让计算机理解我们世界的算法和技术,而OpenAI认为最有可能的技术之一是生成模型 (generative model)。 OpenAI的blog中对Sora的定位正是“作为世界模拟器的视频生成模型”。 这里是OpenAI 2016 (!)
How to Make Money on OnlyFans as a Guy – Winning Strategies 2025
Sora本质是一个扩散模型,报告中并没有详细介绍其细节,只是介绍其使用类似DiT的技术方案,并给出了如图39所示的示例。
Sora 2这次最大的进步,是它开始尊重世界的物理规律了。 以前的AI视频,篮球进了可以突然消失,水里的船可以像纸片。 Sora 2开始修正这些玄学问题 。 OpenAI团队自己举了个例子:如果一个篮球运动员投篮没进,球现在知道要打板反弹,而不是像以前那样“瞬移”进篮筐。 可以看一个打排球的例子.
不过在相比之下,Sora最震撼的技术突破之一在于其输出的视频时长。 Runway能够生成4秒长的视频,用户可以将其最多延长至16秒,是AI生成视频在2023年所能达到的最长时长纪录。Stable Video也提供4秒的视频,Pika则提供3秒的视频。在这一方面,Sora以1分钟的时长向竞争对手们提出了挑战。 为什么Sora能够生成这么长视频,且没有明显bug了。有哪些技术革新。图5: 引入TextCondition,这样基于Text能生成和Text描述一致的图片 • 为了加速过程, 先会对图片做Encoder从而得到图片的一个 Latent 表示, 然后对Latent做diffusion过程 Sora的原理 基于以上Diffusion的原理, 如果基于Condition条件,比如Text. Sora基于DALL·E和GPT模型的研究成果,采用了DALL·E 3的重标注技术,通过为视觉训练数据生成详细描述的标题,使模型更加准确地遵循用户的文本指令生成视频。