
2月15日,OpenAI终于向世界宣布:自家研发的的文本转视频模型Sora,正式亮相了。
从之前各种提前的曝光来看,毫不夸张的说,Sora在目前AI领域里面已经来到了顶尖,和自家兄弟2022年出山的ChatGPT可以说是不相上下。
而对比同类竞品Pika和Runway等AI视频工具,Sora可以说是降维打击,它不仅能生成长达一分钟的视频,而且可以保证极高的画面逼真度。

Sora的独特之处,就在于其融合了扩散模型和转换器架构,拥有着前所未有的视频生成能力。说得简单一点,如今的Sora已经能根据现实世界的物理规律进行推理,以及一系列的自动拓展。
随着时间的推移,能够预测场景的后续会发生什么,场景中的物体会怎样运动,出现怎样的轨迹,甚至于形状如何变化等等。要知道,在这之前的视频生成工具,大多数的画质都比较一般,与用户的需求相差甚远,生成的视频时间也特别短。
说白点,只要能学会Sora,哪怕你是一名普通人,哪怕你根本不懂视频技术,但只要具备丰富的想象力,能将画面准确的描述出来,你甚至可以独立创作出一部高质量的电影。

它以强大的创造力和想象力,为我们展现出了一个充满无限可能的虚拟世界。
对于Sora,Sam Altman在最近的采访里是这么说的:
Lex Fridman
讲到厉害的玩意儿,Sora 真的很吸引人。我有一百万个问题想问你。首先,它的确令人称奇,无论是在产品层次上,还是在哲学层次上。那么我就从技术/哲学的角度来提问吧,你认为它比如说相比于 GPT-4,在理解世界这方面是更胜一筹还是稍逊一筹呢?在训练这些补丁时,它对世界模型的理解与仅仅基于语言标记有什么不同吗?
Sam Altman
我觉得这些模型对世界模型的理解,实际上比我们多数人给予的认可要深。因为它们对某些事情的理解是如此的清晰明了,它们对其他事情的无知或错误就显得尤为突出,人们很容易一眼看穿它们的不足,然后说:「啊,这全是假的。」但实际上并非全是假象。有些部分是有效的,有些部分则不然。
我还记得第一次看 Sora 视频时的情景,你会看到有人走过来,挡住画面几秒钟后又走开,而被遮挡的东西依旧在那儿。我当时就想,「噢,这效果挺不错的。」或者,有时候,你能看到它展现出一系列动作中物理规律的那种精准,真的让人印象深刻。但说到底,这些模型只会越来越强大,这种进步还会继续。如果你关注一下从 DALL·E 1 到 2 再到 3,再到 Sora 的发展轨迹,会发现有很多人在每一个版本上都曾嘲讽,说它做不到这个,做不到那个,但现在看看它的表现吧。
…

Sam Altman
我是说,坦白讲,在发布系统之前,我们必须确保它的效率达到人们期望的规模,这样才能确保系统能够正常工作,这一点我不想轻描淡写。在这方面还有大量的工作需要完成。但你可以想象到,像深度伪造、错误信息这样的问题。我们试图作为一家深思熟虑的公司去思考我们推向世界的产品,你不用费太多心思就能想到这些事情可能怎么走向不好的方向。
Lex Fridman
在这里我们面临很多棘手的问题,你所处的领域非常艰难。你觉得按照版权法,训练人工智能算不算公平使用呢?
Sam Altman
我觉得这个问题的底层问题是,创造有价值数据的人们是否应该得到某种形式的经济补偿,因为他们的数据被利用了。我认为答案是肯定的。我目前还不清楚具体的解决方案是什么。人们提出了各种各样的点子,我们也尝试过一些不同的模式。但打个比方,如果我是一位艺术家,A,我会希望有选项可以让别人不使用我的风格来创作艺术作品。而且,B,如果别人确实用了我的风格来创作,我希望这背后能有一套经济模式来确保我的利益得到体现。
Lex Fridman
是的,就像是从 CD 到 Napster,再到 Spotify 的那种转变。我们得找出一种可行的模式。
Sam Altman
在我所担心的一切中,我相信人类会创造出非常酷的东西,并且社会终将以某种方式来奖励这些创造。这似乎已经深植于我们的本性之中。我们渴望创造,我们渴望证明自己的价值,我们希望以各种方式来获取认同和地位。我认为,这些特质是不会消逝的。
人们总是在讨论,五年内人工智能会取代多少工作岗位。他们的出发点通常是,目前的工作中有多大比例会完全被人工智能所替代?但我个人的看法并不是围绕人工智能会做多少份工作,而是在未来某个时间点,它们能执行多少种任务。想一想,经济活动中的所有五秒钟、五分钟、五小时乃至五天的任务,有多少是人工智能可以完成的?我认为,这个问题比单纯问人工智能能取代多少工作要更加有意义、影响深远和重要。因为人工智能是一个工具,它将在不断延长的时间跨度内、以越来越高的复杂度来执行越来越多的任务,这让人类能够在更高层次上进行抽象思考。也就是说,人们在自己的工作中可能会变得更加高效。而这种变化,随着时间的推移,不仅仅是量的改变,它还意味着质的变化——我们能在脑海中构思何种问题。对于 YouTube 上的视频,我觉得情况也是如此。很多视频,或许是大多数视频,在制作过程中会运用到人工智能工具,但它们的核心仍然是由人来思考、构思、负责部分执行,并指导整个项目的运作。
不过,OpenAI也并非完美。他们自己也发现了一些缺点,比如模型仍存在许多局限性,无法精确模拟基本相互作用的物理特性。
因此不可否认,目前的Sora也并不是真正的完全体,还有更多的东西等待着我们去开发。
而如今AI的爆发式增长,又将是人类文明的一大转折点,它势必会重新改变世界进程,甚至有机会完成文明的跨越。
