2月15日，OpenAI终于向世界宣布：自家研发的的文本转视频模型Sora，正式亮相了。

从之前各种提前的曝光来看，毫不夸张的说，Sora在目前AI领域里面已经来到了顶尖，和自家兄弟2022年出山的ChatGPT可以说是不相上下。

而对比同类竞品Pika和Runway等AI视频工具，Sora可以说是降维打击，它不仅能生成长达一分钟的视频，而且可以保证极高的画面逼真度。

Sora的独特之处，就在于其融合了扩散模型和转换器架构，拥有着前所未有的视频生成能力。说得简单一点，如今的Sora已经能根据现实世界的物理规律进行推理，以及一系列的自动拓展。

随着时间的推移，能够预测场景的后续会发生什么，场景中的物体会怎样运动，出现怎样的轨迹，甚至于形状如何变化等等。要知道，在这之前的视频生成工具，大多数的画质都比较一般，与用户的需求相差甚远，生成的视频时间也特别短。

说白点，只要能学会Sora，哪怕你是一名普通人，哪怕你根本不懂视频技术，但只要具备丰富的想象力，能将画面准确的描述出来，你甚至可以独立创作出一部高质量的电影。

它以强大的创造力和想象力，为我们展现出了一个充满无限可能的虚拟世界。

对于Sora，Sam Altman在最近的采访里是这么说的：

Lex Fridman

讲到厉害的玩意儿，Sora 真的很吸引人。我有一百万个问题想问你。首先，它的确令人称奇，无论是在产品层次上，还是在哲学层次上。那么我就从技术/哲学的角度来提问吧，你认为它比如说相比于 GPT-4，在理解世界这方面是更胜一筹还是稍逊一筹呢？在训练这些补丁时，它对世界模型的理解与仅仅基于语言标记有什么不同吗？

Sam Altman

我觉得这些模型对世界模型的理解，实际上比我们多数人给予的认可要深。因为它们对某些事情的理解是如此的清晰明了，它们对其他事情的无知或错误就显得尤为突出，人们很容易一眼看穿它们的不足，然后说：「啊，这全是假的。」但实际上并非全是假象。有些部分是有效的，有些部分则不然。

我还记得第一次看 Sora 视频时的情景，你会看到有人走过来，挡住画面几秒钟后又走开，而被遮挡的东西依旧在那儿。我当时就想，「噢，这效果挺不错的。」或者，有时候，你能看到它展现出一系列动作中物理规律的那种精准，真的让人印象深刻。但说到底，这些模型只会越来越强大，这种进步还会继续。如果你关注一下从 DALL·E 1 到 2 再到 3，再到 Sora 的发展轨迹，会发现有很多人在每一个版本上都曾嘲讽，说它做不到这个，做不到那个，但现在看看它的表现吧。

…

Sam Altman

我是说，坦白讲，在发布系统之前，我们必须确保它的效率达到人们期望的规模，这样才能确保系统能够正常工作，这一点我不想轻描淡写。在这方面还有大量的工作需要完成。但你可以想象到，像深度伪造、错误信息这样的问题。我们试图作为一家深思熟虑的公司去思考我们推向世界的产品，你不用费太多心思就能想到这些事情可能怎么走向不好的方向。

Lex Fridman

在这里我们面临很多棘手的问题，你所处的领域非常艰难。你觉得按照版权法，训练人工智能算不算公平使用呢？

Sam Altman

我觉得这个问题的底层问题是，创造有价值数据的人们是否应该得到某种形式的经济补偿，因为他们的数据被利用了。我认为答案是肯定的。我目前还不清楚具体的解决方案是什么。人们提出了各种各样的点子，我们也尝试过一些不同的模式。但打个比方，如果我是一位艺术家，A，我会希望有选项可以让别人不使用我的风格来创作艺术作品。而且，B，如果别人确实用了我的风格来创作，我希望这背后能有一套经济模式来确保我的利益得到体现。

Lex Fridman

是的，就像是从 CD 到 Napster，再到 Spotify 的那种转变。我们得找出一种可行的模式。

Sam Altman

在我所担心的一切中，我相信人类会创造出非常酷的东西，并且社会终将以某种方式来奖励这些创造。这似乎已经深植于我们的本性之中。我们渴望创造，我们渴望证明自己的价值，我们希望以各种方式来获取认同和地位。我认为，这些特质是不会消逝的。

人们总是在讨论，五年内人工智能会取代多少工作岗位。他们的出发点通常是，目前的工作中有多大比例会完全被人工智能所替代？但我个人的看法并不是围绕人工智能会做多少份工作，而是在未来某个时间点，它们能执行多少种任务。想一想，经济活动中的所有五秒钟、五分钟、五小时乃至五天的任务，有多少是人工智能可以完成的？我认为，这个问题比单纯问人工智能能取代多少工作要更加有意义、影响深远和重要。因为人工智能是一个工具，它将在不断延长的时间跨度内、以越来越高的复杂度来执行越来越多的任务，这让人类能够在更高层次上进行抽象思考。也就是说，人们在自己的工作中可能会变得更加高效。而这种变化，随着时间的推移，不仅仅是量的改变，它还意味着质的变化——我们能在脑海中构思何种问题。对于 YouTube 上的视频，我觉得情况也是如此。很多视频，或许是大多数视频，在制作过程中会运用到人工智能工具，但它们的核心仍然是由人来思考、构思、负责部分执行，并指导整个项目的运作。

不过，OpenAI也并非完美。他们自己也发现了一些缺点，比如模型仍存在许多局限性，无法精确模拟基本相互作用的物理特性。

因此不可否认，目前的Sora也并不是真正的完全体，还有更多的东西等待着我们去开发。

而如今AI的爆发式增长，又将是人类文明的一大转折点，它势必会重新改变世界进程，甚至有机会完成文明的跨越。

JR Academy · Blog职业洞察

OpenAI的Sora正式亮相，人类文明会被推翻吗？

2月15日，OpenAI终于向世界宣布：自家研发的的文本转视频模型Sora，正式亮相了。

发布日期2024-06-25

阅读时长1 分钟

作者Ada Hu

2月15日，OpenAI终于向世界宣布：自家研发的的文本转视频模型Sora，正式亮相了。

从之前各种提前的曝光来看，毫不夸张的说，Sora在目前AI领域里面已经来到了顶尖，和自家兄弟2022年出山的ChatGPT可以说是不相上下。

而对比同类竞品Pika和Runway等AI视频工具，Sora可以说是降维打击，它不仅能生成长达一分钟的视频，而且可以保证极高的画面逼真度。

它以强大的创造力和想象力，为我们展现出了一个充满无限可能的虚拟世界。

对于Sora，Sam Altman在最近的采访里是这么说的：

Lex Fridman

Sam Altman

…

Sam Altman

Lex Fridman

在这里我们面临很多棘手的问题，你所处的领域非常艰难。你觉得按照版权法，训练人工智能算不算公平使用呢？

Sam Altman

Lex Fridman

是的，就像是从 CD 到 Napster，再到 Spotify 的那种转变。我们得找出一种可行的模式。

Sam Altman

不过，OpenAI也并非完美。他们自己也发现了一些缺点，比如模型仍存在许多局限性，无法精确模拟基本相互作用的物理特性。

因此不可否认，目前的Sora也并不是真正的完全体，还有更多的东西等待着我们去开发。

而如今AI的爆发式增长，又将是人类文明的一大转折点，它势必会重新改变世界进程，甚至有机会完成文明的跨越。

News

作者Ada Hu

一键分享或复制链接

OpenAI的Sora正式亮相，人类文明会被推翻吗？

相关文章推荐

什么！一站式BusinessAnalyst训练营+实习又来了？快来抢占职场先机！

精彩回顾|AI与创新激情碰撞！悉尼JR&AtlassianAI主题活动完美收官!

官宣！澳洲政府颁布新规！留学生或将被限制入境，485确定免费延长2年！

平心而论，我在澳洲没见过这么好的数据分析班！

澳洲数据分析+任何专业=王炸！

年薪可达10万澳币？这“十大”工作成为华人梦中情职！就业季来袭，墨尔本职业博览会强势开启，500+岗位为你职业生涯保驾护航！