2024-06-25
Ada Hu
2月15日,OpenAI终于向世界宣布:自家研发的的文本转视频模型Sora,正式亮相了。
从之前各种提前的曝光来看,毫不夸张的说,Sora在目前AI领域里面已经来到了顶尖,和自家兄弟2022年出山的ChatGPT可以说是不相上下。
而对比同类竞品Pika和Runway等AI视频工具,Sora可以说是降维打击,它不仅能生成长达一分钟的视频,而且可以保证极高的画面逼真度。
Sora的独特之处,就在于其融合了扩散模型和转换器架构,拥有着前所未有的视频生成能力。说得简单一点,如今的Sora已经能根据现实世界的物理规律进行推理,以及一系列的自动拓展。
随着时间的推移,能够预测场景的后续会发生什么,场景中的物体会怎样运动,出现怎样的轨迹,甚至于形状如何变化等等。要知道,在这之前的视频生成工具,大多数的画质都比较一般,与用户的需求相差甚远,生成的视频时间也特别短。
说白点,只要能学会Sora,哪怕你是一名普通人,哪怕你根本不懂视频技术,但只要具备丰富的想象力,能将画面准确的描述出来,你甚至可以独立创作出一部高质量的电影。
它以强大的创造力和想象力,为我们展现出了一个充满无限可能的虚拟世界。
对于Sora,Sam Altman在最近的采访里是这么说的:
Lex Fridman
讲到厉害的玩意儿,Sora 真的很吸引人。我有一百万个问题想问你。首先,它的确令人称奇,无论是在产品层次上,还是在哲学层次上。那么我就从技术/哲学的角度来提问吧,你认为它比如说相比于 GPT-4,在理解世界这方面是更胜一筹还是稍逊一筹呢?在训练这些补丁时,它对世界模型的理解与仅仅基于语言标记有什么不同吗?
Sam Altman
我觉得这些模型对世界模型的理解,实际上比我们多数人给予的认可要深。因为它们对某些事情的理解是如此的清晰明了,它们对其他事情的无知或错误就显得尤为突出,人们很容易一眼看穿它们的不足,然后说:「啊,这全是假的。」但实际上并非全是假象。有些部分是有效的,有些部分则不然。
我还记得第一次看 Sora 视频时的情景,你会看到有人走过来,挡住画面几秒钟后又走开,而被遮挡的东西依旧在那儿。我当时就想,「噢,这效果挺不错的。」或者,有时候,你能看到它展现出一系列动作中物理规律的那种精准,真的让人印象深刻。但说到底,这些模型只会越来越强大,这种进步还会继续。如果你关注一下从 DALL·E 1 到 2 再到 3,再到 Sora 的发展轨迹,会发现有很多人在每一个版本上都曾嘲讽,说它做不到这个,做不到那个,但现在看看它的表现吧。
…
Sam Altman
我是说,坦白讲,在发布系统之前,我们必须确保它的效率达到人们期望的规模,这样才能确保系统能够正常工作,这一点我不想轻描淡写。在这方面还有大量的工作需要完成。但你可以想象到,像深度伪造、错误信息这样的问题。我们试图作为一家深思熟虑的公司去思考我们推向世界的产品,你不用费太多心思就能想到这些事情可能怎么走向不好的方向。
Lex Fridman
在这里我们面临很多棘手的问题,你所处的领域非常艰难。你觉得按照版权法,训练人工智能算不算公平使用呢?
Sam Altman
我觉得这个问题的底层问题是,创造有价值数据的人们是否应该得到某种形式的经济补偿,因为他们的数据被利用了。我认为答案是肯定的。我目前还不清楚具体的解决方案是什么。人们提出了各种各样的点子,我们也尝试过一些不同的模式。但打个比方,如果我是一位艺术家,A,我会希望有选项可以让别人不使用我的风格来创作艺术作品。而且,B,如果别人确实用了我的风格来创作,我希望这背后能有一套经济模式来确保我的利益得到体现。
Lex Fridman
是的,就像是从 CD 到 Napster,再到 Spotify 的那种转变。我们得找出一种可行的模式。
Sam Altman
在我所担心的一切中,我相信人类会创造出非常酷的东西,并且社会终将以某种方式来奖励这些创造。这似乎已经深植于我们的本性之中。我们渴望创造,我们渴望证明自己的价值,我们希望以各种方式来获取认同和地位。我认为,这些特质是不会消逝的。
人们总是在讨论,五年内人工智能会取代多少工作岗位。他们的出发点通常是,目前的工作中有多大比例会完全被人工智能所替代?但我个人的看法并不是围绕人工智能会做多少份工作,而是在未来某个时间点,它们能执行多少种任务。想一想,经济活动中的所有五秒钟、五分钟、五小时乃至五天的任务,有多少是人工智能可以完成的?我认为,这个问题比单纯问人工智能能取代多少工作要更加有意义、影响深远和重要。因为人工智能是一个工具,它将在不断延长的时间跨度内、以越来越高的复杂度来执行越来越多的任务,这让人类能够在更高层次上进行抽象思考。也就是说,人们在自己的工作中可能会变得更加高效。而这种变化,随着时间的推移,不仅仅是量的改变,它还意味着质的变化——我们能在脑海中构思何种问题。对于 YouTube 上的视频,我觉得情况也是如此。很多视频,或许是大多数视频,在制作过程中会运用到人工智能工具,但它们的核心仍然是由人来思考、构思、负责部分执行,并指导整个项目的运作。
不过,OpenAI也并非完美。他们自己也发现了一些缺点,比如模型仍存在许多局限性,无法精确模拟基本相互作用的物理特性。
因此不可否认,目前的Sora也并不是真正的完全体,还有更多的东西等待着我们去开发。
而如今AI的爆发式增长,又将是人类文明的一大转折点,它势必会重新改变世界进程,甚至有机会完成文明的跨越。
AI一日Workshop:学会GPT-4o Canvas、Perplexity AI、NotebookLM三大工具
2025/03/15 05:00 (Sydney)
商业数据分析实战班第17期(Self-Paced + Tutor)
2025/03/15 06:13 (Sydney)
数据工程全栈班第16期
2025/03/23 07:02 (Sydney)
地址
Level 10b, 144 Edward Street, Brisbane CBD(Headquarter)Level 2, 171 La Trobe St, Melbourne VIC 3000四川省成都市武侯区桂溪街道天府大道中段500号D5东方希望天祥广场B座45A13号Business Hub, 155 Waymouth St, Adelaide SA 5000Disclaimer
JR Academy acknowledges Traditional Owners of Country throughout Australia and recognises the continuing connection to lands, waters and communities. We pay our respect to Aboriginal and Torres Strait Islander cultures; and to Elders past and present. Aboriginal and Torres Strait Islander peoples should be aware that this website may contain images or names of people who have since passed away.
匠人学院网站上的所有内容,包括课程材料、徽标和匠人学院网站上提供的信息,均受澳大利亚政府知识产权法的保护。严禁未经授权使用、销售、分发、复制或修改。违规行为可能会导致法律诉讼。通过访问我们的网站,您同意尊重我们的知识产权。 JR Academy Pty Ltd 保留所有权利,包括专利、商标和版权。任何侵权行为都将受到法律追究。查看用户协议
© 2017-2024 JR Academy Pty Ltd. All rights reserved.
ABN 26621887572