十个小白问题,帮你快速了解Sora

"虾比划"AI前言

Views: 10

OpenAI作为目前当前最强大,技术最先进的AI视频产品,一经推出立马碾压其他所有的AI视频生成的产品。Sora可以根据文字提示生成60秒的视频,其他文生视频大模型仅能生成3至4秒的视频。不仅如此。Sora生成的视频能实现多镜头切换,场景也非常逼真,分辨率也非常高。Sora 能够完全碾压其他的工具,背后必然是OpenAI强大的技术实力。

对于大部分普通人来说,我们更加关心的是Sora的各种玩法,了解Sora到底是个什么。

PS:目前Sora还没有开放。但是按照OpenAI风格,Sora必然是ChatGPT Plus账户才可以使用的高级功能。按照ChatGPT Plus升级教程可以快速升级。

Sora是什么含义

Sora在日语中的含义是天空,引申含义是自由。OpenAI官方对Sora的解释是:

We chose the name Sora because it means “sky” in Japanese. The sky is vast and limitless, and we believe that Sora has the potential to create a new world of creative expression.

翻译成为中文就是:

我们选择“Sora”作为名字,因为它在日语中意味着“天空”。天空是广阔无垠的,我们相信Sora有潜力创造出一个新的创意表达世界。

并且OpenAI Sora的官方页面,你可以看到无数的纸飞机在自由翱翔。

1 8

这些纸飞机自由自在,无拘无束。这也是表明了OpenAI对于Sora的技术的态度。希望大家可以凭借Sora技术,可以将自己想象无限制的释放出来。

OpenAI作为目前当前最强大,技术最先进的AI视频产品,一经推出立马碾压其他所有的AI视频生成的产品。大规模开放之后毕竟会影响包括电影,动画,短视频等很多艺术创造行业。

可以输出三国演义视频吗?

如果我讲《三国演义》、《水浒传》等小说喂给Sora,可以生成对应的视频吗?答案是不可以。

首先,目前就 Sora 所呈现的,虽然有多机位效果,但都是单一情节单一镜头。

其次,像《三国演义》、《水浒传》等小说人物复杂,角色众多,场景切换频繁,其中还涉及到人物复杂的心理活动。这个Sora目前无法做到的。Sora目前更多是用在 demo 制作、概念设计、分镜编排等环节。

Sora为何反响如此巨大

只要给出一段描述提示词,Sora就可以根据你的描述词生成视频。首先是这个使用门槛非常低,只要你会打字就可以了。

其次,Sora生成视频的质量非常高,效果非常炸裂。画质清晰、场景逼真、细节到位、人物表情和呈现角度逼近真实专业的拍摄水平,几乎达到了以假乱真的程度。

最后,Sora生成质量远超于其他公司/产品生成的视频质量。Sora生成的视频时长长达60秒,相比之下。Runway只有4秒,Pika只有3秒。可以通过可以感受下差距。

通过相同的提示词,使用不同的视频工具生成视频。

下面是描述的是。几只巨大的长毛猛犸象穿过一片白雪覆盖的草地。可以看到Sora生成的视频明显更加逼真。其他Pika和runway生成的视频更像是图片。

2 10

下面的视频描述的是,无人机视角下的一对情侣穿梭于繁华的城市街道,美丽的樱花花瓣伴随着雪花在空中翩翩起舞。同样,Sora生成的雪景和色调也更加符合实际场景,视角也是无人机的视角。其他的视频工具就要差很多。

3 7

不仅时长方面碾压,视频质量也达到了以假乱真的程度,使用门槛也极低。

通过图表也能够感受到SORA和其他的视频工具(Runway,Pika,Stable Video)之间存在的巨大技术差距。

能力项OpenAI Sora其他模型
视频时长60秒最多20秒
视频长宽比1920*1080之间的任意尺寸固定尺寸,如16:9或者1:1等
视频清晰度1080P默认1080P以下
文本生成视频支持支持
图片生成视频支持支持
视频生成视频支持支持
文本编辑视频支持支持
扩展视频向前/向后扩展仅支持向后扩展
视频连接支持不支持
真实世界模拟支持支持
运动相机模拟
依赖关系建模
影响世界状态(世界交互)
人工过程(数字世界)模拟支持不支持

从这个表单可以看出,不论是基本的视频生成能力(时长、长宽比),还是更强的视频连续性、真实世界模拟等,OpenAI Sora都有无可比拟的优势。其中,视频清晰度,OpenAI Sora默认是1080P,而且其它平台大多数默认的清晰度也都是1080P以下。

这也就是为什么Sora发布之后就会引起如此的震撼的原因了。

Sora的逆天玩法

Sora既然能够生产如此震撼的视频,那么对应的也就存在各种各样的玩法,这样才能满足视频生成的各种需求。

多机位

4 7

OpenAI 研究科学家比尔・皮布尔斯 (Bill Peebles) 在 X 上晒图,并表示“这是 Sora 一次性生成的视频样本,并不是我们把 5 个视频拼接在一起。Sora 决定同时拥有五个不同的视角!”

令人惊叹的是,这组图片展示了人们在下雪天漫步、玩雪的多个角度,并且均由 Sora 一次完成。这意味着该模型支持一次性生成多机位视频,短视频、电影行业或许会受到不小冲击。

视频融合

OpenAI Sora可以将这两个视频揉在一起,生成一个新的毫无违和感的视频。例如,给一个无人机穿越古罗马建筑的视频,再给一个蝴蝶在海底珊瑚飞行的视频,Sora可以生成一个新的视频,让无人机变成蝴蝶,古罗马建筑变成珊瑚风格。

5 10

上图是两个例子,左右两边是原来的2个视频,中间是基于这原有的2个视频连接后生成的新的视频。第一个就是刚才的蝴蝶与无人机的案例。第二个是圣诞节雪景和真实拍照的建筑视频的融合。

模拟真实世界

OpenAI Sora可以生成更加真实的物理世界的视频。例如东京街头逛街的时尚女模、登山运动员等。但是,与其它平台的真实物理世界视频生成不同的是,OpenAI Sora可以以运动相机拍摄的方式来展示视频,包括运动相机的转换、旋转等。而这里最大的特点是运动相机拍摄的结果通常要与物理世界的三位空间一致,因此非常困难。但是Sora可以生成非常逼真的运动相机拍摄的视频结果。

6 8

Sora的安全性问题

既然Sora可以生成视频,那么是不是就会存在滥用的可能性呢?比如生成某些低俗视频,或者是生成一些可以以假乱真的视频。在某种程度是可以的。

但是之前OpenAI正在大力招聘红队测试人员,即网络安全专家帮助其针对Sora的各种安全性问题进行测试。如果有相关经验,就可以尝试申请,可以优先获得Sora的使用。

所以在OpenAI确认测试完毕Sora的安全性问题,确保Sora不会被滥用并且没有安全漏洞的情况下,后面才会大面积开放给公众。不出意外,Sora一定是仅开放给ChatGPT Plus用户访问。按照,几分钟内即可升级成功。

Sora如何收费

目前OpenAI暂时没有针对Sora的收费有任何的说明。但是按照之前的惯例,OpenAI之前开放的插件系统,GTP Store商店,多模态的图片生成功能都是仅供ChatGPT Plus用户访问的。目前ChatGPT Plus是每个月20美刀的订阅费用。

不出意外,本次的Sora功能后面也是ChatGPT Plus专享的高级功能。前期可能会像早期的Plus一样,限制使用次数。

所以,如果想要后续第一时间体验到Sora的能力,可以提前升级至ChatGPT Plus账户。按照 升级ChatGPT Plus教程 快速完成升级。

Sora可能会改变的行业

很明显,OpenAI Sora冲击最大的莫过于短视频行业,比如剪辑师、动画制作、广告宣传、视频剪辑工具。另外,电影、电视剧行业也会受到冲击。

具体来说,Sora可能会对以下三个大行业有冲击。

广告行业

在Sora的到来颠覆广告片和TVC创作之后,广告主会以更严格的眼光来审视现在的广告制作模式和成本。尤其是在现在降本增效的大环境下,品牌方拿出几十万预算给广告公司,不仅要考虑投入产出比还需要得到比AI生成视频更优秀的结果。

创意小团队兴起

在Sora等AI工具将各家广告媒体公司的视频质量逐渐对齐之后,视频制作能力的门槛将极大程度地降低,创意和想象力会成为影响广告视频优劣的重要甚至是唯一差异点。

创意大于一切的未来,大的广告公司在小公司面前并非一定有胜算,未来有可能会出现一批性价比较高的、以AI工具为主要生产力的小型或单人创意团队。

品牌内部团队的兴起趋势

随着人工智能技术的发展,品牌内部团队的影响力和受欢迎程度预计将增强。这主要是因为,在人工智能的帮助下,这些团队的创作能力得到了显著提升。品牌内部制作的内容不仅能够更加灵活地满足个性化需求,而且还能帮助品牌节省成本。

Sora的原理

Sora是一个在不同时长、分辨率和宽高比的视频及图像上训练而成的扩展模型,同时采用了Transformer架构,也就是一种扩散型Transformer。

简单来说,Soar整合了自家的GPT和DALL-E模型。其中,GPT-4就是基于Transformer架构的大型神经网络,目前是最强大的大预言模型。而最新的DALL-E3是基于文本提示生成图像的图像生成模型。

根据其官方报告,主要是用到了以下六种技术:

  • 视觉数据的补片化
  • 视频压缩网络技术
  • 时空补片技术
  • 扩展Transformer
  • 视频多样化
  • 语言理解

更多关于Sora技术原理的介绍和分析,可以看 怎么用OpenAI Sora?最全分析-新手小白必看。对于Sora能有一个清晰全面的认识。

Sora如何使用

目前OpenAI Sora还没有公开使用。目前只向一少部分艺术家、设计师和电影制作人开放了Sora。显然,大部分人是无法获得这个条件的。但是OpenAI CEO Sam Altman也表示,成为OpenAI的红队测试人员就可以有Sora的使用权限了。红队测试人员,简单理解就是网络安全专家。

如果有相关的经验,根据 手把手带你申请Sora内测资格 ,可以尝试申请。申请通过之后就可以使用Sora了。

参考OpenAI开放的多模态的使用,只有ChatGPT Plus用户才可以使用文生图的功能。同样,无论Sora什么时候开放使用,一定是ChatGPT Plus用户才能享用的高级功能。升级ChatGPT Plus 可以快速升级到ChatGPT Plus账户。

Sora视频的优缺点

不论是基本的视频生成能力(时长、长宽比),还是更强的视频连续性、真实世界模拟等,OpenAI Sora都有无可比拟的优势。上述视频生成能力项中,视频连接、数字世界模拟、影响世界状态(世界交互)、运动相机模拟等都是此前视频平台或者工具中缺乏的。

但是Sora目前也存在一些不足的地方。在模拟复杂场景的物理现象、理解特定因果关系、处理空间细节、以及准确描述随时间变化的事件方面都存在一些不足。

Sora模型在模拟基本物理交互,如玻璃破碎等方面,不够精确。

在模拟如吃食物这类涉及对象状态显著变化的交互时,Sora可能无法始终正确反映出变化。

在生成长时间的视频样本时,Sora可能会产生不连贯的情节或细节。比如长视频中突然出现之前不曾出现的物体的情况。

虽然Sora存在不足,但是Sora的优点相比其他的视频工具具有非常大的优势,仍然是目前最为强大的视频生成工具,并且其强大的技术实力远超于其他的视频生成工具。

总结

通过以上十个问题的探讨,我们希望为初学者提供了一个关于Sora的基础了解。我们坚信,随着Sora的正式发布,它将会像ChatGPT一样,在多个行业引发革命性的变革,并深刻地影响人们的日常生活。让我们共同期待Sora带来的新奇和变化,探索它如何重新定义我们对技术的认识和使用。

最后需要说明的是,按照OpenAI一贯作风,Sora这种逆天的功能一定是先向部分ChatGPT Plus用户开放,然后再向全部的ChatGPT Plus用户开放。即Sora一定是Plus用户专属的功能。升级ChatGPT Plus 就可以快速升级到Plus账户,后面就等到Sora开放之后就可以立马开始使用了。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注