股票杠杆

杠杆炒股,股票融资!

外汇投资 你的位置:股票配资哪家好 > 外汇投资 > Sora短片创作家阐述东谈主工智能生成视频优点和局限性
Sora短片创作家阐述东谈主工智能生成视频优点和局限性

发布日期:2024-05-01 03:01    点击次数:77


鞭牛士报谈,4月28日音尘,据外电报谈,OpenAI 的视频生成器用 Sora在二月份让 AI 社区大吃一惊,其流通、传神的视频似乎远远率先于竞争敌手。但尽心计议的初度亮相遗漏了许多细节——这些细节是由一位电影制作主谈主填写的,他可以提前使用 Sora 制作短片。

Shy Kids 是一个位于多伦多的数字制作团队,被 OpenAI 选为少数几个主要出于 OpenAI 宣传主见制作短片的团队之一,尽管他们在创作气球空中头时被赋予了十分大的创作解放。

在采选视觉后果新闻媒体 fxguide 采访时,后期制作艺术家 Patrick Cederberg 将履行使用 Sora形色为他作品的一部分。

也许对大多数东谈主来说最紧迫的收成便是:天然 OpenAI 强调这些短片的帖子让读者认为它们或多或少是皆备由 Sora 制作的,但事实是这些都是专科制作,配有庞杂的故事板、编订、颜色阅兵、以及动态不雅察和视觉殊效等后期职责。

2446370584.png

就像苹果公司说在 iPhone 上拍摄但过后莫得展示职责室配置、专科灯光和颜色职责一样,Sora 的帖子只计划它让东谈主们作念什么,而不是他们履行上是怎么作念到的。

以下为全文:

2月份,咱们在SORA上推送了第一个故事; OpenAI 刚刚发布了 SORA 的第一个裁剪,咱们那时将其形色为视频中的 DALL·E 的视频版块。 SORA 是一种扩散模子,与任何竞争敌手比较,它生成的视频更长、更有凝华力。通过一次为模子提供多个帧的猜想,他们惩处了确保主题即使暂时离开视线也保捏一致的挑战性问题。 SORA 可以一次性生成通盘视频,长度可达一分钟。那时,OpenAI 还发布了本事阐述,标明它可以(在畴昔)膨胀生成的视频,使其更长或无缝夹杂两个视频。

在以前的几周里,几个精选的制作团队已获取对 SORA 的有限看望权限。其中最引东谈主提神的团队之一是Shy Kids团队,他们制作了 SORA 短片《Air Head》。西德尼·利德担任这部电影的制片东谈主。沃尔特·伍德曼担任编剧兼导演,帕特里克·塞德伯格追究后期制作。多伦多团队被称为一又克摇滚皮克斯,他们的作品获取了艾好意思奖提名并入围奥斯卡奖长名单。

本周咱们与 Patrick 坐下来就 SORA 的近况进行了永劫辰的交谈。

Shy Kids 是一家加拿大制作公司,以其不拘一格和立异的媒体制作次第而著名。 Shy Kids 发源于电影、音乐和电视等不同学科的创意团队,因其独有的叙事格长入令东谈主沦落的内容而获取招供。该公司时常探索芳华期、搪塞暴戾和当代生计的复杂性,同期保捏独有的炙冰使燥和真挚的基调。他们的作品展示了对视觉叙事的热烈知极力,何况往往与原创音乐浅显联接,使他们的作品产生共识且令东谈主记起。 Shy Kids 通过拥抱新的东谈主工智能本事和创造力,鼓吹一切成为可能,获胜地开辟了一个利基阛阓。

SORA:24 年 4 月中旬。

SORA 正在开辟中,并通过 Shy Kids 等团队的反馈积极改进,但咫尺它的职责旨趣如下。紧迫的是要表露到 SORA 简直在 Alpha 版块之前就很灵验。它尚未发布,也不是测试版。

「玩它相配真谛真谛。」帕特里克计划谈。 「这是一个相配相配庞杂的器用,咱们依然在构想它可以融入咱们现存经过的总共形态。但我认为任何生成式东谈主工智能器用;咫尺,摈弃仍然是最令东谈主渴慕的,亦然最难以捉摸的。」

用户界面

用户界面允许艺术家输入文本教唆;然后,OpenAI 的 ChatGPT 将其更动为更长的字符串,从而触发裁剪生成。咫尺,莫得其他输入;它尚未兑现多式联运。这小数很紧迫,因为天然 SORA 在一次镜头中的物体一致性受到了正确的传颂,但莫得任何东西可以匡助使第一个镜头中的任何内容在第二个镜头中匹配。即使您第二次运行相通的教唆,斥逐也会不同。

「咱们能得到的最接近的斥逐便是在教唆中进行过度形色。」帕特里克阐述谈。 「阐述脚色的服装以及气球的类型是咱们惩处一致性的次第,因为一一镜头/一代又一代,还莫得合适的功能集来皆备摈弃一致性。」

各个裁剪对于它们所代表的本事而言都口角凡且令东谈主瞠目称许的,但裁剪的使用取决于您对隐式或显式镜头生成的意会。假定你条件 SORA 在厨房里拍摄一张桌上有香蕉的长镜头。在这种情况下,它将依靠对香蕉性的隐式意会来生成败露香蕉的视频。通过考试数据,它学习了香蕉的隐含方面:举例“黄色”、“迂曲”、“有深色结尾”等。它莫得履行记录的香蕉图像。它莫得“香蕉库存库”数据库;它的压缩守密空间或“潜在空间”比香蕉小得多。每次运行时,它都会败露对该潜在空间的另一种阐述。你的教唆回话了对香蕉性的隐含意会。

教唆正确的事情

对于《Air Head》,场景是通过证据近似脚本生成多个裁剪来制作的,但莫得明确的次第使履行的黄色气球头在每个镜头中都相通。有时,当团队教唆使用黄色气球时,它致使不是黄色的。其他时候,它有一张脸镶嵌其中,或者一张脸似乎画在气球的前边。由于许多气球都有绳索,庸俗花名“气球东谈主”桑尼的“空气头”脚色会在脚色的衬衫前边系一根绳索。由于它隐式地将字符串与气球集中起来,因此需要在后期删除这些气球。

惩处

Air Head仅使用 SORA 生成的素材,但其中大部分都经过了分级、处理和踏实,何况总共这些素材都经过了升级或擢升。团队使用的裁剪以较低的分歧率生成,然后使用 SORA 或 OpenAI 以外的 AI 器用进行压缩。 “您可以达到 720 P(分歧率),”Patrick 阐述谈。 “我信赖 1080 功能依然推出,但需要一段时辰(渲染)。咱们以 480 度的速率完成了总共的Air Head,然后使用Topaz进行耸峙。”

教唆“时辰”:老虎机。

原始教唆会自动膨胀,但也会沿着时辰线败露。 “您可以插足那些较大的重要帧,并证据您想要生成的更正起始诊疗信息。”帕里克阐述说,“对于这些不同的行动在履行生成中发生的位置有小数时辰摈弃,但这并不精准……这有点像老虎机一样,无法坚信它是否确切兑现了这些方针。”事已至此。”天然,Shy Kids 正在开辟最早的原型,而 SORA 仍在贬抑开辟中。

除了选拔分歧率以外,SORA 还允许用户选拔宽高比,举例纵向或横向(或方形)。这在从桑尼的牛仔裤到他的气球头的镜头中派上了用场。倒霉的是,SORA 自身不会渲染这么的动作,老是但愿镜头的主要焦点——气球头——出咫尺镜头中。因此,团队以纵向模式渲染镜头,然后通过裁剪手动创建后期平移。

教唆相机标的

对于许多 genAI 器用来说,一个有价值的信息起头是考试数据附带的元数据,举例相机元数据。举例,淌若您考试静态相片,相机元数据将提供镜头尺寸、光圈值和许多其他重要信息供模子考试。对于电影镜头,“追踪”、“平移”、“歪斜”或“推入”的想法都不是元数据拿获的术语或观念。尽管物体的弥远性对于镜头制作至关紧迫,但能够形色镜头也不异紧迫,帕特里克指出,最初在 SORA 中并非如斯。 “对于怎么形色电影场景中的一个镜头,p2p理财九个不同的东谈主会有九种不同的想法。 (OpenAI) 参谋东谈主员在让艺术家使用该器用之前,并莫得确切像电影制作主谈主那样想考。” Shy Kids 知谈他们的看望时辰很早,但“对于录像机角度的运行版块有点立地。” SORA 是否简直会记录教唆恳求或意会它尚不清醒,因为参谋东谈主员刚刚专注于图像生成。 OpenAI 对这一恳求的惊诧进度让 Shy Kids 简直感到记挂。 “但我想当你仅仅动作参谋东谈主员时,而不是计划讲故事的东谈主将怎么使用它……SORA 正在改进,但我仍然会说摈弃还不太到位。你可以放入一个‘相机平底锅’,我想你十次中有六次都会得到它。”这并不是一个独有的问题,简直总共主要的视频 genAI 公司都濒临着不异的问题。Runway AI在提供形色录像机畅通的 UI 方面可能是起初进的,但 Runway 的质料和渲染裁剪的长度不如 SORA。

渲染时辰

裁剪可以在不同的时辰段内渲染,举例 3 秒、5 秒、10 秒、20 秒,最多一分钟。渲染时辰证据一天中的时辰和云使用需求而变化。 “一般来说,每次渲染大致需要 10 到 20 分钟,”Patrick 回忆谈。 “证据我的教师,我选拔渲染的捏续时辰对渲染时辰影响很小。淌若为 3 到 20 秒,则渲染时辰在 10 到 20 分钟领域内往往不会变化太大。咱们庸俗会这么作念,因为淌若你有好意思满的 20 秒时辰,你但愿有更多的契机来分割/编订内容,并加多获取看起来可以的东西的契机。”

天然总共图像都是在 SORA 中生成的,但气球仍然需要无数的后期职责。除了禁锢气球以便再行着色以外,它有时还会在 Sonny 上有一张脸,就好像他的脸是用标记笔画出来的,这会在 AfterEffects 中删除。访佛的其他文物时常被移除。

编订 300:1 拍摄比例

《害羞的孩子》的次第是像记录片一样进行后期制作和编订,其中有许多镜头,你可以证据这些材料编织一个故事,而不是严格按照脚本拍摄。短片有脚本,但团队需要机动应变。 “仅仅获取了一大堆镜头,并试图以一种真谛真谛的形态将其裁剪给旁白,”帕特里克回忆谈。

帕特里克臆想,对于影片中终末一分半钟的镜头,“每段 10 到 20 秒的时辰可以产生数百代东谈主”。补充谈,“我的数学很差,但我猜源材料的数目与决赛最终的数目可能是 300:1。”

合成多个片断并再行定时

在《Air Head》中,团队莫得将多个镜头组合在一谈。举例,气球飘过赛车场的镜头都是在一个镜头中生成的,与所见的一样。关系词,他们正在制作一部新电影,将多个镜头夹杂并合成到一个裁剪中。

真谛真谛的是,许多Air Head裁剪都是以慢动作拍摄的形态生成的,而教唆中并未条件这么作念。发生这种情况的原因不解,因此许多裁剪必须再行定时智力看起来像是及时拍摄的。显豁,这比降速快速畅通的相背操作更容易,但从考试数据中推断出的这似乎是一个奇怪的方面。 “我不知谈为什么,但看起来照实有许多裁剪速率为 50% 到 75%,”他补充谈。 “因此,需要对时辰进行无数诊疗,以谢绝这一切嗅觉像是一个大型慢动作神气。”

照明和分级

Shy Kids 在他们的教唆中使用术语“ 35 毫米胶片”动作重要字,何况广阔发现教唆35 毫米给出了他们所寻求的一致性水平。 “淌若咱们需要高对比度,咱们可以说高对比度,并说重要照明庸俗会给咱们带来接近的东西,”帕特里克说。 “咱们仍然需要对其进行全颜色分级,何况咱们作念了我方的数字电影外不雅,咱们哄骗颗粒和耀眼来将它们和会在一谈。”莫得其他通谈(举例遮罩或深度通谈)的选项。

版权

OpenAI 试图保捏尊重,不允许生成侵扰版权的材料或生成看似来自他东谈主的图像。举例,淌若您教唆诸如畴昔世界飞船中的 35mm 胶片、别称男人拿着光剑上前走, SORA 将不允许生成该裁剪,因为它太接近星球大战了。但害羞的孩子们在早期测试中有时地碰到了这小数。帕特里克回忆谈,当他们最初坐下来仅仅想测试 SORA 时,“咱们在脚色背后拍摄了一个镜头;这有点像阿罗诺夫斯基的奴隶镜头。我认为这仅仅我愚蠢的大脑,因为我很累,但我把‘阿罗诺夫斯基式射击’放进去,然后被击中了,不成这么作念。”他回忆谈。Hitchcock Zoom是另一个咫尺通过本事术语浸透而出现的东西,但 SORA 出于版权主见隔断了这一教唆。

声息

害羞的孩子除了视觉技巧外,还以其听觉技巧而著名。短片中的音乐是他们我方的。 “咱们简直立即就决定了这首歌,因为这首歌的名字是《风》, ”帕特里克说。 “咱们都可爱它。”

帕特里克本东谈主为桑尼配音。 “有时咱们会合计这部电影需要另一个节律。是以我会写另一排,记录下来,并建议更多的 SORA 代,这是帖子中该器用的另一个庞杂用途:当你处于边缘,何况需要填补空缺时,这是一个很棒的器用这是一种起始集想广益的形态,然后将裁剪吐出来,望望可以用什么来惩处节律问题。”

详细

SORA 口角凡的; Shy Kids 团队仅用 3 东谈主的团队在大致 1.5 至 2 周内制作了《Air Head》 。该团队依然在制作一部精彩的、有自我意志的、大要还有挖苦意味的续集。 “后续内容是对气球东谈主桑尼的新闻报谈,以及他对名声的反馈以及随后与世界的争吵,”帕特里克说。 “咱们正在探索新本事!”该团队但愿在实验中更具本事性,将 SORA 元素的 AE 合成融入到真实的实景镜头中,并使用 SORA 动作补充视觉殊效器用。

SORA 相配新,致使 OpenAI 为 SORA 勾画和演示的基本框架也尚未可供早期测试使用。咫尺形势的 SORA 是否会很快发布还值得怀疑,但它在特定类型的隐式图像生成方面是一个令东谈主难以置信的向上。对于高端神气,可能需要一段时辰智力达到导演所条件的具体进度。对于许多其他东谈主来说,它“饱和接近”,同期提供令东谈主称许的图像。Air Head仍然需要无数的编订和东谈主力领导来制作这部令东谈主沦落且真谛真谛的故事电影。 “我仅仅合计东谈主们必须将 SORA 动作他们经过中真实的一部分;关系词,淌若他们不想参与访佛的事情,也不紧要。”



Powered by 股票配资哪家好 @2013-2022 RSS地图 HTML地图

建站@kebiseo;2013-2022 万生配资有限公司 版权所有