2024-02-26 10:12:24 中华网河南
2024 年 2 月 16 日凌晨,OpenAI 发布了 " 文生视频 "(text-to-video)工具 Sora,在全世界引发 " 科技海啸 "。
不同语言的人们在全球的社交媒体上惊呼:现实,已被颠覆。
多日以来,围绕 Sora 的讨论不绝于耳,或欣喜激动,多担忧紧张。从股市到好莱坞,从国内大咖到国际顶尖专家,都做出了不同程度的反应。本文将为您详细盘点。
01
Sora 有何魅力?
Sora 一经发布就席卷全球,更在龙年首个交易日在 A 股掀起 AI 热潮。
同花顺 App 显示,截至 2 月 19 日收盘,人工智能板块涨 6.30%。多支 Sora 相关概念股上涨,其中,当虹科技、因赛集团、万兴科技等股价涨停。
作为开年 AI 王炸,Sora 到底是什么?
Sora 是 OpenAI 发布的文生视频模型。它能够按照用户输入的提示词、文本指令或静态图像,来创造出长达一分钟的逼真且充满想象力的视频场景。视频不仅逻辑性和连贯性极佳,还能实现多角度镜头的自然切换。
在发布中,OpenAI 展示了 Sora 文本生成的视频:
△ Sora 生成视频截图
而该视频的文本仅有几句话:
一位时尚的女人走在东京的街道上,街道上到处都是温暖的发光霓虹灯和动画城市标志。她身穿黑色皮夹克,红色长裙,黑色靴子,背着一个黑色钱包。她戴着墨镜,涂着红色口红。她自信而随意地走路。街道潮湿而反光,营造出五颜六色的灯光的镜面效果。许多行人四处走动。
众多媒体人表示,Sora 的推出对于视频内容的制作方式可能带来革命性的变化,相比较目前的 AI 视频制作,Sora 具有颠覆性特点:
文本到视频的转换:用户只需提供文字、图片描述,Sora 就能将这些描述转化为具体的视频内容,极大地简化了视频制作流程。
视频质量和逼真度更高:Sora 生成的视频内容分辨率高、画面流畅,视频效果不输业内专业人士的制作。
长时间视频生成:相比其他模型,Sora 可以生成长达一分钟的视频。要知道,Sora 的竞争对手 Runway 去年 8 月推出的第二代模型,每次还只能生成最高 18 秒的视频。
时空一致性:根据 Sora 演示来看,即便对视频进行扩展,它也能够赋予模型 " 前瞻性 ",确保视频主题在画幅外也能保持不变,达到更符合逻辑的时空一致性。
Sora 的制作团队有多年轻?
除了超强的文本视频生成能力,Sora 的年轻化制作团队也引发关注。
据悉,Sora 两位主要负责人 Tim Brooks 和 William ( Bill ) Peebles 都在 2023 年刚刚博士毕业。
Tim Brooks,DALL-E 3 作者之一,GitHub 5.7k 星项目 InstructPix2Pix 作者,2021-2022 年在英伟达实习时,就是视频生成研究的项目负责人。
William ( Bill ) Peebles,和谢赛宁合作,创作出了 Sora 的技术基础之一 DiT(扩散 Transformer),论文还曾入围 CVPR 2022 最佳论文候选。
00 后选手和多位华人也让 Sora 的队伍充满了多元化。团队中的 "00 后 "Will DePue,2022 年从密西根大学计算机系本科毕业。他在高中时候就已经参与了很多项目开发,并成立了自己的公司。2023 年 7 月,其加入 OpenAI,2024 年 1 月加入 Sora 项目组。
Sora 项目组中的华人 Li Jing 是 DALL-E 3 的共同一作,2014 年本科毕业于北京大学物理系,2019 年获得 MIT 物理学博士学位,2022 年加入 OpenAI。
华人作者中还有 Ricky Wang,今年一月刚刚从 Meta/Instagram 跳槽到 OpenAI。
另外两位 Yufei Guo、Clarence Ng 还未公开资料。
正是这样一支年轻化队伍打磨的文生视频 APP,刚上线就引发好莱坞等影视行业的震惊。
02
Sora 出现,将打破视频制作壁垒
Sora 的腾空出世,给影视行业带来史诗级变革。
与国内大 A 不同的是,Sora 发布后,几家美国科技公司的股价应声跌落。Adobe 股价暴跌超 7%;美国图片库、图片素材、Shutterstock 跌超 5%;Lumiere 的谷歌母公司股价下挫 1.58%。
影像创意行业认为 Sora 生成的视频质量足以缩短电影拍摄周期,电影生产方式本身的高壁垒和独断性将会被打破。
AI 产品 " 奇袭 ",引发影视制作行业紧张和担忧。
实际上在 2023 年,好莱坞就曾进行了长达半年的罢工。原因之一是巨头们有意使用 AI 取代一部分编剧的工作,此次罢工被认为是人类抵抗 AI 威胁的首次集体行动。
虽然好莱坞罢工已经平息,AI 产品改变影视制作仍有众多需要改进的环节,但年初发布的 Sora 指数级飞跃速度再次让人们陷入担忧。
电影导演兼视觉效果专家迈克尔 · 格雷西表示:" 看看我们在图像生成的一年里取得了什么进展。一年后我们会在哪里?"
《综艺》评论称 " 自从上周 OpenAI 发布文本生成视频模型 Sora 以来,人们对于这种 AI 功能的预测越来越‘惶恐’,毕竟与之前的同类工具相比,OpenAI 似乎带来巨大的飞跃 "。Sora 是迄今为止最令人印象深刻的视频生成模型之一,其 " 现实主义效果 " 将有望在高端娱乐中发挥作用。
《人工智能革命:超级智能之路》的作者、著名科技作家蒂姆 · 厄本据此预测:"21 世纪将实现 20 世纪 1000 倍的进步。"
而正在举行的柏林电影节上,Sora 也成为电影人热议的话题。
洛杉矶导演戴夫 · 克拉克 ( Dave Clark ) 认为:创作者需要接受人工智能技术来制作尚未想象或实现的内容,而不是感到威胁。
德国视觉特效工作室 Trixter 董事总经理克里斯蒂娜 · 卡斯珀斯 - 罗默 ( Christina Caspers-Roemer ) 则表示,像 Sora 这样的人工智能工具被证明在工作流程中更高效、更快。
Sora 在视频生成领域的优越能力为塑造影视产业业态开启了新方式,或许在未来,特效师、高难度动作、科幻题材、大场面制作只要几行字就能打造出恢宏场景,相关行业更是将其称之为 " 潘多拉魔盒 "。
因此,众多行业专家也纷纷下场预测 Sora 未来应运前景。
03
Sora 狂飙,未来前景将如何发展?
在游戏行业,Share Creators 创始人兼 CEO Ada Liu 认为,视频生成带来的改变将是 " 跨时代 " 的。" 在游戏行业, AI 可以帮助生成前期的概念图,UI icon 等。计算机图形制作的流程非常长,从 3D 制作,到渲染、合成,每个环节都需要投入大量专业的人员。尤其在风格探索阶段,如果直接生产出视频,相当于直接跳到最后一步,节省了大量的制作时间和成本。"
在影视制作行业,Sora 发布之初,周鸿祎就预言 Sora" 可能给广告业、电影预告片、短视频行业带来巨大的颠覆,但它不一定那么快击败 TikTok,更可能成为 TikTok 的创作工具 "。
中国社会科学院法学研究所副研究员唐林垚表示:" 如果 Sora 的能力真如官方公布一样强大,且之后可以像 ChatGPT 一样便捷访问,那么 Sora 将给广告行业、影视行业和特效行业带来极大的冲击。"
对 AI 产业,IDC 中国研究总监卢言霞表示:Sora 的发布,以及后续科技巨头的跟进,有望对 AI 产业带来再一轮爆发式的增长。
虽然 Sora 在全球掀起了惊涛骇浪,但是其细节和逻辑还有一些瑕疵。根据 Sora 生成的人类考古视频,椅子在画面中凭空出现,而且不受重力影响飘浮在空中。
△ Sora 生成视频截图
对此,AI 圈大佬对于 Sora 的物理引擎提出了新的问题:Sora 到底懂不懂物理世界?
图灵奖得主 Yann LeCun 表示 Sora 生成视频的过程与基于世界模型的因果预测完全不同,更理想的做法是生成视频后续内容的抽象表达,并消除与我们可能所采取动作无关的场景中的细节。
Keras 之父 François Chollet 则阐述了更细致的观点。他认为,像 Sora 这样的视频生成模型确实嵌入了「物理模型」,但问题是:这个物理模型是否准确?它能否泛化到新的情况,即那些不仅仅是训练数据插值的情形?
Chollet 表示以上问题至关重要,因为它们决定了生成图像的应用范围 —— 是仅限于媒体生产,还是可以用作现实世界的可靠模拟。
针对 Sora 的弱点,知名 AI 学者、Meta AI 研究科学家田渊栋认为 Sora 是否有潜力学到精确的物理(当然现在还没有),其背后的关键问题是:为什么像「预测下一个 token」或「重建」这样简单的思路会产生如此丰富的表示?
其并提出建议:为了更好地理解事物,我们确实需要揭开 Transformers 的黑匣子,检查给定反向传播的训练动态,以及如何学习隐藏的特征结构,并探索如何进一步改进学习过程。
04
其实类似的文生视频模型也早有端倪。例如谷歌的 VideoPoet,能够执行包括文本到视频、图像到视频、视频风格化等操作;Meta 的 Emu Video,能够基于文本和图像输入生成视频剪辑;Runway 的 Gen2 不仅解决了 AI 生成视频中每帧之间连贯性过低的问题,在从图像生成视频的过程中也能给出很好的结果,因此还被称为 "AI 视频界的 MidJourney";以及文生视频软件 Pika,也在推出之初就引发了 AI 视频的应用热潮。
可以说 Sora 的出现受伤最大的是友商。Sora 发布后,Runway 的 CEO 克里斯托瓦尔 · 巴伦苏埃拉在 X 平台上给出了一个简短的宣言:"Game On(比赛开始了)。"
Sora 的出现,点亮了人们对影视行业未来发展的展望,用小说生成电视剧,人人做导演或许将在未来变成可能。
但在视频生成技术广泛使用和 AI 模型层出不穷的背景下,Sora 想要克服物理逻辑,并且实现 AI 模型的透明度和可解释性,可能还要 " 再飞一会 "......
关于瑞承
瑞承作为专为高净值人士、企业家群体提供服务的品牌,致力于围绕企业家客户群体的 " 企、传、投 " 需求提供综合咨询服务解决方案。
长期深耕企业家 " 企、传、投 " 服务,通过多年资产配置能力、科技能力、国际化能力和综合服务能力的持续建设,为客户在资产配置、家族传承、企业发展与提升、品质生活、公益金融等方面提供全方位服务,长期陪伴企业家客户的企业、个人和家庭成长,奔赴更加美好的事业与生活。
参考信息:
1、全网刷屏的 Sora,有多可怕?
2、Sora 火爆全网 相关股掀涨停潮
3、Sora 爆火 48 小时:杨立昆揭秘论文,参数量或仅 30 亿
4、Sora 到底懂不懂物理世界?一场头脑风暴正在 AI 圈大佬间展开
5、Sora" 轰炸 " 影视圈,普通人的风口来了
6、Sora 让好莱坞紧张了!
7、引爆 A 股的 Sora,到底是啥?一文看懂
8、全网刷屏的 Sora,有多可怕?
9、爆火的 Sora,摩拳擦掌的出海人
10、IDC:Sora 正式发布前、多模态大模型爆发前夜的十大思考