原文始发于微信公众号(中国企业家杂志):周鸿祎:不要把Sora看成鲨鱼,把它看成海洋
承认差距并不丢人,知道差距在哪儿,我们迎头赶上。
文|《中国企业家》记者 赵东山 编辑|李薇 头图摄影|邓攀
继ChatGPT之后,OpenAI推出的Sora模型再次引爆全球AI界。
北京时间2月16日凌晨,OpenAI发布文生视频大模型Sora,其惊艳之处在于,只需要输入一段文本,Sora就能够根据文本提示创建逼真且富有想象力的场景,并生成具有多个角色、特定类型的运动,以及主体和背景细节准确的高清视频,时长可以达到1分钟。
根据Sora演示的案例,在长达1分钟的视频中,一位戴着黑色墨镜、穿着时尚皮衣的女子,走在雨后夜晚的东京街头,地面的积水映出她的身影和绚丽的霓虹灯。随着镜头的随意切换,视频中的女主角、背景人物都达到了惊人的一致性。
来源:Sora演示视频截图
Sora生成的视频有3个特征:第一,可生成1分钟的长视频,还可以自行分镜和切换景别;第二,单个视频既可以是多角度镜头也可以是一镜到底;第三,所生成的视频内容与物理世界规律保持一致,不会出现违反世界客观规律的视觉信息。
如果你对此并无概念,一个可参考的对比是,与此前AI视频存在人物或物体失真的情况不同,Sora生成的视频几乎可以做到以假乱真,甚至连女性脸上的睫毛、黑痣以及滚雪的小狗的毛发等细节都格外清晰。此外,在时长上,同类AI视频工具Runway Gen 2、Pika等还在突破几秒内的连贯性,而Sora已经达到了分钟级别。
Sora的视频发布后,一直关注AGI发展的360创始人、董事长周鸿祎第一时间发布了他对于Sora的解读。2月20日,周鸿祎接受《中国企业家》直播访谈时表示:“Sora的出现让AGI(通用人工智能)到来的时间提前了,原来估计需要十来年,现在我觉得可能只要两三年吧。”
周鸿祎认为,Sora看起来是个文生视频的工具,但实际上是AGI的第二个突破点,是解决人工智能对这个世界的观察、交互、认知,以及建立常识的重要里程碑。
OpenAI CEO Sam Altman近日在社交媒体上表现得极为活跃,他连发多条推特宣传Sora的视频效果。与此同时,他还让网友玩起了互动,网友随意提供prompt(提示词),他在线接单帮网友一并输出视频。
Sora是如何实现的?根据OpenAI官网介绍,“通过一次性为模型提供多帧的预测,我们解决了一个具有挑战性的问题。我们正在教AI理解和模拟运动中的物理世界,目标是训练模型来帮助人们解决需要现实世界交互的问题。”
与GPT模型类似,Sora使用了Transformer架构,有很强的扩展性。它建立在过去对DALL·E和GPT模型的综合研究之上,提出了一种新的模型可能。它不仅可以理解用户在提示中提出的要求,还能理解它们在物理世界中的存在方式。
不过,当前的Sora模型并不完美。它在模拟复杂场景的物理效果上可能会遇到难题,有时也难以准确理解特定情境下的因果关系,还可能混淆左右等空间细节。比如,画面中人吃掉饼干的一部分后,饼干可能看起来仍然完整无损。
与此同时,周鸿祎也告诫大家,不必焦虑和担忧:“AI不会淘汰任何行业和任何人,你只会被那些真正懂AI的人淘汰掉。至少现在人工智能取代不了人类的想象力和创造力,还有人类的主观意愿。”
以下为《中国企业家》对话周鸿祎直播全文(有删减):
一、Sora的轰动效果远超GPT
《中国企业家》:Sora横空出世之后,你是焦虑多一点还是兴奋多一点?
周鸿祎:Sora出来之后,大家都应该感觉到很兴奋。
有些人可能担忧自己失业,担忧某些行业被端了饭碗,我觉得这都想太多了,因为这个世界在飞速变化过程中,很多东西你也不能改变,应该选择接受,用更好的态度是主动去拥抱,而且积极地参与推动,成为推动者甚至成为布道者。
《中国企业家》:你之前提出AI发展的十大趋势,现在Sora出世之后有变化吗?
周鸿祎:两个月不到,有4条都落实了,有两条和Sora有关。
第一,我预言AIGC会有大的突破,但我原来以为是文生图会有大的突破,没有想到文生视频会产生这么巨大的突破。
第二,Sora是怎么做到的?它一定和现在的原理不一样。我猜测Sora多模态输入能力已经超越了原来像GPT4版本的多模态能力。所以,多模态会成为大模型的主流。大模型过去只是理解文字、语言、思想、逻辑,但是Sora让我们看到了大模型不仅能理解图像,还能理解他们互动的时候应该符合什么样的物理定律。
一个是英伟达推出了Chat with RTX——只要你有RTX30系列、RTX40列的显卡就可以把你好久不用的电脑折腾成一个大模型,这符合我预测大模型往终端走的趋势。
另一个是Google推出了Gemini1.5版本,1.5版本的思路是把模型越做越大,越做越强。这也符合我的一个推断,Gemini的输出窗口高达100万个token,这意味着你一次能把几卷书籍或几个小时的电影、视频放给Gemini来做分析。
《中国企业家》:你曾提出企业的AI浓度,现在要不要加一个AI时间刻度?
来源:《中国企业家》对话周鸿祎直播截图
周鸿祎:我提了三个概念,一个概念叫“AI信仰”,这里边包括: 第一,你信不信这次AI的突破是真的突破?第二,你信不信这次AI是一场工业革命级别的革命?第三,你相不相信人类已经在朝着AGI甚至强人工智能在指数级地发展,你不要高估今天AI的能力,但绝对不要低估它的发展潜力,AGI原来估计需要十来年,但这次Sora出来之后,我觉得如果从基本的AGI来讲可能还要两三年吧;第四,AI不会淘汰任何行业、任何人,是被那些懂AI的人给淘汰掉的。
第二个概念叫“All in AI”,就是由内到外,面对你的员工、客户,从内部的工作流程到客户服务流程上,看看哪些地方可以用AI升级改造。
第三个概念叫“含AI量”,不光是AI人才的密度问题,还包括每天花多少时间在用AI,每天花多少时间在思考AI的问题。
Altman是个营销大师。Sora现在还没有正式发布,他现在就是不断地发让人惊叹的视频,形成传播、发酵,形成期望,然后把大众注意力从Google、英伟达、Meta身上吸引过来。这两天Apple的Vision pro也不热了。Sora的轰动效果应该远远超过GPT。
我看到国内今天都出现了Sora的教程,你看Twitter上OpenAI的Sora团队已经辟谣了,现在都没对外放呢,哪会来的账号和教程,大家别被“割韭菜”了。
二、Sora解决了机器与世界互动的规律
《中国企业家》:为什么说Sora是个革命性的发布,它的革命性到底体现在哪儿?
周鸿祎:之前画面、纹理的东西都比较容易用美术来解决,所以,文生图的时候,大家觉得各家都差不多,因为做一张静止的图片,只要把东西画出来,在图片中用像素来表达就可以了。
为什么大家觉得Sora比Pika、Runway要强很多呢?Pika、Runway比较像是用多帧图片构成的,把每一帧图片画好,拼起来就构成一个视频,所以像是工作在像素和美术层面。但Sora生成的这些画面动起来以后,符合我们对这个世界认知的常识。
Sora的演示视频中,让我印象深刻的有2处,一个是金毛小狗在雪地里撒欢,你看那个雪花的感觉,雪花是松软的,狗头可以扎到雪里,狗头抬起来的时候,雪花被扬起来,狗鼻子上留着雪花,雪花还在往下掉,那这种真实的感觉是符合我们生活经验的。
来源:Sora演示视频截图
还有一个是女人在床上躺着睡觉,她旁边一只猫在找她要吃的,那只猫在被子里伸出脚来踏了两下,然后这个女的翻了个身,头压在枕头上滚了一下,那个枕头的凹陷、皱纹效果非常真实。
你拿所谓过去的计算机CG去做的话是很困难。做出一个枕头外形、花纹很容易,但是你要用什么样的物理学公式描述枕头上被头压了之后下陷多少,产生多少个皱纹,皱纹有多宽,有多长,枕头的松软度等,我觉得这个电影特效工程师可能没有半年都不一定做得出来。《阿凡达》为了做雪的特效花了好几年,投入了几千名美工、设计师,用了可能几十万台机器来联合做渲染。
Sora产出视频的方式,比较像人类描绘产生视频的方法。我认为Sora应该是模拟和借鉴了人来重现这个世界的一种技能。
GPT实际上解决了AGI第一个基本问题——从人工智障到人工智能,就是对人类语言有了一个完整的理解,这样跟人可以对话。
Sora解决了机器和这个世界在互动中需要了解的一些规律,了解的一些知识,所以它能做出符合我们日常常识的、符合我们日常物理规律的场景,虽然它可能并不知道这个规律。
老有人跟我辩论说,Sora能总结出相对论和牛顿定律吗?我的回答是,一只猫知不知道牛顿定律并不影响它准确地去预测老鼠的速度去抓到这个老鼠,这是生物的本能。这就更加证明了Sora的可怕,它是模拟了生物这种观察、学习和表现的方式,而不是给这个世界所有的万物重新建模。如果Sora开放接口,我会做一个这样的视频,把一个生鸡蛋打在狗头上会出现什么情况。
《中国企业家》:这次Sora的一个突破,实际是Transformer和扩散模型的结合。
周鸿祎:其实大家把它叫做Diffusion大模型或者Diffusion Transformer,这里面核心还是Transformer。OpenAI用Transformer找到了一条统一来做AGI的路。
Diffusion是处理生图的时候用到的一种技术,它最后只是用来渲染,没有Diffusion它最多是画不出视频,但它一样有多模态的输入和学习,一样有把很多知识存到Transformer里面。OpenAI虽然用到的技术是Google发明的,但用法是自己独创的,真正做到大力出奇迹。
其实Sora的很多东西都没有公布。OpenAI这帮人真的非常精明,他们知道到哪一步能让你心痒痒,哪一点能让你觉得这是个正确的方向。但真正的诀窍他们是绝对不会说的。
周鸿祎:第一,视频要分析的要素太多了,1秒钟24帧,1分钟是60秒,每1帧的分辨率又是1920×1080 for HD的图像,对算力的需求非常大。如果对算力的需求不大,它就不是1分钟了。但OpenAI不缺显卡,最近Altman说要弄7万亿美元做新的算力架构,说明他们AGI再往下走对算力的需求可能超出我们每个人的想象。
《中国企业家》:目前Sora的视频还有穿帮的这种成分在里面,这是因为哪些技术未完善?
周鸿祎:做错的部分有两种可能,一种它没有受过这方面的训练,只要持续给算力,给训练,这些东西都是可以改进的;第二,可能就像幻觉一样,我认为都是瑕不掩瑜。
三、不要把Sora看成鲨鱼,把它看成是海洋
《中国企业家》:每次有新的技术出现,大家都会说要把所有的产业重做一遍,现在也是这样一个新的机会吗?
周鸿祎:这么有利的工具对各个产业的影响一定是正向的。比如对做短视频的人来说,Sora很可能就能通过描绘我的梦境来生成视频,很多人拍短视频很有创意,但拍摄工具、剪辑能力不行,也没钱,利用Sora是不是可以拍出比现在质量更高的短视频。
对电影工业来说,这个工具更是可能让很多人都过一过小导演的感觉,我准备最近找一些导演,像陆川、宁浩交流一下,和他们去PK一下,我觉得至少它可以成为有力的工具。
当然,我相信至少现在人工智能取代不了人类的想象力和创造力,还有人类的主观意愿。就跟今天所有人都编程之后一样,程序员和程序员能力的差别还是巨大的。所以,我认为,这里边并没有消除人的主观能动性。
《中国企业家》:在通用人工智能时代,C端创业的底层逻辑会有什么变化?
周鸿祎:创业要广义地来看,不见得每个人都要颠覆掉抖音才叫创业。比如:第一,如果可以接入Sora、GPT大模型API,你可以利用它的能力,Sora就可以给你产生很多素材,最后你把它组装起来;可能你是做配音的,可以把你的能力和它结合起来。我觉得未来会产生很多新的工具,人工智能最典型的属性就是工具,所以工具市场会有巨大的机会。
第二,对已有很多传统的to C领域可能会有重塑一遍的机会。360下周就会推出互联网两个to C的应用场景,一个是浏览器,一个是搜索。
你不要把这些平台看成是鲨鱼,而是把它们看成是海洋。实际今天在抖音上有一批更年轻的创业者通过做内容、直播带货,已经尝到了内容红利,未来如果利用好AI工具也会有很多的机会。所以,我自己还是觉得Sora会带来整个产业巨大的进步。
《中国企业家》:这种情况之下,每个人都有可能成为一个超级的表达者,这个世界会变成怎么样呢?
周鸿祎:正向来说,我觉得内容会极大地丰富。从负面来说,如果有了Sora之后,人类消耗大量的算力和能源,我们每个人每天都在疯狂产生视频,你根本就没有时间来回看。它甚至都超过一个宇宙的寿命了,那谁去看呢?所以,我也觉得挺迷茫的,但到那时候再说呗。
《中国企业家》:如果到了我们可以大量地用人工智能视频的情况之下,人工智能它自己所吸收的这些视频实际上是不是会进入“自喂养”的状态?
周鸿祎:不行。人工智能产生的文字,如果拿来再训练大模型,这个大模型会越训练越傻,直到有一天变成脑瘫了。这有点像“疯牛病”——动物是不能吃同类的,它会进入一种“递归”, 如果拿Sora产生的视频去“喂”Sora,这里边一定会产生一种系统的崩溃。
《中国企业家》:在通用人工智能大发展的背景下,井底之蛙就是你的信息茧房。青蛙已经在井外面了,但你随身永远背着一口井,这个井是你自己随身带着的,你摆脱不了。
周鸿祎:如果Sora这种东西学习得足够多,全世界的电影都看过,把《Matrix》片段和《谍中谍》的片段拼合起来它都能给你造出来。所以,“未来已来”。
但现在还有一个问题,诈骗视频,过去诈骗视频叫Deepfake深度伪造,过了几年他们换了一个高大上的名字叫AIGC。今天AIGC做诈骗还只是换脸换身,以后完全不用换脸。所以一定要有相应的监管措施。
作为全国政协委员,我今年准备了个提案,我觉得这种视频产生要加明和暗的两种水印,要明确标识这是AI生成的,而且暗的水印是不能去掉的,这需要用技术解决的问题,要不然宅男的白日梦利器没来先变成缅北诈骗分子的利器。
《中国企业家》:你之前也讲过,Sora大模型是不是可能对自动驾驶,对具身智能,产生一些影响?
周鸿祎:真的要做到自动驾驶和具身智能,光脑子里能够理解人的知识不够的,你需要和这个世界从感知变成认知,要能够和这个世界互动,这块语言大模型是解决不了互动问题的。
以汽车举例,比如你开车的时候,前方出现一个纸壳,其实你会做判断。如果这个纸箱看起来在风吹动下纹丝不动,你就觉得里面肯定装了东西,你就不敢撞,会避开;如果风一吹,这个纸壳上下乱飞,还会随风滚一阵子,你就会做什么判断?你就会认为这个东西是空的,你可能就撞过去,就不会并道,因为旁边右道有车。
如果只是通过摄像头和雷达看到了东西,只是判断说前方有障碍物,那你的机器就很难做正确的判断。我最喜欢的产品经理是周星驰,有一部电影叫《国产零零漆》,它里面讲了非常好的例子,你看起来是一个刮胡刀实际上是个吹风机;看起来是个吹风机实际上是个刮胡刀。
Sora看起来是个AIGC文生视频的工具,大家注意力都被它吸引了,但实际上Sora是个AGI第二个突破点,是解决人工智能和这个世界的观察、交互、认知,建立常识的重要的里程碑。
在这个基础上,具身智能、通用机器人和自动驾驶都会得到突破。我认为,有可能在一年之内,基于Sora的技术,OpenAI又会给我们一个惊喜。
四、戒掉吹牛的习惯
《中国企业家》:有网友问,Sora对中国市场有什么影响?
周鸿祎:Sora给了中国的互联网和人工智能行业一个响亮的提醒,承认差距并不丢人,知道差距在哪儿,我们迎头赶上。别人起步毕竟比我们更早,有很多从0到1的原始创新,比如芯片、软件。即使新能源车今天取得了进展,但你不得不承认,最开始也是先模仿,先追随,在这个过程中再积累,再创新,再超越。这需要一个过程。向人学习没啥丢人的,华为的任老板也经常强调向人学习。
中国AI行业要戒掉吹牛的习惯,都说和OpenAI差不多了,甚至通过刷榜,把OpenAI的GPT4都刷到十名开外了。这种自我安慰、自我欺骗是没有意义的,因为你会迷惑自己,老觉得自己很了不起,说多了可能自己都信了,反而最后被人在关键的地方给落下了。
另外,现在国内也不用太悲观,有些技术诀窍,我觉得很快地也都会被探索出来,剩下的需要时间。
国内比较值得担忧的有三点:第一,人才的高度和密度;第二,算力,做Sora和下一步更大规模的大模型对算力的要求可能又是一个积累,10万块显卡是个基本起点;第三,知识的问题,尽管我们很多人觉得中文搜索引擎更懂中文,但是网上的很多语料并不适合用来做直接的训练,训练大模型需要的是高纯度的知识。
周鸿祎:我们All in AI,通过一年的时间对大模型的研发,已经完成了AI信仰。我们在核心的安全领域已经打造出行业里最强的安全大模型,会用大模型的人工智能能力赋能安全服务,把能力再提升一个数量级。
当然,中国有个巨大的机会,大模型一方面是做这种千亿、万亿参数的超级通用大模型;还有一个方向是把大模型走向垂直化、产业化、行业化的路,做各种企业大模型、场景大模型,把大模型赋能成传统行业,特别是传统制造业转型升级。