专访昆仑万维董事长兼CEO方汉:信仰大模型的力量,C端在3至5年后将出现杀手级产品
【开栏语】
“大模界”是每日经济新闻推出一档专注生成式AI与大模型技术的前沿科技报道栏目。
在这里,我们将聚焦生成式AI技术浪潮,展现从文字、图像、音频、视频的大模型如何编织数字化世界。
在这里,我们将解码、评测国内外各类大模型,探究它们如何成为变革各行各业的重要力量。
在这里,我们将关注AIGC行业发展,联手行业领军人物和顶尖专家,共同揭示最新产品创新和技术突破,前瞻未来发展趋势。
欢迎关注“大模界”,您将见证AIGC如何重塑内容生态,如何以前沿之力推动社会进步。让我们共同开启一场关于AI新纪元的无限旅程!
每经记者可杨每经编辑魏官红
“很多人觉得Sora的诞生代表了AGI(人工通用智能)的曙光,我完全不这么认为。有些评论认为文生视频代表AI理解了这个世界的物理规律,但我觉得这纯属外行的猜测。它(Sora)根本不是对物理世界的表述,而是对人类幻想的一个表述。”
做出上述判断的是昆仑万维(300418.SZ,股价39.85元,市值484.18亿元)的董事长兼CEO方汉。他是中国最早“触网”的一批人之一,毕业于中国科学技术大学近代物理,曾任职于中国科学院高能物理研究所、TurboLinuxInc.、AsiaInfo,Inc.以及千橡互动(OakPacificInteractiveCorporation),被认为是中文Linux的创始人之一。
而今,昆仑万维创始人周亚辉和方汉一起带领着昆仑万维在AIGC赛道上角逐。为了保持对一线技术的感知,方汉在整个2023年读了将近200篇论文,并且也自己动手写代码,“有一个很残酷的现实,如果你不懂技术,你就不知道产品的边界在哪”。
昆仑万维已成立16年,在外界看来,这或许是一家非典型的人工智能企业——依托于游戏起家,业务覆盖社交、娱乐等多个领域,从2022年宣布“AllinAIGC”后加速在人工智能领域发力,于2023年8月推出“天工AI搜索”。2024年开年,昆仑万维发布全新公司愿景,再度将人工智能提到全新高度,并将其未来定位于“人工智能科技企业”。
4月1日,昆仑万维官微宣布,自研大语言模型“天工3.0”将于4月17日正式开启公测。“天工3.0”采用4千亿级参数MoE混合专家模型,并将同步选择开源。其中,“天工3.0”AI音乐生成大模型SkyMusic还将在4月2日面向社会开启邀测。
近日,方汉接受了《每日经济新闻》记者的专访。在他看来,文本大模型领域现在仍处于“大力出奇迹”的阶段,“追平文本大模型的难度比追平Sora的难度要高”。方汉认为,今年仍可能有新的大模型推出,“百模大战”会淘汰一部分公司,剩下的科技公司会继续全速前进。他表示,昆仑万维“信仰大模型的力量”,并预计在3至5年后会出现C端杀手级的产品。
“大家高估了Sora的长期作用,而低估了它的短期作用”
“为何文生图不是AGI的曙光,而文生视频就是AGI的曙光?”在采访过程中被问及对Sora这个“开年炸弹”的看法时,方汉给出了与市场反应不太相同的回答。
在他看来,所谓“文生视频理解了这个世界的物理规律”纯属外行人的猜测。
“你觉得漫威电影是物理世界的规律吗?无限宝石是吗?不是吧?但你说文生视频不能生成漫威电影,似乎也说不过去。所以它(Sora)根本不是对物理世界的表述,而是对人类幻想的表述,把它当成AGI的前序,我觉得纯属外行瞎扯。”
方汉认为,大家高估了Sora的长期作用,而低估了它的短期作用。
在Sora推出之后,有影视公司的从业者找到方汉,探讨Sora对于影视行业的影响。方汉认为,Sora对从业者的打击可能是“非常恐怖的”,因为文生视频模型大大降低了特效视频的制作成本。
“原来一部电影的投入可能是几亿元人民币,其中花在特效、花在产品上的成本可能是几千万元,这个成本有可能被文生视频模型压缩到几万元。”方汉认为,大家应该更关注它对于影视行业和视频制作行业的冲击,而不是对于AGI的冲击。
2022年末,OpenAI推出ChatGPT,迅速引发市场关注,国内众多厂商旋即称要推出国内的ChatGPT,而后国内市场进入“百模大战”。但在Sora诞生后,相似的盛况却没有出现。
“我觉得其实Sora的门槛比大家想象得要低,追文本大模型的难度比追Sora的难度要高,只是大家都不说而已,其实是追GPT4更难,实话实说。”方汉进一步解释道,视频数据和图片数据的量级远远小于文本数据,视频信息的信息量很低,“你读一本书的效率跟看一部电影的效率其实完全不一样。”他认为,其实在文生视频领域,国内外的差距反而更小。
回到大模型战场中,方汉觉得,2024年可能还会有新的大模型诞生,比如OpenAI可能会发布GPT4.5甚至GPT5。而“百模大战”则跟“百团大战”一样,必然会剩下一批种子选手继续前进。
另外,今年可能会围绕AI出现一些新的商业模式,但是这些新的商业模式能不能超级爆发还有待观察。“我始终坚定地认为,只有推理成本降低才可能迎来真正的爆发。”
“远见、坚持与创新”,方汉认为,具备这些关键词的企业,最终会成为百模大战的赢家。
而在这之前,行业依旧面临不可避免的困境——算力和人才。
方汉谈到,在算力方面,目前国家已经开始建设算力中心,很多地区也在给初创企业发放“算力券”,这些制度的出台对于整个行业发展有所助益。
而在人才方面,方汉建议要通过政策来引导大学在专业设置和人才培养上向人工智能去倾斜。
人工智能最后的竞争一定是人才的竞争。
方汉认为,我们国家在人才培养上有优势,但也存在一些短板,“比如,在工程师数量上,国内是远远超过美国的,但是在博士领域则是持平的,所以国内应该加大博士的培养速度,否则追赶起来有难度”。
这一点正在得到改变,最近三年,我国研究生的入学人数持续增加,“我认为这对于人工智能的长期竞争是非常重要的,中国应该重视高端人工智能人才的培养体系”。
在方汉看来,国内的大模型和世界头部公司之间的差距一直在缩小。
目前,全世界人工智能论文发表数量上中国第一,美国第二。虽然美国在高端领域明显占优,但中国在中低端市场也有很大优势。他表示,中国现在是全世界工业门类最齐全的国家,“我们有6000万的工程师,是美国的6至7倍。虽然目前在高端领域存在差距,但在工程上的追赶只是一个时间问题。对于芯片产业,大部分人都低估了短期发展的难度,高估了长期发展的难度,对于中国人工智能产业的长期发展,我还是比较乐观的”。
“中国有足够多的AI人才,所以说从长期来看差距会逐步缩小。”方汉表示。
“信仰大模型的力量”,效率提升是人类永恒的追求
2023年,方汉读了将近200篇论文,以此来保持对第一线技术的感知。
“这里面现在有个很残酷的现实,如果你不懂技术,就不知道产品的边界在哪里。所以我花了很大的精力,可能每周有将近一半的时间在看技术的边界,剩下的就在思考我们的产品、模式该怎么做。”对于这个“残酷的现实”,方汉的思考是,ScalingLaw(大力出奇迹)依旧是文本大模型的主流,但在很多垂类赛道,ScalingLaw已经停止起作用,AI已经触及边界,这时候需要产品创新、创意发力。
沿着对技术边界的思考,谈到技术信仰与商业化信仰两个流派,方汉觉得,自己介于两派中间。
在他看来,这二者其实是阶段性的区别。目前这个阶段,技术还在发展,市场上“最贵”的人才是算法工程师,而不是产品经理。但如果算法提升到了一定边界,产品经理和模式就会开始入场。“这个在某些垂类已经发生了,比如文生图领域,甚至将来的文生视频领域。当大家技术上差异不大的时候,拼的就是商业模式跟产品创新。”方汉称。
在这一轮“百模大战”的战局中,昆仑万维是个特殊的参赛者,它不像百度、阿里,是同时拥有强大资金与技术实力的传统大厂;也不像MiniMax、月之暗面这类快速闯入市场的初创明星企业。
昆仑万维成立于2008年,早期业务主要切入的是网页游戏的研发、运营和全球发行,成立至今先后涉足过信息分发、社交、游戏、元宇宙??毫无疑问,这是一家极具市场敏锐度和战略前瞻性的公司。
这样的“敏锐”是否会让外界对于昆仑万维做大模型的实力和投入产生一些质疑?
“对于公司而言,外在质疑不重要,关键在于公司能不能做有价值的工作,比如我们在AI搜索、AI社交和AI音乐生成等领域做到了当前细分领域内的最佳,那这就证明了我们的投入是有意义的。”方汉补充道,虽然提出AllinAIGC是在2022年,但昆仑万维进入大模型赛道是2020年,“这是因为我们真的是信仰大模型的力量”。
这个信仰背后最根本的逻辑是,效率提升是人类永恒的追求。与此同时,昆仑万维观察到,当内容创作的门槛下降一半的时候,内容创作者的人数就会翻倍,所以,AI的任何一点进步都会导致内容创作的大爆发,而这是所有内容厂商必须面对的事实。
“这才是我们提出AllinAIGC的根本,当然,当一个市场爆发的时候,就会重新洗牌,我认为这对于我们公司来说,是一个非常好的机会,我们要一定要紧紧抓住这个机会。”
方汉认为,昆仑万维在内容生成领域的流程和商业逻辑已经非常清楚——“垂类SOTA红利”(SOTA:领域最佳水准),这是昆仑万维锚定的目标。方汉用OpenAI举例,OpenAI的文本生成水准是全行业最好的,所以它的商业估值最高,但文本只是AI的主要方向之一,还有很多垂类领域,只要在特定的垂类做到SOTA就会有红利。
目前,许多巨头公司仍在专注于大垂直领域的发展,因此,中小型垂直领域仍有非常丰富的机遇。方汉判断,这些垂直领域长期稳定的护城河,在于UGC(用户生成内容)平台。一旦用户对平台形成使用习惯,便能够建立显著的优势。“我们在海外所有的商业模式都是基于UGC平台的,我们的产品优势可以吸引大量的创作者,一旦用户习惯了我的平台,除非竞争对手的算法能够10倍领先于我,否则用户就很难发生迁移了。”
昆仑万维在2023年加速AIGC领域的布局,2023年4月,昆仑万维正式发布千亿级大语言模型“天工”,启动内测;同样是4月,在2022年年报发布后,公司管理层明确提出了昆仑万维“AllinAGI与AIGC”的发展路径。
2024年1月5日,昆仑万维对外公布了该公司的全新使命:实现通用人工智能,让每个人更好地塑造和表达自我。
关于昆仑万维的新使命,方汉说,公司考虑到这一波AI大潮的重要性,以及它所带来的产业机会。“我们认为AI并不同于之前的VR和元宇宙,它所创造的浪潮等同甚至超过互联网出现时带来的产业冲击,这是一个非常大的机会。”
基于这一判断,公司开始考虑AI最终能够带来什么。“ToB很简单,跟移动互联网一样,AI会带来我们工作效率的提升。而我们作为一家在海外长期做内容和社交的平台级公司,希望AI在C端能够让用户更好地表达自己,降低用户内容创作的门槛。”
比如当一门语言使用人数在5000万以下的时候,它几乎无法产生本语言的影视、音乐、文学,这就是创作门槛的问题。而一旦引入AI之后,这些问题都会得到解决。所以AI对于内容创作领域是一个非常重要的工具,能够帮助用户更好地表达自己。
竞逐大模型,机会在C端?
在行业大部分人眼中,B端是大模型商业化更好的通路,原因之一是C端市场的付费意愿在短期内很难得到提升,且目前大模型在C端的普及率与使用率并不高。
但在商业模式的选择上,昆仑万维依旧毫不犹豫地把宝押在了“C端”,且致力于推动实现“免费”。
“如果一家公司能创造出真正对用户价值极大的产品,那么用户一定会蜂拥而至。首先,这个产品必须免费,其次,它能真正百倍地提升效率或降低门槛。”方汉表示。
目前,昆仑万维的AI商业化逻辑都以C端为主。在C端,该公司推出了国内AI搜索——天工AI搜索。在海外,则围绕着漫画、音乐、影视、社交、游戏等领域进行了相应的布局。
方汉表示,很多人认为大模型是通向AGI的道路,这个赛道其实非常拥挤、非常长远。大模型对于B端和C端都有作用,但是在AIGC领域,大模型更容易落地。背后的原因在于大模型面临的本质问题,容易产生幻觉。“但是从某些角度看,幻觉也是一种优点,想象力有利于艺术作品创作,因此,在内容生成领域,AIGC有更多的优势。”
方汉认为,B端和C端没有必要对立起来,商业模式的选择更多是取决于公司的基因和用户天花板的上限。“B端和C端都是很好的生意,B端的利润率非常高,但是也有个问题,就是规模上不去。从B端起家并且成为全世界巨头的公司非常少,微软算半个,微软其实做的是personalcomputersystem(个人操作系统)”。
目前,国外很多大模型企业采用的是订阅模式,基于订阅模式,方汉算了一笔账:假设一个月的订阅费在19美金左右,全世界最多有5亿人愿意以19美金订阅。“剩下的70多亿人怎么办?”他反问,“免费、C端模式才能诞生下一代的杀手级应用,它的市场上限肯定是最大的,任何一个微小的收入乘以80亿都是一个非常惊人的数据,规模是不一样的。”
“现在对于大模型公司最麻烦的一点是推理成本。为什么OpenAI要用订阅模式?就是因为它很难向所有人免费提供最好的AI服务。”那么,长期来看,怎样迁移到免费模式,让80亿人都能享受AI服务?
方汉假设了三条路径。
首先是努力降低推理成本,把大模型的推理成本降到现在的千分之一、万分之一,就几乎可以免费给大家用。但对于这条路径,方汉认为短期内难以实现。“这里又形成了另外一个悖论,所有人都想要最好的大模型,但越好的大模型推理成本越贵,短期是不太好解决。优化了十倍,算力需求相应也加十倍,那不是抵消了吗?”
第二条路径是UGC平台模式,即让1%的内容创作者使用付费AI,剩下99%的读者免费看其生产的内容。“实际上在互联网时代,创作者跟消费者的比例可能比1∶100还要高,甚至可能是1∶1000。那这整个推理成本会不会缩小1%甚至更多?这在发展中期是成立的。”
而真正的解决方法是端侧推理,比如在手机端直接进行大模型推理。对于手机厂商而言,下一个增长点毫无疑问就是AI,随着工程师的优化,在手机端推理大模型的可能性变得越来越实际。方汉预计,在3至5年后会出现C端杀手级的产品。“这就像4G和手机摄像头推动了短视频行业的发展。如果没有摄像头,没有手机摄像头,没有4G网络,短视频行业是永远不会出现的。”
3到5年,这并不是技术上等待的时间,而是用户更换AI手机的周期。方汉认为,目前普及端侧推理的难点不在于技术,在于换机周期。
“等AI手机完成普及后,我们的市场规模就会变得空前巨大。技术上没有难点,经过工程师的优化,手机端已经可以推理7B和13B的模型了,这已经满足了我们70%至80%的需求。”