“每天都有公司发布令人震撼的新模型,宣布史诗级的更新,但我真正想问的是,这些模型到底用在了哪里?谁从这些模型中真正获益了?”
7月4日,在世界人工智能大会(WAIC)的产业发展主论坛上,百度董事长李彦宏对大模型领域过度追求刷榜和跑分的现象进行了尖锐的批评。他指出,许多公司过度关注基础模型的研发,每天都在忙着跑分、刷榜,争夺谁的模型超越了GPT-4,谁又发布了最新的Sora、GPT-4o等等。
大模型刷榜,指的是各个公司和研究机构竞相在各种基准测试中取得最高分数,以此来证明自家模型性能的优越性。在追求高分的过程中,一些模型可能被使用包含基准测试数据集的样本来进行训练,从而获得不公平的优势。一些基准测试可能过于简单或不够全面,无法真实反映模型在复杂场景下的实际能力,这也可能导致资源分配的不平衡。
李彦宏认为,当前大模型领域最重要的是应用落地。“如果没有实际的应用场景,仅仅拥有基础模型,无论开源还是闭源,都毫无价值”。他呼吁大家“不要再卷模型了,应该去卷应用”。
事实上,基于基础模型的应用已经开始渗透到各行各业。例如在快递行业,大模型可以将订单处理时间从3分钟缩短到19秒,并能高效解决90%以上的售后问题。在代码生成领域,百度内部约30%的代码已经使用AI生成,代码采用率超过了44%。
据李彦宏透露,两个月前,文心大模型的日调用量超过了2亿次,最近更是突破了5亿次。“调用量的显著增长反映了真实的需求,说明确实有人从大模型中获得了益处。”
他也特别提醒,要避免陷入“超级应用陷阱”,不要再用移动互联网时代的思维逻辑,认为只有“日活用户超过1亿的应用才算成功”。在人工智能时代,“超级能干”的应用,即能够对产业和应用场景产生巨大价值的应用,比仅仅追求用户规模的“超级应用”更为重要。只要应用能够为产业带来实际效益,其整体价值就会超越移动互联网时代。
百度内部看好的人工智能应用发展方向是智能体。制作优秀的智能体比互联网时代制作网页更加简单。未来,在医疗、金融、教育、制造、交通、农业等领域,都会根据自身的场景、经验、规则和数据等,开发出各种各样的智能体。
“未来将会出现数百万个智能体,形成庞大的智能体生态系统。”李彦宏说道。
对于业界热议的开源和闭源之争,李彦宏再次表达了自己的观点。他认为,一些外行人士混淆了模型开源和代码开源的概念。在他看来,在参数规模相同的情况下,闭源模型的性能要优于开源模型。开源模型如果想要达到闭源模型的性能水平,就需要更大的参数量,这意味着更高的推理成本和更慢的反应速度。
“开源模型并不能让你站在巨人的肩膀上进行迭代和开发。”他指出,一些公司通过修改开源模型来进行创新,实际上只是创造了一个孤立的模型,无法从基础模型的持续升级中获益,也无法共享算力资源。开源模型只在学术研究、教学等少数领域具有价值,并不适用于大多数应用场景,尤其是在竞争激烈的市场环境下,企业要想在业务效率和成本方面优于同行,商业化的闭源模型才是最佳选择。
也有一些业内人士表达了不同的观点。他们认为,李彦宏关于闭源大模型的言论只是站在百度的立场,开源模型也有其商业价值,并且从长远来看,开源模型的性能会逐渐赶上闭源模型。
开源和闭源模型之争只是国内“百模大战”的一个缩影。
李彦宏认为,虽然“百模大战”造成了社会资源,尤其是算力的巨大浪费,但也推动了中国开始追赶世界最先进的基础模型。
种种言论背后,体现出百度想要改变现状的迫切心情。在上一轮移动互联网竞争中,百度逐渐落后,于是选择押宝AI。这一轮的AI角逐战中,不仅有老牌互联网巨头,还有备受瞩目的大模型创业公司加入,竞争愈发激烈。
即使在百度最具优势的搜索领域,也面临着竞争对手的不断蚕食。除了微信搜索、小红书的内容搜索,各大模型公司也纷纷推出AI搜索产品,例如Kimi、豆包、海螺AI、智谱清言等等。搜索,已经成为当下大模型消费端应用的必争之地。
至少在声量上,百度已经有所落后。中金公司最新发布的研报显示,Kimi在3月份爆火后,一直领先于百度的文心一言,成为中国AI网站流量第一名。
以6月19日至25日这一周为例,中国AI网站的周度访问量排名中,月之暗面旗下的Kimi chat以571.83分位居榜首,文心一言以412.97分位居第二名。而在中国AI app下载量以及日均活跃用户数榜单中,字节跳动旗下的豆包成为断层第一,百度始终居于后位。
如何在接下来的竞争中持续保持优势,并最终实现突围,将是李彦宏和百度需要共同面对的难题。
相关文章推荐阅读: