斯坦福大学 Llama3-V 团队涉嫌抄袭事件近日引发广泛关注。该团队的两名成员 Siddharth Sharma 和 Aksh Garg 已在社交媒体上公开致歉,并表示将撤下 Llama3-V 模型。
据悉,Sharma 和 Garg 是斯坦福大学计算机科学专业本科生,自称在团队中负责模型推广,而该项目的代码编写由南加州大学毕业生 Mustafa Aljadery 负责。事发后,Sharma 和 Garg 要求 Aljadery 提供原创性证明和训练代码,但未获得任何证据。
率先发现 Llama3-V 抄袭清华大学模型的网友表示,自己的行为是开源社区工作者的本分。他指出,此事件“相当于将可口可乐换成可日可乐就说是自己的项目”。
面壁智能 CEO 李大海对此事回应称,技术创新不易,呼吁共建开放、合作、有信任的社区环境。
事件起因于 5 月 29 日斯坦福大学 AI 团队发布 Llama3-V 开源模型。该团队声称,该模型比当前的开源 SOTA 视觉语言模型 LLaVA 性能提高了 10% 至 20%,且尺寸比 GPT-4V 小近 100 倍,性能比肩 GPT-4V、Gemini Ultra 和 Claude Opus。
Llama3-V 团队声称,仅用了不到 500 美元就训练出了一个超过 SOTA 水平的多模态大型模型,性能比肩多家大公司。加上三位作者出色的背景,Llama3-V 发布后迅速受到关注,一度登上全球最大的开源大模型社区 HuggingFace 趋势榜第五位。
质疑声很快出现。6 月 2 日,网友 Magic Yang 称发现 Llama3-V 项目中有大量疑似抄袭 MiniCPM-Llama3-V 2.5 的内容,并晒出多份抄袭证据。
例如,在模型结构和配置文件上,二者高度雷同,仅变量名不同。Llama3-V 的代码几乎完全照抄 MiniCPM-Llama3-V 2.5,仅做了一些重新格式化和变量重命名,包括但不限于图像切片、分词器、重采样器、数据加载等变量。
GitHub 项目信息显示,MiniCPM-Llama3-V2.5 拥有 8B 个参数,性能超越 GPT-4V-1106、Gemini Pro、Qwen-VL-Max 和 Claude3 等专有模型,配备了增强的 OCR 和指令跟踪能力,并支持 30 多种语言的多模态对话。该端测多模态开源模型由清华大学自然语言处理实验室与面壁智能合作开发,于今年 5 月 20 日推出。
南都记者联系了揭露 Llama3-V 涉嫌抄袭的网友 Magic Yang(知乎网名“社恐患者杨老师”),他向记者讲述了打假过程。
杨老师表示,他正在帮助一名博士生进行运动处方项目,想选择一个优质的开源模型作为微调基础。此前,他曾测试过 MiniCPM-Llama3-V2.5,因此对 MiniCPM 的模型架构和代码比较熟悉。
后来,他注意到 Llama3-V 项目在 HuggingFace 上排名靠前,并获得博主推荐,于是进一步测试。但在此过程中,他发现二者的模型架构和代码高度相似。他向 Llama3-V 作者询问此事,但对方避重就轻,不正面回应,随后删除质疑帖子,并隐藏了 MiniCPM-Llama3-V 2.5 的项目主页。
一系列操作引起了杨老师的质疑。6 月 2 日下午,他将证据发到 MiniCPM-V 的 Github 项目主页,并提醒面壁智能团队关注。
对话截图显示,Llama3-V 项目作者最初否认抄袭,并称他们的项目开始时间更早,只是使用了 MiniCPM-V2 的分词器。
杨老师表示,作为一名经验丰富的开发者,发现抄袭不难,但证实却不容易。最终,面壁智能团队使用内部数据集“清华简”进行对比测试,一锤定音。
“连错的都一模一样”,确信是套壳
南都记者注意到,6 月 2 日深夜,面壁智能团队证实了抄袭行为。除社区网友列出的证据外,他们还发现 Llama3-V 项目与 MiniCP-Llama3-V 2.5 一样,可以识别“清华简”战国古文字,“不仅对的一模一样,连错的都一模一样”。
据面壁智能首席科学家、清华大学长聘副教授刘知远介绍,“清华简”的识别能力是 MiniCPM-Llama3-V 2.5 研发时的彩蛋。该团队花费数月从“清华简”逐字扫描,人工标注数据集,并未公开,因此“比较确信 Llama3-V 对 MiniCPM-Llama3-V2.5 进行了套壳”。
针对此事,面壁智能 CEO 李大海发文深表遗憾。他表示,技术创新不易,希望好的成果得到关注,但不是通过这种方式。他呼吁大家共建开放、合作、信任的社区环境。
刘知远也表示,人工智能的飞速发展离不开全球算法、数据和模型的开源共享,使人们可以持续站在“最新技术”的最佳状态的肩上前进。此次开源的 MiniCPM-Llama3-V 2.5 就用到了最新的 Llama3 作为语言模型基座。
“开源共享的基石是对开源协议的遵守,对其他贡献者的信任,对前人成果的尊重和致敬,Llama3-V 团队无疑严重破坏了这一点。”他提到 Llama3-V 团队的三位作者中有两位是斯坦福大学本科生,未来还有很长的路,“如果知错能改,善莫大焉”。
北京时间4日凌晨,牵涉风波的两位斯坦福大学本科生Siddharth Sharma和Aksh Garg,于社交平台做出解释,表示该项目源于三人,他们仅负责推广模型,而编写代码的为Mustafa Aljadery。
事件发生后,他们曾尝试联系Mustafa以发布原创声明并提供训练代码,但目前为止尚未得到回应。在这份联合声明中,二人再次向原作者致歉,并对未能尽责确保Llama3-V的原创性感到失望,现已删除所有与Llama3-V相关的引用。
二人共同发文致歉。作为被指为主要责任方的Mustafa,是团队中唯一的全职成员。其本科和硕士均毕业于南加州大学,专攻深度学习和数学,是一名软件工程师。截至目前,Mustafa尚未发声。
两名作者的解释未能平息质疑。斯坦福大学人工智能实验室主任Christopher David Manning公开谴责这一抄袭行为,称二人以借口推脱为由,属拒不认错。
随着原作者的介入,这场大型模型抄袭风波暂时告一段落。
相关文章推荐阅读: