高考涉及广泛的学科和题型,更因其考前的高度保密性,而被视为国内权威的考试之一。这一面向人类的高难度综合性测试,现已成为研究员评估大型模型智能水平的重要手段。
近期高考结束之际,上海人工智能实验室旗下的司南评测体系 OpenCompass 挑选了七个大型模型,对高考“语数外”科目进行了全卷能力测试。6 月 19 日,OpenCompass 公布了首个大型模型高考全卷评测结果。
语数外三科满分为 420 分,本次高考测试结果显示,阿里通义千问 2-72B 以 303 分排名第一,OpenAI 的 GPT-4o 得分 296 分排名第二,上海人工智能实验室的书生·浦语 2.0 排名第三,这三大模型的得分率均超过 70%。来自法国大型模型初创公司 Mistral 排名垫底。
此次测试模型分别来自阿里巴巴、零一万物、智谱 AI、上海人工智能实验室、法国 Mistral 的开源模型,以及 OpenAI 的闭源模型 GPT-4o。实验室表示,由于无法确定闭源模型的更新时间,为保证公平性,本次评测未纳入市售闭源模型,仅以 GPT-4o 作为评测参考。
此次参与高考的“考生”均于高考前(2024 年 4 月至 6 月)开源,规避了刷题风险。从结果来看,大型模型在语文、英语科目表现不错,但在数学科目中均不及格,最高分仅为 75 分,由书生·浦语 2.0 获得,其次为 GPT-4o,得分 73 分。语文最高分为通义千问,英语最高分为 GPT-4o。数学方面,大型模型仍有较大提升空间。
数学涉及复杂的推理能力,这是大型模型普遍面临的难题,也是其在金融、工业等需要可靠性的场景中落地所需的关键能力。上海人工智能实验室领军科学家林达华此前接受采访时表示,复杂推理能力关系到大模型落地应用时的可靠性,如在金融等场景中,数字不能出现差错,对数学可靠性的要求很高。随着大型模型进入商用,在对公司财报或技术文档进行分析时,数学计算能力成为一个壁垒。“目前,不少大型模型的应用场景是客服、聊天等,在聊天场景中,信口胡说还不太会造成太大问题,但它们难以在严肃的商业场合中落地。”林达华此前表示。
对于此次测试细节,上海人工智能实验室介绍,评测采用全国新课标 I 卷,“语数外”三科全卷测试,包括客观题和主观题。成绩由具备高考评卷经验的老师匿名人工评判。评卷前,评卷教师不知答卷由模型生成,以真实考生标准评判答卷效果。
值得注意的是,大型模型的错误类型与人类考生不同,在实践中,评卷老师并不完全适应给大型模型打分,因此存在误判的可能。实验室表示,每个题目均邀请至少三位老师评阅取平均分,团队对分差较大的题目还进行了再次审核,贴近高考真实阅卷标准。
老师们在不知情的情况下批改了由大模型生成的答卷。为了保证评卷的公平性,研究团队事先没有告知老师们答案是由大模型生成的。由于某些模型在理解题意上存在偏差,可能会出现答非所问、重复作答或将答案写成解析步骤的情况。针对这些异常情况,老师们会与研究团队进行确认,并将明显错误的答案直接判为错误,而对于解析类型的答案,则以是否包含正确的解题步骤作为评判标准。
在所有答卷批改完成后,老师们才被告知这些“考生”的真实身份是大模型。随后,研究人员邀请各科老师对大模型的表现进行了综合分析,以期为模型能力提升提供参考。
语文方面,老师们普遍认为,大模型在现代文阅读理解方面表现较好,但文言文阅读理解能力参差不齐。在作文方面,大模型的作文更像是对题目的直接回答,虽然能够紧扣主题,但缺乏文采,几乎没有使用人类考生常用的举例论证、引用论证、名人名言和人物素材等写作手法。多数模型无法理解“本体”“喻体”“暗喻”等语文概念,也难以理解语言中的“潜台词”。
数学方面,老师们发现,大模型在主观题作答上思路较为混乱,解题步骤也缺乏逻辑性,甚至会出现步骤错误但最终答案正确的情况。这表明大模型虽然具备较强的公式记忆能力,但在实际解题过程中却难以灵活运用。
英语方面,大模型整体表现良好。但由于部分模型对题型不太适应,在七选五、完形填空等题型上得分率较低。在作文方面,大模型普遍存在字数超出限制而被扣分的情况,而人类考生则多因为字数不足被扣分。
一些老师还指出,由于大模型的答案没有卷面,因此在作文评分上可能存在1-2分的误差。
相关文章推荐阅读: