AI高考首秀- 最高303分数学全军覆没-维修星

高考涉及广泛的学科和题型，更因其考前的高度保密性，而被视为国内权威的考试之一。这一面向人类的高难度综合性测试，现已成为研究员评估大型模型智能水平的重要手段。

近期高考结束之际，上海人工智能实验室旗下的司南评测体系 OpenCompass 挑选了七个大型模型，对高考“语数外”科目进行了全卷能力测试。6 月 19 日，OpenCompass 公布了首个大型模型高考全卷评测结果。

语数外三科满分为 420 分，本次高考测试结果显示，阿里通义千问 2-72B 以 303 分排名第一，OpenAI 的 GPT-4o 得分 296 分排名第二，上海人工智能实验室的书生·浦语 2.0 排名第三，这三大模型的得分率均超过 70%。来自法国大型模型初创公司 Mistral 排名垫底。

此次测试模型分别来自阿里巴巴、零一万物、智谱 AI、上海人工智能实验室、法国 Mistral 的开源模型，以及 OpenAI 的闭源模型 GPT-4o。实验室表示，由于无法确定闭源模型的更新时间，为保证公平性，本次评测未纳入市售闭源模型，仅以 GPT-4o 作为评测参考。

此次参与高考的“考生”均于高考前（2024 年 4 月至 6 月）开源，规避了刷题风险。从结果来看，大型模型在语文、英语科目表现不错，但在数学科目中均不及格，最高分仅为 75 分，由书生·浦语 2.0 获得，其次为 GPT-4o，得分 73 分。语文最高分为通义千问，英语最高分为 GPT-4o。数学方面，大型模型仍有较大提升空间。

数学涉及复杂的推理能力，这是大型模型普遍面临的难题，也是其在金融、工业等需要可靠性的场景中落地所需的关键能力。上海人工智能实验室领军科学家林达华此前接受采访时表示，复杂推理能力关系到大模型落地应用时的可靠性，如在金融等场景中，数字不能出现差错，对数学可靠性的要求很高。随着大型模型进入商用，在对公司财报或技术文档进行分析时，数学计算能力成为一个壁垒。“目前，不少大型模型的应用场景是客服、聊天等，在聊天场景中，信口胡说还不太会造成太大问题，但它们难以在严肃的商业场合中落地。”林达华此前表示。

对于此次测试细节，上海人工智能实验室介绍，评测采用全国新课标 I 卷，“语数外”三科全卷测试，包括客观题和主观题。成绩由具备高考评卷经验的老师匿名人工评判。评卷前，评卷教师不知答卷由模型生成，以真实考生标准评判答卷效果。

值得注意的是，大型模型的错误类型与人类考生不同，在实践中，评卷老师并不完全适应给大型模型打分，因此存在误判的可能。实验室表示，每个题目均邀请至少三位老师评阅取平均分，团队对分差较大的题目还进行了再次审核，贴近高考真实阅卷标准。

老师们在不知情的情况下批改了由大模型生成的答卷。为了保证评卷的公平性，研究团队事先没有告知老师们答案是由大模型生成的。由于某些模型在理解题意上存在偏差，可能会出现答非所问、重复作答或将答案写成解析步骤的情况。针对这些异常情况，老师们会与研究团队进行确认，并将明显错误的答案直接判为错误，而对于解析类型的答案，则以是否包含正确的解题步骤作为评判标准。

在所有答卷批改完成后，老师们才被告知这些“考生”的真实身份是大模型。随后，研究人员邀请各科老师对大模型的表现进行了综合分析，以期为模型能力提升提供参考。

语文方面，老师们普遍认为，大模型在现代文阅读理解方面表现较好，但文言文阅读理解能力参差不齐。在作文方面，大模型的作文更像是对题目的直接回答，虽然能够紧扣主题，但缺乏文采，几乎没有使用人类考生常用的举例论证、引用论证、名人名言和人物素材等写作手法。多数模型无法理解“本体”“喻体”“暗喻”等语文概念，也难以理解语言中的“潜台词”。

数学方面，老师们发现，大模型在主观题作答上思路较为混乱，解题步骤也缺乏逻辑性，甚至会出现步骤错误但最终答案正确的情况。这表明大模型虽然具备较强的公式记忆能力，但在实际解题过程中却难以灵活运用。

英语方面，大模型整体表现良好。但由于部分模型对题型不太适应，在七选五、完形填空等题型上得分率较低。在作文方面，大模型普遍存在字数超出限制而被扣分的情况，而人类考生则多因为字数不足被扣分。

一些老师还指出，由于大模型的答案没有卷面，因此在作文评分上可能存在1-2分的误差。

AI高考首秀- 最高303分 数学全军覆没

相关推荐

“上门经济”兴起，家电维修服务口碑提升了

看完这篇小家电维修实录 我兴奋地搓了搓手

AI高考首秀- 最高303分数学全军覆没

看完这篇小家电维修实录我兴奋地搓了搓手