大模型的高考数学成绩单 及格已经非常好了

机器之心发布

机器之心编辑部

一年一度的高考落幕,衷心希望各位考生都超常发挥,考出满意的好成绩!!

和往年一样,除了让 AI 大模型写写高考作文,我们也选取了六家国内头部大模型公司的产品与考生们一同参与一场客观且公平(让众多考生头皮发麻)的高考数学考试(新课标 Ⅰ 卷),其中包括 GPT-4o、GLM-4、文心一言 4.0、豆包、百小应(百川 4)以及通义千问 2.5。

先来瞧一瞧这份「大模型成绩单」:

令人惊讶的是,在这次模拟考试中,大模型(产品)的表现并未达到预期,甚至出现了几乎全部不及格的情况,只有智谱最新发布的 GLM-4-0520 模型超过了及格线。

对大模型产品来说,高考语文作文可以直接测试它们的创造性写作技巧,包括构思、组织和表达观点的能力。

而在数学考试测试中,除了基本的计算能力、对数学知识的掌握,更能体现大模型在逻辑推理、抽象思维和问题解决方面的高级能力。大模型必须理解并运用数学概念、公式和定理,这要求它具备深厚的数学知识基础。同时,逻辑推理能力是解答数学题目的关键,大模型需要通过严密的逻辑推导来解决问题。

具体测试环节:

我们将评测的重点放在了高考数学的前 14 个客观题上,这些题目覆盖了基础的数学知识和计算能力,满分为 73 分。在测试时,我们将题目直接输入产品,不做 System Prompt 引导,直接输出结果;同时也没有触发搜索,没有来自外界的干扰。

分数计算方法依照高考真实判分原则:

图|8 个模型对 14 道数学题的回答结果,绿色为正确、红色为错误、黄色为部分正确

具体而言,在满分 73 分、及格线为 43.8 分(60%)的情况下,六家大模型产品的分数结果分别为: GLM-4-0520 (63 分) > 智谱清言 (43 分) > GPT-4o (41 分) > 豆包 (40 分) > 文心 4 (30 分) = 百川 4 (30 分) > 通义千问 2.5 (29 分)

多说一句,每年的第 8 道单选题往往是高考数学卷中最难的一道题, 被测试的大模型都 “全军覆灭” 了

完整测试结果如下:

单选题一

(6个模型回答正确,1个回答错误)

GPT-4o:正确

通义千问 2.5:正确

GLM-4-0520:正确

智谱清言:正确

豆包:正确

文心 4:错误

百川 4:正确

单选题二

(3个模型回答正确,4个回答错误)

GPT-4o:错误

通义千问 2.5:正确

GLM-4-0520:正确

智谱清言:正确

豆包:错误

文心 4:错误

百川 4:错误

单选题三

(全部回答正确)

GPT-4o:正确

通义千问 2.5:正确

GLM-4-0520:正确

智谱清言:正确

豆包:正确

文心 4:正确

百川 4:正确

单选题四

(全部回答正确)

GPT-4o:正确

通义千问 2.5:正确

GLM-4-0520:正确

智谱清言:正确

豆包:正确

文心 4:正确

百川 4:正确

单选题五

(6个模型回答正确,一个无响应)

GPT-4o:正确

通义千问 2.5:无响应,最终提示系统超时

GLM-4-0520:正确

智谱清言:正确

豆包:正确

文心 4:正确

百川 4:正确

单选题六

(6个模型回答正确,一个回答错误)

GPT-4o:错误

通义千问:正确

GLM-4-0520:正确

智谱清言:正确

豆包:正确

文心 4:正确

百川 4:正确

单选题七

(6个模型回答正确,一个回答错误)

GPT-4o:正确

通义千问 2.5:错误

GLM-4-0520:正确

智谱清言:正确

豆包:正确

文心 4:正确

百川 4:正确

单选题八

(7个模型无一得出正确答案)

GPT-4o:错误

通义千问2.5:错误

GLM-4-0520:错误

智谱清言:错误

豆包:错误

文心 4:错误

百川 4:错误

多选题一

(3个回答正确,2个部分正确,2个错误)

GPT-4o:正确

通义千问 2.5:错误

GLM-4-0520:正确

智谱清言:部分正确

豆包:正确

文心 4:部分正确

百川 4:错误

多选题二

(2个模型回答部分正确,5个回答错误)

GPT-4o:错误

通义千问 2.5:错误

GLM-4-0520:部分正确

智谱清言:部分正确

豆包:错误

文心 4:错误

百川 4:错误

多选题三

(5个模型回答部分正确,2个回答错误)

GPT-4o:错误

通义千问 2.5:部分正确

GLM-4-0520:部分正确

智谱清言:部分正确

豆包:部分正确

文心 4:部分正确

百川 4:错误

填空题一

(2个模型回答正确,5个回答错误)

GPT-4o:正确

通义千问 2.5:错误

GLM-4-0520:正确

智谱清言:错误

豆包:错误

文心 4:错误

百川 4:错误

填空题二

(1个模型回答正确,6个回答错误)

GPT-4o:错误

通义千问 2.5:错误

GLM-4-0520:正确

智谱清言:错误

豆包:错误

文心 4:错误

百川 4:错误

填空题三

(2个模型回答正确,5个回答错误)

GPT-4o:正确

通义千问 2.5:错误

GLM-4-0520:正确

智谱清言:错误

豆包:错误

文心 4:错误

百川 4:错误


【高考】高考数学一模成绩不好,怎么办。特别是后面的大题

一模而已,不要在意。 只要把该记的公式记住了,剩下的就是题型问题。 现在很多人说题海战术不好,这要看你自己怎么对待。 不可否认题型见得多了,举一反三,做起题来也更轻松。 会的懂的就不用浪费时间多做了,保持、巩固好现在的状态。 多做典型的题,数学题目大多是换汤不换药的。 老师讲解卷子的时候认真听讲,学会方法,考试时不要大意,一般考试时不会有充裕的时间给你检查,一次就做对最好。 希望一模的成绩不会影响你,很多学校的考前一模多比较难。 我考前分数一样不好,结果高考下来成了我们班最黑的一匹黑马!加油!努力就好!

数学五次考试连续89分。这高考算是完了。。。

连续89分,说明你非常的稳定。 再说现在的练习或模拟考试都是比较有难度的。 所以不必灰心,也许高考发挥超常呢,或者刚好今年的高考题目是你的强项,幸运就降临了。 人生不要气馁,更不要灰心,有积极的心态,就会有积极的结果的。 祝你高考成功!望采纳,谢谢

用乐学高考补习高三的课程,真的能提高分数吗?

可以的,前提是学生自己必须保证真的认真学习了。 比如我自己,在乐学高考学习了之后,数学成绩提高了20多分,现在可以考115分,是的我以前数学处于刚刚及格的状态。 重要的是,我感觉我的数学还能继续提高。

  • 声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
  • 本文地址:https://www.srwj168.com.cn/jinrong/30032.html
南财数字金融领航者案例征集 第二届 启动!
可行吗? 先进大学再转专业