考验不了AI了人类的考试 (考验不过关的人)

admin1 3小时前阅读数 10 #财经

2017年5月，事先全球围棋排名第一的柯洁惨败于AlphaGo，在机器能否会比人类更聪慧这个事关全人类尊严的疑问上，我们第一次性性有了一个确定性的答案。

一年前尚且能赢一局的李世石，成为人类棋手在AI背后最后的旭日。

不过，人类擅长寻觅理由，比如将智力转换为更复杂且难以解释的“智慧”，那就显得我们还在赢，还有是更“初级的”赢法。而且作为在智慧这条途径上的先行者，人类可以既做选手又做裁判，给出一套套的测试规范，美其名曰测试AI，AI逾越了人类水平，那是人类推进的科技提高，AI没有逾越人类，那人类再次赢赢赢。

但“青出于蓝而胜于蓝”这件事，尽管人类心愿AI快点做到，可当快到像迎面而来的一阵冰雹猛地砸到脸上时，绝大少数人还是会不顺应到懵逼。

最后，我们轻松地用来测试AI，如今，人类能介上天最难的考试，也行将无法用来考验AI了。

在一个周前，马斯克公布了最新版的Grok-4，这款大模型，用老马的话来说，“比一切范围的博士都聪慧”。

而其在各项考试中的效果，可以说是怪物般的存在：

我们比拟熟习的SAT和GRE考试简直满分，不太熟习但更难的考试，GPQA（研讨生水平问答）准确率为88.9%，AIME25（美国数学约请赛）准确率为100%，USAMO25（美国数学奥林匹克竞赛）准确率为61.9%。

最有目共睹的是“人类最后的考试”（Humanity’s Last Exam，简称“HLM”），听这个名字，大家就能知道它代表的意思。

这个考试是由Scale AI 和 Center for AI Safety（CAIS）公布的，包括3000个高难度的疑问，触及逾越100个学科，标题来自数百位不同范围的专家，可以说，这套试题涵盖了人类智力义务中最具应战性的部分，足以用来权衡AI能否具有“类人自动”。

其中标题分为两类，一类是简答题（Exact-Match Questions），要求输入一个完全婚配的字符串作为答案，另一类是选择题（Multiple-Choice Questions），要求从五个或更多选项中选择一个正确答案。

不过，前者占到了80%，而且数学相关的标题占到了一切疑问的42%，所以不要指望碰运气能刷出高分。

听说，以普通人的水平，大约能答对5%的标题，而事先的大模型也纷繁折戟，没有一个能逾越10%。你问人类最多能打多少分？这不关键，反正标题也是人类出的。

但Grok-4的发生，却让AI经过“人类最后的考试”的时期大大缩短了，抵达了50.7%的准确率，成为首个打破50%的大模型。

这个分数，高的惊人，但由于考试的难渡过大，距离大家的生活又太远，所以很难直观的说明有多难得，不过好在，后来笔者找到了一个差不多一切中国人都能了解的参考系。

在Grok-4公布的差不多同一时期，上海交大结合深势科技团队，经常经常使用 DeepSeek-R1-0528 作为驱动自动体的推理模型，在“人类最后的考试”上拿下了32.1%的新纪录，可以说代表着国际大模型的最高水平。（尽管立刻就被赶超了）

而大约一两周之前，国际的大模型正在群体测试另一套“国民考试”——高考试题。

比如，字节跳动Seed 团队就用最新推出的通用模型 Seed1.6 对2025年山东卷高考真题（标题源自网络）启动测试，语数外采纳新课标全国Ⅰ卷，其他科目为山东省自主命题，满分750分，并找来了两位来自重点高中、有联考判卷阅历的高中教员启动匿名评价和多轮质检。

最终，Seed1.6 无文科和文科区分考取了648和683的高分，这个分数在山东省区分是4005名和211名，文科效果可以冲击武汉大学，稳妥些也能去华中科技大学；而文科效果，更是有掌握冲击清北，保底也能去上海交大和复旦大学。作为参照的 DeepSeek-R1-0528 ，文科和文科区分考取了615和631，上到985（普通名校除外）下到211也是选择多多。（排名信息及志愿引见来源：在线）

也有媒体用国产大模型测试了下高考辽宁卷，显示腾讯元宝（混元T1）文科卷的分数还要更胜一筹，笔者查询了下，其文科效果排到了全省第11名，属于是清北招生办争相打电话，文科效果就逊色多了，但上个985还是没疑问的。至于DeepSeek，大致是冲击985保底211的水平。

所以，以高考试卷为规范，那么DeepSeek和豆包、混元间几十分的差距，是考上985和考上清北的差距；而以HLM为规范，DeepSeek和 Grok-4 差了靠近40%的分值……

“比一切范围的博士都聪慧”的真假还不确定，但在刚刚高考完的这一届高三考生中，文科效果能逾越AI的真的不多了。也许下一年，大模型们的高考效果，就要彻底吊打人类考生了，能考上清北的人被称为天分，但天分努力跨过的门槛，只是AI的保底志愿。

但我更偏向于以为，就像人们对AI在围棋范围对人类的碾压再无兴味普通，高考，还有其他人类能介入的考试，包括“人类最后的考试”，最终都会出现AI一边倒的相对优点，致使于让人习以为常。

或许到时辰，人类会制定新的考试，但不再思索将人类和AI启动对比，而是AI之间地道的竞赛；也或许将不存在这样的考试或许变得很少，人们将更关注AI的运转落地和性价比，毕竟人类也好，AI也好，考试都只是环节之一，发明出价值才是最终的目的和结果。

不过到那时，人类在智慧上的优越感，又要靠什么来维持呢？

人工智能取代了人类任务岗位，人类会消亡吗？

不会。未来我们的任务不会被AI取代。首先，AI的保养者是人，它终究是人类所发明出来的产物，AI程序的保养也都是由人类去保养的，失去了人类的保养，哪怕AI它能自我保养、修复和更新，也无法能做到十全十美，这也得由人类去做引导，AI没有感情，没有思索才干，有的只是算法和数据，从这一点上，AI比不过人类。其次，AI取得的东西，都是人类提供的，从算法的运算技巧，到音乐或许插图的识别和改动，都是在人类原先的知识基础上树立的，假设由于AI取代人类，人类丢弃了消费力，那么AI只能坚持在这个阶段，人类和AI永远无法提高，由于AI失去了发明、创新的营养和根基，失去了这些，在AI抵达发明力的极限后，它什么都不是，它就成了用来分配消费资料的工具。三是AI是服务人类的工具。我们智能生活的服务，如今曾经有很多AI的影子的，但是，它终究是工具，经常使用者是人，AI再怎样开展，也无法能、也不能替代和开展人类文明的，若真如有人说的，AI能取代人类，那么，我们要求让它开展到可以思索的境地。因此，AI取代不了人类，AI的开展取决于人类，有或许一些人会应用AI做一些不好的事情。

人工智能考高数仅得81分！初等数学有多难？

引言：初等数学的难可以经过在校生的挂科率和AI机器人的数学考试效果来表现。关于初等数学，很多大在校生都表示十分难。每年都会有很多在校生在初等数学考试中挂科。在一切学科中，初等数学的挂科率是很高的。自从AI机器人被制造出来以后，很多迷信家都尝试让AI机器人应战数学考试。但是，AI机器人的数学考试效果不时不太理想。依据相关实验，AI机器人的数学考试效果最低是20多分。经过两个方面，想必大家曾经了解了初等数学有多难。

人工智能考高数能得81分，都是由于一项新技术。在众多机器人应战数学考试的实验中，只要麻省理工的迷信家取得了庞大的成功。依据相关信息，了解成功的关键在三个方面。第一个方面就是先让AI机器人在文本上做预训练。第二个方面就是用代码把标题启动微调。最后一个方面就是把数学疑问转换成编程疑问。经过这三个步骤，AI机器人在数学考试上取得了81分的高分。

关于初等数学的考试，人类可以取得满分，但是人工智能取得的最高分是81分。这也说明了人类和人工智能还是有很大区别的。有些方面，人工智能可以取代人类，但是有些方面，人工智能不能取代人类。人工智能毕竟是由人类发明的。只要经过人类的研讨发明，人工智能才干不时地退化。人工智能取得81分的实验标明，这项技术可以运用到实践教学中。在初等数学方面，这是一个十分大的成就。

很多人觉得初等数学难，其实是由于没有掌握学习方法。要想学好初等数学，要留意四个方面。第一个方面就是要实行“学、思、习”的学习形式。第二个方面就是打牢基础，墨守成规。第三个方面就是归类总结，第四个就是无看法的提高学习效率。