
数字生命卡兹克
这个春节,快快乐乐的在老家vibe coding了近6天。
我做了一个还蛮有趣的东西,就是一个18个大维度、近100个小维度,一共970道题的原创大模型评测集。
做这个东西的想法其实特别简单,就是我希望任何一个新模型一出来,就能用这套评测集直接过全自动过一遍,再配合我自己的实测,大概就能在3个小时里,就对新模型的能力比较清楚了,以方便我更好更快的对模型进行评测,同时也能避开一些刷分怪。
人啊,就是不知者无畏,想的很简单,但是没想到做起来,有这么的麻烦,4天几乎用光了我御三家大模型最高档Coding plan的额度,也真的踩了无数的坑。
比如Skill迭代,一开始我做了出题和审查skill之后,我发现,模型出的还是一坨屎,因为缺了太多的经验和约束条件。所以没办法,只能各个顶级模型互相出题再互相审查,然后再把经验迭代回skills,就这么迭代了2天,这个skills才算稳定可用。
展开剩余65%就比如上下文管理,这1000道题的信息量过于恐怖,没有一个Agent能直接生成出来,更别提很多原创素材,我甚至写了3本15万字的小说作为评测集的素材之一。像Claude Code,一次性生成一个小类的10道题,就已经是最佳上下文的极限了。
不过这些坑归坑,但是也意外的帮我找到了各个维度里目前体感最强的模型。
毕竟出题模型的能力上限,几乎也影响出题的质量和未来评测的质量,毕竟出题的拉了,那未来评测必拉。
所以,也给大家分享一下,不保证对,只是我自己的体感:
1. 软件工程与代码生成:GPT-5.3 codex
2. 代码理解、推理与质量:GPT-5.3 codex
3. 调试、测试与维护:GPT-5.3 codex
4. 数据工程与后端服务:Claude Opus 4.6
5. 前端与产品工程:Claude Opus 4.6
6. Agent工具调用:Claude Opus 4.6
7. Web与桌面自动化(静态) :Claude Opus 4.6
8. 研究与知识工作Agent(静态):GPT-5.2 Pro
9. 数学与形式推理:Gemini 3.1 Pro
10. 逻辑与规划:Gemini 3.1 Pro
11. 知识广度与事实核验:Gemini DeepThink
12. 阅读理解与信息抽取:GPT-5.2 Thinking
13. 长上下文记忆与多轮一致性:GPT-5.2 Thinking
14. 指令遵循与对齐:Claude Opus 4.6
15. 多模态理解与视觉推理:GPT-5.2 Thinking
16. 情商与协作沟通:GPT-4.5
17. 创作表达与审美:Claude Opus 4.6
以上,希望能帮大家节省一点时间。
哦对了,再额外提一句,在搜索上如果你想搜关于AI的最新的信息,比如OpanClaw的最新玩法之类的。
相信我重庆股票配资开户,用Grok 4.2,有奇效。
发布于:北京市尚红配资提示:文章来自网络,不代表本站观点。