重庆股票配资开户春节6天，我找到了各个领域最强的大模型。

数字生命卡兹克

这个春节，快快乐乐的在老家vibe coding了近6天。

我做了一个还蛮有趣的东西，就是一个18个大维度、近100个小维度，一共970道题的原创大模型评测集。

做这个东西的想法其实特别简单，就是我希望任何一个新模型一出来，就能用这套评测集直接过全自动过一遍，再配合我自己的实测，大概就能在3个小时里，就对新模型的能力比较清楚了，以方便我更好更快的对模型进行评测，同时也能避开一些刷分怪。

人啊，就是不知者无畏，想的很简单，但是没想到做起来，有这么的麻烦，4天几乎用光了我御三家大模型最高档Coding plan的额度，也真的踩了无数的坑。

比如Skill迭代，一开始我做了出题和审查skill之后，我发现，模型出的还是一坨屎，因为缺了太多的经验和约束条件。所以没办法，只能各个顶级模型互相出题再互相审查，然后再把经验迭代回skills，就这么迭代了2天，这个skills才算稳定可用。

展开剩余65%

就比如上下文管理，这1000道题的信息量过于恐怖，没有一个Agent能直接生成出来，更别提很多原创素材，我甚至写了3本15万字的小说作为评测集的素材之一。像Claude Code，一次性生成一个小类的10道题，就已经是最佳上下文的极限了。

不过这些坑归坑，但是也意外的帮我找到了各个维度里目前体感最强的模型。

毕竟出题模型的能力上限，几乎也影响出题的质量和未来评测的质量，毕竟出题的拉了，那未来评测必拉。

所以，也给大家分享一下，不保证对，只是我自己的体感：

1. 软件工程与代码生成：GPT-5.3 codex

2. 代码理解、推理与质量：GPT-5.3 codex

3. 调试、测试与维护：GPT-5.3 codex

4. 数据工程与后端服务：Claude Opus 4.6

5. 前端与产品工程：Claude Opus 4.6

6. Agent工具调用：Claude Opus 4.6

7. Web与桌面自动化(静态) ：Claude Opus 4.6

8. 研究与知识工作Agent(静态)：GPT-5.2 Pro

9. 数学与形式推理：Gemini 3.1 Pro

10. 逻辑与规划：Gemini 3.1 Pro

11. 知识广度与事实核验：Gemini DeepThink

12. 阅读理解与信息抽取：GPT-5.2 Thinking

13. 长上下文记忆与多轮一致性：GPT-5.2 Thinking

14. 指令遵循与对齐：Claude Opus 4.6

15. 多模态理解与视觉推理：GPT-5.2 Thinking

16. 情商与协作沟通：GPT-4.5

17. 创作表达与审美：Claude Opus 4.6

以上，希望能帮大家节省一点时间。

哦对了，再额外提一句，在搜索上如果你想搜关于AI的最新的信息，比如OpanClaw的最新玩法之类的。

相信我重庆股票配资开户，用Grok 4.2，有奇效。

发布于：北京市

尚红配资提示：文章来自网络，不代表本站观点。

重庆股票配资开户春节6天，我找到了各个领域最强的大模型。

配资开户平台滚滚长江东逝水，浪花淘尽英雄，临江仙究竟有多通透？

配资炒股网站平台迪拜地狱监狱：20人一间牢房，强奸是家常便饭，囚犯被电击

广州配资公司 1943年，女共产党被日军俘虏后进慰安所，一伪军说：三天后救你

股票入门网股票马竞在欧冠单赛季已丢27球，是1965年以来晋级四强球队最多

正规网上实盘配资 70岁李雪健片场突然咳血！抗癌24年声音沙哑到字幕辅助，为何死拒配音？

配资网站平台 15艘美军舰封锁霍尔木兹，伊朗亮出战损数据，全球能源命脉一触即发

杭州股票配资公司知假买假索赔可行吗？“消费欺诈”这样认定

股票配资官网怎么看【视频】著名学者高志凯：作为两个核大国，中美不会爆发“热战”

广州配资公司禾川科技现2笔大宗交易合计成交40.00万股

广州配资公司中央统战部副部长陈瑞峰已任国家民委党组书记

广州配资公司招生资料安全吗？教培机构必备防泄密方案

股票配资论坛哪里找罗塞尼尔：巴黎把握机会能力非常出色，这是我们需要达到的水平

广州配资公司哥伦比亚政府宣布禁止向以色列出口煤炭

个人配资炒股配资达沃斯论坛上火药桶炸了，泽连斯基嘴炮惹众怒，欧尔班放话100年封杀乌克兰，欧盟内部裂痕公开化

配资开户平台 滚滚长江东逝水，浪花淘尽英雄，临江仙究竟有多通透？

配资炒股网站平台 迪拜地狱监狱：20人一间牢房，强奸是家常便饭，囚犯被电击

广州配资公司 1943年，女共产党被日军俘虏后进慰安所，一伪军说：三天后救你

配资开户平台滚滚长江东逝水，浪花淘尽英雄，临江仙究竟有多通透？

配资炒股网站平台迪拜地狱监狱：20人一间牢房，强奸是家常便饭，囚犯被电击