大语言模型（LLM）编程能力测试

lichenzhen · 2025-02-07 12:54:14 · 科技·工程

昨晚进行了一场大语言模型（LLM）编程能力测试，比赛链接为比赛链接。比赛共有 8 道题目，几乎都是 CCF 的历年真题，难度和考点各不相同。值得注意的是，B 题的测试数据存在问题，得 60 分的解法实际上已经是满分解法，但这并不影响最终排名。

为了保证比赛的公平性，所有参与测试的大语言模型都关闭了联网功能。参与测试的模型包括：DeepSeek-R1、ChatGPT-o3、Gimini、豆包、Kimi、文心一言、讯飞星火、腾讯混元、智谱清言（ChatGML）。每个模型有两次机会，取最高分作为最终成绩。

比赛题目如下：

题目来源及难度分布：

最终排名如下（比赛排名页面）：

比赛结果显示，各模型的表现差距较大。DeepSeek 以 760 分的高分位居榜首，表现极为亮眼，可以说是 AK 了比赛（B 题测试数据有问题导致不是满分）。 DeepSeek 是唯一一个 AC 了 H 题和 F 题的模型，这两道题也是它与其他模型拉开差距的关键。

ChatGPT 以 615 分位居第二，表现也非常出色，其与 DeepSeek 的分差主要来自于 F 题和 H 题。国内的 Kimi 和豆包也有不错的表现，也获得了较高的分数。

从各题目的得分情况来看：

总体来看，DeepSeek 的表现最为突出，ChatGPT 紧随其后，而国内模型如 Kimi 和豆包也有不错的表现。文心一言则以 320 分位列最后。