大语言模型(LLM)编程能力测试

· · 科技·工程

昨晚进行了一场大语言模型(LLM)编程能力测试,比赛链接为 比赛链接。比赛共有 8 道题目,几乎都是 CCF 的历年真题,难度和考点各不相同。值得注意的是,B 题的测试数据存在问题,得 60 分的解法实际上已经是满分解法,但这并不影响最终排名。

为了保证比赛的公平性,所有参与测试的大语言模型都关闭了联网功能。参与测试的模型包括:DeepSeek-R1、ChatGPT-o3、Gimini、豆包、Kimi、文心一言、讯飞星火、腾讯混元、智谱清言(ChatGML)。每个模型有两次机会,取最高分作为最终成绩。

比赛题目如下:

题目来源及难度分布:

最终排名如下(比赛排名页面):

比赛结果显示,各模型的表现差距较大。DeepSeek 以 760 分的高分位居榜首,表现极为亮眼,可以说是 AK 了比赛(B 题测试数据有问题导致不是满分)。 DeepSeek 是唯一一个 AC 了 H 题和 F 题的模型,这两道题也是它与其他模型拉开差距的关键。

ChatGPT 以 615 分位居第二,表现也非常出色,其与 DeepSeek 的分差主要来自于 F 题和 H 题。国内的 Kimi 和豆包也有不错的表现,也获得了较高的分数。

从各题目的得分情况来看:

总体来看,DeepSeek 的表现最为突出,ChatGPT 紧随其后,而国内模型如 Kimi 和豆包也有不错的表现。文心一言则以 320 分位列最后。