大语言模型(LLM)编程能力测试
lichenzhen · · 科技·工程
昨晚进行了一场大语言模型(LLM)编程能力测试,比赛链接为 比赛链接。比赛共有
为了保证比赛的公平性,所有参与测试的大语言模型都关闭了联网功能。参与测试的模型包括:DeepSeek-R1、ChatGPT-o3、Gimini、豆包、Kimi、文心一言、讯飞星火、腾讯混元、智谱清言(ChatGML)。每个模型有两次机会,取最高分作为最终成绩。
比赛题目如下:
题目来源及难度分布:
- A 题为洛谷月赛真题 入门
- B 题为 CSP-J 2022 T2 普及-
- C 题为 CSP-X 2019 T4 普及-
- D 题为 NOIP 2009 提高组 D1T1 普及-
- E、G 题为 GESP 七级真题 普及/提高-
- F 题为 CSP-X 2023 真题 普及/提高-
- H 题为 CSP-J 2022 T4 普及+/提高
最终排名如下(比赛排名页面):
比赛结果显示,各模型的表现差距较大。DeepSeek 以
ChatGPT 以
从各题目的得分情况来看:
- A、C 题较为简单,所有模型均 AC 了这两道题。
- D 题除了星火和 Gemini 得了
40 分外,其余模型均 AC。 - E、G 题各有
3 个模型通过,但 G 题的得分率和平均分更高。 - F、H 题仅有 DeepSeek AC,但得分率整体较高。
- B 题有
5 个模型 AC,但由于测试数据问题,没有模型获得满分。
总体来看,DeepSeek 的表现最为突出,ChatGPT 紧随其后,而国内模型如 Kimi 和豆包也有不错的表现。文心一言则以