阿里通义千问 Qwen 推 CodeElo 基准,OpenAI o1-mini 夺冠超 90% 人类程序员

阿里通义千问 Qwen 推出了 CodeElo 基准测试,利用 Elo 评级系统评估大语言模型(LLM)的编程能力。CodeElo 通过 CodeForces 平台的题目进行测试,确保评估的准确性和全面性。在测试中,OpenAI 的 o1-mini 模型表现最佳,Elo 评分为 1578,超过了 90% 的人类程序员。
来源:AI工具集

来源:AI工具集

Back to top button