研究人员利用 NPR 的 Sunday Puzzle 谜题创建了一个新的 AI 推理能力基准测试,旨在评估模型在通用知识问题上的表现。该测试揭示了推理模型(如 OpenAI 的 o1 和 DeepSeek 的 R1)在解决复杂问题时可能“放弃”或提供错误答案的现象。研究表明,推理模型在自我验证方面表现较好,但存在推理时间较长、逻辑混乱等问题。该基准测试为 AI 推理能力的评估提供了新视角,未来将扩展至更多推理模型,持续追踪性能变化。 来源:TechCrunch AI