这些研究人员使用NPR周日谜题问题来评估AI“推理”模型

研究人员利用 NPR 的 Sunday Puzzle 谜题创建了一个新的 AI 推理能力基准测试，旨在评估模型在通用知识问题上的表现。该测试揭示了推理模型（如 OpenAI 的 o1 和 DeepSeek 的 R1）在解决复杂问题时可能“放弃”或提供错误答案的现象。研究表明，推理模型在自我验证方面表现较好，但存在推理时间较长、逻辑混乱等问题。该基准测试为 AI 推理能力的评估提供了新视角，未来将扩展至更多推理模型，持续追踪性能变化。

来源：TechCrunch AI