人们通过让AI在旋转形状中模拟弹跳的小球来评估其性能

AI 社区通过‘旋转形状中的弹跳球’编程任务测试不同模型的推理能力，揭示了模型在物理模拟和编程任务中的表现差异。DeepSeek R1 在免费模型中表现优异，超越 OpenAI 的付费模型 o1 pro，而 Anthropic 和 Google 的部分模型则出现物理错误。该测试虽非严格基准，但凸显了 AI 模型在复杂编程任务中的潜力与局限，同时反映了当前 AI 评估体系的不足。未来需开发更实用的评估标准，如 ARC-AGI 等，以推动 AI 技术的进一步发展。

来源：TechCrunch AI