人们通过让AI在旋转形状中模拟弹跳的小球来评估其性能
AI 社区通过‘旋转形状中的弹跳球’编程任务测试不同模型的推理能力,揭示了模型在物理模拟和编程任务中的表现差异。DeepSeek R1 在免费模型中表现优异,超越 OpenAI 的付费模型 o1 pro,而 Anthropic 和 Google 的部分模型则出现物理错误。该测试虽非严格基准,但凸显了 AI 模型在复杂编程任务中的潜力与局限,同时反映了当前 AI 评估体系的不足。未来需开发更实用的评估标准,如 ARC-AGI 等,以推动 AI 技术的进一步发展。