即使是某些顶尖的AI也无法战胜这一新基准

非营利组织 CAIS 与 Scale AI 联合推出新型 AI 基准测试 ‘Humanity’s Last Exam’，涵盖数学、人文、自然科学等多领域，包含图文混合题型。初步测试显示，现有主流 AI 系统得分均低于 10%。该基准旨在推动 AI 在多模态理解与复杂推理能力上的突破，为研究社区提供深度评估工具，助力前沿 AI 模型发展。

来源：TechCrunch AI