即使是某些顶尖的AI也无法战胜这一新基准

非营利组织 CAIS 与 Scale AI 联合推出新型 AI 基准测试 ‘Humanity’s Last Exam’,涵盖数学、人文、自然科学等多领域,包含图文混合题型。初步测试显示,现有主流 AI 系统得分均低于 10%。该基准旨在推动 AI 在多模态理解与复杂推理能力上的突破,为研究社区提供深度评估工具,助力前沿 AI 模型发展。

来源:TechCrunch AI

Back to top button