00:00
大模型的2024年:我们对AI的发展脱敏了
2024年AI领域发展迅速,大模型更实用但不再惊艳,端侧模型和混合专家技术(MoE)降低成本,多模态研究成新方向。AI搜索、语音交互、视频技术商业化挑战中前行,AI Agent开发门槛降低。AI硬件百花齐放,AI眼镜异军突起。AI游戏从辅助工具成为游戏一部分。中国AI人才梯队规模质量仅次于美国,期待在AI浪潮中领先。
来源:新硅NewGeek
来源:新硅NewGeek
来源:AI工具集
来源:AI工具集
来源:AI工具集
来源:AI工具集
用户只需输入描述,即可生成一段运动姿势视频。目前,该模型已完全开源,支持多模态输入进行控制。你们可以在在线演示亲自体验一下。
来源:三花快讯
新版本在 GUI 感知、推理预测准确性、动作空间完善性以及任务的普适和泛化性上都有大幅进步。
此外,CogAgent 能够处理中英文双语的屏幕截图和语言交互,极大地扩展了其应用范围。官方演示中,展示了如何在 MacOS 上自动调用微信给朋友发消息以及通过邮箱发送邮件。不过,目前的操作速度还比较慢,且需要提前为 AI 打开相关窗口,在 AI 操作过程中人类无法介入。
来源:三花快讯
在 AndroidWorld 基准测试中以 44.8% 的成功率排名第一。
官方提供了一个在线演示,确实速度挺快的,不过该技术是底层模型,没有封装成可交互的应用。
来源:三花快讯
官方还演示了将生成的视频在 Apple Vision Pro 中播放的效果,展示了其在实际应用中的潜力。该模型现已在 Hugging Face 上开放,感兴趣的朋友可以亲自跑一下。
来源:三花快讯
来源:AI Base
来源:AI Base
来源:AI工具集
来源:AI工具集
来源:AI工具集
来源:AI工具集
来源:AI工具集
来源:AI工具集