AI新闻 – AI 知识共创 – AiCC AI Creative Commons

1月 7日

1 条新闻

11:51

VITA-1.5：开源多模态视频语音大模型

VITA-1.5 是一个开源的多模态视频语音大模型，类似于 GPT-4o，支持实时视频语音交互。它基于 Qwen2.5 模型，具备随时打断的功能。演示视频效果不错，值得一看。佬们可以在VITA-1.5 GitHub 仓库了解更多。

1月 6日

3 条新闻

00:00

TangoFlux 是一个开源的极速文本转音频（TTA）生成模型，在单个 A40 GPU 上仅需 3.7 秒即可生成 30 秒的 44.1kHz 音频。佬友们可以在线体验看看，速度确实飞快，生成的质量也算还行。

00:00

知名开源电子书转有声书项目ebook2audiobook 发布了 2.0 版本。新版本支持本地语音克隆与有声书生成，覆盖了 1000 种语言，并配备了全新的 WebUI 界面。

此外，安装脚本也得到了优化，使用更加便捷。想体验新功能的佬友，可以访问在线版本进行试用。

00:00

LatentSync 是字节开源的用于口型同步的扩散模型，只需提供角色视频和要同步的音频即可生成。该模型对硬件的要求适中，仅需 6.5 GB 的 GPU 即可运行，适合大多数开发者和研究人员使用。此外，@fffiloni大佬还提供了一个在线演示可以玩一下。

12月 31日

1 条新闻

00:00

趣丸科技推出的全球首个多模态配乐大模型“天谱乐”，支持文本、图片和视频生曲，能生成高度匹配的BGM和MV效果。该技术在中文人声唱词上达到专业级效果，减少了电音感，接近音乐发行级别。“天谱乐”已接入唱鸭App，累计创作近1000万首AI歌曲。
来源：AI工具集