11:51 VITA-1.5:开源多模态视频语音大模型 VITA-1.5 是一个开源的多模态视频语音大模型,类似于 GPT-4o,支持实时视频语音交互。它基于 Qwen2.5 模型,具备随时打断的功能。演示视频效果不错,值得一看。佬们可以在VITA-1.5 GitHub 仓库了解更多。 来源:三花快讯
00:00 TangoFlux:极速文本转音频生成模型 TangoFlux 是一个开源的极速文本转音频(TTA)生成模型,在单个 A40 GPU 上仅需 3.7 秒即可生成 30 秒的 44.1kHz 音频。佬友们可以在线体验 看看,速度确实飞快,生成的质量也算还行。 来源:三花快讯
00:00 ebook2audiobook 2.0 发布:全新WebUI与 1000 种语言 知名开源电子书转有声书项目ebook2audiobook 发布了 2.0 版本。新版本支持本地语音克隆与有声书生成,覆盖了 1000 种语言,并配备了全新的 WebUI 界面。 此外,安装脚本也得到了优化,使用更加便捷。想体验新功能的佬友,可以访问在线版本进行试用。 来源:三花快讯
00:00 字节开源 LatentSync:高效口型同步扩散模型 LatentSync 是字节开源的用于口型同步的扩散模型,只需提供角色视频和要同步的音频即可生成。该模型对硬件的要求适中,仅需 6.5 GB 的 GPU 即可运行,适合大多数开发者和研究人员使用。此外,@fffiloni大佬还提供了一个在线演示可以玩一下。 来源:三花快讯
00:00 趣丸科技「天谱乐」开创AI音乐新纪元:全球首个多模态配乐大模型 趣丸科技推出的全球首个多模态配乐大模型“天谱乐”,支持文本、图片和视频生曲,能生成高度匹配的BGM和MV效果。该技术在中文人声唱词上达到专业级效果,减少了电音感,接近音乐发行级别。“天谱乐”已接入唱鸭App,累计创作近1000万首AI歌曲。 来源:AI工具集 来源:AI工具集