Audio priscos illos viros probos atque sapientes, die Iovis — quartus is hebdomadis dies habetur — pecuniam suam in plebem erogasse, ne quis egestate premeretur. Pullum aureum alienis pueris donasse, quod et suus puer hoc cibo delectaretur; aquam nigram dulcem aliis senibus praebuisse, quod suus quoque senex eam libenter hauriret. O priscam virtutem! O sapientiam maiorum! Si quidem tales sint viri, ut quisque quinquaginta sestertios alteri det, omnes carnem vescentur, civitas concordia florebit. O vere sapientes! 27 个帖子 - 27 位参与者 阅读完整话题
我今天有个项目要用到语音克隆转台词,我找到了一个母版。然后从早上测到现在。在MINIMAX充了会员调用API,然后就一天的时间,我试用了有二三十次吧。我充的会员就没钱了给我干成负数了,并且出来的效果真的拉中之拉,(他根本没有客服,所有加入群的全是吐槽的)然后我又让CODEX(推荐和这模型一样拉中之拉)和CLAUDE(推荐Fish)分别推荐最后找到,完美解决。各位佬大们,用MINIMAX之前一定要测测。全是血泪啊我充的声贝还不能算余额。有需要的佬友免费送声贝,CALL我即可。还有10W额度,我要和MINIMAX说白白了。 5 个帖子 - 4 位参与者 阅读完整话题
AudioMass 是一款免费、开源、完全运行在浏览器里的音频编辑工具。不用下载、不用安装,无后台服务,打开网页就能直接处理音频文件,所有操作都在本地浏览器完成。核心 JS 文件只有 100KB 大小。@Appinn AudioMass 主要功能 AudioMass 可以直接在音轨中录音、导入现有音
IT之家 5 月 20 日消息,据外媒 TechCrunch 今晚报道,AI 初创公司 Stability AI 推出全新音频生成模型家族 Stability Audio 3.0,其顶级版本据称可生成长达 六分钟以上的专业级音乐 。 Stability AI 此次共推出了四款不同规格的模型,分别为:45900 万参数的小型 XFS 与小型版、14 亿参数的中型版,以及 27 亿参数的大型版。其中,两款小型模型专注于设备端运行, 可本地生成两分钟以内的声音与音乐 。 中型和大型模型则展现出更强的架构控制力,能够创作长达 6 分钟 20 秒的完整乐曲 ,并精准维持音乐结构与旋律基调。这一长度与 2024 年该公司推出的 Stable Audio 2.0 相比,实现了 翻倍以上的跨越 。 为了回馈开源社区,Stability AI 已将 小型 SFX、小型及中型模型开源 ,公众可以自由下载并修改权重。不过,最顶尖的大型模型目前仅通过 API 与付费托管服务提供,且年营收超过 100 万美元(IT之家注:现汇率约合 682.1 万元人民币)的企业必须购买商业授权。 为了规避合规风险,Stability AI 在去年就已同 华纳音乐集团、环球音乐集团 达成深度合作。该公司强调,此次推出的最新音频模型全量基于 合法授权的数据集 训练而成。 Stability AI 目前正紧锣密鼓地为专业音乐人打造一套全新产品线,不过尚未公布具体功能细节。为了推进该项目,曾先后担任环球音频与芬达首席数字官的伊桑 · 卡普兰已正式加盟,负责领衔专业音乐产品业务。
我使用 m4 的 mba 15 系统,无论是内建麦克风和扬声器,还是外接的有线小型麦克风和有线 bose soundlink ,都会出现录音中,对方声音有种空洞感,请大佬查看下流程图,是否妥当,增添适当的模块能够改善? 由于用内建麦克风时,录制后我的声音非常的小,哪怕调大麦克风音量等级等都不行,但是如果通话结束,记录录制我的声音就非常正常,AI 说是 mba 和 macOS 的机制原因,貌似没给出好的办法。自己摸索增加了两个 magic boost 之类,要改善许多,这个是否有可优化的地方? 烦请大佬指点迷津,谢谢。 https://i.imgur.com/69p6TQr.png https://i.imgur.com/rAx1w9a.png
A short-form video generator where video and audio come out of a single generation pass, instead of needing a separate sound step. Text-to-video and Image-to-video Omni Reference: up to 9 reference images, 3 reference videos, 3 reference audio clips for style/character/voice anchoring Synced audio generated together with video — dialogue, ambience, foley line up on the first export 5s / 8s / 10s clips, 16:9 / 9:16 / 1:1 480P and 720P, Fast and Pro modes Typical generation time 30–90s Free credits on signup: https://geminiomni.org Happy to take questions about how the reference inputs work or what the output looks like in practice.
IT之家 5 月 9 日消息,阶跃星辰昨晚发布了新一代实时语音大模型 StepAudio 2.5 Realtime,目前已全量上线,开发者可通过阶跃星辰开放平台接入使用。 该模型定位于打造更具“活人感”的 AI 对话体验,重点围绕副语言感知、人设自定义与对话能力三个方向进行技术升级。 IT之家从官方获悉,StepAudio 2.5 Realtime 的核心突破在于其对“副语言”信息的处理能力。所谓副语言,指的是语调、语速、停顿乃至一声叹息或轻笑等文字以外的表达方式,这些细节恰恰是人类情感传递的主要载体。模型通过对这些元素的解读,可以感知对话者的情绪状态与潜在意图,比如从低沉的声线中察觉疲惫,或是从急促的语气里识别出烦躁情绪,并据此动态调整回应的语气与策略,旨在降低交互的生硬感,使其更像与真人交谈。 在人设灵活性方面,StepAudio 2.5 Realtime 将定义权完全交给用户。开发者可以通过 API,从性格特质、背景经历、个人好恶到语言习惯与对话边界,对 AI 角色进行精细化调节。这一能力的背后,是模型基于超过 10,000 个高质量原生人设,通过算法裂变生成的百万级人设特征矩阵,并结合海量真实场景对话语料训练而来。针对深度角色扮演中常见的“人设崩塌”痛点,开发团队进行了专门的 RLHF(基于人类反馈的强化学习)对齐优化。据官方介绍,即使在极端情境的压力测试下,模型依然能保持高度稳定、可信的角色一致性。同时,该模型也内置了 5 个预设人设供用户直接选择体验。 在整体对话能力上,该模型强调智商与情商的双重跃升。除了深度理解复杂语义、应对抛梗接梗等交流场景,模型还能灵活调用多领域知识以提供更深度的对话体验,在应用中既可扮演提供情绪价值的聊天搭子,也能模拟专业 HR 进行面试等严肃场景。 根据官方发布的 2026 年 4 月评测数据,该模型在五个测试维度中均位列第一。其中最能反映真实体验的主观评测(手机 App 真人对话打分)得分 80.41,高于 GPT-Realtime-1.5 的 68.01 和 Gemini Live 的 67.16;语音问答基准得分为 79.80,约为 GPT-Realtime-1.5 的 1.5 倍。
阶跃星辰发布 StepAudio 2.5 ASR 自动语音识别模型:推理速度提升 400%,定价骤减 90% - IT之家 1 个帖子 - 1 位参与者 阅读完整话题
IT之家 4 月 24 日消息,阶跃星辰今日宣布推出新一代自动语音识别模型 StepAudio 2.5 ASR。 该模型的核心突破在于率先将大语言模型的推理加速技术引入语音识别领域,在推理速度与转写精度两个维度均有显著提升,主要面向会议转写、语音交互、输入法、媒体内容处理、长音频识别等场景。 传统语音识别模型受限于自回归生成机制,需要逐个 Token 依次输出,效率较低。StepAudio 2.5 ASR 采用 ASR+MTP-5 深度融合架构,将此前应用在 Step 3.5 Flash 大模型上的 MTP(IT之家注:多 Token 预测)技术移植至语音识别领域。该技术使模型能够一次预测多个候选 Token,并通过并行验证机制快速确认结果,打破了传统自回归机制逐个输出的效率瓶颈。 实测数据显示,模型推理速度提升 400%、时延降低 60%,推理峰值达 500 tokens/s,推理成本直降 80%。以 5 分钟左右的音视频为例,几乎可以实现即时转写。 在转写精度方面,StepAudio 2.5 ASR 在覆盖新闻播报、会议访谈及强噪声环境的多个中英文权威测试集上,综合转写精度达到业内 SOTA 水准。在 LibriSpeech 等中英文 10 个权威开源测试集上的综合错误率均低于竞品。 针对长音频处理这一语音识别领域的长期痛点,行业内通常依赖“切片-转写-拼接”方案,即把音频切成若干小段分别识别再合并,但这种方式容易造成上下文信息割裂 —— 模型在转写后半段内容时,可能已经“忘记”了开头信息。StepAudio 2.5 ASR 复用了大语言模型原生的 32K 上下文窗口能力,支持端到端一次性读入最长 30 分钟的连续音频,无需分段切割。在 30 分钟满载输入测试中,模型没有出现随时间推移精度衰减的情况。 定价方面,StepAudio 2.5 ASR 仅为 0.15 元 / 小时,约为此前 Step ASR 2 的十分之一。目前,该模型已全量上线阶跃星辰开放平台和 Step Plan,开发者可通过官网体验使用。 相关阅读: 《 人人都能是配音导演,阶跃星辰发布语音生成模型 StepAudio 2.5 TTS 》 参考资料: 阶跃星辰开放平台: https://platform.stepfun.com/docs/zh/guides/models/stepaudio-2.5-asr Step Plan: https://platform.stepfun.com/docs/zh/step-plan/integrations/audio-api 体验中心: https://www.stepfun.com/studio/audio ?tab=speech-recognition Demo Page: https://stepaudiollm.github.io/step-audio-2.5-asr/ Model Card: https://stepaudiollm.github.io/step-audio-2.5-asr/model-card/
去年从 Plex 迁移到了 Audiobookshelf ,找了一圈没有找到自己满意的客户端。主要是现有的 App 功能设计对我来说有些复杂,UI 也不够简洁。所以决定自己开发一款,经过几个月的打磨,我觉得已经达到了我心中理想的样子,所以分享一下。 关于设计 我个人非常喜欢 Apple 自家 App 的风格,所以希声 (Still) 在设计上遵循 Apple 的设计规范,UX 细节上参考了 Books / Podcasts / Music. 名字来源于《道德经》里的“大音希声”。 核心功能 有声书与播客 沉浸、极简的播放界面 跨设备实时同步收听进度 下载到本地,随时随地离线畅听 接下来播放队列,连续播放不间断 睡眠定时、倍速与音量增强一应俱全 自动跳过片头片尾,为你省时间 支持主屏幕小组件与车载 CarPlay 电子书 支持 EPUB 、PDF 、CBZ 格式 自定义排版(字号、字体与间距) 多种阅读主题模式随心切换 跨设备实时同步阅读进度 更多 自定义首页版块排序 OIDC 单点登录 (SSO) Custom Header 支持 多服务器/账号切换 下载 App Store 搜索「希声」「 Still 」 或者直接访问链接: https://apps.apple.com/cn/app/%E5%B8%8C%E5%A3%B0-%E4%B8%BA-audiobookshelf-%E6%89%93%E9%80%A0/id6754208326 说明: 希声本身不提供任何媒体内容,需要自行搭建 Audiobookshelf 服务端使用。详情: https://www.audiobookshelf.org
去年从 Plex 迁移到了 Audiobookshelf ,找了一圈没有找到自己满意的客户端。主要是现有的 App 功能设计对我来说有些复杂,UI 也不够简洁。所以决定自己开发一款,经过几个月的打磨,我觉得已经达到了我心中理想的样子,所以分享一下。 关于设计 我个人非常喜欢 Apple 自家 App 的风格,所以希声 (Still) 在设计上遵循 Apple 的设计规范,UX 细节上参考了 Books / Podcasts / Music. 名字来源于《道德经》里的“大音希声”。 核心功能 有声书与播客 沉浸、极简的播放界面 跨设备实时同步收听进度 下载到本地,随时随地离线畅听 接下来播放队列,连续播放不间断 睡眠定时、倍速与音量增强一应俱全 自动跳过片头片尾,为你省时间 支持主屏幕小组件与车载 CarPlay 电子书 支持 EPUB 、PDF 、CBZ 格式 自定义排版(字号、字体与间距) 多种阅读主题模式随心切换 跨设备实时同步阅读进度 更多 自定义首页版块排序 OIDC 单点登录 (SSO) Custom Header 支持 多服务器/账号切换 下载 App Store 搜索「希声」「 Still 」 或者直接访问链接: https://apps.apple.com/cn/app/%E5%B8%8C%E5%A3%B0-%E4%B8%BA-audiobookshelf-%E6%89%93%E9%80%A0/id6754208326 说明: 希声本身不提供任何媒体内容,需要自行搭建 Audiobookshelf 服务端使用。详情: https://www.audiobookshelf.org
去年从 Plex 迁移到了 Audiobookshelf ,找了一圈没有找到自己满意的客户端。主要是现有的 App 功能设计对我来说有些复杂,UI 也不够简洁。所以决定自己开发一款,经过几个月的打磨,我觉得已经达到了我心中理想的样子,所以分享一下。 关于设计 我个人非常喜欢 Apple 自家 App 的风格,所以希声 (Still) 在设计上遵循 Apple 的设计规范,UX 细节上参考了 Books / Podcasts / Music. 名字来源于《道德经》里的“大音希声”。 核心功能 有声书与播客 沉浸、极简的播放界面 跨设备实时同步收听进度 下载到本地,随时随地离线畅听 接下来播放队列,连续播放不间断 睡眠定时、倍速与音量增强一应俱全 自动跳过片头片尾,为你省时间 支持主屏幕小组件与车载 CarPlay 电子书 支持 EPUB 、PDF 、CBZ 格式 自定义排版(字号、字体与间距) 多种阅读主题模式随心切换 跨设备实时同步阅读进度 更多 自定义首页版块排序 OIDC 单点登录 (SSO) Custom Header 支持 多服务器/账号切换 下载 App Store 搜索「希声」「 Still 」 或者直接访问链接: https://apps.apple.com/cn/app/%E5%B8%8C%E5%A3%B0-%E4%B8%BA-audiobookshelf-%E6%89%93%E9%80%A0/id6754208326 说明: 希声本身不提供任何媒体内容,需要自行搭建 Audiobookshelf 服务端使用。详情: https://www.audiobookshelf.org
去年从 Plex 迁移到了 Audiobookshelf ,找了一圈没有找到自己满意的客户端。主要是现有的 App 功能设计对我来说有些复杂,UI 也不够简洁。所以决定自己开发一款,经过几个月的打磨,我觉得已经达到了我心中理想的样子,所以分享一下。 关于设计 我个人非常喜欢 Apple 自家 App 的风格,所以希声 (Still) 在设计上遵循 Apple 的设计规范,UX 细节上参考了 Books / Podcasts / Music. 名字来源于《道德经》里的“大音希声”。 核心功能 有声书与播客 沉浸、极简的播放界面 跨设备实时同步收听进度 下载到本地,随时随地离线畅听 接下来播放队列,连续播放不间断 睡眠定时、倍速与音量增强一应俱全 自动跳过片头片尾,为你省时间 支持主屏幕小组件与车载 CarPlay 电子书 支持 EPUB 、PDF 、CBZ 格式 自定义排版(字号、字体与间距) 多种阅读主题模式随心切换 跨设备实时同步阅读进度 更多 自定义首页版块排序 OIDC 单点登录 (SSO) Custom Header 支持 多服务器/账号切换 下载 App Store 搜索「希声」「 Still 」 或者直接访问链接: https://apps.apple.com/cn/app/%E5%B8%8C%E5%A3%B0-%E4%B8%BA-audiobookshelf-%E6%89%93%E9%80%A0/id6754208326 说明: 希声本身不提供任何媒体内容,需要自行搭建 Audiobookshelf 服务端使用。详情: https://www.audiobookshelf.org
去年从 Plex 迁移到了 Audiobookshelf ,找了一圈没有找到自己满意的客户端。主要是现有的 App 功能设计对我来说有些复杂,UI 也不够简洁。所以决定自己开发一款,经过几个月的打磨,我觉得已经达到了我心中理想的样子,所以分享一下。 关于设计 我个人非常喜欢 Apple 自家 App 的风格,所以希声 (Still) 在设计上遵循 Apple 的设计规范,UX 细节上参考了 Books / Podcasts / Music. 名字来源于《道德经》里的“大音希声”。 核心功能 有声书与播客 沉浸、极简的播放界面 跨设备实时同步收听进度 下载到本地,随时随地离线畅听 接下来播放队列,连续播放不间断 睡眠定时、倍速与音量增强一应俱全 自动跳过片头片尾,为你省时间 支持主屏幕小组件与车载 CarPlay 电子书 支持 EPUB 、PDF 、CBZ 格式 自定义排版(字号、字体与间距) 多种阅读主题模式随心切换 跨设备实时同步阅读进度 更多 自定义首页版块排序 OIDC 单点登录 (SSO) Custom Header 支持 多服务器/账号切换 下载 App Store 搜索「希声」「 Still 」 或者直接访问链接: https://apps.apple.com/cn/app/%E5%B8%8C%E5%A3%B0-%E4%B8%BA-audiobookshelf-%E6%89%93%E9%80%A0/id6754208326 说明: 希声本身不提供任何媒体内容,需要自行搭建 Audiobookshelf 服务端使用。详情: https://www.audiobookshelf.org
MiniMax 语音:让灵感声声悦耳 试试我生成的两个: www.minimaxi.com/audio MiniMax 语音和音乐 用MiniMax Speech2.6与Music 2.0模型,生成高度逼真的人声与音乐 www.minimaxi.com/audio MiniMax 语音和音乐 用MiniMax Speech2.6与Music 2.0模型,生成高度逼真的人声与音乐 4 个帖子 - 3 位参与者 阅读完整话题
IT之家 4 月 16 日消息,阶跃星辰今日发布新一代语音生成模型 StepAudio 2.5 TTS ,官方号称人人都能是配音导演。 阶跃星辰官方表示,该语音合成模型首次将语境理解能力引入语音生成全流程。通过 Global Context(全局语境)+ Inline Context(文中语境)双档控制,搭配 Zero-shot 音色复刻, 让 AI 不是念文本,而是演文本 。 StepAudio 2.5 TTS 支持以下核心能力: 全局语境控制: 支持自定义整段语音的情绪基调、角色状态与场景氛围,使表达更统一、更连贯。 文中语境控制: 不仅能控制一句话怎么说,还能进一步调节语气、节奏、停顿、轻重变化、角色感和场景感,让声音表达更有分寸。 零样本复刻与全音色控制: 在保留目标音色特征的同时,支持对情感、风格和表达方式进行灵活调节,让同一种声音说出更多不同感觉。 IT之家附官方演示网址如下: https://stepaudiollm.github.io/step-audio-2.5-tts/zh.html
36氪获悉,4月24日,阶跃发布新一代自动语音识别模型StepAudio 2.5 ASR。据介绍,该模型率先将大语言模型推理加速技术引入语音识别领域,在推理速度与转写精度两个维度均有显著提升,主要面向会议转写、语音交互、输入法、媒体内容处理、长音频识别等场景。
36氪获悉,4月16日,阶跃发布新一代语音生成模型StepAudio 2.5 TTS。据介绍,该模型围绕全局语境控制、文中语境控制,以及零样本复刻与全音色控制等能力进行了升级,主要面向角色配音、有声内容创作、智能语音交互等场景。StepAudio 2.5 TTS支持利用自然语言来进行合成控制。目前,StepAudio 2.5 TTS已全量上线“阶跃星辰开放平台”和Step Plan。