IT之家 6 月 5 日消息, 谷歌 Magenta 团队昨日(6 月 4 日)发布 Magenta RealTime 2(MRT2)模型 ,并同步免费放出乐器应用 Jam 以及 DAW 插件 MRT2。 MRT2 定位是可与用户“即兴合奏”的本地实时音乐模型,共有 2 种规模,其一是高质量模型 mrt2_base,参数量为 24 亿;其二是高速模型 mrt2_small,参数量为 2.3 亿。 谷歌表示上述两个版本均针对苹果 Apple Silicon 芯片优化,其中 mrt2_small 可在搭载 M1 及后续芯片的 Apple 电脑上实时运行。 MRT2 最大变化是“低延迟”。上一代 Magenta RealTime 需要 TPU 或高性能 GPU,控制延迟约 3 秒,且以 2 秒音频块为单位响应。 MRT2 改为逐帧生成,每帧 40 毫秒,实际控制延迟约 200 毫秒,较前代降低至 15 分之一。这让模型对输入变化的反应明显更快,更接近真实乐器的演奏体验。 在控制方式上,MRT2 比前代更完整。它支持文本和音频风格提示,也支持 MIDI 音符与鼓开关控制。 模型可持续跟随音符输入变化,还能在 Auto-Strum 模式下自动决定拨弦或起音时机;关闭该模式后,用户还能精确指定音符起始时刻。对于鼓组,系统也支持切换有鼓或无鼓输出,适合多轨编曲场景。 技术层面,MRT2 仍属于 Codec Language Model(编解码器语言模型),基于 SpectroStream 音频编解码器处理 48kHz 立体声音频,并以 25Hz 帧率生成音频标记。 交互方面,谷歌还推出 Jam 免费应用,支持用户输入想要的音乐风格描述,随后模型开始生成音乐;用户还可通过下方键盘调整音高。 输入设备不仅包括鼠标点击,还支持 MacBook 键盘与 MIDI 键盘,这让实时控制更接近传统电子乐器和数字编曲工作流。 如果用户已习惯在成熟编曲环境中工作,MRT2 插件则提供了接入路径。借助该插件,创作者可在自己常用的 DAW 中调用 Magenta RealTime 2。 IT之家附上参考地址 Magenta RealTime 2: Open & Local Live Music Models
求助推荐一个支持 gpt-realtime-whisper 的中转站,拿来跑spokenly. 1 个帖子 - 1 位参与者 阅读完整话题
例如gpt的realtime?但是感觉有点贵啊。主要的要求是实时的转化和翻译 5 个帖子 - 4 位参与者 阅读完整话题
openai的realtime方案更新了,想尝试下,但是手里只有gpt的账号,问下佬可以sub2api吗 2 个帖子 - 2 位参与者 阅读完整话题
似乎昨天刷推特的时候看到 GPT 在预热什么,难道是 realtime 在 gpt 客户端部署吗? @grok what does it mean(meme 图哈哈哈) (还我 4O!!!!) 1 个帖子 - 1 位参与者 阅读完整话题
IT之家 5 月 9 日消息,阶跃星辰昨晚发布了新一代实时语音大模型 StepAudio 2.5 Realtime,目前已全量上线,开发者可通过阶跃星辰开放平台接入使用。 该模型定位于打造更具“活人感”的 AI 对话体验,重点围绕副语言感知、人设自定义与对话能力三个方向进行技术升级。 IT之家从官方获悉,StepAudio 2.5 Realtime 的核心突破在于其对“副语言”信息的处理能力。所谓副语言,指的是语调、语速、停顿乃至一声叹息或轻笑等文字以外的表达方式,这些细节恰恰是人类情感传递的主要载体。模型通过对这些元素的解读,可以感知对话者的情绪状态与潜在意图,比如从低沉的声线中察觉疲惫,或是从急促的语气里识别出烦躁情绪,并据此动态调整回应的语气与策略,旨在降低交互的生硬感,使其更像与真人交谈。 在人设灵活性方面,StepAudio 2.5 Realtime 将定义权完全交给用户。开发者可以通过 API,从性格特质、背景经历、个人好恶到语言习惯与对话边界,对 AI 角色进行精细化调节。这一能力的背后,是模型基于超过 10,000 个高质量原生人设,通过算法裂变生成的百万级人设特征矩阵,并结合海量真实场景对话语料训练而来。针对深度角色扮演中常见的“人设崩塌”痛点,开发团队进行了专门的 RLHF(基于人类反馈的强化学习)对齐优化。据官方介绍,即使在极端情境的压力测试下,模型依然能保持高度稳定、可信的角色一致性。同时,该模型也内置了 5 个预设人设供用户直接选择体验。 在整体对话能力上,该模型强调智商与情商的双重跃升。除了深度理解复杂语义、应对抛梗接梗等交流场景,模型还能灵活调用多领域知识以提供更深度的对话体验,在应用中既可扮演提供情绪价值的聊天搭子,也能模拟专业 HR 进行面试等严肃场景。 根据官方发布的 2026 年 4 月评测数据,该模型在五个测试维度中均位列第一。其中最能反映真实体验的主观评测(手机 App 真人对话打分)得分 80.41,高于 GPT-Realtime-1.5 的 68.01 和 Gemini Live 的 67.16;语音问答基准得分为 79.80,约为 GPT-Realtime-1.5 的 1.5 倍。
OpenAI 最智能 AI 语音模型:GPT-Realtime-2 登场,GPT-5 级推理能力 - IT之家 2 个帖子 - 2 位参与者 阅读完整话题
IT之家 5 月 8 日消息,OpenAI 发布三款实时语音模型,分别针对推理、翻译和转录场景,集成于 Realtime API 供开发者调用。这三款模型为实时语音应用提供底层技术支撑, 目标解决语音交互中的延迟、打断处理和多语言支持难题。 GPT-Realtime-2 专为实时交互设计,是首款具备 GPT-5 级推理能力的语音模型。它在保持对话自然流畅的前提下,能在对话过程中进行推理、调用工具,并处理用户的打断或纠正。这意味着开发者可以构建更复杂的语音助手,并能执行多步骤任务。 定价方面,GPT-Realtime-2 音频输入定价为每百万 Token 费用 32 美元(IT之家注:现汇率约合 218.1 元人民币),输出为 64 美元(现汇率约合 436.2 元人民币),缓存输入仅需 0.4 美元。 GPT-Realtime-Translate 支持 70 种输入语言转 13 种输出语言,翻译速度与说话者同步,适用于跨国会议或实时沟通场景。 GPT-Realtime-Whisper 则专注于低延迟流式转录,音频随说随转,让实时字幕和会议记录能跟上对话节奏,减少等待时间。翻译和转录模型按分钟计费,分别为每分钟 0.034 美元和 0.017 美元。
GPT-Realtime-2:具有 GPT-5 级推理能力的语音模型 GPT-Realtime-Translate:实时语音翻译模型 GPT-Realtime-Whisper:流式语音转文字模型 https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/ 11 个帖子 - 9 位参与者 阅读完整话题
反转 段子与宣传在一念之差 https://www.stheadline.com/zh-hans/realtime-world/3566134/ 4 个帖子 - 3 位参与者 阅读完整话题
https://www.stheadline.com/realtime-finance/3567043 在公司摸鱼蒸馏模型卖给国内公司是吧。 A/的想像力无敌了。 真这么怕被蒸馏就别拿出来卖了,这样就没人能蒸馏了 7 个帖子 - 7 位参与者 阅读完整话题