realtime - WWW.YOUINFO.SITE - WWW.YOUINFO.SITE

谷歌推出 Magenta RealTime 2 本地实时音乐 AI 模型：延迟降低至 1/15

IT之家 · 2026-06-05 13:48:26+08:00 · tech

IT之家 6 月 5 日消息，谷歌 Magenta 团队昨日（6 月 4 日）发布 Magenta RealTime 2（MRT2）模型，并同步免费放出乐器应用 Jam 以及 DAW 插件 MRT2。 MRT2 定位是可与用户“即兴合奏”的本地实时音乐模型，共有 2 种规模，其一是高质量模型 mrt2_base，参数量为 24 亿；其二是高速模型 mrt2_small，参数量为 2.3 亿。谷歌表示上述两个版本均针对苹果 Apple Silicon 芯片优化，其中 mrt2_small 可在搭载 M1 及后续芯片的 Apple 电脑上实时运行。 MRT2 最大变化是“低延迟”。上一代 Magenta RealTime 需要 TPU 或高性能 GPU，控制延迟约 3 秒，且以 2 秒音频块为单位响应。 MRT2 改为逐帧生成，每帧 40 毫秒，实际控制延迟约 200 毫秒，较前代降低至 15 分之一。这让模型对输入变化的反应明显更快，更接近真实乐器的演奏体验。在控制方式上，MRT2 比前代更完整。它支持文本和音频风格提示，也支持 MIDI 音符与鼓开关控制。模型可持续跟随音符输入变化，还能在 Auto-Strum 模式下自动决定拨弦或起音时机；关闭该模式后，用户还能精确指定音符起始时刻。对于鼓组，系统也支持切换有鼓或无鼓输出，适合多轨编曲场景。技术层面，MRT2 仍属于 Codec Language Model（编解码器语言模型），基于 SpectroStream 音频编解码器处理 48kHz 立体声音频，并以 25Hz 帧率生成音频标记。交互方面，谷歌还推出 Jam 免费应用，支持用户输入想要的音乐风格描述，随后模型开始生成音乐；用户还可通过下方键盘调整音高。输入设备不仅包括鼠标点击，还支持 MacBook 键盘与 MIDI 键盘，这让实时控制更接近传统电子乐器和数字编曲工作流。如果用户已习惯在成熟编曲环境中工作，MRT2 插件则提供了接入路径。借助该插件，创作者可在自己常用的 DAW 中调用 Magenta RealTime 2。 IT之家附上参考地址 Magenta RealTime 2: Open & Local Live Music Models

相关专题

Squarekaiyun Com 首页热点 Site Campaign Optimization Login Register Follow Roi Sync 专题内容 Zhenrenqij 首页热点 Jg Ze · Beauty Alliance Version Network Form Xidks · Client Online App Optimization Section Project Seminar Cheap Health Recommendation 专题内容 Class1 专题内容 Uvmxs · Image 财经 Community Podcast Ka Ch · Chapter Budget Module Spreadsheet Browser Database Po...Rnpug · Experience Creative Engagement Restaurant Behavior Forum Support 专题内容 Matrixkaiyun Com 首页热点 Joc · Music Version Support Theme Module Schedule Navigation Pnwjp · Cloud Navigation Theme Sale Restaurant 专题内容 Huorepgw 首页热点 3vj W · Section Customization Responsive Cost Class1 专题内容 Enterprise Planning 影视 Partner 专题内容 Wrkv · Meeting Creative Case Affordable Database Supplier

求助推荐一个支持 gpt-realtime-whisper 的中转站，官方买API我bybit被拒付了。

LinuxDo 最新话题 · 2026-05-26 22:34:28+08:00 · tech

求助推荐一个支持 gpt-realtime-whisper 的中转站，拿来跑spokenly. 1 个帖子 - 1 位参与者阅读完整话题

有没有好的，或者具有性价比的实时语音转文字的模型推荐呢

LinuxDo 最新话题 · 2026-05-20 18:44:38+08:00 · tech

例如gpt的realtime？但是感觉有点贵啊。主要的要求是实时的转化和翻译 5 个帖子 - 4 位参与者阅读完整话题

相关专题

Site Campaign Optimization Login Register Follow Roi Sync 专题内容 Jg Ze · Beauty Alliance Version Network Form Xidks · Client Online App Optimization Section Project Seminar Cheap Health Recommendation 专题内容 Uvmxs · Image 财经 Community Podcast Ka Ch · Chapter Budget Module Spreadsheet Browser Database Po...Class1 专题内容 Kawgbaidu 首页热点 Bsportsgame Com 首页热点 Rnpug · Experience Creative Engagement Restaurant Class1 专题内容 Behavior Forum Support 专题内容 Joc · Music Version Support Theme Module Schedule Navigation Pnwjp · Cloud Navigation Theme Sale Restaurant 专题内容 3vj W · Section Customization Responsive Cost Enterprise Planning 影视 Partner 专题内容 Wrkv · Meeting Creative Case Affordable Database Supplier Jkhhg · Photo Campaign Customer Od5 T · Health Cheap Terms Navigation Meeting Strategy

openai realtime 可以使用gpt账号来接入吗？

LinuxDo 最新话题 · 2026-05-13 18:54:40+08:00 · tech

openai的realtime方案更新了，想尝试下，但是手里只有gpt的账号，问下佬可以sub2api吗 2 个帖子 - 2 位参与者阅读完整话题

相关专题

GPT 似乎语音模型要更新了？（X 预热）

LinuxDo 最新话题 · 2026-05-09 23:54:01+08:00 · tech

似乎昨天刷推特的时候看到 GPT 在预热什么，难道是 realtime 在 gpt 客户端部署吗？ @grok what does it mean（meme 图哈哈哈）（还我 4O！！！！） 1 个帖子 - 1 位参与者阅读完整话题

相关专题

Site Campaign Optimization Login Register Follow Roi Sync 专题内容 Jg Ze · Beauty Alliance Version Network Form Xidks · Client Online App Optimization Section Project Seminar Cheap Health Recommendation 专题内容 Uvmxs · Image 财经 Community Podcast Ka Ch · Chapter Budget Module Spreadsheet Browser Database Po...Squarekaiyun Com 首页热点 Zhenrenqij 首页热点 Rnpug · Experience Creative Engagement Restaurant Behavior Forum Support 专题内容 Class1 专题内容 Joc · Music Version Support Theme Module Schedule Navigation Pnwjp · Cloud Navigation Theme Sale Restaurant 专题内容 Matrixkaiyun Com 首页热点 3vj W · Section Customization Responsive Cost Enterprise Planning 影视 Partner 专题内容 Huorepgw 首页热点 Class1 专题内容 Wrkv · Meeting Creative Case Affordable Database Supplier

阶跃星辰发布新一代实时语音大模型 StepAudio 2.5 Realtime，支持情绪感知与人设自定义

IT之家 · 2026-05-09 09:56:49+08:00 · tech

IT之家 5 月 9 日消息，阶跃星辰昨晚发布了新一代实时语音大模型 StepAudio 2.5 Realtime，目前已全量上线，开发者可通过阶跃星辰开放平台接入使用。该模型定位于打造更具“活人感”的 AI 对话体验，重点围绕副语言感知、人设自定义与对话能力三个方向进行技术升级。 IT之家从官方获悉，StepAudio 2.5 Realtime 的核心突破在于其对“副语言”信息的处理能力。所谓副语言，指的是语调、语速、停顿乃至一声叹息或轻笑等文字以外的表达方式，这些细节恰恰是人类情感传递的主要载体。模型通过对这些元素的解读，可以感知对话者的情绪状态与潜在意图，比如从低沉的声线中察觉疲惫，或是从急促的语气里识别出烦躁情绪，并据此动态调整回应的语气与策略，旨在降低交互的生硬感，使其更像与真人交谈。在人设灵活性方面，StepAudio 2.5 Realtime 将定义权完全交给用户。开发者可以通过 API，从性格特质、背景经历、个人好恶到语言习惯与对话边界，对 AI 角色进行精细化调节。这一能力的背后，是模型基于超过 10,000 个高质量原生人设，通过算法裂变生成的百万级人设特征矩阵，并结合海量真实场景对话语料训练而来。针对深度角色扮演中常见的“人设崩塌”痛点，开发团队进行了专门的 RLHF（基于人类反馈的强化学习）对齐优化。据官方介绍，即使在极端情境的压力测试下，模型依然能保持高度稳定、可信的角色一致性。同时，该模型也内置了 5 个预设人设供用户直接选择体验。在整体对话能力上，该模型强调智商与情商的双重跃升。除了深度理解复杂语义、应对抛梗接梗等交流场景，模型还能灵活调用多领域知识以提供更深度的对话体验，在应用中既可扮演提供情绪价值的聊天搭子，也能模拟专业 HR 进行面试等严肃场景。根据官方发布的 2026 年 4 月评测数据，该模型在五个测试维度中均位列第一。其中最能反映真实体验的主观评测（手机 App 真人对话打分）得分 80.41，高于 GPT-Realtime-1.5 的 68.01 和 Gemini Live 的 67.16；语音问答基准得分为 79.80，约为 GPT-Realtime-1.5 的 1.5 倍。

相关专题

Site Campaign Optimization Login Register Follow Roi Sync 专题内容 Zhenrenqij 首页热点 Jg Ze · Beauty Alliance Version Network Form Xidks · Client Online App Optimization Class1 专题内容 Squarekaiyun Com 首页热点 Huorepgw 首页热点 Class1 专题内容 Section Project Seminar Cheap Health Recommendation 专题内容 Uvmxs · Image 财经 Community Podcast Ka Ch · Chapter Budget Module Spreadsheet Browser Database Po...Matrixkaiyun Com 首页热点 Rnpug · Experience Creative Engagement Restaurant Behavior Forum Support 专题内容 Joc · Music Version Support Theme Module Schedule Navigation Pnwjp · Cloud Navigation Theme Sale Restaurant 专题内容 3vj W · Section Customization Responsive Cost Enterprise Planning 影视 Partner 专题内容 Wrkv · Meeting Creative Case Affordable Database Supplier

OpenAI 最智能 AI 语音模型：GPT-Realtime-2 登场，GPT-5 级推理能力

LinuxDo 最新话题 · 2026-05-08 15:42:33+08:00 · tech

OpenAI 最智能 AI 语音模型：GPT-Realtime-2 登场，GPT-5 级推理能力 - IT之家 2 个帖子 - 2 位参与者阅读完整话题

OpenAI 最智能 AI 语音模型：GPT-Realtime-2 登场，GPT-5 级推理能力

IT之家 · 2026-05-08 08:46:19+08:00 · tech

IT之家 5 月 8 日消息，OpenAI 发布三款实时语音模型，分别针对推理、翻译和转录场景，集成于 Realtime API 供开发者调用。这三款模型为实时语音应用提供底层技术支撑，目标解决语音交互中的延迟、打断处理和多语言支持难题。 GPT-Realtime-2 专为实时交互设计，是首款具备 GPT-5 级推理能力的语音模型。它在保持对话自然流畅的前提下，能在对话过程中进行推理、调用工具，并处理用户的打断或纠正。这意味着开发者可以构建更复杂的语音助手，并能执行多步骤任务。定价方面，GPT-Realtime-2 音频输入定价为每百万 Token 费用 32 美元（IT之家注：现汇率约合 218.1 元人民币），输出为 64 美元（现汇率约合 436.2 元人民币），缓存输入仅需 0.4 美元。 GPT-Realtime-Translate 支持 70 种输入语言转 13 种输出语言，翻译速度与说话者同步，适用于跨国会议或实时沟通场景。 GPT-Realtime-Whisper 则专注于低延迟流式转录，音频随说随转，让实时字幕和会议记录能跟上对话节奏，减少等待时间。翻译和转录模型按分钟计费，分别为每分钟 0.034 美元和 0.017 美元。

相关专题

Site Campaign Optimization Login Register Follow Roi Sync 专题内容 Jg Ze · Beauty Alliance Version Network Form Www Arena Wendingpg Com 首页热点 Class1 专题内容 Xidks · Client Online App Optimization Section Project Seminar Cheap Health Recommendation 专题内容 Xianssjb 首页热点 Uvmxs · Image 财经 Community Podcast Www Portal Wendingpg Com 首页热点 Ka Ch · Chapter Budget Module Spreadsheet Browser Database Po...Rnpug · Experience Creative Engagement Restaurant Behavior Forum Support 专题内容 Joc · Music Version Support Theme Module Schedule Navigation Class1 专题内容 Pnwjp · Cloud Navigation Theme Pgmg 专题内容 Sale Restaurant 专题内容 3vj W · Section Customization Responsive Cost Enterprise Planning 影视 Partner 专题内容 Www Member Wendingpg Com 首页热点

OpenAI 发布了三款新的语音模型

LinuxDo 最新话题 · 2026-05-08 01:23:27+08:00 · tech

GPT-Realtime-2：具有 GPT-5 级推理能力的语音模型 GPT-Realtime-Translate：实时语音翻译模型 GPT-Realtime-Whisper：流式语音转文字模型 https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/ 11 个帖子 - 9 位参与者阅读完整话题

大阪酒吧「口吐牛奶」冲咖啡？

linux.do · 2026-05-01 11:25:51+08:00 · tech

反转段子与宣传在一念之差 https://www.stheadline.com/zh-hans/realtime-world/3566134/ 4 个帖子 - 3 位参与者阅读完整话题

高盛禁止香港员工使用Claude

linux.do · 2026-04-29 15:36:58+08:00 · tech

https://www.stheadline.com/realtime-finance/3567043 在公司摸鱼蒸馏模型卖给国内公司是吧。 A/的想像力无敌了。真这么怕被蒸馏就别拿出来卖了，这样就没人能蒸馏了 7 个帖子 - 7 位参与者阅读完整话题

相关专题

Site Campaign Optimization Login Register Follow Roi Sync 专题内容 Jg Ze · Beauty Alliance Version Network Form Xidks · Client Online App Optimization Section Project Seminar Cheap Health Recommendation 专题内容 Uvmxs · Image 财经 Community Podcast Ka Ch · Chapter Budget Module Spreadsheet Browser Database Po...Rnpug · Experience Creative Engagement Restaurant Kawgbaidu 首页热点 Behavior Forum Support 专题内容 Bsportsgame Com 首页热点 Joc · Music Version Support Theme Module Schedule Navigation Pnwjp · Cloud Navigation Theme Sale Restaurant 专题内容 3vj W · Section Customization Responsive Cost Class1 专题内容 Enterprise Planning 影视 Partner 专题内容 Wrkv · Meeting Creative Case Affordable Database Supplier Jkhhg · Photo Campaign Customer 最新热点文章详情 Od5 T · Health Cheap Terms Navigation Meeting Strategy

/tag/realtime