WWW.YOUINFO.SITE
标签聚合 音频

/tag/音频

LinuxDo 最新话题 · 2026-06-11 01:32:51+08:00 · tech

2026-06-10-Claude-Fable-5-专题.pdf (1.12 MB) 播客音频: https://catbox.jayo.life/f/2eAC6rWL3OWik4hkeaUEhRSD.mp3 今日日报主贴 linux.do人工智能技术日报+播客-26-06-11 - 前沿快讯 / 前沿快讯, Lv1 - LINUX DO 往期日报回顾: 2026-06-09 2026-06-08 2026-06-07 2026-06-06 2026-06-05 2026-06-04 2026-06-03 2026-06-02 2026-06-01 2026-05-31 2026-05-30 2026-05-29 2026-05-28 2026-05-27 2026-05-26 2026-05-25 2026-05-24 2026-05-23 tips:点头像关注可以每天收到站内推送 1 个帖子 - 1 位参与者 阅读完整话题

v2ex · 2026-06-08 22:00:32+08:00 · tech

最近把一个小工具站整理成了比较完整的版本: MP3to.cc 链接: https://mp3to.cc 它主要解决一些很碎但高频的音频处理需求: MP3 / WAV / FLAC / AAC / M4A / OGG 等格式互转 从 MP4 / MOV / AVI 等视频里提取音频 音频压缩、剪切、合并、反转、音量调整 一些图片和字幕的小工具也顺手放在同一个工具集合里 做这个的初衷比较简单:很多临时音频处理需求不太值得安装桌面软件,也不想为了转一个文件注册账号。现在核心工具都可以直接在浏览器里使用,适合临时处理和低频但刚需的场景。 想请 V 友帮忙挑刺: 首页是否能快速看懂这是做什么的? 工具入口和命名是否容易找到? 移动端 / 大文件场景有没有明显体验问题? 哪些音频处理功能是你会真实用到的? 如果你刚好有音频/视频转 MP3 、MP3 转 WAV 、压缩或剪切音频的需求,可以试一下。任何反馈都欢迎,尤其是“不好用在哪里”。

IT之家 · 2026-06-01 21:37:21+08:00 · tech

IT之家 6 月 1 日消息,华为 nova 16 系列及全场景新品发布会已落下帷幕。此次发布会的主角 —— nova 16 系列共有四款机型, 定价 2699 元起 。 ▲ IT之家现场实拍:华为 nova 16 系列真机 IT之家注意到,华为 nova 16 系列手机还有其他没有公开的亮点 —— 全系(含 z)支持星闪 E2.0 功能。 这意味着 nova 16 全系支持通过星闪连接 FreeClip 2、FreeBuds Pro 5 耳机 ,这也为后续星闪音频的规模化登陆移动设备埋下伏笔。 IT之家另整理星闪连接核心技术、Polar 码、耳机星闪精确查找、耳机星闪音频关系如下: 星闪技术 (NearLink) 是国际星闪无线短距通信联盟发布的新型无线短距通信标准技术。终端产品在部分手机机型支持星闪,通过星闪低功耗、低时延、高速率、高可靠等技术特性,提高使用星闪设备流畅性体验。 耳机星闪连接核心技术是星闪技术的其中一项,主要应用耳机与设备间的连接,星闪连接核心技术基于 Polar 码技术实现,能够提升设备的抗干扰能力和音质体验。 华为耳机的星闪精确查找技术,能够在耳机丢失后,通过独特的测距指向能力,帮助用户实现精准定位和快速找回。当耳机不幸丢失,用户只需在另一部支持星闪精确查找的华为手机上登录相同的账号并启动“查找”功能。 星闪音频耳机是获取国际星闪联盟星闪 E2.0 认证的耳机 ,在星闪技术、星闪连接核心技术、Polar 码技术等能力的基础上,配合专门的音质和音频体验解决方案、协议以及编解码,让音频传输更高效、更清晰。

v2ex · 2026-06-01 16:53:58+08:00 · tech

大家好,分享一下 FlowUs 团队正在做的新产品 Kollab ( https://kollab.im)。 Kollab 是什么? 一个面向团队的 AI 原生工作空间。简单来说,就是把 AI Agents 直接拉进团队的日常工作流里,和人一起协作完成任务。 跟 FlowUs 、Notion 一样,能够创建多个工作空间。产品布局和主流 Agent 产品类似。 目前能做什么? 文本生成、图片生成、视频生成、3D 内容生成、音频生成 支持接入 Notion 、Linear 、Figma 、Slack 、GitHub 、Google Drive 等常用工具 在 Slack / 飞书 / Telegram 里直接通过 Bot 调用 AI Agent 团队共享的项目和 Skill ,AI 可以检索和引用历史决策与文档 Kollab 正在做的事 目前在重点打造内容创作的 workflow ,把图片、视频、3D 、音频这些能力串联起来,让团队能在一个工作空间里完成从素材收集、到加工处理、到产出的全流程,直接分发到各个社交媒体。 未来会针对其他高频的工作场景,做深入优化。 欢迎试用和反馈: https://kollab.im/

v2ex · 2026-06-01 16:07:45+08:00 · tech

大家好,分享一下 FlowUs 团队正在做的新产品 Kollab ( https://kollab.im)。 Kollab 是什么? 一个面向团队的 AI 原生工作空间。简单来说,就是把 AI Agents 直接拉进团队的日常工作流里,和人一起协作完成任务。 跟 FlowUs 、Notion 一样,能够创建多个工作空间。产品布局和主流 Agent 产品类似。 目前能做什么? 文本生成、图片生成、视频生成、3D 内容生成、音频生成 支持接入 Notion 、Linear 、Figma 、Slack 、GitHub 、Google Drive 等常用工具 在 Slack / 飞书 / Telegram 里直接通过 Bot 调用 AI Agent 团队共享的项目和 Skill ,AI 可以检索和引用历史决策与文档 Kollab 正在做的事 目前在重点打造内容创作的 workflow ,把图片、视频、3D 、音频这些能力串联起来,让团队能在一个工作空间里完成从素材收集、到加工处理、到产出的全流程,直接分发到各个社交媒体。 未来会针对其他高频的工作场景,做深入优化。 欢迎试用和反馈: https://kollab.im/

cnBeta全文版 · 2026-05-31 07:05:12+08:00 · tech

美国苹果旗下音频品牌 Beats 或将推出全新头戴式耳机产品,其外观近日通过西班牙足球新星拉明·亚马尔在社交媒体上的一组照片与视频首次曝光。 5 月 23 日,一份美国联邦通信委员会(FCC)文件曾显示,苹果有一款未公布的新耳机通过了认证,引发外界猜测。 一周之后,亚马尔在其官方 Instagram 账号发布的内容中,被发现多次佩戴一副造型醒目的粉色头戴式耳机,基本坐实这款新品来自 Beats 品牌。 从亚马尔发布的四张照片及一段视频画面来看,这款粉色耳机时而挂在他颈部,时而悬在随身包袋的手柄上,整体采用包耳式耳罩设计,耳罩外侧印有醒目的 “b” 标志,与 Beats 一贯的品牌识别保持一致。 多张特写照片清晰展示了耳机的整体轮廓,与此前出现在 FCC 文件中的简略线描图高度吻合。 虽然社交媒体贴文并未对该耳机作任何说明,也未透露具体型号和规格参数,但业内普遍推测,它极有可能是 2023 年 7 月首发的 Beats Studio Pro 的更新迭代版本。 目前有关这款新品的详细信息仍属空白,包括降噪能力、电池续航、连接方式以及是否支持苹果最新音频特性等方面,均未有官方披露。 不过,考虑到 Beats 选择在拥有庞大粉丝基础的顶级运动员账号上提前露出产品,其曝光节奏与以往多款 Beats 耳机和音箱的营销方式高度一致,通常意味着正式发布已经临近,外界预计新品有望在数周内正式发布。 拉明·亚马尔目前效力于西甲豪门巴塞罗那俱乐部,同时也是西班牙国家队成员,是近年来最受关注的年轻足球运动员之一。 在此次曝光中,他被拍到正随队前往世界杯相关集训营地,画面背景为旅途中的场景。 截至报道时,亚马尔在 Instagram 上的粉丝约为 4300 万,其发布的这条包含 Beats 新耳机的动态上线约一小时后,点赞已超过一百万,评论数量则超过 5100 条,传播效应显著。 通过体育明星在社交媒体上率先“剧透”未发售产品,是 Beats 近年来反复采用的推广策略。 该品牌多次借助顶级运动员提前佩戴或使用旗下耳机、耳塞和便携式音箱的方式,为新品造势,在正式发布前就营造话题度和辨识度。 本次借助拉明·亚马尔的全球影响力预热粉色头戴式耳机,再次印证了 Beats 延续“名人先行”的市场打法。业内观察人士认为,随着相关认证文件和名人曝光相继出现,这款神秘粉色 Beats 耳机距离正式亮相已为时不远。 查看评论

V2EX - 技术 · 2026-05-30 23:14:20+08:00 · tech

最近整理了一篇脱敏后的实验记录:把 WebRTC 音频从 Pion `OnTrack` 收到后,解码 Opus RTP 为 PCM ,再通过 FFmpeg `arnndn` 做 RNN 降噪,先输出文件做对比验证。 文章地址: https://www.lodan.me/zh-cn/posts/server-side-webrtc-noise-reduction-pion-ffmpeg-rnn/ 我现在的判断是: - 这条链路适合先做离线验证,不适合一上来就做实时转发。 - `int16` PCM 要对应 FFmpeg `s16le`,格式边界不能含糊。 - 真正难的是延迟、CPU 、缓冲、FFmpeg 进程生命周期、丢包和音视频同步。 - 如果设备侧硬件和 WebRTC 3A 表现不可控,服务端降噪可以作为补充方向,但不能当成免费能力。 想讨论一下:大家在 WebRTC 或实时音频场景里,有没有把降噪、增益、混音这类处理放到服务端做过?最后卡住的是延迟、效果,还是资源成本?

LinuxDo 最新话题 · 2026-05-30 15:55:51+08:00 · tech

今天用了GPT的语音实时聊天,在手机的客户端使用的,主要操作方式是先吧手机设置中的gpt的以下几个权限打开: Floating window Background pop-ups Picture-in-picture Use camera Record 其他的可开可不开,然后下一步是开一个新的聊天框,然后点击右下角的语音聊天,然后点击左下角加号,里面会有一个共享屏幕,点击后,会出现一些app给选择,就可以实时看这个app了。实时语音,它可以看你的操作对不对或者直接进行指导,感觉还是很有用的,比如实时翻译(选择文字之后直接问她,她会语音马上回答),或者是实时扫盲,比如我逛L站的时候看到各种大佬的各种技术但是我不了解,他可以马上给我说个大概然后并告诉我适不适合我看,以及一些操作,他可以直接告诉我先点什么后点什么,感觉非常的方便。 但是缺点是一次只能看一个app,如果要看别的app得退出后重新选择应用,当然也有可能是我没有找到如何直接共享整个手机,佬们有知道的可以在下面留言讨论。 目前电脑端不管是win还是mac似乎都还是不行,很希望那一天早点来,感觉这个东西对我而言的最大用处在于,做项目的时候学一些技能但是不需要完全学会该技能,只需要学项目中需要的一小部分,就可以直接现场让他告诉我,现场改错,这样便节约了很多打字和截图给AI再问再改的时间。希望能够快点开放。 2 个帖子 - 2 位参与者 阅读完整话题

V2EX - 技术 · 2026-05-28 18:21:43+08:00 · tech

大家好,最近做了一套本地音频处理 + 伪知识库的应用,想听听大家对开源价值的看法。 这个项目大概做的是: 导入音频 / 视频,通过 ASR 模型转录 对转录文本做切分、整理、结构化 生成一个偏“伪知识库”的索引 它更像是一套完整工作流,而不是单一工具。核心价值在于把音频资料转成可检索、可复用的个人知识资产。 现在纠结的点是:这个项目对本地部署要求比较高。因为强依赖 ASR 等模型,体验比较依赖 GPU 。如果走 API ,成本又不低,我这边估算大概 1 元 / 小时音频,长期用下来并不便宜。 所以我有点犹豫: 这种强依赖本地模型和 GPU 的项目,开源对大家还有意义吗? 如果很多人没有合适的显卡,项目会不会只能停留在“看起来不错,但跑不起来”? 如果我只把工作流、代码结构、模型适配层、数据处理逻辑开源,模型让用户自己选择,这样是否有价值? 是否应该同时支持本地模型和 API 模式,哪怕 API 成本较高? 对这种项目来说,大家更关心一键部署,还是更关心架构和实现思路? 我目前的想法是,如果开源,会尽量把边界写清楚: 本地部署需要一定 GPU API 模式可以跑,但成本需要用户自己评估 项目重点是音频处理工作流和知识库构建逻辑 模型可以替换,不绑定某一个具体供应商 想问问大家:如果你们看到这样的项目,会觉得有参考价值吗?还是说部署门槛太高,开源意义有限? 也欢迎有类似需求的朋友聊聊你们的使用场景

V2EX - 技术 · 2026-05-28 18:21:43+08:00 · tech

大家好,最近做了一套本地音频处理 + 伪知识库的应用,想听听大家对开源价值的看法。 这个项目大概做的是: 导入音频 / 视频,通过 ASR 模型转录 对转录文本做切分、整理、结构化 生成一个偏“伪知识库”的索引 它更像是一套完整工作流,而不是单一工具。核心价值在于把音频资料转成可检索、可复用的个人知识资产。 现在纠结的点是:这个项目对本地部署要求比较高。因为强依赖 ASR 等模型,体验比较依赖 GPU 。如果走 API ,成本又不低,我这边估算大概 1 元 / 小时音频,长期用下来并不便宜。 所以我有点犹豫: 这种强依赖本地模型和 GPU 的项目,开源对大家还有意义吗? 如果很多人没有合适的显卡,项目会不会只能停留在“看起来不错,但跑不起来”? 如果我只把工作流、代码结构、模型适配层、数据处理逻辑开源,模型让用户自己选择,这样是否有价值? 是否应该同时支持本地模型和 API 模式,哪怕 API 成本较高? 对这种项目来说,大家更关心一键部署,还是更关心架构和实现思路? 我目前的想法是,如果开源,会尽量把边界写清楚: 本地部署需要一定 GPU API 模式可以跑,但成本需要用户自己评估 项目重点是音频处理工作流和知识库构建逻辑 模型可以替换,不绑定某一个具体供应商 想问问大家:如果你们看到这样的项目,会觉得有参考价值吗?还是说部署门槛太高,开源意义有限? 也欢迎有类似需求的朋友聊聊你们的使用场景

V2EX - 技术 · 2026-05-28 18:21:43+08:00 · tech

大家好,最近做了一套本地音频处理 + 伪知识库的应用,想听听大家对开源价值的看法。 这个项目大概做的是: 导入音频 / 视频,通过 ASR 模型转录 对转录文本做切分、整理、结构化 生成一个偏“伪知识库”的索引 它更像是一套完整工作流,而不是单一工具。核心价值在于把音频资料转成可检索、可复用的个人知识资产。 现在纠结的点是:这个项目对本地部署要求比较高。因为强依赖 ASR 等模型,体验比较依赖 GPU 。如果走 API ,成本又不低,我这边估算大概 1 元 / 小时音频,长期用下来并不便宜。 所以我有点犹豫: 这种强依赖本地模型和 GPU 的项目,开源对大家还有意义吗? 如果很多人没有合适的显卡,项目会不会只能停留在“看起来不错,但跑不起来”? 如果我只把工作流、代码结构、模型适配层、数据处理逻辑开源,模型让用户自己选择,这样是否有价值? 是否应该同时支持本地模型和 API 模式,哪怕 API 成本较高? 对这种项目来说,大家更关心一键部署,还是更关心架构和实现思路? 我目前的想法是,如果开源,会尽量把边界写清楚: 本地部署需要一定 GPU API 模式可以跑,但成本需要用户自己评估 项目重点是音频处理工作流和知识库构建逻辑 模型可以替换,不绑定某一个具体供应商 想问问大家:如果你们看到这样的项目,会觉得有参考价值吗?还是说部署门槛太高,开源意义有限? 也欢迎有类似需求的朋友聊聊你们的使用场景

V2EX - 技术 · 2026-05-28 18:21:43+08:00 · tech

大家好,最近做了一套本地音频处理 + 伪知识库的应用,想听听大家对开源价值的看法。 这个项目大概做的是: 导入音频 / 视频,通过 ASR 模型转录 对转录文本做切分、整理、结构化 生成一个偏“伪知识库”的索引 它更像是一套完整工作流,而不是单一工具。核心价值在于把音频资料转成可检索、可复用的个人知识资产。 现在纠结的点是:这个项目对本地部署要求比较高。因为强依赖 ASR 等模型,体验比较依赖 GPU 。如果走 API ,成本又不低,我这边估算大概 1 元 / 小时音频,长期用下来并不便宜。 所以我有点犹豫: 这种强依赖本地模型和 GPU 的项目,开源对大家还有意义吗? 如果很多人没有合适的显卡,项目会不会只能停留在“看起来不错,但跑不起来”? 如果我只把工作流、代码结构、模型适配层、数据处理逻辑开源,模型让用户自己选择,这样是否有价值? 是否应该同时支持本地模型和 API 模式,哪怕 API 成本较高? 对这种项目来说,大家更关心一键部署,还是更关心架构和实现思路? 我目前的想法是,如果开源,会尽量把边界写清楚: 本地部署需要一定 GPU API 模式可以跑,但成本需要用户自己评估 项目重点是音频处理工作流和知识库构建逻辑 模型可以替换,不绑定某一个具体供应商 想问问大家:如果你们看到这样的项目,会觉得有参考价值吗?还是说部署门槛太高,开源意义有限? 也欢迎有类似需求的朋友聊聊你们的使用场景