WWW.YOUINFO.SITE
标签聚合 回放

/tag/回放

LinuxDo 最新话题 · 2026-06-02 14:19:19+08:00 · tech

很多时候想看的视频没有字幕:直播回放、没人翻译的网课、国外新闻直播、番剧。之前只能靠听。 DualPiP 最近 v1.7 更新加了 ASR(自动语音识别)实时字幕功能。 原理 通过浏览器的音频捕获 API 获取视频音频流,发送到 Deepgram 云端通过 WebSocket 实时转写。也支持本地部署的 Whisper 服务器。预加载模式无延迟,实时字幕延迟大约 300ms。 Deepgram 为新注册用户提供 $200 免费额度 ,注册全程无需绑定任何支付方式。按 nova-3 模型 $0.007/分钟计算,$200 额度足够转录约 476 小时音频 ——相当于看 238 部 2 小时电影 适用场景 直播没字幕 :YouTube/Twitch 直播大多没有实时字幕,DualPiP 可以实时生成 网课录像 :大学网课很多没有字幕,开了 ASR 就有了 看生肉番 :为没有字幕的番剧,自动生成字幕, 学外语 :ASR 生成的字幕可以直接走 AI 翻译生成双语字幕,看英语直播时显示英文+中文字幕 ASR 实时流和预下载批量模式有什么区别? DualPiP ASR 提供两种音频捕获和识别模式,适应不同的观看场景: 实时流模式(WebSocket Streaming) 音频通过 WebSocket 实时发送到 Deepgram 服务器,字幕延迟低于 300ms,几乎和说话同步。Deepgram 的 Interim Results 功能还会在最终结果出来前提供临时识别结果,让字幕出现得更快。适合直播、视频会议、实时内容等需要即时反馈的场景。 预下载批量模式(Pre-download + HTTP Batch) DualPiP 先将视频音频预下载并按时间段分割,然后通过 HTTP 请求批量发送到 ASR 服务进行离线识别。适合已发布的视频内容——可以在观看前提前生成完整字幕,播放时完全无延迟。预下载模式同时支持 Deepgram 云端和本地 Whisper 后端。 对比 实时流模式 预下载批量模式 延迟 < 300ms 预下载完成后零延迟 适合场景 直播、实时内容、会议 已发布的视频、需要完整字幕 支持后端 Deepgram(WebSocket) Deepgram + 本地 Whisper 字幕完整性 实时生成,偶有遗漏 完整覆盖全部音频内容 如何用 ASR 字幕配合 AI 翻译生成实时双语字幕? DualPiP 的 ASR 和AI 翻译可以配合使用,为任何语言的在线视频实时生成双语字幕。这解决了一个传统字幕无法覆盖的场景: 视频没有原生字幕,但你需要看双语字幕学外语 。 ASR + AI 翻译的工作流程 ASR 实时识别原文 :Deepgram 将视频音频转录为原语言文字字幕 AI 大模型实时翻译 :DualPiP 的 AI 翻译引擎将 ASR 生成的字幕翻译为目标语言 双语字幕同时显示 :原文和译文以双语字幕的形式叠加在视频上方 为什么 ASR 字幕翻译强烈推荐使用 AI 大模型? ASR 生成的字幕与传统字幕文件不同——ASR 字幕是实时识别的语音转录,可能存在断句不完整、口语化表达多、专有名词无上下文等问题。 AI 大模型翻译(DeepSeek、GPT、Claude 等)在翻译 ASR 字幕时显著优于传统机翻(Google、Microsoft) ,原因在于: 对比维度 传统机翻(Google/Microsoft) AI 大模型翻译(DeepSeek/GPT/Claude) 上下文理解 逐句翻译,无前后文信息 DualPiP 发送最近 N 条字幕作为上下文历史 口语化处理 直译口语,生硬不通顺 理解口语语境,翻译自然流畅 断句补全 ASR 断句不完整时翻译错乱 能结合上下文补全语义,正确翻译 专有名词 频繁翻错人名、术语 结合 DualPiP 的影片信息增强识别 语气还原 机械直译 保留说话者语气和表达风格 DualPiP 的 AI 翻译引擎使用 滑动窗口上下文 机制:每次翻译 ASR 字幕时,会将前面已翻译的字幕作为对话历史一起发送给 AI,让翻译结果前后一致、上下文连贯。这在 ASR 场景下尤其重要——因为语音识别的断句和传统字幕不同,AI 需要结合前文才能正确理解当前句子的含义。 适合的使用场景 场景 说明 看无字幕外语视频学语言 ASR 识别原文 + AI 翻译为母语,双语对照学习 看直播或实时内容 直播没有预制字幕,ASR 实时生成 + AI 实时翻译 学术讲座和在线课程 部分课程无字幕或仅有英文字幕,ASR + AI 生成中文翻译 播客和访谈节目 纯音频内容通过 ASR 可视化为文字,再翻译为目标语言 DualPiP 支持30+ AI 翻译服务商,用户可以根据翻译质量和费用自由选择。推荐使用 DeepSeek V4 Flash (性价比高,翻译一部电影约 ¥0.2-0.5)。 哪些视频网站可以用 DualPiP ASR 自动生成字幕? DualPiP ASR 基于浏览器的 Audio Capture API 捕获音频, 理论上可以为任何在 Chrome 中播放的视频自动生成字幕 。 对于没有原生字幕的视频(如很多直播内容、小众平台视频、用户上传的无字幕视频),ASR 是获取字幕的唯一途径。 常见问题 Q:ASR 实时语音识别的准确率怎么样? Deepgram nova-3 模型在英语上的词错误率(WER)低于 8%,是 2026 年最准确的实时语音识别模型之一。中文、日语等语言的识别准确率同样出色。识别效果受音频质量、说话人口音和背景噪音影响,纯语音内容的识别效果最佳。 Q:ASR 是 DualPiP 的免费功能还是 PRO 功能? DualPiP 基础功能免费,AI 翻译和 ASR 需要登录后开通 PRO后使用。 ASR 实时字幕是 PRO 功能。DualPiP 的 YouTube 网页内双语字幕和基础画中画播放器免费使用,ASR、 AI 翻译等高级功能需要 购买PRO。首次注册免费开通 7 天 PRO Q:能识别视频中的多种语言混合吗? Deepgram 的 Multilingual 模式支持在同一段音频中自动检测和切换语言,适合多语言混合的访谈、播客和教学内容。本地 Whisper 后端也支持语言自动检测,但切换精度低于 Deepgram。 下载 Chrome Web Store: https://chromewebstore.google.com/detail/dualpip/ddkmobcljbfggkmibabekgpbighaogpn 1 个帖子 - 1 位参与者 阅读完整话题

cnBeta全文版 · 2026-05-23 14:36:02+08:00 · tech

如果你打开今年 Google I/O 2026 的回放,会发现一件很奇怪的事:Sundar Pichai 和 Shahram Izadi 在主题演讲中花了大量篇幅介绍和三星、Gentle Monster、Warby Parker 合作的“Intelligent Eyewear 智能眼镜”,还试图把它定义成 Android XR 战略最重要的硬件落点。 图源:网络 我从这副眼镜身上记住的只有两件事: 它是没有光波导显示功能的 基础的 AI 眼镜 ;秋天上市,规格现在完全不知道。 这就是 Google 这场活动最尴尬的地方:在 AI 眼镜这条赛道已经被 Meta 提前抢跑了两年、被 Rokid 和夸克从多方面夹击的今天,Google 在 I/O 主舞台上做的居然还是一次概念预告,而不是一场产品的正式发布。 而且更尴尬的是, 当你把这副眼镜和市面上所有其他智能眼镜并排放在一起时,很难讲清楚消费者为什么必须买它。 Google 这次到底端出了什么 在开喷之前我得先说明,在 I/O 2026 上,Google 实际上发布了三款 Android XR 眼镜,分别是: 图源:不客观实验室 今天要讨论的“Google AI 眼镜”是表格里上面那两款,至于 Xreal 咱们过几天再说。这两款产品用的是同一套硬件平台、同一套 Android XR 系统、同一颗 Gemini 大脑,只是套了两个不同的设计师外观,一款 Gentle Monster 的墨镜款,一款 Warby Parker 的近视镜款。 图源:Google 图源:Google 据 Google 和三星给出的信息,它们能做的事情包括:实时翻译(号称能匹配说话者的语气)、Google Maps 导航、消息摘要、日历事件添加、附近餐厅推荐、拍照录像、Gemini 语音助手。 图源:Google 读到这里你大概已经发现问题了, 这些功能里没有任何一项是独占的,市面上所有的 AI 眼镜都做得到。 咱们一个一个来说: Meta Ray-Ban / Oakley Meta :支持 Meta AI 实时翻译、Google Maps 导航、3K 高清摄像、Instagram/WhatsApp 社交媒体集成、消息摘要提示、Conversation Focus 噪声环境对话增强、Neural Handwriting 手势打字、电话实时字幕。 并且 带显示屏和肌电手环的 Ray-Ban Display 已经在 2025 年 9 月以 799 美元开售。 Rokid Glasses / Rokid AI Glasses Style :光波导 AR 显示、多个 AI 集成的智能助手、89 种语言翻译、Google Maps 导航、高清摄像、支付宝支付、企业级提词器功能。 小米 AI 眼镜 :超级小爱助手、Snapdragon AR1 + BES2700 协处理器、高清摄像、电致变色镜片、支付宝支付、与小米手机摄像头联动直播。 阿里夸克 AI 眼镜 :通义大模型加持的智能助手、光波导 AR 显示、淘宝/支付宝深度集成、高清摄像。 Google + 三星 Intelligent Eyewear(2026 年秋上市,价格未定) :Gemini AI、Google Maps 导航、实时翻译、消息摘要、高清摄像。 目前已知的功能列表里,没有一项是别人没做过的。 唯一可以说“Google 略胜一筹”的地方,是 Gemini 在多模态理解、上下文记忆和实时翻译保留语气这几个细节上,理论上比 Meta AI 要强一些。 但“理论上”三个字其实很危险——因为去年同样跑着 Gemini 的 Galaxy XR 头显,外媒给出的评价是: 当它说出 “ 让我帮你查一下”之后的长时间停顿,让 Gemini 不像一个智能助手,更像一个用 Google 搜索来掩饰自己不专业的实习生。 时尚这块,Meta 也快有 Prada 了 Google 这次最被津津乐道的,是和 Gentle Monster、Warby Parker 的合作。这是两个分别在亚洲和北美年轻人群里有真正影响力的眼镜品牌。Google 为此花了真金白银:1 亿美元投资 Gentle Monster 拿 4% 股权,1.5 亿美元投资 Warby Parker。 图源:Google 这个布局确实不错,但 Meta 和依视路其实已经在做同样的事,而且做得更大。 众所周知,依视路是全球最大的眼镜集团,旗下不只有 Ray-Ban 和 Oakley,还握着 Prada、Miu Miu、Burberry、Chanel、Ralph Lauren、Versace、Tiffany 等几十个奢侈品牌的眼镜授权。Meta 在 2025 年 7 月以 35 亿美元买下了 依视路接近 3% 的股份,这个投入和 Google 给两个独立品牌的合计 2.5 亿美元完全不是一个数量级。 在今年 2 月的米兰时装周,扎克伯格夫妇坐在了 Prada 秋冬大秀的前排,旁边是 Prada 首席市场官 Lorenzo Bertelli。 图源:网络 不客观实验室早在 2025 年夏天就报道过 Meta 在和依视路联合开发 Prada 版 AI 眼镜,大概率在今年下半年到 2027 年发布。 图源:网络 也就是说, Google 用 Gentle Monster 和 Warby Parker 试图建立的“AI 眼镜也可以是时尚单品”这个故事,Meta 不仅能复制,而且手里的牌更多 。Ray-Ban 是时尚单品的代名词,Prada 是奢侈品级别的时尚单品,Oakley 则是运动潮流。Google 拿到的两个品牌都很好,但显然不如 Meta+依视路这种级别的组合。 如果 Google 这副眼镜的核心卖点真是“比 Meta 时尚”,那它可就真的彻底完蛋了。 Google 自己放弃了 Pixel 的整合 在发布之前我还在想,Google 的 AI 眼镜会不会和 Pixel 手机有更深的联动?毕竟这是 Google 作为一家硬件 + 软件 + AI 全栈公司,理论上最容易打的牌。 答案让人有点意外: 完全 没有。 Google 在 I/O 上明确表示,这副眼镜跨平台支持 Android 和 iPhone,和 Meta 的策略完全一致。三星的发言人 Jay Kim 强调的整合方向是“Galaxy 设备生态”,也就是 Galaxy 手机、Galaxy Watch、Galaxy XR 头显之间的协同,但是跟 Google Pixel 却什么都没有做。 对比一下你就知道这有多奇怪了: 苹果已经发布的 Vision Pro 以及传闻中的 AI 眼镜会和 iPhone、AirPods、Apple Watch 深度绑定,构成一个完整的苹果穿戴矩阵,深度绑定到甚至不支持 Android 手机连接。 Meta 的眼镜虽然跨平台,但和 Meta 自己的 WhatsApp、Instagram、Facebook Messenger 强绑定,构成软件生态闭环。 而 Google 这次的选择,是既没有 Pixel 硬件闭环,也没有任何应用闭环,它有的只是 Gemini 助手,和你手机上已经有的那个 Gemini 是同一个,甚至和 iPhone 上下一个 Gemini App 也没什么差别。 图源:Google 所以站在消费者角度的问题就变成了: 如果我已经在用 Gemini App 了,多花几百到上千美元买一副眼镜把它戴到脸上,能带来多少实质的体验提升? 这个问题 Google 目前还没有给出答案。 咋这么爱跟三星合作 Google 这次合作伙伴关系里最容易被忽略的一个品牌是三星。 去年 10 月,三星和 Google 一起发布了对标 Vision Pro 的 Galaxy XR 头显——售价 1799 美元,搭载 Android XR,整合 Gemini,被 Google 定义为“Android XR 平台的第一款消费级产品”。 图源:Google 它的市场反响怎么样? “上脸后能听到明显的风扇声、眼球和手势识别不精准、缺少让人眼前一亮的应用”是我这半年来听到过最多的评价。甚至不少 Google 的死忠粉在购买了 Galaxy XR 后体验了一段时间果断退货,有人甚至评价说它的整体体验像 5 年前微软搞 Windows Mixed Reality。 图源:网络 虽然我还没有实际的体验过 Galaxy XR,但主流平台上对它的这番评价可不是个好兆头。因为今天发布的这副 AI 眼镜,用的是同一套合作框架,三星负责硬件,Google 负责软件和 AI。 Galaxy XR 上暴露出来的问题其实可以拆解成两类:硬件细节(重量、风扇、追踪精度)是三星的责任;软件体验(Gemini 反应慢、应用生态几乎为 0) 的责任在Google。这两个公司在头显上各自的表现都不够好,凭什么相信他们在更难做的 AI 眼镜上能突然变得更好? 我倒不是说这副眼镜一定会失败, 但是 Google 没有给出任何理由让人相信它会成功。 Meta 已经占据全球智能眼镜市场约 82% 的份额,2025 年卖出超过 700 万副 AI 眼镜,在前不久还推出了专门为戴处方镜片人群设计的 Blayzer/Scriber Optics,2026 年内还会推出 Prada 版以及第二代 Display,是一台正在加速行驶的列车。 Google 在这个时间点入场必须接受一个现实: 这副眼镜上 不可能在 2026 年实现销量突破 ,最现实的目标是 用 Android XR 平台 + 多眼镜品牌合作 + Gemini AI ,在 Meta 之外给消费者另外一种选择。 但是坦白讲,从 Google I/O 2026 上展示的内容来看,那个选择还没有出现。 查看评论

v2ex · 2026-05-10 23:19:49+08:00 · tech

距上次在 V2EX 介绍 AutoLXB (原 LXB-Framework ) 后,这段时间主要围绕任务路线的沉淀和复用做了一轮更新。 项目地址: https://github.com/wuwei-crg/AutoLXB 演示视频: https://www.bilibili.com/video/BV114RbBfEou 上一次的文章: https://www.v2ex.com/t/1203836 0. AutoLXB 能干什么 AutoLXB 是一款安卓手机自动化助手,目标不是让模型在手机里“自由探索”,而是尽量把可复用的操作流程沉淀下来。 它能够完成这些任务: 每天固定时间打开某个 App 签到 收到指定通知后自动回复消息 跑通一次后,把路线保存下来,后续优先复用 例如: 打开贴吧,一键签到 打开 Bilibili ,发布一条图文动态 打开瑞幸咖啡,点一杯指定咖啡 收到通知后,进入对应 App 回复消息 界面展示: 1. 任务路线沉淀 AutoLXB 的任务执行大致是:先尝试复用任务路线,路线无法完成时再进入视觉执行。 第一次执行任务时,系统会记录模型的动作,根据模型动作与页面 XML 融合沉淀出路线。可以在编辑器里删掉无关步骤,保存成该任务的路线。之后再跑同一个任务,会优先回放路线,减少模型调用,提升稳定性。 任务路线沉淀流程图 同一任务,有无路线复用的速度对比 2. 任务导入 / 导出 现在支持把已经跑通并保存路线的任务导出为便携 JSON 文件,导入到另一台设备使用。 导出的内容是:任务信息 + 任务路线。 对于导出任务,AutoLXB 不会简单导出本机坐标。如果某些步骤只能靠坐标执行,导出时会尽量转换成语义描述;导入到另一台设备后,再通过视觉模型适配成本机可用的路线步骤。 仓库里放了几个示例任务( sample_tasks/),包括到瑞幸点单、贴吧签到、B 站发动态,可以直接下载导入到自己的应用尝试 欢迎下载体验,有问题欢迎提 issue ,觉得有用可以点个 star ,十分感谢。

v2ex · 2026-05-07 09:11:54+08:00 · tech

Vibe Coding 了一个小玩具:Based Dino 。 这是一个用 TypeScript 复刻的 Chrome 离线小恐龙游戏,尽量保持原版 chrome://dino 的玩法和手感:空格起跳、下键下蹲、撞到障碍物后 Game Over 。 不过这次不只是复刻玩法,还顺手加了几个原版没有的能力: 排行榜:每局结束后可以提交分数,并在页面里查看当前排名。 Replay:点击 Replay 可以重放上一局,重新看到自己刚才是怎么跳、怎么躲、怎么撞上的。 服务端校验:排行榜不是简单相信前端上报的分数,而是会在服务端重新跑一遍模拟。 这里最有意思的地方是防作弊。 如果排行榜只接收一个 score ,前端随便改请求就能刷榜。所以我让前端在 Game Over 后提交的不只是分数,还包括这一局的随机种子、输入轨迹、结束帧数和配置哈希。Cloudflare Workers 收到后,会用同一套模拟逻辑 replay 一遍:只有服务端算出来的分数、帧数和客户端上报结果一致,才会写入排行榜。 而 Replay 功能也是从这套机制里自然长出来的:既然已经记录了随机种子和输入轨迹,那就可以用同样的 seed 重建同一局游戏,再按原来的帧序列把操作重放出来。 当前部署在 Cloudflare Pages & Workers 上,排行榜数据存在 Cloudflare D1 里。 体验链接 https://based-dino.lvhuiyang.cn 后续 后面想继续把它往链上玩一下。项目叫 Based Dino ,也是因为我打算把排行榜这类需要公开记录的数据迁到 Base 链上; Cloudflare Workers 只负责校验,最终结果由链上来保存。 等完成后续这部分逻辑后考虑进行开源。 欢迎来试试,也欢迎挑战一下排行榜并给出意见/建议。

linux.do · 2026-04-30 21:29:01+08:00 · tech

开源推广声明 (点击了解更多详细信息) 做了个可以记录tool call具体参数的cli工具,用于审计敏感信息是否泄漏或给他人复现bug等等 命名参照了飞机的黑匣子,意图是记录mcp运行中的各种参数,对自己coding agent各种操作有所把控 像删表、读env这类操作会被自动识别并标记 并支持敏感信息脱敏,可放心分享报告页面 [!success]1 [!warning]危险操作识别示例 [!warning]敏感信息脱敏 目前时间有点赶,项目介绍先写这些,后续继续补充 [!example]仓库地址 GitHub - teee32/mcp-flight-recorder: Flight recorder and replay debugger for MCP stdio servers. · GitHub 1 个帖子 - 1 位参与者 阅读完整话题

linux.do · 2026-04-30 18:50:20+08:00 · tech

与 @Sophomores 折腾了一轮 CCTV / 央视频的播放和下载链路, 最后稳定跑通 战绩: 点播 直播 (央视频 1080p 直播) 回放 脚本: scripts.zip (21.4 KB) 整体思路: CCTV 点播: 从 MSE 后置边界拿 clean 数据 cctv.com 点播这条, 直接抓源站 HLS 容易花屏. 一些看起来像最终地址的 hls_h5e_url / hls_enc_url , 直接下载并不稳定. 稳定方案是: 浏览器打开官方点播页面. 让官方播放器正常完成调度和媒体处理. 在 SourceBuffer.appendBuffer 附近接管 MSE 后置数据. 按 seek 分段捕获. 用 ffmpeg -c copy 拼接成 MP4. 用 decode log 做最终验证. 这条已经验证过大熊猫那个点播视频, 720p clean, decode log 为 0. 央视频直播: 1080p 可以, 但当前仍需要浏览器链路 央视频 1080p 直播目前稳定做法是浏览器后置接管: 浏览器打开央视频直播页. 官方播放器完成鉴权, 调度, 清晰度选择和媒体处理. 本地脚本接管 MSE 后置音视频片段. 用 ffmpeg 重新封装成本地 HLS. PotPlayer 或 ffmpeg 访问本地 HLS. 本地播放地址类似: http://127.0.0.1:8899/live.m3u8 PotPlayer 打开这个地址就能播放. ffmpeg 打这个地址就能保存当前直播. 直播保存是实时录制当前直播, 不是下载过去回放. 直播 1080p 链路里的调度, 鉴权, cKey, 清晰度选择, 解密或解封装仍由官方播放器动态完成. 我没有独立复刻整套播放器算法, 而是在它产出可播放媒体后接管. 央视频历史回看: 反而可以不用浏览器 历史回看一开始也试过 Web/H5 路线, 但 Web 侧基本只暴露当前直播信息: PC 页面主要给当前直播. player-api 返回当前直播 playurl . 给当前 HLS 加 timeshift 参数无效. 部分 timeshift 地址 403. Web 侧没有稳定暴露历史媒体 URL. 后来换方向看 Android App, 找到 App-native JCE 接口. 关键接口是: POST https://jacc.ysp.cctv.cn cmd = 25312 name = PidTimeShift 请求核心字段: pid sid starttime endtime stream 以 CCTV1 为例: pid = 600001859 sid = 2024078201 stream = fhd stream=fhd 时服务端返回历史 VOD m3u8, 实测是 1080p 线路, 类似: 2024078203.m3u8 这个 m3u8 是标准历史 HLS, 里面能看到: #EXT-X-PLAYLIST-TYPE:VOD #EXT-X-PROGRAM-DATE-TIME 所以历史回看这条不需要浏览器状态, 不需要登录, 不需要 cookie, 不需要 localStorage. 拿到历史 m3u8 后直接交给 ffmpeg remux 就行. 我这边已经验证过过去 24h 到过去 23h 的 20min 1080p 样本: h264 1920x1080 25fps aac decode log 为 0 目前脚本: 能力/功能 当前状态 备注 cctv.com 点播下载 已实现 已验证 720p clean 央视频直播 1080p 下载 已实现 实时保存, 不是回放 央视频历史回看下载 已实现 可指定过去时间窗口, 已验证 1080p PotPlayer 播放直播 已实现 本地 HLS 地址播放 安装教程 (由AI总结): INSTALL.zip (804 字节) 感言: 在此我们感谢 GPT 5.5, DeepSeek V4 Pro, DeepSeek V4 Flash, Opus 4.6 (ermm, 算了给他面子),感谢 Claude Code, JSHOOK 等等吧,还有人类的我们 @dkly2004 和 @Sophomores 1 个帖子 - 1 位参与者 阅读完整话题