回放 - WWW.YOUINFO.SITE - WWW.YOUINFO.SITE

Chrome 扩展 DualPiP v1.7- 给任意网页视频加实时字幕 — 直播/网课/无字幕视频都能用

LinuxDo 最新话题 · 2026-06-02 14:19:19+08:00 · tech

很多时候想看的视频没有字幕：直播回放、没人翻译的网课、国外新闻直播、番剧。之前只能靠听。 DualPiP 最近 v1.7 更新加了 ASR（自动语音识别）实时字幕功能。原理通过浏览器的音频捕获 API 获取视频音频流，发送到 Deepgram 云端通过 WebSocket 实时转写。也支持本地部署的 Whisper 服务器。预加载模式无延迟，实时字幕延迟大约 300ms。 Deepgram 为新注册用户提供 $200 免费额度，注册全程无需绑定任何支付方式。按 nova-3 模型 $0.007/分钟计算，$200 额度足够转录约 476 小时音频 ——相当于看 238 部 2 小时电影适用场景直播没字幕：YouTube/Twitch 直播大多没有实时字幕，DualPiP 可以实时生成网课录像：大学网课很多没有字幕，开了 ASR 就有了看生肉番：为没有字幕的番剧，自动生成字幕，学外语：ASR 生成的字幕可以直接走 AI 翻译生成双语字幕，看英语直播时显示英文+中文字幕 ASR 实时流和预下载批量模式有什么区别？ DualPiP ASR 提供两种音频捕获和识别模式，适应不同的观看场景：实时流模式（WebSocket Streaming）音频通过 WebSocket 实时发送到 Deepgram 服务器，字幕延迟低于 300ms，几乎和说话同步。Deepgram 的 Interim Results 功能还会在最终结果出来前提供临时识别结果，让字幕出现得更快。适合直播、视频会议、实时内容等需要即时反馈的场景。预下载批量模式（Pre-download + HTTP Batch） DualPiP 先将视频音频预下载并按时间段分割，然后通过 HTTP 请求批量发送到 ASR 服务进行离线识别。适合已发布的视频内容——可以在观看前提前生成完整字幕，播放时完全无延迟。预下载模式同时支持 Deepgram 云端和本地 Whisper 后端。对比实时流模式预下载批量模式延迟 < 300ms 预下载完成后零延迟适合场景直播、实时内容、会议已发布的视频、需要完整字幕支持后端 Deepgram（WebSocket） Deepgram + 本地 Whisper 字幕完整性实时生成，偶有遗漏完整覆盖全部音频内容如何用 ASR 字幕配合 AI 翻译生成实时双语字幕？ DualPiP 的 ASR 和AI 翻译可以配合使用，为任何语言的在线视频实时生成双语字幕。这解决了一个传统字幕无法覆盖的场景：视频没有原生字幕，但你需要看双语字幕学外语。 ASR + AI 翻译的工作流程 ASR 实时识别原文：Deepgram 将视频音频转录为原语言文字字幕 AI 大模型实时翻译：DualPiP 的 AI 翻译引擎将 ASR 生成的字幕翻译为目标语言双语字幕同时显示：原文和译文以双语字幕的形式叠加在视频上方为什么 ASR 字幕翻译强烈推荐使用 AI 大模型？ ASR 生成的字幕与传统字幕文件不同——ASR 字幕是实时识别的语音转录，可能存在断句不完整、口语化表达多、专有名词无上下文等问题。 AI 大模型翻译（DeepSeek、GPT、Claude 等）在翻译 ASR 字幕时显著优于传统机翻（Google、Microsoft），原因在于：对比维度传统机翻（Google/Microsoft） AI 大模型翻译（DeepSeek/GPT/Claude）上下文理解逐句翻译，无前后文信息 DualPiP 发送最近 N 条字幕作为上下文历史口语化处理直译口语，生硬不通顺理解口语语境，翻译自然流畅断句补全 ASR 断句不完整时翻译错乱能结合上下文补全语义，正确翻译专有名词频繁翻错人名、术语结合 DualPiP 的影片信息增强识别语气还原机械直译保留说话者语气和表达风格 DualPiP 的 AI 翻译引擎使用滑动窗口上下文机制：每次翻译 ASR 字幕时，会将前面已翻译的字幕作为对话历史一起发送给 AI，让翻译结果前后一致、上下文连贯。这在 ASR 场景下尤其重要——因为语音识别的断句和传统字幕不同，AI 需要结合前文才能正确理解当前句子的含义。适合的使用场景场景说明看无字幕外语视频学语言 ASR 识别原文 + AI 翻译为母语，双语对照学习看直播或实时内容直播没有预制字幕，ASR 实时生成 + AI 实时翻译学术讲座和在线课程部分课程无字幕或仅有英文字幕，ASR + AI 生成中文翻译播客和访谈节目纯音频内容通过 ASR 可视化为文字，再翻译为目标语言 DualPiP 支持30+ AI 翻译服务商，用户可以根据翻译质量和费用自由选择。推荐使用 DeepSeek V4 Flash （性价比高，翻译一部电影约 ¥0.2-0.5）。哪些视频网站可以用 DualPiP ASR 自动生成字幕？ DualPiP ASR 基于浏览器的 Audio Capture API 捕获音频，理论上可以为任何在 Chrome 中播放的视频自动生成字幕。对于没有原生字幕的视频（如很多直播内容、小众平台视频、用户上传的无字幕视频），ASR 是获取字幕的唯一途径。常见问题 Q：ASR 实时语音识别的准确率怎么样？ Deepgram nova-3 模型在英语上的词错误率（WER）低于 8%，是 2026 年最准确的实时语音识别模型之一。中文、日语等语言的识别准确率同样出色。识别效果受音频质量、说话人口音和背景噪音影响，纯语音内容的识别效果最佳。 Q：ASR 是 DualPiP 的免费功能还是 PRO 功能？ DualPiP 基础功能免费，AI 翻译和 ASR 需要登录后开通 PRO后使用。 ASR 实时字幕是 PRO 功能。DualPiP 的 YouTube 网页内双语字幕和基础画中画播放器免费使用，ASR、 AI 翻译等高级功能需要购买PRO。首次注册免费开通 7 天 PRO Q：能识别视频中的多种语言混合吗？ Deepgram 的 Multilingual 模式支持在同一段音频中自动检测和切换语言，适合多语言混合的访谈、播客和教学内容。本地 Whisper 后端也支持语言自动检测，但切换精度低于 Deepgram。下载 Chrome Web Store: https://chromewebstore.google.com/detail/dualpip/ddkmobcljbfggkmibabekgpbighaogpn 1 个帖子 - 1 位参与者阅读完整话题

Google的AI眼镜来得太晚了而且我看不到买它的理由

cnBeta全文版 · 2026-05-23 14:36:02+08:00 · tech

如果你打开今年 Google I/O 2026 的回放，会发现一件很奇怪的事：Sundar Pichai 和 Shahram Izadi 在主题演讲中花了大量篇幅介绍和三星、Gentle Monster、Warby Parker 合作的“Intelligent Eyewear 智能眼镜”，还试图把它定义成 Android XR 战略最重要的硬件落点。图源：网络我从这副眼镜身上记住的只有两件事：它是没有光波导显示功能的基础的 AI 眼镜；秋天上市，规格现在完全不知道。这就是 Google 这场活动最尴尬的地方：在 AI 眼镜这条赛道已经被 Meta 提前抢跑了两年、被 Rokid 和夸克从多方面夹击的今天，Google 在 I/O 主舞台上做的居然还是一次概念预告，而不是一场产品的正式发布。而且更尴尬的是，当你把这副眼镜和市面上所有其他智能眼镜并排放在一起时，很难讲清楚消费者为什么必须买它。 Google 这次到底端出了什么在开喷之前我得先说明，在 I/O 2026 上，Google 实际上发布了三款 Android XR 眼镜，分别是：图源：不客观实验室今天要讨论的“Google AI 眼镜”是表格里上面那两款，至于 Xreal 咱们过几天再说。这两款产品用的是同一套硬件平台、同一套 Android XR 系统、同一颗 Gemini 大脑，只是套了两个不同的设计师外观，一款 Gentle Monster 的墨镜款，一款 Warby Parker 的近视镜款。图源：Google 图源：Google 据 Google 和三星给出的信息，它们能做的事情包括：实时翻译（号称能匹配说话者的语气）、Google Maps 导航、消息摘要、日历事件添加、附近餐厅推荐、拍照录像、Gemini 语音助手。图源：Google 读到这里你大概已经发现问题了，这些功能里没有任何一项是独占的，市面上所有的 AI 眼镜都做得到。咱们一个一个来说： Meta Ray-Ban / Oakley Meta ：支持 Meta AI 实时翻译、Google Maps 导航、3K 高清摄像、Instagram/WhatsApp 社交媒体集成、消息摘要提示、Conversation Focus 噪声环境对话增强、Neural Handwriting 手势打字、电话实时字幕。并且带显示屏和肌电手环的 Ray-Ban Display 已经在 2025 年 9 月以 799 美元开售。 Rokid Glasses / Rokid AI Glasses Style ：光波导 AR 显示、多个 AI 集成的智能助手、89 种语言翻译、Google Maps 导航、高清摄像、支付宝支付、企业级提词器功能。小米 AI 眼镜：超级小爱助手、Snapdragon AR1 + BES2700 协处理器、高清摄像、电致变色镜片、支付宝支付、与小米手机摄像头联动直播。阿里夸克 AI 眼镜：通义大模型加持的智能助手、光波导 AR 显示、淘宝/支付宝深度集成、高清摄像。 Google + 三星 Intelligent Eyewear（2026 年秋上市，价格未定）：Gemini AI、Google Maps 导航、实时翻译、消息摘要、高清摄像。目前已知的功能列表里，没有一项是别人没做过的。唯一可以说“Google 略胜一筹”的地方，是 Gemini 在多模态理解、上下文记忆和实时翻译保留语气这几个细节上，理论上比 Meta AI 要强一些。但“理论上”三个字其实很危险——因为去年同样跑着 Gemini 的 Galaxy XR 头显，外媒给出的评价是：当它说出 “ 让我帮你查一下”之后的长时间停顿，让 Gemini 不像一个智能助手，更像一个用 Google 搜索来掩饰自己不专业的实习生。时尚这块，Meta 也快有 Prada 了 Google 这次最被津津乐道的，是和 Gentle Monster、Warby Parker 的合作。这是两个分别在亚洲和北美年轻人群里有真正影响力的眼镜品牌。Google 为此花了真金白银：1 亿美元投资 Gentle Monster 拿 4% 股权，1.5 亿美元投资 Warby Parker。图源：Google 这个布局确实不错，但 Meta 和依视路其实已经在做同样的事，而且做得更大。众所周知，依视路是全球最大的眼镜集团，旗下不只有 Ray-Ban 和 Oakley，还握着 Prada、Miu Miu、Burberry、Chanel、Ralph Lauren、Versace、Tiffany 等几十个奢侈品牌的眼镜授权。Meta 在 2025 年 7 月以 35 亿美元买下了依视路接近 3% 的股份，这个投入和 Google 给两个独立品牌的合计 2.5 亿美元完全不是一个数量级。在今年 2 月的米兰时装周，扎克伯格夫妇坐在了 Prada 秋冬大秀的前排，旁边是 Prada 首席市场官 Lorenzo Bertelli。图源：网络不客观实验室早在 2025 年夏天就报道过 Meta 在和依视路联合开发 Prada 版 AI 眼镜，大概率在今年下半年到 2027 年发布。图源：网络也就是说， Google 用 Gentle Monster 和 Warby Parker 试图建立的“AI 眼镜也可以是时尚单品”这个故事，Meta 不仅能复制，而且手里的牌更多。Ray-Ban 是时尚单品的代名词，Prada 是奢侈品级别的时尚单品，Oakley 则是运动潮流。Google 拿到的两个品牌都很好，但显然不如 Meta+依视路这种级别的组合。如果 Google 这副眼镜的核心卖点真是“比 Meta 时尚”，那它可就真的彻底完蛋了。 Google 自己放弃了 Pixel 的整合在发布之前我还在想，Google 的 AI 眼镜会不会和 Pixel 手机有更深的联动？毕竟这是 Google 作为一家硬件 + 软件 + AI 全栈公司，理论上最容易打的牌。答案让人有点意外：完全没有。 Google 在 I/O 上明确表示，这副眼镜跨平台支持 Android 和 iPhone，和 Meta 的策略完全一致。三星的发言人 Jay Kim 强调的整合方向是“Galaxy 设备生态”，也就是 Galaxy 手机、Galaxy Watch、Galaxy XR 头显之间的协同，但是跟 Google Pixel 却什么都没有做。对比一下你就知道这有多奇怪了：苹果已经发布的 Vision Pro 以及传闻中的 AI 眼镜会和 iPhone、AirPods、Apple Watch 深度绑定，构成一个完整的苹果穿戴矩阵，深度绑定到甚至不支持 Android 手机连接。 Meta 的眼镜虽然跨平台，但和 Meta 自己的 WhatsApp、Instagram、Facebook Messenger 强绑定，构成软件生态闭环。而 Google 这次的选择，是既没有 Pixel 硬件闭环，也没有任何应用闭环，它有的只是 Gemini 助手，和你手机上已经有的那个 Gemini 是同一个，甚至和 iPhone 上下一个 Gemini App 也没什么差别。图源：Google 所以站在消费者角度的问题就变成了：如果我已经在用 Gemini App 了，多花几百到上千美元买一副眼镜把它戴到脸上，能带来多少实质的体验提升？这个问题 Google 目前还没有给出答案。咋这么爱跟三星合作 Google 这次合作伙伴关系里最容易被忽略的一个品牌是三星。去年 10 月，三星和 Google 一起发布了对标 Vision Pro 的 Galaxy XR 头显——售价 1799 美元，搭载 Android XR，整合 Gemini，被 Google 定义为“Android XR 平台的第一款消费级产品”。图源：Google 它的市场反响怎么样？ “上脸后能听到明显的风扇声、眼球和手势识别不精准、缺少让人眼前一亮的应用”是我这半年来听到过最多的评价。甚至不少 Google 的死忠粉在购买了 Galaxy XR 后体验了一段时间果断退货，有人甚至评价说它的整体体验像 5 年前微软搞 Windows Mixed Reality。图源：网络虽然我还没有实际的体验过 Galaxy XR，但主流平台上对它的这番评价可不是个好兆头。因为今天发布的这副 AI 眼镜，用的是同一套合作框架，三星负责硬件，Google 负责软件和 AI。 Galaxy XR 上暴露出来的问题其实可以拆解成两类：硬件细节（重量、风扇、追踪精度）是三星的责任；软件体验（Gemini 反应慢、应用生态几乎为 0）的责任在Google。这两个公司在头显上各自的表现都不够好，凭什么相信他们在更难做的 AI 眼镜上能突然变得更好？我倒不是说这副眼镜一定会失败，但是 Google 没有给出任何理由让人相信它会成功。 Meta 已经占据全球智能眼镜市场约 82% 的份额，2025 年卖出超过 700 万副 AI 眼镜，在前不久还推出了专门为戴处方镜片人群设计的 Blayzer/Scriber Optics，2026 年内还会推出 Prada 版以及第二代 Display，是一台正在加速行驶的列车。 Google 在这个时间点入场必须接受一个现实：这副眼镜上不可能在 2026 年实现销量突破，最现实的目标是用 Android XR 平台 + 多眼镜品牌合作 + Gemini AI ，在 Meta 之外给消费者另外一种选择。但是坦白讲，从 Google I/O 2026 上展示的内容来看，那个选择还没有出现。查看评论

[分享创造] AutoLXB 安卓自动化助手更新：支持任务路线记录、回放与跨设备导入导出，探索自动化任务跨设备复用方案

v2ex · 2026-05-10 23:19:49+08:00 · tech

距上次在 V2EX 介绍 AutoLXB （原 LXB-Framework ）后，这段时间主要围绕任务路线的沉淀和复用做了一轮更新。项目地址： https://github.com/wuwei-crg/AutoLXB 演示视频： https://www.bilibili.com/video/BV114RbBfEou 上一次的文章： https://www.v2ex.com/t/1203836 0. AutoLXB 能干什么 AutoLXB 是一款安卓手机自动化助手，目标不是让模型在手机里“自由探索”，而是尽量把可复用的操作流程沉淀下来。它能够完成这些任务：每天固定时间打开某个 App 签到收到指定通知后自动回复消息跑通一次后，把路线保存下来，后续优先复用例如：打开贴吧，一键签到打开 Bilibili ，发布一条图文动态打开瑞幸咖啡，点一杯指定咖啡收到通知后，进入对应 App 回复消息界面展示： 1. 任务路线沉淀 AutoLXB 的任务执行大致是：先尝试复用任务路线，路线无法完成时再进入视觉执行。第一次执行任务时，系统会记录模型的动作，根据模型动作与页面 XML 融合沉淀出路线。可以在编辑器里删掉无关步骤，保存成该任务的路线。之后再跑同一个任务，会优先回放路线，减少模型调用，提升稳定性。任务路线沉淀流程图同一任务，有无路线复用的速度对比 2. 任务导入 / 导出现在支持把已经跑通并保存路线的任务导出为便携 JSON 文件，导入到另一台设备使用。导出的内容是：任务信息 + 任务路线。对于导出任务，AutoLXB 不会简单导出本机坐标。如果某些步骤只能靠坐标执行，导出时会尽量转换成语义描述；导入到另一台设备后，再通过视觉模型适配成本机可用的路线步骤。仓库里放了几个示例任务（ sample_tasks/），包括到瑞幸点单、贴吧签到、B 站发动态，可以直接下载导入到自己的应用尝试欢迎下载体验，有问题欢迎提 issue ，觉得有用可以点个 star ，十分感谢。

[分享创造] [Based Dino] 复刻 Chrome 小恐龙，并给它加上排行榜、回放和服务端校验

v2ex · 2026-05-07 09:11:54+08:00 · tech

Vibe Coding 了一个小玩具：Based Dino 。这是一个用 TypeScript 复刻的 Chrome 离线小恐龙游戏，尽量保持原版 chrome://dino 的玩法和手感：空格起跳、下键下蹲、撞到障碍物后 Game Over 。不过这次不只是复刻玩法，还顺手加了几个原版没有的能力：排行榜：每局结束后可以提交分数，并在页面里查看当前排名。 Replay：点击 Replay 可以重放上一局，重新看到自己刚才是怎么跳、怎么躲、怎么撞上的。服务端校验：排行榜不是简单相信前端上报的分数，而是会在服务端重新跑一遍模拟。这里最有意思的地方是防作弊。如果排行榜只接收一个 score ，前端随便改请求就能刷榜。所以我让前端在 Game Over 后提交的不只是分数，还包括这一局的随机种子、输入轨迹、结束帧数和配置哈希。Cloudflare Workers 收到后，会用同一套模拟逻辑 replay 一遍：只有服务端算出来的分数、帧数和客户端上报结果一致，才会写入排行榜。而 Replay 功能也是从这套机制里自然长出来的：既然已经记录了随机种子和输入轨迹，那就可以用同样的 seed 重建同一局游戏，再按原来的帧序列把操作重放出来。当前部署在 Cloudflare Pages & Workers 上，排行榜数据存在 Cloudflare D1 里。体验链接 https://based-dino.lvhuiyang.cn 后续后面想继续把它往链上玩一下。项目叫 Based Dino ，也是因为我打算把排行榜这类需要公开记录的数据迁到 Base 链上； Cloudflare Workers 只负责校验，最终结果由链上来保存。等完成后续这部分逻辑后考虑进行开源。欢迎来试试，也欢迎挑战一下排行榜并给出意见/建议。

MCP 黑匣子：记录真实 Agent 会话，标记危险 tool call，并回放复现

linux.do · 2026-04-30 21:29:01+08:00 · tech

开源推广声明（点击了解更多详细信息）做了个可以记录tool call具体参数的cli工具，用于审计敏感信息是否泄漏或给他人复现bug等等命名参照了飞机的黑匣子，意图是记录mcp运行中的各种参数，对自己coding agent各种操作有所把控像删表、读env这类操作会被自动识别并标记并支持敏感信息脱敏，可放心分享报告页面 [!success]1 [!warning]危险操作识别示例 [!warning]敏感信息脱敏目前时间有点赶，项目介绍先写这些，后续继续补充 [!example]仓库地址 GitHub - teee32/mcp-flight-recorder: Flight recorder and replay debugger for MCP stdio servers. · GitHub 1 个帖子 - 1 位参与者阅读完整话题

央视 (CCTV) 点播/直播/回放下载脚本 | 五一快乐！

linux.do · 2026-04-30 18:50:20+08:00 · tech

与 @Sophomores 折腾了一轮 CCTV / 央视频的播放和下载链路, 最后稳定跑通战绩：点播直播（央视频 1080p 直播）回放脚本： scripts.zip (21.4 KB) 整体思路： CCTV 点播: 从 MSE 后置边界拿 clean 数据 cctv.com 点播这条, 直接抓源站 HLS 容易花屏. 一些看起来像最终地址的 hls_h5e_url / hls_enc_url , 直接下载并不稳定. 稳定方案是: 浏览器打开官方点播页面. 让官方播放器正常完成调度和媒体处理. 在 SourceBuffer.appendBuffer 附近接管 MSE 后置数据. 按 seek 分段捕获. 用 ffmpeg -c copy 拼接成 MP4. 用 decode log 做最终验证. 这条已经验证过大熊猫那个点播视频, 720p clean, decode log 为 0. 央视频直播: 1080p 可以, 但当前仍需要浏览器链路央视频 1080p 直播目前稳定做法是浏览器后置接管: 浏览器打开央视频直播页. 官方播放器完成鉴权, 调度, 清晰度选择和媒体处理. 本地脚本接管 MSE 后置音视频片段. 用 ffmpeg 重新封装成本地 HLS. PotPlayer 或 ffmpeg 访问本地 HLS. 本地播放地址类似: http://127.0.0.1:8899/live.m3u8 PotPlayer 打开这个地址就能播放. ffmpeg 打这个地址就能保存当前直播. 直播保存是实时录制当前直播, 不是下载过去回放. 直播 1080p 链路里的调度, 鉴权, cKey, 清晰度选择, 解密或解封装仍由官方播放器动态完成. 我没有独立复刻整套播放器算法, 而是在它产出可播放媒体后接管. 央视频历史回看: 反而可以不用浏览器历史回看一开始也试过 Web/H5 路线, 但 Web 侧基本只暴露当前直播信息: PC 页面主要给当前直播. player-api 返回当前直播 playurl . 给当前 HLS 加 timeshift 参数无效. 部分 timeshift 地址 403. Web 侧没有稳定暴露历史媒体 URL. 后来换方向看 Android App, 找到 App-native JCE 接口. 关键接口是: POST https://jacc.ysp.cctv.cn cmd = 25312 name = PidTimeShift 请求核心字段: pid sid starttime endtime stream 以 CCTV1 为例: pid = 600001859 sid = 2024078201 stream = fhd stream=fhd 时服务端返回历史 VOD m3u8, 实测是 1080p 线路, 类似: 2024078203.m3u8 这个 m3u8 是标准历史 HLS, 里面能看到: #EXT-X-PLAYLIST-TYPE:VOD #EXT-X-PROGRAM-DATE-TIME 所以历史回看这条不需要浏览器状态, 不需要登录, 不需要 cookie, 不需要 localStorage. 拿到历史 m3u8 后直接交给 ffmpeg remux 就行. 我这边已经验证过过去 24h 到过去 23h 的 20min 1080p 样本: h264 1920x1080 25fps aac decode log 为 0 目前脚本：能力/功能当前状态备注 cctv.com 点播下载已实现已验证 720p clean 央视频直播 1080p 下载已实现实时保存, 不是回放央视频历史回看下载已实现可指定过去时间窗口, 已验证 1080p PotPlayer 播放直播已实现本地 HLS 地址播放安装教程（由AI总结）： INSTALL.zip (804 字节) 感言：在此我们感谢 GPT 5.5, DeepSeek V4 Pro, DeepSeek V4 Flash, Opus 4.6 (ermm, 算了给他面子），感谢 Claude Code, JSHOOK 等等吧，还有人类的我们 @dkly2004 和 @Sophomores 1 个帖子 - 1 位参与者阅读完整话题

/tag/回放