v1.7 - WWW.YOUINFO.SITE - WWW.YOUINFO.SITE

Chrome 扩展 DualPiP v1.7- 给任意网页视频加实时字幕 — 直播/网课/无字幕视频都能用

LinuxDo 最新话题 · 2026-06-02 14:19:19+08:00 · tech

很多时候想看的视频没有字幕：直播回放、没人翻译的网课、国外新闻直播、番剧。之前只能靠听。 DualPiP 最近 v1.7 更新加了 ASR（自动语音识别）实时字幕功能。原理通过浏览器的音频捕获 API 获取视频音频流，发送到 Deepgram 云端通过 WebSocket 实时转写。也支持本地部署的 Whisper 服务器。预加载模式无延迟，实时字幕延迟大约 300ms。 Deepgram 为新注册用户提供 $200 免费额度，注册全程无需绑定任何支付方式。按 nova-3 模型 $0.007/分钟计算，$200 额度足够转录约 476 小时音频 ——相当于看 238 部 2 小时电影适用场景直播没字幕：YouTube/Twitch 直播大多没有实时字幕，DualPiP 可以实时生成网课录像：大学网课很多没有字幕，开了 ASR 就有了看生肉番：为没有字幕的番剧，自动生成字幕，学外语：ASR 生成的字幕可以直接走 AI 翻译生成双语字幕，看英语直播时显示英文+中文字幕 ASR 实时流和预下载批量模式有什么区别？ DualPiP ASR 提供两种音频捕获和识别模式，适应不同的观看场景：实时流模式（WebSocket Streaming）音频通过 WebSocket 实时发送到 Deepgram 服务器，字幕延迟低于 300ms，几乎和说话同步。Deepgram 的 Interim Results 功能还会在最终结果出来前提供临时识别结果，让字幕出现得更快。适合直播、视频会议、实时内容等需要即时反馈的场景。预下载批量模式（Pre-download + HTTP Batch） DualPiP 先将视频音频预下载并按时间段分割，然后通过 HTTP 请求批量发送到 ASR 服务进行离线识别。适合已发布的视频内容——可以在观看前提前生成完整字幕，播放时完全无延迟。预下载模式同时支持 Deepgram 云端和本地 Whisper 后端。对比实时流模式预下载批量模式延迟 < 300ms 预下载完成后零延迟适合场景直播、实时内容、会议已发布的视频、需要完整字幕支持后端 Deepgram（WebSocket） Deepgram + 本地 Whisper 字幕完整性实时生成，偶有遗漏完整覆盖全部音频内容如何用 ASR 字幕配合 AI 翻译生成实时双语字幕？ DualPiP 的 ASR 和AI 翻译可以配合使用，为任何语言的在线视频实时生成双语字幕。这解决了一个传统字幕无法覆盖的场景：视频没有原生字幕，但你需要看双语字幕学外语。 ASR + AI 翻译的工作流程 ASR 实时识别原文：Deepgram 将视频音频转录为原语言文字字幕 AI 大模型实时翻译：DualPiP 的 AI 翻译引擎将 ASR 生成的字幕翻译为目标语言双语字幕同时显示：原文和译文以双语字幕的形式叠加在视频上方为什么 ASR 字幕翻译强烈推荐使用 AI 大模型？ ASR 生成的字幕与传统字幕文件不同——ASR 字幕是实时识别的语音转录，可能存在断句不完整、口语化表达多、专有名词无上下文等问题。 AI 大模型翻译（DeepSeek、GPT、Claude 等）在翻译 ASR 字幕时显著优于传统机翻（Google、Microsoft），原因在于：对比维度传统机翻（Google/Microsoft） AI 大模型翻译（DeepSeek/GPT/Claude）上下文理解逐句翻译，无前后文信息 DualPiP 发送最近 N 条字幕作为上下文历史口语化处理直译口语，生硬不通顺理解口语语境，翻译自然流畅断句补全 ASR 断句不完整时翻译错乱能结合上下文补全语义，正确翻译专有名词频繁翻错人名、术语结合 DualPiP 的影片信息增强识别语气还原机械直译保留说话者语气和表达风格 DualPiP 的 AI 翻译引擎使用滑动窗口上下文机制：每次翻译 ASR 字幕时，会将前面已翻译的字幕作为对话历史一起发送给 AI，让翻译结果前后一致、上下文连贯。这在 ASR 场景下尤其重要——因为语音识别的断句和传统字幕不同，AI 需要结合前文才能正确理解当前句子的含义。适合的使用场景场景说明看无字幕外语视频学语言 ASR 识别原文 + AI 翻译为母语，双语对照学习看直播或实时内容直播没有预制字幕，ASR 实时生成 + AI 实时翻译学术讲座和在线课程部分课程无字幕或仅有英文字幕，ASR + AI 生成中文翻译播客和访谈节目纯音频内容通过 ASR 可视化为文字，再翻译为目标语言 DualPiP 支持30+ AI 翻译服务商，用户可以根据翻译质量和费用自由选择。推荐使用 DeepSeek V4 Flash （性价比高，翻译一部电影约 ¥0.2-0.5）。哪些视频网站可以用 DualPiP ASR 自动生成字幕？ DualPiP ASR 基于浏览器的 Audio Capture API 捕获音频，理论上可以为任何在 Chrome 中播放的视频自动生成字幕。对于没有原生字幕的视频（如很多直播内容、小众平台视频、用户上传的无字幕视频），ASR 是获取字幕的唯一途径。常见问题 Q：ASR 实时语音识别的准确率怎么样？ Deepgram nova-3 模型在英语上的词错误率（WER）低于 8%，是 2026 年最准确的实时语音识别模型之一。中文、日语等语言的识别准确率同样出色。识别效果受音频质量、说话人口音和背景噪音影响，纯语音内容的识别效果最佳。 Q：ASR 是 DualPiP 的免费功能还是 PRO 功能？ DualPiP 基础功能免费，AI 翻译和 ASR 需要登录后开通 PRO后使用。 ASR 实时字幕是 PRO 功能。DualPiP 的 YouTube 网页内双语字幕和基础画中画播放器免费使用，ASR、 AI 翻译等高级功能需要购买PRO。首次注册免费开通 7 天 PRO Q：能识别视频中的多种语言混合吗？ Deepgram 的 Multilingual 模式支持在同一段音频中自动检测和切换语言，适合多语言混合的访谈、播客和教学内容。本地 Whisper 后端也支持语言自动检测，但切换精度低于 Deepgram。下载 Chrome Web Store: https://chromewebstore.google.com/detail/dualpip/ddkmobcljbfggkmibabekgpbighaogpn 1 个帖子 - 1 位参与者阅读完整话题

[推广] Chrome 扩展 DualPiP v1.7- 给任意网页视频加实时字幕 — 直播/网课/无字幕视频都能用

v2ex · 2026-06-02 14:13:34+08:00 · tech

很多时候想看的视频没有字幕：直播回放、没人翻译的网课、国外新闻直播、番剧。之前只能靠听。 DualPiP 最近 v1.7 更新加了 ASR （自动语音识别）实时字幕功能。原理通过浏览器的音频捕获 API 获取视频音频流，发送到 Deepgram 云端通过 WebSocket 实时转写。也支持本地部署的 Whisper 服务器。预加载模式无延迟，实时字幕延迟大约 300ms 。 Deepgram 为新注册用户提供 **$200 免费额度**，注册全程无需绑定任何支付方式。按 nova-3 模型 $0.007/分钟计算，$200 额度足够转录约 476 小时音频 ——相当于看 238 部 2 小时电影适用场景直播没字幕：YouTube/Twitch 直播大多没有实时字幕，DualPiP 可以实时生成网课录像：大学网课很多没有字幕，开了 ASR 就有了看生肉番：为没有字幕的番剧，自动生成字幕，学外语：ASR 生成的字幕可以直接走 AI 翻译生成双语字幕，看英语直播时显示英文+中文字幕 ASR 实时流和预下载批量模式有什么区别？ DualPiP ASR 提供两种音频捕获和识别模式，适应不同的观看场景：实时流模式（ WebSocket Streaming ）音频通过 WebSocket 实时发送到 Deepgram 服务器，字幕延迟低于 300ms ，几乎和说话同步。Deepgram 的 Interim Results 功能还会在最终结果出来前提供临时识别结果，让字幕出现得更快。适合直播、视频会议、实时内容等需要即时反馈的场景。预下载批量模式（ Pre-download + HTTP Batch ） DualPiP 先将视频音频预下载并按时间段分割，然后通过 HTTP 请求批量发送到 ASR 服务进行离线识别。适合已发布的视频内容——可以在观看前提前生成完整字幕，播放时完全无延迟。预下载模式同时支持 Deepgram 云端和本地 Whisper 后端。对比实时流模式预下载批量模式延迟 < 300ms 预下载完成后零延迟适合场景直播、实时内容、会议已发布的视频、需要完整字幕支持后端 Deepgram （ WebSocket ） Deepgram + 本地 Whisper 字幕完整性实时生成，偶有遗漏完整覆盖全部音频内容如何用 ASR 字幕配合 AI 翻译生成实时双语字幕？ DualPiP 的 ASR 和 AI 翻译可以配合使用，为任何语言的在线视频实时生成双语字幕。这解决了一个传统字幕无法覆盖的场景：视频没有原生字幕，但你需要看双语字幕学外语。 ASR + AI 翻译的工作流程 ASR 实时识别原文：Deepgram 将视频音频转录为原语言文字字幕 AI 大模型实时翻译：DualPiP 的 AI 翻译引擎将 ASR 生成的字幕翻译为目标语言双语字幕同时显示：原文和译文以双语字幕的形式叠加在视频上方为什么 ASR 字幕翻译强烈推荐使用 AI 大模型？ ASR 生成的字幕与传统字幕文件不同——ASR 字幕是实时识别的语音转录，可能存在断句不完整、口语化表达多、专有名词无上下文等问题。 AI 大模型翻译（ DeepSeek 、GPT 、Claude 等）在翻译 ASR 字幕时显著优于传统机翻（ Google 、Microsoft ），原因在于：对比维度传统机翻（ Google/Microsoft ） AI 大模型翻译（ DeepSeek/GPT/Claude ）上下文理解逐句翻译，无前后文信息 DualPiP 发送最近 N 条字幕作为上下文历史口语化处理直译口语，生硬不通顺理解口语语境，翻译自然流畅断句补全 ASR 断句不完整时翻译错乱能结合上下文补全语义，正确翻译专有名词频繁翻错人名、术语结合 DualPiP 的影片信息增强识别语气还原机械直译保留说话者语气和表达风格 DualPiP 的 AI 翻译引擎使用滑动窗口上下文机制：每次翻译 ASR 字幕时，会将前面已翻译的字幕作为对话历史一起发送给 AI ，让翻译结果前后一致、上下文连贯。这在 ASR 场景下尤其重要——因为语音识别的断句和传统字幕不同，AI 需要结合前文才能正确理解当前句子的含义。适合的使用场景场景说明看无字幕外语视频学语言 ASR 识别原文 + AI 翻译为母语，双语对照学习看直播或实时内容直播没有预制字幕，ASR 实时生成 + AI 实时翻译学术讲座和在线课程部分课程无字幕或仅有英文字幕，ASR + AI 生成中文翻译播客和访谈节目纯音频内容通过 ASR 可视化为文字，再翻译为目标语言 DualPiP 支持 30+ AI 翻译服务商，用户可以根据翻译质量和费用自由选择。推荐使用 DeepSeek V4 Flash （性价比高，翻译一部电影约 ¥0.2-0.5 ）。哪些视频网站可以用 DualPiP ASR 自动生成字幕？ DualPiP ASR 基于浏览器的 Audio Capture API 捕获音频，理论上可以为任何在 Chrome 中播放的视频自动生成字幕。对于没有原生字幕的视频（如很多直播内容、小众平台视频、用户上传的无字幕视频），ASR 是获取字幕的唯一途径。常见问题 Q：ASR 实时语音识别的准确率怎么样？ Deepgram nova-3 模型在英语上的词错误率（ WER ）低于 8%，是 2026 年最准确的实时语音识别模型之一。中文、日语等语言的识别准确率同样出色。识别效果受音频质量、说话人口音和背景噪音影响，纯语音内容的识别效果最佳。 Q：ASR 是 DualPiP 的免费功能还是 PRO 功能？ DualPiP 基础功能免费，AI 翻译和 ASR 需要登录后开通 PRO 后使用。 ASR 实时字幕是 PRO 功能。DualPiP 的 YouTube 网页内双语字幕和基础画中画播放器免费使用，ASR 、AI 翻译等高级功能需要购买 PRO 。首次注册免费开通 7 天 PRO Q：能识别视频中的多种语言混合吗？ Deepgram 的 Multilingual 模式支持在同一段音频中自动检测和切换语言，适合多语言混合的访谈、播客和教学内容。本地 Whisper 后端也支持语言自动检测，但切换精度低于 Deepgram 。下载 Chrome Web Store: https://chromewebstore.google.com/detail/dualpip/ddkmobcljbfggkmibabekgpbighaogpn

[分享创造] TaskTick：用「快捷访问」管理所有项目的启动脚本，再也不用开终端了

v2ex · 2026-05-07 21:58:56+08:00 · tech

TaskTick v1.7.0 发布 —— 全局快捷访问 + 手动脚本管理 + 永不超时搞程序开发通常散落着大量启动脚本：项目的 dev.sh 、调试工具、一次性维护命令。每次执行都需要切到终端、 cd 到目录、敲命令——流程零碎，且打断当前工作。 TaskTick v1.7.0 围绕这一痛点进行重构，新增三项能力：全局快速访问、仅手动触发任务、永不超时。一、全局快速访问（⌘⌥T ）在任意应用内按下 ⌘⌥T ，唤起 Spotlight 风格的搜索面板，定位并执行任意脚本。面板支持模糊匹配——例如输入 dlbk 可命中 daily-backup ，无需记住完整名称。按键功能 ↑ ↓ 在结果列表中选择 ↵ 上下文相关：空闲任务执行、运行中任务停止 ⌘R 重启选中任务 esc 关闭面板关键特性：运行中任务自动置顶，并以绿色指示器标注「执行中」，便于快速定位与管理。 MRU 排序：最近从面板启动的任务自动靠前，常用项稳定停留在第一屏。不打断当前工作流：唤起面板不激活 TaskTick 、不弹出主窗口、不切换上下文。中文输入兼容：输入法合成期间不响应快捷键，避免选字回车被误识别为执行。可自定义快捷键：默认 ⌘⌥T ，可在设置中重新录制。二、仅手动触发任务调度页面新增「仅手动触发」开关。开启后，任务不再进入定时调度器，仅通过手动方式（图标按钮、右键菜单、快速访问）运行。适用场景：项目启动脚本（ npm run dev 、 docker compose up 等）一次性维护命令（缓存清理、数据同步、依赖重置）调试与开发辅助工具主窗口列表与状态栏菜单会自动按自动调度 / 手动脚本分组展示。配合快速访问使用，可将各项目的启动脚本集中登记一次（包含工作目录、Shell 、环境变量），后续仅需一组快捷键即可启动，无需进入终端。三、永不超时将任务超时时间设为 -1 （或任意负数）即视为无超时，脚本将持续运行直至自身退出或被手动停止。适合 dev server 、文件监听等常驻进程。为避免长时间运行的任务阻塞调度器，无超时任务不占用执行并发槽位。四、其他改进 Toast 反馈：快速访问的启动、停止、重启操作均会在屏幕底部显示提示。通知权限引导：当系统通知被禁用时，弹出对话框并提供跳转系统设置的入口。运行状态统一：状态栏菜单、任务列表、详情页与快速访问中的运行指示器已完全同步。僵尸日志清理：应用启动时自动处理上次会话残留的「运行中」日志。悬停停止按钮：详情页「最近执行」中的运行中条目支持悬停停止。下载访问官网获取最新版本： https://lifedever.github.io/TaskTick/ 或使用 Homebrew 安装（推荐，可跟随版本更新）： brew install --cask lifedever/tap/task-tick 系统要求：macOS 14 及以上。相关链接官网： https://lifedever.github.io/TaskTick/ GitHub： https://github.com/lifedever/TaskTick 完整发布说明： https://github.com/lifedever/TaskTick/releases/tag/v1.7.0