Voil - WWW.YOUINFO.SITE - WWW.YOUINFO.SITE

[🎙 Voilà 接管你的嘴] Voilà 您终端 vibe coding 的最佳伴侣

v2ex · 2026-05-15 05:42:18+08:00 · tech

纯手工码字，之前经过语音润色过的帖子遭到了 V 友的批评，这次手工码字了。这次修改时间挺长，做了一个比较有意思的新功能。大家提到了很多关于上屏的问题——在终端里输入错了，修改非常麻烦。Voilà 在这里做了一个自认为完美的解决方案，这个思路市面上应该还没人做过。 Voilà 不只是一个语音输入法，它的定位是日常的伙伴。这次新功能叫延迟上屏吧,发现识别错误了，直接人工纠正就好，不需要 AI 润色(voilà 是一个日常的工具,人才是工具的主体)。目的是越用越顺，因为这是我们每天都在用的工具。废话不多说，直接看视频，这样最直观, 欢迎新老用户更新到 v1.3.0, voilà. 特殊授权,欢迎邮件里聊聊你自己就好——做过的项目、踩过的坑、写过的代码，甚至自己的生活，都可以。我会认真回复。杜绝 "大佬，给个码呗","我有需要" 引用一位用户的邮件,分享一下个人的小巧思. 1. 人在说话的时候，可能在一句话中间停顿，进行思考，然后继续说。豆包输入法能很好的识别这种停顿，但用 Voilà + Soniox 会把停顿识别为句号。 2. 英文单词前后没有加空格，有些人可能习惯加空格。为了解决这两个问题，我在润色 Prompt 里加了两条： 8. Check for unnecessary periods (。), remove them where the sentence should not be broken, and ensure no spaces are left behind after removal. 9. Add spaces around English words when needed for proper separation from adjacent non-English text. --- https://voilapro.app/

[🎙 Voilà 接管你的嘴] Voilà 您终端 vibe coding 的最佳伴侣

v2ex · 2026-05-15 00:00:10+08:00 · tech

纯手工码字，之前经过语音润色过的帖子遭到了 V 友的批评，这次手工码字了。这次修改时间挺长，做了一个比较有意思的新功能。大家提到了很多关于上屏的问题——在终端里输入错了，修改非常麻烦。Voilà 在这里做了一个自认为完美的解决方案，这个思路市面上应该还没人做过。 Voilà 不只是一个语音输入法，它的定位是日常的伙伴。这次新功能叫延迟上屏吧,发现识别错误了，直接人工纠正就好，不需要 AI 润色(voilà 是一个日常的工具,人才是工具的主体)。目的是越用越顺，因为这是我们每天都在用的工具。废话不多说，直接看视频，这样最直观, 欢迎新老用户更新到 v1.3.0, voilà. 特殊授权,欢迎邮件里聊聊你自己就好——做过的项目、踩过的坑、写过的代码，甚至自己的生活，都可以。我会认真回复。杜绝 "大佬，给个码呗","我有需要" 引用一位用户的邮件,分享一下个人的小巧思. 1. 人在说话的时候，可能在一句话中间停顿，进行思考，然后继续说。豆包输入法能很好的识别这种停顿，但用 Voilà + Soniox 会把停顿识别为句号。 2. 英文单词前后没有加空格，有些人可能习惯加空格。为了解决这两个问题，我在润色 Prompt 里加了两条： 8. Check for unnecessary periods (。), remove them where the sentence should not be broken, and ensure no spaces are left behind after removal. 9. Add spaces around English words when needed for proper separation from adjacent non-English text. --- https://voilapro.app/

[🎙 Voilà 接管你的嘴] Voilà 您终端 vibe coding 的最佳伴侣

v2ex · 2026-05-14 23:59:40+08:00 · tech

纯手工码字，之前经过语音润色过的帖子遭到了 V 友的批评，这次手工码字了。这次修改时间挺长，做了一个比较有意思的新功能。大家提到了很多关于上屏的问题——在终端里输入错了，修改非常麻烦。Voilà 在这里做了一个自认为完美的解决方案，这个思路市面上应该还没人做过。 Voilà 不只是一个语音输入法，它的定位是日常的伙伴。这次新功能叫延迟上屏吧,发现识别错误了，直接人工纠正就好，不需要 AI 润色(voilà 是一个日常的工具,人才是工具的主体)。目的是越用越顺，因为这是我们每天都在用的工具。废话不多说，直接看视频，这样最直观, 欢迎新老用户更新到 v1.3.0, voilà. 特殊授权,欢迎邮件里聊聊你自己就好——做过的项目、踩过的坑、写过的代码，甚至自己的生活，都可以。我会认真回复。杜绝 "大佬，给个码呗","我有需要" 引用一位用户的邮件,分享一下个人的小巧思. 1. 人在说话的时候，可能在一句话中间停顿，进行思考，然后继续说。豆包输入法能很好的识别这种停顿，但用 Voilà + Soniox 会把停顿识别为句号。 2. 英文单词前后没有加空格，有些人可能习惯加空格。为了解决这两个问题，我在润色 Prompt 里加了两条： 8. Check for unnecessary periods (。), remove them where the sentence should not be broken, and ensure no spaces are left behind after removal. 9. Add spaces around English words when needed for proper separation from adjacent non-English text. --- https://voilapro.app/

[🎙 Voilà 接管你的嘴] Voilà 您终端 vibe coding 的最佳伴侣

v2ex · 2026-05-14 22:54:25+08:00 · tech

纯手工码字，之前经过语音润色过的帖子遭到了 V 友的批评，这次手工码字了。这次修改时间挺长，做了一个比较有意思的新功能。大家提到了很多关于上屏的问题——在终端里输入错了，修改非常麻烦。Voilà 在这里做了一个自认为完美的解决方案，这个思路市面上应该还没人做过。 Voilà 不只是一个语音输入法，它的定位是日常的伙伴。这次新功能叫延迟上屏吧,发现识别错误了，直接人工纠正就好，不需要 AI 润色(voilà 是一个日常的工具,人才是工具的主体)。目的是越用越顺，因为这是我们每天都在用的工具。废话不多说，直接看视频，这样最直观, 欢迎新老用户更新到 v1.3.0, voilà.

[🎙 Voilà 接管你的嘴] Voilà 官网更新了 - 20260510

v2ex · 2026-05-11 01:12:19+08:00 · tech

Voilà 官网更新了, 正式把这几种授权方式写清楚给大家. 大家可能很好奇 Voilà 都有哪些授权, 以及如何获取"免费"特殊授权. 很多朋友留言, 求码, 有些朋友求码了,留了信箱,但是到目前为止仍然没有激活. 其实 Voilà 并不需要激活码来激活,只是有完整的功能. 试用期过了,仍可以使用离线模式. Voilà的初衷是一个日用的小工具,所以采取买断机制,不想做成订阅,所以都是可以离线激活的. 当然邮件里聊聊你自己就好——做过的项目、踩过的坑、写过的代码，甚至自己的生活，都可以。我会认真回复。"大佬，给个码呗","我有需要" 这种就免了。对了这个是最新的字幕模式,方便无字幕电影观看,以及留学网课,是独创的. 还有更多的功能正在开发中,比如上屏前的优化. 毕竟 Voilà 的定位是一个日常使用的工具,vibe coding 甚至是网课的伙伴. 另外抱歉最近更新的频繁,因为有朋友私信到了一些小巧思,我觉得建议需要吸收. 之前有用 ai 帮着润色了一片文章, 遭到了一位 v 友的不满, 我这里也郑重道歉. 至于 changelog 我也注明是 ai 总结,方便大家区分,不足之处见谅 https://voilapro.app/changelog 本文手敲,没有 Voilà, 没有 ai 这样的文字会更真诚. 对了现在最新的稳定版在 v1.2.0, 1.1.x 的朋友可以顺手更新了 :) Voilà, c'est tout

[🎙 Voilà 语音输入] 收到一些邮件后，我决定把 Voilà 的「隐藏授权」正式贴出来

v2ex · 2026-05-09 06:50:35+08:00 · tech

我做了一个叫 Voilà 的 macOS 语音输入小工具，最近更新到 v1.2.0 （官网 voilapro.app ）。按理说 V2EX 不应该来频繁发帖，但今天想分享的不是产品，是一件让我有点感动的事。一直有个「隐藏授权」 Voilà 从设计的时候就规划了一个不公开的档位 —— 给真正想用、或者帮过我的人留的。之前一直没正式宣传，因为我觉得「邀请」这件事就该低调点。该来的人，自然会来。起因这几天授权送完之后,陆陆续续收到一些邮件。有的写得很认真 —— 介绍自己是谁、做什么的、为什么想试。有的就寥寥几句，但能看出是真心想试。我一封一封认真回复了。回完之后我突然意识到一件事 —— 这种「和真实的人聊几句」的过程，本来就是我做这个工具最舒服的部分。比起 LemonSqueezy 后台那本来就没多少行的销售记录，收到一封写着「 Voilà App 授权申请」的邮件，要让我开心得多。在此期间也碰到了一起奋斗过,还有正在奋斗的朋友们, 加油 💪🏻 所以我决定：把它正式贴到官网上把一直在但没公开过的这个档位，正式放到价格区，跟「试用版 / 早鸟授权 / PRO 授权」并列。这不是新加的价格档。是给：帮助改进过 Voilà 的贡献者 Beta 测试用户开源软件作者 macOS 开发者（欢迎拿自己的产品互换授权）价格写的是「免费」，但徽章是个问号。边界不接受「大佬给个码呗」「我有需要」这种邮件欢迎邮件里聊聊你自己——做过的项目、踩过的坑、写过的代码，甚至自己的生活我会认真回复几句坦诚实际付费用户不多——我没在做「风口」早期发出去的 license 大部分是赠送给朋友 / Beta 测试者 / 开源作者的之所以现在贴出「隐藏授权」，就是希望「邀请人发邮件」这件事更可见一点联系方式官网： voilapro.app 试用：DMG 直接下载，30 天全功能体验，无需信用卡邮件： [email protected] 如果你看完想随便聊聊（不一定是为了 license ），也欢迎。 Voilà ~

[Voilà c'est la vie !] Voilà 的小故事 (2)

v2ex · 2026-05-08 02:57:46+08:00 · tech

上一篇结尾我说，按住一个键，说话，松开，文字出现。Voilà 。听起来挺简单。真做下去才发现，要让一个东西看起来简单，挺贵的。第一版做出来，从按下快捷键到真正开始录音，中间大概要等 1 秒。第一次用的人察觉不到，我自己用一天就受不了——那点延迟正好踩在"按下"和"开始说话"之间，整个动作变成在跟系统打商量。 CGEvent 冷启动、AVAudioEngine 建链路、WebSocket 握手……每一项单独都说得通，加在一起就把"按下就说话"打穿了。办法不优雅，就是把它们提前做掉，挂在那等用户来按。听起来理所当然。但"理所当然"这四个字其实挺贵的——背后全是日夜在研究"古法编程"的最佳实践。状态打开设置你会发现 UI 简陋得像个毛胚房，因为时间都花在了悬浮窗上。一共做了三种风格，背景也开放给用户自己调。毕竟每天都要盯着看，得先让自己看着舒服。真正的测试每天用它最猛的是我自己。打字、终端、甚至开会。我们公司开会全程法语，快得要死。一句没跟上，整段就过去了。有一天突发奇想，把 Voilà 开着让它替我听——它听得比我清楚。我那位神奇的领导能一口气狂喷半小时，Voilà 稳稳接住。于是给它加了一个字幕模式。下次远程开会，按下，让它替你听。也得说一句，Voilà 在识别这一块站的是 Soniox 的肩膀。 Voilà, à plus.

[Voilà c'est la vie !] Voilà 的小故事 (1)

v2ex.com · 2026-05-06 07:09:16+08:00 · tech

故事得从 2024 年 10 月讲起。那时候我和一个 C 开头的朋友，在做一个量(爆)化(仓)机器人。网格、加仓、对冲、永续，参数调得花里胡哨，回测曲线漂亮得能裱起来。两个礼拜上线，名字起得很有气势，现在想起来有点不好意思。当时我们甚至一度冲到了交易所前排。然后，11 月的某个周四凌晨，SOL 来了一根针。系统非常忠实地执行了我们写好的逻辑：在错误的方向上继续加仓，并且以惊人的纪律性，把账户余额清零了。复盘之后才发现，问题不是什么玄学，也不是市场突然变坏，而是代码里一个不起眼的小瑕疵。那个瑕疵在回测曲线上看不出来，在上线之前也没人觉得它会真的发生。直到它发生。那段时间学到的最贵一课就是： AI 一时爽，爆仓火葬场。爆仓之后怎么办？按理说应该哭天喊地，或者找个人背锅。但后来想想，没什么意思。C 同学也不是外包背锅侠，他和我一样，都是这个项目的一部分。真正的问题不在某个人，而在于我们把太多信任交给了一个自己还没有完全掌控的系统。也是从那之后，我开始重新思考自己和 AI 工具的关系。过去这一两年，所谓“氛围编程”变了好几轮。最早大家讲 Prompt Engineering ，后来开始讲 Context Engineering ，现在又开始讲 Harness Engineering 。每隔一段时间就有新工具、新概念、新工作流。但不管工具怎么变，有一件事一直没变：我需要反复和 AI 说清楚我要什么。尤其是用 Claude Code 这类工具的时候，很多时候不是代码写不出来，而是我要在终端里打一大段上下文、一大段要求、一大段解释。白纸黑字，纯靠键盘，时间久了就很烦。我开始想，有没有可能把这件事变得自然一点？不是再做一个复杂的 AI Agent 来学习你的行为，也不是让 AI 替我思考，而是先解决一个最朴素的问题：我能不能直接把想法说出来？ V2EX 社区碰到了老蔡的 LazyTyper,它证明了这件事确实有价值：对着电脑说话，然后把文字送进输入框，这个体验本身很自然。但用下来之后，我还是遇到了一些问题。比如输入突然中断，状态突然没响应，按下快捷键之后还要等一会儿才真正开始录音。对一个高频工具来说，这些小卡顿会被放大很多倍。语音输入最重要的不是“能不能识别”，而是“跟不跟手”。我想要的体验很简单：按下一个键，立刻开始说话。哪怕网络还在连接，哪怕界面还显示正在准备，也应该先把声音录下来。松开之后，文字很快出现在光标所在的地方。所以最后我决定自己做一个。因为主要使用场景就是 macOS ，我没有选择跨平台方案，也没有用 Electron 。不是因为 Electron 不好，而是我想要一个真正贴近 macOS 的原生工具。它应该轻、快、稳定，像系统能力的一部分. 这就是 Voilà 最早的起点。在语音识别引擎上，我选择了 Soniox, 原因也很简单：它对我自己的使用场景足够友好。我常常会在中文、英文、法语之间切换，有时候一句话里还会夹杂一些产品名、变量名、命令、专有名词。Soniox 在这种混合语言场景里的实时识别表现很好。ElevenLabs 也不错，但 Soniox 的整体体验更贴近我想要的那种“边说边出来”的节奏。后来 Voilà 慢慢变成了一个我每天都在用的小工具。它没有太多花哨的东西。不是一个帮你自动写作的 AI ，也不是一个全能助手。它更像是一支顺手的笔。你负责思考，负责表达，负责判断。它只负责把你说的话，尽快、尽量准确地放到屏幕上。这也是我在那次爆仓之后慢慢形成的一个判断： AI 可以很强，但人必须还是主体。尤其是在写代码、做产品、和工具协作的时候， AI 不应该替你接管方向。它应该降低摩擦，让你的想法更快落地。 Voilà 做的就是这件小事。按住一个键，说话。松开。文字出现。Voilà. 这个名字其实也改过很多次。一开始它叫 FlowType ，一听就是程序员起的名字，准确，但没有那种“瞬间出现”的感觉,法语里 Voilà 是一个很有画面感的词。魔术师变完戏会说 Voilà,服务员把菜端上桌也会说 Voilà, 简短的字告诉你完活。你把一个东西完成、呈现、交到别人面前，也可以说 Voilà。这正好就是我想要的产品体验：想法说出口，文字出现在屏幕上 Voilà et bonne nuit

[Voilà c'est la vie !] Voilà 的小故事 (1)

v2ex.com · 2026-05-06 05:35:51+08:00 · tech

故事得从 2024 年 10 月讲起。那时候我和一个 C 开头的朋友，在做一个量(爆)化(仓)机器人。网格、加仓、对冲、永续，参数调得花里胡哨，回测曲线漂亮得能裱起来。两个礼拜上线，名字起得很有气势，现在想起来有点不好意思。当时我们甚至一度冲到了交易所前排。然后，11 月的某个周四凌晨，SOL 来了一根针。系统非常忠实地执行了我们写好的逻辑：在错误的方向上继续加仓，并且以惊人的纪律性，把账户余额清零了。复盘之后才发现，问题不是什么玄学，也不是市场突然变坏，而是代码里一个不起眼的小瑕疵。那个瑕疵在回测曲线上看不出来，在上线之前也没人觉得它会真的发生。直到它发生。那段时间学到的最贵一课就是： AI 一时爽，爆仓火葬场。爆仓之后怎么办？按理说应该哭天喊地，或者找个人背锅。但后来想想，没什么意思。C 同学也不是外包背锅侠，他和我一样，都是这个项目的一部分。真正的问题不在某个人，而在于我们把太多信任交给了一个自己还没有完全掌控的系统。也是从那之后，我开始重新思考自己和 AI 工具的关系。过去这一两年，所谓“氛围编程”变了好几轮。最早大家讲 Prompt Engineering ，后来开始讲 Context Engineering ，现在又开始讲 Harness Engineering 。每隔一段时间就有新工具、新概念、新工作流。但不管工具怎么变，有一件事一直没变：我需要反复和 AI 说清楚我要什么。尤其是用 Claude Code 这类工具的时候，很多时候不是代码写不出来，而是我要在终端里打一大段上下文、一大段要求、一大段解释。白纸黑字，纯靠键盘，时间久了就很烦。我开始想，有没有可能把这件事变得自然一点？不是再做一个复杂的 AI Agent 来学习你的行为，也不是让 AI 替我思考，而是先解决一个最朴素的问题：我能不能直接把想法说出来？ V2EX 社区碰到了老蔡的 LazyTyper,它证明了这件事确实有价值：对着电脑说话，然后把文字送进输入框，这个体验本身很自然。但用下来之后，我还是遇到了一些问题。比如输入突然中断，状态突然没响应，按下快捷键之后还要等一会儿才真正开始录音。对一个高频工具来说，这些小卡顿会被放大很多倍。语音输入最重要的不是“能不能识别”，而是“跟不跟手”。我想要的体验很简单：按下一个键，立刻开始说话。哪怕网络还在连接，哪怕界面还显示正在准备，也应该先把声音录下来。松开之后，文字很快出现在光标所在的地方。所以最后我决定自己做一个。因为主要使用场景就是 macOS ，我没有选择跨平台方案，也没有用 Electron 。不是因为 Electron 不好，而是我想要一个真正贴近 macOS 的原生工具。它应该轻、快、稳定，像系统能力的一部分. 这就是 Voilà 最早的起点。在语音识别引擎上，我选择了 Soniox, 原因也很简单：它对我自己的使用场景足够友好。我常常会在中文、英文、法语之间切换，有时候一句话里还会夹杂一些产品名、变量名、命令、专有名词。Soniox 在这种混合语言场景里的实时识别表现很好。ElevenLabs 也不错，但 Soniox 的整体体验更贴近我想要的那种“边说边出来”的节奏。后来 Voilà 慢慢变成了一个我每天都在用的小工具。它没有太多花哨的东西。不是一个帮你自动写作的 AI ，也不是一个全能助手。它更像是一支顺手的笔。你负责思考，负责表达，负责判断。它只负责把你说的话，尽快、尽量准确地放到屏幕上。这也是我在那次爆仓之后慢慢形成的一个判断： AI 可以很强，但人必须还是主体。尤其是在写代码、做产品、和工具协作的时候， AI 不应该替你接管方向。它应该降低摩擦，让你的想法更快落地。 Voilà 做的就是这件小事。按住一个键，说话。松开。文字出现。Voilà. 这个名字其实也改过很多次。一开始它叫 FlowType ，一听就是程序员起的名字，准确，但没有那种“瞬间出现”的感觉,法语里 Voilà 是一个很有画面感的词。魔术师变完戏会说 Voilà,服务员把菜端上桌也会说 Voilà, 简短的字告诉你完活。你把一个东西完成、呈现、交到别人面前，也可以说 Voilà。这正好就是我想要的产品体验：想法说出口，文字出现在屏幕上 Voilà et bonne nuit

[Voilà c'est la vie !] Voilà 的小故事 (1)

v2ex.com · 2026-05-06 05:35:51+08:00 · tech

故事得从 2024 年 10 月讲起。那时候我和一个 C 开头的朋友，在做一个量(爆)化(仓)机器人。网格、加仓、对冲、永续，参数调得花里胡哨，回测曲线漂亮得能裱起来。两个礼拜上线，名字起得很有气势，现在想起来有点不好意思。当时我们甚至一度冲到了交易所前排。然后，11 月的某个周四凌晨，SOL 来了一根针。系统非常忠实地执行了我们写好的逻辑：在错误的方向上继续加仓，并且以惊人的纪律性，把账户余额清零了。复盘之后才发现，问题不是什么玄学，也不是市场突然变坏，而是代码里一个不起眼的小瑕疵。那个瑕疵在回测曲线上看不出来，在上线之前也没人觉得它会真的发生。直到它发生。那段时间学到的最贵一课就是： AI 一时爽，爆仓火葬场。爆仓之后怎么办？按理说应该哭天喊地，或者找个人背锅。但后来想想，没什么意思。C 同学也不是外包背锅侠，他和我一样，都是这个项目的一部分。真正的问题不在某个人，而在于我们把太多信任交给了一个自己还没有完全掌控的系统。也是从那之后，我开始重新思考自己和 AI 工具的关系。过去这一两年，所谓“氛围编程”变了好几轮。最早大家讲 Prompt Engineering ，后来开始讲 Context Engineering ，现在又开始讲 Harness Engineering 。每隔一段时间就有新工具、新概念、新工作流。但不管工具怎么变，有一件事一直没变：我需要反复和 AI 说清楚我要什么。尤其是用 Claude Code 这类工具的时候，很多时候不是代码写不出来，而是我要在终端里打一大段上下文、一大段要求、一大段解释。白纸黑字，纯靠键盘，时间久了就很烦。我开始想，有没有可能把这件事变得自然一点？不是再做一个复杂的 AI Agent 来学习你的行为，也不是让 AI 替我思考，而是先解决一个最朴素的问题：我能不能直接把想法说出来？ V2EX 社区碰到了老蔡的 LazyTyper,它证明了这件事确实有价值：对着电脑说话，然后把文字送进输入框，这个体验本身很自然。但用下来之后，我还是遇到了一些问题。比如输入突然中断，状态突然没响应，按下快捷键之后还要等一会儿才真正开始录音。对一个高频工具来说，这些小卡顿会被放大很多倍。语音输入最重要的不是“能不能识别”，而是“跟不跟手”。我想要的体验很简单：按下一个键，立刻开始说话。哪怕网络还在连接，哪怕界面还显示正在准备，也应该先把声音录下来。松开之后，文字很快出现在光标所在的地方。所以最后我决定自己做一个。因为主要使用场景就是 macOS ，我没有选择跨平台方案，也没有用 Electron 。不是因为 Electron 不好，而是我想要一个真正贴近 macOS 的原生工具。它应该轻、快、稳定，像系统能力的一部分. 这就是 Voilà 最早的起点。在语音识别引擎上，我选择了 Soniox, 原因也很简单：它对我自己的使用场景足够友好。我常常会在中文、英文、法语之间切换，有时候一句话里还会夹杂一些产品名、变量名、命令、专有名词。Soniox 在这种混合语言场景里的实时识别表现很好。ElevenLabs 也不错，但 Soniox 的整体体验更贴近我想要的那种“边说边出来”的节奏。后来 Voilà 慢慢变成了一个我每天都在用的小工具。它没有太多花哨的东西。不是一个帮你自动写作的 AI ，也不是一个全能助手。它更像是一支顺手的笔。你负责思考，负责表达，负责判断。它只负责把你说的话，尽快、尽量准确地放到屏幕上。这也是我在那次爆仓之后慢慢形成的一个判断： AI 可以很强，但人必须还是主体。尤其是在写代码、做产品、和工具协作的时候， AI 不应该替你接管方向。它应该降低摩擦，让你的想法更快落地。 Voilà 做的就是这件小事。按住一个键，说话。松开。文字出现。Voilà. 这个名字其实也改过很多次。一开始它叫 FlowType ，一听就是程序员起的名字，准确，但没有那种“瞬间出现”的感觉,法语里 Voilà 是一个很有画面感的词。魔术师变完戏会说 Voilà,服务员把菜端上桌也会说 Voilà, 简短的字告诉你完活。你把一个东西完成、呈现、交到别人面前，也可以说 Voilà。这正好就是我想要的产品体验：想法说出口，文字出现在屏幕上 Voilà et bonne nuit

[Voilà c'est la vie !] Voilà 的小故事 (1)

v2ex.com · 2026-05-06 05:34:06+08:00 · tech

故事得从 2024 年 10 月讲起。那时候我和一个 C 开头的朋友，在做一个量(爆)化(仓)机器人。网格、加仓、对冲、永续，参数调得花里胡哨，回测曲线漂亮得能裱起来。两个礼拜上线，名字起得很有气势，现在想起来有点不好意思。当时我们甚至一度冲到了交易所前排。然后，11 月的某个周四凌晨，SOL 来了一根针。系统非常忠实地执行了我们写好的逻辑：在错误的方向上继续加仓，并且以惊人的纪律性，把账户余额清零了。复盘之后才发现，问题不是什么玄学，也不是市场突然变坏，而是代码里一个不起眼的小瑕疵。那个瑕疵在回测曲线上看不出来，在上线之前也没人觉得它会真的发生。直到它发生。那段时间学到的最贵一课就是： AI 一时爽，爆仓火葬场。爆仓之后怎么办？按理说应该哭天喊地，或者找个人背锅。但后来想想，没什么意思。C 同学也不是外包背锅侠，他和我一样，都是这个项目的一部分。真正的问题不在某个人，而在于我们把太多信任交给了一个自己还没有完全掌控的系统。也是从那之后，我开始重新思考自己和 AI 工具的关系。过去这一两年，所谓“氛围编程”变了好几轮。最早大家讲 Prompt Engineering ，后来开始讲 Context Engineering ，现在又开始讲 Harness Engineering 。每隔一段时间就有新工具、新概念、新工作流。但不管工具怎么变，有一件事一直没变：我需要反复和 AI 说清楚我要什么。尤其是用 Claude Code 这类工具的时候，很多时候不是代码写不出来，而是我要在终端里打一大段上下文、一大段要求、一大段解释。白纸黑字，纯靠键盘，时间久了就很烦。我开始想，有没有可能把这件事变得自然一点？不是再做一个复杂的 AI Agent 来学习你的行为，也不是让 AI 替我思考，而是先解决一个最朴素的问题：我能不能直接把想法说出来？ V2EX 社区碰到了老蔡的 LazyTyper,它证明了这件事确实有价值：对着电脑说话，然后把文字送进输入框，这个体验本身很自然。但用下来之后，我还是遇到了一些问题。比如输入突然中断，状态突然没响应，按下快捷键之后还要等一会儿才真正开始录音。对一个高频工具来说，这些小卡顿会被放大很多倍。语音输入最重要的不是“能不能识别”，而是“跟不跟手”。我想要的体验很简单：按下一个键，立刻开始说话。哪怕网络还在连接，哪怕界面还显示正在准备，也应该先把声音录下来。松开之后，文字很快出现在光标所在的地方。所以最后我决定自己做一个。因为主要使用场景就是 macOS ，我没有选择跨平台方案，也没有用 Electron 。不是因为 Electron 不好，而是我想要一个真正贴近 macOS 的原生工具。它应该轻、快、稳定，像系统能力的一部分. 这就是 Voilà 最早的起点。在语音识别引擎上，我选择了 Soniox, 原因也很简单：它对我自己的使用场景足够友好。我常常会在中文、英文、法语之间切换，有时候一句话里还会夹杂一些产品名、变量名、命令、专有名词。Soniox 在这种混合语言场景里的实时识别表现很好。ElevenLabs 也不错，但 Soniox 的整体体验更贴近我想要的那种“边说边出来”的节奏。后来 Voilà 慢慢变成了一个我每天都在用的小工具。它没有太多花哨的东西。不是一个帮你自动写作的 AI ，也不是一个全能助手。它更像是一支顺手的笔。你负责思考，负责表达，负责判断。它只负责把你说的话，尽快、尽量准确地放到屏幕上。这也是我在那次爆仓之后慢慢形成的一个判断： AI 可以很强，但人必须还是主体。尤其是在写代码、做产品、和工具协作的时候， AI 不应该替你接管方向。它应该降低摩擦，让你的想法更快落地。 Voilà 做的就是这件小事。按住一个键，说话。松开。文字出现。Voilà. 这个名字其实也改过很多次。一开始它叫 FlowType ，一听就是程序员起的名字，准确，但没有那种“瞬间出现”的感觉,法语里 Voilà 是一个很有画面感的词。魔术师变完戏会说 Voilà,服务员把菜端上桌也会说 Voilà, 简短的字告诉你完活。你把一个东西完成、呈现、交到别人面前，也可以说 Voilà。这正好就是我想要的产品体验：想法说出口，文字出现在屏幕上 Voilà et bonne nuit

[分享创造] 五一假期写代码不想打字？ Mac 语音输入工具 Voilà，送 20 个免费授权

v2ex.com · 2026-05-03 17:32:32+08:00 · tech

Demo 为什么做这个去年迷上了 Claude Code ，但每次都要打字描述需求，有点累。市面上的语音输入工具试了一圈：要么贵、要么单语种、要么不支持润色，甚至粘贴到终端还会丢字。 6 个月前干脆自己做了一个，专注 macOS 语音输入。界面不花哨，但够实用，有需要可以试试。我的场景比较特殊：人在海外开发，中英法混用，一句话里频繁切换语言。这正好是大多数商业方案的痛点。目前已经完全融入日常工作流，每天触发上百次，用得很顺手。几个比较用心的点多引擎可选：Soniox / ElevenLabs / 火山引擎 / Groq Whisper / Apple Speech ，按需切换实时字幕浮窗：说话时能看到识别中的文字流，不用等结果出来才知道说错了 AI 自动润色：去口水词、补标点、修口误，置信度高时自动跳过润色省 200ms 延迟终端友好：Ghostty / iTerm2 / Kitty 通过 Accessibility API 直接走菜单粘贴，不会被 Cmd+V 事件丢字自定义词汇表：人名、专业术语强制替换，不会再把 "Soniox" 识别成 "骚扰客死" 隐私：本地优先，云端 STT 直连官方 API ，不经过我自己的服务器引擎怎么选如果你跟我一样要写英文代码注释、和海外团队对接、刷英文文档、中英混着说话，首选 Soniox 。这五个引擎我都跑了几个月，Soniox 是多语种混合识别最稳的一个： Soniox ：中英法日西自动切换，无需指定语种，首字延迟 ~1 秒，海外开发者 / 中英混说场景强推火山引擎：纯中文最准，但不支持混合识别，碰到英文单词会音译成汉字 Groq Whisper ：英文最强，但是 HTTP 批量识别不是流式，延迟高 ElevenLabs ：英文流式好，中文一般 Apple Speech ：完全本地，隐私最好，但中英混说会跳错语种试用期 30 天可以把这几个引擎挨个跑一遍，选最顺手的。仅支持 Apple Silicon （ M1 及以上）+ macOS 14 Sonoma 及以上 PS 不订阅、不联网激活、License 文件离线验证当然了，还有隐藏授权，比如说你想专门体验的老哥也可以信箱私,主要交个朋友. 20 个免费早鸟授权，先到先得，结账时输入折扣码 VOILAV2EX ，价格直接归零官网： https://voilapro.app 技术栈感兴趣的也欢迎聊：Swift + SwiftUI 、AVAudioEngine 抓音频、WebSocket 流式 STT 、Ed25519 离线 License 验签。

[分享创造] 五一假期写代码不想打字？ Mac 语音输入工具 Voilà，送 20 个免费授权

v2ex.com · 2026-05-03 17:32:02+08:00 · tech

Demo 为什么做这个去年迷上了 Claude Code ，但每次都要打字描述需求，有点累。市面上的语音输入工具试了一圈：要么贵、要么单语种、要么不支持润色，甚至粘贴到终端还会丢字。 6 个月前干脆自己做了一个，专注 macOS 语音输入。界面不花哨，但够实用，有需要可以试试。我的场景比较特殊：人在海外开发，中英法混用，一句话里频繁切换语言。这正好是大多数商业方案的痛点。目前已经完全融入日常工作流，每天触发上百次，用得很顺手。几个比较用心的点多引擎可选：Soniox / ElevenLabs / 火山引擎 / Groq Whisper / Apple Speech ，按需切换实时字幕浮窗：说话时能看到识别中的文字流，不用等结果出来才知道说错了 AI 自动润色：去口水词、补标点、修口误，置信度高时自动跳过润色省 200ms 延迟终端友好：Ghostty / iTerm2 / Kitty 通过 Accessibility API 直接走菜单粘贴，不会被 Cmd+V 事件丢字自定义词汇表：人名、专业术语强制替换，不会再把 "Soniox" 识别成 "骚扰客死" 隐私：本地优先，云端 STT 直连官方 API ，不经过我自己的服务器引擎怎么选如果你跟我一样要写英文代码注释、和海外团队对接、刷英文文档、中英混着说话，首选 Soniox 。这五个引擎我都跑了几个月，Soniox 是多语种混合识别最稳的一个： Soniox ：中英法日西自动切换，无需指定语种，首字延迟 ~1 秒，海外开发者 / 中英混说场景强推火山引擎：纯中文最准，但不支持混合识别，碰到英文单词会音译成汉字 Groq Whisper ：英文最强，但是 HTTP 批量识别不是流式，延迟高 ElevenLabs ：英文流式好，中文一般 Apple Speech ：完全本地，隐私最好，但中英混说会跳错语种试用期 30 天可以把这几个引擎挨个跑一遍，选最顺手的。仅支持 Apple Silicon （ M1 及以上）+ macOS 14 Sonoma 及以上 PS 不订阅、不联网激活、License 文件离线验证当然了，还有隐藏授权，比如说你想专门体验的老哥也可以信箱私,主要交个朋友. 20 个免费早鸟授权，先到先得，结账时输入折扣码 VOILAV2EX ，价格直接归零官网： https://voilapro.app 技术栈感兴趣的也欢迎聊：Swift + SwiftUI 、AVAudioEngine 抓音频、WebSocket 流式 STT 、Ed25519 离线 License 验签。

[分享创造] 五一假期写代码不想打字？ Mac 语音输入工具 Voilà，送 20 个免费授权

v2ex.com · 2026-05-03 17:30:02+08:00 · tech

Demo 为什么做这个去年迷上了 Claude Code ，但每次都要打字描述需求，有点累。市面上的语音输入工具试了一圈：要么贵、要么单语种、要么不支持润色，甚至粘贴到终端还会丢字。 6 个月前干脆自己做了一个，专注 macOS 语音输入。界面不花哨，但够实用，有需要可以试试。我的场景比较特殊：人在海外开发，中英法混用，一句话里频繁切换语言。这正好是大多数商业方案的痛点。目前已经完全融入日常工作流，每天触发上百次，用得很顺手。几个比较用心的点多引擎可选：Soniox / ElevenLabs / 火山引擎 / Groq Whisper / Apple Speech ，按需切换实时字幕浮窗：说话时能看到识别中的文字流，不用等结果出来才知道说错了 AI 自动润色：去口水词、补标点、修口误，置信度高时自动跳过润色省 200ms 延迟终端友好：Ghostty / iTerm2 / Kitty 通过 Accessibility API 直接走菜单粘贴，不会被 Cmd+V 事件丢字自定义词汇表：人名、专业术语强制替换，不会再把 "Soniox" 识别成 "骚扰客死" 隐私：本地优先，云端 STT 直连官方 API ，不经过我自己的服务器引擎怎么选如果你跟我一样要写英文代码注释、和海外团队对接、刷英文文档、中英混着说话，首选 Soniox 。这五个引擎我都跑了几个月，Soniox 是多语种混合识别最稳的一个： Soniox ：中英法日西自动切换，无需指定语种，首字延迟 ~1 秒，海外开发者 / 中英混说场景强推火山引擎：纯中文最准，但不支持混合识别，碰到英文单词会音译成汉字 Groq Whisper ：英文最强，但是 HTTP 批量识别不是流式，延迟高 ElevenLabs ：英文流式好，中文一般 Apple Speech ：完全本地，隐私最好，但中英混说会跳错语种试用期 30 天可以把这几个引擎挨个跑一遍，选最顺手的。仅支持 Apple Silicon （ M1 及以上）+ macOS 14 Sonoma 及以上 PS 不订阅、不联网激活、License 文件离线验证当然了，还有隐藏授权，比如说你想专门体验的老哥也可以信箱私,主要交个朋友. 20 个免费早鸟授权，先到先得，结账时输入折扣码 VOILAV2EX ，价格直接归零官网： https://voilapro.app 技术栈感兴趣的也欢迎聊：Swift + SwiftUI 、AVAudioEngine 抓音频、WebSocket 流式 STT 、Ed25519 离线 License 验签。

[分享创造] 五一假期写代码不想打字？ Mac 语音输入工具 Voilà，送 20 个免费授权

v2ex.com · 2026-05-03 17:27:02+08:00 · tech

Demo 为什么做这个去年迷上了 Claude Code ，但每次都要打字描述需求，有点累。市面上的语音输入工具试了一圈：要么贵、要么单语种、要么不支持润色，甚至粘贴到终端还会丢字。 6 个月前干脆自己做了一个，专注 macOS 语音输入。界面不花哨，但够实用，有需要可以试试。我的场景比较特殊：人在海外开发，中英法混用，一句话里频繁切换语言。这正好是大多数商业方案的痛点。目前已经完全融入日常工作流，每天触发上百次，用得很顺手。几个比较用心的点多引擎可选：Soniox / ElevenLabs / 火山引擎 / Groq Whisper / Apple Speech ，按需切换实时字幕浮窗：说话时能看到识别中的文字流，不用等结果出来才知道说错了 AI 自动润色：去口水词、补标点、修口误，置信度高时自动跳过润色省 200ms 延迟终端友好：Ghostty / iTerm2 / Kitty 通过 Accessibility API 直接走菜单粘贴，不会被 Cmd+V 事件丢字自定义词汇表：人名、专业术语强制替换，不会再把 "Soniox" 识别成 "骚扰客死" 隐私：本地优先，云端 STT 直连官方 API ，不经过我自己的服务器引擎怎么选如果你跟我一样要写英文代码注释、和海外团队对接、刷英文文档、中英混着说话，首选 Soniox 。这五个引擎我都跑了几个月，Soniox 是多语种混合识别最稳的一个： Soniox ：中英法日西自动切换，无需指定语种，首字延迟 ~1 秒，海外开发者 / 中英混说场景强推火山引擎：纯中文最准，但不支持混合识别，碰到英文单词会音译成汉字 Groq Whisper ：英文最强，但是 HTTP 批量识别不是流式，延迟高 ElevenLabs ：英文流式好，中文一般 Apple Speech ：完全本地，隐私最好，但中英混说会跳错语种试用期 30 天可以把这几个引擎挨个跑一遍，选最顺手的。仅支持 Apple Silicon （ M1 及以上）+ macOS 14 Sonoma 及以上 PS 不订阅、不联网激活、License 文件离线验证当然了，还有隐藏授权，比如说你想专门体验的老哥也可以信箱私,主要交个朋友. 20 个免费早鸟授权，先到先得，结账时输入折扣码 VOILAV2EX ，价格直接归零官网： https://voilapro.app 技术栈感兴趣的也欢迎聊：Swift + SwiftUI 、AVAudioEngine 抓音频、WebSocket 流式 STT 、Ed25519 离线 License 验签。

[分享创造] 五一假期写代码不想打字？ Mac 语音输入工具 Voilà，送 20 个免费授权

v2ex.com · 2026-05-03 17:26:32+08:00 · tech

Demo 为什么做这个去年迷上了 Claude Code ，但每次都要打字描述需求，有点累。市面上的语音输入工具试了一圈：要么贵、要么单语种、要么不支持润色，甚至粘贴到终端还会丢字。 6 个月前干脆自己做了一个，专注 macOS 语音输入。界面不花哨，但够实用，有需要可以试试。我的场景比较特殊：人在海外开发，中英法混用，一句话里频繁切换语言。这正好是大多数商业方案的痛点。目前已经完全融入日常工作流，每天触发上百次，用得很顺手。几个比较用心的点多引擎可选：Soniox / ElevenLabs / 火山引擎 / Groq Whisper / Apple Speech ，按需切换实时字幕浮窗：说话时能看到识别中的文字流，不用等结果出来才知道说错了 AI 自动润色：去口水词、补标点、修口误，置信度高时自动跳过润色省 200ms 延迟终端友好：Ghostty / iTerm2 / Kitty 通过 Accessibility API 直接走菜单粘贴，不会被 Cmd+V 事件丢字自定义词汇表：人名、专业术语强制替换，不会再把 "Soniox" 识别成 "骚扰客死" 隐私：本地优先，云端 STT 直连官方 API ，不经过我自己的服务器引擎怎么选如果你跟我一样要写英文代码注释、和海外团队对接、刷英文文档、中英混着说话，首选 Soniox 。这五个引擎我都跑了几个月，Soniox 是多语种混合识别最稳的一个： Soniox ：中英法日西自动切换，无需指定语种，首字延迟 ~1 秒，海外开发者 / 中英混说场景强推火山引擎：纯中文最准，但不支持混合识别，碰到英文单词会音译成汉字 Groq Whisper ：英文最强，但是 HTTP 批量识别不是流式，延迟高 ElevenLabs ：英文流式好，中文一般 Apple Speech ：完全本地，隐私最好，但中英混说会跳错语种试用期 30 天可以把这几个引擎挨个跑一遍，选最顺手的。仅支持 Apple Silicon （ M1 及以上）+ macOS 14 Sonoma 及以上 PS 不订阅、不联网激活、License 文件离线验证当然了，还有隐藏授权，比如说你想专门体验的老哥也可以信箱私,主要交个朋友. 20 个免费早鸟授权，先到先得，结账时输入折扣码 VOILAV2EX ，价格直接归零官网： https://voilapro.app 技术栈感兴趣的也欢迎聊：Swift + SwiftUI 、AVAudioEngine 抓音频、WebSocket 流式 STT 、Ed25519 离线 License 验签。

[分享创造] 五一假期写代码不想打字？ Mac 语音输入工具 Voilà，送 20 个免费授权

v2ex.com · 2026-05-03 17:25:32+08:00 · tech

Demo 为什么做这个去年迷上了 Claude Code ，但每次都要打字描述需求，有点累。市面上的语音输入工具试了一圈：要么贵、要么单语种、要么不支持润色，甚至粘贴到终端还会丢字。 6 个月前干脆自己做了一个，专注 macOS 语音输入。界面不花哨，但够实用，有需要可以试试。我的场景比较特殊：人在海外开发，中英法混用，一句话里频繁切换语言。这正好是大多数商业方案的痛点。目前已经完全融入日常工作流，每天触发上百次，用得很顺手。几个比较用心的点多引擎可选：Soniox / ElevenLabs / 火山引擎 / Groq Whisper / Apple Speech ，按需切换实时字幕浮窗：说话时能看到识别中的文字流，不用等结果出来才知道说错了 AI 自动润色：去口水词、补标点、修口误，置信度高时自动跳过润色省 200ms 延迟终端友好：Ghostty / iTerm2 / Kitty 通过 Accessibility API 直接走菜单粘贴，不会被 Cmd+V 事件丢字自定义词汇表：人名、专业术语强制替换，不会再把 "Soniox" 识别成 "骚扰客死" 隐私：本地优先，云端 STT 直连官方 API ，不经过我自己的服务器引擎怎么选如果你跟我一样要写英文代码注释、和海外团队对接、刷英文文档、中英混着说话，首选 Soniox 。这五个引擎我都跑了几个月，Soniox 是多语种混合识别最稳的一个： Soniox ：中英法日西自动切换，无需指定语种，首字延迟 ~1 秒，海外开发者 / 中英混说场景强推火山引擎：纯中文最准，但不支持混合识别，碰到英文单词会音译成汉字 Groq Whisper ：英文最强，但是 HTTP 批量识别不是流式，延迟高 ElevenLabs ：英文流式好，中文一般 Apple Speech ：完全本地，隐私最好，但中英混说会跳错语种试用期 30 天可以把这几个引擎挨个跑一遍，选最顺手的。仅支持 Apple Silicon （ M1 及以上）+ macOS 14 Sonoma 及以上 PS 不订阅、不联网激活、License 文件离线验证当然了，还有隐藏授权，比如说你想专门体验的老哥也可以信箱私,主要交个朋友. 20 个免费早鸟授权，先到先得，结账时输入折扣码 VOILAV2EX ，价格直接归零官网： https://voilapro.app 技术栈感兴趣的也欢迎聊：Swift + SwiftUI 、AVAudioEngine 抓音频、WebSocket 流式 STT 、Ed25519 离线 License 验签。

[分享创造] 五一假期写代码不想打字？ Mac 语音输入工具 Voilà，送 20 个免费授权

v2ex.com · 2026-05-03 16:10:31+08:00 · tech

Demo 为什么做这个去年迷上了 Claude Code ，但每次都要打字描述需求，有点累。市面上的语音输入工具试了一圈：要么贵、要么单语种、要么不支持润色，甚至粘贴到终端还会丢字。 6 个月前干脆自己做了一个，专注 macOS 语音输入。界面不花哨，但够实用，有需要可以试试。我的场景比较特殊：人在海外开发，中英法混用，一句话里频繁切换语言。这正好是大多数商业方案的痛点。目前已经完全融入日常工作流，每天触发上百次，用得很顺手。几个比较用心的点多引擎可选：Soniox / ElevenLabs / 火山引擎 / Groq Whisper / Apple Speech ，按需切换实时字幕浮窗：说话时能看到识别中的文字流，不用等结果出来才知道说错了 AI 自动润色：去口水词、补标点、修口误，置信度高时自动跳过润色省 200ms 延迟终端友好：Ghostty / iTerm2 / Kitty 通过 Accessibility API 直接走菜单粘贴，不会被 Cmd+V 事件丢字自定义词汇表：人名、专业术语强制替换，不会再把 "Soniox" 识别成 "骚扰客死" 隐私：本地优先，云端 STT 直连官方 API ，不经过我自己的服务器引擎怎么选如果你跟我一样要写英文代码注释、和海外团队对接、刷英文文档、中英混着说话，首选 Soniox 。这五个引擎我都跑了几个月，Soniox 是多语种混合识别最稳的一个： Soniox ：中英法日西自动切换，无需指定语种，首字延迟 ~1 秒，海外开发者 / 中英混说场景强推火山引擎：纯中文最准，但不支持混合识别，碰到英文单词会音译成汉字 Groq Whisper ：英文最强，但是 HTTP 批量识别不是流式，延迟高 ElevenLabs ：英文流式好，中文一般 Apple Speech ：完全本地，隐私最好，但中英混说会跳错语种试用期 30 天可以把这几个引擎挨个跑一遍，选最顺手的。仅支持 Apple Silicon （ M1 及以上）+ macOS 14 Sonoma 及以上 PS 不订阅、不联网激活、License 文件离线验证当然了，还有隐藏授权，比如说你想专门体验的老哥也可以信箱私,主要交个朋友. 20 个免费早鸟授权，先到先得，结账时输入折扣码 VOILAV2EX ，价格直接归零官网： https://voilapro.app 技术栈感兴趣的也欢迎聊：Swift + SwiftUI 、AVAudioEngine 抓音频、WebSocket 流式 STT 、Ed25519 离线 License 验签。

[分享创造] 五一假期写代码不想打字？ Mac 语音输入工具 Voilà，送 20 个免费授权

v2ex.com · 2026-05-03 14:57:34+08:00 · tech

Demo 为什么做这个去年迷上了 Claude Code ，但每次都要打字描述需求，有点累。市面上的语音输入工具试了一圈：要么贵、要么单语种、要么不支持润色，甚至粘贴到终端还会丢字。 6 个月前干脆自己做了一个，专注 macOS 语音输入。界面不花哨，但够实用，有需要可以试试。我的场景比较特殊：人在海外开发，中英法混用，一句话里频繁切换语言。这正好是大多数商业方案的痛点。目前已经完全融入日常工作流，每天触发上百次，用得很顺手。几个比较用心的点多引擎可选：Soniox / ElevenLabs / 火山引擎 / Groq Whisper / Apple Speech ，按需切换实时字幕浮窗：说话时能看到识别中的文字流，不用等结果出来才知道说错了 AI 自动润色：去口水词、补标点、修口误，置信度高时自动跳过润色省 200ms 延迟终端友好：Ghostty / iTerm2 / Kitty 通过 Accessibility API 直接走菜单粘贴，不会被 Cmd+V 事件丢字自定义词汇表：人名、专业术语强制替换，不会再把 "Soniox" 识别成 "骚扰客死" 隐私：本地优先，云端 STT 直连官方 API ，不经过我自己的服务器引擎怎么选如果你跟我一样要写英文代码注释、和海外团队对接、刷英文文档、中英混着说话，首选 Soniox 。这五个引擎我都跑了几个月，Soniox 是多语种混合识别最稳的一个： Soniox ：中英法日西自动切换，无需指定语种，首字延迟 ~1 秒，海外开发者 / 中英混说场景强推火山引擎：纯中文最准，但不支持混合识别，碰到英文单词会音译成汉字 Groq Whisper ：英文最强，但是 HTTP 批量识别不是流式，延迟高 ElevenLabs ：英文流式好，中文一般 Apple Speech ：完全本地，隐私最好，但中英混说会跳错语种试用期 30 天可以把这几个引擎挨个跑一遍，选最顺手的。仅支持 Apple Silicon （ M1 及以上）+ macOS 14 Sonoma 及以上 PS 不订阅、不联网激活、License 文件离线验证当然了，还有隐藏授权，比如说你想专门体验的老哥也可以信箱私,主要交个朋友. 20 个免费早鸟授权，先到先得，结账时输入折扣码 VOILAV2EX ，价格直接归零官网： https://voilapro.app 技术栈感兴趣的也欢迎聊：Swift + SwiftUI 、AVAudioEngine 抓音频、WebSocket 流式 STT 、Ed25519 离线 License 验签。

/tag/Voil