感觉和去年的识别率完全不一样了,去年的识别率没有现在这么高 去年应该是用的 Whisper Large,加上一些自己的技术改良。 那现在是不是用的 GPT-Realtime-Whisper 那个语音识别模型?或者是完全他们自研的新模型? 目前免费版的 Typeless 识别准确率已经到了很夸张的程度,不知道 Pro 版会不会有提升。直接套那些付费的 API 接口,能不能实现同样的效果? 10 个帖子 - 7 位参与者 阅读完整话题
经常听到论坛里面的佬说,这个豆包输入法现在语音输入已经断档领先了。但是我实测用下来的话,就是会发现这个英文识别会有很大的问题,就比方说这个终端应用 iTerm2,豆包输入法是完全没有办法输出这个东西的。它会识别成 Item2,我不知道是不是我的使用方式不太对,或者说要配置什么东西。想问一下,佬们一般都是怎么解决的? 另外我在考虑用 typeless,typeless 的识别准确度非常不错,唯一的缺点是太贵了,一个月要 200 块钱,还是不太想在语音输入一件事情上花这么多钱,不知道佬们怎么看。 1 个帖子 - 1 位参与者 阅读完整话题
这个画中画保活 是真的能打 1 个帖子 - 1 位参与者 阅读完整话题
用过: typeless (不开会员有使用字数限制,不支持接入其他 api) 闪电说(可以付费也可以自行接入 api) 豆包输入法(免费,但是会替换 mac 系统默认的输入法,我想要的只是语音输入) 以上用的都不太满意 相对比较满意的是闪电说,可以接第三方 api. 但是程序员,最喜欢折腾.我找到了 handy 的项目,这个项目是 mit 协议语音输入软件,仅支持本地模型. 我把这个项目改造了一下,接入了豆包流式语音识别 2.0,并对该模型支持了逐字上屏的功能.目前体验下来识别效果很满意,可以说中英混着说,速度也还可以. 目前我仅编译了 mac 版本,欢迎大家体验,提 PR. 下载地址: https://github.com/LLP2333/Handy/releases 如果安装后无法打开,可以尝试执行 ```bash xattr -cr /Applications/ Handy.app ```
如题: 多日观察,在不开的情况下,耗电貌似有所改善
如题: 多日观察,在不开的情况下,耗电貌似有所改善
不是传统的 语音->文字->LLM 后处理,而是直接使用多模态大模型一次 prompt 完成任务。多模态大模型在音频训练数据量、上下文感知各方面都碾压传统 ASR 模型。 所以我使用了安卓的无障碍权限获取屏幕上的文字和截图作为上下文,只有开源软件才能够信任,源码已传 https://github.com/heimoshuiyu/fcitx5-android 代码基本是 vibe coding ,质量不足以合并回上游,等有朝一日我熟悉安卓开发了把代码质量提提再发 PR (),遇到问题欢迎在这里回复或者提 github issue 你可以使用任何支持语音和视觉(视觉是可选)的多模态 LLM ,例如 - 小米的 mimo-v2.5 - 硅基流动或本地 llamacpp 的 Qwen/Qwen3-Omni-30B-A3B-Instruct 订阅服务是完全可选的, https://voice.aquarium39.moe 目前使用 gemini-3.5-flash ,是我感觉效果最好的模型,上游的 Google API 是 Zero Data Retention ,不会保留数据用于训练模型。typeless 30 刀一个月订阅服务只要 30 块,效果比 typeless 好而且还开源 这里放 10 个 pro plan 兑换码,免费账户也有少量使用次数,感兴趣的可以自取 https://voice.aquarium39.moe VH-KAPT-Y4FS-QXC2 VH-T9QY-HS6X-EU95 VH-JL7K-NEAY-WUQN VH-NYLP-CD8Z-7NLV VH-GMMH-MEEW-MBZL VH-FMD3-TEMD-VSEL VH-EZD3-GSDC-MPHZ VH-CG4J-E8XY-L349 VH-V5YM-AJFB-S68G VH-K69E-CE2G-RPGN 随手录个 demo ,展示屏幕上下文感知的必要性和编辑能力 https://voice.aquarium39.moe/demo-1.mp4 已开无障碍访问权限,没开截图,没有提前配置任何热词
typeless登不上了,不知道什么原因,有知道的佬友吗 1 个帖子 - 1 位参与者 阅读完整话题
对比了几个便宜的还是 typeless 好用,但是月付 30 刀太贵了 ,,,年付教育优惠也要 500 多 3 个帖子 - 2 位参与者 阅读完整话题
巨头随手做的东西,就把一个创新赛道里的参赛者挤死大半。 比功能,巨头随便投入点人力就能碾压。 比营销,根本不是一个量级。 比财力,比模型,这都没法比啊。。 说的就是上半年国内蛮火的闪电说。 更何况后面还有豆包的语音输入法蓄势待发。
巨头随手做的东西,就把一个创新赛道里的参赛者挤死大半。 比功能,巨头随便投入点人力就能碾压。 比营销,根本不是一个量级。 比财力,比模型,这都没法比啊。。 说的就是上半年国内蛮火的闪电说。 更何况后面还有豆包的语音输入法蓄势待发。
巨头随手做的东西,就把一个创新赛道里的参赛者挤死大半。 比功能,巨头随便投入点人力就能碾压。 比营销,根本不是一个量级。 比财力,比模型,这都没法比啊。。 说的就是上半年国内蛮火的闪电说。 更何况后面还有豆包的语音输入法蓄势待发。
巨头随手做的东西,就把一个创新赛道里的参赛者挤死大半。 比功能,巨头随便投入点人力就能碾压。 比营销,根本不是一个量级。 比财力,比模型,这都没法比啊。。 说的就是上半年国内蛮火的闪电说。 更何况后面还有豆包的语音输入法蓄势待发。
巨头随手做的东西,就把一个创新赛道里的参赛者挤死大半。 比功能,巨头随便投入点人力就能碾压。 比营销,根本不是一个量级。 比财力,比模型,这都没法比啊。。 说的就是上半年国内蛮火的闪电说。 更何况后面还有豆包的语音输入法蓄势待发。
巨头随手做的东西,就把一个创新赛道里的参赛者挤死大半。 比功能,巨头随便投入点人力就能碾压。 比营销,根本不是一个量级。 比财力,比模型,这都没法比啊。。 说的就是上半年国内蛮火的闪电说。 更何况后面还有豆包的语音输入法蓄势待发。
巨头随手做的东西,就把一个创新赛道里的参赛者挤死大半。 比功能,巨头随便投入点人力就能碾压。 比营销,根本不是一个量级。 比财力,比模型,这都没法比啊。。 说的就是上半年国内蛮火的闪电说。 更何况后面还有豆包的语音输入法蓄势待发。
巨头随手做的东西,就把一个创新赛道里的参赛者挤死大半。 比功能,巨头随便投入点人力就能碾压。 比营销,根本不是一个量级。 比财力,比模型,这都没法比啊。。 说的就是上半年国内蛮火的闪电说。 更何况后面还有豆包的语音输入法蓄势待发。
巨头随手做的东西,就把一个创新赛道里的参赛者挤死大半。 比功能,巨头随便投入点人力就能碾压。 比营销,根本不是一个量级。 比财力,比模型,这都没法比啊。。 说的就是上半年国内蛮火的闪电说。 更何况后面还有豆包的语音输入法蓄势待发。
巨头随手做的东西,就把一个创新赛道里的参赛者挤死大半。 比功能,巨头随便投入点人力就能碾压。 比营销,根本不是一个量级。 比财力,比模型,这都没法比啊。。 说的就是上半年国内蛮火的闪电说。 更何况后面还有豆包的语音输入法蓄势待发。
巨头随手做的东西,就把一个创新赛道里的参赛者挤死大半。 比功能,巨头随便投入点人力就能碾压。 比营销,根本不是一个量级。 比财力,比模型,这都没法比啊。。 说的就是上半年国内蛮火的闪电说。 更何况后面还有豆包的语音输入法蓄势待发。