
去年迷上了 Claude Code ,但每次都要打字描述需求,有点累。市面上的语音输入工具试了一圈:要么贵、要么单语种、要么不支持润色,甚至粘贴到终端还会丢字。
6 个月前干脆自己做了一个,专注 macOS 语音输入。界面不花哨,但够实用,有需要可以试试。
我的场景比较特殊:人在海外开发,中英法混用,一句话里频繁切换语言。这正好是大多数商业方案的痛点。
目前已经完全融入日常工作流,每天触发上百次,用得很顺手。
如果你跟我一样要写英文代码注释、和海外团队对接、刷英文文档、中英混着说话,首选 Soniox。这五个引擎我都跑了几个月,Soniox 是多语种混合识别最稳的一个:
试用期 30 天可以把这几个引擎挨个跑一遍,选最顺手的。
仅支持 Apple Silicon ( M1 及以上)+ macOS 14 Sonoma 及以上
技术栈感兴趣的也欢迎聊:Swift + SwiftUI 、AVAudioEngine 抓音频、WebSocket 流式 STT 、Ed25519 离线 License 验签。
101
qfdk OP PRO @mylxsw #100 可以给 [email protected] 写一封邮件. 不少 V 友的主动联系私人邮件,我都会认真回复的, 开发者授权,特殊授权,都是我会手动发放的 :)
分享一下,当用户留信箱,等主动发去授权的,大多数没有激活. 我更希望是授权会发给有需要的朋友. |
103
EdwardKot 1 day ago @qfdk #95 今天试用了一下有 2 个问题想问,1 ,快捷键似乎无法绑定我外接键盘的“end”键,因为之前 lazytyper 绑在这个键上,习惯了,但是发现 voila 录不进这个键(其他一些 home 啥的也录不进,但是确实 cmd+字母键是可以)。2 ,我先尝试了“apple 语音”,无论说这么话,都只能识别一个“you”,不知道是不是我哪里设置的不对?其次我用 Groq ,无论说什么,都是“请不吝点赞 订阅 转发 打赏支持明镜与点点栏目”,其他的 api 还没去搞,但是这两个的尝试让我现在还没用上,哈哈
|
104
qfdk OP PRO @EdwardKot 感谢您认真测试!
1. 是这样的,因为 voila 的设计是组合键,单独按键理论上也是不会录入的.主要目的是为了让你知道我在按下这两个组合键的时候,我就应该对我说出的话负责。跟核弹发射一样,不只是一个按钮,需要两把钥匙。 2. 这个问题我搜索了一下,这个出在 Groq 后面用的 Whisper 的 API 的问题。这个属于说语音 provider 的一个问题。 https://github.com/openai/whisper/discussions/2645 https://github.com/openai/whisper/discussions/1783 3. 苹果语音只能识别一个 you ? 您方便提供一下系统截图吗 因为苹果语音使用的底层 API 是跟你的系统语言有所绑定,或者是要指定语言。它分为 macOS 26 的引擎,还有经典引擎。经典引擎是 macOS 26 之外的离线引擎。 耽误您的时间了,本人主力使用 Soniox 。 再次感谢反馈! |
105
EdwardKot 1 day ago
@qfdk #104
1 ,收到。 2 ,但是我用 lazy 那个也是 Groq 的 api ,模型选择也是一样,回复这条消息的时候也能正常识别,就很奇怪,之后我又试了把 lazy 用的那个 api 放进来试了之后问题也没有解决,很奇怪。 3 ,系统截图需要提供哪个部分的?我看了我的地区和语言都是中国大陆。试这个的原因是,我想着没网的时候也不影响使用,顺便看看效果,之前不知道还有 Apple 语音,只用过 Qwen3-ASR 。 厚颜无耻也先求个码,问题解决后,我对比一下效果选择留一个工具( Z2VzaGVuZmVuZzFAZ21haWwuY29t ) |