和香港同事开会总是听不太懂粤语,我用 Tauri 搓了个实时字幕工具 (macOS/Win)

1 天前
 yaakua

和香港同事开会总是听不太懂粤语,我用 Tauri 搓了个实时字幕工具 (macOS/Win)

在一家跨地区团队工作了一段时间后,我发现一个挺真实的痛点:会议语言有时候是粤语。

虽然大家也能切换普通话或英语,但很多时候讨论进入状态之后,自然就会变成粤语交流。其实我自己最近也刚好在学粤语,但如果你不是长期在粤语环境里,在工作场景下会遇到一种很微妙的情况:

不是完全听不懂,但经常只能听懂七八成。

特别是遇到一些香港本地表达、粤语里夹杂英文、多人同时快速讨论的时候。结果就是:会议能跟上大概意思,但细节容易漏掉。有时候大家已经开始讨论下一个问题了,我还在脑子里 compile 上一句到底说了什么。

久而久之觉得挺影响沟通效率,所以后来我就做了一个自己用的小工具: 把电脑里播放的粤语语音,实时变成中文字幕。

当然不止是粤语翻粤,英语、日语、韩语等都可以。

网站:https://fanyueai.com/


解决的其实就是一个很简单的场景

我做这个工具最初只有一个目标:开会的时候能实时看到字幕。

不管是 Zoom 、Google Meet 、Teams 还是网页版会议,只要电脑里有粤语语音,它就会:

  1. 实时监听系统级音频
  2. 实时识别粤语并翻译
  3. 用一个悬浮字幕条显示出来

当有人语速很快的时候,看一眼字幕基本就能跟上内容。因为是系统级音频监听,所以平时用来看港区 YouTube 、听粤语播客,或者看没字幕的生肉视频也都能顺带用上。


聊聊技术演进和踩坑

一开始我也想过做成某个会议软件的插件,但大家用的软件太杂了,最后决定直接做系统级监听。

客户端我个人比较反感那种动不动就吃掉几个 GB 内存的 Electron 巨兽,所以:

关于核心的翻译延迟问题,其实经历过一次重构:

一开始的 V1 版本,我图省事直接接了阿里云的自动识别与翻译 API 。调用一个接口就能出结果,开发确实快,但效果很感人:机器味重、识别不准,而且延迟太高,开会用起来有明显的割裂感。

后来痛定思痛改了架构。最近刚好发现 Google 新出了 gemini-3.1-flash-lite 模型,测试了一下发现用来做实时翻译简直是神器:速度极快,翻译的人话味道很浓,最关键的是支持自定义提示词(可以喂给它一些团队开会常用的 IT 缩写和黑话)。

所以现在的版本改成了:实时语音识别 + 实时流式调用大模型 API 进行翻译。目前把整体的延迟压在了开会完全可接受的范围内。


如果你刚好有类似场景

目前打包了 macOSWindows 版本( Windows 没测太多老系统,目前 Win10 及以上可以正常跑)。

如果你也是在香港工作的内地开发者,或者有远程和港区团队合作的需求,可以试试这个工具:

[https://fanyueai.com/?ref=BRSLH8JQ](通过邀请码注册即赠 120 分钟时长。点击体验: https://fanyueai.com/?ref=BRSLH8JQ)

给刚注册的新用户默认塞了 15 天体验和 90 分钟的翻译时长,基本足够大家开几次会,或者看个视频体验一下效果了。

我自己也是一边用一边慢慢迭代,如果大家体验后觉得有什么 Bug ,或者在技术实现上(特别是跨平台音频流处理这块)有更好的思路,欢迎在帖子里吐槽交流,我下班后去修。

2346 次点击
所在节点    分享创造
25 条回复
sanebow
1 天前
看起来不错支持一下
yaakua
1 天前
@sanebow 感谢,欢迎多试用,提建议
Shing
1 天前
不错,港粤能听得懂,但粤西地区的有些是难懂的,可以测试一下。
yaakua
1 天前
@Shing 现在的大模型针对特别小众的语言识别还是有困难,除非单独使用这个地区的语言训练过的模型(市面上也有,但是不多,且大部分是开源的没有直接 api 可以对接)
kenshinhu
21 小时 48 分钟前
我想知道 粤韵风华之类的内容会怎样翻译?
Rrrrrr
21 小时 26 分钟前
其实就推广帖?
jiji262
20 小时 59 分钟前
不开源么?
yaakua
20 小时 38 分钟前
@Rrrrrr 好产品,好工具值得推荐,也值得推广
yaakua
20 小时 37 分钟前
@jiji262 没啥开源的必要,这个就是给普通不懂技术的人使用的,开源只会让更多懂技术的人复制更多类似的产品。没意义
byp
19 小时 24 分钟前
豆包已经支持方言了,开会的时候把豆包打开放旁边就行了,实时翻译
wonderfulcxm
19 小时 23 分钟前
那理论上可以翻译任何语言显示字幕,不限于粤语吧
runking
16 小时 29 分钟前
字幕准确性怎么样?
yaakua
15 小时 39 分钟前
@byp 不一样,那个只支持字幕显示,不支持自动翻译
yaakua
15 小时 38 分钟前
@wonderfulcxm 是的,只要模型支持,基本上都可以。只是我现在还没放开所有语言的自动翻译
yaakua
15 小时 37 分钟前
@runking 已我这初级粤语的水平来说,至少我能看懂了。
hanguofu
15 小时 31 分钟前
gemini-3.1-flash-lite 的效果比 阿里云 的 ASR 还好吗 ?我有点不信:)
Leon6868
15 小时 10 分钟前
好产品,请问实时语音识别是在本机完成的吗?
yaakua
13 小时 52 分钟前
@hanguofu 不是说比阿里云的 ASR 不好,而是阿里云有一个识别与翻译一体化的接口,这个识别效果可以,但是翻译是机器 AI 翻译的,不是大语言模型翻译,效果自然没 gemini 这个模型效果好
yaakua
13 小时 52 分钟前
@Leon6868 不是,也是远程 api 实现的,本机不需要安装下载各种大模型,对于大部分用户来说这种方式反而简单
iorilu
13 小时 28 分钟前
@Leon6868
我的译王是基于本地识别的实时翻译系统
因为在线识别, 必然成本高, 另外本地识别可控点

https://study.congcong.us/t/1195970

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://study.congcong.us/t/1196574

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX