有没有能识别多人声音的 AI 工具呢

2025 年 1 月 14 日
 iceriver99

就是我现在有一个视频,这个视频中有三个人在对话,我想通过语音识别来分别识别出这三个人都谁说了哪句话,并且把它导出成文本标记出来。然后方便我去做翻译。。。

2075 次点击
所在节点    问与答
14 条回复
kirieievk
2025 年 1 月 14 日
关注!
Perry
2025 年 1 月 14 日
有很多 Podcast 生产力工具支持这样的,Perplexity 搜下试试看?
vopin
2025 年 1 月 14 日
同样需求,一年多前调查的时候暂时没找到一步到位的工具。whisper 虽然很厉害了但是分辩人不行,一些经典机器学习方法也不完美。
现在不知道怎样了
NOneKnowYeah
2025 年 1 月 14 日
通义听悟
gpt5
2025 年 1 月 14 日
我记得当年学 svm 的时候,老师给过一个例子,用 1 行 matlab 代码(非工具箱)就实现了区分不同人的声音。
JayZXu
2025 年 1 月 14 日
飞书个人版的妙记
直接上传视频,会自动生成字幕而且匹配发音人
可能会识别出多个发音人,改下标注就行了
而且还能切换各种语言翻译的结果
mfy
2025 年 1 月 14 日
sherpa-onnx ,FunASR
这两个都可以。测试下来,感觉 sherpa-onnx 识别的准确度稍高一些;使用上 FunASR 简单一些。
evan1
2025 年 1 月 14 日
钉钉会议可以实现,用过一两次。识别准确率估计 80%-90%左右。
evan1
2025 年 1 月 14 日
@evan1 是会议还是直播忘记了。

当时看到这个功能大受震撼。
evan1
2025 年 1 月 14 日
@evan1 没注意是已有视频。这样的话可以看看转录行不行。
dzdh
2025 年 1 月 14 日
阿里的语音识别 API 可。
jiobanma
2025 年 1 月 14 日
阿里的通义听悟
Daybyedream
2025 年 1 月 14 日
飞书那个 一直可以 讯飞妙计
yu13n
2025 年 1 月 14 日
我没办法给出具体的解决方案,但这种需求一般被叫做“鸡尾酒会问题”,可以用这个作为关键词去搜索一下

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://study.congcong.us/t/1104848

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX