AI 开发了个《武林外传》全台词检索对应截图网站

2 月 6 日
 hugo2233

https://wulinwaizhuan.hugo2233.dpdns.org/ 文本提取:PaddleOCR (PaddlePaddle 引擎) 暴力破解硬字幕。 数据归档:构建台词-时间戳-图片路径的索引。 抽帧处理:FFmpeg 获取关键帧。 图像预处理:OpenCV + NumPy 提高识别率。

难题攻克: 针对 TV 录制版没有软字幕的问题,OCR 是唯一解。通过批量推理,将 80 集海量素材转化为可检索的 JSON 文件

一开始 win 直接运行代码好慢 80min 一集 现在在 wsl 上运行 5-8min 一集舒服了

参考项目 github 的 Cicada000/VV 感谢指导

1319 次点击
所在节点    分享创造
9 条回复
duuu
2 月 6 日
厉害~学习了
0xo
2 月 6 日
是谁杀了我而我又杀了谁
第 65 集
34:18
---
这个好像不对
xkwdm
2 月 6 日
![]( )
hugo2233
2 月 6 日
@xkwdm 对的很多 子曰 都是子日
没有校对
cadl
2 月 9 日
哈哈点子太好玩了,点赞。前几天看到你的帖子,昨天教不会写代码的老婆尝试 claude code ,就是拿这个当例子,搞了个《马大帅》版本的。

https://biaoleme.llpsh.com/
hugo2233
2 月 10 日
@cadl 好耶
hugo2233
2 月 10 日
@cadl 你这个做的比我好 嘿嘿 识别好准 我还是不少错误哈哈哈 随机一集不错
cadl
2 月 10 日
@hugo2233 哈哈,调试的时候看剧照乐完了。我用的 macOS 系统带的识别做的,在我机器上跑比 PaddleOCR 要快
hugo2233
2 月 10 日
@cadl 我是 win 80min 一集 wsl 5min 一集

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://study.congcong.us/t/1191155

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX