周末花一天时间跟 Claude 复刻了沉浸式翻译的 pdf 翻译功能

1 月 25 日
 LuliYanng
上周我有个研究生同学告诉我翻译外文的 pdf ,最好还是能够翻译后保持跟原文版面一模一样功能的。再我去帮他找软件的过程中,发现沉浸式翻译做的 pdf 翻译功能还蛮不错,平时虽然用它来翻译网站比较多,但是翻译 pdf 还真没怎么用过。

定眼一看,还是 beta 版,自信心上来了,感觉应该能捣鼓一个简单版的。于是周六花了一天的时间,跟 claude 尝试复刻这个功能,看看按照自己的方案能够做到什么样的程度。目前第一版就已经能够实现基本的翻译和排版效果,复杂的公式和图表还原的很不错。不过就像绝大多数翻译功能会遇到的问题一样,原文译文的长度难以控制,因此文本渲染上还有不少瑕疵,而且也只测试了 2 、3 篇论文,还不清楚真实能力是不是足够稳定😅。
一开始没发现,干到一半才发现人家已经开源了,还没仔细看人家的方案。要是跟人家实现方式一样,那就纯纯造轮子小丑了🤡。

但不得不说,vide coding 真上头,就是一天就差不多把我 cursor 一个月的额度干一半了,剩下得省着用了😥。

i.imgur.com/zYRMnT9.png
i.imgur.com/zHZSe1q.png
i.imgur.com/cif5wnO.png
1769 次点击
所在节点    分享创造
18 条回复
LuliYanng
1 月 25 日
楼主第一次发有图片的图,怎么跟着教程来,还是显示不出来图片啊,评论区换个方式再发一次看看😠
https://imgur.com/cif5wnO
https://imgur.com/zHZSe1q
https://imgur.com/zYRMnT9
LuliYanng
1 月 25 日
好吧 看来还是不行...
Weixiao0725
1 月 25 日
Weixiao0725
1 月 25 日
![test]( )
Weixiao0725
1 月 25 日
@LuliYanng 你要用 ![]( https://xxx) 这种格式,url 写完整了。
Weixiao0725
1 月 25 日
好像直接写 完整的 url 就可以,不要写 markdown , 因为回复框这里使用的 V2EX native 编辑器,你发帖的时候可以选 markdown
SuperDaniel313
1 月 25 日
其实豆包的效果还可以的,直接发给豆包就行,能打开双语对照模式,还能截图提问。但只能因为 Web 端,移动端不行。

腾讯的 ima 也有类似的功能,但排版没豆包好,好像和微信读书一个模块出来的,排版效果很差。

看原版书还是推荐豆包
LuliYanng
1 月 25 日
@Weixiao0725 回复框是直接贴完整 url 的和发帖也是用 native 编辑器,没选 markdown 。
我再试试
![对比图 1]( )
![对比图 1]( https://imgur.com/cif5wnO)
LuliYanng
1 月 25 日
@SuperDaniel313 可以 我去试试
LuliYanng
1 月 25 日
@SuperDaniel313 ![doubao]( )
豆包好像只能实现这样。他能生成翻译后的论文吗?豆包的那种方式实现起来也简单,但是交互还是挺不错的。适合深入去探讨论文内容,而不仅仅只是简单的点击翻译了。要是两个功能结合起来不就更好了,既可以一眼看到翻译后的论文,还能直接点击跟进询问内容。😋
whats
1 月 26 日
沉浸式翻译那个是假开源,实际并未开源
SuperDaniel313
1 月 26 日
@LuliYanng PDF 正上方有一个翻译全文,点击之后就是双排版的界面。左侧是原文,然后右侧会有一个译文。点击高亮块,它就能回显原文的对应文本。

我只用过它的翻译,跟豆包讨论问题,感觉跟智障说话差不多。

我更喜欢 NotebookLM ,不过 NotebookLM 更适合学习,双语对照好像没有。NotebookLM 的学习方式稍微割裂一点,也就是你自己有原版的 PDF , 然后看 PDF 之后不懂的就直接提问,没有划词提问。不过 NotebookLM 能干好几本书进去,可以进行主题学习。关键是背后的模型差异。Gemini 虽然被网友称为美国豆包,但是比中国豆包还是上好几个档次。
LuliYanng
1 月 26 日
@SuperDaniel313 okok ,看到这个功能了,虽然这个双语没有特别美观,不过基本够用了。notebooklm 我也有用,确实,模型的能力差距还是很大的。不过 gemini 还不至于跟豆包比,都不是一个水平的😂。像这种点击对照,然后自己设置 llm 的功能也完全可以做,不过暂时还没这个考虑,只是当个小项目玩玩。
LuliYanng
1 月 26 日
@whats 怎么说,还有假开源的吗?
SuperDaniel313
1 月 26 日
@LuliYanng 如果说搞着玩嘛,是可以玩玩。

实际上只需要把豆包的翻译用上,然后把原版书扔到 NotebookLM 里面。然后就能畅读原版书了呀。豆包拿来读,NotebookLM 拿来问。配合语音输入法,根本不需要划词啊,只需要直接说第几页,什么问题,然后 NotebookLM 就能直接定位到那里,然后跟你讲解。关键最牛的一点是,那些图表也能解读出来,不是单纯的文字,包括公式啊,都可以。这点 Gemini 是真的牛逼。

特别是那种翻译烂的,我觉得豆包的能力,即便再烂,也还是能解决基础的语言问题。至少在信息传递的这个层面上,不会像一些垃圾译本一样误人子弟。
shawnli3299
1 月 26 日
ocr 用的什么引擎或模型?
LuliYanng
1 月 26 日
@shawnli3299 ocr 就是用的百度的 paddle vl
LuliYanng
1 月 26 日
@SuperDaniel313 去豆包读在到 notebooklm 问当然可以,就是需要跨平台,在用户交互体验上始终还是差一点点

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://study.congcong.us/t/1188233

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX