pdf 转成 word 用 python 实现

2015 年 4 月 30 日
 xxer

RT,求教正确姿势。有人用过类似的库吗?实际操作效果如何呢?乱码的情况会不会出现呢?

8961 次点击
所在节点    Python
13 条回复
pupboss
2015 年 4 月 30 日
我是来搞笑的别打我😂

import os

os.rename('test.pdf', 'test.doc')
andyhenry
2015 年 4 月 30 日
pdf是很难转成其他格式的,和用什么语言无关。即使强制转,和单纯用鼠标复制粘贴也差不多,不能保留任何格式。
nxbtch
2015 年 4 月 30 日
@pupboss 666
nowcoder
2015 年 4 月 30 日
不好转。
staticor
2015 年 4 月 30 日
pypandoc 试试?
em70
2015 年 4 月 30 日
Python不是万能的

给你个思路,不要纯Python实现,试试去找一个PDF转doc的命令行,python调用命令行来解决。
xyzasd01
2015 年 4 月 30 日
命令行:
“pdftohtml 文件名”

然后用word打开html就可以了。

如果要默认word打开,你把.html改成.doc就可以了。
xyzasd01
2015 年 4 月 30 日
@xyzasd01

补充一下。pdftohtml的命令是要安装yum install poppler-utils

然后你pdftohtml,pdftotext之类的一大堆都可以用了。。

祝好~
xyzasd01
2015 年 4 月 30 日
如果要单纯的去读word。很难,非常难。

java有tika的库,但是有些读不了,比如猎聘网下载的简历。

php有phpword,但是只能读取word2007及以上。就是.docx的。

我的项目遇到的问题:

读取word,有的是html,有些是真正的word,有些是base64。。。。。。有无数种。。。。需要无数种的方法来读。。html的最简单,base64的要截取一部分,然后unbase64会还原成html。。。。我擦擦
xxer
2015 年 4 月 30 日
@xyzasd01 也就是说pdf转成word都会存在诸如乱码的问题,不论什么语言,是吗
jedihy
2015 年 4 月 30 日
@xxer 本质区别是pdf排版类似于用的矢量绘图的方法。word则是文字的编排。这两种方式是不能完美转换的。
14
2015 年 4 月 30 日
import os
os.system('libreoffice --headless --convert-to docx my.pdf')
xyzasd01
2015 年 5 月 5 日
@xxer 不是说一定乱码,只是可能会发生,word太杂了,什么都有。不标准

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://study.congcong.us/t/187463

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX