V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
爱意满满的作品展示区。
lzjun

用爬虫把在线教程转换为 PDF 文件

  •  1
     
  •   lzjun ·
    lzjun567 · Feb 13, 2017 · 4311 views
    This topic created in 3370 days ago, the information mentioned may be changed or developed.

    在线教程,顾名思义,需要网络才能学习,但有时没网络,有时手机流量不够。于是萌生一个想法,使用爬虫对内容重新整理后,转换成 PDF 文件离线阅读。

    用廖雪峰的 Python 教程做了一个实验,证明是可行的,以后可以根据自己的需求进行定制化了。

    参考文章: http://mp.weixin.qq.com/s/LH8nEFfVH4_tvYWo46CF5Q
    完整代码: https://github.com/lzjun567/crawler_html2pdf/blob/master/crawler.py

    最终生成的 PDF 效果图: pdf

    9 replies    2017-02-14 09:39:52 +08:00
    kuntang
        1
    kuntang  
       Feb 13, 2017
    脑洞大开,能转换成 mobi 格式吗?
    keisuu
        2
    keisuu  
       Feb 13, 2017
    按照文章的步骤弄, wkhtmltopdf 下载不了
    lzjun
        3
    lzjun  
    OP
       Feb 13, 2017
    @kuntang 原理差不多,可以网上搜 html to mobi ,一定有相应的开源方案
    lzjun
        4
    lzjun  
    OP
       Feb 13, 2017
    @keisuu 国外的节点,网络慢,没法办,换代理试试
    fhefh
        5
    fhefh  
       Feb 13, 2017
    nice mark 学习了
    AltairT
        6
    AltairT  
       Feb 13, 2017 via iPhone
    现在的软件技能教程没有网除非只是看书几乎没法学了 太多地方需要网了
    lzjun
        7
    lzjun  
    OP
       Feb 14, 2017 via iPhone
    @AltairT 主要考虑到移动端临时性没网,或者重复的网络请求浪费流量
    xiqingongzi
        8
    xiqingongzi  
       Feb 14, 2017 via iPhone
    太棒了,很多教程没有离线版本
    lzjun
        9
    lzjun  
    OP
       Feb 14, 2017
    @xiqingongzi 哈,不用谢,向那些写教程的同志致敬
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1049 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 44ms · UTC 18:33 · PVG 02:33 · LAX 11:33 · JFK 14:33
    ♥ Do have faith in what you're doing.