V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
aljun
V2EX  ›  Python

想要深入修炼 python 爬虫的功力,有什么建议么?

  •  
  •   aljun · Nov 20, 2015 · 4952 views
    This topic created in 3816 days ago, the information mentioned may be changed or developed.

    楼主自己以前是做 web 前后段的,现在对爬虫很感兴趣,看完了文档就直接上 urillib(1,2),scrapy,requests 等等的“框架”吧,然后基本的爬虫规则算是知道,但是发现现在的网站防爬虫厉害啊,比如现在就不懂怎么爬知乎了,另外还有其他的网站,而且验证码这关要怎么过`````````

    我是小菜,勿喷````

    28 replies    2018-08-15 21:28:48 +08:00
    knightdf
        1
    knightdf  
       Nov 20, 2015
    说实话,一个 scrapy 就够你研究了,验证码普通的直接识别,发邮箱的自动从邮箱里读取,复杂的类似 Google 那样的手动输入或者 GG 。知乎应该是要登录,控制好规则不难,别想一台机器一个账号搞定
    knightdf
        2
    knightdf  
       Nov 20, 2015
    还有, urllib,requests 这不叫爬虫框架,只是个 http 库
    binux
        3
    binux  
       Nov 20, 2015
    你做 web 前后端的,不知道怎么过防爬虫?
    建议继续修炼 web 前后端的功力...
    aljun
        4
    aljun  
    OP
       Nov 20, 2015
    @binux 你是说记下 IP 防止爬虫么?请赐教`````
    aljun
        5
    aljun  
    OP
       Nov 20, 2015
    @knightdf 那我若是想好好地学学的话,哪些书或者路子比较好呢?
    binux
        6
    binux  
       Nov 20, 2015
    @aljun 你是做前后端的, 如果让你做防爬虫, 你怎么做? 怎么过?
    aljun
        7
    aljun  
    OP
       Nov 20, 2015
    @binux 测 user-agent ,服务器记 ip 做 403 ?还有呢?
    binux
        8
    binux  
       Nov 20, 2015
    @aljun 你都做了绕过?还是不能爬知乎?
    knightdf
        9
    knightdf  
       Nov 20, 2015
    @aljun 1 ,官方文档 2 ,源码 多看看源码,自然都理解了
    aljun
        10
    aljun  
    OP
       Nov 20, 2015
    @binux 好吧,那如果想更加精进自己爬虫的功力的话,最好看什么书比较好呢?
    binux
        11
    binux  
       Nov 20, 2015
    @aljun 前后端开发的书...
    bzzhou
        12
    bzzhou  
       Nov 20, 2015
    RFC2616 好好读读~
    haozhang
        13
    haozhang  
       Nov 20, 2015
    @bzzhou +1
    julyclyde
        14
    julyclyde  
       Nov 20, 2015
    urllib 、 requests 只能叫组件,还不能叫框架
    框架得承担起程序运行的重任,让人来写其中细小的部分
    aljun
        15
    aljun  
    OP
       Nov 20, 2015 via iPhone
    @julyclyde 所以我打了个引号⋯⋯
    julyclyde
        16
    julyclyde  
       Nov 20, 2015
    爬虫这个其实不适合于兴趣吧
    靠兴趣学习,是需要有成功给自己带来鼓励的
    而写爬虫,并不是一个只要足够聪明努力就一定能成功的方向
    greatghoul
        17
    greatghoul  
       Nov 20, 2015 via Android
    抓取百度贴吧的数据吧
    leavic
        18
    leavic  
       Nov 20, 2015
    scrapy 很容易上手的,就 scrapy 而言,你不需要深入太多,如果想了解其原理,你得学 twisted 框架。
    leavic
        19
    leavic  
       Nov 20, 2015
    验证码这个,我有点惊讶楼主你真是做后端的? cookies 是干啥的?
    aljun
        20
    aljun  
    OP
       Nov 21, 2015 via iPhone
    @leavic 那万一是那种很暴力和不讲道理的网站呢?
    qw7692336
        21
    qw7692336  
       Nov 21, 2015 via Android
    我搞过验证码识别,简单的验证码都是有规律的。
    只要是自己编写的验证码生成算法,都容易识别。
    aljun
        22
    aljun  
    OP
       Nov 21, 2015 via iPhone
    @qw7692336 求详情赐教 z (我比较渣⋯⋯)
    leavic
        23
    leavic  
       Nov 21, 2015
    @aljun 确实有部分网站验证码登录后只靠 keep alive session 维持 session 内的验证,这种着实恶心,实在不行找个 ocr api 帮你识别好了。
    zkwolf
        24
    zkwolf  
       Nov 21, 2015
    验证码可以。。。下载下来自己输,能用 cookie 登录的用 cookie 登录好了
    aisk
        25
    aisk  
       Nov 21, 2015
    全站爬微博!这个好玩并且有价值
    gouwudang
        26
    gouwudang  
       Nov 21, 2015
    楼主对爬虫感兴趣的话,欢迎发一份简历过来 [email protected] ,可以实践各种奇葩的问题和解决办法。
    wingyiu
        27
    wingyiu  
       Nov 24, 2015
    souwiki
        28
    souwiki  
       Aug 15, 2018
    建议学习基础的 requests 比较好 然后再学习深入的模块
    https://souwiki.com/532.html
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2364 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 52ms · UTC 10:40 · PVG 18:40 · LAX 03:40 · JFK 06:40
    ♥ Do have faith in what you're doing.