想要深入修炼 python 爬虫的功力，有什么建议么？ - V2EX

Home Sign Up Sign In

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

Sign Up Now

For Existing Member Sign In

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

This topic created in 3816 days ago, the information mentioned may be changed or developed.

楼主自己以前是做 web 前后段的，现在对爬虫很感兴趣，看完了文档就直接上 urillib(1,2),scrapy,requests 等等的“框架”吧，然后基本的爬虫规则算是知道，但是发现现在的网站防爬虫厉害啊，比如现在就不懂怎么爬知乎了，另外还有其他的网站，而且验证码这关要怎么过`````````

我是小菜，勿喷````

28 replies • 2018-08-15 21:28:48 +08:00

1

knightdf

Nov 20, 2015

说实话，一个 scrapy 就够你研究了，验证码普通的直接识别，发邮箱的自动从邮箱里读取，复杂的类似 Google 那样的手动输入或者 GG 。知乎应该是要登录，控制好规则不难，别想一台机器一个账号搞定

2

knightdf

Nov 20, 2015

还有， urllib,requests 这不叫爬虫框架，只是个 http 库

3

binux

Nov 20, 2015

你做 web 前后端的,不知道怎么过防爬虫?
建议继续修炼 web 前后端的功力...

4

aljun

OP

Nov 20, 2015

@binux 你是说记下 IP 防止爬虫么？请赐教`````

5

aljun

OP

Nov 20, 2015

@knightdf 那我若是想好好地学学的话，哪些书或者路子比较好呢?

6

binux

Nov 20, 2015

@aljun 你是做前后端的, 如果让你做防爬虫, 你怎么做? 怎么过?

7

aljun

OP

Nov 20, 2015

@binux 测 user-agent ，服务器记 ip 做 403 ？还有呢？

8

binux

Nov 20, 2015

@aljun 你都做了绕过?还是不能爬知乎?

9

knightdf

Nov 20, 2015

@aljun 1 ，官方文档 2 ，源码多看看源码，自然都理解了

10

aljun

OP

Nov 20, 2015

@binux 好吧，那如果想更加精进自己爬虫的功力的话，最好看什么书比较好呢？

11

binux

Nov 20, 2015

@aljun 前后端开发的书...

12

bzzhou

Nov 20, 2015

RFC2616 好好读读~

13

haozhang

Nov 20, 2015

14

julyclyde

Nov 20, 2015

urllib 、 requests 只能叫组件，还不能叫框架
框架得承担起程序运行的重任，让人来写其中细小的部分

15

aljun

OP

Nov 20, 2015 via iPhone

@julyclyde 所以我打了个引号⋯⋯

16

julyclyde

Nov 20, 2015

爬虫这个其实不适合于兴趣吧
靠兴趣学习，是需要有成功给自己带来鼓励的
而写爬虫，并不是一个只要足够聪明努力就一定能成功的方向

17

greatghoul

Nov 20, 2015 via Android

抓取百度贴吧的数据吧

18

leavic

Nov 20, 2015

scrapy 很容易上手的，就 scrapy 而言，你不需要深入太多，如果想了解其原理，你得学 twisted 框架。

19

leavic

Nov 20, 2015

验证码这个，我有点惊讶楼主你真是做后端的？ cookies 是干啥的？

20

aljun

OP

Nov 21, 2015 via iPhone

@leavic 那万一是那种很暴力和不讲道理的网站呢?

21

qw7692336

Nov 21, 2015 via Android

我搞过验证码识别，简单的验证码都是有规律的。
只要是自己编写的验证码生成算法，都容易识别。

22

aljun

OP

Nov 21, 2015 via iPhone

@qw7692336 求详情赐教 z （我比较渣⋯⋯）

23

leavic

Nov 21, 2015

@aljun 确实有部分网站验证码登录后只靠 keep alive session 维持 session 内的验证，这种着实恶心，实在不行找个 ocr api 帮你识别好了。

24

zkwolf

Nov 21, 2015

验证码可以。。。下载下来自己输，能用 cookie 登录的用 cookie 登录好了

25

aisk

Nov 21, 2015

全站爬微博！这个好玩并且有价值

26

gouwudang

Nov 21, 2015

楼主对爬虫感兴趣的话，欢迎发一份简历过来 [email protected] ，可以实践各种奇葩的问题和解决办法。

27

wingyiu

Nov 24, 2015

http://www.zhihu.com/question/20899988

28

souwiki

Aug 15, 2018

建议学习基础的 requests 比较好然后再学习深入的模块
https://souwiki.com/532.html

About · Help · Advertise · Blog · API · FAQ · Solana · 2364 Online Highest 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 52ms · UTC 10:40 · PVG 18:40 · LAX 03:40 · JFK 06:40
♥ Do have faith in what you're doing.