V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
blond
V2EX  ›  问与答

爬虫自动扩充爬取的 url 范围

  •  
  •   blond · Nov 11, 2014 · 3416 views
    This topic created in 4188 days ago, the information mentioned may be changed or developed.
    如题,小弟在一家公司做爬虫,老大安排任务,让我自动完成爬虫爬取的url范围扩充,小弟经验浅薄,实在没什么好的办法了,希望各位大大指点一二,在此谢过了。
    6 replies    2014-11-13 21:42:32 +08:00
    jason52
        1
    jason52  
       Nov 11, 2014
    深度优先?广度优先?

    布隆过滤器?

    题目没说清楚,没法下手啊
    blond
        2
    blond  
    OP
       Nov 12, 2014
    @jason52 哦,不好意思,是广度优先,在爬虫爬取url的过程中自动发现现有url库中没有的url,但是我该如何来判断这个url的价值呢,这是不是还需要什么算法呢
    Melodic
        3
    Melodic  
       Nov 12, 2014
    另设path关键字,域名+path分层级比对,没有就加入?
    jason52
        4
    jason52  
       Nov 12, 2014
    @blond 在爬虫爬取url的过程中自动发现现有url库中没有的url

    这一步还是好做的。。

    “但是我该如何来判断这个url的价值呢,这是不是还需要什么算法呢” 对啊,这是问题所在啊。。

    你还是需要把问题抽象一点,脱敏后描述一下
    blond
        5
    blond  
    OP
       Nov 13, 2014
    @jason52 比如说我只关心房地产方面的信息,这些url要近可能的是关于房地产的新闻
    jason52
        6
    jason52  
       Nov 13, 2014
    @blond 那要看新闻类型有没有类似的模式可以匹配上了,还是类似于找规律的问题,既然是尽可能的话,肯定也没要求不重不漏,应该还是不会很难吧。不过关键要看模式好不好匹配出来了
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2431 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 36ms · UTC 11:51 · PVG 19:51 · LAX 04:51 · JFK 07:51
    ♥ Do have faith in what you're doing.