V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
shierji
V2EX  ›  问与答

有人爬过 Google 的搜索结果没

  •  
  •   shierji · Jun 13, 2015 · 3885 views
    This topic created in 3979 days ago, the information mentioned may be changed or developed.
    我知道这很奇葩。。但是导师让做。

    我试了下curl和scrapy shell都看不到内容。。。难道需要selenium模拟?
    19 replies    2015-06-13 18:06:28 +08:00
    lianyue
        1
    lianyue  
       Jun 13, 2015
    google 有伐限制爬多了点 就。。。。 验证码 我记得 google 有ajax 的搜索api json格式的 自己找找吧
    lincanbin
        2
    lincanbin  
       Jun 13, 2015
    Andy1999
        3
    Andy1999  
       Jun 13, 2015 via iPhone
    会限制的
    shierji
        4
    shierji  
    OP
       Jun 13, 2015
    @lianyue
    @lincanbin
    @Andy1999 我的意思是就是第一次都抓不到结果。。
    多次的问题肯定可以通过代理来解决嘛
    dong3580
        5
    dong3580  
       Jun 13, 2015 via Android
    嵌套一个webbrower控件试试,应该可以,C#里面有ms提供的,其他语言的话不清楚。谷歌搜索检测太多,多玩几次就会干掉。一楼说的那个ajax,每页返回4条,一共18到20页结果,再请求就不行了。
    ericls
        6
    ericls  
       Jun 13, 2015
    曲线救国 试试 aol.com
    binux
        7
    binux  
       Jun 13, 2015
    不要爬桌面版
    elgoog
        8
    elgoog  
       Jun 13, 2015
    API不行?
    gdwest
        9
    gdwest  
       Jun 13, 2015 via iPhone
    这个问题你要@国内各大搜索引擎
    zhjits
        10
    zhjits  
       Jun 13, 2015
    Pricing

    JSON/Atom Custom Search API pricing and quotas depend on the engine's edition:

    Custom Search Engine (free)
    For CSE users, the API provides 100 search queries per day for free. If you need more, you may sign up for billing in the Developers Console. Additional requests cost $5 per 1000 queries, up to 10k queries per day.

    Google Site Search (paid).
    For detailed information on GSS usage limits and quotas, please check GSS pricing options.
    icedx
        11
    icedx  
       Jun 13, 2015
    icedx
        12
    icedx  
       Jun 13, 2015
    V2EX 不支持缩进 所以你把下面两行代码贴到Python 中就能看到解决方法了

    Code="""import[Space]requests\n\nConf_UseProxy=0\n\nHeaders={'User-Agent':'Mozilla/4.0[Space](Windows;[Space]MSIE[Space]6.0;[Space]Windows[Space]NT[Space]5.2)'}\n\nif[Space]Conf_UseProxy==1:\n[Space]import[Space]socks[Space]\n[Space]import[Space]socket[Space]\n[Space]socks.set_default_proxy(socks.SOCKS5,'localhost',1079,rdns=True)[Space]\n[Space]socket.socket[Space]=[Space]socks.socksocket\n\ndef[Space]GetGoogle(KeyWord):\n[Space]Url='https://www.google.com/search?q='+KeyWord\n[Space]Response=requests.get(Url,headers=Headers)\n[Space]print[Space]Response.content\n\nGetGoogle('QueenSamaprpr')"""
    print Code.replace('\\n','\n').replace('[Space]',' ')
    shierji
        13
    shierji  
    OP
       Jun 13, 2015
    @icedx gist啊 - -

    这个,,没缩进要死要死啊- -
    shierji
        14
    shierji  
    OP
       Jun 13, 2015
    @zhjits 我看过这个。。。贵的要死。。。
    icedx
        15
    icedx  
       Jun 13, 2015
    这个不是对楼主说的: 不要吐槽我的代码风格, 你们那些个没解决问题的没资格吐槽我的代码风格!(指

    这个才是对楼主说的: 翻页的参数是: &start=(目标页数-1)*10
    icedx
        16
    icedx  
       Jun 13, 2015
    @shierji 这就两行 没缩进 你贴到Python 就能看到真正的代码了...

    https://gist.github.com/anonymous/d559b998e47afedd668b
    shierji
        17
    shierji  
    OP
       Jun 13, 2015
    @icedx 额。你的思路是强行用IE啊- -
    那跟 binux思路差不多
    shierji
        18
    shierji  
    OP
       Jun 13, 2015
    @icedx
    我先出去吃饭。。一会回来试试。。。
    icedx
        19
    icedx  
       Jun 13, 2015 via Android
    @shierji 他的方法有点问题
    如果用移动版的话
    有很多网站Google 会贴出移动版的地址
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   987 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 51ms · UTC 23:11 · PVG 07:11 · LAX 16:11 · JFK 19:11
    ♥ Do have faith in what you're doing.