V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
beryl
V2EX  ›  程序员

关于爬虫的法律问题 - 知乎的用户信息的法律问题?

  •  
  •   beryl · Nov 27, 2020 · 3497 views
    This topic created in 1981 days ago, the information mentioned may be changed or developed.

    爬知乎的用户的相关信息(姓名、简介),和回答标题,然后展示在网站上,跳转连接到知乎上去

    不存储内容,只存储连接,和标题(可能还有摘要、点赞这些),但是会存储用户信息用户名这些

    这种会有法律风险么,或者说即使有,但是会有被知乎起诉的风险么

    也有可能是豆瓣


    readhub 这种算爬虫么, 或者有法律风险么,大致可能和这种类似

    20 replies    2020-11-29 11:42:22 +08:00
    imn1
        1
    imn1  
       Nov 27, 2020
    是说隔壁那个展示某知乎用户做浏览器盈利的帖子么?🐶

    此题,我觉得会
    beryl
        2
    beryl  
    OP
       Nov 27, 2020
    @imn1 不是不是,而且那个是影响了人家知乎的商业价值,我这个想到与是知乎的导引,最近内容还是要点连接,进入到知乎网站。类似搜索,但是是结构化搜索
    woodensail
        3
    woodensail  
       Nov 27, 2020 via Android
    我决定你更应该考虑隐私问题,用户信息也是隐私
    imn1
        4
    imn1  
       Nov 27, 2020
    @beryl #2
    嗯,1 楼歧义了,”此题“指的是你的正文,不是隔壁帖子
    所以正式回复是,有法律风险的
    locoz
        5
    locoz  
       Nov 27, 2020 via Android
    看起来是数据分析类的?这种的话看情况,如果平台自己想做这种东西,那你不关站就死;但是如果平台自己不做,那你就随便搞,总之就是只要不触及到别人利益就可以活得好好的。
    jr55475f112iz2tu
        6
    jr55475f112iz2tu  
       Nov 27, 2020
    凡是爬虫都有一定法律风险的,差别只在于被爬的主体愿意花多少精力来应付这件事
    爬虫,基本上不可避免的就是要处理反爬,这约等于违反被爬主体意愿获取其数据
    zerofancy
        7
    zerofancy  
       Nov 27, 2020   ❤️ 1
    这好像就是搜索引擎的做的事情啊……
    那么我们看下 robots.txt

    User-Agent: *
    Disallow: /

    很好^_^
    cmostuor
        8
    cmostuor  
       Nov 27, 2020
    会, 未经他人许可窃取他人数据
    cmostuor
        9
    cmostuor  
       Nov 27, 2020
    @cmostuor 如果是获得了作者和知乎豆瓣这些平台提供商的同意那不属于犯法属于业务合作.
    cmostuor
        10
    cmostuor  
       Nov 27, 2020
    @cmostuor 作者同意的话可以手抄一份再发不能在平台页面直接复制粘贴
    kingfalse
        11
    kingfalse  
       Nov 27, 2020 via Android
    你觉得你是在给知乎引流,但是知乎并不会这么觉得。不然淘宝为啥不让搜索引擎爬了呢!一样的道理
    chevalier
        12
    chevalier  
       Nov 27, 2020
    取决于你有没有凭此获利
    tuding
        13
    tuding  
       Nov 28, 2020 via Android
    如果你做得不成气候,没意思。做得好,知乎做个差不多的,然后告你侵权?
    Lemeng
        14
    Lemeng  
       Nov 28, 2020
    这个东西目前还是比较隐晦。好像没有因此而入邢的吧。可能我孤陋了
    说不好
    laminux29
        15
    laminux29  
       Nov 28, 2020
    中立地说,大部分大佬早期都是走违法高风险来起步的。

    只是这其中,有些大佬通过一些方法成功避险上岸,有些大佬太高调进去了而已。

    爬虫目前在法律上的确是高风险,但是,目前这部分法律,是有漏洞的,是可以通过一些方法避险的,我只能点到这里,再具体下去,我就是在这里教唆违法了。不建议做,如果一定要做,你要认识到这是高风险,想好利益得失。
    Jooooooooo
        16
    Jooooooooo  
       Nov 28, 2020
    你感觉有风险

    那就真的有风险

    不要做
    opengps
        17
    opengps  
       Nov 28, 2020
    法律风险从来都有,因为法律问题可以从很多出发点发起。风险小不等于没有
    爬虫本身就不是真人访客,给目标站带来的压力,带来的流量引导,可能都成为被告理由
    muzuiget
        18
    muzuiget  
       Nov 28, 2020
    这不是搜索引擎?
    fdy1995
        19
    fdy1995  
       Nov 29, 2020
    readhub 应该就是爬虫采集的,我看有好多重复性的不同网站的文章,他这个内容更类似把不同报纸内容,剪下来。但是,他这个采集的都不是特别热门的网站,反扒应该不是很厉害(猜测,没实际爬过不知道)。
    不过,按照你的叙述,就是想提取一些热点回答以此吸引流量嘛?但是,这个跟他本身存在的一些热度推荐没啥差别把?如果你再做并以此获利,很大概率会被起诉把
    yasaminekldkxf
        20
    yasaminekldkxf  
       Nov 29, 2020
    看 robots.txt ,只要没有禁止,原则上就可以,频率别太高就行。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   813 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 57ms · UTC 20:30 · PVG 04:30 · LAX 13:30 · JFK 16:30
    ♥ Do have faith in what you're doing.