我使用 scrapy-redis 开发了一个分布式爬虫,并分别部署在 4 个 docker 中,抓取程序中的 pipeline 负责连接 hadoop 并将数据追加到 hadoop 中,但因为是分布式的存在,必定会造成同一时刻有多个 client 操作同一个 file,就违反了 hadoop 的 lease 机制,从而造成数据入库失败,大家有什么办法解决吗
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
https://study.congcong.us/t/631810
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.