又创造了一个轮子, C#版本的搜狗微信公众号抓取

2017 年 9 月 13 日
 hluo7054

网上看到又不少类似的轮子,但是大多都是 Pyhton,于是撸了一个 C#版本的WeGouSharp (即 Wechat+ Sogou + Csharp)

暂时采用 HtmlAgility 解析 html

目前已经完成了基本部分

但是仍然存在一些小骨头没啃,比如有个验证码的没能重现(望指点)

还有自动打码,等等,可能会采用 OpenCv/EmguCV 识别验证码,不知道可行性怎样

现在公开请各位大佬批评,点星或者来叉

项目地址

4963 次点击
所在节点    程序员
16 条回复
4BVL25L90W260T9U
2017 年 9 月 13 日
不可行, 搜狗的验证码很变态的
WeaPoon
2017 年 9 月 13 日
加油~~哈!
justtery
2017 年 9 月 13 日
辛苦了,用 c 艹写爬虫。写个简单的页面抓取都需要写超级多行。并不想打消楼主的积极性
lyhiving
2017 年 9 月 13 日
可以过得了验证码这一关算我输
levon
2017 年 9 月 13 日
我解析 html 用 csquery,虽然不更新,但感觉超级简单。就跟使用 jquery 一样去获取元素
Choyes
2017 年 9 月 13 日
之前爬过搜狗的微信公众号文章,不过我并没有去处理验证码,而是通过代理来绕过。
wqxuan
2017 年 9 月 13 日
@Choyes 请问下用的哪家代理?最近试用了一家的入门级公开代理(付费),效果很差。
yangyaofei
2017 年 9 月 14 日
话说微信公众号的评论怎么抓取呢?
Choyes
2017 年 9 月 14 日
@wqxuan 我是去抓取免费的代理,然后自己维护一个代理 ip 池.参照这边 https://github.com/jhao104/proxy_pool 用 c#做了个简单的代理 ip 池
missdeer
2017 年 9 月 14 日
过不了验证码关就没什么用
naomhan
2017 年 9 月 14 日
验证码我们公司有人用 tensorflow 训练了个模型 好像识别率还可以
VShawn
2017 年 9 月 14 日
为什么要爬微信公众号?
ljcarsenal
2017 年 9 月 14 日
@VShawn 我也有疑问 不过最先做这个的 传送门 的确是火起来了
finalsatan
2017 年 9 月 14 日
@naomhan 有训练数据集可以分享下吗,最近也在做这个,数据量不够,自己生成的验证码总感觉和搜狗的不太一样。谢谢了先。
naomhan
2017 年 9 月 14 日
@finalsatan #14 不断请求验证码那个链接 就有了
hluo7054
2017 年 9 月 15 日
@ljcarsenal 发现传送门貌似已经一个多月没更新了,所以才发了这个出来

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://study.congcong.us/t/390481

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX