网页自动化怎么攻克自动变化的验证码?

2024 年 12 月 14 日
 wty95

这个网站: https://www.jszwfw.gov.cn/jsjis/front/login.do?uuid=qvCwgZCSeRbz&gotoUrl=aHR0cDovL3h6endmdy5qc3p3ZncuZ292LmNuL3h6empjc21od3ovZXBvaW50empjcy9wYWdlcy9hZ2VudFNwYWNlX3NlcnZpY2Uvd2FpdEJpZGRpbmc%2FendkdHV1aWQ9ZGI4NmIzNzUtYjU4NS00MmY5LWE0MjktODI4NjUyMzE2MjA2

验证码 url 是固定的,但返回结果每次都变: https://www.jszwfw.gov.cn/jsjis/component/verifyCode.do?code=4&var=rand&width=162&height=55&random=0.34837298861771937

我目前是用自动化用 selenium ,识别 ocr 是腾讯云,请问怎么样才能实现 自动化填验证码?

7092 次点击
所在节点    程序员
51 条回复
Lukedis
2024 年 12 月 15 日
狠人大帝都没你狠,怼着政府网站爬
ggabc
2024 年 12 月 15 日
注意原则
kele999
2024 年 12 月 15 日
不要犯罪
Liftman
2024 年 12 月 15 日
你好,已将您的行为投递到对应网信办。
opengps
2024 年 12 月 15 日
爬虫不爬 gov 这是底线
suhu
2024 年 12 月 15 日
@opengps robtos.txt 没有禁止的呢,一天只读一次的呢,这种大家没有接触过吗
raycool
2024 年 12 月 15 日
这种验证码没难度,但是这类网站很刑
opengps
2024 年 12 月 15 日
@suhu gov 级别比 robtos.txt 制定者的级别要高,所以在 gov 眼前一切更低标准都不适用
Y25tIGxpdmlk
2024 年 12 月 15 日
目测这个验证码没什么难度,用 10 年前的打码技术都能轻松搞定,更何况现在有些 AI 识别和人工打码了。

还有,验证码哪个不是随机变化的,我还以为是那种 GIF 的动态验证码呢
et5494
2024 年 12 月 15 日
0 难度,但是不敢
guanhui07
2024 年 12 月 15 日
果然很刑
TophTab
2024 年 12 月 15 日
GOV ?老哥干的是体制内的活?
我只知道以前大学老师会去干这个
EndlessMemory
2024 年 12 月 15 日
截图识别啊
wzblog
2024 年 12 月 15 日
放过自己吧,你看他验证码连基本的干扰都不做,随便识别的。搞 gov 很容易吃国家饭的。
42V0CdLjCU494ogF
2024 年 12 月 15 日
大把这样的服务商,比如 https://www.jfbym.com/
非要自己写的话用 OCR+AI 自己调教一下也够了
dbow
2024 年 12 月 15 日
建议不搞,政府的网站,你也知道的,性能不可能很好,万一被你刷崩了,估计要吃牢饭。
Ackvincent
2024 年 12 月 15 日
直接买服务,不要再验证码上折腾,掉服务商的 API 就行了。
GBdG6clg2Jy17ua5
2024 年 12 月 15 日
即使你可能是某个地市或者啥的供应商,但是你用爬虫把省数据局的网站搞崩了,作为维护系统的乙方,为了能继续拿到这个项目,他们肯定想方设法甩锅,然后你一定会揪出来。然后恭喜你,你可能得进去了。
isSamle
2024 年 12 月 15 日
https://www.jszwfw.gov.cn/jsjis/component/verifyCode.do?code=4&random=0.41377034550816183
通过随机数后端计算返回验证码图片,上 OCR 吧
chenzi0103
2024 年 12 月 16 日
给到 llm 识别就好了 用个好的 llm 模型

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://study.congcong.us/t/1097616

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX