V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
爱意满满的作品展示区。
northess

撸了一个网课题库 API(300W)

  •  
  •   northess · Jun 21, 2020 · 8273 views
    This topic created in 2139 days ago, the information mentioned may be changed or developed.

    疫情在家上网课,用过 APP 、公众号、脚本查题,渐渐接触到了网课查题这个世界
    逐渐萌生了自己建一个题库的想法,于是开搞
    从前端到后端到数据库、文档,基本都是自己一点一点磨出来的。官网的单页偷懒就悄咪咪套了个模板
    本以为就是一个查询查询查询的操作,但我还是想得太简单了
    第一次面对上百万的数据量,20 秒的查询时间让我直接哭出了声,自学的那点可怜的知识瞬间不够用了啊。
    紧急补习了数据库优化..现在采用分词+索引的方式,基本能达到使用要求
    别看官网写得挺那啥的,其实也就那么回事儿,才刚刚上路,不是很完善,要走还很长
    算是一次因兴趣而生,边学边练的作品吧
    现在题量已经有 300 多万了,也在一步步的扩充,目前是通过未命中题目记录后台再收录的方式来补充题目,希望有兴趣或者有更好的办法的可以一起扩充题库
    如果可以的话,欢迎各位推介一下,先感谢了~!
    N1qaVA.md.png

    N1bX38.md.png

    如果有什么不好的地方,欢迎巨佬指正!斧正!教育!

    附上地址:
    官网: https://www.vanswo.net
    文档: https://docs.vanswo.net
    体验: https://wk.wanshiwu.asia

    24 replies    2020-06-26 22:33:32 +08:00
    northess
        1
    northess  
    OP
       Jun 21, 2020
    测试:
    1002
    rYY785HWsRWOoXSaSAOqo7Ix86a0HrTk
    octobersnow
        2
    octobersnow  
       Jun 21, 2020 via Android
    这官网的魔板是啥啊
    Higurashi
        3
    Higurashi  
       Jun 21, 2020
    顶一个
    cuikai1
        4
    cuikai1  
       Jun 21, 2020   ❤️ 1
    问下 300 多万的题库是怎么弄出来的?
    dongisking
        5
    dongisking  
       Jun 21, 2020
    niubia
    justin2018
        6
    justin2018  
       Jun 21, 2020
    ![MzOzFZE]( )
    guoer
        7
    guoer  
       Jun 21, 2020
    律师函警告,楼主注意版权问题
    xm5211
        8
    xm5211  
       Jun 21, 2020
    蹲一个网站模板
    Telegram
        9
    Telegram  
       Jun 21, 2020
    咦,好像不错的样子,哈哈
    Littleor
        10
    Littleor  
       Jun 21, 2020 via iPhone
    一直很好奇这种网站的图是咋做的
    ShallowAi
        11
    ShallowAi  
       Jun 21, 2020 via Android
    建议接入 Cloudflare CDN 防止滥用
    题库扩充和完善可以接入和二次开发 greasyfork 的各种答题脚本
    nc4697
        12
    nc4697  
       Jun 21, 2020
    还带刷课的吗。话说这个国内监管如何
    ManNotFound
        13
    ManNotFound  
       Jun 22, 2020 via iPhone
    很好的想法。
    市面上已经有成熟的纸质作业搜题的产品了,网课搜题有搞头。
    查询的优化你应该是做了倒排文件吧,还可以从查询策略上做优化。
    这东西再接个 OCR,就完整了。
    我是个产品,挺羡慕你们技术有想法自己可以实现的。
    lonelymarried
        14
    lonelymarried  
       Jun 22, 2020
    我也在爬题库,300w 是咋爬到的。我买了代理还没爬完。ip 封的太快
    northess
        15
    northess  
    OP
       Jun 22, 2020
    @cuikai1
    @lonelymarried
    我是机缘巧合之下弄回来了一个有点题量积累的题库,然后没有的再去爬,这样子可能比直接从零开始快捷了一点叭
    northess
        16
    northess  
    OP
       Jun 22, 2020   ❤️ 1
    @octobersnow
    @xm5211
    模板是在站长之家翻到的,一直丢着没用,这次用上了
    http://sc.chinaz.com/moban/191014007650.htm
    改了谷歌的字体库为中科大的,还有一些引用地址,下面联系方式是画的 QQ 微信的 svg
    northess
        17
    northess  
    OP
       Jun 22, 2020
    @guoer
    嗯嗯,谢谢提醒,我会注意的
    @nc4697
    光明正大肯定是不可能的了,只能够是随缘才有得刷一下这样子
    @ManNotFound
    谢谢大佬的建议,会考虑往这个方向去尝试尝试的!话说这么大的数据量对我来说也是第一次面对,也一直在查各种资料寻找更优的办法。
    nc4697
        18
    nc4697  
       Jun 22, 2020
    @Norths #17 可以跟函授站合作,不过他们资源也挺多的,只能压价,利润不会太高
    bfqymmt
        19
    bfqymmt  
       Jun 22, 2020
    这个模板真好看。
    Austin2035
        20
    Austin2035  
       Jun 23, 2020
    最近只采集了 60W 道题目,也是醉了,不知道哪里有全面的题库可以供采集
    northess
        21
    northess  
    OP
       Jun 23, 2020
    @lookcos
    数据互换吗?也许你有我没有的题目
    ZaneCheney
        22
    ZaneCheney  
       Jun 26, 2020 via iPhone
    [狗头]为啥我打开网址提示这个弹出框:
    通知
    我说有的朋友也太不厚道了吧?
    一天十几二十万地抓,真当我是瞎还是瞎?
    又不是不开放给你用,几十块钱会要了你马的葬礼费还是你爸没钱挖出来了?
    fk5555
        23
    fk5555  
       Jun 26, 2020
    输入关键词 如“法律”,只能出现一条题目答案,相关题目应该很多才对~
    pandasoda
        24
    pandasoda  
       Jun 26, 2020
    查询的速度有些慢了
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5560 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 107ms · UTC 02:58 · PVG 10:58 · LAX 19:58 · JFK 22:58
    ♥ Do have faith in what you're doing.