V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
shoumu
V2EX  ›  程序员

爬虫爬到的大量图片是直接放到数据库中还是放到文件系统中?

  •  
  •   shoumu ·
    shoumu · Jul 26, 2013 · 10076 views
    This topic created in 4664 days ago, the information mentioned may be changed or developed.
    30 replies    1970-01-01 08:00:00 +08:00
    mazesoul
        1
    mazesoul  
       Jul 26, 2013
    文件系统
    pubby
        2
    pubby  
       Jul 26, 2013   ❤️ 1
    看多大量以及后续怎么用

    我这边是直接扔leveldb中
    linzhi
        3
    linzhi  
       Jul 26, 2013
    放到文件系统是什么意思 求科普
    reusFork
        4
    reusFork  
       Jul 26, 2013
    文件系统也是数据库
    shoumu
        5
    shoumu  
    OP
       Jul 26, 2013
    @pubby 会对每一张图片进行处理,后面可能涉及到少量图片的查找,显示
    shoumu
        6
    shoumu  
    OP
       Jul 26, 2013
    @linzhi 就是数据库中存放图片的路径,图片存放到系统的某个目录下
    shoumu
        7
    shoumu  
    OP
       Jul 26, 2013
    @reusFork 文件系统不是数据库吧
    JimGee
        8
    JimGee  
       Jul 26, 2013
    图片放在数据库中好像是二进制形式的。存入和读出还要经过转换的。
    zippera
        9
    zippera  
       Jul 26, 2013
    @JimGee 放在文件系统。如果需要调用,那么再处理一下文件名存入数据库。
    loveminds
        10
    loveminds  
       Jul 26, 2013
    当然是文件系统中,把图片丢进数据库不太方便
    soli
        11
    soli  
       Jul 26, 2013
    如果是小图片,则几个图片写到一个文件中,然后在数据库里记录文件名和偏移。
    JimGee
        12
    JimGee  
       Jul 27, 2013
    @zippera 我讲了图片直接放在数据库中的缺点,就是为了引出文件系统的好处哟。

    @soli 也可以读出的时候用CSS偏移或旋转,就不用在数据库中做标记了。
    scusjs
        13
    scusjs  
       Jul 27, 2013   ❤️ 1
    文件系统+数据库索引
    reusFork
        14
    reusFork  
       Jul 28, 2013
    @JimGee 他说的偏移跟你理解的偏移不是一回事
    refresh
        15
    refresh  
       Jul 28, 2013
    mongodb欢迎你
    zzWinD
        16
    zzWinD  
       Jul 28, 2013 via Android
    我们用的是mongodb grifs 不知道
    mckelvin
        17
    mckelvin  
       Jul 28, 2013 via Android
    总共5G左右的图,笔者后来选择了存文件系统,分目录。
    shoumu
        18
    shoumu  
    OP
       Jul 28, 2013
    @refresh
    @zzWinD
    我也用的是mongodb,但是不知道讲图片直接存到数据库中还是存它的地址哪种的效率更好
    Alexisused
        19
    Alexisused  
       Jul 28, 2013
    请问你爬的是煎蛋的妹子图么^_^ , 如果是跟大家分享一下呗
    shoumu
        20
    shoumu  
    OP
       Jul 28, 2013   ❤️ 1
    @Alexisused
    爬人人的头像相册,爬妹子图是个好想法,你写个呗,^_^
    manoon
        21
    manoon  
       Jul 28, 2013
    @shoumu goodidea!
    Alexisused
        22
    Alexisused  
       Jul 28, 2013
    @shoumu 最近压力大啊 都是加班的节奏 没心思爬 靠你了
    lewisc402
        23
    lewisc402  
       Jul 28, 2013
    咨询下LZ 用的是什么样的爬虫啊??是基于scrapy这样的框架的基础上的?还是全部自己写的?
    xinrui5577
        24
    xinrui5577  
       Jul 29, 2013
    求楼主的代码。。我也想要一个。
    4BVL25L90W260T9U
        25
    4BVL25L90W260T9U  
       Jul 29, 2013 via Android
    很早之前爬过煎蛋妹子图,过了好久了,再爬一次试试
    cevincheung
        26
    cevincheung  
       Jul 29, 2013
    mongodb路过
    xdyl
        27
    xdyl  
       Jul 30, 2013
    FastDFS
    cxshun
        28
    cxshun  
       Jul 30, 2013
    @Alexisused 哈哈,这个好想法,这段时间正好在想有啥东西可以去做做,构思一下。
    wodemyworld
        29
    wodemyworld  
       Jul 30, 2013   ❤️ 1
    请扔mongodb,分布式存储,这对将来的分析和综合都有好处,要不以后改起来的话能头痛死你

    以往的做法是,每张图片有很多的tag,全靠tag来提供信息,检索、分类等都有很好的效果,当然了,前提是你已经有tag系统了,这个你要是没有的话就先别做了,这个工作量不小~
    Alexisused
        30
    Alexisused  
       Jul 31, 2013
    @cxshun 好好搞 骚年 我坐等现成的了
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2668 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 77ms · UTC 02:51 · PVG 10:51 · LAX 19:51 · JFK 22:51
    ♥ Do have faith in what you're doing.