特殊行业小企业的大文件存储、共享和永久备份的一些问题

2024 年 11 月 12 日
 ipengxh

前情概要

  1. 公司性质特殊,存储的数据是刑事案件的手机、电脑、服务器镜像,数据需要保留至少 30 年;
  2. 公司起步阶段,对成本比较敏感,目前公司规模约 10 人,一般 1~5 个人参与一个项目;
  3. 每年 50~100 个项目,每个项目所需的存储从 10G 到 30T 不等,平均在 1T 左右;
  4. 存储的数据以 zip 压缩文件为主,也可能临时存储大量服务器镜像的原始文件( raw 、qcow2 等格式),文件大小从 10G 到 1T 不等,每个项目还包含数十个文档文件。

当前方案

  1. Dell 730XD + TrueNAS Scale + 12x16T ;
  2. 2 个 ZFS 存储池,每个 6 块盘,一个冗余 1 块盘( Z1 ),一个冗余 2 块( Z2 );
  3. 开启 zstd-9 ,对于服务器镜像的原始文件有极佳的压缩率( 1T 的镜像文件实际占用空间可能会小到 1G )
  4. 仅开 samba 协议挂载形式访问数据;
  5. ZFS 离线备份往年数据。

当前存在的问题

  1. 权限管理的问题。每个项目的数据不允许项目外的人访问(也不允许列举目录),不知道是不是使用 TrueNAS 的姿势不对,没找到可以配置的入口。TrueNAS 是否可以方便的实现该需求?如不可以,有无更好的选择?

潜在的风险

  1. 氦气盘不稳定因素。据网上的资料,氦气盘存在漏气的风险,考虑到成本因素,离线备份只有一份备份,备份损坏可能导致灾难性问题。是否应当考虑其他存储介质?
  2. TrueNAS 稳定性问题。目前已经挂过一次 TrueNAS 系统盘了( Intel 傲腾),用新盘装新系统添加池就恢复了。TrueNAS 是否存在其他可能导致数据丢失的潜在风险?
6385 次点击
所在节点    NAS
84 条回复
luoshengdu
2024 年 11 月 12 日
sc2yml
2024 年 11 月 12 日
我单位按照监管的信息技术指引客户资料和记录至少保存 30 年,之前有用过光盘但超过一定年限光盘读取成功率很低;近 10 年用集中式存储+NBU+每天多地离线备份,但是遇到过 2 次存储故障紧急请 EMC 原厂救援,NBU 备份受制于设备容量也只能备份本年度数据,异地离线磁盘经常会产生即使做了 raid1 也无法正常读取现象。目前我正在调研磁带库
wnpllrzodiac
2024 年 11 月 12 日
多备份总没错,刚起步就想着 30 年以后啊
dalaoshu25
2024 年 11 月 12 日
这种破事难道不是首先考虑一个 LTO-9 的磁带库?冰箱那么大的柜子,里面装上五六百盘磁带,每盘磁带容量不压缩 18T ,全自动机械手操作,平摊下来很便宜的。
wm5d8b
2024 年 11 月 13 日
硬盘真能放 30 年?我闲置 10 年的硬盘读取就挺卡了,而且确认接口的灰尘已清理。还不如磁带靠谱
dode
2024 年 11 月 13 日
这个不是搞磁带量大管饱,稳定吗
jy00295017
2024 年 11 月 13 日
@XiLingHost 问个问题,银行的那种可以倒查 5 到 10 年的历史明细数据是怎么存储的?我们现在做的一个高并发业务平台,目前只保留 2 年数据,如果历史数据全部保留,活动期间所有人一起查询历史数据时,速度非常慢,压力非常大
jy00295017
2024 年 11 月 13 日
@XiLingHost 问个问题,银行的那种可以倒查 5 到 10 年的历史明细数据是怎么存储的?我们现在做的一个高并发业务的微服务平台,目前只保留 2 年数据,如果历史数据全部保留,活动期间所有人一起查询历史数据时,速度非常慢,压力非常大
jy00295017
2024 年 11 月 13 日
@linzyjx
@NevadaLi
@8355
@paopjian
@PeterPig 问个问题,银行的那种可以倒查 5 到 10 年的历史明细数据是怎么存储的?我们现在做的一个高并发业务平台,目前只保留 2 年数据,如果历史数据全部保留,活动期间所有人一起查询历史数据时,速度非常慢,压力非常大
eroko
2024 年 11 月 13 日
@ipengxh 用硬盘冷存储最大的问题就是硬盘是需要通电的,隔一段时间就要上电做一次校验,否则你不知道什么时候你的硬盘就完蛋了。
swLoXtOtd89pGg8t
2024 年 11 月 13 日
@jy00295017 #69
"活动期间所有人一起查询历史数据时,速度非常慢,压力非常大"

一般来说不会一起并发查询这么多冷数据的,即便是倒查 5-10 年也不是说瞬间出结果的,建议改下业务逻辑,先统计,之后扔后台慢慢查。
8355
2024 年 11 月 13 日
@jy00295017 #69
这在现在已经不是问题了,用大数据做就行,clickhouse 就可以实现了,速度并不会太慢,更多还是按照时间分区查询。
wbrobot
2024 年 11 月 13 日
clovershell
2024 年 11 月 13 日
swLoXtOtd89pGg8t
2024 年 11 月 13 日
@ipengxh 你们需要的新技术来了

“MED 预计将于 2025 年推出,第二代更紧凑的产品将于 2026 年或 2027 年推出,外形尺寸为 3.5 英寸。”

https://www.cnbeta.com.tw/articles/tech/1454774.htm
dabai091220
2024 年 11 月 13 日
@luoshengdu 可以问一下这一套 4pb 的价格吗?大概数字就行,100w 能拿下吗?
luoshengdu
2024 年 11 月 13 日
@dabai091220 #76 差不多。之前卖一个机头+一个柜子满配,70 多万
luoshengdu
2024 年 11 月 13 日
@jy00295017 #69 查询历史数据,可以让他提交请求排队啊,跟我们的征信查询一样提交后 24 小时后来下载结果!某些银行查历史流水数据的话是要给钱才能查询打印的!
mark2025
2024 年 11 月 13 日
冷备用磁带吧,成本低得多。保存环境良好条件下几十年没问题。
mark2025
2024 年 11 月 13 日
@ipengxh 磁带比光盘更靠谱

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://study.congcong.us/t/1088741

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX