V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
lusuon
V2EX  ›  问与答

如何固化大型的 RDF?(GB 级的 Turtle)

  •  
  •   lusuon · Mar 14, 2019 · 1820 views
    This topic created in 2608 days ago, the information mentioned may be changed or developed.

    最近被老师交了个任务:向数据库导入交大的学术知识图谱Acemap,此前考虑过以下的方法导入:

    1. neo4j (配合neosemantic插件,但 neo4j 在千万级结点后插入、查询等操作极为缓慢,基本不可用)

    2. jena TDB2 (当前正在尝试,但 tdb2loader 的导入性能也不容乐观,7 千万结点后可能因为本地测试机内存有限,速度也慢下来了)

    目前我的思路是:将数据分为较小的块( chunk ),再分为每个 5 千万条三元组的 Turtle 分批进行导入。但使用 Github 上的相关 repo:rdfsplit 不能做出理想的效果。

    而且对数据进行实验操作的平台比较羸弱:本地测试机的 RAM 仅 8G,服务器 RAM 16G,可能也因此制约了导入的效率。

    作为语义网 /知识图谱领域的门外汉,网络上语义网 / 构建大型知识图谱相关的内容较少,Google 一番后仍得不到较好的答案。在此向 V2EX 里的各位请教以下问题:

    1.如何在单机环境下,将大型 RDF 文件固化进数据库?( GB 级,最大近 40G )

    2.同时,有哪种处理 RDF 工具(目前想要对 RDF 进行分割)值得一用?

    No Comments Yet
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2733 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 03:12 · PVG 11:12 · LAX 20:12 · JFK 23:12
    ♥ Do have faith in what you're doing.