做了一个聚合全球 483 个佛教数字资源的开源平台,支持 AI 问答和知识图谱

3 月 12 日
 XR843
大家好,分享一个我做的项目 —— 佛津
(FoJin),一个全球佛教古籍数字资源聚合平台。

做这个的原因:
全球佛学数字资源分散在几百个网站( CBETA 、SuttaCentral 、BDRC 、84000
等),语言不同、格式不同、接口不同。研究者花在"找经文"上的时间比"读经
文"还多。我想把它们聚合到一起。

目前的功能:

- 聚合 483 个数据源,覆盖 30 个国家/地区、30 个语种
- 8,949 条经典目录检索 + 4,488 卷全文在线阅读
- 6 部佛学辞典、237,593 条词条(中/梵/巴利/英)
- 多语种平行对读(汉/梵/巴利/藏/英等 29 种语言)
- 知识图谱:9,600+ 实体、3,800+ 关系,力导向图可视化
- AI 佛学问答:基于 RAG ,覆盖 38 部核心佛经约 1,100
万字,回答附原文引用
- 支持 BYOK ( Bring Your Own Key ),用户可配置自己的 API Key

技术栈:

- 前端:React 18 + TypeScript + Vite + Ant Design 5
- 后端:FastAPI + SQLAlchemy (async) + Pydantic v2
- 数据库:PostgreSQL 15 + pgvector + Elasticsearch 8 (ICU 分词)
- AI:RAG (向量检索 + 关键词检索),支持通义千问/DeepSeek/OpenAI 等
- 部署:Docker Compose + Nginx + Cloudflare

在线体验: https://fojin.app

GitHub: https://github.com/xr843/fojin

Apache 2.0 开源,欢迎 Star 、提 Issue 或贡献代码。

做这个项目的过程中学到了很多(多语种 NLP 、IIIF
协议、知识图谱构建),也踩了不少坑。如果大家感兴趣,可以交流一下。
1009 次点击
所在节点    分享创造
4 条回复
haloandspike
3 月 12 日
我最近在做一个类似的项目,也是针对古籍的,想问下楼主用的是什么 OCR 模型哇?
cyber001
3 月 13 日
感谢楼主分享,我补充一个网站: https://agama.buddhason.org/ 关于原始佛教经典研究、翻译的
XR843
3 月 15 日
@haloandspike 目前主要是聚合全球的佛教相应的资源 以及知识图谱与 AI 问答功能 后续如果有需要的话可能会迭代 OCR 功能
XR843
3 月 16 日
@cyber001 已经添加。可查阅: https://fojin.app/sources

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://study.congcong.us/t/1197693

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX