本地有几十万本电子书,怎么搜索书中的文本内容?

2024 年 1 月 5 日
 devinmagic
请问各位技术达人,本地有二三十万本电子书,可以转为 txt 格式,总容量有上百 G ,请问有什么办法可以快速检索图书中的内容,例如搜索“曹雪芹”就能找到相对应的图书。自己有一台迷你小主机存储这些图书,可以在上面部署服务,谢谢各位了!
2671 次点击
所在节点    问与答
17 条回复
blankmiss
2024 年 1 月 5 日
我感觉很难哦 你的文本内容太大了
ysn2233
2024 年 1 月 5 日
meilisearch es pg ,能建全文索引的都行吧
manasheep
2024 年 1 月 5 日
AnyTXT Searcher
diivL
2024 年 1 月 5 日
建成 WEB, 然后用 google 的站内搜索
devinmagic
2024 年 1 月 5 日
@diivL 很多书都没版权,放到网上估计要被封
zihuyishi
2024 年 1 月 5 日
elasticsearch 不就是用来做这个的么,不知道现在中文支持的咋样了
IsA26hN4DcQDS7Z9
2024 年 1 月 5 日
notepad++?

没试过这么多,最多同时搜索过几百个,

或者上传到群晖试试?能搜索文件内的内容
wonderfulcxm
2024 年 1 月 5 日
可以转 txt 那就转了, 交给 ChatGPT 知识库,打造一个查询问答机器人。
IsA26hN4DcQDS7Z9
2024 年 1 月 5 日
@wonderfulcxm 费用爆表了,哈哈哈
BeautifulSoap
2024 年 1 月 5 日
一本 300kb 的 txt 文字量的话,20w 本共 57gb 的文字量,es 可以处理
或者本地跑个大语言模型,只不过对显卡要求有点高
hicdn
2024 年 1 月 5 日
sun1991
2024 年 1 月 6 日
grepWin or FileLocator
PbCopy111
2024 年 1 月 6 日
不如。。。直接用百度搜。。。然后自己再看书。
fanyingmao
2024 年 1 月 6 日
我是用 Calibre 管理电子书,可以建全文索引
xuanjiangsara
2024 年 1 月 6 日
@fanyingmao 对的。Calibre 已经可以全文索引查找了。就在平时搜索按钮左边。
haichao0808
2024 年 1 月 9 日
如果是在 linux 系统里面的话,可以试试 grep 或者 ag 命令,可以直接搜索文本内容,但是几百 G 估计比较久
flynaj
2024 年 1 月 11 日
Windows 自带的搜索就可以,不要把索引关了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://study.congcong.us/t/1006221

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX