如何用代码识别文件是 *文本文件* 还是 *二进制文件*,只能通过后缀名吗

2019 年 7 月 1 日
 daijinming

判断文本文件可以通过文件头,识别出是 UTF\GBK\或是 Unicode 什么的,但如何识别文本文件 还是 二进制文件 该怎么办?

6593 次点击
所在节点    程序员
41 条回复
Sylv
2019 年 7 月 1 日
重新组织一下语言吧,你语文老师看到了应该会挺生气的。
binux
2019 年 7 月 1 日
不是 UTF\GBK\或是 Unicode 什么的就是二进制文件呗,多简单的事啊
daijinming
2019 年 7 月 1 日
@binux 不是这个意思,我是说判断文本文件采用哪种编码比较简单,但是区分 *文本文件* 和 *二进制*文件比较困难
koebehshian
2019 年 7 月 1 日
参考文本编辑器的做法
jasonyang9
2019 年 7 月 1 日
daijinming
2019 年 7 月 1 日
@koebehshian 记事本打开图片文件也是可以,不过显示的是乱码
txy3000
2019 年 7 月 1 日
你想以什么样的编码方式读取文件是由你决定的 文件都是 2 进制序列
lotmany
2019 年 7 月 1 日
哪些文件定义为二进制文件?哪些又是文本文件? 图片算二进制文件吗?不也是可以用文本编辑器打开.
daijinming
2019 年 7 月 1 日
@txy3000 二进制文件哪有编码呀,比如 图片,只要程序识别出无法显示出文本就好,而不是用乱码展示
AlloVince
2019 年 7 月 1 日
`file --mime-type /path_to_your_file`
binux
2019 年 7 月 1 日
@daijinming 我意思是只要你能判断编码的就是文本文件,反之是二进制文件
hacher
2019 年 7 月 1 日
hacher
2019 年 7 月 1 日
git 是判断前 8000 字节是否含有"\x00"
daijinming
2019 年 7 月 1 日
@binux 理论上这么讲没问题,但是现有的网上的代码,都是这么判断 是不是 utf 编码,是不是 unicode 编码,... 还不是默认就是 ASCII 了,比如 https://blog.csdn.net/zh_geo/article/details/85859026
yankebupt
2019 年 7 月 1 日
unicode 的有超出文本区字符的直接判二进制。非 unicode....么....
上古时代(19xx)的判定方法是
第 8 bit 占用率接近 40%-60%的算二进制,占用不到 5%的判文本.....中文非常用字超 25%的判二进制....其他看着随便判就是

只适用于基本用途,因为....
会误杀各种奇葩文件,纯色多的位图,各种冷门语言的文件等等各类文件...随便找个硬盘扫一下误判率不低于 5%...
daijinming
2019 年 7 月 1 日
@hacher 这个听着靠谱
binux
2019 年 7 月 1 日
@daijinming ASCII 才 128 个字符,是不是你自己不会判断吗,为什么要照着抄 ?
pkookp8
2019 年 7 月 1 日
可以读到已知头的算已知格式
其余全算二进制
koebehshian
2019 年 7 月 1 日
@daijinming 我又没说记事本,记事本压根没有判断是文本文件还是二进制文件。我用 emeditor, 它可以
daijinming
2019 年 7 月 1 日
@hacher 包含 含有"\x00"就是二进制文件吗

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://study.congcong.us/t/578971

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX