“IDF curve” 指“逆文档频率(IDF)曲线”:在信息检索/文本挖掘中,用曲线展示 IDF 权重 随“包含该词的文档数量(或文档频率 df)”变化的趋势。通常 df 越大(词越常见),IDF 越低;df 越小(词越稀有),IDF 越高。(不同实现可能采用对数形式或平滑项,曲线形状会略有差异。)
/ˌaɪ diː ˈɛf kɝːv/
We plotted an IDF curve to see which words are rare in the dataset.
我们画了一个 IDF 曲线,看看哪些词在数据集中比较稀有。
When comparing two corpora, the IDF curve revealed that domain-specific terms keep high weight while common function words quickly drop toward zero under log-scaling.
在比较两个语料库时,IDF 曲线显示:领域专有词往往保持较高权重,而常见虚词在对数缩放下会很快降到接近零。
IDF 是 inverse document frequency(逆文档频率)的缩写,来自信息检索领域的“词项加权”思想;“curve” 表示把 IDF 与文档频率等变量的关系画成曲线,用于直观观察权重衰减规律。IDF 常与 TF(term frequency)一起构成 TF‑IDF。