向量空间模型:信息检索与文本挖掘中的一种表示方法,把文档和查询表示为高维向量(维度常对应词项/特征),再用向量相似度(如余弦相似度)来衡量相关性与相近程度。也常用于文本分类、聚类与相似度计算等任务。
/ˈvɛktər speɪs ˈmɑːdəl/
Search engines often use a vector space model to rank documents.
搜索引擎常用向量空间模型来对文档进行排序。
By representing each article as a TF‑IDF vector, the vector space model makes it easy to compute similarity and cluster related texts.
通过把每篇文章表示为 TF‑IDF 向量,向量空间模型可以方便地计算相似度并对相关文本进行聚类。
该术语由两部分构成:vector space(“向量空间”,源自线性代数,用向量与维度描述数学空间)+ model(“模型”,表示一种抽象方法)。在信息检索领域中,它因将“文本→向量→相似度”的思路系统化而流行起来,尤其与 TF‑IDF 和 余弦相似度 等方法密切相关。