向量空间模型(VSM)
向量空间模型将文档映射为一个特征向量V(d)=(t
1
,ω
1
(d);…;t
n
,
ω
n
(d)),其中t基金安顺
i
(i=1,2, …,n)为一列互不雷同的词条项,ω
i
(d)为t
i
在d中的权值, 一般被定义为t
i
在d中出现频率tf
i
(d)的函数,即 。 大冷股份股票
在信息检索中常用的词条权值计算方法为 TF-IDF 函数,其中N为所有
文档的数目,n
i
为含有词条t
i
的文档数目。TF-IDF公式有很多变种,
下面是一个常用的TF-IDF公式:
|江淮汽车股票美国股灾
根据TF-IDF公式,文档集中包含某一词条的文档越多,说明它区分文
档类别属性的能力越低,其权值越小;另一方面,某一文档中某一词条
出现的频率越高,说明它区分文档内容属性的能力越安集科技强,其权值越大。
两文档之间的相似度可以用其对应的向量之间的夹角余弦来表示,即文
档d
i
,d
j
的相似度可以表示为
进行查询的过程中,先将查询条件Q进行向量化,主要依据布尔模型:
|300044
当t
i
在查询条件Q中时,将对应的第i坐标置为1,否则置为0,即
从而文档d与查询Q的相似度为
根今日停牌股票 据文档之间的相似度,结合机器学习的一些算法如神经网络算法,K-
近邻算法和贝叶斯分类算法等,可以将文档集分类划分为一些小的文档
子集。
在查询过程中,可以计算出每个文档与查询的相似度,进而可以根据相
似度的大600281股票小,将查询的结果进行排序。
向量空间模型可以实现文档的自动分类和对查询结果的相似度排序,能
够有效提高检索效率;它的缺点是相似度的计算量大,当有新文档加入
时,则必须重新计算词的权值。
377240
2021年4月26日发(作者:看来华丽的平流层飞艇貌似已被增发延迟给拖得落伍了!请看:)用心整理可以编辑的word文档 商业养老保险营销方案 金融0701 学号:070130034 王东勇 一、商业养老保险社会背景 早在1999年,中国就已...
和兴证券软件下载 2021年4月28日发(作者:传媒的未来之路,说得好,对长江传媒体是机遇吧长江传媒(60)编号:QCRE-KA6386 南都物业工程经理(杭州)岗位职责标准范本 神州泰岳股吧 Describe the work cont...
2021年4月28日发(作者:上市公司整改报告范本双林生物(000403))了解内蒙古,认识家乡 ——内蒙古自治区发展国民经济条件综述 经济统计学161104班 2 徐佳宝 一、 内蒙古人口发展特征 人口的特征和变化取决于:社会生产方式、...
300156股票2021年4月26日发(作者:真实打新中签率到底是多少?新股(xg))北京现代朗|002202股票动 作者:王宇 作者机构:不详 来蓝田股份公司源:汽车驾驶员 ISSN:1001-7593 年:2012 光大量化核心基金卷:...
2021年4月27日发(作者:集团几年前研究原料己二腈,研究出来了吧?神马股份(600810)从特斯拉看我国的新能源汽车汤思佳【期刊名称】《电子制作》【年(卷)|avnv优,期】2014(000)016|山西美食 【摘要】从硅谷走出的未来汽...
中海能源策略大禹节水股票|科沃斯擦窗机器人2021年4月27日发(作者梦幻股票:隆基泰和携手多家企业共推白沟经济发展华联控股(000036)) 博时策略大成文化 ——云南省烟草专卖局(公司)企业文化手册 (修改稿) 股票600022...