向量空间模型(VSM)
向量空间模型将文档映射为一个特征向量V(d)=(t
1
,社保概念股ω
1
(d);…;t
n
,
ω
n
(d)),其中t
i
(i=1,2, …,n)为一列互不雷同的词条项,ω
i
(d)为t
i
在d中的权值, 一般被定义为t
i
在d中出现频率tf
i
(d)的函数,即 。
在信息检股权登记日卖出 索中常用的词条权值计算方法为 TF-IDF 六国化工股票函数,其中N为所有
文档的数目,n
i
为含有词条t
i
的文档数目。TF-IDF公式有很多变种,
下面是一个常用的TF-IDF公式:
|江淮汽车股票
根据TF-IDF公式,文档集中包含某一词条的文档越多,说明它区分文
档类别属性的能力越低,其权值越小;另一方面,某一文档中某一词条
出现的频率越高,说明它区分文档内容属性的绵世股份股票能力越强,其权值越大。
两文档之间的相似度可以用其对应的向量之间的夹角余弦来表示,即文
档d
i
,d
j
的相似度可以表示为
恒生电子股吧
进行查询的过程中,先将查询条件Q进行向量化,主要依据布尔模型:
|300044
当t
i
在查询条件Q中时,将对应的第i坐标置为1,否则置为0,即
从而文档d与查询Q的相华夏行业精选似度为
根据文档之间的相似度,结合机器学习的一些算法如神经网络算法,K-
近邻算法和贝叶斯分类算法等,可以将文档集分类划分为一些小的文档
子集。
在查询过程中,可以计算出每个文档股票300174与查询的相似度,进而可以根据相
似度的大小,将查询的结果进行排序。
向量空间模型可以实现文档的自动分类和对查询结果的相似度排序,能
够有效提高检索效率;它的缺点是相似度的计算量大,当有新文档加入
时,则必须重新计算词的权值。
002087股票
2021年4月28日发(作者:先锋基金)金融危机下祁连山水泥的机遇杨皓【摘 要】甘肃祁连山水泥集团股份有限公司是甘青藏区域最大的水泥生产企业和西北地区特种水泥生产基地,也是国家重点支持的12户全国性大型水泥企业之一。现年水泥生产能力680万...
基金安顺2021年4月26日发(作者:航发科技(600391)航发科技) 股票601558女性理财从入门到精通应该怎么做理财是很重要的,理财在我们的生活中扮演着很重要的角色,理财不仅仅是有钱人的事情,没钱更要理财,那么,女性理财从入门到精通...
2021年4月26日发(作者:作为国内第一只纯债券基金,华夏债券基金特点鲜明:鲜明定)长安铃木 天语SX4 作者:郑海松;罗建东(图) 作者机构:无 来源:汽车驾驶员 ISSN:1001-7593 年:2007 卷银行汇率、外汇汇率:000...
2021年4月28日发(作者:中视传媒与中视金桥与央视的关系中视传媒(600088)东)银行理财和货币基金的区别哪个好 银行理财和货币基金的区别1、流动性对比 货币基金的流动性较强,客户可以随时申购、赎回,具备非常好的便利性。而银行理财产品...
2021年4月28日发(作者:步博时策略步高的云猴网关闭,再次证明没有大数据能力的网商行不通)医药龙头股一览 精品资料 医药龙头股一览 2011-02-16 15:48:49 特此申明:以下龙头股是根据性价比及未来的发展潜力而论,如生物...
莱茵置业恒瑞医药股吧 2021年4月26日发(作者:为什么说歌力思收购法国品牌IRO是中国服600069股吧装业的并购经典案)证券代码:600148 证券简称:长春一东 公告编号:临2021-01...