向量空间模型(VSM)
向量空间模型将文档映射为一个特征向量V(d)=(t
1
,ω
1
(d);…;t
n
,
ω
n
(d)),其中军工b股票t
i
(i=1,2, …,n)为一列互不雷同的词条项,ω
i
(d)为t
i
在d中的权值, 一般被定义为t
i
在d中出现频率tf
i
(d)的函数,即 。
在信息检索中常用的词条权值计算方法为 TF-IDF 函省广股份股票数,其中N为所有
文档的数目,n
i
为含有词条t
i
的文档数目。TF-IDF公式有很多变种,
下面是一个常用的TF-IDF公式:
|江淮汽车股票
根据TF-IDF公式,文档集中包含某一词条的文档越多,说明它区分文
档类别属性的能力越低,其权值越小;另一方面,某一文档中某一词条
出现的频率越高,说明它区分文档内容属性的能力越强,其权值越大。
两文档之间的相似002617股票度可以用其对应的向量之间的夹角余弦来表示,即文
档d
i
,d
j
的相似度可以表示为
进行查询的过程中,先将查询条件Q进行向量化,主要依据布尔模型:
|300044
当t
i
在查询条件Q中时,将对应的第i坐标置为1,否则置为0,即
从而文档d与查询Q的相似度为
根据文档之间的相似度,结合机器学习的股票600010一些算法如神经网络算法,K-
近邻算法和贝叶斯分类算法等,可以将文档集分类划分为一些小的文档
子集。
在查询过程中,可以计算出每个文档与查询的相似度,进而可以根据相
似度的大小,将查询的结果进行排序。
向量空间模型可以实现文档的自动分类和对查询结果的相似度排序,能
够有效提高检索效率;它的缺点是相似度的计算量大,当有新文档加入
时,则必须重新计算词的权值。
1、大盘一般有几种均线,分别是什么意思? 常用的均线以5—10---20---30---60日均线为主。均线向上是均线多头 均线向上产生的交叉是金叉,反之是死叉。 日,五日,十日均线分别是三天,五天,十天的平均收盘价。主要是给股市的...
|休市2021年4月28日发(作者:关于奥特佳未来11天交易日增持的个人十点看法奥特佳(0022)设研院登陆深交所开启资本市场新征程;【摘 要】12月12日,河南省交通规划设计研究院股份有限公司(简称:设研院)首次公开发行A股挂牌仪式在深圳...
2021年4月26日发(作者:绿盟科技绿盟科技(300369)) 车险续保渠道 作为车主,一定要留意自己的车险有限期,在一个车辆保险时间周期结束后,您需要保证及时续保,以免爱车“裸奔”上路,这时候没有车险的保护,万一出现事故所有损失都...
2021年4月26日发(作者:龙飞集团,呼吸机制氧机巨头之一*ST华仪(600290))车辆违章后怎样交违章罚蓝田股份公司款? 现在处理罚单已经非常方便了,如果是线下处理,则推荐自助缴费终端机,如果是线上处理,则推荐“交通安全管理平台”,这...
冯矿伟的新浪博客2021年4月26日发(作者:大西洋大西洋(600558))信用卡加油哪个银行最优惠 信用卡加油哪个银行最优惠 信用卡加油哪个银行最优惠?下面是小编整理的信用卡加油哪个银行最优惠,供大家参考! 交行必然排第一,全国参...
2021年4月28日发(作者:3.24金银汇综述外汇(waihui))风电概念股与风能概念股(风电上市公司) ( 新能源发电概念板块目前主要包括核电概念股、太阳能概念股、风电概念股和生物质电概念股。其中风能作为蕴藏量丰富、永不...