向量空间模型(VSM)
向量空间模型将文档映射为一个特征向量V(d)=(t
1
,ω
1
(d);…;t
n
,
ω轴研科技股票
n
(d)),其中t
i
(i=1,2, …,n)为一列互不雷同的词条项,ω
i
(d)为t
i
在d中的权值, 一般被定义为t
i
在d中出现频率tf
i
(d)的函数,即 。
在信息检索中常日照钢铁股票用的词条权值计算方法为 TF-IDF 函数,其中N为所有
文档的数目,n
i
为含有词条t
i
的文档数目。TF-IDF公式有很多变种,
下面是一个常用的TF-IDF公式300051股票:
|江淮汽车股票
根据TF-IDF公式,文档集中包含某一词条的文档越多,说明它区分文
档类别属性的能力越低,其权值越小;另一方面,某一文档中某一词条
出现的频率越高,说明它区分文档内容属性的能力越强,其权值越大。
两文档之间的相似度可以用其对应的向量之间的夹角余弦来表示,即文
档d
i
,d
j
的相似度可以表示为
进行查询的过程中,先将查询条件Q进行向量化营口港股吧,主要依据布尔模型:
|300044
当t
i
在查询条件Q中时,将对应的第i坐标置为1,否则置为0,即
从而文档d与查询Q的相似度为
根据文档之间的相似度,结合机器学习的一些算法如神经网络算法,K-
近邻算法和贝叶斯分类算法等,可以将文档集分类划分为一些小的文档
子集。
在查询过程中,可以计算出每个文档与查询的相似度,进而可以根据相
似度的大新华锦股票小,将查询的结果进行排序。
向量空间模型可以实现文档的自动分类和对查询结果的相似度排序,能
够有效提高检索效率;它的缺点是相似度的计算量大,当有新文档加入
时,则必须重新计算词的权值。
兴蓉投资股票
2021年4月28日发(作者:平潭综合实验区附近的房价从每平方米2000元涨到将近1万元)精品文档 精品文档 精品文档 精品文档 精品文档 一、 简答题 1、 科学技术哲学的主要内容有哪些? 答:主要内容有:马克思主义自然观,马克思主义科学...
中国银行a股2021年4月26日发(作者:仔细研究超日领导班子,张闻斌和张宇欣应该进董事会!协鑫)最实用的家庭理财软件有哪些 最实用的家庭理财软件有哪些?随着社会的不断发展,越来越多的家庭开始加入到理财的队伍中来。 600300股票家庭理...
长城增值 2021年4月26日发(作者:估计温鹏程温志芬是上山了!!!温氏股份(300498))车险知识(最新完整版)大汇总 车险是买车时不可避免的消费项目,各式各样的险种让人眼花缭乱,小编今日整大禹节水股票理了最新的汽车保险知识,供大家参...
1、千山药机退市后股民怎么办? 股民可整取在退市整理期低价卖出股票,退市整理期满后公司股票就将终止上市了。 根据《创业板股票上市规则》相关规定,股票终止上市决定发布后公司股票会进入退市整理期,退市整理期交易期限为三十个交易日,期间日涨跌...
|山东海龙股份有限公司华意压缩股票2021年4月27日发(作者:第十五位是中电熊猫CEC-Panda,为国内唯一提供IGZO手机面)中金公司、中投公司和中央汇金有什么关系和区别 中投公司、中央汇金公司、中金公司,三家公司都是国内重量...
|3007412021年4月28日发(作者:曾经全心全意、毫无保留把爱全给了你!银江股份(300020)股) . Pocket PC同花顺手机炒股说明书 登陆同花顺 1. 选择连接方式 1. 银行汇率、外汇汇率 Internet设置:使用...