当前位置:首页 > 股票信息 > 正文内容

沪深(股票中国农行股票显示沪深是什么意思)

aifabu2年前 (2021-09-08)股票信息3
2021年4月28日发(作者:阿里谢世煌持股2%华坤道威,大佬为何捧场华坤道威新通联(6)



沪深股票信息的文本分类
詹劲松,李立耀,苏宝英


【摘 要】从网上收集相关的文本信息,用ICTCLAS进行分词,用Java编程处
理、转化为Weka的ARFF格式,再利用StringToWordVector过滤器转换为
向量矩阵,最后用三种分类器分别进行分类的股票信息文本分类方法。实验表
明取得了不错的效果。

【期刊名称】福建师大福清分校学报

【年(卷),期】2016(000)002

【总页数】4

【关键词】股票文本,ICTCLAS,文本分类

0 引言

在经济高速发展的今天,股票作为我国金融市场的重要组成部分,有效促进我
国经济发展。股票市场目前正处于发展阶段,上市公司和股民数量正在增加。
股票成为了不少家庭重要的投资领域。如何更好地对股票投资做出正确的决策
显得至关重要。目前国内外关于股票预测的文章很多,有些还取得不错的效果。
文本分类方面的文章也很多,然而将文本分类技术用于我国沪深股票信息的预
测的文章我们还未从文献中看到。

股票网站上关于股票的不同看法、策略的文章或者评论等琳琅满目。大量的股
票文本资料看似毫不相关,却隐藏着一些具有潜在价值的模式和知识。想要从
这些股票文本中获取相关股票的有用的信息,从而指导自己的股票投资行为,
那么对股票文本进行正确而有效的分类显得尤为重要。传统的人工分类和信息
检索方法已经不再适用于目前的大数据时代。因此,基于机器学习的股票文本



分类方法成为一个重要的技术。

本文将用汉语分词器对自然语言的处理应用到股票文本,通过分析文本的特点,
合理选择预处理方法,以及准确高效的股票文本分类算法,最后得出一个|持仓是什么意思较为
合理的股票文本分类的判断[1]。文章的重点和难点在于根据沪深股票的实际
情况建立合理的、经实验验证可行的模型。

1 股票文本分类的过程

文本分类是目前研究和应用最多的文本挖掘技术之一。股票文本的分类是按照
事先定义好的主题类别,为文档集合中的每一个文档确定一个类别。股票文本
分类的主要处理过程如下:首先获取文本信息即股票的文本数据集。要使文本
中的词或词语区分出来,采用中国科学院的ICTCLAS分词技术,作为文本信息
的预处理。此时的样本是非结构化的文本,现有的分类技术无法直接应用。因
此,要先将股票文本转化为ARFF格式,然后再转换为矢量模型。最后利用机
器学习各种方法来实现股票文本分类。总之分为如下四个步骤:
银行汇率、外汇汇率

从新浪财经、搜狐财经网站收集股票文本用来作为训练集和测试集。我们请经
验丰富的投资人士将这些股票文本进行人工分类。

中科院的开源系统ICTCLAS是功能强大分词工具,我们利用它实现股票文本的
分词。

自己编写Java代码,将分词后的股票文档处理并转化为ARFF格式。

利用数据挖掘平台Weka,对所得到的股票ARFF文件进行过滤处理和分类。

2 预处理和结果调优涉及的概念和技术

2.1 分词技术ICTCLAS

搜集到的股票文本是中文文本,词与词没有分隔符将它们分隔开,每一个句子



都是由一串连续的词语组成,再加上股票文本中的词具有不同的长度,相同的
字可出现在许多不同的词中,还有许多词是由单个字组成,这使得对股票文本
中文分词是一项较难的工作,需要快速有效的技术。对于大量的股票文本集,
手工分词已经不再适用,因为它不仅繁琐耗时间,而且分词的准确性也不高。
中国科学院ICTCLAS汉语分词不仅是一款分词速度快,而且也是一款分词精度
高的分析器。以此为基础才能继续进行相关的文本分类工作,所以,利用
ICTCLAS分词是股票文本分类工作重要的文本信息预处理过程[2]。

2.2 字符串转换成向量

将字符串型属性转换成一个向量,即将分词后的股票文本转换成一个样本矢量
的数据矩阵,然后像分类一般数据集那样使用分类器进行分类。我们使用的是
Weka的无监督过滤器StringToWordVector。它为每个数据集创建一个词典,
每个文档中如果有某个单词,对应的属性就为1,否则为0。该过滤方法也可
以将TF-IDF设为真值,就可进行文本特征值的提取,即提取常用的词频-逆文
档频率。

2.3 信息增益的特征提取方法

股票文本分类中的属性数量往往也比较多,其中可能存在一些与挖掘不相关的
属性,或者歧义的词语影响Weka的机器判断。高纬度的特征值不仅导致独立
性差,还会使得算法的准确率受到影响。所以,信息增益的特征提取方法减少
不必要的噪声就显得更加的重要。信息增益是信息论中的一个重要概念。它表
示某一个特征项的存在与否对类别预测的影响,定义为考虑某一特征项在文本
中出现前后的信息熵之差。在信息增益中,重要性的衡量标准就是看特征能够
为分类系统带来多少信息,带来的信息越多,该特征越重要。信息增益来评估


黄川川的手紧紧地握着精钢打造的棒子,额头上,汗水已经不听地向下滑落了,另一边,刘大军看了他一眼,说道:“荣誉,荣誉,想想荣誉!” “哥?”秦宝珍首先叫了出来。 如果是普通人,这一下子,估计就要被捏的大叫起来了,这肯定是一双老钳工的手了,手劲如此之大,肯定是整天抡铁锤了。 听到这话,石玉德又高兴起来。 这种大事,一机厂自己说了也不算,先得在内部统一意见,然后上报,上级主管部门审批之后,才能够决定下来。 “快,快!”阿里大声地喊道:“他们要超过我们了!” “它前面的甲板,也很有意思。”大家从后面的发动机讨论完毕,又来看了前面的甲板,看着上面那独特的V型结构,很是奇怪。 反正,炮管上能赚钱,改装方面,哪怕是赔钱,也要陪你们玩。 现在,总算是知道了吧?咱们就算是当焊工,也是要掌握知识的,只有掌握了最前沿的科学文化知识,掌握了最新的焊接知识,才能够完成新的焊接需求。 “这是发动机娘胎里面带出来的,这也和咱们目前的科研状况有关,在西方,NVH的研究,已经是一个重点了,咱们这里,还是空白的。”秦振华说道。 刚刚宋刚还说是大陆这边的最高负责人,而现在,他听着潘成仁的话,那顺从的劲头,不过是一个小喽喽而已。

相关文章

正回购_正回购是紧缩还是宽松

正回购_正回购是紧缩还是宽松

逆回购与正回购是什么意思 回购就是赎回的意思,国债是央行的欠债凭证,当初国家用欠债凭证借钱,后国家要拿回欠债凭证,则需要用钱去赎回,故称作回购。正回购是一方以一定规模债券作抵押融入资金,并承诺在日后再购回所抵押债券的交易行为。逆回购将为...

东方财经股票big10(big bang)

2021年4月28日发(作者:开户常见问题汇总(300059))我们的偶像就是我们的精神动力【G-Dragon篇】=访问中=成为歌手的契机是?Destiny(命运)现在在做的事情是? 曾经那样渴望去做,而且要继续做下去的事最幸福的时候?站在...

湘邮科技股吧星辉娱乐(星辉游戏平台app官网)

000517股票2021年4月28日发(作者:易方|股票300151达平稳增长混合易方达平稳增长混合-)星辉互动娱乐:传统玩具厂商转600482股吧型互动娱乐平台 作者:; 作者机构:; 来源:玩具世界 ISSN:1股票000408007-...

327国债_327国债期货事件经验教训

1、327国债是怎么回事   “327”国债期货事件的主角,是1992年发行的三年期国库券,该券发行总量为240亿,1995年6月到期兑付,利率是9.5%的票面利息加保值贴补率,但财政部是否对之实行保值贴补,并不确定。1995年2月后,其...

鹏博士股吧南宁百货600712(南宁百货资金流向东方财富网)

600396股票2021年4月26日发(作者:建议大家都不要买中石油股票,理由如下中国石油(601857)股)证北纬通讯券代码:600712 东旭光电股吧 证券简称:南宁百货 公告编号:临 2020-037...

000514渝开发_000514渝开发股吧

1、000514渝开发有限售条件股份114万多上市是利空还是利好? 有限售条件股份:在股改前是非流通股,股改后在满足一定条件下转变为流通股,一般是股改后一年。 至于是利空还是利好,凡事都是相对的:一方面,限售股可流通会增加市场的抛售压...