上海论文网提供毕业论文和发表论文,专业服务20年。

基于语义分析的Web金融文本信息情感计算

  • 论文价格:免费
  • 用途: ---
  • 作者:上海论文网
  • 点击次数:109
  • 论文字数:0
  • 论文编号:el201210121112374651
  • 日期:2012-10-11
  • 来源:上海论文网
TAGS:

1绪论


1.1硏究背景和意义
(1)报表可操作性:有些公司为了维护公司表面的效益,很可能会在报表上进行一些手脚,这样的操作一般都很难被发现;(2)预测模型大都是以企业的静态数据作为样本,忽略了企业财务比率的时间序列特点,即公司出现财务危机不是突然间发生的,而是有一个逐渐演变的过程;(3)以年度数据作为研究样本,模型的实效性较差;(4)没有考虑财务比率的历史累积值对现时的影响。如果企业的整体财务状况很好,只是单期的表现不好,随后企业的财务状况会很快恢复正常,这种暂时的偏离正常值不应被归为危机公司,但静态模型不考虑历史值的影响,会将这种公司归为危机公司。
另外,不难得出金融数据及其中所体现的金融规律也是极其复杂的,一般都具有表1所示的4个显著特点[1]。根据财务报表所呈现出来的缺点和金融数据本身的局限性,使得人们不得不从其他的角度着手于金融危机的研究和探测。随着网络的高速发展,Web信息量得到了前所未有的增长。大众在网上发布自己的观点己经是司空见惯的行为,问题是怎样获得这些精确的、超前的、有用的信息才是检测一个企业或公司管理决策的有效方法。目前,随着搜索引擎的广泛应用,开源信息的获取已经易如反掌,甚至可以说是数据泛滥。这里的开源信息是指由上市公司所公布的财务报表信息以及Internet上的Web金融信息。但是怎样用这些表面看似一无是处的垃圾数据,变化成用于预测上市企业财务危机的的宝贝呢?


2文本情感计算方法


文本情感分类,也称之为观点挖掘、情感分析、情感倾向分析或文本意见挖掘等,集自然语言处理、信息检索、数据挖掘、数据库、人工智能等多个研究领域为一体。按照不同的分类粒度,大致从词汇级、语句级和文档级等三个级别进行研究。


2. 1基于文档的情感分类
基于文档的情感倾向分类,其判定过程一般为:给定一篇文档,使用词法分析器对其进行分析,提取出文档的特征;统计每个特征的出现频率计算每个特征值在文档中的权重14的;


2文本情感计算............................................10
2.1基于文档的情.........................................10
2.1.1向量空间.........................................10
2.1.2特征项权值.........................................10
2.1.3特征提取方.........................................12
2.1.4分类器训练.........................................13
2.2基于句子的情感.........................................15
2.3基于词汇的情感.........................................16
2.3.1基于点互信息语义.........................................17
3 WEB金融文本信息的情感.........................................20
3.1引言.........................................20
3.2总体框架.........................................21
3.3情感词典构造.........................................22
4基于句法结构的WEB金融信息.........................................26
4.1引言.........................................26
4.2基于情感计算的句法模.........................................26
4.2.1哈工大LTP系统的.........................................26


5总结与展望


5. 1本文工作总结
本文主要是针对金融域的文本信息进行情感倾向分析,不同于以往的情感分析文章,本文主要是基于语素情感和句子之间的关系,以及词汇之间的修辞关系等进行着手,主要的工作有以下几点
(1)金融域情感词典的构造。由于在金融域中不存在现成的情感词典,所以旨先要基于金融证券语料库进行情感词典的构造。首先,定义了一个正向的种子集和一个负向的种子集,并将它们作为输入。其次,通过哈工大同义词词林扩展板中的同义关系或反义关系对种子集进行扩展,并将找到的新词加入到原来种子集中,就形成了下一次算法的输入,如此反复,最终得到较完整的种子集。第三,为了使词汇量丰富些,将知网里面的情感词汇也加进来形成一个相对完整的词汇集合。最后,由于金融领域用词的特殊性,如"飘红"、"走熊"等用法,因此,再手工添加了 一些领域专用情感词。
(2)基于语素的情感计算。以前的研究者大都是基于机器学习方法对文本信息进行情感分类,但是机器学习的方法没有考虑到文本内部词汇或短语之间的语义关系,只是笼统的根据词频统计方法训练分类器。当然也有一些研究者立足于语义方法。但是这个方法需要在大规模的语料库的前提下,语料库的获得是个闩积月累的枯燥活,而且更新起来非常繁琐,往往会有徒劳无功的感觉。本文基于以上的考虑提出了基于语素的情感计算方法。首先,根据构造成的金融域情感词典计算每个情感词中的语素情感值,然后通过语素情感值的加权得到词汇的情感值,最后得到句子、文本的情感值。

1,点击按钮复制下方QQ号!!
2,打开QQ >> 添加好友/群
3,粘贴QQ,完成添加!!