第 1 章 绪 论
1.1 课题来源及目的意义
1.1.1 课题来源
基于本体的金融问答系统是本人实习公司旗下财经搜索引擎的一个子系统。该财经搜索是隶属于实习公司的新一代金融财经信息平台,它依托于公司金融服务网在金融信息领域的深厚实力,精于数据,不断进步。它不但发挥了所擅长的专业数据深入分析,还希望通过创新的人工智能手段,理解用户可能的查询意图,帮助用户快速精准的定位自己所关注的财经信息搜索结果,引导并给予用户专业的财经提示。同目前流行的关键词搜索技术相比,语义搜索代表着互联网搜索未来的发展方向。语义搜索,指的是搜索引擎能读懂人类语言,即搜索引擎能够自动判断用户输入的一段自然语言,理解用户的真实需求,然后将精准的结果返回给用户。
基于本体的金融问答系统的设计就是基于这一思想,它的目标是让用户通过自然语言的方式搜索所需的信息。用户提出问题,系统能够直接回答出用户所需的信息。选股是指从众多的股票中选出符合删选条件的股票,这些条件可能涉及股票的基本面、技术面或者产品面。众多股民的选股方式有两种:一是使用搜索引擎查询;二是使用其他行情信息软件查询,如大智慧等。根据用户分析的结果,在搜索数据中有 25%的用户问题涉及选股。传统搜索结果无法精确的定位到股票,而在行情软件中进行传统的选股操作需要进行多次操作且平均要耗费近两分钟时间。自然语言选股的出现将会给众多股民和研究员带来更好的选股体验,也将为公司带来更多的潜在用户和收益。
1.1.2 课题研究的目的和意义
随着社会资源的信息化和网络化,互联网已经成为一个海量信息资源的信息库,它是人们日常生活和学习工作不可或缺的信息来源。而信息检索也已经普及到人们生活的各个方面。目前较为知名的搜索引擎有 google 和 baidu 等,用户通过输入窗口输入关键字,搜索引擎即可返回与关键字相关的页面。但是,这样交互方式也会带来弊端。在 2001 年,权威的搜索引擎专家 Roper starch 曾做过调查并指出,36%的用户每周需要花费超过 2 个小时以上的时间在网上搜集数据;71%的用户在会在使用搜索引擎时遇到麻烦;平均 12 分钟左右出现搜索情况不满;这些不满的情况中 46%都是由于链接错误;86%的用户认为需要一种更有效准确的搜索技术来定位知识。由此可以总结出,传统的搜索技术存在下面几种弊端:
1.相关信息过多。用户输入搜索关键字后,传统搜索引擎会返回成千上万的相关网页。虽然所有的搜索引擎都有自身的技术为网页排名,但是结果中大量的重复数据和垃圾数据仍然无法有效的清楚。因此,用户需要花费大量的时间来查阅链接网页的内容。
2.检索的特殊性。从用户的角度出发,用户一直在不断的适应传统搜索引擎的搜索模式。由于传统的搜索引擎使用关键字定位结果,所以用户只能想方设法的拼凑关键字作为需求,但是在很多情况下几个简单的词语往往无法表达用户的需求。与关键字不同,自然语言是人们日常生活交流最重要的方式,它能灵活的表达用户的任何需求。
3.检索效果差。传统的信息检索方式是以关键字匹配的方式检索资源,这种简单的搜索模式只是简单的字面匹配而未深层次的理解词语的深层语义。因此即使再完美的关键字检索技术仍然无法精准的返回结果。
综上所述,可以总结出传统的搜索引擎技术和交互模式已经无法满足用户日益增长的需求,用户希望更精准的定位信息。传统的信息组织方式使传统检索方式无法精确定位到用户的需求,许多有用的信息常常淹没在大量的无关信息中。所以,探索以更高效、更人性化的方式为用户提供检索服务具有十分重要的意义。与目前流行的关键词搜索技术相比,语义搜索代表着互联网搜索未来的发展方向。本系统的目的是提供一个自然语言的查询接口,以供用户快速精准的定位金融领域的知识。
第 2 章 需求分析
2.1 业务需求描述
2.1.1 金融问答系统业务需求
本财经搜索是实习公司旗下针对金融领域提供搜索服务的搜索引擎。它采用传统的关键字匹配方式提供搜索服务,在众多的网页中搜索信息,并将与关键字匹配的页面返回给用户。公司旗下的大机构版是一款股票证券交易分析软件,它提供股民需要的股票交易信息和股票的基本信息。股民可以从机构版数据中查找股票的相关信息。这是目前股民获取信息的两种基本方式。但是,前者是根据关键字匹配获取的信息,所以往往搜索结果并不是用户需要的数据;后者需要大量复杂的操作才能获取用户所需的信息。所以系统需要为用户提供一个快速准确获取信息的平台。
2.1.1.1 金融问答系统目标
基于本体的金融问答系统的目的是提供了一个快速准确获取数据的方案,它的目标是为公司现有金融数据的关系型数据库和未来的结构化知识库提供自然语言查询接口,使得用户能够通过自然语言问答的形式,直接获取需要的信息。例如,用户在搜索框输入“什么是 ST 股票?”,系统直接给出 ST 股票的含义:ST 是英文 Special Treatment 缩写,意即“特别处理”。该政策针对的对象是出现财务状况或其他状况异常的。1998 年 4 月 22 日,沪深交易所宣布,将对财务状况或其它状况出现异常的上市公司股票交易进行特别处理,由于“特别处理”,在简称前冠以“ST”,因此这类股票称为 ST 股。这样用户可以精准快速的获得想要的信息。
2.1.1.2 金融问句分类
根据产品分析人员对用户行为的分析,将金融问答系统的问句主要分为五个类别:百科、数据、事件、逻辑推理、选股。
(1)百科问题 百科类问题主要涉及金融领域一些名词和概念的含义,用户的目标是获取这些名词的含义和应用方式。例如:“什么是 ST 股票”,“什么是向后复权?”等。系统将采用网络抓取和人工的手段结合来构建知识库。
(2)数据问题 这部分问题的主要目的是获取某一信息的相关的数据,例如:“2010 年 6 月 26 日钢铁报价是多少?”,“三一重工 2009 年收益是多少?”等。
(3)事件问句 该部分问题关注金融领域某一事件的发生时间、地点等信息。例如:“江苏宏宝什么时候复牌?”,“苏宁电器是哪年上市的?”等。
(4)逻辑推理类问题 该部分的问题不仅需要基础的金融和股票数据支持,还要加入基金经理的操盘和推理逻辑,所以比较复杂。例如:“预测上海能源本月底的走势”,“长电科技配股是利好还是利坏”等。
(5)选股 该类问题是相当于根据用户给出的条件过滤符合要求的股票。例如:“浙江省市盈率小于 20 倍的公司”,“每股收益在 0.2-0.3 之间且市盈率小于 30 的股票”等。选股类型的问题是本文的主要研究对象。
第3章 系统设计........................ 19-44
3.1 选股问答总体设计方案........................ 19-22
3.1.1 系统总体结构 ........................19-21
3.1.2 系统总体设计方案........................ 21-22
3.2 本体构建方案 ........................22-26
3.2.1 本体与本体标记语言........................ 22
3.2.2 资源描述框架RDF........................ 22-23
3.2.3 金融领域本体构建 ........................23-26
3.3 问句分析设计方案 ........................26-34
3.4 检索模块设计 ........................34-43
3.5 本章小结 ........................43-44
第4章 系统实现........................ 44-64
4.1 本体构建模块实现........................ 44-46
4.2 问句解析模块的实现 ........................46-59
4.2.1 分词和词性标注........................ 46-48
4.2.2 预处理 ........................48-54
4.2.3 问句解析 ........................54-59
4.3 检索模块的实现 ........................59-63
4.4 本章小结........................ 63-64
第5章 系统评测 ........................64-73
5.1 系统评测方案 ........................64-65
5.1.1 功能评测方案 ........................64
5.1.2 性能评测方案........................ 64-65
5.2 测试环境........................ 65
5.3 系统测试结果及评价........................ 65-72#p#分页标题#e#
5.4 本章小结 ........................72-73
结论
本系统以金融领域知识为背景,分析选股类型问句的特点,设计并且开发了选股问题的自然语言查询接口。本系统应用了本体表达金融领域的知识并且结合本体的知识结构提出了问句解析的方法,系统最终的测评结果达到预期的要求并于公司内部上线,本文的主要创新和结果可以如下描述。
(1) 金融领域本体构建
本系统针对金融领域的知识,使用本体表达金融领域的知识结构。结合系统的应用和金融知识结构构建了适合系统的顶层领域本体,并将公司现有的股票数据和行情数据导入到本体库中。同时,运营人员可以不断的向知识库中添加新的知识和概念。
(2)问句解析
本文提出了一种结合本体概念的问句解析方法解析问句。首先对问句进行分词和词性标注工作,然后进行同义词替换和数制转换等处理。解析程序将问句的成分分为逻辑词、类、属性、实例和数字五个成分,问句涉及的时间也会识别出。通过对预先问句测试集的分析确定解析方案,将词语的组合分为十余中包含特定语义的模式,通过这些模式来生成查询逻辑。使用预先准备的 5000句问句测试集进行解析测试,从测试结果可以得出,该方案能解析近 90%以上的问句。
(3)查询优化
由于知识库的庞大(接近 5 亿条三元组),所以将知识库分解为多个小库查询并且合并查询结果。性能测试结果表明,选股问答的响应速度能达到平均 1秒之内,最大响应时间不超过 3 秒,达到系统性能目标。系统还存在一些的不足和需要改进之处。首先,虽然结合本体概念应用模式来分析选股问句是一个有效的方案,但是在问题类型不确定的问句情况下还未经过验证。另外,一些比较复杂的自然语言表达方式在这些模式下是不支持的,需要有预先处理的程序转换问句的说法。另外,虽然系统对查询的性能做了部分优化,但是在并发的情况下效果并不好。目前只是库中有很多数值类型的数据,占用接近 70%左右的数据量,在未来的工作中可以考虑只在本体库中保留概念类型的数据信息。
参考文献
[1] Peter Clark, John Thompson, Bruce Porter. A knowledge-basedhttps://www.51daxielunwen.com/jrbylw/ approach toquestion answering[C]. AAA Fall Symposium on Question-AnsweringSystems. Orlando,Florida:1999:67-71
[2] Sanda Harabagiu, Marius Pasca,Steven Maiorano.Experiments with opendomain textual question answering.in:COLING-2000[C]. Association forComputational Linguistics/Morgan Kaufmann. 2000:37-42
[3] Eduard Hovy, Laurie Gerber, Ulf Hermjakob et al , Chin-Yew Lin.QuestionAnswering in Webclopedia[C]. Ninth Text REtrieval Conference(TREC-9). Gaithersburg,MD:2000:655-664
[4] Zheng Zhiping. AnswerBus Question Answering System[C].in:HumanLanguageTechnology Conference(HLT 2002).San Diego,CA:2002.24-27
[5] Katz Boris.From Sentence Processing to Information Access on the WorldWide Web[C]. AAAI Spring Symposium on Natural Language Processing forthe WorldWide Web. Stanford,California:1997.77~94
[6] Lide Wu, Xuanjing Huang, Junyu Niu.FDU at TREC2002: Filtering, Q&A,Web and Video tasks[P]. The Eleventh Text Retrieval Conference.Gaithersburg, MD:2002.
[7] 张刚,刘挺,郑实福等. 开放域中文问答系统的研究与实现[C]. 中国中文信息学会二十周年学术会议. 北京:清华大学出版. 2001.231-235
[8] Hongbo Xu,Hao Zhang,Shuo Bai.ICT Experiments in TREC-11 QA MainTask[P]. the Eleventh Text REtrieval Conference(TREC 11). Gaithersburg,MD:2002.
[9] 李善平. 本体论研究综述[J]. 计算机研究与发展. 2004,41(7):1041-1042.
[10] N Guarino1. Formal ontology and information systems In : Proc of the 1st Int’lConf on Formal Ontology in Information Systems Trent[C], Italy:IOS Press ,1998:13-15