上海论文网提供毕业论文和发表论文,专业服务20年。

XML数据库目录构成研究

  • 论文价格:免费
  • 用途: ---
  • 作者:上海论文网
  • 点击次数:192
  • 论文字数:0
  • 论文编号:el201312201628565870
  • 日期:2013-12-19
  • 来源:上海论文网

第 1 章 绪 论


1.1 课题选题背景
互联网技术的不断发展,人们能够使用网络世界不同地方发送数据和接收数据,在数据交换的过程中,面临的一个突出问题是对不同格式的数据进行有效的运用,对数据格式的异构性,XML 提出一个解决方案。在通信技术和网络不断发展的今天,我们在不同的领域使用 XML 技术。在电子商务平台上可以用 XML,银行保险业等的信息交换,在医疗管理业,出版业。XML 通常作为标记语言使用,他不仅可以标记不同类型的信息和资源,他们可以是有结构的也可以是半结构,同时能够标记关系数据库和目标数据等。W3C 组织在 1998 这一年进行了官方定义,XML 本身是 SGML 的组成部分,同时包含 SGML 大量功能特性和 HTML 方便操作性质,能够使用自己习惯的方式使用数据结构。现在计算机科学步入了快速发展的节奏,我们 在全球的任意的一个地方上传和下载数据,但是不同的文件的结构不同性严重滞后了对数据的有效使用,自从 XML 这个技术诞生以后这个问题得到了缓解。XML 在信息的共享上对环境的改变不发生任何错误即共用性优秀,和过去的定义方式相反,XML 即可以使用自我说明的标签集,同时在可扩展性上不受环境影响,而且他自身携带的标识符就有大量语义信息,数据能够方便的被机器解释运行,但是 HTML 在这方面显然不足,数据和信息只能我们自己阅读才对内容有个认识。XML 在继承了SGML 良好的文档说明能力和跨平台性的同时放弃了他的繁琐的不足。XML 技术已经得到了大量的运用,它在应用上明显变成数据交换的基础。通过 Gartner 的研究我们知道,XML 在 2007 年市场占有率为 40%,在 2008 年已经成为最流行的方式,另外,在超高 1000 被调查的公司中,将近三成的公司选择 XML 对数据进行存储。因此 XML 大量使用和发展使我们面临着对 XML 进一步研究的事实。XML 技术自他诞生以来就预示着会有光明的未来,显著它作为事实上的数据交换标准出现,同时是 SOA 架构的基础。现在我们面临的问题是 XML 数据管理和存储。目前需要亟待解决的问题的是如何高效的管理和存储海量的 XML数据。XML 数据可以建模为含根有序标签树形结构的,这种结构与关系数据库模型的表结构不同,当前数据库研究领域新的挑战性问题是如何高效地管理XML 数据。和关系型数据相比,XML 数据有着多种优点。但是 XML 文档数据库灵活的特点却使得 XML 文档数据库查询效率非常底下,是 XML 文档数据库缺陷。为使 XML 文档数据库查询时间尽量减少和缩短,XML 文档数据库就必须构建高效的目录结构来适应 XML 数据类型。XML 文档数据库目录结构的构建方法具有非常重要的实践意义和理论意义。本文将探讨 XML 文档数据库存储方式,并重点分析研究 XML 数据的索引功能和提出新的构思。


1.2 国内外研究现状
学者们一般认为,应该将数据库领域研究分为三大类,这三大类数据库领域分别为:结构化数据库,半结构化数据库,无结构数据库。其中,半结构化数据库与结构化数据库在自身结构方面具有特殊性,因此有很大不同。半结构化数据库结构经常变化,并且使用不同的表示类型也可能具有相同的定义。半结构化数据是 Web 上的主要类型,这种数据的无规则性和动态易变性是明显特点。半结构化数据库所存在的问题也是异构数据源的数据集成面临的问题,对于来自同一个数据库的数据,这些数据也使用不同的数据格式。关于半结构化数据库,国内外学着进行了广泛的研究,主要包括以下几个方面:半结构化数据的数据模型,半结构化数据库优化技术,半结构化数据库查询模式,半结构化数据库存储,半结构化数据库数据挖掘与知识发现技术等方面。在 XML 目录结构的不同下检索查询数据库算法效率的也不一样。文档/条目矩阵(Document/Termmatrix),Trie(带标记的树状索引),倒排文件(Invert file),后缀树(Suffix Tree),PAT Tree(PATRICIA 的 Suffix tree),PATRICIATrie(带字符串压缩的 Trie)都是经常使用的索引结构。学者们在 XML 文档数据库目录结构构建领域进行了一系列研究[1-4]。在半结构化数据 XML 文档的建模、索引、查询、分类、聚类[5, 6]等领域取得了丰硕成果[7-16]。


第 2 章 相关技术基础


2.1 可扩展标记语言介绍
在网络的飞速发展时代,计算机网络技术被广泛应用,可以说,计算机网络技术已经改变了整个世界的生活方式了,同时,计算机网络技术也在无形中改变了人们获取信息的方式。因此,网络数据也变得越来越复杂。XML 为了保证网络的发展定是新时期网络的宠儿。文档类型定义 DTD 文档定义了一系列的语法规则,他们都是 XML 标记符方面的,DTD 作为 XML1.0 版部分,是 XML 文件规范性的机制进行验证,是XML 发布格式组成部分。DTD 文档对 XML 文档格式的规范性进行有效性检测,是 XML 文档数据正确有效的保证,验证 XML 文档是否符合规范通过比较 DTD 文件和 XML 文档,检验能否正确使用标签和元素。元素的定义规则和使用的属性以及符号规则都是一个 DTD 文件应该有关系规则。对 XML 文档数据构建方法应该通过定义模块 DTD 文档类型,通过合法标记用来对合法的 XML 文档的结构定义。XML 文档的内部和外部都可以引用DTD。,用户通过 DTD 能够使所有的 XML 文件携带描述自身的格式,可 XML文档数据自身数据也能 DTD 验证。


第 3 章 XML 文档数据库目录设计方法........2
3.1 XML 文档数据库目录策略 ........11
3.1.1 XML 目录分析介绍.......11
3.1.2 XML 目录分类介绍.......14
3.2 XML 目录编码 ....15
3.2.1 基于 XML 位向量编码 .......16
3.2.2 XML 文档编码研究.......17
3.2.3 XML 文档树算法分析 ........19
3.3 XML 查询处理 ....20
3.4 XML 数据目录编码 ........24
3.4.1 目录编码 ......24
3.4.2 Path-Dewey 编码设计....24
3.5 索引组织结构 ......2
3.5.1 结构目录 ......27
3.5.2 内容目录 ......28
3.6 XML 查询与检索 ......29
3.6.1 简单路径查询 ....29
3.6.2 复杂路径查询 ....30
3.6.3 连接算法 ......30
3.7 工作框架 ........31
3.8 本章小结 ........36
第 4 章 实验与结果分析....37
4.1 实验环境 ........37
4.2 实验数据和结论 ........38
4.3 本章小结 ........40
第 5 章 总结与展望 ......41


结论


近几年来,人们对 XML 技术关注的关注度随着互联网技术的迅猛发展而不断加大,值得一提的是,研究者们相继提出了多种与 XML 数据的查询处理等方面相关的索引结构和连接操作算法。本文介绍了索引技术的相关基本概念,对XML 数据的索引策略及索引特点进行了分析。本文提出了将结构索引与全文索引相结合的联合索引技术,这种技术是对搜索引擎中倒排索引技术和结构查询相结合的方法的改进。其中,提出了适合于基于 B+树建立索引的编码机制,XML数据节点经过特殊编码处理后使用 B+树来为其建立结构索引。采用谷歌搜索引擎倒排目录的方法为 XML文档数据库数据的内容节点建立全文索引这一方法来处理 XML 元素的文本内容。本文改进和创新了 XML 文档树中的节点编码,查询处理和索引结构等,将 XML 数据在结构查询和基于关键词的全文检索方面的效率均提高了。以 XML 为代表的半结构化数据的索引技术可以概括为,对 XML 数据库的目录构建,需要在两个方面进行构建:第一个方面就是构建 XML 文档数据含根有序标签树的树形结构目录结构,第二个方面就是构建 XML 文档数据库的含根有序标签树的树节点内容目录结构。
本文提出了在解决 XML数据的查询表达式中对于内容的查询具有明显的优势的改进方法,该方法将结构索引和内容索引相结合。将 XML 数据经过特殊编码处理后,用 B 树为其建立结构索引。本文通过模拟的实验环境对本文提出的半结构化数据 XML文档数据库目录结构进行了仿真模拟。对全文本关键字进行目录建立,然后通过验证 XML 文档数据库尺寸与 XML 文档数据库目录尺寸的对比、XML 文档数据库目录尺寸大小与数据库查询速度的对比来进行实验。由实验得出了相应的结论,该索引对XML 数据的查询处理效果得到了验证,尤其是本索引在 XML 的路径表达式及基于关键词的查询方面表现出了较好的效果。


参考文献
[1] Runapongsa K, Patel J, Bordawekar R, et al. XIST: An XML index selectiontool[J]. Database and XML Technologies, 2004: 219-234.
[2] Sasikala D, Premalatha K. Mining association rules from XML document usingmodified index table[C]//Computer Communication and Informatics (ICCCI),2013 International Conference on. IEEE, 2013: 1-6
[3] Yang Y, Li H G. XML Query Based on Indexed Sequential Table[J]. AdvancedMaterials Research, 2012, 532: 1177-1181.
[4] 李国明, 半结构化数据的索引技术研究[D], 吉林大学, 2010.
[5] Nayak R., De Vries C., Kutty S., Geva S., Denoyer L., Gallinari P. Overview ofthe INEX 2009 XML mining track: Clustering and classification of XMLdocuments[J]. Focused Retrieval and Evaluation, 2010, 366-378.#p#分页标题#e#
[6] Kutty Sangetha, Nayak Richi, Li Yuefeng. XML Documents Clustering UsingTensor Space Model -- A Preliminary Study[C]. In Proceedings of the 2010 IEEEInternational Conference on Data Mining Workshops, 2010, 1167-1173
[7] Li Wei, Li Xiongfei, Te Regen. Cluster dynamic XML documents based onfrequently changing structures[J]. Advances in Information Sciences and ServiceSciences, 2012, 4(6): 70-76.
[8] LI Wei, LI Xiong-fei, ZHAO Yan. XML Documents Clustering Research Basedon Weighted Cosine Measure[C]. In the 5th International Conference on Frontierof Computer Science and Technology (FCST '10), 2010, 95-100
[9] Huang Yin-Fu, Liou Po-Lun. Retrieving representative structures from XMLdocuments using clustering techniques[C]. In 2011 1st European Intelligence andSecurity Informatics Conference, EISIC 2011, September 12, 2011 - September14, 2011, 2011, 332-339
[10] Hadzic Fedja, Hecker Michael, Tagarelli Andrea. XML document clusteringusing structure-preserving flat representation of XML content and structure[C].In 7th International Conference on Advanced Data Mining and Applications,ADMA 2011, December 17, 2011 - December 19, 2011, 2011, 403-416.

1,点击按钮复制下方QQ号!!
2,打开QQ >> 添加好友/群
3,粘贴QQ,完成添加!!