2关键技术研究
本章主要研究课题涉及到的相关技术,包括数据仓库特征,数据仓库模型,数据集市的建立和数据挖掘技术。
2.1数据仓库相关技术
2.1.1数据仓库的特征
WH.lnmon教授给出了数据仓库的定义:数据仓库是一个面向主题的、集成的、非易失的、随着时间变化的用来支持管理人员决策的数据集合[']。这一定义给出了数据仓库的四个特征。 :面向主题性。数据仓库中的数据是根据客户关注的问题按照不同的主题进行组织的。集成性。数据仓库是一个数据集成平台,异地的异构数据源的数据经过抽取,转换,加载过程集成到数据仓库中。随时间变化性。操作型环境中的数据是实时的业务数据,它会随着业务的处理而发生变化,而数据仓库中的数据都是经过处理的历史数据。非易失性。操作型数据库系统中存放的数据会根据业务的需要经常性的增删改,而数据仓库反映的事历史数据的内容,它更多地被用在数据分析上。 '数据仓库的这些特征,使其可以方便的解决操作型系统在联机分析时遇到的问题,如数据量大,不同数据源整合等。所以,越来越多的企业决策者希望建立数据仓库来为企业的经营分析提供便利。也正足由于这些特征,使数据仓库系统冇了不同于操作型系统的体系结构。
2.1.2数据仓库系统的体系结构
标准的数据仓库系统通常包括数据源,数据仓库,OLAP服务器和前端应用四部分组成,如图2-1。
数据源:是整个数据仓库系统的数据来源。包括各种业务数据源,可能存在异构,数据缺失,错误等情况。数据仓库:是整个数ft;仓Ki:系统的核心。数据源的数据经过抽取,清洗,转 '换过程,集成到数据仓库中,数据仓库向OLAP服务器提供可用数据。由此得知,所有的数据都是在数据仓M《中进行管理的,数据仓库的性能直接影响系统的性能。OLAP服务器:对于数据仓库提供的数据,依据某种算法进行分析,向用户展现分析结果。前端应用:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库[2]。企业的各级管理者能方便地使用数据仓库决策支持环境来获取信息,对不断变化的环境做出迅捷、准确的判断,制定有效的决策。
2.1.3基于Web的数据仓库体系结构
标准的数据仓库系统在电信,金融等行业都得到了成功应用。普通的中小企业管理者在羡慕的同时,不得不为其系统的庞大,方便实用性和兼容性感到担忧。尤其是在目前的电子商务行业,C/S模式的数据仓库系统与B/S模式的业务系统融合起来会有各种问题。但是,随着Web技术的发展,一种使用Web技术和数据仓库技术相结合的方案可以解决电子商务中小企业建立数据仓库的问题。这种方案将建立数据仓库过程中的核心建模部分提取出来,以交互式软件模块的形式集成到企业信息系统中,基于Web环境建立数据仓库。基于Web的数据仓库体系结构与传统的C/S结构的数据仓库最大的区别在于人们不再局限于通过C/S模式使用数据仓库,对数据仓库的建立、维护和使用都是在Web环境下ilMr的,所得的分析结果也Nj以借助Web服务器迅速发布。
3数据仓库概念模型分析....................................15
3.1需求分析...................................15
3.2主题域分析...................................17
3.3概念模型设计...................................18
4基于Web的数据仓库逻辑模型...................................23
4.1逻辑模型设计...................................23
4.2建立数据集市...................................25
4.3元数据管理策略...................................28
5基于Web的数据仓库建模的软件实现...................................30
5.1物理环境...................................30
5.2数据仓库建模的实现...................................31
6结论
本文主要从理论方法研究和具体工程项目设计实现两个方面对Web环境下建立中小企业数据仓库进行了研究,主要做了以下方面的工作:
(1)研究了课题涉及到的相关技术,包括:数据仓库,数据仓库建模,ETL技术和OLAP分析,以及设计实现过程中使用的基于SSH架构的程序设计技术,页面效果展示的Ext-js技术。
(2)从软件工程的角度,完成了需求分析,概念模型设计,逻辑模型设计,物理模型设计,系统实现与集成等方面的工作。从功能结构的角度分析,本系统有如下特点-突出了数据仓库的建立过程。建立数据仓库模块是按照建立数据仓库的一般歩骤来设计的,从确定主题域,确定事实表,选择维度,确定粒度,到最后建立数据仓库。基于Web环境,用户使用不受地域限制。系统将部署在Web环境下,客户只需要一台连接互联网的电脑,就可以使用该系统建立数据仓库,无论何时何地。模型选择灵活,实现了星形模型和雪花模型的有机结合。系统可以根据客户选择的主题和事实表,自动判断选择星形模型或者雪花模型,雪花模型中也取消事实表之间的外键,降低了耦合,提高了查询效率。
参考文献
[24] Zetian Xie. Researcher and Implementation of Commercial Bank MetadataWarehouse Based on CWM. 2008
[25] Alkis Simitsis,Panos Vassiliadis. A method for the mapping of conceptual designsto logical blueprints for ETL processes[J] .Decision Support Systems, 2008,45 :22-40 .
[26]Shi Zhongzhi,Huang Youping,He Qing,et al. MSMiner-adeveloping platform forOLAP[J] .Decision Support Sys-tems, 2007, 42 (4) :2016-2028 .
[27] S. L. Mora,P. Vassiliadis,J. Trujillo. Data mapping diagrams for data warehousewith UML .Lecture Notes in Computer Science, 2004, 3288 :191-204 .
[28]Jarke M,Lenzerini M,Vassiliou Y,et al. Fundamentals of Data Warehouse .NewYork: Springer, 2003 .
[29] John Pool. Common Warehouse Metamodel Developer's Guide. Robort Iposen.2002
[30] John Pool. Common Warehouse Metamodel:An Introduction to the Standard forData Warehouse Integration. Robort Iposen, 2002