发信人: chedong()
整理人: chedong(1999-07-14 22:37:23), 站内信件
|
刘建民
现在,大多数企业并不缺乏数据,而是受阻于数据的冗余和不一致,而且这 些数据变得越来越难于访问和管理,开发应用也因此变得越来越复杂和耗费精力 。要把大量的数据转换成可靠的、商用的信息以便用于支持决策,数据仓库正是 公认的最佳解决方案。
当今社会,随着产品技术的更新换代和销售渠道的扩展,几乎所有行业都面 临着新的挑战。越来越多的企业认识到,只有靠充分利用、发掘其现有数据,才 能作出正确及时的决策,实现更大的效益。日常的业务应用生成了大量的数据, 这些数据若用于决策支持必将为企业带来显著的附加值。若再加上行业分析报告 、独立的市场调查、评测结果和顾问评估等外来数据,则上述处理过程产生的效 益定可进一步增加。数据仓库正是汇总这些信息的基础,它通过对日常事务处理 数据库中的原始数据进行加工,形成一种综合的、面向分析的、支持决策的数据 体系,进而支持数据发掘、多维数据分析等当今尖端技术和传统的查询及报表功 能。
电子“幕僚”
那么,数据仓库是如何界定的呢?数据仓库之父W.H.Inmon的定义可谓高屋建 瓴,“数据仓库是面向主题的、集成的、不同时间的、稳定的数据集合,用以支 持经营管理中的决策制定过程。”从这个定义中我们可以看出,数据仓库的目标 是为了制定管理决策提供相应的支持信息,这与OLTP系统的快速响应需求不同。 数据仓库的信息来自不同地点的数据库或其他信息源,因此具有分布和异构的特 点,其中的主要信息可以视为定义在信息源上的实体化视图集合。
目前,数据仓库技术已经受到了业界的广泛重视,已经开发或正在开发的一 些数据仓库产品有:IBM公司的CDF系统、Oracle公司的Oracle8i、Sybase公司的 Warehouse Studio 和Sybase IQ、DEC公司的RDB/VMS系统等。这些商用的数据仓 库产品通常使用关系模型,而且从数据源到数据仓库的数据采集采用离线的批处 理方式,即只有自下而上的加载操作而没有自上而下的抽取操作。为了开发更复 杂的通用数据仓库系统,学术界也在积极进行研究,例如Stanford大学的WHIPS( Warehouse Information Project at Stanford)计划。
循序渐进
数据仓库的设计和实现是一个极其复杂的过程,主要包括如下步骤:1、定义 数据仓库的体系结构,进行容量估计,选择存储服务器、DBMS、OLAP服务器和工 具;2、定义数据仓库的模式和视图;3、定义数据仓库的物理组织,为提高数据 吞吐能力作一些优化设计;4、定义并实现数据的抽取、净化、转换和加载的脚本 ;5、 应用数据仓库。由于数据仓库的显著特点是容量极大,其中大部分为历史 数据,很少更改,并且经常使用涉及大量数据的即席查询,所以各大数据库厂商 都为此对自己的数据库产品进行了改进,例如优化数据的底层存储组织、采用新 的索引技术(Bimap Index、Join Index和GroupSet Index )等,从而使其更加适 合于各种OLAP操作。
除此之外,针对数据仓库的建立与实施还出现了各种各样的工具:1、建模工 具:此类工具用于定义数据仓库的模式和视图、描述数据源、定义数据仓库与数 据源的对应关系,如Sybase的Power Designer;2、数据净化工具:由于数据仓库 的数据来源于不同的应用,而不同的应用中可能有许多操作不一致的地方,比如 同名异义、异名同义、单位不同、字长不同等,因此数据的规范化与校验对于保 证数据仓库中数据的可信度非常重要,此类工具的典型代表是QDB的Analyze;3、 数据抽取工具:此类工具可完成对多种数据源、数据类型的加工,并可按照数据 仓库的结构进行数据的分布,这方面的工具有ETI的Extract、Carleton的Passpo rt、Prism的Warehouse Manager和Platinum的InfoSuite,它们的共同特点是能自 动进行抽取、转换和综合,将数据载入数据仓库中,并且在具体操作时与元数据 紧密结合;4、数据仓库管理工具:在数据仓库中,有一种数据非常重要,那就是 元数据,它存储了建立、使用数据仓库的所有必要信息,因此一般是通过管理元 数据来对数据仓库进行操作,比较典型的如Platinum的Repository和Prism的Dir ectory Manager;5、联机分析处理和数据挖掘工具:这两类工具都是决策支持技 术的最新成果,它们共同的特点是都要对多张关系表中的成千上万条记录进行数 据分析和信息综合,做分片和分块、向下细化和向上综合的操作,并将结果用可 视化方式显示。
目前,虽然应用数据仓库技术的产品很多,但为了开发一个通用、灵活和高 效的数据仓库系统,许多问题还有待于研究和探讨,如数据仓库模型的可扩展性 、自动数据挖掘工具、数据可视化工具、查询与报告的工具、OLAP工具等等。
最后提醒您,在建立自己的数据仓库时一定要遵循可伸缩的设计原则,即在 深入分析需求的基础上,根据自身的实际情况决定是选择企业级的、部门级的、 还是工作组级的数据仓库,同时注意数据仓库各部分之间的平滑连接。此外,在 硬件和软件的选择上要注重产品的可扩展性,为将来数据仓库的进一步发展创造 条件。
-- che@netease
[email protected]
http://chedong.163.net
ICQ UIN:27294724
※ 来源:.月光软件站 http://www.moon-soft.com.[FROM: 202.96.31.243]
|
|