上一篇 | 下一篇

数据集市: 第 2 部分

发布: 2008-7-01 13:55 | 作者: admin | 来源: | 查看: 5次

数据集市: 第 2 部分

热 荐

【字体:小 大】

数据集市: 第 2 部分

作者:- 文章来源:- 点击数:2173 更新时间:2006-4-22

Nancy Padrick

数据架构师,

2004 年 2 月 在 2002 年 8 月发表的这篇文章的第 1 部分中,我们提供了简介和定义。第 2 部分将继续介绍构建数据集市的有关信息。

在 2002 年 8 月发表的这篇文章的 第 1 部分中,我们提供了数据集市组件的简介和定义。第 2 部分将继续介绍构建数据集市的有关信息。

填充数据库

一旦定义了商业目标、数据源和数据模型,就需要开发一个过程来提取源系统的数据,集成和净化来自于多个不同系统的数据,然后将之载入物理数据库中。有一个称作提取转换和加载(Extract Transformation and Load)或 ETL 工具的新型开发软件可完成该工作。

ETL 软件专门完成数据集市中所需的数据提取、转换和加载。与用更为传统的编程语言(如 COBOL 或 C++)进行的“手工编码”相比,ETL 软件有两个主要的优点。ETL 提高了生产率并且是可移植的。生产率是通过在更高层次进行开发而提高的。用图形界面进行开发可以从“指向和点击”菜单中选择命令、函数和字段名。可以选择许多“预先编程的”函数,其中很多都是专门为创建维数模型而准备的。ETL 使用可视界面而非手工输入来生成 SQL。这些特性都使得开发更快,错误更少且更容易维护。

ETL 的另一个优点就是其可移植性。将 ETL 逻辑移到不同的服务器上或使用不同的 RDBMS 都只需要进行很少的修改。因此,如果需要迁移到新的平台,ETL 软件将进行配置修改和测试,但是如果 ETL 软件支持新的平台或 RDBMS,就只需进行极少的编码修改。

数据管理通常都是项目中最难的工作。如果数据集市项目最先使用 ETL 软件,则在学习过程、开发新标准以及设置新的编码环境方面需要额外的时间。开发一旦完成,就要维护大量新的、复杂的代码,而这通常需要一个兼具数据集市和 ETL 软件知识的技术团队。

访问信息

一般用户是通过数据访问工具来了解数据集市的,而这些工具将支持信息的访问和分析。数据集市用户可分为三组:普通(conventional)用户、专门(ad hoc)用户和高级(power)用户(图 7)。 普通用户不加修改地运行预先定义的报表。因为他们不懂技术,所以需要简单的用户界面,其中带有满足他们需求的预定义报表。 专门用户易于将商业问题转换为查询。他们具有一些技术并且理解数据。因此他们需要带有大量功能的直观的数据访问工具。 高级用户很懂技术且理解 SQL。他们用能最好地满足他们需求的软件(例如 MS Access、Excel 或 SAS)从各种来源采集数据,并且联合和分析数据。为专门用户选择的数据访问工具或许也能满足高级用户,但是他们还可能需要强调分析功能的附加软件。 当选择数据访问工具时,要考虑各种特性。 其中应该考虑必需的和“较好的”的功能以及软件评价功能。理想的是能有一些用户参与数据访问工具的评价,因为他们接受决策才是最重要的。还有一些可考虑的特性是:工具是基于 Web 的还是基于客户端的,报表是否可以预先安排,可用哪些分析功能,用户界面是否友好,销售商占有多少市场份额等等。

数据访问工具的功能丰富且带有许多附加的组件。将为处理实时的、批处理的或基于 Web 的请求配置多个服务器,而该软件就可驻留在这些服务器上。因为该软件与服务器、操作系统和数据库紧密集成,所以安装和监控数据访问工具的人将需要具有非常好的基础知识。相比之下,开发用户界面和任何预定义报表就需要业务知识和较好的交际能力了。

元数据

元数据(Metadata)通常被定义为关于数据的数据,是从数据仓库活动中产生的另一功能。在数据集市中,用户将在成百上千个数据元素中进行选择,而这些数据元素是来自于多个系统的,用户还将需要很好地理解这些数据元素以回答所提出的商业问题。元数据将通过提供数据定义、转换逻辑、有效值列表、业务逻辑等来支持这一信息需求。元数据(Metadata)软件的主要组件包括存储所有信息的仓库、用户界面、与其他软件的接口以及电子和纸张发布组件。 仓库通常用关系数据库技术捕获元数据。当然,所有仓库捕获的是都是基本的信息:长度、定义、数据类型等等。其中也一些工具可以捕获源和目标映射、元素间的关系以及更多内容。 用户界面允许元数据管理员输入和维护元数据,虽然最好是通过数据上传或与其他软件的接口将大部分信息输入元数据工具。而元数据的维护可能是极其复杂的,因此一个直观且功能强大的用户界面是很重要的。 软件接口从任何可以接触或定义数据的软件中接收并且向其发送关于数据的信息,比如数据建模工具、业务建模工具、RDBMS、ETL、修改管理工具以及测试支持工具。例如,元数据软件可以向 ETL 工具发送数据定义并且接收 ETL 对每个字段所应用的映射和派生逻辑,以及 ETL 过程运行的最后时间、运行时间和所处理的记录数目。大多数元数据工具都在软件接口这方面进行发展。 发布使商业和技术用户群体获得元数据。通常是通过 Internet 浏览器和在硬复制报表(例如映射规范或数据字典)中查看已发布的元数据。仓库中捕获的所有信息未必都是可发布的,并且不同的元数据工具提供的用户界面和报表设计的数量也不相同。

字号: | 推荐给好友

41/41234>

评分:0

我来说两句