Keith这个系列的文章真是不错:D
http://www.bicubes.com/modules/newbb/viewtopic.php?topic_id=112&viewmode=flat&order=ASC&type=&mode=0&start=0
系统构成主要功能单元:
a、数据源连接定义模块
根据访问不同数据源的方式,频次,抽取顺序,数据存贮方式,定义ODS或DW的数据链接。
b、数据抽取、转换、移动和加载工具(ETML)
分为两部分功能:
1、不同数据源到ODS的部分,按ODS的结构抽取到ODS,然后进行清洗、转换。
2、ODS到DW,或者一些简单不需预处理的数据直接数据仓库星形模型部分。
c、ODS,数据中转区(Staging Area)
将数据加载到数据仓库之前的数据准备区。做数据转换、清洗等都可以在此完成。作用主要包括:
1、快速采集数据源数据,减少数据采集对应用系统的冲击。
2、因为可对多数据源的统一采集,提高采集数据的可靠一致性。
3、当数据转换出错或失败时,可从ODS中再次抽取数据进行转换,不必直接面对OLTP系统,减少对OLTP负载,提高效率。
d、元数据(Meta Data)管理
元数据记录和描述所有数据仓库定义, 数据分析的模型,设计, 维护,管理和构造过程以及使用等方面的信息。
元数据分为以下三类:
业务元数据:对业务术语的描述。比如将“Customer”转化为“客户”,便于业务人员理解;
技术元数据:数据仓库的结构、Mapping等都是典型的技术元数据;
操作元数据:作业调度规则、系统维护规定等等。
e、数据集市(Data Mart)
针对特定主题建立的一套含有高度汇总层数据和计算数据的分析系统,可应用MOLAP和ROLAP技术,主要为统计预测分析服务。
f、决策支持(DSS)
基于Web的交互式查询、报表和联机分析处理系统,以及EIS, 可以针对数据集市或数据仓库进行各种形式的数据展现,一般直接服务分析用户和决策层领导。
g、 数据挖掘 (Data Mining)
运用数据挖掘工具,通过使用神经元、决策树等挖掘算法,用历史数据训练数学模型,分析隐藏在历史数据中,无法通过普通查询得的重要业务信息。
h、数据仓库管理(Data Warehouse Manage)
该部分包括了数据仓库和决策支持系统管理的所有方面,包括系统、应用和数据安全性,用户身份验证和基于角色的权限授予、数据库日常维护、备份和恢复、监控和调整、操作和任务调度,数据使用审计和容量规划等等。
No comments:
Post a Comment