(1) 数据的获取。将不同数据源的数据转换成数据仓库的格式,根据需要对数据进行聚合、汇总、采样,生成综合数据。 首先定义数据仓库中的数据的结构,并和数据源建立对应的关系。将来自各个不同数据源的数据转换成数据仓库系统支持的数据格式,转换的过程中有一些必要的处理,如不同数据类型间的映射,数据净化,包括过滤无效数据、填补缺省值、消除数据间的不一致性等。转换完成后,根据需要可以对数据进行进一步的处理,主要有聚合、汇总、采样,生成更加综合的数据,直接供分析时使用。 (2) 数据仓库管理。维护和管理元数据、载入新数据;监控数据源、捕捉更新数据;清除或转储老化数据;添加索引等。 数据仓库中有大量的元数据,对于这些数据,应能提供有效的手段进行维护和管理。提供的服务还应包括载入新数据;监控数据源、捕捉更新的数据,保证数据源和数据仓库中数据的一致性;清除或转储老化数据;数据存储的组织,如添加新的索引。 (3) 数据的访问。浏览数据仓库中的数据,对多维数据能够进行分片和分块,对数据进行由上到下的细化(下探:Drill-down)分析和向下到上的综合(上卷:Roll-up)分析。 能够方便地浏览数据仓库中的数据,对于多维数据,能够进行分片和分块,对数据进行向下细化(下探:Drill-down)和向上综合(上卷:Roll-up)分析。可以使用各种进行数据访问的软件工具,多维分析工具和数据采掘工具等,也可以使用特定的分析、预测方法对数据进行分析和预测,供最终决策使用。数据仓库的最终用户在这里能够提取信息,分析数据,实施决策,真正获得数据仓库系统的好处。 |