(1) 面向主题 主题是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象,是针对某一决策问题而设置的。面向主题的数据组织方式,就是在较高层次上对分析对象的数据的一个完整的、统一的、一致的描述,能完整、统一地刻画各个分析对象所涉及的企业的各项数据,以及数据之间的联系。 目前,数据仓库的实现主要是基于关系数据库,每个主题由一组关系表或逻辑视图实现。这些表和视图的内容与原来各个运行系统数据源的数据本质上是一致的,但为了方便支持分析数据处理,对数据结构进行了重组,其中还可能会增加一些数据冗余。 (2) 集成的数据 数据仓库中存贮的数据是从原来分散的各个子系统中提取出来的,但并不是原有数据的简单拷贝,而是经过统一、综合。其一,数据仓库的数据不能直接从原有数据库系统中得到。原有数据库系统记录的是每一项业务处理的流水帐,这些数据不适合于分析处理,在进入数据仓库之前必须经过综合、计算,抛弃分析处理不需要的数据项,增加一些可能涉及的外部数据。其二,数据仓库每一个主题所对应的源数据在原分散数据库中有许多重复或不一致的地方,必须将这些数据转换成全局统一的定义,消除不一致和错误的地方,以保证数据的质量。否则,对不准确,甚至不正确的数据分析得出的结果将不能用于指导企业作出科学的决策。 对源数据的集成是数据仓库建设中最关键,也是最复杂的一步。 (3) 数据不可更新 从数据的使用方式上看,数据仓库的数据不可更新,这是指当数据被存放到数据仓库中以后,最终用户只能通过分析工具进行查询、分析,而不能修改其中存贮的数据,也就是说,数据仓库的数据对最终用户而言是只读的。由于数据仓库的查询数据量往往很大,所以对数据查询、查询界面的友好和数据的表示提出了更高的要求,因为对数据仓库进行查询分析的用户多是企业的高层领导,他们是所在领域的专家,但对计算机却不一定熟悉。 从数据的内容上看,数据仓库存贮的是企业当前的和历史的数据,在一定的时间间隔以后,当前的数据需要按一定的方法转换成历史数据,年代久远的、查询率低的数据的需要从数据仓库脱离到廉价慢速设备(如磁带)上,对分析处理不再有用的数据需要从数据仓库中删除。但这些工作是由系统管理员来做,或由系统自动完成。因此,也可以说数据仓库在一定时间间隔内是稳定的。 (4) 数据随时间不断变化 数据仓库数据的不可更新是针对应用而言,即用户进行分析处理时不对数据进行更新操作,但不是说,数据从进入数据仓库以后就永远不变。数据仓库中的数据随时间变化而定期地被更新,每隔一段固定的时间间隔后,运作数据库系统中产生的数据被抽取、转换以后集成到数据仓库中,而数据的过去版本仍被保留在数据仓库中,如同"定期摄影术",每隔一周、一月或适当的间隔就照一张像;随着时间的变化,数据以更高的综合层次被不断综合,以适应趋势分析的要求;当数据超过数据仓库的存储期限,或对分析不在有用时,这些数据将从数据仓库中删去。 关于数据仓库的结构信息、维护信息被保存在数据仓库的元数据中,数据仓库维护工作由系统根据元数据中的定义自动进行,或由系统管理员定期维护,用户不必关心数据仓库如何被更新的细节。 建立数据仓库并不是要取代原有的运作数据库系统,建立数据仓库的目的是为了将企业多年来已经收集到的数据按一个统一、一致的企业级视图组织、存贮,对这些数据进行分析,从中得出有关企业经营好坏、客户需求、对手情况、以后发展趋势等有用信息,帮助企业及时、准确地把握机会,以求在激烈的竞争中获得更大的利益。 |