第七章 其它学习方法

  (6)稀疏性
  令E*表示事件空间,事件集合EE*表示被聚类的对象。则事件e∈E称为已观察的,事件eE称为未观察的。在复合中事件总数写为t(),中已观察事件数写为p(), 中未观察事件数写为s(),并称为在E*的绝对稀疏性。的相对稀疏性r()定义为
     
如果相对稀疏性是0,则这个复合只复盖已观察的事件,它的一般性程度最小。相对稀疏性的最大值是1,这时复合只覆盖未观察的事件。一个复合是一个合取概念的描述。复合的相对稀疏性表示该复合在已观察事件上一般性适用程度。
  下面介绍的聚类算法产生互不相交的复合的集合,这称为不相交聚类。它把所有已观察事件划分进几个不相交的类。在不相交聚类和已观察事件间的符合可以由聚类的相对稀疏性来测量,聚类的相对稀疏性定义为聚类中各复合的相对稀疏性的平均值。因为在一个聚类中各复合是不相交的,而且已观察事件总数不变,所以如果以绝对稀疏性代替相对稀疏性,则聚类符合程度的排列不会变化。以下用稀疏性代表符合的测度。
  用稀疏性作为符合测度的优点是简单,缺点是要考虑整个事件空间。为此引入另一种测度,这是投影稀疏性。它是在事件空间的子空间中评价聚类,该子空间由特殊选定的变量确定。因为不相交聚类中的复合是互不相交的,所以任意一对复合都至少有一个变量有不相交的基准。这种变量称为聚类的判别变量。考虑聚类:
     {[(X1≥3][X2=1∨2][X3=1],
     [X1<3][X3=2∨3][X4=3],
     [X1=1][X4≤2]}
它的判别变量是X1,X3,X4。仅在判别变量上生成的事件空间称为聚类的投影事件空间。聚类的投影稀疏性是在投影事件空间中各复合的绝对稀疏性之和。
  (7)合并操作
  合并操作(refunion操作)又称为RU操作,它把几个事件和几个复合合并成一个复合。对每个变量,在每个事件和复合中变量的值都作为新复合中的值(这相当于它们的并集作为新复合的基准)。例如:
     e1=(2,3,0,1)
     e2=(0,2,1,1)
     =[X1=2∨3][X2=4][X3=0][X4=2]
则它们的合并操作就得到复合
     RU(e1,e2,)= 1
     =[X1=0∨2∨3][X=2∨3∨4][X=O∨1][X=1∨2]
  (8)一般化操作
  一般化操作又称为GEN操作,这个操作对一个给定的复合进行简化和一般化。它对复合中每个选择器应用适当的一般化规则。对线性的选择器,使用"封闭区间"规则。这个规则把基准封闭为一个或多个不相交的区间,条件是区间中未观察值的数目与区间宽度之比小于等于给定的稀疏性阈值。例如若阈值是3/8,则基准1∨2∨3∨7∨8可以封闭为区间1…8。对结构的选择器,使用"攀登一般化体系"规则。对于有多个值的基准,换成这些值的公共父节点中最特殊的节点。对图 7.6的例子,基准"三角形∨矩形"可以换成"多边形"。使用这两个规则以后,对所有选择器使用"丢掉条件"规则。如果欠缺的基准值的数目与论域中值的总数之比小于一定的稀疏性阈值,就去掉这个选择器。
  例如,X1X2是线性的。X3是结构的,在其一般化体系中0,1,2的父节点是small。X4是名称的,其论域是{0,1,2}。设稀疏性阈值都是0.5。则复合
     1=[X1=0∨4][X2=1∨3][X3=0∨l][X4=∨2]
的一般化操作得到复合
     GEN(1)=2
         =[X1=0∨4][X2=1…3][X3=small]
其中X2用封闭区间规则,X3用攀登一般化体系规则,X4用丢掉条件规则。