4.α-β搜索过程
  在极小极大搜索方法中,由于要先生成指定深度以内的所有节点,其节点数将随着搜索深度的增加承指数增长。这极大地限制了极小极大搜索方法的使用。能否在搜索深度不变的情况下,利用已有的搜索信息减少生成的节点数呢?
  设某博弈问题如下图所示,应用极小极大方法进行搜索。假设搜索的顺序为从下到上,从左到右。当计算完a的值为0后,由于b是极大节点,马上就可以知道b的值大于等于0。接下来求c的值。由于c是极小节点,由d的值为-3,知道c的值小于等于-3。而a和c都是b的子节点,所以即便不扩展节点e,也可以知道b的值一定为0了。所以在这种情况下,没有生成节点e的必要。同样,在知道b的值为0后,由于k是极小节点,所以立即知道k的值要小于等于0。而通过节点f、g,知道h的值至少为3。这样即便不扩展A所包围的那些节点,也能知道k的值一定为0。所以A包围的那些节点也没有生成的必要,不管这些节点取值如何,都不影响k的值。如果在搜索的过程中,充分利用这些信息,不就可以少生成很多节点,从而提高搜索的空间利用率吗?α-β过程正是这样一种搜索方法。

���

  MINIMAX过程是把搜索树的生成和格局估值这两个过程分开来进行,即先生成全部搜索树,然后再进行端节点静态估值和倒推值计算,这显然会导致低效率。如图3.8中,其中一个MIN节点要全部生成A、B、C、D四个节点,然后还要逐个计算其静态估值,最后在求倒推值阶段,才赋给这个MIN节点的倒推值-∞。其实,如果生成节点A后,马上进行静态估值,得知f(A)=-∞之后,就可以断定再生成其余节点及进行静态计算是多余的,可以马上对MIN节点赋倒推值-∞,而丝毫不会影响MAX的最好优先走步的选择。这是一种极端的情况,实际上把生成和倒推估值结合起来进行,再根据一定的条件判定,有可能尽早修剪掉一些无用的分枝,同样可获得类似的效果,这就是α-β过程的基本思想。下面再用一字棋的例子来说明α-β剪枝方法。

图3.9一字棋第一阶段α-β剪枝方法

为了使生成和估值过程紧密结合,采用有界深度优先策略进行搜索,这样当生成达到规定深度的节点时,就立即计算其静态估值函数,而一旦某个非端节点有条件确定其倒推值时就立即计算赋值。从图3.9中标记的节点生成顺序号(也表示节点编号)看出,生成并计算完第6个节点后,第1个节点倒推值完全确定,可立即赋给倒推值-1。这时对初始节点来说,虽然其他子节点尚未生成,但由于s属极大值层,可以推断其倒推值不会小于-1,我们称极大值层的这个下界值为α,即可以确定s的α=-1。这说明s实际的倒推值决不会比-1更小,还取决于其他后继节点的倒推值,因此继续生成搜索树。当第8个节点生成出来并计算得静态估值为-1后,就可以断定第7个节点的倒推值不可能大于-1,我们称极小值层的这个上界值为β,即可确定节点7的β=-1。有了极小值层的β值,很容易发现若α≥β时,节点7的其他子节点不必再生成,这不影响高一层极大值的选取,因s的极大值不可能比这个β值还小,再生成无疑是多余的,因此可以进行剪枝。这样一来,只要在搜索过程记住倒推值的上下界并进行比较,就可以实现修剪操作,称这种操作为α剪枝。类似的还有β剪枝,统称为α-β剪枝技术。在实际修剪过程中,α、β还可以随时修正,但极大值层的倒推值下界α永不下降,实际的倒推值取其后继节点最终确定的倒推值中最大的一个倒推值。而极小值层的倒推值上界β永不上升,其倒推值则取后继节点最终确定的倒推值中最小的一个倒推值。
归纳一下以上讨论,可将α-β过程的剪枝规则描述如下:
  在进行α-β剪枝时,应注意以下几个问题:
  (1)比较都是在极小节点和极大节点间进行的,极大节点和极大节点的比较,或者极小节点和极小节点间的比较是无意义的。
  (2)在比较时注意是与"先辈层"节点比较,不只是与父辈节点比较。当然,这里的"先辈层"节点,指的是那些已经有了值的节点。
  (3)当只有一个节点的"固定"以后,其值才能够向其父节点传递。
  (4)α-β剪枝方法搜索得到的最佳走步与极小极大方法得到的结果是一致的,α-β剪枝并没有因为提高效率,而降低得到最佳走步的可能性。
  (5)在实际搜索时,并不是先生成指定深度的搜索图,再在搜索图上进行剪枝。
如果这样,就失去了α-β剪枝方法的意义。在实际程序实现时,首先规定一个搜索深度,然后按照类似于深度优先搜索的方式,生成节点。在节点的生成过程中,如果在某一个节点处发生了剪枝,则该节点其余未生成的节点就不再生成了。

(1)α剪枝:若任一极小值层节点的β值小于或等于它任一先辈极大值居节点的α值,即α(先辈层)≥β(后继层),则可中止该极小值层中这个MIN节点以下的搜索过程。这个MIN节点最终的倒推值就确定为这个β值
(2)β剪枝:若任一极大值层节点的α值大于或等于它任一先辈极小值层节点的β值,即α(后继层)≥β(先辈层),则可以中止该极大值层中这个MAX节点以下的搜索过程。这个MAX节点的最终倒推值就确定为这个α值。

  通过对图3.10的搜索,来说明α-β剪枝搜索过程。
  在搜索过程中,假定节点的生成次序是从上到下,从左到右进行的。图中带圈的数字,表示节点的计算次序,在叙述时,为了表达上的方便,该序号也同时表示节点。当一个节点有两个以上的序号时,不同的序号,表示的是同一个节点在不同次序下计算的结果。
过程如下:
  首先,从根节点开始,向下生成出到达指定节点深度的节点○1{注释:○1应为,○2...○32也一样表示},由○1的值为0,可知○2≤0,继续扩展生成节点○3,由于○3的值5大于○2的值0,并且节点○2再也没有其它的子节点了,所以○4(与○2是同一个节点)的值确定为0。由○4的值,可以确定○5≥0。扩展节点○5,按顺序生成节点○7、○6,由○6的值-3,有○7≤-3。○7是极小节点,其值小于它的先辈节点○5的值,满足α剪枝条件,故○7的其他子节点被剪掉,不再生成。由于○5不再有其他子节点,所以有○8=0,并因此有○9≤0。扩展节点○9,顺序生成节点○12、○11、○10,由○10=3得到○11=3和○12≥3。○12是极大节点,其值大于其先辈节点○9的值,满足β剪枝条件,故○12的其他三个子节点及其这些子节点的后继节点全部被剪掉。这样○9的子节点也全部搜索完,得到○13=0,并上推到○14≥0。扩展○14的另一个子节点,一直到指定深度。由○15=5,有○16≤5,然后顺序生成出○17、○19,由○17、○19的值分别得到○18≤4、○20=1。上推得到○21≥1。扩展○21的另一个子节点,顺序生成○23、○22,得到○23≤-3。○23是一个极小节点,其值小于其先辈节点○21的值,满足α剪枝条件,所以在○23处发生剪枝(注意,此处即便是○23的值不小于○21的值,但由于○23的值小于○14的值,同样也发生α剪枝,因为是后继节点的β值与其先辈节点的α值进行比较,而不只是后辈的β值与其父节点的α值进行比较。同样,在β剪枝的情况下,也是后辈节点的α值与其先辈节点的β值进行比较,而不只是后辈的α值与其父节点的β值进行比较)。这样得到○24=1,○25≤1。扩展○25的右边子节点及其后继节点,有○26=6,○27≤6,○28=8,○29=6,并由此上推到○30≥6。○30是一个极大节点,其值大于其先辈节点○25的值,满足β剪枝条件,故在节点○30处发生剪枝。这样使得○31=1,并使得根节点○32=1。至此全部搜索结束,根节点○32的值就是对当前棋局的评判。由于该值来自于根节点的右边一个子节点○31,所以搜索得到的最佳走步应该走向根节点的右边这一个子节点○31。
应该注意的是,博弈树搜索的目标就是找到当前棋局的一步走法,所以α-β剪枝搜索的结果是得到了一步最佳走步,而不是象一般的图搜索或者与或图搜索那样,得到的是从初始节点到目标节点(集)的一条路径或者解图。

根据这些剪枝规则,很容易给出α-β算法描述,显然剪枝后选得的最好优先走步,其结果与不剪枝的MINIMAX方法所得完全相同,因而α-β过程具有较高的效率。

图3.10 α-β搜索过程的博弈树

图3.10给出一个d=4的博弈树的α-β搜索过程,其中带圆圈的数字表示求静态估值及倒推值过程的次序编号。该图详细表示出α-β剪枝过程的若干细节。初始节点的最终倒推值为1,该值等于某一个端节点的静态估值。最好优先走步是走向右分枝节点所代表的棋局,要注意棋局的发展并不一定要沿着通向静态值为1的端节点这条路径走下去,这要看对手的实际响应而定。
  下面分析一下剪枝的效率问题。若以最理想的情况进行搜索,即对MIN节点先扩展最低估值的节点(若从左向右顺序进行,则设节点估计值从左向右递增排序),MAX先扩展最高估值的节点(设估计值从左向右递减排序),则当搜索树深度为D,分枝因数为B时,若不使用α-β剪枝技术,搜索树的端节点数;若使用α-β剪枝技术.可以证明理想条件下生成的端节点数最少,有
(D为偶数)
(D为奇数)
比较后得出最佳α-β搜索技术所生成深度为D处的端节点数约等于不用α-β搜索技术所生成深度为D/2处的端节点数。这就是说,在一般条件下使用α-β搜索技术,在同样的资源限制下,可以向前考虑更多的走步数,这样选取当前的最好优先走步,将带来更大的取胜优势。


  5.其他改进方法
  使用α-β剪枝技术,当不满足剪枝条件(即)时。若β值比α值大不了多少或极相近,这时也可以进行剪枝,以便有条件把搜索集中到会带来更大效果的其他路径上,这就是中止对效益不大的一些子村的搜索,以提高搜索效率。
其他改善极小极大过程性能的基本方法有:
(1)不严格限制搜索的深度,当到达深度限制时,如出现博弈格局有可能发生较大变化时(如出现兑子格局),则应多搜索几层,使格局进入较稳定状态后再中止,这样可使倒推值计算的结果比较合理,避免考虑不充分产生的影响,这是等候状态平稳后中止搜索的方法。
(2)当算法给出所选的走步后,不马上停止搜索,而是在原先估计可能的路径上再往前搜索几步,再次检验会不会出现意外,这是一种增添辅助搜索的方法。
(3)对某些博弈的开局阶段和残局阶段,往往总结有一些固定的对弈模式,因此可以利用这些知识编好走步表,以便在开局和结局时使用查表法。只是在进入中盘阶段后,再调用其他有效的搜索算法,来选择最优的走步。

  α-β剪枝过程是二人博弈问题的一般搜索方法,实践证明,该方法可以有效地减少在搜索过程中生成的节点数,提高搜索效率。IBM公司研制的"深蓝"国际象棋程序,采用的就是这样的一种搜索算法,该程序曾经战胜了国际象棋世界冠军卡斯帕罗夫。

  以上介绍的各种博弈搜索技术可用于求解所提到的一些双人博弈问题。但是这些方法还不能全面反映人们弈棋过程实际所使用的一切推理技术,也未涉及棋局的表示和启发函数问题。例如一些高明的棋手,对棋局的表示有独特的模式,他们往往记住的是一个可识别的模式集合,而不是单独棋子的具体位置。此外有些博弈过程,在一个短时期内短兵相接,进攻和防御的战术变化剧烈,这些情况如何在搜索策略中加以考虑。还有基于极小极大过程的一些方法都设想对手总是走的最优走步,即我方总应考虑最坏的情况,实际上再好的选手也会有失误,如何利用失误加强攻势,也值得考虑。再一点就是选手的棋风问题。总之要真正解决具体的博弈搜索技术,有许多更深入的问题需要作进一步的研究和探讨。