3.极小极大搜索过程
极小极大搜索方法是博弈树搜索的基本方法,现在博弈树搜索中最常用的α-β剪枝搜索方法,就是从这一方法发展而来的。
首先假定,有一个评价函数可以对所有的棋局进行评估。当评价函数值大于0时,表示棋局对我方有利,对对方不利。当评价函数小于0时,表示棋局对我方不利,对对方有利。而评价函数值越大,表示对我方越有利。当评价函数值等于正无穷大时,表示我方必胜。评价函数值越小,表示对我方越不利。当评价函数值等于负无穷大时,表示对方必胜。假设双方都是对弈高手,在只看一步棋的情况下,我方一定走评价函数值最大的一步棋,而对方一定走评价函数值最小的一步棋。会下棋的读者都知道,在只看一步的情况下最好的棋,从全局来说不一定就好,还可能很不好。因此为了走出好棋,必须多看几步,从多种可能状态中选择一步好棋。
想一想人是如何下棋的呢?人实际上采用的是一种试探性的方法。首先假定走了一步棋,看对方会有那些应法,然后再根据对方的每一种应法,看我方是否有好的回应......这一过程一直进行下去,直到若干步以后,找到了一个满意的走法为止。初学者可能只能看一、两个轮次,而高手则可以看几个,甚至十几个轮次。
极小极大搜索方法,模拟的就是人的这样一种思维过程。当轮到我方走棋时,首先按照一定的搜索深度生成出给定深度d以内的所有状态,计算所有叶节点的评价函数值。然后从d-1层节点开始逆向计算:对于我方要走的节点(用MAX标记,称为极大节点)取其子节点中的最大值为该节点的值(因为我方总是选择对我方有利的棋);对于对方要走的节点(用MIN标记,称为极小节点)取其子节点中的最小值为该节点的值(对方总是选择对我方不利的棋)。一直到计算出根节点的值为止。获得根节点取值的那一分枝,即为所选择的最佳走步。
在图3.5所示的例子中,假定搜索深度为2,D~J是7个叶节点,在它们下边括号中的数字是这些节点的评价函数值(假定可以计算得到)。A、B、C是三个极小节点,它们分别取各自子节点最小值为自己的值,得到三个节点的值分别为-6、-2和-4。s是极大节点,从A、B、C三个节点的值中取最大值,得到-2。由于-2来自于节点B,所以搜索的结果是应选择B作为我方的走步。对于我方来说,-2并不是一个好的结果,但却是在对方不犯错误的情况下,对我方最有利的结果。因为从图中可以看出,如果选择A为我方的走步,如果对方回应D的话,我方可以得到评价值9,固然对我方有利。但是如果对方是一个高手的话,他一定回选择E,而不是D。在这种情况下,我方只能得到-6,结果岂不是更差。因此,极小极大过程是一种假定对手每次回应都正确的情况下,如何从中找出对我方最有利的走步的搜索方法。
值得注意的是,不管设定的搜索深度是多少层,经过一次搜索以后,只决定了我方一步棋的走法。等到对方回应一步棋之后,需要在新的棋局下重新进行搜索,来决定下一步棋如何走。
极小极大搜索策略是考虑双方对弈若干步之后,从可能的走步中选一步相对好棋的着法来走,即在有限的搜索深度范围内进行求解。为此要定义一个静态估计函数f,以便对棋局的势态(节点)作出优劣估值,这个函数可根据势态优劣特征来定义(主要用于对端节点的"价值"进行度量)。一般规定有利于MAX的势态,f(p)取正值,有利于MIN的势态,f(p)取负值,势均力敌的势态,f(p)取0值。若f(p)=+∞,则表示MAX赢,若f(p)=-∞,则表示MIN赢。下面的讨论规定:顶节点深度d=0,MAX代表程序方,MIN代表对手方,MAX先走。
图3.5是一个表示考虑两步棋的例子,图中端节点给出的数字是用静态函数f(p)计算得到,其他节点不用f(p)估计,因为不够精确,而应用倒推的办法取值。例如A、B、C是MIN走步的节点,MAX应考虑最坏的情况,故其估值应分别取其子节点f(p)估值中最小者,而s是MAX走步的节点,可考虑最好的情况,故估值应取A、B、C值中的最大者。这样求得f(s)=-2,依此确定了相对较优的走步应是走向B,因为从B出发,对手不可能产生比f(s)=-2更差的效果。实际上可根据资源条件,考虑更多层次的搜索过程,从而可得到更准确的倒推值,供MAX选取更正确的走步。当用端节点的静态估计函数f(p)求倒推值时,两位选手应采取不同的策略,从下往上逐层交替使用极小和极大的选值方法,故称极小极大过程。
图3.5 f(p)求值过程
过程MINIMAX:
①T:=(s,MAX),OPEN:=(s),CLOSED:=( );开始时树由初始节点构成,OPEN表只含有s。
②LOOP1:IF OPEN=( )THEN GO LOOP2;
③n:=FIRST(OPEN),REMOVE(n,OPEN),ADD(n,CLOSED);
④IF n可直接判定为赢、输或平局
THEN f(n):=∞∨-∞∨0,GO LOOP1
ELSE EXPAND(n)→{ni},ADD({},T)
IF d(ni)<k THEN ADD({},OPEN),GO
LOOP1
ELSE计算f(),GO
LOOP1;nI达到深度k,计算各端节点f值。
⑤LOOP2:IF CLOSED=NIL THEN GO LOOP3
ELSE :=FIRST(CLOSED);
⑥IF(∈MAX)∧(f(∈MIN)有值)
THEN f():=max{f()},REMOVE(,CLOSED);若MAX所有子节点均有值,则该MAX取其极大值。
IF (∈MIN)∧(f(∈MAX)有值)
THEN f():=min{f()},REMOVE(,CLOSED);若MIN所有子节点均有值,则该MIN取其极小值。
⑦GO LOOP2;
⑧LOOP3:IF f(s)≠NIL THEN EXIT(END∨M(Move,T));s有值,则结束或标记走步。
该算法分两个阶段进行,第一阶段②-④是用宽度优先法生成规定深度的全部博弈树,然后对其所有端节点计算其静态估计函数值。第二阶段⑥-⑧是从底向上逐级求非端节点的倒推估计值,直到求出初始节点的倒推值f(s)为止,此时
其中 表示深度为k的端节点。再由f(s)即可选得相对较好的走步来,过程遂造结束。等对手响应走步后,再以当前的状态作为起始状态s,重复调用该过程。
下面通过最简单的3×3棋盘的一字棋为例来说明算法的应用过程。
在九宫格棋盘上,两位选手轮流在棋盘上摆各自的棋子(每次一枚),谁先取得三子一线的结果就取胜。
设程序方MAX的棋子用(×)表示,对手MIN的棋子用(○)表示,MAX先走。静态估计函数f(p)规定如下:
若p对任何一方来说都不是获胜的格局,则
f(p)=(所有空格都放上MAX的棋子之后,MAX的三子成线(行、列、对角)的总
-(所有空格都放上MIN的棋子之后,MIN的三子成线(行、列、对角)的总数)
若p是MAX获胜的格局,则f(p)=∞;
若p是MIN获胜的格局,则f(p)=-∞。
例如,当p的格局如下时,则可得f(p)=6-4=2;
设考虑走两步的搜索过程,利用棋盘对称性的条件,则第一次调用算法产生的搜索树如图3.6所示,图中端节点下面是计算的f(p)值,非端节点的倒推值标记在圆圈内。为了使初始节点具有最大的倒推值,可以看出第一步的最好着法是把棋子下在中央位置。
图3.6一字棋第一阶段搜索树
设MAX走完第一步后,MAX的对手是在×之上的格子下子,这时MAX就要在新格局下调用算法,第二次产生的搜索树如图3.7所示。类似的第三次的搜索树如图3.8所示。至此MAX走完最好的走步后,不论MIN怎么走,都无法挽回败局,因此只好认输了,否则还要进行第四轮回的搜索。
图3.7 一字棋第二阶段搜索树
图3.8一字棋第三阶段搜索树
|