第五章 机器学习

  机器学习就是计算机自动获取知识,它是知识工程的三个分支(使用知识、表示知识、获取知识)之一。这一章将介绍机器学习的基本问题,包括:为什么研究机器学习、什么是机器学习、机器学习的发展历史、学习的一个模型、机器学习的分类和机器学习的研究目标。

  
5.1 为什么研究机器学习

  人工智能的概念和方法已经用于很多领域中。主要成果是专家系统、自然语言理解、计算机视觉和听觉、推理系统的研究。当前人工智能研究的主要障碍和发展方向之一就是机器学习,这包括发展学习的计算理论和构造学习系统。现在的人工智能系统还完全没有或仅有很有限的学习能力。系统中的知识由人工编程送入系统,知识中的错误也不能自动改正。换句话说,现有的大多数人工智能系统是演绎的,没有归纳推理,因而不能自动获取和生成知识。
  人类有能力获取新知识、学习新技巧,并在实践中改进之。幼儿经过学习成长为专家,如果一个人反复犯同样的错误,就不能说他是有智能的。学习是智能的重要一环,人工智能的研究目标之一应该是理解学习的本质和建立学习系统。
  人工智能解决的问题越来越复杂,系统中的知识越来多。这些知识包括:领域专用的事实和规则,作为常识的启发式和约束,通用的概念和理论,把如此复杂的知识送入系统是复杂的、费时的、容易出错的和需要经验的。例如,建立专家系统就需要有关领域专家和知识工程师的配合。使用机器学习技术可以简化这一过程。知识可以看作是被压缩了的信息。机器学习就是把数据库和信息系统自动压缩成知识库。计算机视觉系统中包含各种视觉专用变换、几何概念和对象的物理与功能描述。把所有这些知识送入系统中是很困难的,系统应该可以由示教实例自动生成知识。自然语言理解系统中具有大量语法和语义知识,它也需要使用学习系统。此外,自然语言是不断发展的。已有的自然语言系统也要不断修改旧概念、产生新概念。这也需要学习功能。
  智能教育系统必须根据学生水平选择适当难度的教学内容。为了了解学习的程度,好的方法不是直接测试,而是在教学中由学生的表现中了解。这是一种学习。
  未来的计算机将有自动获取知识的能力。它们直接由书本学习,通过与人谈话学习,通过观察环境学习。它们通过实践自我完善,克服人的局限性,例如存储量少、效率低、注意力分散和难以传送所获取的知识。一台计算机获取的知识很容易复制给任何其它机器。人类的这些设想可望在不久变成现实。我们有必要对这一前景给以关注。
  上面介绍了机器学习的必要性,下面说明机器学习的可行性。机器学习的研究表明,学习过程也是信息处理过程,这包括直接记忆事实和经过推理生成新概念及新知识。机器学习领域已经获得了一些成果。这说明有可能实现初步的机器学习能力。现有的程序已经可以形成新概念和发现数据中的规律,可以产生决策规则,可以提取类比,可以学习问题求解的启发式,可以产生一般的规划。现在还不清楚用现有的硬件和编程方法可以使机器学习达到什么水平。然而,硬件的发展正在为机器学习的研究提供新的条件,例如连接机、第五代计算机和其它新的体系结构。以Prolog为代表的逻辑程序设计为机器学习研究提供了软件环境。
  下面介绍机器学习研究的难点,首先,学习系统性能的预测将更加困难。学习系统产生的知识可能使系统建造者都无法预料。如果用这种系统解决重要问题,就可能产生意外的困难或危险。有的专家认为,预测复杂计算机系统的性能已经很困难了,增加学习能力会加大这种困难,但不至使这一困难跃升到新的层次。有的专家希望学习系统能学习帮助其它系统校正这些意外的结果。
  其次,获取的知识本质上还是猜想。由特定的观察和类比生成的知识不可能证明其正确性。归纳推理不是保真的,它是保假的。演绎推理才是保真的。例如,由"所有鸟都是动物"推出"麻雀是动物"。这是演绎推理,前提真结论必真。又如,"麻雀会飞"推出"所有鸟都会飞"。这是归纳推理,前提真结论不一定真(如驼鸟是鸟但不会飞)。再如,"麻雀是植物"推出"所有鸟都是植物"。前提假结论必假,这是归纳推理的保假性。此外,对给定的前提,理论上存在无限多归纳结论。在归纳中依据倾向性、假设和约束考虑其中少数结论。因此在归纳中要使用人类的假设和约束。机器不可能具有人类的所有假设和约束,因此机器生成的知识就会违背人的约束。为了产生新知识,需要觉察到什么是重要的、什么是有意义的。机器的这种能力比人差得多。
  上述讨论说明,由机器获取的知识要经过人的审查才能使用。为了便于人理解和审查这些知识,学习系统应具有解释功能,知识的表示也应接近人的描述和思维模型。解释功能不仅应使人了解表面的结果,而且要了解原理、假设和理论。即使机器学习可能消除知识获取的瓶颈,还会产生知识验证的瓶颈。将要出现新的学习系统,用于安排测试过程来审查另一学习系统产生的知识。