人工智能原理

第八章自然语言理解的任务和发展简史

　　8.1 什么叫自然语言理解

　　自然语言是指人类语言集团的本族语，如汉语、英语、日语等。自然语言是相对于人造语言而言的。人造语言是指世界语或计算机的各种程序设计语言。众所周知，语言是思维的载体，是人际交流的重要工具。在人类历史上以语言文字形式记载和流传的知识占到知识总量的80％以上。就计算机的应用而言，据统计用于数学计算的仅占10％，用于过程控制的不到5％，其余85％左右都是用于语言文字的信息处理。在信息化社会中，语言信息处理的技术水平和每年所处理的信息总量已成为衡量一个国家现代化水平的重要标志之一。
　　在这样的社会需求下，自然语言理解作为语言传息处理技术的一个高层次的重要方向，一直是人工智能界所关注的核心课题之一。显然，如果计算机能够理解自然语言，人机间的信息交流能够以人们所熟悉的本族语言来进行，那将是计算技术的一项重大突破。另一方面，由于创造和使用自然语言是人类高度智能的表现，因此对自然语言理解的研究也有助于揭开人类智能的奥秘，深化我们对语言能力和思维本质的认识。所以说，这个研究方向在应用方面和理论方面都有重大意义。
　　那么什么叫"理解"呢?
　　正如什么叫"智能"一样，对于"理解"这个术语也存在着各式各样的认识。然而在人工智能界，或者语言信息处理领域中，人们普遍认为可以采用著名的图灵(Turing)试验来判断计算机是否"理解"了某种自然语言，具体的判别准则至少有如下四条：
　　1.问答(question-answering)：机器能正确地回答输入文本中的有关问题;
　　2.文摘生成(summarizing)：机器有能力产生输入文本的摘要；
　　3.释义(paraphrase)：机器能用不同的词语和句型来复述其输入文本；
　　4.翻译(trahslation)：机器具有把一种语言(源语)翻译成为另一种语言(目标语)的能力。
　　要是计算机一旦达到上述的任何一种要求，它们就会立即在如下的领域中获得广泛的应用：
　　1.机器翻译或机助翻译；
　　2.文本理解：在理解输入文本的基础上，将其内容直接转换成机器内部的某种数据库存储格式，生成文摘，或回答有关问题；
　　3.文本生成：根据用户的请求，以某种自然语言的形式输出储存在计算机中的各种信息；
　　4.自然语言接口：用户直接用自然语言同大型数据库、专家咨询系统或其他计算机系统进行人-机对话。
　　60年代以来已经产生过一些比较成功的自然语言理解系统，用来处理受限的自然语言子集，这种子语言或是在句子结构的复杂性方面受到限制(句法受限)，或是在所表达的事物的数量方面受到限制(语义受限，或领域受限)。其中的一些系统，如人-机接口和机器翻译系统，已成为市场上的商品。但要想让机器能像人类那样自如地运用自然语言，仍然是一项长远而艰巨的任务。
　　30年来自然语言理解的研究大体上经历了三个时期：即60年代以关键词匹配为主流的早期，70年代以句法-语义分析为主流的中期，和80年代开始走向实用化和工程化的近期。下面将扼要地回顾一下这段发展历史，但重点放到自然语言处理技术的总体进展方面，而把某些细节留到以后的章节中去讨论。