【章节小结】 自然语言理解的判别标准如下: 1. 问答:机器能正确地回答输入文本中的有关问题 2. 文摘生成:机器有能力生成输入文本的摘要 3. 释义:机器能用不同的词语和句型来复述文本输入 4. 翻译:机器具有把一种语言翻译成为另一种语言的能力 从目前对自然语言的研究看,上述任一条,还难以给出满意的答案。自然语言处理的 主要难题是需处理大量的不规范的句子,以及语法语义上的多义性。 60年代开发的自然语言理解系统,大都没有真正意义上的语法分析,而主要依靠关键词匹配技术来识别输入句子的。关键字匹配是最早用于自然语言理解的一种技术,实质上并没有理解文本、句子的含义和结构,只是按预先设定好的模式,来应答所提出的问题。这是一种近似匹配技术,它的最大优点是允许输入句子不一定要遵循规范的语法,甚至可以是文理不通的,但这种不精确性也是它的主要弱点。 进入70年以后,一批采用句法-语法分析技术的自然语言理解系统脱颖而出,在语言分析的难度和深度方面都比早期系统有了长足的进步。这个时期的代表作是LUNAR,SHRDLU和MARGIE系统。句法-语义分析对句子的组成、结构依句法规则进行分析,生成一棵句法树,进而进行语义解释。 进入80年代以来,自然语言理解系统的研究趋向实用化和工程化,除了基于规则的分析外,建立在大型语料库基础上的分析理解更加引起重视,一是规则分析,适用范围还是有限的,二是现实世界的大量语料分析会给语言分析带来新的生机,建立基于统计的语料库系统更加引人注目,具有百万条语料的语料库已成为自然语言理解的基础。 【课后习题】 1.在汉语分词中,常使用正向最大匹配算法FMM,指词库中,如存有词中国,中国人民,中国人民大学,在使用词库来进行词的切分,自左至右(正向)作匹配时,选取最大长度匹配成功的为解答,试写出FMM分词算法。 2.给出汉语中一个句子中语法出现歧义的例子 3.给出汉语中一个句子语义上出现歧义的例子 4.语料库的建立和使用 |