为了处理大量的具有高度的不确定性和模糊性的真实文本,最近十几年来新提出了语料库语言学(Corpus Linguistics)。它顺应了大规模真实文本处理的需要,提出了以计算机语料库为基础的语言学研究及自然语言处理的新思想。它认为语言学知识的真正源泉是大规模的来自于生活的语料,计算语言学工作者的任务是使计算机能够自动或半自动的从大规模语料库中获取处理自然语言所需的各种知识,他们必须客观地而不是主观地对语料库中存在的语言事实作出描述。 80年代英国兰开斯特大学Leech领导的UCREL研究小组,利用已带有词类标记的布朗语料库,经过统计分析得出一个反映任意两个相邻标记出现频率的"概率转移矩阵"。他们设计的CLAWS系统依据这种统计信息,而不是系统内存储的知识,对LOB语料库约一百万词的语料进行词类的自动标注,成功率达96%。CLAWS系统的成功使许多研究人员相信,基于语料库的处理思想能够在工程上、在宽广的语言覆盖面上解决大规模真实文本处理这一极其艰巨的课题,至少也是对传统的处理方法的一个强有力的补充。 80年代以来,提出和进行的智能计算机研究,也对自然语言理解提出了新的要求。近年来又提出了对多媒体计算机的研究。新型的智能计算机和多媒体计算机均要求设计出更为友好的人机界面,使自然语言、文字、图像和声音等信号都能直接输入计算机。要求计算机能以自然语言与人进行对话交流,就需要计算机具有自然语言能力,尤其是口语理解和生成能力。 |