【章节小结】 本章重点介绍了自然语言理解的语言分析技术,语言分析技术可以分为基于规则与基于统计数据两大类。概率语法通过语料库统计给每条语言规则加上概率值,语言规则便有了"柔性",不再是"说一不二"、"非此即彼"。概率语法是有机结合这两类技术的较好理论体系。为了完成这种统计,事先必须按照人给出的语言规则加工语料库(至少要加工一部分训练语料),这说明统计方法也需要规则的指导。两者之间的结合和互相利用是必然的趋势。 Internet为人们提供了超大规模的文本信息。高查准率的检索技术、电子文本信息分类及分级管理技术、结构化信息的提取技术等的发展都将促进语言分析技术的应用和发展。并行计算技术的发展也为自然语言处理技术(特别是基于统计的方法)的进步提供了新的工具。 |