早在1949年,Warren Weaver就设想,根据信息论的编码思想,利用统计的方法来实现自然语言处理,50年代,基于经验的统计方法曾经十分流行,但是后来由于受到当时计算机本身性能方面的制约,使得统计方法在发展上受到阻碍。另一方面,随着乔姆斯基文法的建立,规则方法逐渐占据了主导地位。但是由于规则方法中,规则具有获取难度很大,不易维护(相互缠绕,一致性差)以及精度不够等缺点,使得处理难度很大,规则方法难以有新的发展。
随着计算机技术的发展,统计的方法越来越受到人们的重新重视。语料库的合理利用,使得统计方法在知识的获取方面比较容易实现。
语料库:大量的能代表某一领域的语言现象的真实的语言材料的集合。
近年来人们建立了大量的语料库期望从中获得对真实语言现象和规律的认识。近几年来,计算机本身在容量和速度方面都有了飞速的发展,机器可读文本现在几乎随处可见,这就给语料库信息的收集和整理工作提供了良好的条件。
基于统计的处理技术可以从语料库中获得各种所需要的知识。语料库是统计方法唯一的信息源,所有的知识(除了统计模型的构造方法)都是从语料库中获得的;同时,使用统计方法获取知识,知识在统计意义上被解释,所有的参数都是通过统计处理从语料库中自动获得的。
|