在书面汉语中,字与字、词与词是连写的,此在句中没有显示的标记。因此,理解汉语的首要任务是把连续的汉字串分割成词的序列,即自动分词。近二十年来,汉语自动分词研究取得了很大成就,提出了许多分词算法,其中有一定代表性的主要有:最大匹配法(又可分为正向、逆向、双向三种)、最优路径(+词频选择)法(最少分词法)、特征词库法、邻接约束法、人工神经网络方法、无词典分词法等等。这些算法各有特色。
  人类的自然语言是十分复杂的。有一些词,在不同的语言环境中,可以体现不同的语法范畴(即词性)。这一类词,我们称其为歧义词(ambiguous words)。例如,单词need,就是既可以做普通名次,又可以作一般动词,有时还可以作情态动词用,所以need就是一个歧义词。在日常生活中,我们通常会觉得对歧义词的处理并不困难,有些时候几乎感觉不到有歧义存在。这主要是因为我们在长期的学习与生活中,早已积累下了丰富的语言知识。而计算机在遇到这类问题时,处理起来仍具有相当的困难。
  本节希望通过介绍基于统计的词性标注方法,一方面使大家了解词性标注的基本概念,另一方面,也希望大家对统计方法的应用有更深的了解。