我们讨论的分词算法可分为四大类:基于字典、词库匹配的分词方法;基于词频度统计的分词方法;基于知识理解的分词方法;并行分词法。第一类方法又称基于字符串匹配的分词方法和机械分词方法,是使用最多,比较成熟的方法。第二类基于统计的分词方法则基于字和词的统计信息,如把相邻字间的信息、词频及相应的共现信息等应用于分词,由于这些信息是通过调查真实语料而取得的,因而基于统计的分词方法具有较好的实用性。第三类方法主要基于语义分析。工程当中应用较少,主要还是在科研中使用。第四类方法属于较新的方法,现在应用还比较少。
阅读全文