中文分词常用方法简述

/ 工具 / 没有评论 / 1596浏览

中文分词常用方法简述

中文分词

就是将一句话分解成一个词一个词,英文中可以用空格来做,而中文需要用一些技术来处理。

三类分词算法:

1. 基于字符串匹配:

将汉字串与词典中的词进行匹配,如果在词典中找到某个字符串,则识别出一个词。

此类型中常用的几种分词方法有:

2. 基于理解:

通常包括三个部分:分词(用来获得有关词)、句法语义(利用句法和语义信息来对分词歧义进行判断)、总控。

3. 基于统计:

对语料中相邻共现的各个字的组合的频度进行统计,将概率最大的分词结果作为最终结果。常见的模型有HMM和CRF。

部分分词工具:

相关文章: 一个隐马尔科夫模型的应用实例:中文分词

学习资料:

http://www.jianshu.com/p/e978053b0b95 https://www.zhihu.com/question/19578687/answer/190569700