分布式搜索elasticsearch中文分词集成
elasticsearch官方只提供smartcn这个中文分词插件,效果不是很好,好在国内有medcl大神(国内最早研究es的人之一)写的两个中文分词插件,一个是ik的,一个是mmseg的,下面分别介绍下两者的用法,其实都差不多的,先安装插件,命令行:
安装ik插件
1 | plugin -install medcl/elasticsearch-analysis-ik/1.1.0 |
下载ik相关配置词典文件到config目录
1 2 3 4 | cd config wget http://github.com/downloads/medcl/elasticsearch-analysis-ik/ik.zip --no-check-certificate unzip ik.zip rm ik.zip |
安装mmseg插件:
1 | bin/plugin -install medcl/elasticsearch-analysis-mmseg/1.1.0 |
下载相关配置词典文件到config目录
1 2 3 4 | cd config wget http://github.com/downloads/medcl/elasticsearch-analysis-mmseg/mmseg.zip --no-check-certificate unzip mmseg.zip rm mmseg.zip |
分词配置
ik分词配置,在elasticsearch.yml文件中加上
1 2 3 4 5 6 | index: analysis: analyzer: ik: alias: [ik_analyzer] type: org.elasticsearch.index.analysis.IkAnalyzerProvider |
或
1 | index.analysis.analyzer.ik.type : “ik” |
这两句的意义相同
mmseg分词配置,也是在在elasticsearch.yml文件中
1 2 3 4 5 6 | index: analysis: analyzer: mmseg: alias: [news_analyzer, mmseg_analyzer] type: org.elasticsearch.index.analysis.MMsegAnalyzerProvider |
或
1 | index.analysis.analyzer.default.type : "mmseg" |
mmseg分词还有些更加个性化的参数设置如下
1 2 3 4 5 6 7 8 9 10 11 12 | index: analysis: tokenizer: mmseg_maxword: type: mmseg seg_type: "max_word" mmseg_complex: type: mmseg seg_type: "complex" mmseg_simple: type: mmseg seg_type: "simple" |
这样配置完后插件安装完成,启动es就会加载插件。
定义mapping
在添加索引的mapping时就可以这样定义分词器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 | { "page":{ "properties":{ "title":{ "type":"string", "indexAnalyzer":"ik", "searchAnalyzer":"ik" }, "content":{ "type":"string", "indexAnalyzer":"ik", "searchAnalyzer":"ik" } } } } |
indexAnalyzer为索引时使用的分词器,searchAnalyzer为搜索时使用的分词器。
java mapping代码如下:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 | XContentBuilder content = XContentFactory.jsonBuilder().startObject() .startObject("page") .startObject("properties") .startObject("title") .field("type", "string") .field("indexAnalyzer", "ik") .field("searchAnalyzer", "ik") .endObject() .startObject("code") .field("type", "string") .field("indexAnalyzer", "ik") .field("searchAnalyzer", "ik") .endObject() .endObject() .endObject() .endObject() |
定义完后操作索引就会以指定的分词器来进行分词。
测试分词可用调用下面api,注意indexname为索引名,随便指定一个索引就行了
http://localhost:9200/indexname/_analyze?analyzer=ik&text=测试elasticsearch分词器
附:
ik分词插件项目地址:https://github.com/medcl/elasticsearch-analysis-ik
mmseg分词插件项目地址:https://github.com/medcl/elasticsearch-analysis-mmseg
如果觉得配置麻烦,也可以下载个配置好的es版本,地址如下:https://github.com/medcl/elasticsearch-rtf
本文固定链接: http://www.chepoo.com/elasticsearch-chinese-word-segmentation-integration.html | IT技术精华网