当前位置: 首页 > elasticsearch, 搜索 > 正文

分布式搜索elasticsearch中文分词集成

1 星2 星3 星4 星5 星 (1 次投票, 评分: 5.00, 总分: 5)
Loading ... Loading ...
baidu_share

elasticsearch官方只提供smartcn这个中文分词插件,效果不是很好,好在国内有medcl大神(国内最早研究es的人之一)写的两个中文分词插件,一个是ik的,一个是mmseg的,下面分别介绍下两者的用法,其实都差不多的,先安装插件,命令行:
安装ik插件

1
plugin -install medcl/elasticsearch-analysis-ik/1.1.0

下载ik相关配置词典文件到config目录

1
2
3
4
cd config
wget http://github.com/downloads/medcl/elasticsearch-analysis-ik/ik.zip --no-check-certificate
unzip ik.zip
rm ik.zip

安装mmseg插件:

1
bin/plugin -install medcl/elasticsearch-analysis-mmseg/1.1.0

下载相关配置词典文件到config目录

1
2
3
4
cd config
wget http://github.com/downloads/medcl/elasticsearch-analysis-mmseg/mmseg.zip --no-check-certificate
unzip mmseg.zip
rm mmseg.zip

分词配置

ik分词配置,在elasticsearch.yml文件中加上

1
2
3
4
5
6
index:
  analysis:                   
    analyzer:      
      ik:
          alias: [ik_analyzer]
          type: org.elasticsearch.index.analysis.IkAnalyzerProvider

1
index.analysis.analyzer.ik.type : “ik”

这两句的意义相同
mmseg分词配置,也是在在elasticsearch.yml文件中

1
2
3
4
5
6
index:
  analysis:
    analyzer:
      mmseg:
          alias: [news_analyzer, mmseg_analyzer]
          type: org.elasticsearch.index.analysis.MMsegAnalyzerProvider

1
index.analysis.analyzer.default.type : "mmseg"

mmseg分词还有些更加个性化的参数设置如下

1
2
3
4
5
6
7
8
9
10
11
12
index:
  analysis:
    tokenizer:
      mmseg_maxword:
          type: mmseg
          seg_type: "max_word"
      mmseg_complex:
          type: mmseg
          seg_type: "complex"
      mmseg_simple:
          type: mmseg
          seg_type: "simple"

这样配置完后插件安装完成,启动es就会加载插件。

定义mapping

在添加索引的mapping时就可以这样定义分词器

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
{
   "page":{
      "properties":{
         "title":{
            "type":"string",
            "indexAnalyzer":"ik",
            "searchAnalyzer":"ik"
         },
         "content":{
            "type":"string",
            "indexAnalyzer":"ik",
            "searchAnalyzer":"ik"
         }
      }
   }
}

indexAnalyzer为索引时使用的分词器,searchAnalyzer为搜索时使用的分词器。

java mapping代码如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
XContentBuilder content = XContentFactory.jsonBuilder().startObject()
        .startObject("page")
          .startObject("properties")       
            .startObject("title")
              .field("type", "string")           
              .field("indexAnalyzer", "ik")
              .field("searchAnalyzer", "ik")
            .endObject() 
            .startObject("code")
              .field("type", "string")         
              .field("indexAnalyzer", "ik")
              .field("searchAnalyzer", "ik")
            .endObject()     
          .endObject()
         .endObject()
       .endObject()

定义完后操作索引就会以指定的分词器来进行分词。

测试分词可用调用下面api,注意indexname为索引名,随便指定一个索引就行了

http://localhost:9200/indexname/_analyze?analyzer=ik&text=测试elasticsearch分词器

附:

ik分词插件项目地址:https://github.com/medcl/elasticsearch-analysis-ik

mmseg分词插件项目地址:https://github.com/medcl/elasticsearch-analysis-mmseg

如果觉得配置麻烦,也可以下载个配置好的es版本,地址如下:https://github.com/medcl/elasticsearch-rtf

本文固定链接: http://www.chepoo.com/elasticsearch-chinese-word-segmentation-integration.html | IT技术精华网

分布式搜索elasticsearch中文分词集成:等您坐沙发呢!

发表评论