当前位置: 首页 > solr, 搜索 > 正文

SolrCloud简介

关键字:
1 星2 星3 星4 星5 星 (10 次投票, 评分: 5.00, 总分: 5)
Loading ... Loading ...
baidu_share
文章目录

一.简介

SolrCloud是Solr4.0版本以后基于Solr和Zookeeper的分布式搜索方案。SolrCloud是Solr的基于Zookeeper一种部署方式。Solr可以以多种方式部署,例如单机方式,多机Master-Slaver方式。

二.特色功能

SolrCloud有几个特色功能:

集中式的配置信息使用ZK进行集中配置。启动时可以指定把Solr的相关配置文件上传Zookeeper,多机器共用。这些ZK中的配置不会再拿到本地缓存,Solr直接读取ZK中的配置信息。配置文件的变动,所有机器都可以感知到。另外,Solr的一些任务也是通过ZK作为媒介发布的。目的是为了容错。接收到任务,但在执行任务时崩溃的机器,在重启后,或者集群选出候选者时,可以再次执行这个未完成的任务。

自动容错SolrCloud对索引分片,并对每个分片创建多个Replication。每个Replication都可以对外提供服务。一个Replication挂掉不会影响索引服务。更强大的是,它还能自动的在其它机器上帮你把失败机器上的索引Replication重建并投入使用。

近实时搜索立即推送式的replication(也支持慢推送)。可以在秒内检索到新加入索引。

查询时自动负载均衡SolrCloud索引的多个Replication可以分布在多台机器上,均衡查询压力。如果查询压力大,可以通过扩展机器,增加Replication来减缓。

自动分发的索引和索引分片发送文档到任何节点,它都会转发到正确节点。

事务日志事务日志确保更新无丢失,即使文档没有索引到磁盘。

其它值得一提的功能有:

索引存储在HDFS上索引的大小通常在G和几十G,上百G的很少,这样的功能或许很难实用。但是,如果你有上亿数据来建索引的话,也是可以考虑一下的。我觉得这个功能最大的好处或许就是和下面这个“通过MR批量创建索引”联合实用。

通过MR批量创建索引有了这个功能,你还担心创建索引慢吗?

强大的RESTful API通常你能想到的管理功能,都可以通过此API方式调用。这样写一些维护和管理脚本就方便多了。

优秀的管理界面主要信息一目了然;可以清晰的以图形化方式看到SolrCloud的部署分布;当然还有不可或缺的Debug功能。

三.概念

Collection:在SolrCloud集群中逻辑意义上的完整的索引。它常常被划分为一个或多个Shard,它们使用相同的Config Set。如果Shard数超过一个,它就是分布式索引,SolrCloud让你通过Collection名称引用它,而不需要关心分布式检索时需要使用的和Shard相关参数。

Config Set: Solr Core提供服务必须的一组配置文件。每个config set有一个名字。最小需要包括solrconfig.xml (SolrConfigXml)和schema.xml (SchemaXml),除此之外,依据这两个文件的配置内容,可能还需要包含其它文件。它存储在Zookeeper中。Config sets可以重新上传或者使用upconfig命令更新,使用Solr的启动参数bootstrap_confdir指定可以初始化或更新它。

Core: 也就是Solr Core,一个Solr中包含一个或者多个Solr Core,每个Solr Core可以独立提供索引和查询功能,每个Solr Core对应一个索引或者Collection的Shard,Solr Core的提出是为了增加管理灵活性和共用资源。在SolrCloud中有个不同点是它使用的配置是在Zookeeper中的,传统的Solr core的配置文件是在磁盘上的配置目录中。

Leader: 赢得选举的Shard replicas。每个Shard有多个Replicas,这几个Replicas需要选举来确定一个Leader。选举可以发生在任何时间,但是通常他们仅在某个Solr实例发生故障时才会触发。当索引documents时,SolrCloud会传递它们到此Shard对应的leader,leader再分发它们到全部Shard的replicas。

Replica: Shard的一个拷贝。每个Replica存在于Solr的一个Core中。一个命名为“test”的collection以numShards=1创建,并且指定replicationFactor设置为2,这会产生2个replicas,也就是对应会有2个Core,每个在不同的机器或者Solr实例。一个会被命名为test_shard1_replica1,另一个命名为test_shard1_replica2。它们中的一个会被选举为Leader。

Shard: Collection的逻辑分片。每个Shard被化成一个或者多个replicas,通过选举确定哪个是Leader。

Zookeeper: Zookeeper提供分布式锁功能,对SolrCloud是必须的。它处理Leader选举。Solr可以以内嵌的Zookeeper运行,但是建议用独立的,并且最好有3个以上的主机。

四.架构图

索引(collection)的逻辑图
index

Solr和索引对照图
solr-index

创建索引过程
create-index

分布式查询
search

Shard Splitting
shard-splitting

五.其它

NRT 近实时搜索Solr的建索引数据是要在提交时写入磁盘的,这是硬提交,确保即便是停电也不会丢失数据;为了提供更实时的检索能力,Solr设定了一种软提交方式。软提交(soft commit):仅把数据提交到内存,index可见,此时没有写入到磁盘索引文件中。

一个通常的用法是:每1-10分钟自动触发硬提交,每秒钟自动触发软提交。

RealTime Get 实时获取允许通过唯一键查找任何文档的最新版本数据,并且不需要重新打开searcher。这个主要用于把Solr作为NoSQL数据存储服务,而不仅仅是搜索引擎。Realtime Get当前依赖事务日志,默认是开启的。另外,即便是Soft Commit或者commitwithin,get也能得到真实数据。 注:commitwithin是一种数据提交特性,不是立刻,而是要求在一定时间内提交数据.

本文固定链接: http://www.chepoo.com/solrcloud-introduction.html | IT技术精华网

【上一篇】
【下一篇】

SolrCloud简介:目前有12 条留言

  1. 5楼
    :

    请问下,solrcloud的搭建是否需要多个tomcat,可以在同一个tomcat上开多核么?求文档。

    [回复]
  2. 4楼
    :

    可以不用tomcat,直接用java命令启动。参考:http://www.chepoo.com/analysis-solrcloud-1.html。

    在实际生产环境中会用tomcat,管理,查看会很方便,具体配置参考:http://www.chepoo.com/tomcat-solrcloud-zookeeper-external-deployment.html。

    可以在一个solrhome(你说的同一个tomcat)下面配置多核,可参考:http://www.chepoo.com/multiple-solrcores-config.html。

    如果你用solrcloud集群,直接用http 命令就可以多个分片,即多核。
    例如:http://localhost:8080/solr/admin/collections?action=create&name=mycollection&numShards=10&replicationFactor=1&maxShardsPerNode=30

    [回复]
  3. 地板
    :

    您好,请教一下,solrcloud可不可以在多个collection上合并检索?我们的应用会涉及经常删除历史数据,请问solr删除文档的性能怎么样?

    [回复]
    • :

      可以。就看删除量和删除频率。一般,肯定没问题。

      [回复]
      • :

        @ awnuxkjy,有qq吗?聊一下

        [回复]
  4. 板凳
    :

    对solrcloud的分片功能的疑问,求大神解疑,急需知道,邮箱地址:1653963439@qq.com
    有索引:a表索引、b表索引、c表索引,有服务器:三台

    1.是指把上述三个表索引分别部署到三台服务器,a表部署到一台服务器、b表部署到第二台服务器、c表部署到第三台服务器

    2.还是指把a表索引分片成几个小的索引块、b表索引分片几个小的索引块、
    c表索引分片几个小的索引块,然后分别把这些小的索引块按照一定的规则放到三台服务器了,即每台服务器都有a、b、c索引的一小部分 ?

    [回复]
    • :

      每台服务器都有a、b、c索引的一小部分 。分片由solrcloud内部实现。

      [回复]
      • :

        请教大神,一个core是不是表示一个备份?还有schema是什么级别的?是core级别的还是collection级别的,还是整个集群级别的?

        [回复]
        • :

          schema相当于数据库里面的表,colletion就是一个索引分片集合,core相当于数据库的database。

          [回复]
          • :

            在solrcloud中,所有的core都是使用一个schema配置吧,感觉core在solrcloud中的概念不如solr中清晰,solr中每一个solr可以有自己的schema.xml配置,可以进行独立的索引操作,但是solrcloud都使用同一个schema文件的话,每个core的概念就好像变成了一个入口的感觉。??对你的描述还是不是很明白

            [回复]
            • :

              solrcloud是solr的分布式实现。同样具备solr功能。solrcloud也可以有多个core,不同core配置不同目录。core配置目录含有schema.xml文件。

              [回复]
  5. 沙发
    :

    请问:solrcloud 分布式查询 建立子查询过程是如何实现的,什么原理?

    [回复]

发表评论