Elasticsearch分片及集群说明

replica的作用主要包括：

a.容灾:primary分片丢失，replica分片就会被顶上去成为新的主分片，同时根据这个新的主分片创建新的replica,集群数据安然无恙；
b.提高查询性能：replica和primary分片的数据是相同的，所以对于一个query既可以查主分片也可以查备分片，在合适的范围内多个replica性能会更优(但要考虑资源占用也会提升[cpu/disk/heap])，另外index request只能发生在主分片上，replica不能执行index request;

分片数目调整：

对于一个索引，除非重建索引否则不能调整分片的数目(主分片数，number_of_shards),但可以随时调整replica数(number_of_replicas)

ES集群状态有三种：

Green: 所有主分片和备份分片都准备就绪(分配成功)，即使有一台机器挂了(假设一台机器一个实例)，数据都不会丢失，但会变成YELLOW状态；
Yellow: 所有主分片准备就绪，但存在至少一个主分片(假设是A)对应的备份分片没有就绪，此时集群属于告警状态，意味着集群高可用和容灾能力下降，如果刚好A所在的机器挂了，并且你只设置了一个备份(已处于未就绪状态),那么A的数据就会丢失(查询结果不完整)，此时集群进入Red状态；
Red: 至少有一个主分片没有就绪(直接原因是找不到对应的备份分片成为新的主分片),此时查询的结果会出现数据丢失(不完整)

Elasticsearch与关系数据的类比对应关系如下：

Relational DB ⇒ Databases ⇒ Tables ⇒ Rows ⇒ Columns
Elasticsearch ⇒ Indices ⇒ Types ⇒ Documents ⇒ Fields

这里的document的可以理解为一个JSON序列对象。每个document可包含多个field。再来说说Shard，每个Index（对应Database）包含多个Shard，默认是5个，分散在不同的Node上，但不会存在两个相同的Shard存在一个Node上，这样就没有备份的意义了。Shard是一个最小的Lucene索引单元。当来一个document的时候，Elasticsearch通过对docid进行hash来确定其放在哪个shard上面，然后在shard上面进行索引存储。replicas就是备份，Elasticsearch采用的是Push Replication模式，当你往 master主分片上面索引一个文档，该分片会复制该文档(document)到剩下的所有 replica副本分片中，这些分片也会索引这个文档。

当进行查询时，如果提供了查询的DocID，Elasticsearch通过hash就知道Doc存在哪个shard上面，再通过routing table查询就知道再哪个node上面，让后去node上面去取就好了。如果不提供DocID,那么Elasticsearch会在该Index（indics）shards所在的所有node上执行搜索预警，然后返回搜索结果，由coordinating node gather之后返回给用户。

集群信息说明图如下：

map

ELK

本博客所有文章除特别声明外，均采用 CC BY-SA 4.0 协议，转载请注明出处！

ES内置账号密码修改、自定义角色自定义账号、ldap及AD认证 Previous

hexo添加admin,修改默认端口 Next