数据分布算法：hash+ 一致性 hash + redis cluster 的 hash slot

讲解分布式数据存储的核心算法，数据分布的算法

hash 算法 -> 一致性 hash 算法（memcached） -> redis cluster 的 hash slot 算法

用不同的算法，就决定了在多个 master 节点的时候，数据如何分布到这些节点上去，解决这个问题

看到这里的时候，已经明白了，可能是通过 key 去路由到多个 master 上的

redis cluster 介绍#

在 redis cluster 架构下，每个 redis 要放开两个端口号，比如一个是 6379，另外一个就是加 10000 的端口号，比如 16379

16379 端口号是用来进行节点间通信的，通过 cluster bus（集群总线）。cluster bus 的通信是用来进行故障检测，配置更新，故障转移授权

cluster bus 用了另外一种二进制的协议，主要用于节点间进行高效的数据交换，占用更少的网络带宽和处理时间

的确它的最大弊端就是，增加或者减少节点的时候，基本上所有数据都要重建路由

一致性 hash 的严重问题是缓存热点，关键字是区间，因为它是一个环，顺时针找可用节点，所以只要节点够多，就能更均匀的均衡负载。

所以出现了虚拟节点，来解决这个缺点

如上图，假设只有 3 个物理节点，但是在这个环上，分布了若干个虚拟节点（最后指向的是物理节点）

对于数据落在 1-3 这个区间

redis cluster 有固定的 16384 个 hash slot，对每个 key 计算 CRC16 值，然后对 16384 取模，可以获取 key 对应的 hash slot

redis cluster 中每个 master 都会持有部分 slot，比如有 3 个 master，那么可能每个 master 持有 5000 多个 hash slot

hash slot 让 node 的增加和移除很简单：

移动 hash slot 的成本是非常低的

客户端的 api，可以对指定的数据，让他们走同一个 hash slot，通过 hash tag 来实现

如上图，思路与一致性 hash 是一样的。通过更过的 hash slot，将路由分布得更均匀。
当一台机器挂掉之后，会在极短的时间内，将挂掉的 hash slot 分配给其他两个物理节点

可以看成是 -> hash slot -> 机器，hash slot 数量固定，不一一对应机器，动态分配的。

文章转载于:https://www.cnblogs.com/lm970585581/p/13235922.html

原著是一个有趣的人,若有侵权,请通知删除

本博客所有文章如无特别注明均为原创。
复制或转载请以超链接形式注明转自起风了，原文地址《数据分布算法：hash+ 一致性 hash + redis cluster 的 hash slot》