您现在的位置是：首页 > 其它

当前栏目

分布式系统多副本设计的挑战

设计挑战分布式系统副本

2023-06-13 09:17:37 时间

我们当前的一个大型系统，基本上都是一个分布式的系统。

在应用层之下，其实是需要大量分布式中间件支撑的。

那设计开发一个分布式系统，需要关注哪些东西，有哪些挑战呢？

分布式系统，简单可以理解为一些独立的机器通过网络相互传递消息，进行通信。这些机器可能相距很远或者很近。

分布式系统中，需要设定一个非常重要的世界观，就是一切都会失败，磁盘会出现问题、网络会出现问题、数据中心会断电或者遇到地震。

所以，一个分布式系统，需要应对以上的异常情况，保障业务持续运行，这也是分布式系统非常重要的价值之一。

由于一个大型系统，是在地理上的分布，那不同地理位置上距离较远的数据中心的通信就会很慢。一些全球化的互联网应用，机器可能彼此在地球的两端。

不管是磁盘故障、网络抖动、数据中心被摧毁、地理位置过远导致的延迟，这些导致的可用性问题，都可以通过数据复制、冗余的方式解决。

一份数据在多个物理位置的备份，有助于解决可用性和性能，一种空间换时间与可用性的思路。

这些副本数据可以存储在一个数据中心之内，也可以存储在多个数据中心之间。

你拥有的副本越多，容错能力就越强，数据丢失的可能性就越小。

结合数据局部性原理，可以最大限度地减少延迟，就是让副本接近于可能访问它的人。

副本多的另一个好处是，可以尽可能为更多人提供访问，也就是提高了访问吞吐。

副本复制可以解决大部分分布式系统的问题，但也会导致一些新的问题。

好处是，引入多个副本是必不可少的。但你需要做好副本之间数据一致性的处理，特别是对于网络问题的处理，比如网络抖动、网络分区、副本延迟等问题。

对于副本一致性，你需要知道，试图始终保持地理分布副本的完全一致是徒劳的。

在分布式分区的情况下，实现完美一致性的唯一方法就是牺牲数据的可用性。

所以我一直认为，在分布式系统中，没有所谓的强一致性，都是最终一致性，只不过这个最终一致的时间窗口小到业务可以容忍的范围下。

由于在处理地理分布数据时，网络分区是不可避免的，我们通常会选择运行用户看到副本之间的数据差异的设计，也就是优先考虑可用性。也就是CAP原理的综合选择。

如果我们想处理好多个副本之间数据差异的分歧，我们就需要设立一种策略。这个策略允许副本数据在何时被认可，何时被拒绝。

对于策略，首先想到的是数据顺序策略，后来的数据覆盖前一个数据，顺序可以通过时间戳或发号器的方式解决。

如果逻辑上发现新的请求已经滞后了，直接聚焦请求即可。

另一种策略是因果一致性，就是在业务逻辑上推导出一致性，应该先有什么，再有什么。比如先有文章，才能再有评论，而不是先有了评论，还没有文章。

处理一致性背后有一个好用的原则，就是处理的顺序性，比如有时候单线程处理状态数据顺序性，比多线程处理状态数据的顺序性要简单很多，而且业务效果差不多，所以不是任何时候都需要并行、异步的。

在设计基础的分布式组件时，同样需要注意高内聚、低耦合、SOLID原则。

比如，分布式基础设施api的设计，需要极高的收敛性，因为分布式面对的问题都是非功能性的问题，对调用方越透明越好。

如果api不够收敛，调用方式就会多样，也就会导致各种不同的实现差异和使用差异。

好的api可以见名知意，也更利于单测，因为底层能力的可用性是非常重要的，传统qa的冒烟测试是不够的。

猜你喜欢

【acm】【数论】阶和原根
Oracle临时表死锁一次不可思议的故障（oracle 临时表锁死）
蓝桥杯2022年第十三届省赛真题-X进制减法(看不懂我也没办法)
Thinkphp5学习008-项目案例-学生列表模板设计
使用 Urch 让 Ubuntu 原生远程控制功能稳定可靠
让Redis助力数据库优化（数据库 redis的作用）
为何不采用Redis队列（为什么不用redis队列）
安装了anaconda 还需要单独安装pycharm吗_ugnx10安装教程
Inputstream_java input
Oracle中管理杀死进程的权限实现（oracle中杀进程权限）
使用Linux播放WAV音频文件的简单方法（linux播放wav）
JS生成随机数（random()函数）
python怎样读取文件夹里的图片_python图片处理及识别
HiveSQL中的JOIN ON条件，你理解对了吗？
实现Redis数据存取最佳实践（怎么存取redis数据）
股权头上一把刀：企业家、家族与企业的命运
解决Oracle数据库重新导入问题（oracle重新导入数据）

zl程序教程

当前栏目

分布式系统多副本设计的挑战

相关文章