我们都在讨论分布式,特别是面试的时候,不管是招初级软件工程师还是高级,都会要求懂分布式,甚至要求用过。传得沸沸扬扬的分布式到底是什么东东,有什么优势?
风遁·螺旋手里剑
看过火影
的同学肯定知道漩涡鸣人
的招牌忍术:多重影分身之术
。
过程和心得
:多个分身的感受和经历都是相通的。比如 A 分身去找卡卡西(鸣人的老师)请教问题,那么其他分身也会知道 A 分身问的什么问题。漩涡鸣人
有另外一个超级厉害的忍术,需要由几个影分身完成:风遁·螺旋手里剑。
这个忍术是靠三个鸣人一起协作完成的。这两个忍术和分布式有什么关系?
案例:
哨兵机制
,可以知道集群环境下哪台 Redis
节点挂了。Leader 选举机制
,如果某个节点挂了,会从 follower
中重新选举一个 leader 出来。(leader 作为写数据的入口,follower 作为读的入口)那多重影分身之术
有什么缺点?
要理解分布式系统,主要需要明白一下2个方面:
1.分布式系统一定是由多个节点组成的系统。其中,节点指的是计算机服务器,而且这些节点一般不是孤立的,而是互通的。
2.这些连通的节点上部署了我们的节点,并且相互的操作会有协同。
不同的业务模块部署在不同的服务器上或者同一个业务模块分拆多个子业务,部署在不同的服务器上,解决高并发的问题,提供可扩展性以及高可用性,业务中使用分布式的场景主要有分布式存储以及分布式计算。分布式存储中可以将数据分片到多个节点上,不仅可以提高性能(可扩展性),同时也可以使用多个节点对同一份数据进行备份。
3.简单概括
是一种工作方式
若干独立计算机的集合,这些计算机对于用户来说就像单个相关系统
将不同的业务分布在不同的地方
1.分布性:服务部署空间具有多样性
2.并发性:程序运行过程中,并发性操作是很常见的。比如同一个分布式系统中的多个节点,同时访问一个共享资源。数据库、分布式存储
3.无序性:进程之间的消息通信,会出现顺序不一致问题
集群:复制模式,每台机器做一样的事。
分布式:两台机器分工合作,每台机器做的不一样。
集群相关tips:无论你是 web容器集群还是db集群,按照所要解决的问题可以分为如下几种:
高可用集群,提升可用性,(容灾、故障转移), 部署方式有以下三种
高可用集群的另外一个特点是共享资源,多个节点服务器共享一个存储资源,该存储可在不同节点之间转移。
负载均衡集群,LoadBalance, 提升吞吐量
并行计算群集,Performance, 减少应答时间
并行计算分为时间计算和空间计算:
这个时代(20世纪70年代末期到80年代初)的计算机计算能力非常有限(内存只有几百K),所以科学家就寻求通过多台计算机来完成一个功能,这个时代被称为原始分布式时代。
但是这个时代对分布式系统的尝试并没有取得太大的成绩。但也不是一无所成,这个时代的探索,出现了远程调用,分布式文件系统的雏型,为后续计算机学科的发展奠定了基础。
IBM院士Kyle Brown事后曾评价道,“这次尝试最大的收获就是对RPC、DFS等概念的开创,以及得到了一个价值千金的教训:某个功能能够进行分布式,并不意味着它就应该进行分布式,强行追求透明的分布式操作,只会自寻苦果。”
无论是DCE还是稍后出现的CORBA,从结果来看,都不能称得上成功,因为将一个系统拆分到不同的机器中运行,为解决这样做带来的服务发现、跟踪、通信、容错、隔离、配置、传输、数据一致性和编码复杂度等方面的问题所付出的代价已远远超过了分布式所取得的收益。
DCE是当时业界主流的计算机厂商一起参与,共同制订了名为“分布式运算环境[2]”(Distributed Computing Environment,DCE)的分布式技术体系。
DCE包含一套相对完整的分布式服务组件规范与参考实现,譬如源自NCA(惠普公司)的远程服务调用规范(Remote Procedure Call,RPC),当时被称为DCE/RPC,它与后来Sun公司向互联网工程任务组(Internet Engineering Task Force,IETF)提交的基于通用TCP/IP协议的远程服务标准ONC RPC被认为是现代RPC的共同鼻祖。
源自AFS(卡内基梅隆大学提出)的分布式文件系统(Distributed File System,DFS)规范,当时被称为DCE/DFS;
源自Kerberos(麻省理工大学提出)的服务认证规范;
还有时间服务、命名与目录服务,甚至现在程序中很常用的通用唯一识别符(Universally Unique Identifier,UUID)也是在DCE中发明出来的。
保持接口与实现的简单性,比系统的任何其他属性,包括准确性、一致性和完整性,都来得更加重要。
但是基于那个时代的计算机技术,想要发展符合UNIX设计哲学的分布式技术不太可能,只能是一种美好的愿景。
20世纪80年代正是摩尔定律开始稳定发挥作用的黄金时期,微型计算机的性能以每两年增长一倍的惊人速度提升,硬件算力束缚软件规模的链条很快变得松动,信息系统进入以单台或少量几台计算机即可作为服务器来支撑大型信息系统运作的单体时代,且在很长的一段时间内,单体都将是软件架构的绝对主流。
在很多书中都将单体架构作为一种反派角色出现,我甚至在面试过程中遇到过面试官在还没了解项目需求的情况下就直接说你们这种单体架构是有问题的。其实没有放之四海而皆准的架构,单体架构在某些情况下可能是最优选择,单体架构更不应该被打上反派角色。
比如,对于小型系统,单台机器就足以支撑其良好运行的系统,不仅易于开发、测试、部署,且由于系统中各个功能、模块、方法的调用过程都是进程内调用,不会发生进程间通信(Inter-ProcessCommunication,IPC[1]),因此连运行效率也是最高的。
那些不顾需求现状,为了微服务而微服务的开发者才是真正的“反派”。
单体系统的不足,必须在软件的性能需求超过了单机、软件的开发人员规模明显超过了“2 Pizza Team”(6~12人)范畴的前提下才有讨论的价值。
上面讲到的是单体架构的优点,在互联网时代(复杂系统),单体架构存在两点明显的缺点:
单体架构的缺点不在于不可拆分、难以扩展(这种想法不完全正确)。
微服务取代单体系统成为潮流趋势的根本原因,笔者认为最重要的原因是:单体系统很难兼容“Phoenix”的特性。这种架构风格潜在的要求是希望系统的每一个部件、每一处代码都尽量可靠,尽量不出或少出缺陷。然而战术层面再优秀,也很难弥补战略层面的不足。单体系统靠高质量来保证高可靠性的思路,在小规模软件上还能运作良好,但当系统规模越来越大时,交付一个可靠的单体系统就变得越来越具有挑战性。如本书前言所说,正是随着软件架构演进,构建可靠系统的观念从“追求尽量不出错”到正视“出错是必然”的转变,才是微服务架构得以挑战并逐步取代单体架构的底气所在。
SOA架构,面向服务的架构。其包含的许多概念、思想都能在今天的微服务中找到对应的身影了,譬如服务之间的松散耦合、注册、发现、治理,隔离、编排等。
SOA不能简单视为一种架构风格,而是一套软件设计的基础平台。
但是SOA技术最终还是偃旗息鼓了,最主要的原因还是SOA基于SOAP协议,SOAP协议过于严格的规范定义带来过度的复杂性,而构建在SOAP基础之上的ESB、BPM、SCA、SDO等诸多上层建筑,进一步加剧了这种复杂性。
SOA自诞生的那一天起,就已经注定只能是少数系统阳春白雪式的精致奢侈品,它可以实现多个异构大型系统之间的复杂集成交互,却很难作为一种具有广泛普适性的软件架构风格来推广。SOA最终没有获得成功的致命伤与当年的EJB如出一辙,尽管有Sun和IBM等一众巨头在背后力挺,EJB仍然败于以Spring、Hibernate为代表的“草根框架”,可见一旦脱离人民群众,终究会淹没在群众的海洋之中,连信息技术也不曾例外。
SAO的设计理念和简单透明相悖甚远。
微服务架构是一种通过多个小型服务组合来构建单个应用的架构风格,**这些服务围绕业务能力而非特定的技术标准来构建。各个服务可以采用不同的编程语言、不同的数据存储技术,运行在不同的进程之中。**服务采取轻量级的通信机制和自动化的部署机制实现通信与运维。
微服务和SOA的区别
从以上微服务的定义和特征中,你应该可以明显地感觉到微服务追求的是更加自由的架构风格,摒弃了几乎所有SOA里可以抛弃的约束和规定,提倡以“实践标准”代替“规范标准”。
可是,如果没有了统一的规范和约束,以前SOA解决的那些分布式服务的问题,不也就一下子都重新出现了吗?的确如此,对于服务的注册发现、跟踪治理、负载均衡、故障隔离、认证授权、伸缩扩展、传输通信、事务处理等问题,微服务中将不再有统一的解决方案。
即使只讨论Java范围内会使用到的微服务,仅一个服务间远程调用问题,可以列入解决方案的候选清单的就有RMI(Sun/Oracle)、Thrift(Facebook)、Dubbo(阿里巴巴)、gRPC(Google)、Motan2(新浪)、Finagle(Twitter)、brpc(百度)、Arvo(Hadoop)、JSON-RPC、REST,等等;仅一个服务发现问题,可以选择的就有Eureka(Netflix)、Consul(HashiCorp)、Nacos(阿里巴巴)、ZooKeeper(Apache)、etcd(CoreOS)、CoreDNS(CNCF),等等。其他领域也与此类似。
微服务所带来的自由是一把双刃开锋的宝剑,当软件架构者拿起这把宝剑,一刃指向SOA定下的复杂技术标准,将选择的权力夺回的同一时刻,另外一刃也正朝着自己映出冷冷的寒光。
在微服务时代,软件研发本身的复杂度确实有所降低。一个简单服务,并不见得会同时面临分布式中的所有问题,也就没有必要背上SOA那百宝袋般沉重的技术包袱。需要解决什么问题,就引入什么工具;团队熟悉什么技术,就使用什么框架。此外,像Spring Cloud这样胶水式的全家桶工具集,通过一致的接口、声明和配置,进一步屏蔽了源自具体工具、框架的复杂性,降低了在不同工具、框架之间切换的成本,所以,作为一个普通的服务开发者,作为一个“螺丝钉”式的程序员,微服务架构是友善的。
可是,微服务对架构者却是满满的“恶意”,对架构能力的要求已提升到史无前例的程度。技术架构者的第一职责就是决策权衡,有利有弊才需要决策,有取有舍才需要权衡,如果架构者本身的知识面不足以覆盖所需要决策的内容,不清楚其中利弊,恐怕将无可避免地陷入选择困难症的境遇之中。微服务时代充满着自由的气息,微服务时代充斥着迷茫的选择。
容器技术给分布式架构提供了新思路。
当虚拟化的基础设施从单个服务的容器扩展至由多个容器构成的服务集群、通信网络和存储设施时,软件与硬件的界限便已模糊。一旦虚拟化的硬件能够跟上软件的灵活性,那些与业务无关的技术性问题便有可能从软件层面剥离,悄无声息地在硬件基础设施之内解决,让软件得以只专注业务,真正围绕业务能力构建团队与产品。
从软件层面独立应对分布式架构所带来的各种问题,发展到应用代码与基础设施软、硬一体,合力应对架构问题,这个新的时代现在常被媒体冠以“云原生”这个颇为抽象的名字加以宣传。云原生时代追求的目标与此前微服务时代追求的目标并没有本质改变,都是在服务架构演进的历史进程中,所以笔者更愿意称云原生时代为“后微服务时代”。
Kubernetes成为容器战争胜利者标志着后微服务时代的开启,但Kubernetes仍然没能完美解决全部的分布式问题。
微服务A调用了微服务B的两个服务,称为B1和B2,假设B1表现正常但B2出现了持续的500错,那在达到一定阈值之后就应该对B2进行熔断,以避免产生雪崩效应。如果仅在基础设施层面来处理,这会遇到一个两难问题,切断A到B的网络通路会影响B1的正常调用,不切断则会持续受B2的错误影响。
为了解决这一类问题,虚拟化的基础设施很快完成了第二次进化,引入了今天被称为“服务网格”(Service Mesh)的“边车代理模式”(Sidecar Proxy)。
在虚拟化场景中的边车指的是由系统自动在服务容器(通常是指Kubernetes的Pod)中注入一个通信代理服务器,相当于那个挎斗,以类似网络安全里中间人攻击的方式进行流量劫持,在应用毫无感知的情况下,悄然接管应用所有对外通信。这个代理除了实现正常的服务间通信外(称为数据平面通信),还接收来自控制器的指令(称为控制平面通信),根据控制平面中的配置,对数据平面通信的内容进行分析处理,以实现熔断、认证、度量、监控、负载均衡等各种附加功能。通过边车代理模式,便实现了既不需要在应用层面加入额外的处理代码,也提供了几乎不亚于程序代码的精细管理能力。
无服务现在还没有一个特别权威的“官方”定义,但它的概念并没有前面提到的各种架构那么复杂,本来无服务也是以“简单”为主要卖点的,它只涉及两块内容:后端设施(Backend)和函数(Function)。
讲到分布式
不得不知道 CAP
定理和 Base
理论,这里给不知道的同学做一个扫盲。
在理论计算机科学中,CAP 定理指出对于一个分布式计算系统来说,不可能同时满足以下三点:
一致性(Consistency)
可用性(Availability)
分区容错性(Partition tolerance)
Consistency 和 Availability 的矛盾
CAP原则的精髓就是要么AP,要么CP,要么AC,但是不存在CAP。如果在某个分布式系统中数据无副本, 那么系统必然满足强一致性条件, 因为只有独一数据,不会出现数据不一致的情况,此时C和P两要素具备,但是如果系统发生了网络分区状况或者宕机,必然导致某些数据不可以访问,此时可用性条件就不能被满足,即在此情况下获得了CP系统,但是CAP不可同时满足。
BASE
是 Basically Available
(基本可用)、Soft state
(软状态)和 Eventually consistent
(最终一致性)三个短语的缩写。BASE
理论是对 CAP
中 AP
的一个扩展,通过牺牲强一致性来获得可用性,当出现故障允许部分不可用但要保证核心功能可用,允许数据在一段时间内是不一致的,但最终达到一致状态。满足 BASE
理论的事务,我们称之为柔性事务
。
消息队列如何做分布式?
将消息队列里面的消息分摊到多个节点(指某台机器或容器)上,所有节点的消息队列之和就包含了所有消息。
所谓幂等性就是无论多少次操作和第一次的操作结果一样。如果消息被多次消费,很有可能造成数据的不一致。
幂等性详细可以看我的另一篇文章:https://beaumon.cf/2022/09/21/liao-liao-mi-deng-xing/
RabbitMQ
、RocketMQ
、Kafka
消息队列中间件都有可能出现消息重复消费问题。这种问题并不是 MQ 自己保证的,而是需要开发人员来保证。
这几款消息队列中间都是是全球最牛的分布式消息队列,那肯定考虑到了消息的幂等性。我们以 Kafka 为例,看看 Kafka 是怎么保证消息队列的幂等性。
Kafka 有一个 偏移量
的概念,代表着消息的序号,每条消息写到消息队列都会有一个偏移量,消费者消费了数据之后,每过一段固定的时间,就会把消费过的消息的偏移量提交一下,表示已经消费过了,下次消费就从偏移量后面开始消费。
坑:
当消费完消息后,还没来得及提交偏移量,系统就被关机了,那么未提交偏移量的消息则会再次被消费。
如下图所示,队列中的数据 A、B、C,对应的偏移量分别为 100、101、102,都被消费者消费了,但是只有数据 A 的偏移量 100 提交成功,另外 2 个偏移量因系统重启而导致未及时提交。
系统重启,偏移量未提交
重启后,消费者又是拿偏移量 100 以后的数据,从偏移量 101 开始拿消息。所以数据 B 和数据 C 被重复消费。
如下图所示:
重启后,重复消费消息
微信支付结果通知场景
插入数据库场景
写 Redis 场景
Set
操作天然幂等性,所以不用考虑 Redis 写数据的问题。其他场景方案
坑:
消息丢失会带来什么问题?如果是订单下单、支付结果通知、扣费相关的消息丢失,则可能造成财务损失,如果量很大,就会给甲方带来巨大损失。
那消息队列是否能保证消息不丢失呢?答案:否。主要有三种场景会导致消息丢失。
消息队列之消息丢失
生产者丢失消息
解决方案
对于 RabbitMQ 来说,生产者发送数据之前开启 RabbitMQ 的事务机制channel.txselect
,如果消息没有进队列,则生产者收到异常报错,并进行回滚 channel.txRollback
,然后重试发送消息;如果收到了消息,则可以提交事务 channel.txCommit
。但这是一个同步的操作,会影响性能。
我们可以采用另外一种模式:confirm
模式来解决同步机制的性能问题。每次生产者发送的消息都会分配一个唯一的 id,如果写入到了 RabbitMQ 队列中,则 RabbitMQ 会回传一个 ack
消息,说明这个消息接收成功。如果 RabbitMQ 没能处理这个消息,则回调 nack
接口。说明需要重试发送消息。
也可以自定义超时时间 + 消息 id 来实现超时等待后重试机制。但可能出现的问题是调用 ack 接口时失败了,所以会出现消息被发送两次的问题,这个时候就需要保证消费者消费消息的幂等性。
事务模式
和 confirm
模式的区别:
消息队列丢失消息
消息队列的消息可以放到内存中,或将内存中的消息转到硬盘(比如数据库)中,一般都是内存和硬盘中都存有消息。如果只是放在内存中,那么当机器重启了,消息就全部丢失了。如果是硬盘中,则可能存在一种极端情况,就是将内存中的数据写到硬盘的期间,消息队列出问题了,未能将消息持久化到硬盘。
解决方案
Queue
的时候将其设置为持久化。deliveryMode
设置为 2 。confirm
模式,可以重试发送消息。消费者丢失消息
消费者刚拿到数据,还没开始处理消息,结果进程因为异常退出了,消费者没有机会再次拿到消息。
解决方案
ack
,每次生产者将消息写入消息队列后,就自动回传一个 ack
给生产者。ack
,告诉消息队列我处理完了。问题: 那这种主动 ack
有什么漏洞?如果 主动 ack
的时候挂了,怎么办?
则可能会被再次消费,这个时候就需要幂等处理了。
问题: 如果这条消息一直被重复消费怎么办?
则需要有加上重试次数的监测,如果超过一定次数则将消息丢失,记录到异常表或发送异常通知给值班人员。
RabbitMQ 丢失消息的处理方案
场景:Kafka
的某个 broker(节点)宕机了,重新选举 leader (写入的节点)。如果 leader 挂了,follower 还有些数据未同步完,则 follower 成为 leader 后,消息队列会丢失一部分数据。
解决方案
replication.factor
参数,值必须大于 1,要求每个 partition 必须有至少 2 个副本。min.insyc.replicas
必须大于 1,表示一个 leader 至少一个 follower 还跟自己保持联系。
坑:
用户先下单成功,然后取消订单,如果顺序颠倒,则最后数据库里面会有一条下单成功的订单。
RabbitMQ 场景:
RabbitMQ消息乱序场景
RabbitMQ 消息乱序场景
RabbitMQ 解决方案:
RabbitMQ 解决方案
Kafka 场景:
Kafka 消息丢失场景
Kafka 解决方案:
Kafka 消息乱序解决方案
消息积压:消息队列里面有很多消息来不及消费。
场景 1: 消费端出了问题,比如消费者都挂了,没有消费者来消费了,导致消息在队列里面不断积压。
场景 2: 消费端出了问题,比如消费者消费的速度太慢了,导致消息不断积压。
坑:比如线上正在做订单活动,下单全部走消息队列,如果消息不断积压,订单都没有下单成功,那么将会损失很多交易。
消息队列之消息积压
解决方案:解铃还须系铃人
消息积压解决方案
坑:
RabbitMQ 可以设置过期时间,如果消息超过一定的时间还没有被消费,则会被 RabbitMQ 给清理掉。消息就丢失了。
消息过期失效
解决方案:
消息过期失效解决方案
坑:
当消息队列因消息积压导致的队列快写满,所以不能接收更多的消息了。生产者生产的消息将会被丢弃。
解决方案:
Purge Message
操作。在高频访问数据库的场景中,我们会在业务层和数据层之间加入一套缓存机制,来分担数据库的访问压力,毕竟访问磁盘 I/O 的速度是很慢的。比如利用缓存来查数据,可能5ms就能搞定,而去查数据库可能需要 50 ms,差了一个数量级。而在高并发的情况下,数据库还有可能对数据进行加锁,导致访问数据库的速度更慢。
分布式缓存我们用的最多的就是 Redis了,它可以提供分布式缓存服务。
哨兵机制
Redis 可以实现利用哨兵机制
实现集群的高可用。那什么是哨兵机制呢?
sentinel
,中文名:哨兵
。
坑:
当主节点发生故障时,需要进行主备切换,可能会导致数据丢失。
主节点异步同步数据给备用节点的过程中,主节点宕机了,导致有部分数据未同步到备用节点。而这个从节点又被选举为主节点,这个时候就有部分数据丢失了。
主节点所在机器脱离了集群网络,实际上自身还是运行着的。但哨兵选举出了备用节点作为主节点,这个时候就有两个主节点都在运行,相当于两个大脑在指挥这个集群干活,但到底听谁的呢?这个就是脑裂。
那怎么脑裂怎么会导致数据丢失呢?如果发生脑裂后,客户端还没来得及切换到新的主节点,连的还是第一个主节点,那么有些数据还是写入到了第一个主节点里面,新的主节点没有这些数据。那等到第一个主节点恢复后,会被作为备用节点连到集群环境,而且自身数据会被清空,重新从新的主节点复制数据。而新的主节点因没有客户端之前写入的数据,所以导致数据丢失了一部分。
避坑指南
注意:缓存雪崩
、缓存穿透
、缓存击穿
并不是分布式所独有的,单机的时候也会出现。所以不在分布式的坑之列。
分库、分表、垂直拆分和水平拆分
分库: 因一个数据库支持的最高并发访问数是有限的,可以将一个数据库的数据拆分到多个库中,来增加最高并发访问数。
分表: 因一张表的数据量太大,用索引来查询数据都搞不定了,所以可以将一张表的数据拆分到多张表,查询时,只用查拆分后的某一张表,SQL 语句的查询性能得到提升。
分库分表优势:分库分表后,承受的并发增加了多倍;磁盘使用率大大降低;单表数据量减少,SQL 执行效率明显提升。
水平拆分: 把一个表的数据拆分到多个数据库,每个数据库中的表结构不变。用多个库扛更高的并发。比如订单表每个月有500万条数据累计,每个月都可以进行水平拆分,将上个月的数据放到另外一个数据库。
垂直拆分: 把一个有很多字段的表,拆分成多张表到同一个库或多个库上面。高频访问字段放到一张表,低频访问的字段放到另外一张表。利用数据库缓存来缓存高频访问的行数据。比如将一张很多字段的订单表拆分成几张表分别存不同的字段(可以有冗余字段)。
分库、分表的方式:
坑:
分库分表是一个运维层面需要做的事情,有时会采取凌晨宕机开始升级。可能熬夜到天亮,结果升级失败,则需要回滚,其实对技术团队都是一种煎熬。
怎么做成自动的来节省分库分表的时间?
坑:
分库分表看似光鲜亮丽,但分库分表会引入什么新的问题呢?
垂直拆分带来的问题
水平拆分带来的问题
为什么分库分表需要唯一 ID
坑:
唯一 ID 的生成方式有 n 种,各有各的用途,别用错了。
生成唯一 ID 的原则
生成唯一 ID 的几种方式
数据库自增 ID。每个数据库每增加一条记录,自己的 ID 自增 1。
适用 UUID
唯一 ID。
B+
树节点到内存,插入记录后将整个节点写回磁盘,当记录占用空间很大的时候,性能很差。获取系统当前时间作为唯一 ID。
Twitter 的 snowflake
(雪花算法):Twitter 开源的分布式 id 生成算法,64 位的 long 型的 id,分为 4 部分
snowflake 算法
基本原理和优缺点:
1 bit:不用,统一为 0
41 bits:毫秒时间戳,可以表示 69 年的时间。
10 bits:5 bits 代表机房 id,5 个 bits 代表机器 id。最多代表 32 个机房,每个机房最多代表 32 台机器。
12 bits:同一毫秒内的 id,最多 4096 个不同 id,自增模式。
优点:
缺点:
百度的 UIDGenerator
算法。
UIDGenerator 算法
美团的 Leaf-Snowflake
算法。
获取 id 是通过代理服务访问数据库获取一批 id(号段)。
双缓冲:当前一批的 id 使用 10%时,再访问数据库获取新的一批 id 缓存起来,等上批的 id 用完后直接用。
优点:
缺点:
怎么选择:一般自己的内部系统,雪花算法足够,如果还要更加安全可靠,可以选择百度或美团的生成唯一 ID 的方案。
怎么理解事务?
坑
:如何保证分布式中的事务正确执行,是个大难题。
分布式事务的几种主要方式
XA 方案原理
XA 方案
TCC 方案
应用场景:
缺点:
Sega 方案
基本原理:
适用场景:
优势:
缺点:
可靠消息一致性方案
可靠消息一致性方案
基本原理:
RocketMQ
来实现消息事务。prepared
(预备状态,半消息),该消息无法被订阅。prepared
消息改为 commit
(提交事务消息),B 系统就可以订阅到消息了。prepared
的消息,回调 A 系统,让 A 系统告诉 MQ 本地事务处理得怎么样了,是继续等待还是回滚。Rollback
信号,丢弃消息。若执行本地事务成功,则 MQ 收到 Commit
信号。最大努力通知方案
基本原理:
最大努力服务
会定时尝试重新调用系统 B,尽自己最大的努力让系统 B 重试,重试多次后,还是不行就只能放弃了。转到开发人员去排查以及后续人工补偿。几种方案的选择
本文作者:wjc
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC 许可协议。转载请注明出处!