从分布式一致性算法到区块链共识机制

2013 年 11 月 17 日

PBFT算法正常运作过程

(http://www.pmg.csail.mit.edu/papers/bft-tocs.pdf）

PBFT基于异步网络模型做到了安全性，但需要依赖消息超时时间来做周期性的同步。因为采用了leader-based方案，消息同步过程很快，也做到了完全的顺序写入。但是leader的重新选举过程很困难，某些恶意leader可以在临近timeout窗口期时才发送消息，这样会导致系统严重缓慢。而利用这一不利特点，可以攻击网络使正确的leader看起来也出问题，从而导致无穷无尽的leader选举过程。

PBFT与Paxos、Raft相比，所能处理应对的问题更为完备，除了能应对故障崩溃类错误之外，还能处理存在“捣乱者”的恶意篡改类拜占庭错误。然而，从所采取的折中权衡策略来看，PBFT仍然与Paxos、Raft很类似。从FLP的视角来看，PBFT同样更关注容错性和安全性，而弱化了liveness。从CAP的角度，PBFT同样强调网络分区容错与一致性，而弱化了可用性。

即便如此，只要故障或作恶节点不超过总节点数的1/3，PBFT在实践中还是有效可行的。而拜占庭容错算法（BFT）也不止PBFT一种，BFT类算法也在不断进化，如Lamport就提出过改进版的Paxos算法BFT Paxos以处理拜占庭错误，近来也有人结合PBFT与Raft提出了 BFT Raft 算法。但从问题领域与原理机制上来说，仍然与原有的思路和框架较为类似，不再一一赘述。

适用场景

从Paxos、Raft到PBFT，再到目前层出不穷的Paxos变种、Raft变种、BFT类混合新算法，分布式一致性算法在不断发展、完善、进化。甚至各大公司也在结合自己的业务实际，研发各种适合自己场景的分布式一致性算法。这些算法虽然并不完美，但都在适合自己场景的业务实践中发挥着重大作用。那么这些算法的适用场景到底是什么？自身又有哪些局限性呢？

对于Paxos、Raft这类非BFT算法而言，只能处理机器硬件故障，而无法处理存在作恶节点的情况。显然，这类非BFT算法只能运行在非常可信的网络环境中，比如公司内部网络中，在这样的较为封闭的网络中，访问需要严格授权，从而保证各个节点的身份是已知的、可信的，基本排除了节点作恶的可能性，这类算法才能有效运行。

而BFT类算法，对于网络环境的要求不再那么苛刻，即使存在作恶节点，只要作恶节点数目不超过总节点数的1/3，整个系统依然是安全的。但问题就在于，你怎么知道网络中到底有多少作恶节点？作恶节点占总节点的比例到底有多高？显然，如果网络的接入是需要权限控制的，那么这个问题就相对容易解决。比如10家业务关联公司组成的联盟网络，只有这10家授权的公司才能访问，即便里面有个别公司（少于3家）蓄意作恶、妄图篡改数据，整个系统仍然是安全可靠的。在这种permissoned网络中，隐含着对于网络中可能作恶节点数目的预估，即便真的作恶了，也能方便快速地定位出其真实身份，间接提高了网络的安全性。

局限性

然而，在permissonless（开放权限、无权限控制）的公有网络中，BFT类算法很可能会有问题。因为，如果分布式网络是开放的，谁都能进进出出，而接入网络系统的成本又很低，那么没人知道网络中到底可能有多少作恶节点，即便真有作恶，也很难定位出真实身份。比如，一种比较典型的女巫攻击（Sybil attack）场景，作恶者可以通过大量伪造身份来控制集群中的大量节点，从而控制整个分布式网络。

另外，BFT类算法最大的局限性还在于仅能协调少量的节点，如几个到几十个，若节点数目成千上万，整个系统的性能将会非常低下，甚至可能无法达成共识，从而影响系统的liveness和可用性。想必大家已经注意到，在PBFT的三阶段协议中，都需要多点广播（multicast）：在pre-prepare阶段，主节点向所有备节点广播；在prepare节点，备节点向其他所有节点广播；在commit阶段，各个节点向其他所有节点广播。由此可见，通讯次数的数量级是节点数目的平方，当节点数目庞大时，这种两两广播的机制将会是灾难，系统几乎不可能在较短时间内达成一致。

综上可知，这些传统的分布式一致性算法，无论是Paxos、Raft，还是PBFT，通常适用于存在权限控制的、节点数目较少的、较为可信的分布式网络环境中。

在联盟链中的应用

事实上，这些传统的一致性算法在区块链时代也焕发了新的活力，得到了进一步的认识和使用。在网络环境较为可信的联盟链场景中，这些一致性算法得到了大量的应用。联盟链因如下特点而被业内看好其应用前景：

接入需授权：联盟链并不完全对外开放，一般只有几家或几十家企业组成，只有经过授权的公司或组织才能加入到网络中，并且一般是实名认证参与。
数据保护：联盟链信息数据并不完全对外开放，而只有授权方可见。这对于保护行业或公司的数据安全比较重要，如跨境转账中的交易信息等对于银行业至关重要、链上税务系统中的税务信息也很敏感。
可监管：联盟链中一般可以设立监管观察节点，对于敏感信息进行审计与监管，满足合法性要求。

在当前阶段，联盟链不失为快速落地、解决行业痛点的不错选择，也是对区块链后续发展的积极探索。因为联盟链需要授权才能参与，这其实相当于已经提前建立了相当程度的信任，网络环境较为可信，网络中的恶意行为和攻击行为发生的可能性都非常低，并且即便发生也很容易快速追责。因此在这样的场景下，传统的一致性算法也可以得到应用。比如：

HyperLedger Fabric(https://www.hyperledger.org/projects/fabric ) 在v1.0中可以使用Solo和Kafka pubsub系统来实现ordering；在v1.4版本也引入了Raft算法

(https://hyperledger-fabric.readthedocs.io/en/release-1.4/orderer/ordering_service.html ）；目前这些均是CFT类算法，而raft的引入主要也是为后期支持BFT类算法铺平道路（ Raft is the first step toward Fabric’s development of a byzantine fault tolerant (BFT) ordering service. As we’ll see, some decisions in the development of Raft were driven by this. ）。
R3 Corda

(https://www.r3.com/corda-platform/ )也采用了可插拔式的共识算法设计，不仅可以选择高速度、高可信环境的Raft算法，也可以选择低速度、低可信环境的BFT类算法

(https://docs.corda.net/key-concepts-notaries.html ）。
以太坊企业联盟EEA

(https://entethalliance.org/ )也支持BFT类算法、Raft算法，以及PoET算法

(https://entethalliance.org/wp-content/uploads/2018/05/EEA-TS-0001-0-v1.00-EEA-Enterprise-Ethereum-Specification-R1.pdf ）。
蚂蚁区块链BaaS平台

（https://tech.antfin.com/blockchain )也采用了PBFT算法。

Permissionless网络的挑战

那么我们忍不住要问，如果网络是完全开放的、无需权限许可的（permissionless），谁都可以随时进出，那么整个系统还能在有限的时间内达成一致吗？如果网络中的节点数目不再是几十个，而是一万个，那么又该如何协调这些数量庞大的节点呢？

在回答这些问题之前，其实更应该反问：为什么需要网络是完全开放、无需许可的？什么场景会需要一万个节点？这到底是伪需求，还是真实存在的场景？这个问题的答案直接关系到区块链中公有链的存在意义，而要回答这个问题，我们需要回到分布式系统的初心和目的。

去中心化的意义

我们为什么需要分布式系统？显然，这个问题不难回答，通常的理解，分布式系统可以增强容错能力（Fault tolerance)，毕竟系统依赖众多不同的节点，而众多节点同时失败的可能性远低于一个节点发生故障的可能性；另外，分布式系统还可以抵御攻击（Attack resistance），毕竟攻击或摧毁众多节点的难度远大于攻击单点的难度。

然而，以上这些依然是局限在物理硬件的维度，都是用来降低机器物理硬件发生故障的可能性，而没有考虑“人”的因素。如果一个系统足够重要，比如电子货币系统等，除了考虑机器故障之外，更多需要考虑的是人的因素。部署节点的人会不会故意作恶呢？如何防止系统内不同节点间的腐败串通呢？

如下图所示，以太坊创始人Vitalik Buterin曾经深入地探讨过去中心化的含义。如果说传统的分布式系统做到了architectural decentralization（系统有多少物理机器构成？系统能够容忍最多多少台机器同时故障？），考虑的是fault tolerance和attack resistance；那么现在我们需要考虑的是如何做到political decentralization，如何能够collusion resistance? 到底有多少人或组织最终控制了系统内的节点？如何防止这些人之间的腐败串通？如果说传统的分布式系统考虑的问题是网络或机器硬件的可信，那现在我们想考虑的是“人的可信”：是否存在这样的技术手段来防范人的作恶？如何确保重要网络中的大部分节点不被一个人或一个组织恶意控制？

M	T	W	T	F	S	S
« Jan
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

演道网

从分布式一致性算法到区块链共识机制

适用场景

局限性

在联盟链中的应用

Permissionless网络的挑战

去中心化的意义

About The Author

fenny

适用场景

局限性

在联盟链中的应用

Permissionless网络的挑战

去中心化的意义

Related Posts

About The Author

fenny