2.c. 高容错分布式高性能爬虫系统

ZooKeeper是一种容错协调服务,用作大型分布式框架的一部分,用于执行先决策,同步和故障识别等基本任务。 此部分显示了对类似ZooKeeper的BFT收益的评估,该收益依赖于BFT-SMaRt,MinBFT和CheapBFT分别用于请求传播。 ZooKeeper使客户能够在信息中心中存储和恢复(通常很少)数据块,这些信息中心在各种级别的树结构中受到监控。 我们评估了各种读取和撰写任务混合的三种执行方式。 在所有情况下,1,000个客户不止一次地访问各种信息中心,仔细阅读并撰写一个字节到两千字节之间任意大小的信息。结果表明,在执行阶段(即ZooKeeper应用程序)执行真正的工作(而不仅仅是发送答案),组合约定对框架执行的影响减弱了。 结果,三个ZooKeeper使用中的每一个都提供了比较吞吐量来组成压倒性的工作负载。尽管如此,资产印象在变化之间存在根本对比:与基于MinBFT的ZooKeeper相比,基于CheapBFT的变体中的复制品可以节省7-12%的CPU,并且可以通过系统减少12-20%的信息。 与BFT-SMaRt执行相比,基于CheapBFT的ZooKeeper的资产资金利用23-42%(CPU)。