RabbitMQ可靠性与数据安全

祥祥要起飞

2021-07-18

RabbitMQ

可能发生的故障

基于消息的系统本质上具有分布式特性，因此可能以多种方式（有时这些方式较为隐蔽）遭遇故障。

网络相关问题

最常见的故障类型之一是网络连接问题及拥塞。除了简单的中断外，防火墙也可能因判断某些连接为闲置状态而主动断开它们，且网络故障的识别通常会有一定的滞后性。

服务器与客户端故障

除网络层面的问题外，无论是服务端还是客户端应用都有可能面临硬件故障或软件崩溃的风险。即使在客户端程序持续运行的情况下，逻辑错误也可能会导致通道异常或连接失效，此时需要客户端重新建立通道或连接，并执行相应的恢复操作。

其他潜在问题

值得注意的是，上述列出的故障情形并非全面覆盖所有可能性。例如，遗漏故障（即未能在预期的时间范围内响应）、性能退化以及由恶意软件或存在缺陷的应用程序造成的资源耗尽等问题均未被提及。这些问题往往需要借助于监控工具、性能指标分析以及健康状况检查来识别和解决。

连接中断处理

当客户端与RabbitMQ节点之间的TCP连接中断时，必须重新建立与代理服务器的新连接。在此过程中，先前通过旧连接打开的所有通道将自动关闭，并需要重新创建。
通常情况下，一旦发生连接中断，客户端会通过抛出异常或其他等效的语言机制得到通知。多数现代客户端库已经内置了自动重连功能；但如果这种默认的行为不符合特定需求，开发者可以通过定义专门针对连接中断事件的处理器来自定义恢复流程。

消息确认机制

在连接出现故障的情况下，客户端与服务器之间传输的消息可能处于编码/解码阶段、TCP缓冲区中或正处于网络传输过程中。这种情况下，未完成传输的消息将丢失，并需要重新发送。消息确认机制旨在使服务端和客户端能够准确地了解何时应当发起重传。
确认机制可以双向应用：
● 消费者确认：消费者向服务器发送确认信号，表明已成功接收并处理了消息。
● 发布者确认：服务器向消息生产者返回确认，表示该消息已被正确处理完毕。
尽管TCP协议确保数据包能够送达目的地并通过重传机制来保障传输的可靠性，但这一过程主要发生在网络层面上。相比之下，消息确认机制则工作于应用层面，它不仅验证了消息已经被对方接收到，还意味着接收方已经完全接手并对该消息负责。因此，在实际操作中，只有当消费者完成了所有必要的业务逻辑（例如保存到数据库、转发给其他系统等）之后才应该发出确认信号。
一旦消息被确认，中间件就可以安全地将其从队列中移除。同样地，当中间件成功接管了一条新消息后也会立即向发送方反馈一个确认信息。
启用消息确认(Confirm)机制能够保证每条消息至少会被投递一次。若不采用此机制，则在消息发布及消费流程中可能会发生丢失现象，从而只能实现最多一次的投递保障。

心跳检测用于维持TCP连接活跃度

在某些特定类型的网络问题场景下，比如数据包丢失可能导致TCP连接看似正常但实际上已经中断（如Linux操作系统默认配置下的超时时间为大约11分钟）。AMQP 0-9-1标准提供了心跳功能，这有助于应用程序快速识别出失效的连接以及无响应的节点，并且还可以避免因长时间无活动而被网络设备关闭的“空闲”TCP连接。

RabbitMQ中的数据安全保障

为了防止由于RabbitMQ服务端自身的问题导致的消息丢失（而非客户端应用引起），必须确保队列及其所包含的消息能够在面对节点重启、硬件故障等情况时依然保持其完整性和可用性。
部分RabbitMQ支持的协议允许应用程序对队列和消息的持久性进行控制。因此，对于关键数据，必须采用持久化队列，同时生产者需确保消息被标记为持久化的。

集群与队列内容复制

通过构建节点集群来提供冗余机制，从而能够容忍单个节点的故障。在RabbitMQ集群中，所有配置项（如交换机、绑定关系、用户账户等）都会在整个集群范围内进行同步复制。
仲裁队列、流以及超级流（分区流）属于具有数据复制特性的结构。其中，一个特定节点负责托管主副本，而其他节点则维护跟随副本。一旦主副本发生故障，跟随副本之一将被选举成为新的主副本。通常情况下，队列状态的变化（例如入队操作、跟踪投递状态及确认过程）主要由主副本处理，但某些操作也可以由跟随副本来完成。
无论主副本位于哪个节点上，整个集群中的所有节点都能够访问并查看队列及其流的状态信息。当正在进行主副本选举时，针对仲裁队列的消息传递将会暂停，直到新的主副本被成功选出为止。此过程中客户端不会感知到任何变化。
独占队列仅与其创建时所关联的连接相关联，因此它们不会被复制，并且在该连接断开后或所在节点重启时会自动消失。
如果消费者连接到了一个出现故障的节点，则需要按照标准恢复流程来进行重新连接。而对于那些连接到非故障节点上的消费者，在新主副本确定之后，RabbitMQ系统将自动为其重新注册订阅关系，无需执行额外的操作如手动重连或重新订阅。

生产者端的数据安全保障

当使用发布确认(Confirm)机制时，若生产者遇到通道或连接中断的情况，应当重新发送所有尚未接收到代理确认的消息。由于网络问题可能导致确认信号丢失，这可能会引起消息重复发送的问题。因此，建议消费端实现消息去重逻辑或具备幂等处理能力以应对这种情况。

确保消息路由

在某些应用场景中，可能需要保证消息能够被正确地路由至目标队列（尽管这不是强制要求——在发布/订阅模式下，如果没有订阅者存在，消息被丢弃是预期行为）。为了确保消息能够到达某个具体的已知队列，生产者可以直接声明该队列并直接向其发布消息。在涉及更复杂的路由规则时，如果希望验证至少有一个队列接收到了消息，可以设置mandatory标志位，这样当没有队列匹配时，服务器将以basic.return方法的形式返回给客户端一条包含错误代码和描述的信息。
此外值得注意的是，在向集群内节点发送消息的过程中，如果目标队列存在镜像副本，则节点间的网络故障可能会因为流量控制而导致一定的延迟。

消费者侧的数据安全保障

在网络或节点发生故障的情况下，消息可能会被重复投递。因此，建议将消费者设计为幂等操作以处理已接收过的消息，而不是通过显式去重机制来避免重复处理问题。
当一条消息在被某个消费者接收到之后又被重新放回队列（不论是自动还是手动），RabbitMQ会在下一次投递时设置redelivered标志，这表明该消息可能已经被先前的消费者处理过了。然而，如果初次投递因网络或应用程序层面的问题未能成功到达任何消费者，则不能保证redelivered标志能够准确反映实际情况。若某条消息没有设置redelivered标志，则可以确定这条消息尚未经过处理。鉴于此，在去重逻辑或者实现幂等性处理成本较高的情况下，开发者可以选择仅针对带有redelivered标志的消息执行特定的处理策略。

无法处理的消息处置方案

如果消费者判断某一消息无法得到妥善处理，可以通过调用basic.reject或basic.nack方法拒绝接受该消息，并指示服务器将其重新入队或是直接丢弃（后者可能导致消息进入死信交换器）。

消费者取消通知机制

每当一个消费者正在监听的队列被删除时，RabbitMQ平台会向该消费者发送通知。收到此类通知后，消费者应采取适当的恢复措施，比如转而监听其他队列或是在适当时候重新声明原有的队列。

Federation与Shovel插件的应用

为了更好地应对不可靠网络环境（例如广域网连接），RabbitMQ提供了Federation和Shovel两种插件：
● Federation：允许跨集群自动分发链接，并且当下游节点出现故障时能够自动迁移这些链接。
● Shovel：支持配置多个端点，并总是尝试使用第一个可用的端点进行通信；一旦检测到失败则按照预设规则延迟后再次尝试连接。
这两种插件默认启用了确认机制，能够在遭遇网络中断后恢复并重新传输未完成的消息。在利用Federation或Shovel建立集群间连接时，需要确保系统具备从节点故障中恢复的能力，即使面对永久性的硬件故障也不例外。对于Federation而言，推荐配置多个上游URI地址或是采用高可用性的负载均衡解决方案；而对于Shovel来说，则应该指定多个源/目标端点作为备选方案。

监控与健康检查的重要性

某些类型的故障可能不会立即显现出来（如由于缓慢的资源泄漏导致的问题）。通过像Prometheus这样的工具长期收集指标数据有助于发现潜在的行为异常模式。同时，定期执行健康检查也是必要的，尽管过于频繁或广泛的监控可能会引发误报。