IM服务器设计-消息存储

2019年6月8日

这部分专门讲述IM消息存储的设计。消息存储的难度在于，要考虑以下的场景：

读扩散 VS 写扩散 #

消息同步模型中，有写扩散和读扩散这两种模型。在开始讨论之前需要先了解两个相关的概念：

写扩散就是经常说的push模式，即每个消息都直接发送到该用户的收件箱中。其优缺点如下：

读扩散就是pull模式，用户每次到消息发送者的发件箱去拉取消息，优缺点如下：

最终选择的是以pull模式为主的模式，理由在于：

下面来看具体的设计。

在数据库设计中，仅使用一个发送消息表来存储消息的具体内容，而另外有一个消息接收表用来存储消息的ID信息而不是具体内容，这样用户查询消息时，大体流程如下：

无论是单聊还是群聊消息，都使用这个表来存储发送出去的消息。

im_message_send（msg_id,msg_from,msg_to,msg_seq,msg_content,send_time,msg_type）

其中：

im_message_recieve（id,msg_from,msg_to,msg_id,flag）

其中：

接收消息表的信息并没有很多，因为主体部分如消息内容、发送消息时间等都在发送消息表中。

发送消息表，根据msg_from字段做为分库分表的依据，而接收消息表则使用msg_to字段做为分库分表的依据。

另外，还需要添加缓存将群聊消息进行缓存，缓存的key为msg_to和msg_id的组合，这样查询具体群聊消息的时候就可以根据组ID来查询一条具体的消息了。

以上需要对存储之上的业务层完全透明，因此加上一个db proxy来处理消息的读写，除了应付这套流程以外，proxy的引入还有这些好处：

有了这一层proxy之后，消息的读写流程如下。

收到用户发送过来的消息，db proxy做如下处理：

读消息的过程反之：

在第一篇基础篇中已经给出了拉取离线消息的基本流程，在这里还需要进行一些优化。

在实际的应用中，离线的群聊消息并不是需要每次登录都完整拉取下来的，因此这里可以做一个优化：登录时针对群聊消息仅拉取每个群的未读消息数量，用于客户端的展示，而实际消息内容的加载，可以等到用户真的点到这个群查看消息或者可以后台加载，总之不影响登录主流程即可。

细化了消息存储部分之后的整体架构如下图所示：

采用pull模式为主的消息发送存储方式。
为了解决pull模式的读消息较重的问题，引入了以下组件：
- db proxy来解决整个读写逻辑，这部分对业务层完全透明，同时proxy可以感知下面存储服务的扩缩容变更等。
- 群聊消息根据消息ID以及群ID写入缓存一份，不必每次都到存储服务器上面拉取消息。
- 使用另一个消息计数表来存储未读消息数量，登录之后群聊消息仅展示未读消息数量，这部分群聊消息可以延迟拉取或者后台拉取不影响客户端登录主流程。