侧边栏壁纸
博主头像
资深人工智能从业者博主等级

行动起来,活在当下

  • 累计撰写 198 篇文章
  • 累计创建 84 个标签
  • 累计收到 1 条评论

目 录CONTENT

文章目录

系统设计技巧,万能通用版

MobotStone
2023-01-20 / 0 评论 / 0 点赞 / 247 阅读 / 10304 字

今天以一个CRM项目的用户触达模块为例,给大家分享一下。

一、CRM_技术设计文档_消息触达模块

项目名称 CRM系统
项目负责人 三分恶
模块名称 用户触达模块
模块负责人 三分恶

第一部分主要说明项目或者模块的概况,这一部分虽然不太重要,但是是必须的。

二、修订记录

版本 修订人 修订内容 修订日期
V1.0 三分恶 创建 2022-12-23

技术设计不是一成不变的,经常会随着业务的变化,或者根据遇到的一些问题,进行完善和优化,但是每一个版本,都应该留下记录和备份。

三、需求/背景

产品文档:xxxx

为了实现用户的精细化运营,通过多种途径,向用户发送消息通知……

这一部分就是结合产品文档,把需求/背景简单提炼一下,必须,但不是重点。

四、设计目标

设计目标一般分为两部分:

  • 实现功能:这一部分就是就是分析需求,把产品文档里的东西,拆解成一个个的功能,也就是CRUD
  • 设计指标:CRUD也有区别,一把梭,随便写也能实现功能,但是我们CRUD也得有点追求,而且面向C端用户的系统,也基本上会有一些性能、可用性之类的要求,比如接口响应平均多少多少毫秒以下、单机QPS1000、系统几个9可用……

4.1.实现功能

  1. 多种渠道给用户推送消息,主要包含站内和站外两大部分:
  • 站内:

    站内信
    
    弹屏
    
  • 站外:

    邮件
    
    短信
    
    push
    
    微信
    
    ……
    
  1. 触达任务管理
  • 支持定时/延时消息发送
  • 支持触发型消息发送
  • 支持用户分群发送

……

功能点比较多的话,这一部分还可以用思维导图的形式来整理。
image-1674187268752

这一部分评审的时候一定要拉上产品经理或者相关的业务方,确定功能点没有错漏。

4.2.设计指标

  1. 性能要求
  • 百万级消息分钟级发送完成
  • xx接口,性能指标:单机1000并发,95%响应<=200ms

……

一般C端的服务都是有比较严格的性能要求的,毕竟如果系统响应慢的话,用户的流失率就会变高。当然,用户触达,其实主要在于推,用户主动查会少一些,消息的推送通常也会要求速度,比如,有个网红,九点钟要在app上直播,直播开始的时候,要做一个推送,那就要求尽可能快地把消息推送给每个用户,不能说等到十二点直播完了,有的用户才收到消息。

  1. 可用性
  • 触达模块99.9%可用
  • 消息推送成功率80%以上

……

C端系统的可用性比较重要,毕竟挂一会,影响的用户可能都是以万计,所以,设计的时候,也要考虑可用性,分析系统的瓶颈在哪里,流量突然上来,哪里可能顶不住,是要扩容,还是要限流、熔断降级……

  1. 扩展性
  • 采用策略模式+配置,新增消息渠道,只需少量代码+代码即可实现
  • 引入规则引擎,同一消息类型的不同渠道,可以通过规则调整,无需发版

……

这一部分也是设计中应当考虑的,不能一味求快,否则很容易堆屎山。

  1. 兼容性
  • 接口xxx向前兼容app 1.9.0版本,低版本需强制更新

……

C端系统的开发,有时候比较麻的是低版本app的兼容,尽可能早期设计的时候,就考虑可能的扩展,如果实在没法兼容,那就只能app强制更新,当然这种用户体验就非常不好了。

  1. 可观测性
  • 接入Prometheus和Grafana,对服务和业务进行监控
  • 服务监控:通过控制面板观察服务的内存、CPU、JVM、接口QPS、接口RT……
  • 业务监控:通过埋点上报,收集用户触达数据,通过面板可以分设备、渠道查看用户触达成功率……

这一部分也很重要,我们一般上班的第一件事,就是看监控面板,分析有没有什么异常的地方。服务的可观测性,一般公司都是用一些开源的或者付费的监控平台,大厂一般都会自研监控平台。服务的监控很多是通过插桩来实现,业务的监控一般都需要打埋点。

  1. 告警
  • 通过PrometheusAlert实现服务的告警,告警信息分级别,进行飞书通知、电话通知,告警类型分为服务告警和业务告警
  • 服务告警:内存、CPU占用过高,接口QPS过多,接口RT过长,触发告警
  • 业务告警:用户触达成功率过低告警

告警通常也是和监控在一起的,毕竟开发人员也不可能二十四小时盯着告警,一般开源的、付费的、自建的监控系统,都支持配置告警规则,并通过不同的方式,邮件、短信、电话之类的渠道进行通知。

五、概要设计

概要设计,就是做个大概的系统整体设计。

5.1.设计思路

  • 数百万消息段时间发送完成,流量较大,对数据存储性能要求较高,需要选用高性能DB,对存储压力也比较大,同时需要一定削峰处理
  • 定时/延时消息发送采用消息队列实现,对MQ的消费要求较高,并发度要高,批量消费
  • ……

这一部分主要是梳理一下整体的开发设计思路,把一些零散的想法梳理成点或者面,前期大家的讨论可以整理在这里。

5.2.技术选型

  • 存储:TiDB
  • 缓存:Redis
  • 消息队列:业务RocketMQ,埋点Kafka
  • 注册中心:Nacos
  • 配置中心:Nacos
  • RPC:Dubbo
  • 网关:Gateway
  • Push通道:自建

……

这一部分就是大概定一下技术选型,其实要是整个项目做好了选型,这一部分也可以不做,一般需要高级技术人员或者架构师,来整体地进行把握,当然,很多时候选型也没好选的,基本就是主流的那些,而且一般一个团队,都是统一的技术选型,方便维护。

5.3.业务架构

image-1674187294795

这一部分就是大概对功能分分层,分分块,把大概的功能切一切。

5.4.技术架构

技术选型+业务架构,其实一个大概的技术架构就出来了。
image-1674187309499

技术架构图类型,其实也没有特别固定的形式,主要是图能达意,我这个图是通过draw.io画的,还有一些其它的还用的工具,比如大家应该都听过“PPT架构师”,用PPT画也是可以的。当然这个图是我随手画的。

5.5.系统环境

  • JDK版本:11
  • 部署环境:k8s+Containerd,单pod8核CPU+4G内存,服务集群32个pod
  • 数据库:
  • 业务数据:TiDB 64核CPU+128G内存
  • 离线数据:Hbase……
  • ……

如果是项目初建,一般还需要对系统的环境进行评估,根据技术选型、数据容量、系统QPS等等,来选择系统的环境,这一部分一般评审的时候会拉上运维同学,提前确定好系统环境,和运维同学对齐需求和排期。

六、详细设计

详细设计,就是具体指导开发的设计部分了,包括流程啊、数据模型啊、具体用到的算法、和客户端的接口,等等,这一部分很重要,如果没做好,没对齐,那么搞不好就要返工,耽误进度。

6.1.流程设计

  • push流程
    image-1674187324487

用户触达,业务流程基本比较简单,对于一些交易类的,比如支付,或者B端的系统,比如ERP,在开始开发之前,流程一定要梳理清楚,一般通过流程图、时序图来描述业务流程。给大家看一下我之前对接alipay画的简单的时序图:
image-1674187336397

6.2.算法设计

  • 渠道分流:同一消息类型,多种渠道,支持按比例分流,采用加权随机算法实现
  • ……

算法设置不一定数据结构相关的算法,代码里的一些涉及到一些需要进行逻辑计算的,都可以称之为算法,这一部分也可以先梳理一下。

6.3.数据模型设计

  • crm_user_toutch_tash:用户触达任务表
字段 描述 数据类型
id 主键 bigint
task_no 任务编号 bigint
comment 描述 varchar
……

数据模型设计非常重要,可以说是系统设计的根基,如果没有设计好,开发和维护起来真的很痛苦,每个公司应该都有一定的数据库设计规范,基本就是结合业务和规范来设计了。

具体用什么工具设计呢?业务比较简单的C端系统,其实直接拿表格也行,之前也试过PdMan,还行吧。

6.4.接口设计

接口名称 添加支付任务
接口文档地址 https://yapi.com/xxx
入参
入参描述 comment:任务描述
出参
出参描

这一部分也是重量级,但凡涉及到客户端,或者其它服务的,这一部分都少不了,一般可以通过YApai之类的接口工具,但是建议大家还是在文档里做个重复工作,把入参出参之类的描述一下,有些地方标标重点,因为有些人真的不怎么会看文档。

接口设计的时候一定要和相关的同学对齐,不要怕花时间,后期改接口,是一件很痛苦的事情。

6.5.异常处理

  • 系统中的不确定异常,进行统一处理,响应“Network Error”
  • 埋点异步发送,不影响主要功能
  • ……

异常处理也是需要考虑的地方,哪些异常可以吞掉降级,哪些没法处理,怎么给客户端展示,怎么打日志,都需要考虑。

七、风险评估

其实每一次上线都伴随着风险,从设计,一直到上线之前,都要对存在的风险进行评估,上线了要重点观察风险点,也要提前设计好回滚或者处理方案,一旦发现不对劲,及时回滚和处理。

7.1.已知风险

  • 对数据相关服务压力较大,用户分群、用户画像等数据服务崩溃风险
  • MQ存在堆积风险,导致用户收到消息延迟
  • QPS较高,数据库CPU飙升风险
  • ……

7.2.可能风险

  • 场景类消息延迟,可能会影响交易相关流程,拉低转化率和成交率

……

八、测试建议

需求评审阶段、设计评审阶段,最好都拉上测试同学,测试同学要对整体的功能,还有性能,都有比较清楚的了解。但是啊,如果只看功能的话,可能就是表面的点点点,具体实现逻辑,还是开发比较清楚,所以说给测试同学提一些测试建议,给测试的测试用例提供参考。

同时,我个人觉得,从测试的角度进行思考,也能有效减少写代码的bug。

8.1.功能测试

功能 测试步骤 预期结果
定时消息发送 创建定时消息 消息定时发送
……

这一部分基本就是结合设计目标的实现功能,列一下测试步骤和预期结果

8.2.性能测试

  • xxx接口压测,预估单机QPS1000

这一部分基本就是压测了,很多时候,系统的压测没那么简单,尤其是链路长的时候,压一次都得兴师动众。

九、上线准备

  • 运维搭建环境
  • 数据初始化
  • 添加配置
  • 消息队列创建
  • 依赖服务上线
  • 服务上线

这一部分算是上线的备忘吧,有些wiki类的工具,支持在文档里建任务,把上线前需要做的事情列出来,有不知道你经历过“测试环境猛如虎,上线一看原地杵”没?可能就是上线准备没做好,缺了什么,少了什么。

十、评审及意见

评审意见 提出人 提出日期 解决意见 解决人 解决日期
xxx接口需要考虑一下兼容性,建议xx字段,从object改为list micro stone 2023年1月1日 修改字段类型 XXX 2023年1月1日
……

设计文档不是写完,啪,丢出去就完事了,还要上设计评审会,评审的时候,通常相关同学会提出一些评审意见,这些都应该记录下来,解决完了之后,再次评审,直到评审通过,然后就可以开始CRUD了。


好了,看完这个模板,想必你对技术设计也有一定的认识了,我实际上没怎么接触过用户运营相关的东西,所以内容大家随便看看,主要看模板。

0