如何建设高可用系统

发布时间:2022-07-23 13:34:02 作者:killerc 阅读量:7408

面试的时候经常会问一个问题,如何建设高可用系统?大家可以一起探讨下。

“高可用性”(High Availability)通常来描述一个系统经过专门的设计,从而减少停工时间,而保持其服务的高度可用性。以下是高可用系统的设计建议:

设计建议

减少单点 – 去单点首先要识别整个系统所有主链路的单点,如机房(同城异地双机房),应用服务器,DNS服务器,SFTP服务器,LBS,缓存服务器,数据库,消息服务器,代理服务器和专线等,如系统通过专线调用对方服务,需要考虑同时拉联通和电信的专线,联通或电信的专线还是有一定概率会出现问题的,但是同时出问题的概率会小非常多。优先使用软负载,使用硬负载兜底。 
减少依赖 – 减少DNS依赖,减少远程服务依赖,DNS依赖可以尝试设置本地host,用工具给所有服务器推送最新的域名映射关系,通过本地缓存或近端服务减少RPC调用。 
限制循环 – 避免无限死循环,导致CPU利用率百分百,可以设置for循环的最大循环次数,如最大循环1000次。 
控制流量 – 避免异常流量对应用服务器产生影响,可以对指定服务设置流量限制,如QPS,TPS,QPH(每小时总请求量)和QPD(每天总请求量)。 
精准监控 – 对CPU利用率,load,内存,带宽,系统调用量,应用错误量,PV,UV和业务量进行监控,避免内存泄露和异常代码对系统产生影响,配置监控一定要精准,如平时内存利用率是50%,监控可以配置成60%进行报警,这样可以提前感知内存泄露问题,避免应用无响应。 
无状态 – 服务器不能保存用户状态数据,如在集群环境下不能用static变量保存用户数据,不能长时间把用户文件存放在服务器本地。服务器有状态会难以扩容,且出现单点问题。 
容量规划 – 定期对容量进行评估。如大促前进行压测和容量预估,根据需要进行扩容。 
功能开关 – 打开和关闭某些功能,比如消息量过大,系统处理不了,把开关打开后直接丢弃消息不处理。上线新功能增加开关,如果有问题关闭新功能。 
设置超时 – 设置连接超时和读超时设置,不应该太大,如果是内部调用连接超时可以设置成1秒,读超时3秒,外部系统调用连接超时可以设置成3秒,读超时设置成20秒。 
重试策略 – 当调用外部服务异常时可以设置重试策略,每次重试时间递增,但是需要设置最大重试次数和重试开关,避免对下游系统产生影响。 
隔离 – 应用隔离,模块隔离,机房隔离和线程池隔离。可以按照优先级,不变和变几个维度来隔离应用和模块,如抽象和不变的代码放在一个模块,这个模块的代码几乎不会修改,可用性高,经常变的业务逻辑放在一个模块里,这样就算有问题,也只会影响到某一个业务。不同的业务使用不同的线程池,避免低优先级任务阻塞高优先级,或高优先级任务过多时影响低优先级任务永远不会执行。 
异步调用 – 同步调用改成异步调用,解决远程调用故障或调用超时对系统的影响。 
热点缓存 – 对热点数据进行缓存,降低RPC调用。如B系统提供名单服务,B系统可以提供一个client SDK提供近端缓存服务,定期去服务器端取数据,减少RPC调用。 
缓存容灾 – 当数据库不可用时可以使用缓存的数据。并设置分级缓存,如优先读本地缓存,其次读分布式缓存。 
分级缓存 – 优先读本地缓存,其次读分布式缓存。通过推模式更新本地缓存。 
系统分级 – 对系统进行分级,如ABC三个等级,高级别系统不依赖于低级别系统,并且高级别系统比底级别系统高可用率要高。 
服务降级 – 如果系统出现响应缓慢等状况,可以关闭部分功能,从而释放系统资源,保证核心服务的正常运行。需要识别哪些服务可以降级,比如突然有大量消息流入,导致服务不可用,我们会把消息直接丢弃掉。或通过设置流控,拒绝为低级别系统提供服务。 
流量蓄洪 – 当流量陡增时,可以将请求进行蓄洪,如把请求保存在数据库中,再按照指定的QPS进行泄洪,有效的保护下游系统,也保证了服务的可用性。当调用对方系统,对方系统响应缓慢或无响应时,可采取自动蓄洪。 
服务权重 – 在集群环境中,可自动识别高性能服务,拒绝调用性能低的服务。如在集群环境中,对调用超时的服务器进行权重降低,优先调用权重高的服务器。 
依赖简化– 减少系统之间的依赖,比如使用消息驱动,A和B系统通过消息服务器传递数据,A和B系统使用数据库进行读写分离,A系统负责往数据库中写数据,B系统负责读数据,因为数据存放在数据库中,当A不可用时,短时间内不影响B系统提供服务。 
弹性扩容 – 根据资源的使用率自动或手动进行扩容。如带宽不够用时,快速增加带宽。 
灰度和回滚 – 发布新功能只让部分服务器生效,且观察几天逐渐切流,如果出现问题只影响部分客户。出现问题快速回滚,或者直接下线灰度的机器。 
减少远程调用 – 优先调用本地JVM内服务,其次是同机房服务,然后是同城服务,最后是跨城服务。如A调用B,B调用互联网的C系统获取数据,B系统可以把数据缓存起来,并设置数据的保鲜度,减少B对C的依赖。配置中心把注册服务的地址推送到调用服务的系统本地。参数中心把参数配置信息推送到系统的本地内存,而不是让系统去远程服务器获取参数信息。 
熔断机制 – 增加熔断机制,当监控出线上数据出现大幅跌涨时,及时中断,避免对业务产生更大影响。如我们做指标计算时,指标可以计算慢,但是不能算错,如果发现某个用户的指标环比或同比增长一倍或跌零,会考虑保存所有消息,并中止该用户的指标计算。 
运行时加载模块 – 我们会把经常变的业务代码变成一个个业务模块,使用Java的ClassLoader在运行时动态加载和卸载模块,当某个模块有问题时候,可以快速修复。 
代码扫描 – 使用IDEA代码分析等工具进行代码扫描,识别出程序中的BUG,如空指针异常,循环依赖等。 
自动备份 – 程序,系统配置和数据定期进行备份。可使用lin命令和shell脚本定时执行备份策略,自动进行本地或异地。出现问题时能快速重新部署。 
线上压测 – 系统的对外服务需要进行压测,知道该服务能承受的QPS和TPS,从而做出相对准确的限流。 
1、具有1-5工作经验的,面对目前流行的技术不知从何下手,需要突破技术瓶颈的可以加。2、在公司待久了,过得很安逸,但跳槽时面试碰壁。需要在短时间内进修、跳槽拿高薪的可以加。3、如果没有工作经验,但基础非常扎实,对java工作机制,常用设计思想,常用java开发框架掌握熟练的,可以加。4、觉得自己很牛B,一般需求都能搞定。但是所学的知识点没有系统化,很难在技术领域继续突破的可以加。5. 群号:高级架构群 647631030备注好信息!6.阿里Java高级大牛直播讲解知识点,分享知识,多年工作经验的梳理和总结,带着大家全面、科学地建立自己的技术体系和技术认知!

参考资料

分布式系统稳定性模式 
原创文章,转载请注明: 转载自并发编程网 – ifeve.com本文链接地址: 如何建设高可用系统

***本网站图片,文字之类版权申明,因为网站可以由注册用户自行上传图片或文字,本网站无法鉴别所上传图片或文字的知识版权,如果侵犯,请及时通知我们,本网站将在第一时间及时删除。

我要评论

网友评论


评论时间:2023-10-20 12:25:02

4、输入需要建立虚拟网卡的IP地址和免费试用香港虚拟主机 服务器硬件讲解 4、输入需要建立虚拟网卡的IP地址和用户名后双击即可


评论时间:2023-03-08 18:25:02

8app服务器租用 .全程托管:从购买到安装调试再到后期维护云主机和云服务器怎样收费 护等全部由本公司负责,让用户放心满意


评论时间:2023-01-10 00:25:01

16.不要过度劳累17.不要滥用药物18.保持良好的心态19.按时吃饭20.不喝酒0元云电脑服务器免费试用 21.不吸烟22.不熬夜23.少吃多餐虚拟主机服务操作 的心态19.按时吃饭20.不喝酒21.不吸烟22.不熬夜23.少吃多餐


评论时间:2023-01-09 18:25:02

面对新形势新要求,阿里云提出“让每个人都能享受互联网带来的便捷”这一目标,并从产品、技术、渠道等虚拟主机的安装方法 多方面持续发力,不断提升用户体验三丰云虚拟主机是真的吗 、技术、渠道等多方面持续发力,不断提升用户体验


评论时间:2022-11-23 12:25:02

其中,通过手机机房服务器图片 上网的流量占比超过同一ip两个虚拟主机dns怎么配置 的流量占比超过80%


评论时间:2022-09-30 06:25:01

下面就让我们一起来了解一下关于服务器吧!什么叫做服务器?服务器指的是一种具有虚拟主机含义 高性能、高可靠性、高安全性等特点的计算设备,其功能主要云主机个人博客 ?服务器指的是一种具有高性能、高可靠性、高安全性等特点的计算设备,其功能主要体现在以下几个方面:1、存储与处理(包括运算)


评论时间:2022-09-03 21:25:02

服务器搭云主机服务器购买提供商 建教程免费阿里云免费云主机 教程免费学习,提供最新的硬件配置和软件安装


评论时间:2022-08-26 21:25:02

8.如果出现无法运行的现象可通过以下方法来修复:①重新启动计算机;②将安装好的软件卸载掉;③用鼠标左键单击“确定”键;④按回车确认步骤继续操作;⑤双击已经解压到文件夹中的文件;⑥重新装完后独立虚拟主机 再重启计算机就可以正常使用了!9.如果你还想对软件做进一步了解的话,可以访问百度百科,搜索“XP-DOS操作系统应用指南”或者直接下载安装相关的软件工具!10.本程序开发过程中因技术原因可能会产生虚拟主机管理方法 算机就可以正常使用了!9.如果你还想对软件做进一步了解的话,可以访问百度百科,搜索“XP-DOS操作系统应用指南”或者直接下载安装相关的软件工具!10.本程序开发过程中因技术原因可能会产生错误而导致不能正常使用的


评论时间:2022-08-14 00:25:02

8.如果出现无法运行的现象可通过以下方法来修复:①重新启动计算机;②将安装好的软件卸载掉;③用鼠标左键单击“确定”键;④按回车确认步骤继续操作;⑤双击已经解压到文件夹中的文件;⑥重新装完后再重启计算机就可以正常使用了!9.如果你还想对软件做进一步了解的话,可以访问百度百科,搜索“XP-DOS操作系统应用指南”或者直接下载安装相关的软件工具!10.本程序开发过程中因技术原因可能会产生错误而导致不能在虚拟主机上挂软件 正常使用的如何自己在家架设虚拟主机 装完后再重启计算机就可以正常使用了!9.如果你还想对软件做进一步了解的话,可以访问百度百科,搜索“XP-DOS操作系统应用指南”或者直接下载安装相关的软件工具!10.本程序开发过程中因技术原因可能会产生错误而导致不能正常使用的

最新文章

 2023-12-25 22:44:35   admin

活动发布区版规

 2023-05-27 22:03:52   御风而行

容器、无服务器、虚拟机:安全性差...

 2023-05-27 19:08:41   小绵羊0123

科技巨头布局云端 服务器 网络硬...

 2023-05-27 18:17:46   姐姐的跟屁虫

钉钉因系统访问流量激增,宕机1小...

热门阅读

 2022-07-23 00:34:02   freeatom

常见ftp命令 FTP命令使用详...

 2022-07-21 02:17:02   ares

双硬盘组建Raid0磁盘阵列图文...

 2022-07-20 06:17:02   mankeung123

用友软件客户端连接不上服务器的解...

 2022-07-23 00:51:02   antonfxb

WebService实例

 2022-07-13 05:38:02   苯小孩

开发、运维不可不看的Linux调...

 2022-07-20 18:51:02   nightstone

如何使用Charles抓取Web...

随机文章

 2022-01-28 05:38:03   fxdfbl

基于IP的虚拟主机配置的三种方法

 2022-03-08 05:38:02   ffffdsafda

添加DFS复制组

 2022-07-04 05:38:02   csf1906

20款开发运维必备的顶级工具,速...

 2022-07-13 05:38:02   苯小孩

开发、运维不可不看的Linux调...

 2022-07-19 02:00:05   zldxgz8888

智慧医疗是什么,未来智慧医疗的新...

 2022-07-19 03:17:02   love60

常用的9款Oracle DBA管...

热评文章

 2022-07-19 20:17:02   dengyu0429

linux vi使用及详细介绍

 2022-07-20 01:00:05   激动的舌头

Linux视频教程:用户管理命令...

 2022-07-21 20:51:02   jessica-an

创建本地FTP站点

 2022-02-07 05:38:03   jasonkidd

WEB服务器配置详解

 2022-07-20 04:51:02   wolfssss

ACL权限-默认与递归(4)

 2022-07-22 15:00:05   淡水珊瑚

Linux下 Samba Ser...
全球云服务器
Catfish(鲶鱼) Blog V 4.7.3