系统宕机:设备和应用不再是大问题,人为错误是关键
2023-09-11 14:22:16 时间
如果问系统管理员什么是最令其担心的问题,十有八九会说是系统宕机,这一点对业务中断忍受度极低的金融行业来说尤为如此。随着数字化转型的进一步推进,越来越多的企业业务依赖IT技术,IT系统宕机极易导致企业的瘫痪,造成的影响和损失不可估计。
对于IT团队来说,即便尽全力也几乎不能保证系统100%正常运行,只能通过规划冗余以尽可能地保持更多的正常运行时间。
实际上与几年前相比,现在的软件更具弹性,无论是商业软件还是开源软件出问题的几率都比较小,出了问题管理员也可以通过使用虚拟机、配置和编排以快速恢复正常运行。
系统宕机最常见原因不再是设备或应用程序故障,而是人为因素,即系统管理员的错误操作。随着企业更多地部署虚拟化及采用公共平台,现代企业IT变得越发复杂,这导致了人为错误的增加。且很多管理员仍在使用命令行界面,和系统情况变更之间没有任何把关。这样即便管理员操作正确,在复杂环境中也可能造成极大影响,诸如其指令可以解决当下的问题,但调用资源可能会与数据访问产生冲突而导致其他工作负载问题。
在此种情形下,采用自动化以减少人为错误显得弥足重要。比如创建可运行脚本库,可重复授权使用这些脚本;此外,使用编排系统不仅可以调配脚本,也可以调配修补程序,对于部署混合云的企业可以采用编排工具以帮助自动化和管理。
除人为错误外,网络攻击也会导致非计划性系统宕机。DDoS攻击能拖垮服务、恶意软件会导致数据损坏和系统停机,而臭名昭著的勒索软件则更为棘手,一旦中招会加密企业数据。对此,企业可采取安全供应商提供的安全产品和保护服务来提高系统安全性,从而避免系统宕机。
本文转自d1net(转载)
可用性监控-先于客户知道您的应用挂了 任何服务都避免不了出现以下问题,你的用户访问不了你的服务或者站点,用户偶尔碰到5xx,服务响应延迟比较慢,某台应用进程挂掉,导致访问时好时坏。问题在于,你是否要等你的用户来告诉你,你的程序是问题了。
可用性监控-先于用户知道应用挂了 背景:任何服务都避免不了出现以下问题,你的用户访问不了你的服务或者站点,用户偶尔碰到5xx,服务响应延迟比较慢,某台应用进程挂掉,导致访问时好时坏。问题在于,_你是否要等你的用户来告诉你,你的程序是问题了_。
相关文章
- 8种MySQL常见SQL错误用法详解
- eclipse导入maven项目报错"Missing artifact com.sun.:tools:jar:1.8.0"错误解决方法
- “史上最全”C语言动态内存及使用动态内存经常出现的错误
- PHP 错误与异常 笔记与总结(2)错误(Fatal)
- Win7下打开计算机管理时出现错误的解决办法
- 转 Oracle 11g Rman – 08317错误
- SharePoint 错误集
- 怎么解决java.lang.NoClassDefFoundError错误
- centos7 无法启动网络(service network restart)错误解决办法
- STM32引用“CmBacktrace”: ARM Cortex-M 系列 MCU 错误追踪库
- 如何修复 Flutter 中的“正在检查 Dart SDK 版本... << 此时出乎意料”错误?
- 如何解决svn Authorization failed错误
- Cocos2d-x执行时错误:Cocos2d: Get data from file(xxx.xxx) failed!
- Ubuntu中建立ftp 503错误解决办法
- 码云,git push后出现错误 error:failed to push some refs to 'xxxxx‘