网络运维常见故障及解决方案,网站运维故障案例
1、设备散热风扇损坏,导致处理器温度过高;
2、电源模块损坏,导致供电不稳定或者不供电;
3、主板老化或者元器件损坏,直接导致设备不稳定或宕机;
4、硬盘或者内存等主要配件故障,导致设备宕机或者停止服务;
二、软件故障:
1、更新的补
从事IT运维很多年,近日得闲,整理一下自己所遇到的最多见的网络故障,并且在后面逐一给出对应的解决方法。
壹 | 先给常见的网络故障简单地做个分类(只是根据人个经验整理而来的常见故障,不能代表大众意见):一、硬件故障:
1、设备散热风扇损坏,导致处理器温度过高;
2、电源模块损坏,导致供电不稳定或者不供电;
3、主板老化或者元器件损坏,直接导致设备不稳定或宕机;
4、硬盘或者内存等主要配件故障,导致设备宕机或者停止服务;
二、软件故障:
1、更新的补丁导致系统或者应用软件崩溃;
2、病毒及恶意程序的破坏;
3、同时安装多个功能类似的安全软件;
4、同时安装同一软件的多个版本;
三、设计缺陷或者配置不严谨、管理不严格造成的故障:
1、通风、散热设计不合理,导致设备经常运行在过热状态下;
2、IP地址规划不合理,直接导致IP冲突;
3、私接网络设备造成的网络故障;
贰 | 各类故障的解决方法、应对措施:
一、硬件故障的判断和处理方法:
硬件故障,是最直接、最不可怕的故障,相对来说,判断容易、处理方法也简单,可以这么说:只要硬盘不坏,其他问题都好解决。
1、设备本身的散热故障的处理:无论是服务器、交换机、还是路由器,运行时间长了,都会出现散热问题,会不会报故障(或者说多长时间后报故障)、给网络效率造成多大的影响,一定程度上取决于机房的环境——随着网络的普及,人们对待IT设备,已经没早些年那么重视了,现在还有哪个学校的电脑教室,还强制带鞋套的?不能说所有的散热问题都是灰尘引起的,但是灰尘确实是散热问题的最大来源,好在这类故障处理起来很容易,收到告警信息后,更换散热器能解决90%的问题——不能排除有一部分设备,是主板上的针脚不再给散热风扇供电了,这时候,就要另想办法给风扇供电了,好在也不是什么难事。
2、电源模块故障的处理:电源完全损坏,不再供电的时候,如果没有冗余配置,这时候设备肯定已经被动关机了,直接替换新的电源即可; 有的时候,电源的故障并不是那么明显,笔者就碰到过一例,某品牌服务器,频繁死机,每次重启后,能正常运转一天两天,一时找不出原因,有一次正好在机房维护,听到有蜂鸣声,本以为是哪个设备高温报告,检查了一遍并没有,“听声辨位”后发现,就是那台经常死机的服务器在叫,此时服务器还没有死机,查询日志无异常,遂重启,进入BIOS查看,发现电源有高压报警——12V输出,达到了16V!因为有冗余电源,直接把故障电源拔下来,服务器就恢复正常了。
3、主板老化或者元器件损坏的处理:这类故障不是那么明显,但是会直接导致设备不稳定或宕机,笔者见过很多例,有台服务器年代久远,最近不稳定,三天两头要重启,有时也报高温故障,于是决定拆下来彻底清理一遍,到客户的生产车间,用风枪吹干净,感觉主板像新的一样,但是问题来了,服务器点不亮了,汗。。。冷静下来仔细查看,发现CPU周围有几个电容鼓包了,甚至有爆浆,找了几个来换上,问题也就解决了,同样的方法,也修好过交换机主板、电脑主板、显卡等等,但是大多数时候,设备一旦出现元器件损坏,就未必能修好了,就算修好,也不再建议当成主要设备来使用了,作为备用件是不错的选择。
4、硬盘或者内存等主要配件故障的处理:前面说过,除了硬盘故障,别的都好处理,无论有没有告警信息,都很好判断,直接替换掉损坏的配件就可以了;最麻烦的是硬盘故障,RAID1或者RAID5是服务器中常见的配置,这种情况下,损坏一块硬盘还好,一般不会有什么损失,换个新的上去,也就解决了,最怕的是阵列中多块硬盘损坏,那就麻烦了,如果数据非常重要,一定都交给专业的公司处理,盲目地操作只会增加数据恢复的难度。
二、软件类故障的处理方法:
1、更新的补丁导致系统或者应用软件崩溃:近期,微软Win10频频翻车,多个补丁都引发了较大数量的蓝屏故障,其实这还算好的,重启后,卸载补丁也就没事了。当年赛门铁克误杀门,那才叫厉害,崩溃的电脑和服务器,真是不计其数,我们也跟着忙活了好几天。正确的做法是:补丁要先给测试机更新,两三天后,没什么问题,再大面积部署,即便如此,还是要定期做好系统的状态备份,万一有事儿,还能快速恢复。
2、病毒及恶意程序的处理:即使是部署了企业级的硬件防火墙、专业级的安全软件,我们依然不能掉以轻心,病毒及恶意程序的破坏,往往是不可修复的,常见的病毒或者恶意程序,我们能用防火墙成功隔离或者安全软件成功查杀,但是每隔一段时间,总会有个超级病毒,能穿过各种安全设备和软件,对我们的系统造成破坏,致使我们蒙受巨大的损失:比如近两年疯狂的勒索病毒,很多公司的服务器都中招了,有的迫于数据的重要性,只能给黑客付钱,还必须是比特币!也有的付了钱,都没能拿回所有的数据。所以笔者认为:重要的数据文件,冷备份很有必要!(所谓冷备份 :准备一台电脑或者服务器,只在定期备份的时候开机,备份完毕立即关机,确保数据安全)
3、同时安装多个功能类似的安全软件而引发的故障:有些IT盲目自信,服务器上不安装任何安全软件,也有些IT人员特别不专业,在服务器(或者电脑)上安装功能类似或者重复的安全软件,殊不知,这会造成系统混乱、不稳定,笔者甚至见到过,服务器同时安装两款国产的杀毒软件后,操作系统直接无法启动了,进入安全模式强制卸载其中一款,才解决问题,所以说,杀毒软件、安全助手类软件,同一台服务器或者电脑上,只能安装一款。
4、同时安装同一软件的多个版本引起的故障:笔者经常接到客户的求助,说是某某软件突然打不开了,细问之下,才知道,同一软件装了两三个版本,卸载其中一个版本后,另一个版本也无法运行了——应该是软件卸载的时候,删除了相关的系统文件,导致另外一个版本缺少关键文件,也就无法运行了,想要覆盖安装还不一定能行,有时候会提示软件已存在,那就只能卸载重装,或者选择修复。个人电脑无所谓,最多麻烦一点,几次重装而已,服务器上要安装同一软件的多个版本,就要慎重了,强烈建议先用虚拟机测试,确定没问题,再正式安装。
三、设计缺陷或者配置不严谨、管理不严格引起故障的处理方法:
1、通风、散热设计不合理,导致设备经常运行在过热状态下:这类故障比较直观,处理起来也简单,就是费点力气,笔者曾经不止一次地见过,一个机柜好多台机架式服务器,无间隔地堆在一起,虽然用了导轨,不至于压坏,但是中间就不能留2U吗?装上去的时候,没什么,时间长了,机房都走不进去,为什么?不是因为太热——因为空调制冷开得大,最多也就是费电,机房体感温度还行——而是因为太吵了,服务器的每个风扇都在全功率、全速度地转,就像机房有架直升机在盘旋,后来费了一天的劲,才整改好,有时候做IT,也是体力活儿啊!
2、IP地址规划不合理,直接导致IP冲突的处理:这恐怕是运维过程中见得最多的故障了,事例1:某客户打电话来询问,公司很多人无法上网,获取不到IP地址了,连在同一个交换机上的电脑,有的能联网,有的不能联网,排查之后发现,DHCP竟然是无期限的,拿到IP后永久有效,时间长了,自然就没有IP地址可用了,改成有效期一天,重启DHCP服务,不能联网的电脑,禁用本地连接,再启用,或者直接重启电脑就好了;事例2:内网经常报IP地址冲突,排查中发现:路由器配置的IP地址池是192.168.1.2-192.168.1.254,可是硬盘录像机有5台,手动设置IP地址为:192.168.1.201-192.168.1.205,后来又增加了ERP服务器、文件服务器,分别手动设置IP地址为:192.168.1.211和192.168.1.212,还有门禁控制器、网络考勤机、网络打印机。。。全是手动设置的IP地址,设备越多,报IP地址冲突就越频繁,解决方法也很简单,在DHCP配置中,为IP不能随意变化的设备指定静态IP就可以了。
3、私接网络设备造成的网络故障的处理方法:这恐怕是笔者最深恶痛绝的故障了,每年都要处理好多次,费时费力,又不敢跟客户发火,有时候还要被误解,其实这是客户管理不严格造成的。就在昨天,还碰到一例:客户反应上网爆卡,但是我们技术员远程登录服务器,却很快,在服务器上ping路由器的管理地址,300毫秒算是快的,基本上要900毫秒左右,甚至丢包率很高——广播风暴吧,要么就是交换机坏了,没什么好说的,开车赶到现场,那叫一个好找,后来在二楼车间的机柜旁边的地上,找到一个8口交换机,有人把备用网线也给插上了!搞笑的是,上面居然还插着一条电话线!幸亏因为疫情,车间并没全部开放,要不然找起来更要费时费力。可网管的交换机,应对广播风暴就轻省多了,它会自动关闭相应端口,不会影响整个网络,排查也直接而简单,但是很多企业还在使用最普通的非网管交换机,又不严格管理,给IT运维人员带来了很大的工作压力。
叁 | 总结:备份最重要、管理要跟上
一、多年的从业经验得到一个结论:备份最重要!笔者认为,重要的备份主要有以下几种:
1、链路备份:互联网时代,外网链路也显得日益重要了,说简单一点,所谓的链路备份,就是要有两条上网的线路,最好是不同运营商提供的;链路备份,同时可以实现链路的负载均衡,可以说是一举两得;
2、设备备份(专业的叫法应该是设备冗余):包括:出口设备的冗余、核心交换机的冗余、服务器的冗余和数据同步等等;
3、数据备份:包括服务器之间的同步备份,以及定期的冷备份;有时候,真的有必要做到:数据备份在手,机房火灾不愁。
二、管理要跟上:
企业一定要有必要的IT管理制度,笔者曾经见到到,公司里好多人都知道域管理员的帐户和密码,基本上处于半公开状态,万一哪天出点事,都不知道该找谁负责。
1、帐户密码制度:(1)密码要规定长度、复杂度;(2)一人一个帐户密码,不得随意使用他人帐户;(3)必须定期修改密码;
2、IT设备管理制度:(1)机房、机柜必须上锁,钥匙可以掌握在不同的人手中,但是不能随意交给其他人开门、维护设备,很多时候,就是因为多插了一条网线,而导致了整个网络的崩溃;(2)IT设备的配置文档,要有备份,而且配置一旦有变化,就要及时备份,既要保证能恢复到配置修改之前,又要保证设备损坏时,能将配置文件直接导入到新设备;
——笔者为网络工程师,擅长计算机网络领域,创业多年,希望把自己的经验分享给大家,觉得有用的,可以关注一下,并请点赞、转发,如有相同或者不同观点,欢迎评论,谢谢!
文章评论