为什么服务器的宕机一般都发生在凌晨使用率最低的时候？_服务器

之前我们单位夜晚有一台设备down了，这台设备做的堆叠，而不是备份，所有下联线路全部连接在主设备上。结果当晚凌晨，主设备的电源模块损坏了！这你能看出规律吗？我也想知道为什么它偏偏凌晨损坏了！

所以说，偶然性事件，不能说大部分！

但是夜间割接倒是正常，选择在用户最少的时候做可能影响业务的必要事情是常识。

首先很荣幸能够为大家解答这个问题，让我们一起走进这个问题，现在我们一起探讨一下。
下面我为大家分享，我个人对这个问题的看法与意见，希望我的回答能给大家带来帮助，也希望大家能够喜欢我的分享。
夜黑风高，杀人越货。这个时间点是正常人休息时间，而黑客则选择在这个时候活动，不论是安全攻击，或者是DDOS，都可能造成服务器故障。
大家如果有更好的关于这个问题的解答，还望一起评论出来共同讨论这话题。
我最后在这里，祝大家生活愉快每天开开心心工作快快乐乐生活，健康生活每一天，家和万事兴，年年发大财，生意兴隆，谢谢！
来自16年经验老程序员的靠谱回答。

主要有以下几个原因

首先，确实服务器的宕机一般都发生在凌晨使用率最低的时候，但是这个使用率只是针对用户而言的。

实际上，在凌晨的时候，服务器是很忙的。主要忙哪些事情呢？主要是一些定时任务，还有数据库备份等。很多比较耗时的 *** 作比如报表统计都会安排在半夜，以免半天影响正常业务，所以这个时候，服务器都是在高负荷运转的，容易产生事故。

同理，发布新代码或者更改功能，也会选择在晚上的业务低峰期。无论前期的测试工作做的多么到位，也难免会隐藏一些bug，到了凌晨，这些bug（比如死循环）已经跑了一段时间了，在无人值守的情况下就可能触发各种故障。

如果上线时间比较短还好，遇到更新比较大的情况下，程序员奋战到大半夜，这个情况下人是很疲惫的，更容易忙中出错。

比如死循环和内存泄漏，是需要经过一段时间才能表现出来的。白天有人实时监控，自然出现故障的几率比较小，就算出现故障了，也能很快修复，让用户无法觉察。

夜黑风高，杀人越货。这个时间点是正常人休息时间，而黑客则选择在这个时候活动，不论是安全攻击，或者是DDOS，都可能造成服务器故障。

计科专业从事嵌入式软件开发多年，最近因为公司需要搞后台研发，经常选择升级的时机放在凌晨，而且大型的数据处理也是放在这个时间段内，经常发生的服务器宕机也是在这个时段。都是在用户使用少的时候开始折腾，折腾的次数多也就容易出现服务器问题。由于做的是物联网设备，在工作中遇到的宕机主要有这么几种情况，对大量数据的 *** 作导致CPU占比在一段时间内骤增从而导致数据接收模块出问题，导致系统监控出现问题，很多设备信息检测不到了。

对数据库的 *** 作太频繁导致效率的下降，也是影响系统性能很重要的一部分，其实服务器也是普通电脑的构成，主要的资源是CPU和内存，这两个因素无论是哪种都有可能导致系统的崩盘，如果是CPU被占满了，系统的反应会变得异常缓慢，时间长了可能还会慢慢缓过劲来，内存如果占满了那么会导致系统的崩溃，直接运行不下去了，其实宕机核心点不会跑出这两种因素。

现在就常见的服务器宕机问题做个归纳总结：

1磁盘空间被占满，现在程序员运行的时候都习惯于带上log打印，如果时间长了加上没有清理的机制早晚会出问题，这个错误在平时运行过程中经常出现，如果使用的云计算服务器通常在系统崩盘之前都会发个短信，通知你的系统处于崩溃的边缘。

2并发性能问题，如果多个人同时 *** 作一个数据库或者数据块，会导致系统假死状态，这种属于争抢CPU资源问题，可以通过增加硬件配置以及优化软件代码的效率去解决，数据量如何足够大就可以考虑分布式的管理

3数据受损或者被破坏导致系统崩盘，所以常见的做法是都会配置备份盘，出现问题抓紧拿到备份盘来顶上，现在公司使用的是阿里云的服务器，稳定性相比之前好太多了，中间换过电信云，腾讯云虽然价格低点，最后受不了直接换成阿里云，再也不想换回去了，数据的稳定性永远是第一位的。

4，一些没有必要的误 *** 作，很多时候是因为程序员或者运维人员的误 *** 作大致服务器大面积的宕机，这种事件在很多云服务提供商身上都发生过，根本层面还是管理问题。后台管理的任何细节都有可能

服务器宕机查找问题的几个线索：

1看看服务器是不是存在内存泄漏问题，有些时候重启机器开始还能正常运行弄了一段时间之后就会变得非常缓慢，十有八九都是内存的问题

2是否有黑客入侵造成，有些非常关键重要的数据也是黑客最感兴趣的，一般来讲这种概率不是很高

3是不是数据库死锁导致的，访问量过大导致，连接数过多造成的。

服务器宕机一旦发生就会引起用户的无数的投诉，无论在什么情况下稳定永远是第一位，现在大的功能升级除非已经百分百验证成功，否则引起的后果不堪设想。

希望能帮到你。

来自华为的维护人员粗略的回答：

1，业务类：系统定时任务。比如说晚上的统计报表，任务刷新，数据刷新，或者数据备份。等等。都是在晚间凌晨的时候做的。这个时候会导致CPU/内存/空间（磁盘/数据库）/IO（磁盘读写）会很高。所以导致可能出现宕机或者资源不足的情况。

2， *** 作类：如果需要进行割接/升级/打补丁/整改之类的 *** 作的时候，都是有可能触发情况。很多情况需要重启进程/服务/系统。

3，bug类，不管是Linux系统或者业务系统都有可能存在bug导致系统崩溃或者服务器宕机。这种情况在白天也有可能发生。

4，硬件问题。如单板/磁盘等硬件由于实用年限问题等慢慢也会老化，比如说磁盘阵列的磁盘就很容易损坏。

5，突然的业务拥堵导致数据量很大，导致传输以及业务拥堵。以及磁盘空间满载或者数据库表空间满了。导致出现问题。都是可能发生问题的情况的。

偶发性的，可以能是你浅意识的，因为这种问题印像最深刻，可能认为比较多，通过做记录去试下。
宕机一般分5种情况：

1、程序上出了问题导致程序崩溃。

2、cpu\Gpu 、内存占满了。

3、硬盘空间满了

4、数据库表空间满了

5、机房温度过高
以上是个人在运维过程中所遇到的问题，做的总结性回答

虽说在凌晨的时候，使用系统的用户非常少，但是服务器在这个时候要做的工作可能一点儿也没有少：
再说一个很久以前看到的，同行们分享的服务器宕机的经历，有些经历非常之神奇，大家就当段子看吧（为了方便，我就按照第一人称来讲述）。

我们服务的甲方是一家医院，机房就在医院的楼中，最近机房的服务器经常性的发生宕机，公司的工程师去了几次也没有发现问题；后来公司被折腾的没办法了，决定让一个工程师晚上住在机房，看看半夜机房中究竟发生了什么事儿，想着就算找不到原因，也能在服务器宕机后第一时间重启。

后来发现原因，到了凌晨三四点的时候，机房门打开了，进来一个值夜班的小护士，看了一眼说：“又没有人，开着空调不浪费电么？”然后就把机房的空调关掉了，然后气温上升
服务器宕机是指服务器因为一些原因导致服务器无法正常运行，造成网络断开，无法正常使用网络。服务器宕机一般都发生在凌晨，为什么会出现这种情况呢？像我们公司是从事科技互联网设备生产的，为了不影响正常生产，系统升级的时候一般都是在凌晨，而且很多的数据处理也放在这个时候，服务器在这个时候也容易出现问题，具体分析有以下几种原因：
1 系统在升级或处理大的数据时，硬盘空间被占满，如果没有人能及时清理磁盘空间，服务器就会出现卡顿的问题造成宕机。

2如果是多台设备同时在 *** 作，使用这一个数据库，会引起系统假死的现象，这个是属于抢占CPU的资源造成的，会导致服务器不堪自负，网站访问量猛增，程序中毒遭到很多的应用都在消耗服务器，最终死机无法响应。
3由于凌晨维护人员减少，会出现断电，温度过高等等环境因素的影响，使服务器死机等等，不过这种情况是很少见的，因为现在机房都有发电机备用避免停电造成的数据丢失，温度也是采用的恒温系统。

4有的企业为了节省服务器的费用，会租用较低配置的服务器来从事很多的工作，使服务器超负荷运转，结果是可以预料得到的，宕机就会经常发生。

5服务器宕机一般和内存有很大的关系，有些服务器运行了一段时间后速度就变慢了，基本上就是内存出现问题，要检查一下内存是否存在泄漏的问题。
服务器宕机会出现一系列的问题，造成的损失也是无法估量的，只有平时定期做好维护，在凌晨的时候也要注意掌握使用状况才能避免宕机，无论在任何时候，服务器的稳定运转才是最重要的。

这里需要说明一下，服务器宕机是什么意思呢？我们日常说的“宕机”中的“宕”其实指的是英文“down”，宕机表示当前服务器或服务无响应或者不在线状态。

服务器的宕机可分为人为控制的宕机、不可控的宕机。这两者有什么区别呢，下面来具体说明一下：

1、人为可控的宕机行为

服务器长时间的运行可能会带来一些（非致命性）问题，又或者我们需要对服务器进行软/硬件的升级维护时，可能需要停机或者重启 *** 作。这种情况下的宕机是可控的，在我们的计划之内。

2、不可控宕机行为

这种因素就很多了，比如说服务器突然蓝屏、服务异常崩溃、突然断电断网了，这时候服务(器)就无法正常提供服务，这些都是不可控因素导致的。

而在我们的日常运维工作中，计划性的宕机维护一般都选择在半夜来做这些事，为什么呢，原因主要有这几点：
1、减少对用户的影响

凌晨大家基本上都休息了，用户量较白天来说小得多，所以选择在此时进行系统及硬件的维护导致的宕机对用户的影响较小，就算有影响也只是影响小部分用户。

2、有足够的时间来处理故障

在凌晨进行维护，就算有问题，技术人员也有足够的时间（比如说：00~05点）去处理故障。如果换成在日间维护，服务(器)宕机1小时以上投诉单全都过来了，压力很大的。

原理其实很简单：这就如同我们白天忙碌着很多事物性的工作，就如同搬运工一样，不停的搬运物品入库，只有在物品都搬运完了的时候，我们才能开始整理这些物品，整理仓库，。

其二，服务器在白天的时候，其实都在实时处理数据的“搬运工”状态，只有在实时性数据处理工作（搬运工作）完成以后，才有机会或才能腾出手来去做数据的归纳和整理。所以，服务器的宕机时间，通常会发生在使用率最低的时间段。仅此。

运维人员的工作每天基本上都是在检查问题，枯燥但又重要，要是你的某一个环节出现问题并没有及时发现问题，对于企业来说损失可能非常大，基本上运维人每天的工作我罗列了下，有这几种：

1、负责服务器的硬件配置、软件安装、机房上下架等技术维护工作

2、负责虚拟化技术产品物理机配置、管理和日常运行监控和维护

3、负责独立主机或虚拟应用产品的开通使用、日常维护、故障诊断和排除

4、提供独立主机或虚拟应用客户产品 *** 作和应用方面的技术支持

5、监视分管的服务器，及时发现问题，并积极解决问题

现在信息化数字时代，单靠人工去检查出现错误几率会很大，而且有的运维人还不只管理两台服务器，像我们公司的运维每人至少要管理30台服务器，这样子单靠人工运维耗费的人工成本和时间是非常大的，所以还是推荐你用运维工具吧，比如云帮手（）

1支持跨云商批量管理服务器

2兼容性强大，兼容市面基本所有的云商云主机，兼容 *** 作系统；

3 *** 作简单，可视化界面预览资源、一键修复、一键部署；

4可以远程登录云主机FTP桌面，处理云主机上的文件；

5监控和资源还有告警功能，这个是挺好的，不用盯着看；

6系统修复功能，这个是挺实用也比较必须的；

7免费使用。总得来说功能还是挺全的，不存在需要又要另外找软件的尴尬。

遇到服务器故障，问题出现的原因很少可以一下就想到。我们基本上都会从以下步骤入手：

一、尽可能搞清楚问题的前因后果

不要一下子就扎到服务器前面，你需要先搞明白对这台服务器有多少已知的情况，还有故障的具体情况。不然你很可能就是在无的放矢。

必须搞清楚的问题有：

故障的表现是什么？无响应？报错？
故障是什么时候发现的？
故障是否可重现？
有没有出现的规律（比如每小时出现一次）
最后一次对整个平台进行更新的内容是什么（代码、服务器等）？
故障影响的特定用户群是什么样的(已登录的, 退出的, 某个地域的…)
基础架构（物理的、逻辑的）的文档是否能找到
是否有监控平台可用（比如Munin、Zabbix、 Nagios、 New Relic…
什么都可以）
是否有日志可以查看（比如Loggly、Airbrake、 Graylog…）
最后两个是最方便的信息来源，不过别抱太大希望，基本上它们都不会有。只能再继续摸索了。

二、有谁在

代码如下:

$ w
$ last

用这两个命令看看都有谁在线，有哪些用户访问过。这不是什么关键步骤，不过最好别在其他用户正干活的时候来调试系统。有道是一山不容二虎嘛。（ne cook in
the kitchen is enough）

三、之前发生了什么

$
history查看一下之前服务器上执行过的命令。看一下总是没错的，加上前面看的谁登录过的信息，应该有点用。另外作为admin要注意，不要利用自己的权限去侵犯别人的隐私哦。

到这里先提醒一下，等会你可能会需要更新 HISTTIMEFORMAT
环境变量来显示这些命令被执行的时间。对要不然光看到一堆不知道啥时候执行的命令，同样会令人抓狂的。

四、现在在运行的进程是啥

代码如下:

$ pstree -a
$ ps aux

这都是查看现有进程的。 ps aux 的结果比较杂乱， pstree -a 的结果比较简单明了，可以看到正在运行的进程及相关用户。

五、监听的网络服务

代码如下:

$ netstat -ntlp
$ netstat -nulp
$
netstat -nxlp

我一般都分开运行这三个命令，不想一下子看到列出一大堆所有的服务。netstat -nalp倒也可以。不过我绝不会用 numeric 选项
（鄙人一点浅薄的看法：IP 地址看起来更方便）。

找到所有正在运行的服务，检查它们是否应该运行。查看各个监听端口。在netstat显示的服务列表中的PID 和 ps aux 进程列表中的是一样的。

如果服务器上有好几个Java或者Erlang什么的进程在同时运行，能够按PID分别找到每个进程就很重要了。

通常我们建议每台服务器上运行的服务少一点，必要时可以增加服务器。如果你看到一台服务器上有三四十个监听端口开着，那还是做个记录，回头有空的时候清理一下，重新组织一下服务器。

六、CPU 和内存

代码如下:

$ free -m
$ uptime
$ top
$
htop

注意以下问题:

还有空余的内存吗服务器是否正在内存和硬盘之间进行swap
还有剩余的CPU吗服务器是几核的是否有某些CPU核负载过多了
服务器最大的负载来自什么地方平均负载是多少

七、硬件

代码如下:

$ lspci
$ dmidecode
$
ethtool

有很多服务器还是裸机状态，可以看一下：

找到RAID 卡 (是否带BBU备用电池)、 CPU、空余的内存插槽。根据这些情况可以大致了解硬件问题的来源和性能改进的办法。
网卡是否设置好
是否正运行在半双工状态速度是10MBps 有没有 TX/RX 报错

八、IO 性能

代码如下:

$ iostat -kx 2
$ vmstat 2 10
$ mpstat
2 10
$ dstat --top-io --top-bio

这些命令对于调试后端性能非常有用。

检查磁盘使用量：服务器硬盘是否已满
是否开启了swap交换模式 (si/so)
CPU被谁占用：系统进程用户进程虚拟机
dstat 是我的最爱。用它可以看到谁在进行 IO：是不是MySQL吃掉了所有的系统资源还是你的PHP进程

九、挂载点和文件系统

代码如下:

$ mount
$ cat /etc/fstab
$ vgs
$
pvs
$ lvs
$ df -h
$ lsof +D / / beware not to kill your box
/

一共挂载了多少文件系统
有没有某个服务专用的文件系统 (比如MySQL)
文件系统的挂载选项是什么： noatime
default 有没有文件系统被重新挂载为只读模式了？
磁盘空间是否还有剩余
是否有大文件被删除但没有清空
如果磁盘空间有问题，你是否还有空间来扩展一个分区？

十、内核、中断和网络

代码如下:

$ sysctl -a | grep
$ cat
/proc/interrupts
$ cat /proc/net/ip_conntrack / may take some time on busy
servers /
$ netstat
$ ss -s

你的中断请求是否是均衡地分配给CPU处理，还是会有某个CPU的核因为大量的网络中断请求或者RAID请求而过载了？
SWAP交换的设置是什么？对于工作站来说swappinness 设为 60 就很好,
不过对于服务器就太糟了：你最好永远不要让服务器做SWAP交换，不然对磁盘的读写会锁死SWAP进程。

conntrack_max 是否设的足够大，能应付你服务器的流量
在不同状态下(TIME_WAIT, …)TCP连接时间的设置是怎样的？
如果要显示所有存在的连接，netstat 会比较慢，你可以先用 ss 看一下总体情况。
你还可以看一下 Linux TCP tuning
了解网络性能调优的一些要点。

十一、系统日志和内核消息

代码如下:

$ dmesg
$ less /var/log/messages
$
less /var/log/secure
$ less /var/log/auth

查看错误和警告消息，比如看看是不是很多关于连接数过多导致？
看看是否有硬件错误或文件系统错误
分析是否能将这些错误事件和前面发现的疑点进行时间上的比对。

十二、定时任务

代码如下:

$ ls /etc/cron + cat
$ for user in
$(cat /etc/passwd | cut -f1 -d:); do crontab -l -u $user; done

是否有某个定时任务运行过于频繁
是否有些用户提交了隐藏的定时任务
在出现故障的时候，是否正好有某个备份任务在执行？

十三、应用系统日志

这里边可分析的东西就多了,
不过恐怕你作为运维人员是没功夫去仔细研究它的。关注那些明显的问题，比如在一个典型的LAMP（Linux+Apache+Mysql+Perl）应用环境里:

Apache & Nginx; 查找访问和错误日志, 直接找 5xx 错误, 再看看是否有 limit_zone 错误。
MySQL;
在mysqllog找错误消息，看看有没有结构损坏的表，是否有innodb修复进程在运行，是否有disk/index/query 问题
PHP-FPM; 如果设定了 php-slow 日志, 直接找错误信息 (php, mysql, memcache, …)，如果没设定，赶紧设定。
Varnish; 在varnishlog 和 varnishstat 里, 检查 hit/miss比
看看配置信息里是否遗漏了什么规则，使最终用户可以直接攻击你的后端？
HA-Proxy;
后端的状况如何？健康状况检查是否成功？是前端还是后端的队列大小达到最大值了？

结论

经过这5分钟之后，你应该对如下情况比较清楚了：

在服务器上运行的都是些啥？
这个故障看起来是和 IO/硬件/网络或者系统配置 (有问题的代码、系统内核调优, …)相关。
这个故障是否有你熟悉的一些特征？比如对数据库索引使用不当，或者太多的apache后台进程。
你甚至有可能找到真正的故障源头。就算还没有找到，搞清楚了上面这些情况之后，你现在也具备了深挖下去的条件。继续努力吧！

运维工作总结(一)

20xx年运维部工作总结

20xx年业已尾声，我部门在公司的正确领导下，认真执行公司制定的各项制度及部门制度，努力改进工作中存在的不足，并取得了一定进步，2011年我部门总体工作特点是：运维任务基本饱和且多个项目同时进行，工作分散、繁琐，现就部门的各项工作进行一下简要总结。

Ⅰ一年工作概况

1、上半年运维任务相对轻松，根据公司和部门要求集中进行内部优化，以及对以前工作进行总结，各负责人在现有条件基础上，统筹安排，有条不紊的完成公司规定的任务指标，没有因运维任务繁多而出现混乱。

2、下半年各主要项目陆续接手，同时部门内部各人员职责基本清晰，各负其责，整个部门运行基本踏入正轨，方案、合同、资料、服务流程运行良好，同时现场服务人员能认真负责的执行公司及部门的各项规定，掌握、收集、记录现场第一手资料，完成公司交办的各项任务。

3、本年度中部门与部门间、员工与员工间，都在工作中不断的磨合，发现问题、解决问题，各项工作并没有因此而停滞不前，经过一年时间的不断改进，对内公司各项工作渐渐运转自如，对外也赢得了相关客户的认可，一切正朝着令人欣喜的方向前进。

4、本年度人员安排如下：

5、本年度服务数据如下：

6、本年度部门收费回款如下：

7、运维和参与项目实施情况

一全年部门完成运维任务：

①解决招行成都分行监控中心大屏和两河公园停车场故障与项目尾款回款两个难题；

②完成招行密押系统升级更新和其他系统运维任务；

③完成安县交通卡口及金牛公安分局等其他客户监控系统运维任务；

二全年部门完成参与项目实施任务：金牛公安分局视频资源管理系统

Ⅱ但是总结本年度的工作，还有一些问题存在，有些工作亟待改进：

一、备件管理

1、备件管理在2011年做得并不好，由于项目运维还处于成熟过程中，对运维备件要求未按照实际使用作计划，导致在运维过程中，无法对备件进行有效控制，在今后工作中要着重加强管理调度，坚持每月执行备件计划制度。针对备件需求和备件使用制定相应的领用制度，做到“谁提备件，谁负责”，坚持限额领用制度。

2、加强备件现场使用的管理力度，对送达现场的备件，及时准确地进行核实，发现问题及时上报，对备件使用量大的、有特殊要求的须经过部门负责人或分管领导审核同意。

二、服务流程管理

1、服务流程是否合理决定服务的效率，在保证质量和安全的前提下，尽可能地提高服务及时性。原则：对同时发生的运维任务，合理调配人力、物力资源，统筹安排，因地制宜，在尽可能短的时间内完成更多的工作，做到人员效应最大化。优化运维方案，通过集体讨论，优先采用能够保证服务质量要求，方案可行而成本支出较小的运维方案，目的是成本控制，同时加强现场管理，合理调配有限资源，减少浪费。

2、现场服务人员和主管负责人、后勤人员要勤于沟通，有变化及时通报，做到信息畅通，避免因沟通不及时而出现重复派工、二次报修等问题。

3、进一步明确人员责任制，人负其责，公平合理，避免互相推诿、调度重复现象，提高人员意识。

4、进一步细化完善部门制度，规范人员工作流程、落实资料单据填写与收集整理、管理。

三、人员培训

1、技能培训：公司目前项目主要分环保、交通卡口和安防系统3大块，而运维部人员对所有项目的都还未做到详细熟悉细致了解和掌握的程度。

2、制度意识培训：运维部人员平时处理故障的情况较为繁重，在一定程度上对制度或资料填写有疏忽的现象，对资料收集整理保存以及查询带来了不便。

3、部门只做到了制度化和形式化，落实与实施的程度还不够。 Ⅲ对公司制度和管理制度的建议

Ⅲ针对我们在维护过程中遇到的问题，我作出如下几点建议：

1、对公司的产品：现今我司自主产品基本没有，尤其是新项目，产品处于测试阶段，但这些产品已经在客户那里开始使用，所以出现问题较多，工程师都是一边学习一边维护。避免不了在客户面前向公司有关方咨询处理问题的方法，给客户留下了不好的印象；其次，是老产品的更新升级，设备运行也不稳定，造成维护量巨大，处理一个问题又出现新的问题。希望公司12在这方面得到改进。

2、配件管理：公司在配件备货方面存在较大问题，主要为相关配件公司没有配件库存，有的设备还需供应商提供；如：读卡器，摄像机等，这极大影响了服务效率，12此问题应首要解决。

3、服务流程及工作量：服务流程没有什么问题，主要是协调沟通机制还未建立起来，导致工程师不能与客户及时了解情况以及管理人员

不能了解实时状态。造成不必要的催促和二次报修。另外由于有些片区条件特殊，如其他县市区，由于离公司较远一个较为简单的任务需要派人去现场，这样就造成了一定的资源浪费和增大了服务成本，希望公司在新的一年有所考虑和改进。

4、人员培训：公司应加强人员在工作技能和公关技能方面的培训，提高人员意识和安全性、纪律性；部门拟定在12年对部门人员进行1月1次技能或理论培训，实时进行现场实际 *** 作培训；另外部门决定在新年里对部门员工进行职称培训，力争在12年部门有1~2名项目经理，2名以上安防技术专业工程师。

Ⅳ来年工作计划

1、人员划分：

2、制度流程：

进一步细化规范部门制度和流程，最大程度优化服务结构，监督人员落实和实施，做好资料收集整理、备品备件管理。

3、系统数据;

明年公司将上业务支撑管理系统，部门将根据系统数据做详细的

运维工作总结(二)

It运维服务工作总结

至20xx年10月底，0000000000000000000有限公司在0000000000000000公司的运维又届满一年的时间了。在这为期一年的运维工作当中，xxxx的业务飞速发展，设备数量不断增加，人员的技术水平和业务知识有了显著的提升。我们的队伍在技术水平和管理经验上也有了本质的提高。

一、细致缜密的完成计划中的日常运维工作：

严把质量；服务至上；严格要求；技术领先。

1 承接运维工作初始信息技术部的各位领导就对我们的运维工作给予厚望，并提出了认真完善服务水平的方针。我们在服务过程中严格按照这一要求，以对保障xxxx的发展，对用户负责的精神，把“严把质量，服务至上”的原则贯穿于日常工作的各个环节之中。使本运维期过程中的客户满意度有了非常显著的提高，多次获得了用户的认可。

2 对于在工作中信息技术部提出的新要求、新方案，我们及时相应配合，本着“严格要求”的原则，对于提出的要求科学性的分析研究，及时提出完整周密的解决方案，并拟请用户试行或测试后实施。有力的保障了运维工作的及时有效性。

3 对于提高服务业务技术水平上，按照信息技术部的统一规划，按时完成一系列的既定培训计划。按照“技术领先”的原则，通过技术上的培训提高了业务水平和解决故障的效率；通过制定有效的安全

机制和培训，健全了xxxx信息外包人员安全机制；通过保密制度的培训使运维人员能够树立自觉维护xxxx的`信息安全防范意识；通过客户服务意识的培训提高了客户的满意度。

二、吸收先进经验，保质保量的完成运维的各项任务：

运维期内主机、服务器、网络和桌面均没有发生严重的生产安全事故，对于一些潜在的威胁也都在得到信息技术部门的批示下，审慎周密的完成了整改工作。运用先进的技术和经验提高劳动效率和运维工作质量：

1运用先进的运维工具提高劳动效率。通过监控软件随时保持信息的及时性、可控性，一旦发生问题可以迅速定位和修复。

2经过信息技术部指导，我们在运维工作中大量了采用WEB20技术。使我们在高效完成运维工作的情况下，为xxxx节约了大量的费用投入。

3在工作的过程中注意新技术和新方法的学习和收集，对于有利于运维工作的成功方案及时整理并提交信息技术部。经过5年来的维护工作存储了大量的知识库信息。

三、适应任务需要，及时解决运维过程中的遇到的问题：

1 在运维过程中遇到突发问题及时与信息技术部门相关人员进行沟通，对于紧急情况的处理按照《应急预案》进行对应处理。在节假日安排主要人员进行值班和备勤，保障24小时均能及时相应。

2 在运维工作过程中，积极协助新增设备的各项实施工作，获得了信息技术部的肯定；在到货、验收、集成方案和安装调试过程中提供全程保障；对于数据的迁移、备份，各人按照自己的职责，在制定详尽的计划后、经过信息技术部的批准严格按照方案实施；

3 在配合一些公司的重大活动、事件时，为应对信息技术部人员不足的情况。我们一方面做好运维工作的情况下，另一方面派出部分或全部人员协助信息技术部的各项工作，以弥补其人力不足的状况；

4 对于机房的升级改造过程中积极配合，全程派员监理施工过程，及时出具各种施工方案和设计资料。施工完成后及时

运维工作总结 运维工作总结(三)

2013年运维工作总结

回顾过去的一年，在市县公司工区领导指导下取得的一些成绩，但也有一些不足。现就运行工作总结如下：

一、努力学习新知识，掌握新设备，提高业务技能。

我所工作的单位是一所建设刚2年的变电站，有着配套齐全的办公设施和生活用具，有着慕煞旁人的生活和学习的条件。自从2011年4月进入110kV变电站工作以来，在市县工区领导关怀指导下努力改变以往工作模式与方法。从一个干好自己工作为己任，无关他人的自我态度，通过不断的学习和锻炼，逐步转变为互相帮助，共同完成与提高的协同办公新模式。记得建站投运之始，依然是每天跟班日出而作，日落而栖学习设备的理论和 *** 作方法。终是初步接触110千伏变电站设备，在市工区领导平时工作担心忧郁的语气中，我常感无形的工作压力，正吞噬着我;而这，也正深深的激励着我，更加以自觉学习业务知识。

直到去年的某天，在一派新设备无故障的思想中，几乎把尚存脑海的业务知识遗忘殆尽的时，突然接到地调110kV624线路配合停电检修的 *** 作指令，在市工区领导仍然有些担心的口吻中，我以正确的事故处理方法及 *** 作步骤面对，在默认处理措施后，在长长的电话线那边，似乎看见领导在稍稍放松的神情里，正用赞许的眼光望着我。。。

二、立足本岗位，发挥党员模范带头作用。

作为变电站一名基层党员，爱岗敬业、忠贞不渝，在保持党的纯洁性工作和意识形态中，唯有加强变电站平时安全运行意识的养成和既定制度管理的落实，服务好人民群众，促进变电运维工作的全面发展，才是爱党、爱国家、爱公司应有的体现。我在过去的一年中主动学习党的方针政策，加强党性修养，进一步提高自己的政治觉悟和工作能力，在尽职履责中发挥模范带头作用。在公司基层变电站里营造和谐工作氛围，勇于担当，充分体现党员的优秀价值。

新形势下，多年的基层变电站工作，让我深深的知道迎峰度夏的工作中，公司和电网发展所面临的任务。我从本职岗位挑战出发，时时处处以身作则，用实际行动充分体现党员的执行力和实践力。在过去一年的围绕迎峰度夏保供电工作中，我明确时段、地段、人员和工作要求，落实测温、特巡等工作，包括设备过热、线路弧垂下降等原因引起的跳闸，全面开展变电设备状态巡视和检测工作。切实防止变电设备巡视维护不到位而引发的设备事件发生，通过努力，“迎峰度夏”保供电工作在两级工区领导大力指导下，取得了圆满成绩和效果。

三、继往开来，把一腔工作热情付诸于无限的为人民服务中去。

作为电力工作者，我们任何时候都应以党和企业的事业为重;任何时候都应践行“诚信、责任、创新、奉献”的核心价值观，高标准履行国家电网人的职责。在今年政治性用电“国庆”、“十八大”保电工作中，严格遵循各项规章制度，严防死守，密切配合电力调度，有力的保障了当地人民群众广播电视的正常收听，收看。我来自于基层变电站一名普通的职工，任何时候都应服从整体利益，恪尽职守，在以后的本岗位上，我也将一如既往扎实干好自身工作，干净干事，发挥党员模范带头作用，努力为当地经济的发展值好班、站好岗，向组织交上一份“组织放心，群众满意”的答卷。

运维工作总结(四)

公司系统运维工程师年终个人工作总结及下年工作计划

时间一晃而过，d指之间，2010年悄然而至，自从2010年3月份刚进入公司，我是第一次接触公司、接触通信行业、接触公司网络管理及维护。虽然跟我的专业和技能都一致，但所有的实际经验都是第一次，让我没有任何准备，同样也打消了任何顾虑，人生就是这样，所有的一切都是要从第一次开始，没有接触过、干过并不可怕，领导给了我机会，让我有了一次尝试、一次展现自己的平台，那么我一定会更加倍的努力做好工作才是最大的回报。并且也是对自己的一次肯定。经过一段时间的工作及陌生环境的磨合，专心钻研业务知识，努力提高理论知识和业务工作水平。遵纪守法，踏实工作认真完成领导交办的各项工作任务，使自己渐渐的融入和适应到新的工作环境中。过去的大半年里在领导和同事们的悉心关怀和支持帮助下,通过自身的不懈努力，在思想、学习和工作等方面取得了新的进步。现总结如下:

一、公司电脑日常维护工作

刚一开始接手工作的时候，发现公司大部分工作电脑都没有安装安全防护软件和升级系统补丁；员工随意安装系统及应用软件，致使公司局域网内病毒隐患严重、工作不稳定和系统崩溃，工作秩序被打乱，员工不严格要求自己，上班时间聊QQ、玩农场、看娱乐网站等；为此公司和个人工作经常受到影响,工作效率降低。针对这种情况，我采取了以下措施：

1、先对公司员工进行一次基本知识培训，让员工了解到计算机的正确使用方法，病毒防范，重要文件的备份等。从而大大提高了员工对电脑使用的熟练程度。

2、先恢复良好的秩序。电脑使用时如发现故障和需更改设置，必须先报告公司运维人员，由专门人员来进行专业及针对化的 *** 作，个人不能私自进行改动，进行这样做的目的避免由于人为的盲目 *** 作使某一台电脑的故障影响整个局域网内的其它工作，使故障扩大化，并延长了解决问题的周期。

3、使员工使用统一的、经过安全测试的系统及应用软件，安装、设置统一的杀毒软件、防火墙等安全防护软件，且经过努力实践，并在每台机器上设定了自动系统补丁升级及定期查杀规则。

4、对于个人的关键性数据资料、邮件进行路径转移备份，使这些数据远离危险故障点，避免意外丢失所带来的严重后果。 *** 作系统进行常规定期备份，便于事后的还

原。

5、对于网络管理进行了监管工作，公司所有电脑安装了行为管理软件后，员工工作效率逐步提高，自觉性得到明显改进，从而净化了公司网络办公环境。

经过一段时间的贯彻和工作，先前的混乱现象得到有效控制，现公司的十余台电脑，工作状态稳定，没有出现大面积的系统崩溃和故障。

二、网络的日常维护

路由器及交换机的维护管理，确保公司网络运行正常，员工正常利用网络资源。加强路由器的规则设置，优化外网接口，内部员工合理地分配带宽流量，使公司的网络能稳定有效地工作。

三、公司网络制度管理和完善

公司经过一段时间的运转，各个部门的规章制度通过大家一起研究、探讨、立会并完善制定了各项规章制度，计算机管理也形成了制度，大家按章办事，使之成为一种工作习惯。同时公司的资产管理及日常的文书表格非常混乱和环节上的缺失。为此特地制作了一批表格、登记申请单及统计表。使得公司资产和资源得到有效的管理和控制，杜绝管理上的失控和资产流失。

四、公司服务器平台管理与维护工作

公司发展逐步扩大，对于公司所有的业务支撑平台-服务器，为重中之重；本年度我司服务器相应出现几次重大故障，分别如下：

1、网络故障七次，重大一次，因服务器遭DDOS攻击，导致我司服务器无法正常工作。事后通过紧急处理后得以恢复正常。其它几次分别为机房断电、网络升级、电信与联通DNS解析故障影响到我司服务器平台网络连接不正常。

2、系统故障三次，其中一次为短信平台服务器系统文件损坏，导致系统崩溃。经过技术部采用紧急预案措施在两小时内得以恢复系统。

3、其它故障共计5次，因联通网关溢出，无法与我司IVR服务器数

运维工作总结 运维工作总结(五)

运维服务工作总结

至2014年底，银海科技有限公司在蓝湾科技有限公司的运维又届满一年的时间了。在这为期一年的运维工作当中，运维的业务飞速发展，设备数量不断增加，人员的技术水平和业务知识有了显著的提升。我们的队伍在技术水平上也有了本质的提高。

一、细致缜密的完成计划中的日常运维工作：严把质量；服务至上；严格要求；技术领先。

1各位领导就对我们的运维工作给予厚望，我们提出认真完善服务水平的方针。我们在服务过程中严格按照这一要求，以对保障用户的权益，对用户负责的精神，把“严把质量，服务至上”的原则贯穿于日常工作的各个环节之中。使本运维期过程中的客户满意度有了非常显著的提高，多次获得了用户的认可。

2 对于在工作中我们树立新要求、新方案，本着“严格要求”的原则，对于提出的要求科学性的分析研究，及时提出完整周密的解决方案。有力的保障了运维工作的及时有效性。

二、吸收先进经验，保质保量的完成运维的各项任务：

运维期内主机、服务器、网络和桌面均没有发生严重的生产安全事故，对于一些潜在的威胁也都在得到信息技术部门的批示下，审慎周密的完成了整改工作。运用先进的技术和经验提高劳动效率和运维工作质量： 1运用先进的运维工具提高劳动效率。一旦发生问题可以迅速定位和

修复。

2在工作的过程中注意新技术和新方法的学习和收集，对于有利于运维工作的成功方案及时整理并提交信息数据部。

三、认真完成运维工作中的汇报、总结每个故障点率和分析原因：自2014-5-27，截止2014-12-31根据工作记录汇报共完成1263个报修，平均每天82个报修（其中不包括潜在故障点），服务项目有：安装，维修，培训，会议保障，综合布线，巡检等。服务分类有PC硬件，办公软件，网络连接，网络设备，打印机，电话传真，健康巡检等。以下是图标分析：

1其中PC硬件服务分类如下

分类服务数

KVM 8

黑屏 26

蓝屏 13

装机 13

其他 61

2办公软件服务分类如下：

分类项目服务数量

office 47 IE 14 金宏 106 系统 101 其他 64

3打印机服务分类如下：

4电话传真服务分类如下：

5网络连接服务分类如下：

6网络设备服务一共20个！

以上数据均不包括潜在故障

四：总结工作

2014年已经过去，在自己的工作中还有很多的不足，还不能让客户达到百分百满意，对客户的服务也没有完善，对此问题我总结了一下原因，客户投诉最多的是响应时间慢，桌面维护这个工作工作量非常的不稳定，有时候工作量少，很清闲，有时候一天近30个服务，这是不受控制因素。而且还有潜在故障点，导致响应时间慢，从数据上显示20140527到20141231日一共有77个综合布线，平均一周两次工程布线，而布线最起码需要一个人员，而服务人员一共2人，另外一个人就有些力不从心了。每个人总会有些事情，需要请假，这些原因都导致了响应时间慢，还有一些是技术方面的原因，有时候我没

运维工作总结(六)

运维部上半年工作总结

半年来，我部门在公司领导的关心、帮助和大力支持下，扎实有效的开展各项工作，圆满完成了上级下达的各项维护考核指标。

一．运营维护部全体同志充分发扬不怕苦不怕累，克服困难

连续作战的精神，工作中通力合作有力的保证了杆路、信号的正常传输。

二．城网日常维护。半年无节假日累计加班72天。值班365

小时值宿180人次。处理用户终端故障4000余件，处理突发性和特大故障20件。其中光缆故障15件。

三．线路整改。改架干线1000米。更换-5电缆3000米。

更换-9电线2000米。更换光接机7台、供电器5台放大器28台、分支分配器300个。城网光缆改造楼房1个小区。100户。有效地提高了了用户收视指标。共架光缆05公里。新增光节点1个。

四．光缆维护队半年维护光缆故障200余件。共计熔接光纤

2300余芯。统一规划完成光缆改造10余公里。整理乡

看在哪个城市吧
一线城市工作机会还是蛮多的，尤其是对于高级运维需求更大
而且运维是没有35岁年龄限制的，不过对于不同的公司来讲，运维场景上还是有一些差异的。
另外题主提到的小公司没有运维，其实也要看是多大规模的了。
一旦服务器有一百台，其实研发自己管理就已经很混乱了，这种情况下，大部分公司是会招运维的。
初期可能是每个研发部门配备一个运维，后期随着业务的增多，合并成立运维部门也是必然的。
而大公司的话，运维体系更加完备，分的很细，有做网络的、系统的、应用的、中间件的等。

桌面运维工程师，是一个IT初级岗位，主要工作内容是维修PC，处理办公软件，简单的综合布线，网络排障。

这个岗位一般工作在企业的行政后勤部门，兼职一些其他行政岗位，如门禁，监控，考勤汇总，采购，司机等职位。最近几年企业招聘对于这个岗位要求增加了有驾照，便是这个道理。这样的企业体现老板比较抠，想一人多岗，每个人工作量饱和，使他发给员工的薪酬得到最大化，榨干每个员工的血汗。

桌面运维工程师在企业中属于边缘岗位，学历要求一般是大专或者大专以下，刚毕业的大学生或者实习的大学生都可以胜任，常常是一把螺丝刀，一把网线钳，一个测线仪，一个优盘搞定天下。在技术含量较低的情况下，一般企业都是用增加工作量的方式对待该岗位的员工，不管你经验丰富，还是小白，都会面对这种窘境，是一个不能长期坚守的岗位，也是一个没有前途的岗位，只能作为一个职业跳板，一般此类岗位在企业中最多工作两年，需要调岗。由于这个岗位隶属于行政部，所以可以考虑从事行政后勤工作，或者HR方向发展。

桌面运维工程师在企业中属于打杂的，不能为企业创造价值，干活想到你，涨薪靠后站。整天被呼来唤去，有的时候救火不及时，还要受到批评和冷嘲热讽，甚至背后捅刀。有时候你工作压力大，发点牢骚，还会被投诉，受到处罚，甚至面临辞退的风险。处于该岗位的人，需要有良好的耐力与和善的性格，才能做好工作，处理好人际关系。

随着云计算的发展，许多办公电脑由物理机迁移上云变成虚拟机，桌面运维工程师的工作方向有所改变，技能要求提高，不仅可以处理表面的故障，还要了解服务器后台原理，处理方法，不仅懂windows，需要学习linux，虚拟化等技术。

按照行业发展的规律，桌面运维工程师工作技能有所提高，老式桌面运维工程师会逐渐被市场淘汰，新型的云计算工程师闪亮登场。

桌面运维工程师只有做好职业规划，认清行业发展前景，不断学习新技能，才能摒弃现有的地位和工作体验，迈上一个新台阶，才能使自己更有价值，薪酬从3000元向10000元往上攀升。

有的桌面运维工程师在这个岗位不同公司（甚至是当老板）干了一辈子，他的前景就是老后破产。
所谓的桌面运维工程师，就是维修维护“桌面”上的电脑相关设备的技术员，以前统叫IT外包服务人员。

大致的工作内容为：

1、电脑软硬件维修，包括电脑常规的软件设置、杀毒软件升级，解决蓝屏、卡顿、系统补丁等问题

2、打印机维修，一般的维修就是更换硒鼓/模糊，数据线坏的频率很小，再就是换了电脑重新安装打印机驱动等

3、网络不通解决方案。这个一般就是跳线接触不好，或者网口不够的情况下增加小的交换机或路由器，或者把有线的网络添加一个无线路由器，能够提供手机WIFI上网使用。

4、其他系统或者设备兼容性问题。这些故障五花八门，要想快速处理解决一般都是需要2年的经验。

因为一般的故障就那么几点，书本上是学不到的，这个需要实践来获取工作经验。
接下来，聊一聊政府或者企业级别的桌面运维工作都做些什么，一般小规模企业（员工500以下的），是不会设置专门的桌面运维这样的岗位的，一般会设置一个网络工程师的岗位，工作内容就包括了公司所有的和IT沾边的工作了，比如，路由器，交换机，服务器，电话，监控，门禁，erp系统等等，一看工作内容挺多，但是，我还是把它看做是一个稍微高级一点的桌面运维工程师，因为这种规模的公司，路由器，交换机用的都是最低端的傻瓜式的设备，没有什么可配置和管理的，只要插上电开机都可以工作，服务器和erp系统一般也是找第三方公司来实施的，部署上线好了，平时基本也没有什么问题，大部分的时候，做的工作还是在处理各种员工们的低级电脑问题。

现在，来说一说，大型企业的桌面运维工程师，一般是至少有5000人以上的公司，会专门设置桌面运维工程师的岗位，这个岗位的技术能力要求会偏高一些，当然待遇也可以达到从8K--15K不等，待遇的高低跟公司的行业有关，金融行业的相对高一些。工作内容大概有，电脑的硬件，软件维护，打印机，以及桌面端的应用系统使用指导支持，IT资产管理等，需要熟练AD域控服务器环境,防病毒系统，统一打印系统，网络部署 *** 作系统环境， *** 作系统定制，桌面虚拟化系统等等，需要深入的去理解这些系统的原理概念，很多问题，已经不像小公司那样靠重装系统就可以解决，一些软件故障，需要真正找到问题的原因，才能解决。但是，桌面运维始终还是一个比较繁琐的岗位，所以，建议题主选择一个方向，深入学习，精通，比如，网络工程，网络安全，服务器运维，数据库运维，应用系统运维，或者系统开发，系统实施等。
就是还不如民工的岗位！要么自己提升水平，要么别干

一个很有前途的职业

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zz/13089965.html

为什么服务器的宕机一般都发生在凌晨使用率最低的时候？

发表评论

评论列表（0条）