几十台到几千台服务器的运维监控该怎么做？需要注意什么？_服务器

随着市场竞争力不断增大，各个企业除了要增加自身产品的竞争力之外，也越来越重视消费者的服务，毕竟大家的生活质量在提高，每个产品也都相差不大，而服务就变成了用户最值得考虑的一个因素，也更好的体现了品牌的价值。这就要求公司进入了几十台到几千台服务器的运维监控阶段，无论数量如何增加，保持服务器的稳定才是重中之重，在服务器数量少于200台的时候，主要考虑简单使用、稳定运行、报警这三个方面，一旦大于这个数量，就需要相应的提升技术手段了。

基本上200台以下的服务器运营监控就是小白级 *** 作了，如果出现一些异常系统可以第一时间进行报警，并且帮助用户解决问题，这也是最基础的要求，基本上哪怕是新手适当的进行学习就可以 *** 作成功。而当服务器数量从200增加到1000这个阶段，这意味着用户的需求也在变复杂，那么技术人员就需要将监控内容进行统一，实现全覆盖式的监控管理，确保每一个用户出现问题时，都没有漏报的现象。

而当服务器超过1000台以上时，监控的数量越来越多，消费者的告警信息也会急速增长，每天都会收到成百上千的用户需要解决问题的消息，如果系统不进行相关的整理的话，很容易忽略到消费者的消息，从而带来非常不好的体验，这个时候就需要及时对报警信息进行相应的整理，尽量的化繁为简，减少出现重复报警的情况。并且对于内存使用率、CPU使用率等模块进行独立的设置，做到权责分明、快速定位、及时处理。

综上所述，每个公司的业务不同，那么对于服务器的要求也不太同，不论发生怎么样的变化，基本上只要有了相关的监控数据，就能够通过技术来分析出想要的结果，想要随着时代一起进步，就需要不断的更新维护、高效运维。

运维人员的工作每天基本上都是在检查问题，枯燥但又重要， 要是你的某一个环节出现问题并没有及时发现问题，对于企业来说损失可能非常大，基本上运维人每天的工作我罗列了下，有这几种：

1、负责服务器的硬件配置、软件安装、机房上下架等技术维护工作

2、负责虚拟化技术产品物理机配置、管理和日常运行监控和维护

3、负责独立主机或虚拟应用产品的开通使用、日常维护、故障诊断和排除

4、提供独立主机或虚拟应用客户产品 *** 作和应用方面的技术支持

5、监视分管的服务器，及时发现问题，并积极解决问题

现在信息化数字时代，单靠人工去检查出现错误几率会很大，而且有的运维人还不只管理两台服务器，像我们公司的运维每人至少要管理30台服务器，这样子单靠人工运维耗费的人工成本和时间是非常大的，所以还是推荐你用运维工具吧，比如云帮手（）

1支持跨云商批量管理服务器

2兼容性强大，兼容市面基本所有的云商云主机，兼容 *** 作系统；

3 *** 作简单，可视化界面预览资源、一键修复、一键部署；

4 可以远程登录云主机FTP桌面，处理云主机上的文件；

5监控和资源还有告警功能，这个是挺好的，不用盯着看；

6系统修复功能，这个是挺实用也比较必须的；

7免费使用。总得来说功能还是挺全的，不存在需要又要另外找软件的尴尬。

你好，很高兴回答你这个问题。从运维的角度来讲，服务器的数量少并不意味着我们的运维工作就非常轻松，相反我们更应该重视此阶段的工作。

我们可以从以下几方面来开展我们的运维工作：

1应用服务器

我们可以从当前服务器中找出 至少2个节点装Vsphere虚拟化，建立一个数据中心、集群 ；如果你的服务器有多网卡和SCSI，还可以做一些更高级的应用，如vmotion、负载均衡、高可用等。当虚拟机或服务器故障，可以 实现故障自动转移，有效的避免了单节点的故障，提供服务器的容错率 。

我们可以在新建的虚拟机部署Web、API等各种应用，而且 虚拟机可以在vCenter图形化界面下统一管理 。这一般是中小公司的在服务器方面的解决方案。

当然，我们对docker比较熟悉，可以使用一套docker解决方案，这比Vsphere更能节省一部分资源。当然这个需要的技能要求也比较高，需要我们不断积累。

2数据库服务器

数据库服务器在此我们单独拿出来，是因为数据库对服务器性能、磁盘IO要求比较高，不太建议使用虚拟机，当然这需要根据业务的实际情况来做选择。 数据库我们需要通过一主一从、一主二从的方式实现高可用，来避免数据库单点问 题，我们还可以选择合适的proxy来进行读写分离、读负载均衡等。另外还要考虑数据的本地备份、异地备份，来确保数据可恢复。

3系统监控

当我们在应用服务器和数据库服务器上线一套系统后， 我们需要通过监控掌握从服务器硬件、基础状态、应用、数据库等从下到上的运行状态 ，以便我们能够对告警及时做出响应。考虑到报警的及时性，我们需要监控接入多种报警渠道，如微信、钉钉、邮件、短信等。监控的目的是发现问题、解决访问，因此我们需要踏实的做好这一步，才能为我们的业务保驾护航。

好了，其实不管服务器多少，我们都需要扎实的把基础打好，这样才能以不变应万变面对各种情形。希望我的回答能够帮到你。

题主没有详细说明具体应用系统的功能，比如是否单一的Web服务？有没有微服务、分布式、集群化扩展的潜在需求？

通常来说，建议使用云服务自动化运维。云服务已经成为IT技术的核心基础设施，充分利用云服务带来的d性和分布式优势，赋能自动化运维。

一，自动构建系统

如果需要构建应用，那么就建议配置使用CI/CD持续化集成和自动化部署，比如常用的Jenkins，配置Git代码提交时触发构建，然后自动部署。

二，日志收集处理系统

1，ELK是常见的日志收集管理系统，包括ElasticSearch, LogStash, Kibana三个服务，架构示意图如下：

2，在ELK系统中，Kibana是一个图形化展示工具，配置查询条件，运维人员随时可以搜索指定日志信息，分析处理故障。

三，服务监控

1，云监控CloudMonitor

主流云服务商都将监控功能集成到了基础架构中，以阿里云为例，云监控提供了多种配置，多维度全方位监控。

比如配置CPU使用率到达80%时，自动触发动作，增加服务器实例，同时邮件通知运维人员。

2，应用监控

以监控宝为例，配置服务地址，选择分布在不同地区和运营商的监测点。当监测点不能正常调用配置的服务地址时，将收到警告信息，可以选择邮件、短信、电话等通知方式。

四，潜在的系统扩展需求

1，是否集群化部署？需要AutoScaling自动伸缩吗？

小型化和集群化并不冲突。如果采用集群化部署，可以配置触发条件，满足时自动增加或者释放服务器资源。比如当CPU使用率达到75%或者内存占用率达到75%时，根据配置好的服务器和数量，自动触发。

2，是否使用Docker容器技术？

Docker将应用以及依赖打包到一个可移植的镜像中，可以实现虚拟化，有助于快捷高效的交付应用，结合Docker-compose资源编排，快速实现自动部署更新，不再需要常用的Jenkins构建服务器。

机器数比较小的话，你可以用云的服务器，这样可以节省好多钱。找一个专门的运维，还不如让开发自己来搞，因为机器少运维他也应付得过来。现在都在搞云计算了，把你的机器放上阿里云或者腾讯云，你自己维护好很多，包括网络贷款都很容易扩容。上面这个我说到的只是说建议你如果你已经是自己的机器了。我建议你从我下面所说的来搞。

认为的整个过程的话一般分为三个阶段，第一的话是手工阶段，什么东西都是手工搞。

第2个阶段就是脚本阶段了，本来手工搞的东西全部脚本化。

第3个阶段就是平台化了，平台化了之后，所有东西都在页面上完成系统完成，不需要人工来干预，甚至不用运维来搞。

有一些人说既然认为就是最后的一个阶段，但是这个很不成熟。所以我就不说了。

针对你这个机器数少的，你可以手工认为，或者说用脚本认为都没问题。

在合适的阶段做合适的事情就是最好的。所以我建议你手工运维或者脚本运维。

我们项目用的 wgcloud运维监控系统 ，它前身是开源项目，后来推出的商业版，也有免费版

wgcloud运行很稳定，性能很好，部署和上手容易

wgcloud支持主机各种指标监控(cpu状态/温度，内存状态，磁盘容量/IO，硬盘smart监控，系统负载，网卡流量，硬件系统信息等)，数据可视化，进程应用监控，大屏可视化，服务接口检测，DOCKER监控，自动生成网络拓扑图，端口监控，日志文件监控，web SSH（堡垒机），指令下发执行，告警信息推送（邮件钉钉微信短信等）

可以装虚拟机代替，在同一个局域网情况下

找服务商外包服务，或者网上托管也不贵收费

服务器数量比较少，比如10台服务器，基本可以不设置运维岗位了，后端开发人员或者架构师就能搞定。

我就是那种曾经在创业的小公司待过的开发人员，开发，运维我都干了。

但是想想如何更科学更高效的运维还是很有必要的。

运维的目的

软件系统的运行时环境：即公司的业务产线，靠它创造业务价值，这个是最核心的功能诉求。

实时监控系统: 任何时候都要对当前公司的产线的压力一清二楚，有问题功能随时解决，有性能问题及时扩容或者回收资源

降低服务器成本：在业务萎缩的情况下，准确评估哪些资源可以回收，降低服务器的支出

这个是当时我认为的运维的三个主要目的。

运维方案

开发半路出家，当时采用的是shell+python+ansible+jekins+elk的方式

首先，我会及时的更新业务产线的物理架构图，根据架构图来规划服务器的资源使用。

比如多少个web服务，数据库多少，zk,kafka,redis集群怎么分布。

集群部署一般是放在多个服务器上的，这个时候ansible就派上用场了。

jekins主要用来自动发布更新程序已经做定时回收磁盘的任务。

elk主要用来做应用的日志系统和监控告警；可以通过看板随时知道产线的请求数量和并发数量；

以上的运维方案适用于小公司。运维工程师看到了可以补充

搞个zabbix刷

数量少。如果配置好可以虚拟化。然后跑容器

1 还是很多的，你搜 linux 管理就有很多
2 做运维的话就要学会自己找资料
3 看企业。腾讯这种刚进去在10W/Y，一般的小公司在4-5W
4 同2。一直都在招，关键是个人技术水平如何。银行这种要么关系厚，要么技术好。
补充：简单的讲，1,处理故障2,提升性能 3打酱油。最重要的就是保证不出问题。

一般根据规格不同,服务器托管的线路以及服务器托管带宽,IP地址等因素的不等,价格范围在几千到上万之间。
普通云服务器费用大概在几十元到几万元不等,而小型博客类网站,一年大概70元左右。普通网站,一年大概300~500元左右
1、基础设施维保费，主要为机房和通信链路租赁。
2、硬件设备维保费，主要为服务器、存储设备、网络设备、安全设备、音视频系统和其他费用标准，均制定了相应的费率，明确了运维内容和计算方法。硬件设备年度维保申报费用原则上不超过硬件设备购置总费用的5%。
3、软件运维费，主要为产品软件、定制开发软件和信息资源维护费用标准。
4、等保测评、密码应用及安全服务费未制定明确标准，各单位结合实际需求及市场情况据实编报，单位有多个存量系统时，应根据软硬件情况，进行统筹整合后结合市场情况编报预算。
5、其它运维服务费，未制定明确标准，各单位结合实际需求及市场情况据实编报。
一、科研经费的使用原则:
1、科学安排、合理配置经费按项目实行合同制管理。
2、突出重点、注重实效经费主要用于公司具有创新性的新技术、新工艺、新材料的研究开发等项目，提高公司竞争能力和符合公司的持续发展战略。
3、专款专用、分项核算由公司财务部门按科研项目进行明细核算，确保专款专用。
4、公正透明、符合规定经费使用要清楚明了，符合国家及公司有关财务和资金的有关规定。
二、科研经费的核销规定:
1、公司科研经费在公司财务部报销。
2、报销时须由科研项目经办和负责人在报销票据上签字，经公司法人审批后，公司财务部才给予报销。
3、项目承担部门应予每月最后一个工作日向公司填报当月已发生的科研经费支出，公司财务部每季度核对一次经费支出明细，核对后由公司财务部门、研发项目负责人共同签字确认。
4、科研经费支出不得进入其他工程项目成本。
5、科研经费账目设置及其处理要遵守国家、省财政、科技主管部门的规定及其政策要求，做到经常检查经费开支使用情况，做到审批手续完备，账目清楚、内容真实、核算准确、监督有力，做到经费按项目专款专用，合理使用。
法律依据：《关于省级信息化运行维护项目支出预算标准的规定（试行）》（一）明确适用范围，本《规定》适用于省级财政资金安排的信息化运维项目，除包含非涉密政务信息系统运维项目外，还根据省直单位的实际需求增加了视频会议系统、安防系统及其他信息化运维项目。涉密项目可参照本《规定》执行。

Linux的发展前景非常不错，可以从事多方面的工作，相对于来说还是比较好找的，一般学习完之后可以从事以下岗位：
1、Linux运维工程师：Linux运维是现在每个企业都不能够缺少岗位，对于大公司的Linux运维来说是非常重要，还需懂基本的语言，对于小公司来说技术要求相对于低一点，基本用不到什么太多开发的知识。
2、linux服务器开发：如果是用C/C++之类的话,要求也很高。因为互联网行业才人流动性相对大,所以工资可观，特别是对优化延迟什么的了解很深入的,发展前景是最好的。这个岗位相对于招聘比较少的，不过这部分的从业人员对于技术要求都是非常高的。
3、Linux内核开发：是比较具有难度的工作岗位了，在手机公司是最常见的，比如说华为、小米等这些公司都有这种职位，工资待遇也是非常不错的，知识单一化一些，但是 *** 作系统硬件更新是非常快的， *** 作理论要去更高一些，方向以及就业都是相关的。
4、云计算：云计算在目前市场上是Linux学习之后从业比较受关注的，也是比较火的技术之一，对大数据以及人工智能有着很大的支撑作用，相对于来说这块的人员从业薪资待遇是非常高的，同时技术基础要求也是高标准的。
5、自动化运维：自动化运维技术一直都有，不过近年来因为python技术的兴起，让自动化运维再次火爆起来。要求运维人员对开发的掌握程度较高。也是目前的高薪岗位之一。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zz/13177278.html

几十台到几千台服务器的运维监控该怎么做？需要注意什么？

发表评论

评论列表（0条）