随着市场竞争力不断增大,各个企业除了要增加自身产品的竞争力之外,也越来越重视消费者的服务,毕竟大家的生活质量在提高,每个产品也都相差不大,而服务就变成了用户最值得考虑的一个因素,也更好的体现了品牌的价值。这就要求公司进入了几十台到几千台服务器的运维监控阶段,无论数量如何增加,保持服务器的稳定才是重中之重,在服务器数量少于200台的时候,主要考虑简单使用、稳定运行、报警这三个方面,一旦大于这个数量,就需要相应的提升技术手段了。
基本上200台以下的服务器运营监控就是小白级 *** 作了,如果出现一些异常系统可以第一时间进行报警,并且帮助用户解决问题,这也是最基础的要求,基本上哪怕是新手适当的进行学习就可以 *** 作成功。而当服务器数量从200增加到1000这个阶段,这意味着用户的需求也在变复杂,那么技术人员就需要将监控内容进行统一,实现全覆盖式的监控管理,确保每一个用户出现问题时,都没有漏报的现象。
而当服务器超过1000台以上时,监控的数量越来越多,消费者的告警信息也会急速增长,每天都会收到成百上千的用户需要解决问题的消息,如果系统不进行相关的整理的话,很容易忽略到消费者的消息,从而带来非常不好的体验,这个时候就需要及时对报警信息进行相应的整理,尽量的化繁为简,减少出现重复报警的情况。并且对于内存使用率、CPU使用率等模块进行独立的设置,做到权责分明、快速定位、及时处理。
综上所述,每个公司的业务不同,那么对于服务器的要求也不太同,不论发生怎么样的变化,基本上只要有了相关的监控数据,就能够通过技术来分析出想要的结果,想要随着时代一起进步,就需要不断的更新维护、高效运维。
分布式服务器上下线动态感知(Hadoop HA)HDFS集群中NameNode 存在单点故障问题,对于只有一个NameNode的集群,如果NameNode机器出现意外情况,将导致整个集群无法使用,直到NameNode 重新启动。
影响HDFS集群不可用主要包括以下两种情况:
NameNode机器宕机,将导致集群不可用,重启NameNode之后才可使用。
计划需要对NameNode节点软件或硬件升级,导致集群在短时间内不可用。
为了解决上述问题,Hadoop给出了HDFS的 高可用 HA方案:HDFS的HA通常由两个NameNode组成,一个处于 active 状态,另一个处于 standby 状态。Active NameNode对外提供服务,比如处理来自客户端的RPC请求,而Standby NameNode则不对外提供服务,仅同步Active NameNode的状态,以便能够在它失败时快速进行切换。而这里的快速切换是如何实现的呢?是通过zookeeper的 动态上线感知 来实现的。
简单介绍下zookeeper是什么?
ZooKeeper 顾名思义 动物园管理员 ,他是拿来管大象(Hadoop) 、 蜜蜂(Hive) 、 小猪(Pig) 的管理员, Apache Hbase和 Apache Solr 以及LinkedIn sensei 等项目中都采用到了 Zookeeper。ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,ZooKeeper是以Fast Paxos算法为基础,实现同步服务,配置维护和命名服务等分布式应用。这是zookeeper的官方介绍,对于程序原来说zookeeper在hadoop中的应用可以理解为是hadoop的整体监控系统,如果namenode宕机后,这时候Zookeeper 的重新选出leader。这是它最大的作用所在。
接下来看看zookeeper的 动态上线感知 图:
1、首先在hadoop中配置自动故障转移机制。
2、在配置HA的时候首先配置zookeeper集群,然后启动zookeeper集群。
3、在第一次启动hadoop的HA之前先初始化HA在zookeeper中的状态然后启动HA,在启动过程中会在各个NameNode节点上启动DFSZK Failover Controller,作用就是向zookeeper中注册服务器的信息,然后hadoop通过进程监控在zookeeper中的节点状态。
4、在zookeeper中注册的节点是临时节点,当服务器宕机下线的时候,zookeeper会把这个节点删除掉,这样才会产生事件,客户端(hadoop)才能监听到,然后hadoop将Standby NameNode转换为Active NameNode。给每个监控设备申请一个域名,由域名解析系统来探查监控设备当前的IP地址,并通知远程监控端。远程监控端通过固定不变的域名来访问每个监控设备。无需关心IP地址的变化于否。企业实施视频监控项目时可根据实际情况选择采用哪种方式使用DDNS服务。具体实现方式有以下几种。
1、路由器外挂。具体的说路由器外挂就是采用集成DDNS的路由器,由路由器上做端口映射,远程监控端通过访问域名即可访问到当前路由器,根据不同的端口来判断并指向所需访问的监控设备。这种方式成本过高,管理也比较复杂。
2、集成DDNS的监控设备。对于无人值守或不方便外挂路由器的状况下,视频监控可采用集成DDNS的网络视频监控设备,通过一条ADSL等宽带线路直接相连,远程监控端通过域名直接访问。这是性价比最高,也最为简单方便的解决方案。
3、运行DDNS客户端软件。在局域网内部的任一PC或服务器上运行到DDNS客户端,此时域名解析到的IP地址是局域网网关出口处的公网IP地址,再在网关处作端口映射指向监控设备即可。这只适用于PC-based的DVR设备,可用性低,稳定性无法保障。
一个好的安全运维平台需要将事件与IT流程相关联,一旦监控系统发现性能超标或出现宕机现象,就会触发相关事件以及事先定义好的流程,自动启动故障响应和恢复机制。还需要能够筛选出运维人员完成日常的重复性工作,提高运维效率。要实现这些功能都是常规监控软件Cacti、Zabbix所无法实现。
同时,还要求能够预测网络蠕虫威胁,在故障发生前能够报警,让运维人员把故障消除在萌芽状态,将所产生损失减到最低。总的来说运维人需要能够在一个平台中实现资产管理、分布式部署、漏洞扫描、风险评估、策略管理、实时流量监控、异常流量分析、攻击检测报警、关联分析、风险计算、安全事件告警、事件聚合、日志收集与分析、知识库、时间线分析、统一报表输出、多用户权限管理的功能,这种集成开源工具到底有没有?它去哪儿啦?
目前市面上有两种产品可满足这样的要求,目前市面上的SIEM产品主要有HPArcsight(后台挂Oracle库)、IBMSecurityQRadarSIEM和Alienvault的OSSIMUSM,现在的问题是并不缺少商业SIEM解决方案,在开源软件中OSSIM到是最佳选择。
很多人只是肤浅的认为OSSIM只是将一些开源工具集成到一个平台,在OSSIM中颠覆性创新主要在易用(容易安装、部署,容易使用,几乎不用自己写脚本)、分布式监控系统、响应威胁(OTX)、关联分析引擎、可视化攻击展示等。
Alienvault分为开源OSSIM和商业版USM两种,通过这一集成监控工具实现对用户 *** 作规范的约束和对计算机资源进行准实时监控,包括服务器、数据库、中间件、存储备份、网络、安全、机房、业务应用等内容,通过自动监控管理平台实现故障或问题综合处理和集中管理。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)