随着云计算技术的发展,传统数据中心组网在网络能力上的不足越来越明显,主要体现在两个方面,一是网络虚拟化的支持能力不足,二是不支持业务自动化部署和灵活编排。数据中心网络引入SDN控制器,基于集中控制、转控分离的架构实现网络资源全局集中管控、智能调度,提高了网络资源利用率;基于开放可编程的接口,实现业务的自动化快速开通部署。
SDN助力数据中心真正池化
SDN数据中心为多租户提供虚拟、隔离、可扩展、自管理的NaaS(Network as a Service),SDN助力云计算数据中心实现网络资源的真正池化,使数据中心网络在云计算时代实现网随云动。
SDN控制器在数据中心的引入,极大提升了数据中心网络的承载和服务能力。但同时,SDN控制器作为整个数据中心网络的“大脑”,其高可靠部署对数据中心网络的安全稳定运行非常重要。
SDN控制器的高可靠性分为两个层面,分别是设备层面的高可靠和业务层面的高可靠。设备层面的高可靠是指SDN控制器设备硬件、软件本身具有主备冗余的高可靠,在单一硬件和软件模块故障时SDN控制器依然能稳定可靠运行。业务层面的高可靠是指SDN控制器对网络业务配置的高可靠下发以及业务配置数据的高可靠存储,比如配置事物全局一致性、南向数据一致性等功能。
SDN控制器的部署有单节点、单集群的部署,也有能满足更高可靠性的异地灾备的主备集群部署。本文从单集群和主备集群的规划与部署两个方面,较详细地阐述了SDN控制器高可靠规划、部署与实现。
SDN控制器单集群规划与部署单集群内部,北向模块、数据库、南向模块应至少提供一主一备的冗余部署。
单集群部署的SDN控制器,要求集群内节点服务器数量≥3台,节点划分为Leader和Follower的角色。Leader节点负责集群内各节点业务的统一调度管理,当有节点故障的时候,Leader节点负责将故障节点下的设备进行重新分配。Leader节点故障时,Follower经选举比较,优先级最高的Follower角色转换成Leader节点。
北向Portal模块应能通过主备冗余方式或者多活方式,对外为北向应用、协同层或云平台提供统一的浮动IP,通过北向接口接收应用、协同层的控制信息。
Portal模块通过轮询方式将北向接收到的指令发放给集群内节点,由集群内节点计算处理,并通过南向接口完成向设备配置的下发。
北向的负载均衡调度模块应能动态检测各节点北向接口状态,当检测到某节点的北向接口状态异常时,能标记该节点为不可用,并出发节点异常告警,停止北向请求到该节点的发放。当北向接口检测到节点恢复正常后,能重新标记为可用,并重新将节点加入到北向请求接收的队列当中。
集群内控制器南向模块应能至少支持建立控制器节点到转发设备间的一主一备双连接,即转发设备能和集群内两个控制器节点建立连接,默认通过主连接管理转发设备,当主连接的控制器节点故障时,自动切换到备连接管理转发设备,同时将备连接切换为主连接,并重新再给该设备建立一个备连接。
控制器集群内应能支持配置事物全局一致性,即一个业务配置涉及集群内多个节点、数据库节点、网络控制节点、转发设备节点时,应确保每个节点都能成功,如果中间某个节点异常,则全部配置事物回滚。
SDN控制器应支持南向数据一致性,即当控制器和南向转发设备之间出现配置不一致时,控制器能进行南向差异发现和差异修复,从而实现控制器和南向转发设备配置一致。要求控制器能定期进行差异化监测,发现差异时,能主动触发告警通知用户,用户查看和确认后,由用户发起以控制器为准或者以转发设备为准的差异化修复。
SDN控制器应支持系统备份功能,定期将控制器系统数据生成快照,并将快照信息备份存放到远端服务器。当控制器系统出现不可恢复的故障时,可以使用历史系统快照信息重新部署一套存有全部配置信息的相同控制器。
SDN控制器应支持集群节点替换功能,集群内某节点损坏(譬如服务器损坏,无法恢复),可以单独使用新的服务器替换该故障节点。
SDN控制器集群部署在云计算数据中心场景时,应规划在管理网中,SDN控制器通过管理网和软硬件转发设备通信,下发流表、策略等。因此在云计算数据中心场景要求管理网独立规划,和业务网物理隔离,保证SDN控制器和转发设备之间的高质量连接。
SDN控制器支持主备集群的容灾部署为进一步提高SDN控制器的可靠性,SDN控制器除了单集群部署,还应能支持主备集群的容灾部署方式。主备集群部署在不同的地域。正常情况下,主控制器集群工作处理业务,备集群运行但不处理业务。主备集群容灾部署时,主集群业务数据库与容灾备集群数据库应实现同步备份。
主备控制器集群间建立心跳连接,当主控制器集群故障时,可自动或手动完成容灾切换。要求心跳间隔、心跳超时个数阈值可配置,心跳超时后触发告警或者触发自动主备倒换的动作可配置。
SDN控制器主备集群部署建议架构如图所示。
图 SDN控制器主备集群部署建议架构
为增强系统的稳定性和可靠性,在规划时建议不开启故障时主备自动切换和故障恢复时的自动回切,建议人工手动方式进行切换。管理员在接收到心跳超时告警时,人工确认主备集群的工作状态,必要时进行主备集群切换;故障恢复后,需要进行回切时,应该在确认系统状态后,在业务低峰时段进行回切。
主备集群部署时,控制器集群北向对接Openstack云平台或者协同编排层,要求在Openstack云平台或者协同编排层上配置主备集群的IP地址,并且定期检查主备集群的角色、状态。当检测到集群主备状态变化并确认后,能自动或人工修改主备角色状态。建议在检测到集群状态变化时,触发告警,在人工确认后,修改主备角色状态。
主备集群间带宽和时延应满足集群需求,要求集群互联预留带宽≥1Gbit/s,集群互联时延≤10ms。10ms内异地容灾部署效果最好,超过10ms后可能会导致容灾数据丢失。当集群互联时延>10ms时,认为备集群位置不具备集群部署条件,不建议进行主备集群部署,应进行备集群位置重选以符合主备集群部署条件。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)