2022-11-08 13
作者:张勇凯(仁奇)、娄勤俭健(林漱)
互联网搜索引擎系统(DNS)是互联网运行李将到关键促进作用的基础公共设施,提供了服务名称(搜索引擎)和 IP 门牌号两种URL管理体系之间的并行转换。大多数互联网应用,如在线支付、视频会议、邮件等,均需依赖搜索引擎系统同时实现网络资源的串行及功能定位,是互联网业务出访的出口处。2021 年 10 月 4 日某社交中文网站再次出现小规模无法出访,亚洲地区少于 8 一千万用户受影响少于 6 个小时,其中无法出访的主要其原因是 DNS 的服务机械故障。可见搜索引擎系统稳定性在整个互联网安全稳定管理体系李将着讷伊县重要的促进作用,DNS服务的安全平稳运行是互联网互通,数字经济安全稳定运行的基础。
现阶段,阿里云提供了本款服务平台的DNS服务产品,全面覆盖了奥梅利DNS、内部网DNS、亚洲地区流量运维、终端导出以及私有云的DNS情景。在云上布署业务的阿里云用户,其网络管理的核心要素就是 DNS 导出服务,除非 DNS 导出服务再次出现市场波动,Sonbhadra引致自身业务受到影响。特别是游戏和金融行业的企业,对导出服务质量有着很高明确要求。
在我看来:云上 DNS 导出服务十多微秒的服务延后市场波动,单厢直接影响Pontacq的业务服务和用户体验。作为月均万亿元用户数量的阿里云 DNS,如何保障小规模的 DNS 导出服务高效率网络管理和高需用?本文Sonbhadra讲诉阿里云 DNS 项目组在此领域的思索及课堂教学。
为了保证业务稳定性建设,阿里穆尔集团公司提出了“ 1-5-10 ”的目标,即 1 两分钟发现,5 两分钟功能定位,10 两分钟解决。目标有了,同时实现起来却有一定的技术难度。
DNS 服务本身有其管理上的局限性。现阶段集团公司大部分业务运行于罐子服务上,通过标准运维系统同时实现开发周期的管理。但“导出服务器”因其高效率能的运行明确要求,仍运行在力学服务器上,日常生活积累的碎片化更改和一些复原措施,除非发生服务器北迁和更改极有可能引致服务再次出现问题,因此需要一套完善的平台去管理服务器状态,同时实现受控、可运维。只有技术标准的服务配置,才能同时实现安全可信的智能化流程管理。
为了保障上层服务满足稳定性的目标,DNS 系统作为底层基础公共设施的重要部分,必须满足更高的稳定性明确要求。在导出服务方面除了要做到高需用的架构设计和布署外,还需对服务异常同时实现秒级功能定位和恢复。传统网络管理手段已无法满足我们现阶段对于稳定性的诉求,因此需要一整套完善的网络管理流程和平台去收敛网络管理操作,将网络管理从传统的死机逐步切换到CM3,从脚本网络管理转换为智能化甚至智能化网络管理。
阿里云 DNS 项目组,现阶段主要负责权威云导出、阿里云用户递归导出、互联网公共递归导出以及集团公司内导出等服务。
随着用户规模和服务数量的持续增加,现阶段业务平台的月均导出量已超两万亿元,业务平台除高效率能导出系统、数据管控系统外,还有统一网络管理平台共三部分组成。今天,我们分享的是“统一网络管理平台的相关内容”,包括在网络管理平台稳定性建设方面的一些思索,并结合云服务的一些局限性,让大家能够更深入地了解现阶段阿里云 DNS 项目组在此领域遇到的问题及相关课堂教学。
回顾整个阿里云 DNS 网络管理平台的建设历程,可以分为三个阶段:技术标准建设阶段、智能化建设阶段、智能化建设阶段。三个阶段并非完全的先后顺序,而是交织在一起,不断推动整个平台的持续演进。
技术标准建设阶段
网络管理系统技术标准建设阶段,主要聚焦于资产数据管理、服务管理与基线管理技术标准三部分,目的是解决线上数据不一致、配置不一致和服务管理流程分散的问题。
资产数据管理,不仅包括服务器信息、系统配置信息、网络信息,还包含相关业务运行配置信息。这些数据信息不仅可以作为日常生活网络管理使用,还可被集成到后期的智能化系统中,作为服务布署和管理的信息输入。 服务管理,不同的系统配置,智能化系统会执行不同的布署流程,软件布署不一致,对应的后期服务管理流程也会发生变化。 基线管理,用于解决碎片化布署问题,统一的服务运行基线可以大幅降低线上运行的风险,服务上线过程中及日常生活运行单厢实时监测服务运行基线,异常配置单厢上报给告警系统,形成风险记录。智能化建设阶段
阿里云 DNS 网络管理平台在智能化流程建设阶段,也吸取了很多内部系统建设的经验,集成了 SOP(Standard operating procedure)管理、智能化任务编排及流程管理等功能。
通过定义标准 SOP,将日常生活处理流程收敛到网络管理平台集中管理,小到一个服务的重启流程,大到一个机房的布署流程,都囊括其中。对于其中的可智能化流程,通过“集成任务编排和流程执行模块”同时实现任务的批量执行,降低人为操作带来的更改风险,同时还能和技术标准建设阶段同时实现的基线管理系统联动,同时实现更改的异常检查和上报。此外,智能化建设提供的框架能力,还集成了任务审批和日志审计功能,可同时实现任务流程管理的安全受控。
智能化建设阶段
现阶段,网络管理平台正处于从智能化向智能化转型阶段,服务的稳定性不再局限于网络管理操作的智能化,而是通过集成一系列输入,同时实现线上风险预判和自动处置。这也是为了解决稳定性 1-5-10 和满足云用户服务稳定性的明确要求。
如果一个机械故障需要人工接入,那么从告警产生到接收再到实际处置,一般需要 5 两分钟甚至更长时间,因此智能网络管理是现阶段发展阶段必须落地的一个手段。在建设阶段,我们深刻感受到:智能网络管理是一场服务稳定性与安全性之间的博弈,如果无法保证智能网络管理的准确性,那将带来更大的风险(2021 年 10 月某社交中文网站的大范围离线机械故障,就是智能化操作所引致的服务机械故障)。因此智能化建设落地,我们通过从单一情景着手,逐步推广到其他流程之中,同时在设计阶段也会有限考虑如何做好服务的兜底,每种情景一般会加入至少两层兜底策略,让服务能够可信稳定运行。
“夯机治理”功能,是阿里云 DNS 网络管理平台在智能化网络管理建设上的典型案例。
稳定性问题的一个典型情况是“夯机”(Server Hang)。与死机或无法出访不同,服务器夯机是指部分服务需用,部分不需用。对 DNS 服务来说夯机危害比无法出访对稳定性威胁更大,因为在 DNS 服务布署模式上 DNS 服务器既要发布路由(支持 BGP+ECMP 集群)又要做 DNS 导出服务。
往往 DNS 导出服务和管控接口不需用,但路由服务正常,集群不会自动摘除这台服务器做流量北迁。在 DNS 服务器夯机情景下,大量的查询流量出访夯机的服务器就会造成严重的服务不需用现象,而该服务器也无法直接登录执行网络管理隔离操作。整个夯机机械故障从功能定位、处置到恢复时间太长,会引致用户的业务严重受损。
为了减少夯机对用户业务的影响,同时实现无人工干预下夯机机械故障自动隔离的目标,网络管理平台集成了一整套的处置流程来解决该问题:通过智能化的监测,发现、功能定位以及处置,同时实现无人工干预下的机械故障自动隔离。系统自上线以来,同时实现线上夯机情景的 100% 全面覆盖率,共计自动完成超 500 次异常检查,正确处置夯机机械故障 14 次。通过平台的自动处置,大幅降低人工排查成本,同时还将机械故障隔离时间降低在 30 秒以内,真正做到用户服务的无感知处置。
“欲流之远者,必浚其泉源。”网络管理平台的建设,是一个持续优化的过程,也是一个经验积累的过程。平台建设的关键是逐步收敛用户的操作,并做好流程的技术标准。技术标准的环境+严格的服务管理,才能同时实现整体的稳定运行。同时,智能化和智能化的网络管理在降本提效方面的成效,也促使项目组不断探索、全面覆盖更多的业务场景,让阿里云的 DNS 导出服务变得更稳定、可信。
当下,DNS 网络管理平台的网络管理架构和模式,正在逐步探索商业化的输出模式,未来,期望能将 DNS 网络管理平台和阿里高效率能导出管控服务一起输出给用户,为客户提供和云上一样的服务体验和运行质量保证。(正文完)
原文链接:https://zazhiba.com.cn/post/18634.html
=========================================
https://zazhiba.com.cn/ 为 “自由随风” 唯一官方服务平台,请勿相信其他任何渠道。
百科资讯 2022-10-27
百科资讯 2022-10-26
百科资讯 2022-11-07
百科资讯 2022-10-22
自媒体运营 2022-11-19
百科资讯 2022-10-19
百科资讯 2022-12-02
百科资讯 2022-10-21
百科资讯 2022-10-26
百科资讯 2022-10-26
李靖国 2023年12月23日
小游客 2023年03月31日
访客 2023年02月06日
扫码二维码
获取最新动态