近年来,随着直播等大流量互联网业务的兴起,CDN业务随之呈现飞速的发展。传统CDN厂商与各大云服务提供商抢占市场,纷纷降价的同时也大规模扩张着CDN节点。 快速的扩张容易忽视一个重要的问题:业务规模的快速发展,若没有一套完备的支撑系统,会引起诸多质量问题。轻则引起业务时延变高、成功率下降;重则有可能导致灾难性的长时间、大面积的系统瘫痪。 回顾2016年,多家CDN厂商频频被爆出大大小小的事故。就连国内一些云计算巨头,近来也由于服务的不稳定,引发了多起大规模的故障,导致客户业务长时间不可用,用户利益受到直接损害。反观腾讯云CDN,十年的运营过程中,其服务稳定性方面的表现,在业内有口皆碑。 本文将从影响CDN稳定性的几个因素出发,探究腾讯云CDN稳定背后的秘密。一、网络质量 网络质量是影响CDN稳定性的首要因素,运营商的网络环境会发生间歇性、地域性的抖动甚至服务中断,在用户看来症状往往是网络速度变慢、访问成功率下降,严重的会引起大规模的业务投诉。 为了避免运营商网络质量对CDN的影响,需要从两个层面来规避: 1)快速精准的感知网络质量的变化,在故障出现的初期将业务调离故障区域。做为CDN平台,对质量的监控是标准动作,但如何快速精准却是最大的挑战。 腾讯云CDN,拥有全国最准确的IP库,同时背靠腾讯的大数据平台,可以从海量的业务上报信息中快速感知网络波动。腾讯网络路由质量评测系统Q调,以QQ和QQ空间秒级上报的海量数据为基准,可快速分析出地区运营商级的时延迟、成功率波动,j2直播,并智能化的结合历史、外围信息分析,给出链路质量的定性评估。给GSLB调度系统更加快速、准确、合理的调度提供依据。 对于深度合作的客户业务,腾讯云CDN会将其上报的质量信息纳入决策系统,更加真实的反应业务实时的网络质量情况。 快速感知到网络质量问题把业务调走只是第一步。可以调度到合理的节点,业务质量不受影响,才是最终的目的,这个时候资源覆盖的广度和合理性显得更加重要。 腾讯云CDN在全国部署了500+加速节点,这些节点合理地分布在了各省市自治区,同时涵盖了移动、联通、电信三大运营商以及数十家中小型运营商,对于重点的省份、地区、运营商实现多节点覆盖。当部分节点服务不佳,GSLB有很多选择将用户调度到相同服务质量的节点,并且有足够的冗余承载这些服务,同时尽量避免跨区域调度,保证低时延。 腾讯云全国CDN节点分布图 SOC是腾讯云CDN近期大力建设的资源之一,在全国多个重点区域部署超大存储量、带宽资源丰富、网络质量高的超级节点。这样在边缘节点出现大面积网络故障时,就可以无缝承接附近大面积边缘节点的负载。此外,通过全网监控、智能调度、多节点覆盖、SOC容灾等方案,腾讯云CDN能够轻松应对运营商日常的各种网络问题。 腾讯云SOC节点示意图 二、节点异常 第二个可能影响到CDN质量的问题是节点异常。因此应对个别节点出现磁盘、网卡等硬件故障,以及系统、程序等软件故障,甚至是业务突增带来的系统高负载等等各种异常,则必须考虑保持CDN系统稳定性。 腾讯云CDN在全国有500多个加速节点,涉及到万台设备,在节点故障这个可控性更高的问题上,有着充分的话语权。同时腾讯业务多年海量服务的运营经验,为腾讯云CDN保障客户业务运维正常,提供了技术、服务支撑: 1) 在节点软硬件故障上,通过将秒级监控与切换、版本灰度发布、柔性可用、过载保护等海量技术融合到CDN具体的业务场景中,实现了节点、设备的有效管理与容灾。 (责任编辑:本港台直播) |