邱实 牟承晋:Fastly和Akamai断服断网深层原因的分析 - 昆仑策
邱实 牟承晋:Fastly和Akamai断服断网深层原因的分析
2021-07-18
2021年6月6日美国东部时间早上6点左右,“内容分发网络”(CDN,下同) 服务提供商Fastly(快速)公司发生技术问题,造成被托管的公司网站断服断网,其中包括:亚马逊、eBay、Reddit、Spotify、Twitch、Pinterest和全球第一大IT门户网站CNET等。CNET将其所遭遇的状况形容为“互联网崩溃的一天”(the day the Internet broke) 。 仅11天后,6月17日,全球排名前三的CDN服务提供商Akamai(阿卡迈)也出现技术故障,导致一些银行和航空公司受到断服断网的影响,其中包括美国西南航空公司和联合航空公司、澳大利亚联邦银行和西太平洋银行、澳大利亚和新西兰银行集团,以及香港证券交易所的网站。 Fastly成立于2011年,总部位于美国加利福尼亚州旧金山市,作为云计算服务提供商,其边缘计算平台提供内容分发网络、网信安全服务、负载均衡及视频流等服务。 Akamai成立于1998年,总部位于美国马萨诸塞州剑桥市,作为内容分发网络和云服务提供商,目前是世界上最大的分布式计算平台之一,承担了全球15-30%的互联网(Internet,下同) 流量。该公司经营着分布于世界各地的服务器网络,主要业务为出租服务器资源,通过“定位”访问服务器的用户位置以及“重定向”分发内容的最佳路径,以提高网站对用户访问的响应速度(即“加速”)。 根据业内对Fastly事故的一些调查,这些被断服断网的全球化大公司,似乎都没有建立任何自动响应系统来缓解此类事件,而且必须手动调整其域名系统(DNS) 记录,才能从中删除连接Fastly的设置,以屏蔽Fastly的服务。 1)更新软件,其中有一个之前未发现的错误 (bug) ; Akamai则称,其技术故障是由于为缓解分布式拒绝服务攻击(DDoS) ,所配置的某个“路由表”(routing table) 容量不足。 通常在所有软件中总是存在或多或少的问题、已知或未知的错误,这是可以被理解的;但是,这两起事件使相关的客户及其品牌损失数以百万计美元,难道可以被“习以为常”、“不以为然”吗?虽然,看起来服务与被服务之间存在着各种形式的矛盾,这个问题却是值得深入关注和探讨,且具有显著的关联现实,包括(但不限于): ● “零信任”是风险管理意识和机制,或“深度依赖”技术产品和服务,使得安全责任被外包(或转嫁)给了厂商; ● 网信资源的整合,衍生出的托管和代管的“不透明”模式,或使得数据管辖权和主权的被转移(或“让渡”); ● 为什么域名系统 (DNS) 总是通信网络中最大的单点故障? 不局限于技术上难以避免的失误或错误,综合多方面对Fastly和Akamai事故和事件原因的根源分析(作为参考启示),归纳如下。 对于Fastly和Akamai的这两起事故或事件可以被“习以为常吗?”(What's the big deal?) 2016年甲骨文(Oracle) DYN断服,2020年Cloudflare、微软Azure和亚马逊AWS断网等类似事件发生后,业内普遍缺乏采取相应的行动,足以证明:对于没有直接受到断服断网事件影响的人们,可能会持“无所谓”的观望态度。倘若继续如此,类似Fastly和Akamai的事件必将会再次发生,或将波及你、我、他。 另一方面,虽然在现实中确实存在不同程度的限制或约束(例如,预算与相互冲突的项目优先级),导致难以扭转(惯性),或无可奈何(惰性)。但更令人担忧的是,云计算和CDN通常被作为托管和代管数据的服务,以及作为缓解网络断服断网的首选解决方案。因此,即使当这些云计算和CDN巨头也倒下时,决策者(或客户)通常会觉得他们已经尽力而为了,或已是无能为力了。 近年来,“零信任”已成为网信安全(Cyber Security) 领域中非常流行的概念,形成一种覆盖整个网络架构(Network Architecture) 安全风险管理的理念。与此同时,“零信任”理念与信息技术(IT) 和安全专业人员对云服务依赖性的坚定观念(有时甚至与“信任”不相适应),形成了鲜明反差,即网信安全有差别的风险管理与对技术产品和服务“深度依赖”的不对等,或本末倒置。 2020年11月6日,谷歌(Google) 发表了一篇题为“云信任之悖论”(the cloud trust paradox) 的文章,阐述了在使用云服务中的信赖及作用,即:“使用公有云的基本观念”与“信任你的云服务商”关系密不可分;使得在现实中普遍存在的状态是,安全风险被外包给“可信赖”的代理厂商,而不是构建真正的“零信任”网络。 正如Google文章的标题所启示的:“对于云计算越是信任,则越是需要有能力减少对其依赖”(to trust cloud computing more, you need the ability to trust it less) 。故此,业内专家们呼吁,在信息技术安全领域,必须开始减少对CDN和云资源的信赖性,以维护更好的安全态势。 诸如Fastly和Akamai事件的技术性问题,企业通常难以控制。怎样才能减少对技术和产品的信赖性,以降低安全风险? 为此,有必要深入地探讨在这类安全事件背后的非技术性根本原因。 2019年2月26日,互联网协会(ISOC) 发布了一份题为《互联网经济的整合》重要报告。其中阐述:互联网基础设施被集中于少数服务提供商的状态,给全球互联网和更为广泛的社会带来安全风险。 虽然互联网的整合不是信息技术(IT) 和安全界的常见讨论主题,但是必须认识到:互联网的整合和集中,是Fastly和Akamai事件的根本原因之一。任何有意义、有效地缓解安全风险的策略和对策,都应该是以这个(非技术性)角度为基点进行考量和驱动。 互联网被整合的后果之一是,产生了只对少数服务提供商的深度依赖,一旦这些服务提供商出现问题或发生事故,也就导致互联网的断服断网。Fastly和Akamai的事件就是最新的例证。 在互联网协会(ISOC) 的报告中,描述了互联网的整合,主要发生在三个方面: 1)互联网的应用 (Internet Applications)。 如今,少数公司运营和经营着一些互联网最流行的服务。仅Google就占据了全球搜索市场的90%、超过60%的网络浏览器、(迄今为止)排名第一的移动操作系统(Android) 、顶级的用户自媒体视频平台(YouTube) ,并且拥有超过15亿活跃用户的电子邮件服务(Gmail) 。 在中国也有类似整合的集中度,阿里巴巴和腾讯公司分别主导着电子商务和社交媒体平台。互联网在应用层面的集中度显而易见。这种状态本身就产生了一些问题。 2)准入规定 (Access Provision)。 由于收入基础降低和进入成本高,更加推动了互联网服务提供商的整合(集中)。 3)服务基础设施 (Service Infrastructure)。 CDN和云服务提供商之间正在发生整合,而这两者都是基础设施的基本组成部分。在全球排名前1,000的网站中,CDN的使用率从2014年6月的50%,增长到2018年8月(估计)的87.5%。 在对应用CDN采样网站的分析样本中,CDN服务的市场分布为:亚马逊(CloudFront) 占比27%,Akamai占比27%,而Fastly占比8%。 虽然Fastly占有8%的可观市场份额,仍尚未达到决定性的规模和数量。为什么Fastly的断服影响会如此广泛? 2021年7月3日,思科(Cisco) 公司的“千眼”(Thousand Eyes)对Fastly和Akamai事件深入调查并发布的“互联网报告”《BGP路由事故证明为什么最短路径并不总是被选择的路径》(注:“BGP”是边界网关协议) 中,给出了至少两个相互关联的现象,且是值得关注的事实: 1)通过查看一些最大的在线服务所使用的IP地址,调查发现其中一些CDN和云服务提供商,也在冗余(热备份)地使用Fastly。这是因为,互联网环境已经变得如此之集中,以至于即使是CDN和云服务提供商本身的冗余(热备份)方式,也只是在几个主要玩家之间的操作。结果是,(例如)某客户使用Akamai的CDN服务,而实际上可能正在通过Fastly传输一些数据流量;当Fastly断服时,它也影响了使用Akamai的CDN客户端。这种不透明的关联操作以及交叉和深度的依赖性,在事实上已经远远超出大多数人的想象。 2)调查发现的另一个有趣的事实是,受断服断网影响的企业最有可能使用域名服务器(DNS) 恢复连接和服务,实际上有些企业比Fastly恢复得更快。 由此,再回顾互联网协会(ISOC) 在其报告中强调的另一个关键服务基础设施DNS(域名系统),并指出,递归域名系统(DNS) 和权威域名系统(DNS) 以及相关的域名解析服务,都经历过(或完成了)重大整合。 2020年10月,美国卡内基•梅隆大学的专业研究人员调查和分析了从2016年甲骨文(Oracle) DYN的DNS大规模断服断网事件中市场是否由此汲取了教训。在其所发布的论文中: ● 指出,在该事件的四年后,集中化的DNS服务提供商对市场及应用的影响,不仅几乎没有改变,而且反而大大地增强了;只有托管顶级域名的少数DNS服务提供商,支持DNS多样性并鼓励客户进行最佳实践。 ● 强调,一个关键问题是,市场应用最广泛的DNS服务提供商,也正是最大的CDN和云服务提供商,这就造成了另一层面的垂直集中和整合,使安全状况趋于更加恶化。 在此调查研究的基础上,2020年11月30日,卡内基•梅隆大学的专业研究人员发表专题分析文章,给出的结论是:如果 Cloudflare、亚马逊AWS或GoDaddy(域名注册和服务提供商)的DNS断服,在Alexa的全球网站排名中前100,000个网站中约有40%的网站也会因此而断网。因此,DNS的功能定位及其关联作用必须得到明确强调以及部署实施。 虽然CDN被归类为网络关键基础结构,但它只影响CDN所承载的在线数据和服务。在Fastly和Akamai的事件中,任何未直接连接到CDN的业务和服务(如电子邮件服务器)基本上不受影响。但是,DNS几乎从局域网到互联网都关系到所有互联互通的行为,包括用户和客户连接到CDN和任何云服务,以及这些连接被动态地“导航”,而用户和客户对此并不知情(或无须知晓)。 因此,集中式(CDN和云服务) 的DNS对行业和企业的整体安全态势影响,决不可低估、小觑。此外,由于DNS是一些公司用来从断服断网事件中恢复服务的手段,进一步印证了DNS在现代网络和网络互联互通设计中的关键地位。
【图1 避免对集中式服务的深度依赖,独立配置且不使用免费DNS】
Fastly和Akamai的断服断网事件,再一次暴露了CDN、云服务、DNS等互联网关键基础设施服务集中整合的安全风险问题。由于主要CDN和云服务提供商之间的高度依赖性和关联性,使这个问题变得更加严重、突出。 虽然已知互联网集中化存在严重的安全问题,但必须强调的是,互联网的整合也带来了很多积极因素。例如,CDN提供商的集中为内容交付创造了规模化数字经济,也显著地降低了网络数据传输的成本。DNS服务提供商的集中化,使得拥有足够的能力以应对太比特级(Terabit) 的DDoS攻击。类似于谷歌的突出地位,还有助于互联网关键新协议的测试和开发,如QUIC(Quick UDP Internet Connection,谷歌制定的一种基于UDP的低时延的互联网传输层协议) 。 因此,对于业务、服务和运营高度依赖互联网,且仍在维护自有网络基础设施环境的行业和企业,首先应利用互联网整合的集中化优点,有差别地将服务转移和托管到适当的CDN、云和DNS,以降低成本并提高适应性(和弹性)。但是,并不应局限和止步于此。 一旦成本因素得到控制,安全基线状况(BSP) 得到改善,就应考虑如何利用这些关键基础设施的多样化降低安全风险。优先与重点意味着在发展过程中的事物变化,以及重要性和关键性的适时调整。怎么确定CDN、云和DNS中哪里更关键呢? 互联网的标量(Invariants) 是互联网的基本组成部分,而且标量无论如何都不会被改变。用互联网协会(ISOC) 的话来说,互联网的标量是“真正重要的”(What really matters) 。 互联网标量的一个实际示例是:互联网协议(IP) ,奠定了互联网的互操作性基础。此外,DNS也是互联网标量,因为互联网需要“全球性可管理的寻址和域名解析服务”,才能保持高度一致性的运行。不论是在本地还是在云上托管服务器,或是如何加速网站的访问响应速度,都会随着时间而演变;而且,互联网协议(IP) 的作用和域名系统(DNS) 的功能不会被改变。 因此,业内专家一直强调DNS是最为关键的互联网基础设施之一,应该被作为更高的优先重点;并且DNS应该与其他互联网服务基础设施分离(图1),依托于专业专职的DNS技术研发和服务提供商,以避免对集中性服务的深度依赖。 ● 横向 (horizontally) 集中,是指大多数CDN服务被整合到诸如Akamai、Cloudflare的巨头以及其他一些非主流厂商(再整合)。 ● 垂直 (vertically) 集中,是指行业或企业将其自身的业务和服务被整合到单个服务提供商,包括CDN、云托管和DNS的集中。 横向整合和集中超出了单一公司的可控制范围,主要由市场和资本的力量所决定。应注意,垂直整合和集中可能是在客户不知情的状态下发生(或是由于对服务提供商的深度依赖)。因此,为了降低安全风险,行业和企业必须开始与这些大型服务供应商之间的复杂且相互依赖的关系网“脱钩”(decoupling) 。最好的初始方法是,通过分离和多样化CDN、云托管和DNS服务提供商,以尽量减少垂直集中和整合。 互联网服务基础设施之所以非常重要,是因为其中(供应链)的任何一个组成部分都可以造成单点故障,并且导致严重的断服断网。因此,应尽可能地避免垂直整合和集中。 在“垂直”整合和集中的背后,往往是由业务和服务的需求驱动,但却也不乏是缺少关键技术(或是资本操纵)的托管代管、外包转包(数据资产)。以Akamai的CDN为例,其以“一致性哈希”(Consistent Hashing) 和“随机树”(Random Tree) 的原创算法为基础,拥有700多项技术专利。可是,DNS的开源开放软件BIND不仅是“事实上的标准”,且提供免费的下载应用。另一方面,2015年6月,谷歌提出互联网关键新协议“QUIC”草案,之后经过34次修改,于2021年5月成为因特网工程任务组(IETF) 的“拟议标准”(RFC 9000) ,或将成为互联网传输层协议UDP的新标准。一旦“QUIC”成为新标准,对DNS、浏览器、操作系统等都将会产生一次重大变革。 换言之,对CDN、云托管和DNS服务提供商的“深度依赖”,不能不说缺乏底层和关键技术是主要原因之一。所以,尽可能地避免垂直整合,踏实、认真地在“卡脖子的地方下大功夫”(如协议栈)至关重要,不可或缺、不可偏颇、不可掉以轻心。 互联网整合所带来的问题很难解决,主要是由于整合也带来了很多好处。主要的好处包括:财务和管理。在财务上,更高等级的安全性与成本之间总是有一个权衡;但当涉及到运营优势时,总是伴随着基础设施多样化,而能够从统一管理中获益。以DNS管理为例,可以依托于一个服务提供商作为主营,同时所有更新将自动复制到DNS的辅助基础结构。在选择提供互联网服务基础设施的服务供应商时,将多元化服务基础设施作为其中一个因素,同时选择的服务提供商具有必要的安全级别和技术实力。多元化的互联网最终更加稳定和安全,但只有通过统一管理,才能更有效、更好地实现之。 综上,在网信空间,“零信任”与“深度依赖”不仅涉及以数据占有权(即所有权)和数据管辖权及主权为重点的地缘政治问题,甚至是跨越了数字比特和字节的范围,一直延伸到整个社会的情绪衍伸问题 。所以,“零信任”不仅是网信三元组(triad) “安全性、隐私性和合规性”的关键基础,而且是信任与信赖的(杠杆)支点,以及对避免“深度依赖”技术和服务的权衡点。这是网信安全不可逆转的必然趋势 。(作者:邱实,网络信息安全技术专家;牟承晋,昆仑策研究院高级研究员、中国移动通信联合会国际战略研究中心主任。来源:昆仑策网【原创】 ,作者授权发布)
【昆仑策研究院】作为综合性战略研究和咨询服务机构,遵循国家宪法和法律,秉持对国家、对社会、对客户负责,讲真话、讲实话的信条,追崇研究价值的客观性、公正性,旨在聚贤才、集民智、析实情、献明策,为实现中华民族伟大复兴的“中国梦”而奋斗。 欢迎您积极参与和投稿。
电子邮箱: [email protected]
更多文章请看《昆仑策网》,网址:
http://www.kunlunce.cn
http://www.kunlunce.net
相关文章