本文来自合作媒体:腾讯科技,审校:承曦。猎云网经授权发布。
在2020年上半年的全球性新冠疫情中,包括亚马逊、奈飞、YouTube在内的互联网服务迎来了使用高峰期,一时间网站、软件、网络出现拥堵,互联网企业和背后的云计算公司迅速采集紧急措施,应对如潮的访问流量和业务请求。据外媒最新消息,6月16日,微软公司披露了诸多内幕细节,回顾该公司的云计算(云计算平台)团队如何进入“战时状态”,保障互联网服务的安全和稳定。
据国外媒体报道,在过去的几个月中,微软一直在提供该公司如何努力增加云计算容量的最新信息。微软高管曾谈到公司对急救人员、医护人员和其他一线工作人员需求的优先排序。6月16日,微软公布了更多内幕信息和细节,他们还公开承认,供应链挑战导致了一些所需数据中心组件的短缺,进一步加剧了云计算供应不足问题。
微软高管介绍称,随着访问流量急剧增加,微软数据中心的员工一直在昼夜不停地安装新服务器(同时还要保持大约两米的社交距离)。微软首先在受灾最严重的地区增加了新的服务器,并一天24小时不休息安装新的服务器机架。
据介绍,微软还将自己的一条跨大西洋海底电缆的容量增加了一倍,并“与另一条海底光缆的所有者进行了谈判,以增加容量”。最终,微软工程师在两周内将北美到欧洲海底光缆的部署容量翻了三倍。
与此同时,微软产品团队查看了运行在云计算平台上的所有微软服务,以便为一些更加重要的服务释放更多的容量,这包括了视频会议和企业协作工具Teams(全球新冠疫情最受益的少数软件之一)、Office办公软件、Windows虚拟桌面、“云计算活动目录”应用代理和Xbox网络游戏等。
在某些情况下,工程师们重写代码以提高效率,就像他们在视频服务中所做的那样,微软高管介绍说,他们在一个周末的时间里提高了10倍的运行效率。
高管介绍,最重要的Teams服务被要求在一周内将访问负荷分散到其他数据中心区域,而在往常,这样的过程需要几个月的时间。此外,微软的云计算广域网团队在两个月内为承载微软数据的光纤网络增加了110Tb的容量,同时还有12个新的边缘计算站点将网络直接连接到本地互联网提供商的基础设施,以帮助减少网络拥塞。
高管们表示,微软还转移了自己的内部云计算平台工作负载,以避免全球需求高峰,并转移高需求地区的流量。在消费者方面,微软还将游戏工作负载从英国和亚洲的高需求数据中心转移出来,并努力降低一天中高峰时段的带宽使用量。
微软还必须更新其预测模型,新模型需要考虑到新冠疫情大流行导致的云服务需求的大幅上升。微软在多重预测建模技术(ARIMA、加法、乘法、对数)中增加了一些基本的国别上限。该公司还调整了其模型,以考虑到每个行业和地理区域的使用情况的变化和增长模式,同时加入了按国家划分的关于新冠疫情影响的外部数据。
微软高管们表示,在整个过程中,微软犯了过度谨慎的错误,但随着使用模式的稳定,团队也在必要时进行了扩容。
微软增加了新的路由策略来利用空闲的云计算资源。高管们介绍称,电话和视频会议的流量被路由到多个地区,以应对使用高峰,此外,时间负载平衡帮助微软避免了网络节流。
使用云计算平台“前门”,微软能够在国家的级别上路由流量。它对缓存和存储进行了大量改进,最终帮助实现了负载大小减少65%,反序列化时间减少40%,序列化时间减少20%。
微软还调整了其故障管理政策。它将故障管理周期从每周一次改为每天一次。它从整个公司引入了更多的故障经理,并推迟了所有非关键的服务变更。
高管们说,所有这些云计算容量扩展将影响微软如何构建和维护其基于云计算平台的互联网服务,比如Teams。
高管们在微软的博客文章中说:“我们今天通过简单地改变配置文件所能做的,过去可能需要购买新设备,甚至建设新的数据中心建筑。”
在这一次新冠疫情中,视频会议的应用变得更加普及。在Teams的未来发展方面,微软计划使用其云计算平台的“ Kubernetes服务”,将Teams从基于虚拟机的部署过渡到基于容器的部署。
在云计算时代,企业和政府部门无需再购买昂贵的服务器或者软件,搭建联网机房,他们只需要从云计算公司按月购买各种云服务,这样费用大幅减少,与此同时,云计算公司在整个社会通信、互联网、经济活动中的角色变得越来越重要,一旦发生故障将会影响到不计其数的公司或机构。
第三方报告显示,微软位居全球云计算市场的第二名,大约占据15%的份额,亚马逊成为行业龙头,占据了半壁江山。IBM、甲骨文、谷歌等公司则蚕食其余份额。