2020 年新冠肺炎 “黑天鹅事件” 肆虐全球,出于疫情防控的需要,以往发生在线下的面对面的诸多工作与生活场景不得不转移到线上,催生或者说加速了云会议、云打卡、云诊断、云教学、云游戏、云监工等一系列新型 “宅经济” 的蓬勃发展,从真正意义上掀开了万物云化与全民用云时代来临的大幕。
但对于互联网技术服务供应商而言,无限的机遇之下却也暗藏着无限的挑战:面对海量的数据、超强的流量冲击、潮涌式的需求,如果保证平台不宕机、低时延、快速吞吐数据,用长时间稳定高效的服务保障用户的使用体验成了最核心的痛点。
事实证明,面对这次 “大考”,腾讯不但 “抗住” 了,应对时的从容表现更是抢眼 —— 从日活超千万到为联合国 75 周年活动提供线上服务,腾讯会议仅仅用了不到四个月的时间,而这背后依靠的就是具有极强的处理能力与支撑能力的云计算与服务器。
去年,腾讯发布了 “为云而生” 的星星海首款自研服务器,目前云上的服务规模已经超过 30 倍。今年 12 月 20 日,在一年一度的腾讯 2020 Techo Park 开发者大会上,腾讯云在 “下一代软硬一体化的云计算基础设施” 分论坛上,重磅发布了两款来自 “腾讯云星星海家族” 的最新产品 —— 星星海首款自研 GPU 服务器和星星海新一代自研双路服务器。
星星海 GPU 服务器 - 云游戏的定海神针
“针对具体的应用场景,我们结合具体的业务需求,对服务器性能进行了优化。比如,在云游戏场景中,客户对单卡 TCO,单一用户成本非常敏感,也迫切地需要降低成本。” 腾讯云服务器与供应链管理部总经理刘裕勋在开发者大会现场说道。
据 iiMedia Research(艾媒咨询)数据显示,2019 年云游戏用户规模约为 1.33 亿人,预计 2023 年用户规模将达 6.58 亿人,这意味着每 11 个人中间,就有一位是云游戏用户。玩家在玩云游戏时,如果单卡总成本非常高,就会出现单卡挂死甚至整机挂死的情况。导致这种情况的原因之一,是因为现有 GPU 服务器的机箱长度过长,无法满足低延时边缘部署。
深受广大玩家喜爱的云游戏场景,其实只是对于云算力巨大需求的一个小小侧面,最新的人工智能模型对于算力的要求往往都是非常高的,比如谷歌的 T5,其整个模型的参数数量达到了惊人的 110 亿,甚至谷歌科学家直接在 T5 的论文指出:“越大的模型往往表现更好。这表现扩大规模可能仍然是实现更好性能的方式。” 而一般的创业公司如果没有雄厚的资金实力是不可能搭建这种级别的 AI 训练平台。只有依靠云计算才能使 AI、区块链等新兴技术真正落地生根,发展壮大。
根据 IDC 的研究资料,截止到 2021 年,全球企业对于 AI 系统的支出将保持 50.1% 的年复合增长率,这说明企业对这些技术的总支出将从 2017 年的 120 亿美元增加到 2021 年的 576 亿美元。云计算尤其是 AI 云已经形成一个不可忽略的细分市场,尤其是在疫情影响下各行业上云意愿明显加强,这也对于云计算的算力底座提出了更高的要求,而日前腾讯云星星海发布的首款自研 GPU 服务器和新一代自研双路服务器堪称是云算力底座的标竿式产品。
腾讯云星星海发布首款自研 GPU 服务器,以及它的支持 16 卡 GPU+4 路 Intel 服务器、达到业界最高算力密度与此同时还大幅降低了单卡 TCO,这些特性使腾讯云在向企业提供 AI 算力或者向玩家提供 AI 云服务时都堪称是定海神针式的存在。
腾讯云星星海推出的首款自研 GPU 服务器,在技术方面主要有 “一独” 和 “三最” 等四大优势。
图 | 腾讯云星星海首款自研 GPU 服务器
“一独” 指的是在设计上,该 GPU 服务器采用全球首创的、可在同一框架内灵活更换的主板,此外还克服了通用计算和异构计算兼容对系统的挑战,做到支持多平台兼容。
“三最” 分别指的是最大密度、最短机框和最高可用性。该 GPU 服务器可结合业务对 PCIe 带宽要求低的特点,来支持 16 卡 GPU 和 4 路 Intel 服务器,是目前业界密度最高的 GPU 服务器,故此可使单卡 TCO 大幅降低。它还拥有目前业界最短机框,可支持边缘部署,在提高带宽稳定性的同时,还能极大降低业务延时,最高可降近百毫秒。此外,基于该 GPU 服务器的 RAS 特性以及 PCIe 热插拔特性,遇到单 GPU 卡故障,也不会对整机产生影响,因此用户可用性相对较高。
而以上这些技术还可以让星星海首款自研 GPU 服务器在与对手同台竞技时拥有以下优势:
低成本:由于大多数的 AI 工作任务被认为是 “突发性” 的,也就是说,他们依赖于那些能够在短时提供大量计算能力的服务。星星海 GPU 服务器只会针对用户去收取那些他们进行硬件使用时的费用,这大大降低了他们的成本。
可扩展:与其他的云服务一样,星星海首款自研 GPU 服务器提供的 AI 云服务本身也具有较高的可扩展性。企业可以从一个试点项目开始,然后随着需求的提升,快速扩展他们 AI 服务的规模。
高可用:一般来讲云计算的可用性,会比传统架构的系统高出两个量级,而星星海服务器在高可用方面更有独到的设计,在高可用方面相信还会更有保证。
星星海自研服务器 - 云算力底座的最强神器
像金融领域一样,目前的技术也开始朝着普惠的方向转变,并且还应满足客户的个性化与定制化需求,达到快速响应,而这些都需要强大的算力支撑。
但是,如腾讯云服务器与供应链管理部总经理刘裕勋所说,随着云计算承载的业务规模越来越大,传统服务器难以完全满足云计算数据中心场景下对超大规模、需求多样、高性价比、安全可靠以及软硬件一体化等方面的要求。
腾讯云星星海发布的新一代自研双路服务器就是算力底座中的王者。这款服务器是国内首款搭载即将发布的第三代英特尔至强可扩展处理器(Ice Lake)的双路服务器。
图 | 腾讯云星星海新一代自研双路服务器
该服务器是云服务的硬件基础,采用英特尔 10nm 工艺处理器。在第二代英特尔傲腾持久内存的支持下,双路服务器单机最高支持 12TB 内存,这可满足大型数据库等业务需求,用户也可获得更强的计算性能。
另外,双路服务器的免工具模组化设计,可使全系列服务器共用成为现实,这不仅能覆盖全业务场景,还能实现弹性部署,且可降低云服务总体成本。
在安全技术上,双路服务器采用英特尔 ?SGX 技术,最大可支持 1TB enclave;其还采用加密加速技术,在增强安全性的同时,还可满足创新云业务的安全需求。
概括来说,其不仅能为用户提供更高的内存带宽、更快的 I/O 吞吐、更强的实例性能,还可帮助用户基于英特尔深度学习加速技术,来获得处理器内置 AI 加速能力。主要应用场景有通用计算、异构计算、裸金属、高性能计算等。此外,在生命科学和金融服务领域,基于英特尔 ??AVX-512 扩展指令集,腾讯云星星海新一代自研双路服务器对应的服务器实例在高性能计算机群场景下表现出较大提升。
除立足于当下,以上两款服务器也已为将来做准备,基于硬件系统架构设计和持续不断的基础技术研究,上述服务器可支持未来 3-5 年的前瞻性架构演变,也就是说云上开发部署可以提前享受技术红利。
腾讯云星星海 - 追逐科技时代的星辰大海
如果将数据比作这个数字时代的石油,那么腾讯社交帝国凭借其丰富的业务场景与庞大的用户基数,就为其科研团队提供了世界上最大的原油储存基地,这些都为前沿的 AI 研究成果提供了令整个业界都非常羡慕的绝佳 “训练场”,而拥有了这样高的训练水平,腾讯技术方面取得如此的突破也就不足为奇了。
据悉,上述两款自研服务器均诞生于腾讯云星星海实验室,它是腾讯史上首个硬件工程实验室,也是腾讯云面向产业互联网加速技术自研的重要战略。
该实验室至今未满一岁,其名字取自青海省果洛藏族自治州玛多星星海,玛多星星海地处黄河源头,这样的命名既预表着该实验室兼具灵动和智慧,亦是科技对古老的致敬。
该实验室主要专注于硬件系统架构设计和前瞻性基础技术研究,力图通过创新性高兼容架构、简洁可靠的自主设计,来提供云计算产品和服务,其目前正结合腾讯自有业务和上云客户的需求,在云原生服务器技术方面开展专项研发,此外其也是腾讯云与智慧产业事业群技术实验室矩阵中的一所。
“以硬为主” 的星星海,已拥有 20 多项专利和多款自主知识产权产品,其中包括四款自研服务器和一款智能网卡。
以 2019 年腾讯云发布的首款拥有完全自主知识产权的服务器产品星星海 SA2 云服务器为例,其已广泛应用于腾讯内部,如腾讯会议、腾讯教育、春节 QQ 红包、微信等产品和业务中。在疫情期间,星星海 SA2 云服务器支撑腾讯会议扩容 10 万多台云主机,日均扩容云主机近 1.5 万台,共涉及超百万核的计算资源投入,而以上工作量均在 8 天内完成。
最后不得不提的就是上述两款服务器,均发布于腾讯 2020 Techo Park 开发者大会。
什么是 Techo 呢?据大会虚拟主持人 “小七” 的介绍,所谓 Techo,就是 Tech(技术)和 Echo(回响)的合称,暗含着这一面向全球开发者和技术爱好者的平台具有的技术交流和分享属性。这个由腾讯发起的非商业大会,通过汇聚全球顶尖行业专家、企业高管、技术爱好者等共同研讨前沿技术,以助力开发者实现能力成长和实践创新。
本次 Techo Park 开发者大会的 Slogan 是 “代码传递思想,技术创造回响”,区块链、视频云、5G、AI、大数据等各个信息科技领域的 “大脑” 发表主题演讲和论坛,并吸引了来自科研机构、高校、创业公司的大批开发者齐聚现场。
尽管这只是 Techo Park 的第二次全球亮相,但其激烈碰撞的观点和接连发布的自研新品,仍然为试图洞察未来科技走向的参与者们打开了一扇窗。