超算,国家队出身,服务于国家级别的科研项目,也是一个国家科技发展水平和综合国力的标志之一。1983年,中国研制出第一台超级计算机银河一号,成为继美国、日本之后第三个能独立设计和研制超级计算机的国家。
全球超算TOP500排行榜就属于各个国家秀肌肉的典型比赛,每年两次。
而云计算,天生互联网基因,为追逐商业利益而生。
2006年,AWS正式对外开放。
2010年,阿里云正式对外。中国开始有了云计算。
超算近40年,云计算10年。
超算开始走下神坛,对外开放了一些商用的入口。比如我们找到了用“天河二号”来渲染某些群众喜闻乐见的动画片的证据——
而飞速发展的云计算,甚至让超算界逐渐有了“云超算”或者“超算云”的发展趋势。
2019年11月,我们只花了5000美金,用4个小时调用云算力跑进了全球超算TOP500榜单,成为全球第二、亚洲唯一一家完全用公有云算力跻身超级计算机榜单的公司。
超算发展了那么多年,终于遇到了一个像样的对手。
超算中心跟云计算中心到底有什么区别?
普通人怎么使用超算?
用超算工作是怎样的一种体验?
对于HPC(高性能计算)用户,云服务商和超算中心谁更有优势?
……
我们对国内超算中心和云计算中心进行一番全方位的对比,有以下结论:
1、超算总节点数不超过10万,云服务器总规模超过100万;
2、大部分超算资源不对外开放,云资源完全商业化,只对单个用户有配额限制;
3、超算提供基于传统HPC场景的一整套垂直方案,云基于IaaS层提供丰富的产品和服务种类供用户选择;
4、使用超算和云资源,对用户来说,各有各的难度;
5、超算只有排队作业和独占节点两种计费方式,云一般有按需、预留、竞价实例三种,使用灵活性和弹性高;
6、超算申请步骤繁琐、审核麻烦、商用昂贵,云几乎没有门槛;
7、超算的平均硬件更新周期一般为数年,而用户能够以最快的速度在云端体验最新硬件;
8、云拥有完整的第三方合作伙伴生态来更好地服务客户;
9、超算正在尝试向云靠拢。
以下是对比正文
终于迎来开学季
主要包含三个指标:总规模、可用规模和短时最大可调用规模。1、总规模
我们盘点了中国已落成的主要超算中心的总节点数量,总数为54588个,其中未包括一些正在建设中的超算中心,以及小型超算中心。即便加上这些数量,中国超算中心的总节点数量级也未过十万。那么国内主流云厂商有多少台服务器呢?虽然各大云厂商并没有公开自身的服务器总数,但我们可以从其可用区的数量来进行推算。可用区的概念是一个数据中心群,通常包含若干个超大规模数据中心。2018年6月,阿里云宣布已在全球18个地域开放了44个可用区,当时国泰君安出的投研报告估算其服务器总量超过50万台,即单个可用区约有1.14万台服务器。如今阿里云在全球共有63个可用区,其中国内有41个。可推算出阿里云在全球约有71.5万台服务器,国内约为46.5万台。
根据IDC公布的中国公有云市场份额占比,阿里云以46.5万台服务器抢下了超过40%的市场份额,我们据此反推出国内云厂商的服务器总量超过116万台,与超算中心完全不在一个数量级,可以看下图感受一下差距。
2、可用规模传统超算中心是典型的圈地自萌,各个中心之间互不相通。而云计算中心的各个可用区之间是可以打通的,甚至还可以在不同云厂商之间通过API调用打通使用,这意味着云计算中心的可用规模约等于其总规模。超算中心需要保障有充足的算力供给国家级科研项目,通常只会拿出少量的资源对外开放,且对单个用户申请的资源上限进行严格审核,如国家超级计算长沙中心规定单个用户最多使用100个节点,不到其节点总数的5%。云计算中心对于单个用户也有类似的限制,称为“服务配额”,该配额根据账号的使用情况与可用区的实际情况而定。跟信用卡额度有异曲同工之妙。3、短时最大可调用规模云计算的一大特色就是具备短时间内大规模调用海量计算资源的能力,这一能力已在各行各业经过了充分的验证。前不久,哈佛大学医学院在《Nature》发布了VirtualFlow开源药物发现平台,称利用该平台调用16万个CPU对接10亿个分子仅耗时约15小时,而使用1万个CPU则需要2周。
再看一般难获取的GPU资源。2019年11月,SDSC圣地亚哥超级计算中心联合威斯康星州冰立方粒子天体物理中心在AWS,Azure和Google云上一共调度了超过5万GPU完成一次仿真模拟计算试验。
使用体验
如果说超算中心是套餐,基本都给你配好了;云计算中心就是自助餐,想怎么搭就怎么搭。超算中心面向的是典型的传统高性能计算(HPC)场景,基于大规模并行计算而设计的,在基础架构上进行了一定的适配,提供的是一整套垂直方案,这使得超算的专用性极强,而通用性则较弱,因此提供的产品与服务较为固定化。而云则是基于IaaS层服务,更底层和模块化,提供的是层级丰富、类型多样的产品和服务,软件定义的特点使其可以根据任务自由分配资源,在面对不同的用户时通用性更强,用户可以根据需要自行搭配使用。
我们将分为基础资源、附加服务、使用难度三方面来对比:1、基础资源基础资源包括计算资源、存储空间、网络带宽。超算的计算节点是影响性能指标的核心部分,过去的超算大多采用同构计算(由纯CPU组成计算节点),后来研究人员发现GPU在计算加速上优势巨大,于是不少超算开始采用异构计算(由CPU GPU组成计算节点),其中CPU和GPU均可单独对外出租。而云计算中心除了常见CPU和GPU之外,还包括FPGA和TPU,相比超算中心更为丰富。传统超算中心的节点是物理机,几乎没有调整余地。比如国家超级计算天津中心“天河一号”的节点配置为:双路12核,2*Intel Xeon X5670@2.93GHz Tesla M2050,内存24GB/48GB
一张表就涵盖了整个超算中心能提供的所有的计算资源、存储空间、网络带宽。长沙中心的基础资源则包括以下内容:
虽然相比天津中心有了更多的选择,但整体选择余地依然不大。云计算中心主要提供的是虚拟资源,用户能够享受到更为丰富的计算资源选择。如某公有云厂商的企业级云服务器ECS分为通用型、计算型、内存型、大数据型、GPU型、本地SSD型、高主频型、FPGA型、弹性裸金属九大类,其中每一种类型还可以选择与不同存储和网络的组合。
存储空间方面,可以选择20-500GiB不等的高效云盘或SSD云盘作为系统盘,单块数据盘最多则可配到32768GiB。
网络带宽的选择范围也很大,用户可以选择“按固定带宽”和“按使用流量”两种带宽计费模式,前者的带宽值可选范围为1-200M,后者的带宽峰值可选范围为1-100M。
综合计算资源、存储空间、网络带宽,云计算中心给用户提供了更多选择的空间。2、附加服务在基础资源之外,超算中心偶尔也会提供一些附加服务,但并不多见,如某高校超算中心为用户提供以下服务:
云计算中心提供的服务完全就是另一幅画风了,就看你想要什么吧。
3、使用难度说起使用难度,超算中心与云计算中心各有各的难。在系统方面,主流超算大多使用Linux系统,对于许多习惯了图形界面操作系统的用户而言,存在一定的上手难度。贴一张超算的实际操作界面,大家感受一下——
这种命令行界面对不少非计算机专业的用户可以起到良好的劝退效果。另一方面,虽然目前的超算中心大多使用Linux系统,但几乎每个超算都会使用不同的系统版本,这就导致其命令行下的命令也会存在一定的区别,比如有些命令是各个发行版本定制的(如Red Hat的rhn_register命令是其独有的,其他版本不存在),一旦用户需要更换超算中心使用,就需要额外的学习成本。
相比之下,云计算中心就友好一些,以图形化界面为主。而且,他们把选择权交给用户,提供丰富的产品和服务。但是,问题来了。云和本地资源的管理方式、部署模式和收费模式有很大区别,不同云厂商之间也有不少区别。目前主流云厂商所提供的产品线已经相当完善,有不少面向行业的解决方案。但产品和服务数量实在是过于庞大,入口也很多,最终导致操作层面的复杂性。而因为云上近乎无限的资源池总量带来的超大规模集群的调度和管理,是传统手动模式无法跟上的。更不用说涉及到本地和云同时使用的混合云场景IT自动化管理,或者多本地 多云场景IT自动化管理,这些都对IT技术能力有很多新的要求。因此,从基础资源,附加服务,使用难度而言,超算中心与云计算中心的使用体验也有很大差距。
计费方式
超算中心的计费方式主要有排队作业和独占节点两种。排队作业的意思是,付费用户的作业与其他用户的作业一起参与排队,用户作业所需资源具备时开始运行,用户需要按照实际使用的机时支付相关费用。
这意味着太紧急的任务接不了,因为你不知道何时能排到;太大的任务也接不了,因为等待合适资源的时间可能会非常久。我们来看第二种计费方式——独占节点,这与云计算中心的预留实例类似,可按月/半年/年使用付费。以下是国家超级计算长沙中心通用CPU服务器的配置及收费标准(单位:万元/年),可以看到根据合约的长短,超算中心会给予一定的折扣:
至于云计算中心,之前我们对包括AWS、阿里云、Azure、Google Cloud、华为云、腾讯云在内的六家主流云厂商的计费模式有过非常详细的分析:
预留实例:相当于批发,买定离手。主要针对中长期稳定需求,优点是价格整体比较低,缺点是资源必须长期持有,灵活性差。按需实例:相当于零售,即买即用。针对短期弹性需求,按小时计费,灵活精准,避免浪费,但价格比较高。可被抢占实例:相当于秒杀,手快有手慢无。价格可高可低波动大,随时可能被抢占,需要有一定的技术实力才能使用。总结一下两者的计费方式,超算由于资源有限,只有排队作业和独占节点两种方式,且存在限制;云计算中心的计费方式则包括预留实例、按需实例、可被抢占实例,相比超算更为灵活。
商用门槛
首先是流程,几乎每家超算中心都有一套申请、审核、使用流程,平均需要5.8个步骤。以国家超级计算天津中心为例,其步骤如下:
其次是审核,并非用户递交了申请,就一定能够获得通过,由于超算中心的资源会优先供给科研项目,因此对高校用户较为友好,商业用户的优先级则相对较低。最后是收费。高校超算中心通常会对本院校内的用户实施优惠政策,有时优惠价格甚至只有商业用户的四分之一。
而与云计算中心类似的是,超算中心也制定了“量大从优”的优惠政策,但是这个量的上限可能很快到达。
步骤繁琐、审核不易、商用昂贵,这些使用门槛会进一步阻碍商业用户使用超算的热情。至于云计算中心,其为商用而生的本质注定了云几乎不存在门槛:1、申请云资源流程简便,可以说是即开即用;2、收费上,每家公有云厂商都有多种资源模式,用户可以根据自己的实际需求选择合适的模式,以最大程度节省成本;3、云厂商的各类打折促销活动和新用户优惠层出不穷;4、对于商业用户,云厂商往往会推出企业折扣。
更新周期
当天中午12点,国内某云厂商便宣布其基于Cascade Lake的全新一代通用计算增强型云服务器C6正式转为商用。此时,Intel在北京的发布会尚未结束,距旧金山的发布会开始也还不到12小时。
合作生态
各大云厂商均打造了完整的合作伙伴体系和计划,包括一系列的培训与认证,为广大第三方提供包括产品课程、解决方案课程、认证培训课程在内的多项课程。云厂商还会对合作伙伴的种类进行明确的划分,比如某公有云厂商便将合作伙伴分为系统集成商、战略咨询公司、代理机构、托管服务提供商、原始设备制造商、半导体制造商、网络运营商,不同类型的合作伙伴各司其职,技术互补,形成一条完整的生态链,为其客户多角度、全方位、常态化地提供形形色色的服务。这些恰恰都是传统超算中心所欠缺的,究其原因,在于其底层差异——超算是一套封闭的系统,而云是一个开放的平台。
超算云 VS 云超算
不管是超算云还是云超算,我们看到的概念基本是将超算的既有资源以云的形式卖出去,包括计费和服务都在向云靠拢。目前几大国家超算中心均有超算向云靠拢的动静,以广州中心为例。根据官网介绍,该中心提供云超算服务和天河星光云超算平台两类云服务。