异构计算云计算的下一个战场
6557
2017-09-19 10:30    文章来源:T客汇
文章摘要:科幻小说《三体》里,世界上最快的计算机,运算速度达到100万亿次,而如今的机器计算力可以达到500万亿次,超算可达万亿亿次级别。

神女应无恙 当惊世界殊

科幻小说《三体》里,世界上最快的计算机,运算速度达到100万亿次,而如今的机器计算力可以达到500万亿次,超算可达万亿亿次级别。 

科学幻想面对当前现实的机器计算力,相形见绌很多了。

这是什么神力,让科学幻想也赶不上世事的沧桑变化?

异构计算推进算力极大的提高,人工智能再提速

我们可以从最近阿里云新产品发布会中管窥一斑。

9月12日,阿里云异构计算家族首次完美亮相,推出全新一代异构加速平台——涵盖GPU、FPGA在内等6款异构实例,可满足从图形渲染到高性能计算及人工智能等复杂应用的计算需求。其中新一代FPGA计算实例F2,基于Xilinx硬件可编程芯片打造,可为人工智能产业提供加速服务,在特定场景下的处理效率比CPU高30倍,而人工智能产业用户可通过GN5i搭建微秒级响应的AI服务,可将深度学习成本缩减50%以上,大幅降低人工智能计算门槛。

与此同时,针对传统对高性能计算有强烈需求的高校科研机构和企业用户,推出的基于阿里云异构平台的全新高性能计算实例E-HPC,可一键部署获得媲美大型超算集群环境的“云上超算中心”。E-HPC也是中国首个公共云上的HPC as a Service产品。

这是继企业级ECS家族全线升级后,阿里云再次在企业级市场推出专业服务,新品具备更强的并行能力和多场景支持,不仅全力支撑人工智能计算力升级需求,也为图形计算、生命科学、材料力学、分子动力学等科研计算领域提供超强普惠计算能力。

数据、算力和算法,这是未来科学技术也是科技一大潮流人工智能发展的三大要素。而这一切都要基于云计算。从功能而言,云计算是极其强大的,它可极大地提高信息计算处理能力,彻底降低计算机软硬件的投资,并大大地降低信息服务的复杂性,根本改变了计算与存储的方式,使云计算成为未来互联运行指挥的“大脑”。比如北京超级云计算中心计算能力为每秒500万亿次未来甚至可达1000万亿次,而这一切离不开阿里云、腾讯云、华为云、电信云等国内知名云计算服务厂商的贡献。2017中国云计算企业百强榜近日出炉,阿里云稳居第一,再次宣示阿里云在云计算霸主地位不可动摇。2015年阿里云宣布联合中科大研制量子计算机,10-15年后速度将超天河二号百亿亿倍。这说明高速发展的云计算计算力正推动着当前人类科技的巅峰人工智能及各项科技产业更大规模地爆发。

如今人工智能、深度学习已经成为产业界一股强烈浪潮,对各行各业都将产生深远影响。而人工智能、深度学习对计算能力的要求相当的高,要求拥有比传统服务器强大得多的计算能力和每瓦计算能力,能够满足人工智能、深度学习对强大计算性能、计算能效以及计算实时性的最大需求,以推动和加速整个人工智能、深度学习生态的迅速发展。 

而此番阿里云推出的异构计算加速平台,主要就是为了进一步完善人工智能产业生态,满足更多客户的核心业务需求。阿里云此次推出适用于深度学习在线推理(Inference)的GPU实例GN5i,采用了英伟达Pascal架构P4图形处理器,提供最大45Tops INT8整型计算能力和11TFlops FP32单精度浮点计算能力。可根据深度学习计算力的要求,进行GPU实例的“Scale-out:水平扩容或“Scale-up”垂直变配,分钟级即可完成实例的创建。2017年初,阿里云就推出基于英特尔Arria 10芯片的FPGA计算实例,有效提升了人工智能及深度学习的效率,为企业节省成本。而此次发布的F2实例基于赛灵思Xilinx KU115器件,提供145万逻辑门电路,单实例的单精度浮点计算性能可达1.5TFlops,“马力”超强。 

随着集成英特尔(F1)和赛灵思(F2)芯片的FPGA计算实例相继问世,加上阿里云业已推出的FPGA镜像市场,阿里云率先完成对主流FPGA方案的全覆盖,成为全球FPGA领域产品线最全、场景最多的公共云服务商。

 应运而生,异构计算挑起计算大梁的关键技术

近10年来,计算行业经历了从32bit、x86-64、多核心、通用GPGPU以及2010年“CPU—GPU”异构计算的变迁。而这几年,随着人工智能、高性能数据分析和金融分析等计算密集型领域的兴起,异构计算日益火爆起来。 

然而在光鲜华丽的表象之下,对于一般用户来说,异构计算的采购、部署以及使用门槛对绝大多数企业来说都很高。

痛点如下:1、采购成本居高不少:普通用户小量采购基本上没有议价能力,特别是购买试用的FPGA、开发板还有服务器,量少的话采购价格非常高。而阿里云从芯片原厂、OEM统一采购芯片和机器,不需要经过层层代理,大大降低采购成本,而且在云上提供按需使用的FPGA对于普通FPGA开发者来说,让使用成本得到极大降低。

2、开发难度大:就是现有的FPGA开发工具不太友好,而且像Verilog和VHDL这样的开发语言,学习的门槛比较高。所以对开发者来说,要想开发出性能比较高的软件,需要对FPGA了解非常深入才行,因此开发难度比较大。 

3、交付周期长:通常用户从开始需要采购,到机型选择、硬件架构设计、供应商选择、机房选择、财务审批等流程通常需要几个月的时间,费时费力;

4、采购不灵活难于把控:采购完了GPU/FPGA的数量就固定了,任务少的话多买的GPU/FPGA就浪费了,任务多的话GPU/FPGA数量又不够用。

因此,传统通用计算的方式已经难于满足人们对计算能力的高要求,异构计算被认为是现阶段能挑起计算大梁的关键技术,阿里云异构计算产品解决方案就在这样的大环境下应运而生了。

目前“CPU+GPU”以及“CPU+FPGA”都是最受业界关注的异构计算平台,

优点明显:1、GPU/FPGA资源即买即用,灵活自如。有了E-HPC,企业就能快速获得高性能计算集群能力,高性能计算调度能力和软件能力,按需组建自己的“云上超算中心”,再也不用一次性巨额资金投入,对高性能计算有需求的企业可以随买随用,从而帮助降低购买门槛、计算成本,提高计算灵活性。目前,阿里云E-HPC已向国内用户开放邀测,支持包月包年和按需付费。据悉,该产品不久将实现全球同步售卖。

2、超大规模资源池,满足业务峰值的GPU/FPGA大规模的数量需求。 

3、享受异构计算超摩尔定律的硬件红利,以相同的价格使用性能更强的GPU/FPGA实例; 

4、全面的异构产品线,满足人工智能训练、推理,图像视频处理等各种不同的需求。对于AI来说,阿里这套解决方案能非常好地加速AI领域的训练和预测/分类等问题,包括图像识别、语音识别、视频识别、视频监控、文字识别、人脸识别、车辆识别、自动驾驶、机器翻译等AI的应用场景。

5、产品整合:和整个阿里云产品体系深度整合,数据打通。

目前,中国的天河2号、天河1号、曙光6000都是异构超算,而天河2A和下一代曙光7000超算和神威超算也是异构超算,同构的超算只有神威蓝光。异构超算已成为云计算的共同选择了。

未来在云服务器行业,谁在计算、存储、网络三者上做到最好,更高的稳定性、更高的弹性和易用性、更高的安全性、更低的成本,谁就拔得头筹。


版权声明:

凡本网内容请注明来源:T媒体(http://www.cniteyes.com)”的所有原创作品,版权均属于易信视界(北京)信息科技有限公司所有,未经本网书面授权,不得转载、摘编或以其它方式使用上述作品。

本网书面授权使用作品的,应在授权范围内使用,并按双方协议注明作品来源。违反上述声明者,易信视界(北京)信息科技有限公司将追究其相关法律责任。

评论