元宇宙元年 浪潮信息狂揽44项MLPerf冠军诠释AI新算力

美国东部时间12月1日,国际权威AI基准测试MLPerf™公布最新一期训练(Training)榜单V1.1。浪潮信息提交了AI服务器所有8项单机测试的固定任务(Closed Division)成绩,并斩获其中7项冠军。至此,2021年度,浪潮AI服务器完美收获44项冠军雄踞榜首。

MLPerf™是影响力最广的国际AI性能基准评测,由图灵奖得主大卫•帕特森(David Patterson)联合顶尖学术机构发起成立,而图灵奖专为纪念“计算机之父”艾伦·麦席森·图灵而设立。

艾伦·麦席森·图灵对于人工智能的发展有诸多贡献,并创造了一种用于判定机器是否具有智能的试验方法,即图灵试验,图灵机模型为现代计算机的逻辑工作方式奠定了基础。

因此,我们不难看出:MLPerf™的根基是致力于推进机器学习和人工智能标准及衡量指标,集权威性与实用性于一体。

MLPerf™基准测试,既可以说是皇冠上的明珠,也可以说是针尖上的舞蹈。强手如云,高手林立,从本次参与测试的机构和科技企业可以管中窥豹。谷歌、微软云、英伟达、浪潮信息、百度、戴尔、联想等14家公司及科研机构参与,都是行业翘楚或者业界独角兽,共提交180项固定任务成绩,6项开放任务成绩,百花齐放、百家争鸣。

MLCommons每年组织2次MLPerf™推理性能测试和2次MLPerf™训练性能测试。本次成绩公布意味着MLPerf™2021年度4次性能测试正式收官。

总体来看,2021年,浪潮AI服务器在MLPerfTM数据中心AI推理场景的总32项任务中斩获17项冠军,在边缘AI推理场景的总31项任务中斩获16项冠军,从云到边全面领先;在单机AI训练场景的16项任务中浪潮AI服务器共斩获11项冠军;以总44项冠军的成绩雄踞榜首。

可以肯定的是,浪潮信息在MLPerf™测试中取得优异成绩的能力建立在对客户应用场景的理解之上,在产品研发、客户需求、实际应用中所获得的洞察和理解,指导着浪潮信息在MLPerf™各项AI测试任务中的发挥。

与此同时,浪潮信息在MLPerf™测试中的探索和创新也帮助浪潮信息更好地回馈产业客户的实际应用,以此形成一种良性的循环。

因此,如果来总结浪潮信息MLPerf™这一年的表现,只有一句话:始终在领跑,一直在夺冠。

NF5488A5是全球首批上市的A100服务器,在4U空间支持8颗第三代NVLink互联的A100 GPU和2颗AMD MilanCPU,同时支持液冷和风冷散热技术。并通过深度优化系统设计,AI计算效能显著提升,并确保设备可在高温、高负载环境下稳定运行。

NE5260M5通过极致优化的信号和电源等系统设计,兼容高性能CPU和多种AI加速卡,通过减震降噪优化和严苛的可靠性测试,机箱深度430mm较普通服务器缩短近二分之一,满足空间受限的边缘计算场景部署需求。

浪潮AI服务器是MLPerf™基准测试中医学影像分割、目标物体检测(Mask R-CNN)、自然语言理解、智能推荐、图像分类、目标物体检测(SSD)、语音识别7项AI任务的单机最快训练速度保持者。在本次测试中,相比半年前的MLPerf™AI训练榜单V1.0,浪潮AI服务器将医学影像识别、语音识别、智能推荐和自然语言处理任务的单机AI训练速度提升18%、14%、11%和8%。

浪潮信息也是MLPerf™ AI推理测试15项任务的最佳性能保持者,涵盖医学影像识别、自然语义理解、图像分类、语音识别、智能推荐、目标物体检测(SSD-ResNet34)以及目标物体检测(SSD-MobileNet)全部7项AI模型任务,从云到边全面领先,并持续提升数据中心场景下MLPerf™各项任务性能成绩,半年时间内,即便在相同服务器配置下,依然较大改善各项任务成绩,如将图像识别(ResNet50)和语音识别(RNN-T)的模型性能分别提升了4.75%和3.83%。

2021年,元宇宙爆发,从马克·扎克伯格 (Mark Zuckerberg) 说 Facebook 将成为一家元宇宙公司,再到萨蒂亚·纳德拉 (Satya Nadella) 说微软的目标之一就是元宇宙,然后到马斯克“力捧”云宇宙,元宇宙已经被更多的人知晓。2021成为元宇宙元年。但不可否认,无论元宇宙即将如何书写多么壮阔的产业图景,但我们可以清晰地看到两点:

从算力供给来看,2020年,全球算力规模达到429EFlops(百亿亿次计算),其中基础算力规模313 EFlops,智能算力规模107 EFlops,超算力9EFlops,预计未来五年全球算力规模将达到50%以上增长,2025年将达到3300EFlops.

根据IDC预测,2025年,全球物联网设备连接数量将超过400亿台,产生数据量接近80ZB(十万亿亿字节=1024EB),且超过一半的数据需要依赖终端或者边缘计算能力进行处理。

从算法来看,根据0penAI 预测,从2012年开始人工智能训练所用的计算量呈现指数增长,平均每3.43 个月便会翻一倍,计算量扩大了30万倍,远超算力扩张速度,截止2020年,深度学习模型对算力的需求每天达到百亿亿次之巨。

因此,人工智能在元宇宙的广泛应用将导致算力消耗成指数级爆炸增长,虚拟内容的创作、更加真实的建模和交互需要都以更强劲的算力为前提。算力算法落后于需求的矛盾将很快凸显。

人工智能芯片仍在高速发展,为了支持多样的人工智能计算任务,理想的芯片需要高并行的处理能力、低内存延迟和创新的架构以及符合发展的能耗。

预计到2025年,AI芯片加速所提供的计算力可能超过全球算力总量的80%。

IDC预测,实时数据的产生将在2024年达到数据产生总量的1/4 左右,这一变化将使得边缘计算能力变得越来越重要,人工智能应用更加依赖边缘计算支撑。预计2023年,全球50%的新建基础设施部署在边缘,将近20%用于支撑AI工作负载的服务器将部署在边缘。

因此,无论是从浪潮元脑生态概念的提出和升级,还是从元宇宙概念爆发,我们欣慰地看到,浪潮AI服务器的智算力一直在澎湃,这一点不仅仅表现在冠军头衔的多少,更在于各项数据本质的提升。

2021人工智能计算大会(AICC2021)上,中国工程院院士、浪潮首席科学家王恩东阐释了计算系统创新在计算到智算转变的产业新格局下的重大意义并指出,支持算力多元发展,系统性创新是关键。

一台浪潮AI服务器,需要整合超过10000个零部件,包含50多类专用芯片、30多个技术方向以及100多种传输协议,涉及到材料、热力学、电池技术、流体力学、化学等一系列学科;需要经历30多个流程、150多种加工和制造的工艺、280多个关键过程的控制点,如何确保整个系统的可靠性是一个非常精细且复杂的工程。

而浪潮AI服务器在MLPerf™基准评测中的出色表现,恰恰得益于在AI计算系统创新上卓越的系统设计能力和全栈优化能力。

在硬件层面,针对AI训练中常见的密集IO传输瓶颈,浪潮AI服务器以领先设计大幅降低通信延迟,极大提升了AI训练效率;在软件层面,结合GPU硬件拓扑对多GPU的轮询调度优化使单卡至多卡性能达到了近似线性扩展。

在深度学习算法层面,结合GPU Tensor Core 单元的计算特征,通过自研通道压缩算法成功实现了模型的极致性能优化。同时,针对高负载多GPU协同任务调度,对NUMA节点与GPU之间的数据传输进行全面优化和深度调校,确保训练任务中的数据IO无阻塞。

在散热层面,针对目前业界功率最高的A100-SXM-80GB(500W) GPU,浪潮率先开发的先进冷板液冷系统,确保GPU在全功率甚负载下依然稳定工作,将AI计算系统的性能发挥到极致。

因此,系统性创新设计,通过统一的、规范的标准,将多元化算力转变为可调度的资源,让算力好用、易用。

二战爆发后不久,英国对德国宣战,图灵随即入伍,在英国战时情报中心“政府编码与密码学院”服役。当时,德国人研制出了“谜”式密码机,能将平常的语言文字(明文)自动转换为代码(密文),再通过无线电或电话线路传送出去。即使被截获,对方也只能对着一大堆谜一样的代码叹气。

图灵带领200多位密码专家,研制出名为“邦比”的密码破译机,后又研制出效率更高、功能更强大的密码破译机“巨人”,将“政府编码与密码学院”每月破译的情报数量从39000条提升到84000条。

图灵和同事破译的情报,在盟军诺曼底登陆等重大军事行动中发挥了重要作用,图灵因此在1946年获得“不列颠帝国勋章”。历史学家认为,他让二战提早了2年结束,至少拯救了2000万人的生命。

这是人类历史上最早关于人工智能产生巨大影响力的标志性事件。如今,随着人工智能在千行百业广泛应用,推动着经济社会的飞速发展和数字化转型。新时代智慧产业的广阔图景和元宇宙的壮丽诗篇,无不对AI算力提出新的需求,但我们有理由相信:由浪潮信息领军的AI新算力的崛起,构建起关键基建,必将描绘人类社会的美好蓝图。返回搜狐,查看更多