Graphcore IPU-M2000在首个benchmark测试中显著优于GPU

winniewei 提交于 周四, 12/10/2020
Graphcore IPU-M2000在首个benchmark测试中显著优于GPU

Graphcore业界领先的科技现已开始面向全球出货

2020年12月9日,布里斯托——Graphcore为其最新的AI计算系统——IPU-M2000和纵向扩展的IPU-POD64发布了第一套性能benchmark

在各种流行的模型中,Graphcore技术在训练和推理方面均显著优于NVIDIA的A100(基于DGX)。

亮点包括:

训练

  • EfficientNet-B4:吞吐量高18倍
  • ResNeXt-101:吞吐量高3.7倍
  • BERT-Large:与DGX A100相比,在IPU-POD64上的训练时间快5.3倍(比双DGX系统缩短2.6倍)

推理

  • LSTM:以更低时延实现吞吐量提升超过600倍
  • EfficientNet-B0:吞吐量提升60倍/时延缩短超过16倍
  • ResNeXt-101:吞吐量提升40倍/时延缩短10倍
  • BERT-Large:以更低的时延实现吞吐量提升3.4倍

Benchmark中包括了BERT-Large(基于Transformer的自然语言处理模型)在IPU-POD64的全部64个处理器上运行的结果。

BERT-Large的训练时间比最新的NVIDIA DGX-A100快5.3倍(比双DGX设置快2.6倍以上),这一结果彰显了Graphcore的IPU-POD横向扩展解决方案在数据中心的优势,以及Poplar软件栈管理复杂工作负载的能力,这些工作负载能够利用多个处理器并行工作。

Graphcore软件高级副总裁Matt Fyles在对测试结果发表评论时说:“这一整套全面的benchmark表明Graphcore的IPU-M2000和IPU-POD64在许多流行模型上的性能均优于GPU。”

“诸如EfficientNet之类的新型模型的benchmark特别具有启发性,因为它们证明了AI的发展方向越来越倾向于IPU的专业架构,而非图形处理器的传统设计。”

“客户需要能够处理稀疏性以高效运行大规模模型的计算系统,而这正是Graphcore IPU所擅长的。在这种客户需求的趋势下,差距只会不断扩大。”

Graphcore为阿里云HALO定制代码正式在GitHub开源

Graphcore是阿里云HALO的合作伙伴之一,为阿里云HALO定制开发的代码odla_PopArt已经在HALO的GitHub上开源,具体请见https://github.com/alibaba/heterogeneity-aware-lowering-and-optimization

MLCommons

除了发布其AI计算系统的全面benchmark外,Graphcore还宣布,其已经加入新成立的MLPerf下属机构MLCommons,成为MLCommons的会员。

Graphcore将从2021年开始参加MLCommons的比较benchmark测试。更多信息,请参阅MLCommons的成立公告

现已出货

Graphcore最新benchmark的发布与IPU-M2000和IPU-POD64系统向全球客户的推出时间刚好一致。一些早期发货的产品已经在数据中心安装并运行。

销售工作得到了Graphcore全球合作伙伴网络以及公司在欧洲、亚洲和美洲的销售人员和现场工程团队的支持。

PyTorchPoplar 1.4

Graphcore用户现在可以利用Poplar SDK 1.4,包括全面的PyTorch支持。PyTorch已成为从事尖端AI研究的开发人员的首选框架,在更广泛的AI社区中也收获了大批的追随者,并且追随者的数量还在快速增长。

PapersWithCode的最新数据显示,具有关联代码的已发表论文中,47%的论文使用PyTorch框架(2020年9月)

额外补充的PyTorch支持,再加上Poplar对TensorFlow的现有支持,这意味着绝大多数AI应用程序现在都可以轻松部署在Graphcore系统上。

与Poplar软件栈的其他元素一样,Graphcore正在将其用于IPU接口库的PyTorch开源,从而使社区能够对PyTorch的开发做出贡献,并且加速PyTorch的开发。

关于IPU-M2000和IPU-POD

IPU-MachineM2000IPU-M2000是一台即插即用的机器智能计算刀片,旨在轻松部署并为可大规模扩展的系统提供支持。

纤巧的1U刀片可提供1 PetaFlop的机器智能计算能力,并在机箱内部纳入针对AI横向扩展进行了优化的集成网络技术。

每个IPU-MachineM2000IPU-M2000均由Graphcore的4个新型7纳米ColossusTM MK2 GC200 IPU处理器提供动力,并得到Poplar(R)软件栈的完全支持。

IPU-POD64是Graphcore的横向扩展解决方案,包括16台IPU-M2000,这些机器使用Graphcore的超高带宽IPU-FabricTM技术进行了预先配置和连接。

IPU-POD64专为需要大规模AI计算功能的客户而设计,既可以跨多个IPU运行单个工作负载以进行并行计算,也可以通过Graphcore的Virtual-IPU软件供多个用户共享使用。

关于Graphcore

Graphcore的智能处理器(IPU)硬件和Poplar软件帮助创新者创建下一代机器智能解决方案。IPU是第一个专门为机器智能设计的处理器,与通常在人工智能中使用的其他计算硬件相比,IPU具有明显的性能优势。

除了在当今最常见的工作负载中表现优于其他技术外,Graphcore IPU的架构方式还使其能够在下一代AI应用程序(包括高度稀疏的模型)中脱颖而出。

Graphcore已从领先的金融和战略投资者那里筹集了超过4.5亿美元的资金,总部位于英国布里斯托,并在英国伦敦、挪威奥斯陆、中国北京和美国帕拉奥图等设有办公室。

获取更多Graphcore资讯,阅读深度技术文章,并与其他创新者们一起交流,敬请访问https://www.graphcore.cn/或者关注我们的官方微信公众号“Graphcore”。

相关文章

Digi-Key