MLCommons 针对 60 亿个参数的大型语言 GPT-J,以及计算机视觉和自然语言处理模型发布MLPerf Inference v3.1 性能基准测试结果。 Intel 送交 Habana Gaudi2 加速器、第 4 代Intel Xeon可扩充处理器和 Intel Xeon CPU Max系列的测试结果。 这些结果不仅显示Intel在AI推论方面可提供具竞争力的效能表现,更强化Intel的承诺-在客户端、边缘、网络、云端等一连串AI工作负载中,让AI更容易大规模地落实应用。
在今年 6 月更新的 MLCommons AI训练和Hugging Face性能基准测试,验证了 Gaudi2 在最先进视觉语言模型方面的性能优势; 而9月11日的结果近一步强化Intel是满足AI运算需求,能够替代同类型竞品的可行方案。
Habana Gaudi2 结果:
Habana Gaudi2 的 GPT-J 推论效能结果,为其极具竞争力的效能提供有力的验证。
- Gaudi2 在 GPT-J-99 和 GPT-J-99.9 的服务器查询(query)和离线样本推论效能,分别为每秒 78.58 个查询和每秒 84.08 个样本。
- Gaudi2 的性能是 NVIDIA A100 的 2.4 倍(服务器)和 2 倍(离线)。
- Gaudi2 的送交结果使用 FP8,在此新数据类型的准确度高达 99.9%。
Gaudi2 大约每 6 周至 8 周释出一次软件更新,Intel 预期在 MLPerf 基准测试中继续提升性能并扩大模型覆盖范围。
Intel Xeon结果:
Intel 送交第 4 代 Intel Xeon 可扩充处理器的结果,其中包含 GPT-J 在内的所有 7 项推论基准测试。 这些结果展现出通用AI工作负载的优异效能,包含视觉、语言处理、语音和音频翻译模型,以及规模更大的DLRM v2推荐和ChatGPT-J模型。
- 使用最流行的 AI 框架与库创建并部署通用 AI 工作负载,第 4 代 Intel Xeon 可扩展处理器为其理想之选。 1篇新闻文章约1,000字至1,500字的GPT-J 100字摘要工作,第4代IntelXeon处理器在离线模式下每秒可总结2个段落,即时服务器模式下每秒总结1个段落。
- Intel首次送交Intel Xeon CPU Max系列的MLPerf结果,该系列可提供高达64GB的高带宽记忆体。 在GPT-J方面,它是唯一能够达成99.9%准确度的CPU,这对于需要最高精准度的应用而言十分重要。
- Intel和OEM客户合作,送交他们自己的结果,进一步展现搭载Intel Xeon处理器通用服务器的AI性能可扩展性和广泛可用性,这些服务器能够满足客户的服务等级协议(SLA)。
MLPerf 被普遍认为是 AI 效能方面最具声誉的基准测试,能够进行公平、可重现的效能比较。 Intel 预计将为下次的MLPerf 基准测试送交新的 AI 训练结果。 效能持续不断的更新,代表Intel致力于支持客户,并针对每个AI节点提出解决方案-从低成本的AI处理器,再到网络、云和企业用户所需的最高效能AI硬件加速器和GPU。