什么是高性能计算 (HPC)?

高性能计算 (HPC) 是指通过聚合计算能力来提供比传统计算机或服务器更强大的计算性能。高性能计算 (HPC) 或超级计算和日常计算一样,区别只在于它的计算能力更强大。它能够通过聚合结构,使用多台计算机和存储设备,以极高速度处理大量数据,帮助人们探索科学、工程及商业领域中的一些世界级的重大难题。

目前,HPC 多用于解决性能密集型复杂问题,越来越多的企业将其 HPC 工作负载迁移到云端。云端 HPC 将极大优化产品研究和开发的经济效益,因为它可以减少对原型的需求、加快测试速度并缩短上市时间。

HPC 的工作原理是什么?

在实际应用中,有一些工作负载(例如 DNA 测序)对于任何一台计算机来说都过于庞大。对此,HPC 或超级计算环境可以使多个节点(计算机)以集群(互联组)的形式协同作业,在短时间内执行海量计算,从容应对这些规模庞大而又极其复杂的工作负载挑战。此外,由于支持在云端自动创建和删除集群,HPC 还能有效降低成本。

HPC 支持多种类型的工作负载,其中常见的两种是并行工作负载和紧密耦合工作负载。

并行工作负载

指被细分为多个小型、简单、独立任务的计算问题,这些任务可以同时运行,通常相互之间几乎没有通信。例如,一家企业可能向某节点集群中的各个处理器核心提交了 1 亿条信用卡记录。其中,处理一条信用卡记录即是一项小任务,当 1 亿条记录分布在整个集群上时,1 亿个小任务就能以惊人的速度同时(并行)执行。并行工作负载的常见使用场景包括风险模拟、分子建模、上下文搜索和物流模拟。

紧密耦合工作负载

通常占用较多的共享资源,并分解为相互之间持续通信的小任务。换言之,集群中的各个节点在执行处理时会相互通信。紧密耦合工作负载的常见使用场景包括计算流体动力学、天气预报建模、材料模拟、汽车碰撞仿真、地理空间模拟和交通管理。

HPC 为何重要?

数十年来,HPC 一直在学术研究和行业创新中扮演着重要角色。它帮助工程师、数据科学家、设计师和其他研究人员更经济、更高效地解决了许多大型复杂问题。

HPC 的主要优势包括:

  • 减少物理测试:HPC 可用于创建仿真,而无需用户进行物理测试。例如在测试汽车事故时,与实际碰撞测试相比,HPC 可以更加经济、便捷地生成碰撞模拟。
  • 速度:基于最新 CPU、图形处理单元 (GPU) 和诸如 RDMA(远程直接内存访问)的低延迟网络结构,以及全闪存本地存储和块存储设备,HPC 可以在数分钟内完成以往需要数周才能完成的大量计算。
  • 成本:HPC 可以更快速、更低成本地提供答案。此外,借助基于云技术的 HPC,即使是小型企业和初创企业也能轻松运行 HPC 工作负载 — 只需为实际使用的资源付费且可按需扩展和收缩。
  • 创新:HPC 推动了几乎每一个行业发展创新,是突破性科学发现得以问世,改善全球人民生活质量的重要驱动力。

HPC 使用场景 — 哪些行业适用高性能计算?

如今 HPC 越来越流行,几乎每一个行业的财富 1000 强企业都在使用 HPC。Hyperion Research 数据显示,2022 年全球 HPC 市场规模预计将达到 440 亿美元。

以下是 HPC 在一些行业中的应用以及相应的 HPC 工作负载类型:

  • 航空航天:创建复杂模拟,例如飞机机翼上的气流
  • 制造: 通过模拟来增强新产品(例如自动驾驶)的设计、制造和测试,从而生产更加安全的汽车和更轻的零部件,提高流程效率,促进创新
  • 金融科技 (fintech):执行复杂风险分析、高频交易、财务建模和欺诈检测
  • 基因组学:通过 DNA 测序、药物相互作用分析和蛋白质分析来推进系谱学研究
  • 医疗卫生:研发药物、研发疫苗以及为罕见和常见疾病研究创新疗法
  • 媒体和娱乐: 创建动画、渲染电影特效、转码大型媒体文件以及创建沉浸式娱乐体验
  • 石油和天然气:执行空间分析,测试储层模型,从而预测油气资源分布位置;对流体流动和地震数据处理等进行模拟
  • 零售:分析海量客户数据,从而为客户提供更有针对性的产品建议和更优质的服务
哪些行业适用高性能计算视频缩略图

HPC 的部署模式有哪些?

HPC 可以在本地、云端或混合模式下运行。

在本地 HPC 部署下,企业和研究机构可构建一个由服务器、存储解决方案和其他基础设施构成的 HPC 集群,并自行管理和升级。在云端 HPC 部署下,云技术服务提供商负责管理基础设施,企业和研究机构可以直接使用并按用量付费。

另外,一些企业会选择混合部署模式,尤其是已经投资购置了本地基础设施,但又希望获得云技术的速度、灵活性和成本节省优势的企业。当本地部署中的排队时间过长时,它们就会使用云技术来运行 HPC 工作负载,按需使用云技术服务。

HPC 在何处运行视频缩略图

本地 HPC 部署面临哪些挑战?

本地部署模式下,企业可以全面掌控 HPC 运行,但同时也面临一些挑战,包括:

  • 投入大量资金购置和持续升级计算设备
  • 支付日常管理和其他运营成本
  • 用户需要排队几天或几个月的时间才能运行自己的 HPC 工作负载,尤其是在需求激增时
  • 采购周期较长,难以及时升级至功能更强、效率更高的计算设备,导致研究和业务发展速度受到影响

考虑到本地部署环境的成本和其他挑战,云端 HPC 部署越来越受欢迎。据 Market Research Future 预测,从 2017 年到 2023 年全球云端 HPC 市场将增长 21%。在云端运行 HPC 工作负载,企业只需按使用付费且可在需求发生变化时快速扩容或减容。

如今,为了赢得和留住客户,顶级云技术提供商开发了专为 HPC 工作负载而设计的领先技术,可以有效避免本地 HPC 设备老化带来的性能下降。它们可以提供最新、最快速的 CPU 和 GPU 以及低延迟闪存存储、极速 RDMA 网络和企业级安全性,提供全天候服务可用性,尽可能降低甚至消除排队时间。

HPC Cloud — 选择云环境要考虑哪些关键要素?

目前市场上各个云技术提供商的实力不尽相同,某些云技术并非专为 HPC 而设计,无法在工作负载高峰期提供所需的性能。因此,在选择云技术提供商时,请重点考察以下 4 点:

  • 领先性能:您的云技术提供商应当能提供最新一代的处理器、存储和网络技术,提供可达到或超出典型本地部署水平的 HPC 能力和顶尖性能。
  • HPC 经验:您的云技术提供商应当具备为各种客户运行 HPC 工作负载的丰富经验,能够在高峰时段(例如运行多个仿真或模型时)提供所需的性能。在很多情况下,裸金属计算实例相比虚拟机可提供更加稳定、一致、强大的 HPC 性能。
  • 灵活迁移:您的 HPC 工作负载应当能够在云中顺畅运行,就像在本地运行一样。在将工作负载“原样”迁移至云端之后,您在下周运行的模拟应与十年前运行的模拟结果一致。在需要使用相同的数据和计算方法进行年度比较的行业中,这一点极其重要。例如,如果空气动力学、汽车和化学的计算方法没有改变,那么无论什么时候同一模拟的结果都不应有任何不同。
  • 无隐藏成本:云技术服务通常采用“按使用付费”模式,请确保您准确理解云技术提供商的定价信息。许多用户经常对出站数据移动或数据传出成本感到惊讶,原因就在于用户可能知晓需要为每一个事务和数据访问请求付费,但是很容易忽略传出成本。

如何实现所需的结果?

要想实现所需的 HPC 结果,请选择能够提供更高控制力和性能的裸金属云技术服务。与 RDMA 集群网络相结合,裸金属 HPC 可实现与本地硬件不相上下的效果。

HPC 的未来趋势

如今很多行业的企业和机构纷纷开始采用 HPC 来推动业务增长,这一趋势预计将持续多年。到 2023 年,全球 HPC 市场预计将从 2017 年的 310 亿美元增长至 500 亿美元。其中,大部分增长将来自云端 HPC 部署。得益于云技术性能的持续发展,云技术将变得更可靠、更强大。云端 HPC 部署将为企业节省数百万美元的数据中心基础设施和相关成本。

此外,在不久的将来,HPC 有望与大数据融合,即通过同一大规模计算机集群来分析大数据,运行模拟和其他 HPC 工作负载。而随着这两种趋势的融合,HPC 的计算能力和容量将变得更加强大,将更有力地推进更具突破性的研究和创新。

注:为免疑义,本网页所用以下术语专指以下含义:

  1. 除Oracle隐私政策外,本网站中提及的“Oracle”专指Oracle境外公司而非甲骨文中国 。
  2. 相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。