算力 | 学者谈术语
发布时间:2023-08-22 17:04
一、
为何近年来“算力”成为热词?
近年来“算力”逐渐成为学术界、产业界、公众的热词,算力、算力网络、算力指数、算力经济、东数西算、东数西存、东数西训等新名词不断涌现。
“算力”原来只是超级计算领域关注的对象,代表着人们对“算得快”极致能力的不懈追求。深度学习技术的兴起带来了人工智能的热潮,标志着信息化从数字化、网络化走向智能化的新阶段,智能计算时代即将到来。人们把智能计算背后的三个驱动力归结为智能三要素——算力、算法和数据。因此,“算力”一词开始备受关注。
随着人工智能与物联网(AIoT)技术的广泛应用,“计算无所不在”成为趋势。一方面,越来越多的物件(Things)中因为嵌入了芯片或微型计算系统而具备了计算能力,例如水杯、插座、台灯等,人们乐于用“算力”来衡量物件的计算能力。另一方面,云计算的发展也使得越来越多的计算任务在云上完成,人们也倾向于使用“算力”来评估云计算中心的整体计算能力。
国家发改委为了推动“新基建”战略的实施,提出了“东数西算”和国家大数据枢纽节点等重大建设工程;中国移动、中国电信等运营商从云网融合的角度提出了“算力网络”;在学术界,中科院计算所从高通量计算的角度提出了“信息高铁”算力网[1],鹏城实验室从人工智能发展的角度提出了“中国智能算力网”等。“算力”一词逐渐变得越来越热。
二、
“算力”的本义
“算力”从字面上理解就是计算能力,是从表示能力的电力、运力借鉴而来的。计算机学术界对于“算力”这个概念有一个大致的共识,即表示某个设备或系统的计算性能,或者说“算力”是计算性能的口语化表达,类似于“电脑”是计算机的口语化。这里的计算设备包括个人电脑、手机、嵌入式设备等,计算系统包括片上系统(SoC)、超级计算机、高性能计算机、云计算系统、数据中心系统、分布式计算系统等。
表征计算性能的指标一般使用运算速度表示,包括百万指令数每秒(MIPS)、浮点操作数每秒(FLOPS)、定点操作数每秒(OPS)等,表示定点、半精度/单精度/双精度浮点、AI常用的8bit整数操作等方面的性能。人们一般用这些性能指标来测度和表征设备或系统的算力,比如,一颗AI智能计算芯片的算力是256TOPS,一台超级计算机的算力是1EFLOPS。
在计算机学术界,为了准确刻画各种计算负载、体系结构对性能的影响,性能指标与基准测试(benchmark)就多得多了,比如:单位周期执行的指令数(Instructions/s, IPC),每秒执行的哈希数(Hashes/s),每秒执行的事务数(Transactions/s),尾延迟(Tail Latency)等;基准测试就更多了,包括:面向单线程应用SPEC CPU,面向数据库应用的TPC,面向超算应用的HPL/HPCG,面向云计算应用SPEC Cloud,面向多线程应用的PARSEC,面向大数据应用的BigdataBench,面向图计算应用Graph500,面向AI应用的MLperf、AIPerf等等。对公众影响******的可能就是超算TOP500排行榜了,它依据的其实就是使用HPL测度的计算机性能。
三、
“算力”的泛化
“算力”成为热门词最早出现在比特币挖矿领域。挖矿是比特币区块链的共识机制,所谓挖矿也被称作工作量证明 (Proof Of Work),是指比特币区块链的所有共识节点通过算力竞争获得记账权的过程。具体而言,就是比特币节点把比特币网络中的未确认交易打包成候选区块,并填充区块中的随机数字段形成完整区块内容,然后按照统一的哈希算法(SHA256)算出一个哈希值。比较哈希值与一个特定目标值(难度值)的大小,如果哈希值小于特定目标值,则该节点就找到了符合要求的区块,取得了记账权,并获得系统奖励和交易手续费。特定目标值通常会根据全网的总算力定期调整难度,从而使得比特币区块链的出块速度维持在一个较稳定的范围内(每10分钟左右出一个区块)。对于单个共识节点而言,要算出这个符合要求的区块是非常困难的,通常需要进行海量(2的几十次方)的哈希碰撞,因而一个共识节点(通常使用专业的矿机)每秒钟能做多少次哈希计算就成为了它在比特币网络中能否取得优势的关键。所有节点的算力总和就代表了比特币区块链网络的整体计算能力。矿机计算哈希函数输出的速度,就是它“算力”的度量单位。例如,一个矿机达到10T h/s的哈希率时,意味着它可以每秒进行10万亿次计算。
“算力”进一步用在了数字经济领域。华为等企业和政府宏观经济部门提出了“算力指数”,来评估一个企业、一个区域乃至一个国家所能提供的总计算能力,用在终端、数据中心中安装的处理器芯片数量、CPU核的数量等来评估总计算能力,并且研究算力指数的增加与数字经济增加值之间的比例关系,衡量信息新基建的投资效率。“算力经济”也被提出[2],用来表示超算产业以及超算赋能的各行各业的GDP增加值,济南市还率先建设了发展算力经济的超算产业园。
“算力网络”的提出让算力进入了基础设施范畴。一般产业界常用“算力网络”,学术界常用“算力网”。过去几年,国家和地方政府建设了很多超算中心,企业构建了很多云计算中心,在这些地方高算力设备被密集地部署用于提供公共服务,算力的基础设施属性被不断强化。通信网络与互联网是全球性信息基础设施,是信息社会的底座,随着SDN/NFV、确定性网络等网络技术的发展,网络的智能测调能力越来越强,自然地,算力与网络在基础设施层面的融合被提出来了。首先,是谷歌等国际互联网企业,在全球范围布局了很多数据中心,在这些数据中心之间自建了互联的网络,自定义了互联的协议;随后,国内的互联网企业、云计算企业也在全国范围内布局了多个数据中心,通过虚拟专网互联成分布式云;最后,电信运营商本来就具有网络上的优势,近来也不断加强在公有云、边缘云的投资力度,云网融合就是自然的了[3]。由此,“算力网络”应运而生。
算力网的思想可以追溯到上世纪60年代美国学者John McCarthy提出的Utility computing,即“算力应该像电话系统一样,成为一个公共服务,用户可以随用随取,按用付费”;在超算领域,Ian Foster和Carl Kesselman提出的网格计算(Grid computing)也曾风靡一时,我国高性能计算科技专项很多年都在支持这方面的研究,创业公司“并行科技”利用这类技术服务大量超算用户,对我国超算的普及起到很好的作用;云计算也是这一思想的发展产物,颠覆了企业数据中心市场,为互联网应用提供了弹性伸缩、可靠性高的算力底座。当前提出的算力网不应该是云计算的简单优化,而应从全球信息基础设施的视角去思考它的发展方向。
四、
从消费侧扩大“算力”内涵
总体来说,“算力”的上述内涵都是从供给侧出发描述的。例如,在一个公有云里,申请“算力”往往表现为获得多少个虚拟机、多大内存容量等资源。
从人类发展的历史来看,经济的高速发展依赖基础设施的普及与应用的深化。农业经济的发展依赖于交通基础设施、水利基础设施,工业经济的发展依赖于能源与电力基础设施、全球货运基础设施、全球金融基础设施、全球通信基础设施,数字经济的发展依赖于互联网、万维网等全球信息基础设施。数字经济进一步向智能化发展,依靠的是什么?应该是算力、算法和数据的全面基础设施化,包括算力基础设施、算法基础设施和数据基础设施。
一个能力的基础设施化的实质是这个能力在消费侧的内涵被充分挖掘。在算力领域,与美欧等发达国家比较,我国的算力集中在终端,云端相对较弱;我国的消费互联网应用强,产业互联网应用弱;我国的算力资源为游戏、视频等信息流服务多,为信息深加工、模型精炼等智能流服务少。改变这种差距的途径不是一味地增加供给侧的算力资源数量,或者拼算力供给的价格,而是在消费侧发力,开展原理突破、技术创新、商业模式创新,让算力用户的“获得感”提升,即在一定的资源下及时完成问题求解。此外,利用我国信息基础设施上的相对优势,也许是缓解我国在集成电路领域长期存在的单芯片性能不足困境的一个办法。
所以,我们把算力定义修正为体现为用户实际效用的计算性能,就是要强化算力用户的获得感。
为了表达“算力”的新内涵,英文我们没有采用WIKI上的computing power,而是新构造了一个英文单词“computility”[4],是comp(ute) + utility的聚合,体现了需要考虑算力作为公共服务品的一些特征,尤其是需要从用户消费公共服务的角度来考量。在这个理念下,用户只关心计算任务完成需要多少“算力”, 即“真正让用户有获得感的操作的速率”(Operations of Interest Per Second, OIPS),类比于用于物质加工的电力的功率“焦耳/秒”,它是用于信息加工的算力的“功率”;至于算力由谁提供,任务向哪里输送过去,算力提供方之间如何调度等,用户不需要感知到。算力网(可翻译成Computility Grid),正是传输和调度这种算力任务的网络。
更多精彩内容
产学研合作新篇章,中山大学与善思开悟共建AI创新赋能联合实验室!
中山大学计算机学院、国家超算广州中心、管理学院将与善思开悟(成都)科技有限公司将开展科学研究及产学研合作,共同建设和运行联合实验室,进一步促进产学研合作,推动行业创新和应用落地,服务地方社会与经济高质量发展。SIGGRAPH 2023 | NVIDIA 发布支持生成式 AI 与 OpenUSD 的重大 Omniverse 升级
最新平台更新、Adobe Firefly 的接入、OpenUSD 向 RealityKit 的导入以及 Ada 架构系统将共同加速各种具有互操作性的 3D 工作流以及工业数字化进程。SIGGRAPH 2023 | NVIDIA AI Workbench 助力全球企业加速采用自定义生成式 AI
从 PC 和工作站到企业数据中心、公有云和 NVIDIA DGX 云,新推出的开发者套件在 NVIDIA AI 平台上引入了简化的模型优化与部署。新的 MLPerf 推理网络部分展现 NVIDIA InfiniBand 网络和 GPUDirect RDMA 的强大能力
在网络评测中,有两类节点:前端节点生成查询,这些查询通过业界标准的网络(如以太网或 InfiniBand 网络)发送到加速节点,由加速器节点进行处理和执行推理。