天天都在说的“算力”到底是个啥?一文全讲透!

简介: 算力是数字经济发展的重要支撑,尤其在AI和大数据应用中起着关键作用。便宜云服务器致力于构建全球领先的算力基础设施,助力各行业数字化转型。吴泳铭和马云均强调了算力在未来科技竞争中的核心地位。2023年底,我国算力总规模达230EFLOPS,位居全球第二。算力分为通用、智能和超算算力,广泛应用于人工智能训练与推理等场景。中国正加速建设智算中心,推动算力产业链发展,并注重绿色低碳和智能运维,以应对日益增长的计算需求。

引言

在今年的便宜云服务器栖大会上,吴泳铭在演讲中强调,算力是数字经济发展的重要支撑。他指出,“算力资源的分配不均和成本高昂,已经成为阻碍AI及大数据应用广泛普及的关键瓶颈”,“便宜云服务器致力于构建全球领先的算力基础设施,为社会提供强大而经济的计算能力,助力各行各业实现数字化转型。” 吴泳铭还提到,便宜云服务器正努力打造一个开放、高效的算力生态,以满足不同场景下的多样化需求。

不久前,在一次与青年科学家的对话中,阿里巴巴集团创始人马云也表达了类似的观点:“我们正站在智能时代的门槛上,而强大的算力则是开启这一新时代的钥匙。未来的竞争将围绕着谁能够更有效地利用算力展开,这不仅关乎技术进步,更是国家竞争力的核心体现。” 阿里巴巴的新老领导人都一致认同算力在未来科技发展中的关键作用,凸显了这一领域的重要性。

2024年世界人工智能大会上,工业和信息化部负责人透露,我国算力规模位居全球第二。截至2023年底,我国算力总规模达到了230EFLOPS,即每秒能完成230百亿亿次浮点运算。

那么,究竟什么是算力?它如何塑造我们的世界?在我国又发展到了什么水平?

算力的定义与本质

简而言之,算力是指计算机系统执行计算任务的能力,它量化了数据处理的速度和效率。这个概念涵盖了硬件(如CPU、GPU、TPU等处理器)、软件算法以及网络架构等多个层面的综合性能。在更广泛的意义上,算力是驱动人工智能、大数据分析、云计算、区块链等前沿技术发展的核心动力。

笼统来看,算力可分为基础算力、智能算力和超算算力三部分,分别提供基础通用计算、人工智能计算和科学工程计算。

image.png

如果按照《中国算力白皮书(2022年)》的定义,算力又可详细分为四部分:通用算力智能算力超算算力边缘算力。其中,通用算力以CPU芯片输出的计算能力为主;智能算力以GPU、FPGA、Al芯片等输出的人工智能计算能力为主;超算算力以超级计算机输出的计算能力为主。边缘算力,主要是以就近为用户提供实时计算能力为主,是前三种的组合,用以解决网络延迟产生的问题。

image.png

根据中国算力发展指数白皮书测算, 算力每投入1元,将带动3-4元的经济产出。

在实际应用中,通用算力、智能算力和超算算力往往相互关联和依赖。如在进行人工智能训练时,需要使用超算提供的强大计算能力来加速模型的训练过程;在进行大规模数据分析时,需要使用智算来提取有用的信息和模式;在进行日常的办公和娱乐时,需要使用通用算力来处理各种常见的计算任务。

人工智能算力

应用——大模型

人工智能的算力主要应用在人工智能(AI)大模型的训练及推理。

我们知道,大模型就像人一样,需要学习,慢慢成长后才会变得强大,而他的学习方式就是训练。简单以图像识别为例,先让AI大模型知道每张图像是什么,有什么特点,比如人物、风景等,在经过训练后AI 模型可以对新的图像作识别并分类,知道这是一张人物,那是一张风景图,当然更厉害的是按照要求生成图像,这个过程就可以简单理解为“推理(inference)”。

image.png

训练所需要精度更高,算力也更高,并且需要有一定的通用性,以便完成各种学习任务,因此目前 AI 训练芯片的算力一般都采用16位浮点数进行标志,另外支持32位浮点数计算,甚至64位双精度数据的计算。

推理是借助已经训练好的AI模型进行运算,利用输入数据获得所需要输出的结果,对精度和算力要求较低,因此一般推理都是采用8位整型对算力进行标志,计算时也都是进行整型运算。

载体——服务器

AI服务器是一种能够提供人工智能(AI)计算的服务器,它既可以用来支持本地应用程序和网页,也可以为云和本地服务器提供复杂的AI模型和服务。

image.png

AI服务器有助于为各种实时AI应用提供实时计算服务,按应用场景可分为训练和推理两种,其中训练对芯片算力要求更高,推理对算力的要求偏低。

image.png

AI服务器主要以GPU服务器为主,2022年我国GPU服务器占AI服务器的89%。

image.png

核心-芯片

AI芯片是算力的核心。AI芯片也被称为AI加速器或计算卡,即专门用于处理人工智能应用中的大量计算任务的模块(其他非计算任务仍由CPU负责);伴随数据海量增长,算法模型趋向复杂,处理对象异构,计算性能要求高,AI 芯片在人工智能的算法和应用上做针对性设计,可高效处理人工智能应用中日渐多样繁杂的计算任务。

AI芯片主要包括图形处理器(GPU)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、神经拟态芯片(NPU)等。

image.png

GPU属于通用型芯片,ASIC属于专用型芯片,而FPGA则是介于两者之间的半定制化芯片。

中国算力产业链图谱、空间布局及发展趋势梳理

产业链图谱

产业链上游核心为IT软硬件设备,包括基础硬件(如CPU、GPU、存储器等)、计算设备(服务器等)和网络设备(交换机、路由器、光模块等)及基础软件(如操作系统、数据库、中间件等),是计算力、存储力、运载力的最基本单元,也是决定算力质量的根本环节。此外,还包括供配电(配电柜、变压器、UPS等)、散热制冷(风冷、液冷等)等配套设施。

中游为算力网络及平台,包括各类算力基础设施建设及基于基础设施开展的IDC服务、云服务、人工智能算力服务及安全服务等,是为下游应用提供算力服务的核心环节。

下游为各类应用场景,涵盖互联网、金融、政务、交通、教育、工业、医疗、能源等行业和领域。

image.png

空间布局

2022年,随着国家“东数西算”工程启动,我国算力地图正式开始,形成八大枢纽、十大算力中心集群。其中,八大枢纽包括:京津冀枢纽、长三角枢纽、粤港澳枢纽、内蒙古枢纽、宁夏枢纽、甘肃枢纽、成渝枢纽、贵州枢纽。十大算力中心集群包括:京津冀算力中心集群、长三角算力中心集群、粤港澳大湾区算力中心集群、成渝算力中心集群、内蒙古算力中心集群、贵州算力中心集群、甘肃算力中心集群、宁夏算力中心集群、新疆算力中心集群、云南算力中心集群。

我国超算中心市场规模全球领先。我国高度重视科技创新,在超算技术方面不断取得突破,自主研发的超级计算机多次获得世界超算500 强排名的前列位置。根据第 56 期全球超级计算机 TOP500 榜单数据,中国部署的超级计算机数量继续位列全球第一,达到 226 台,占总体份额超过 45%。截止2023年,我国共有14座科技部批准的国家级超算中心。分别位于天津、深圳、长沙、济南、广州、无锡、郑州、昆山、成都西安、太原、重庆和乌镇。

此外,近几年,国内的算力市场持续增长,其中智能算力规模增长迅速,占比达到近30%,尤其这两年国内智算增速高达70%左右,已经成为算力经济发展的新引擎。不过就我国而言,智算中心仍有极大发展空间。据中国信通院公开信息,从建设状态看,截至2024年5月,我国智算主要还在建设和规划中,总算力规划272EFLOPS,但目前建成运营的只有104EFLOPS。2023年,这一整年全国有20+座智算中心建成或在建。公开数据显示,截至2023年底,全国带有“智算中心”的项目已有128个。2024年,北京、四川、宁夏、河南等多地智算中心开工或投入使用。

2023年以来,以ChatCPT、Sora为代表的AIGC大模型横空出世,掀起了一股席卷全球的AI浪潮。想要在AI浪潮中占据优势,就必须拥有强劲的AI算力支撑。智算中心作为AI算力的核心基础设施,逐渐成为人们关注的焦点,也是行业重点建设的对象。2024年又有一批智算中心投运,这些智算中心采用专门的AI算力硬件,适合高效运行AI算法。它们可以应用于计算机视觉、自然语言处理、机器学习等领域,处理图像识别、语音识别、文本分析、模型训练推理等任务。

发展趋势

自主可控:随着国际形势的变化和国内技术的进步,国产算力加速发展。国家及各级政府从政策层面促进国产算力芯片使用,《算力基础设施高质量发展行动》明确要逐步形成自主可控解决方案,上海、天津、江苏等地制定算力中心国产化芯片使用率目标。

image.png

多元异构:多元异构算力能满足不同场景对计算资源、计算能力的多样化需求,充分发挥各种计算设备的优势,实现计算效力的最大化。随着元宇宙、云游戏、机器视觉、工业互联网等新型应用逐渐落地,对算力提出越来越高的要求,未来多元异构算力有望快速发展。

image.png

绿色低碳:大模型驱动的智算中心功率密度大幅提升,算力中心能源消耗、碳排放问题日益受到关注。国家不断完善算力中心建设相关政策要求,修订算力中心评价指标体系,推动液冷、储能等绿色低碳技术应用,促进算力中心绿色低碳发展。

image.png

集群建设:数据量激增、计算需求增长以及虚拟化和容器等技术应用,推动算力中心向规模化、集群化发展,万卡以上的大规模集群加速建设。如,中国移动将商用哈尔滨、呼和浩特、贵阳三个自主可控万卡集群,总规模近6万张GPU卡,充分满足大模型集中训练需求。

image.png

智能运维:将AI技术应用于算力中心的运营维护,有助于提升算力中心运维效率和质量,可实现智能的资源调度、监控预警、检测排障,保障系统的稳定性和可靠性,还可根据设备的负载情况和环境参数,自动调整冷却系统和电源系统的运行策略,助力节能减排等。

image.png


参考文献:

天津市大数据协会中国算力产业链图谱、空间布局及发展趋势梳理

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
人工智能 自然语言处理 安全
国产算力平台的磨砺与革新:助力国内AI走向更高更远
近几年技术圈由人工智能的快速发展,引起来了变革和创新,虽然国外的算力一直是走在最前沿,但是国产算力平台在推动我国AI产业中发挥着重要作用,扮演着重要角色,但要助力国内AI走得更高更远,国产算力平台还需要经历磨砺和革新。那么本文就来分享和讨论一下国产算力平台所需的磨砺和革新,以及这样的平台在国产算力土壤之上能孕育出的AI创新之花。
400 1
国产算力平台的磨砺与革新:助力国内AI走向更高更远
|
10月前
|
机器学习/深度学习 存储 人工智能
【科普向】我们所说的AI模型训练到底在训练什么?
人工智能(AI)模型训练类似于厨师通过反复实践来掌握烹饪技巧。它通过大量数据输入,自动优化内部参数(如神经网络中的权重和偏置),以最小化预测误差或损失函数,使模型在面对新数据时更加准确。训练过程包括前向传播、计算损失、反向传播和更新权重等步骤,最终生成权重文件保存模型参数,用于后续的应用和部署。理解生物神经网络的工作原理为人工神经网络的设计提供了灵感,后者广泛应用于图像识别、自然语言处理等领域。
|
10月前
|
机器学习/深度学习 数据采集 监控
深度学习中模型训练的过拟合与欠拟合问题
在机器学习和深度学习中,过拟合和欠拟合是影响模型泛化能力的两大常见问题。过拟合指模型在训练数据上表现优异但在新数据上表现差,通常由模型复杂度过高、数据不足或质量差引起;欠拟合则指模型未能充分学习数据中的模式,导致训练和测试数据上的表现都不佳。解决这些问题需要通过调整模型结构、优化算法及数据处理方法来找到平衡点,如使用正则化、Dropout、早停法、数据增强等技术防止过拟合,增加模型复杂度和特征选择以避免欠拟合,从而提升模型的泛化性能。
|
10月前
|
人工智能 运维 监控
别再熬夜调模型——从构想到落地,我们都管了!
本文将以 Qwen2.5 : 7B 为例进行演示,介绍如何通过人工智能平台 PAI实现AI 研发的全链路支持,覆盖了从数据标注、模型开发、训练、评估、部署和运维管控的整个AI研发生命周期。
|
10月前
|
存储 人工智能 运维
摊牌了,代码不是我自己写的
本文介绍了如何使用便宜云服务器函数计算FC部署Qwen2.5开源大模型。Qwen2.5支持128K上下文长度和92种编程语言,通过Ollama托管和Open WebUI交互界面实现快速部署与高效调用。函数计算FC提供免运维环境,支持弹性扩容,开发者只需简单配置即可上线新功能。部署流程包括创建Ollama应用、配置Open WebUI及获取内网访问地址等步骤。应用体验部分展示了如何通过Open WebUI调用Qwen2.5进行多语言交流、解答数学题和文档总结等功能。此外,函数计算FC的自动扩缩容机制可根据请求量动态调整实例数量,提高资源利用率并降低成本。
摊牌了,代码不是我自己写的
|
10月前
|
存储 人工智能 运维
面向AI的服务器计算软硬件架构实践和创新
便宜云服务器在新一代通用计算服务器设计中,针对处理器核心数迅速增长(2024年超100核)、超多核心带来的业务和硬件挑战、网络IO与CPU性能增速不匹配、服务器物理机型复杂等问题,推出了磐久F系列通用计算服务器。该系列服务器采用单路设计减少爆炸半径,优化散热支持600瓦TDP,并实现CIPU节点比例灵活配比及部件模块化可插拔设计,提升运维效率和客户响应速度。此外,还介绍了面向AI的服务器架构挑战与软硬件结合创新,包括内存墙问题、板级工程能力挑战以及AI Infra 2.0服务器的开放架构特点。最后,探讨了大模型高效推理中的显存优化和量化压缩技术,旨在降低部署成本并提高系统效率。
|
存储 弹性计算 人工智能
弹性计算是一种非常有用的技术
弹性计算是一种灵活的计算资源分配方式,它可以根据应用程序的需求动态地调整计算资源的数量和类型。这种技术可以帮助企业在高峰期处理更多的请求,同时在低峰期释放不必要的资源,从而最大限度地提高资源利用率和降低成本。
281 1
弹性计算是一种非常有用的技术
|
存储 机器学习/深度学习 人工智能
深入浅出 AI 智能体(AI Agent)|技术干货
随着人工智能技术的发展,智能体(AI Agents)逐渐成为人与大模型交互的主要方式。智能体能执行任务、解决问题,并提供个性化服务。其关键组成部分包括规划、记忆和工具使用,使交互更加高效、自然。智能体的应用涵盖专业领域问答、资讯整理、角色扮演等场景,极大地提升了用户体验与工作效率。借助智能体开发平台,用户可以轻松打造定制化AI应用,推动AI技术在各领域的广泛应用与深度融合。
28590 1
|
运维 Cloud Native 安全
Serverless是什么
小陈向大刘请教Serverless,了解到Serverless是种云原生开发模式,重点在于FaaS(函数即服务)和BaaS(后端服务),让开发者专注于业务逻辑,而无需管理服务器等基础设施。Serverless并非无服务器,而是将服务器运维工作交给云厂商。FaaS是代码托管服务,例如便宜云服务器的函数计算,提供敏捷、弹性、可靠且成本效益高的计算服务。BaaS则是通过API调用第三方服务,如数据库访问。Serverless与传统架构相比,减少了开发者的负担,提高了效率,降低了成本,并增强了安全性。
3023 6
http://www.vxiaotou.com