中美人工智能算力发展现状简析

· · 科技·工程

:::warning[免责声明]{open} 本文系作者在某课程中的作业成果,部分内容经修改后上传至洛谷平台。本文的 TeX 源码由 Qwen 转换为 Markdown 格式。文中观点、数据及表述均出于学术练习目的,不代表任何机构立场,亦不构成专业建议。如有疏漏或不当之处,敬请谅解。 :::

:::info[温馨提示]{open} 由于 Markdown 样式稀少,若想获得更好的阅读效果,请下载由 TeX 编译的 PDF 版本 LLM_Computing.pdf。 :::

摘要

本文系统梳理了当前中美两国在人工智能算力领域的技术发展与产业布局。美国凭借其在高端芯片制造、软件生态及工具链方面的综合优势,持续引领全球 AI 算力发展;而中国则受限于先进制程设备、电子设计自动化(EDA)工具及关键材料的供应,在高性能计算领域面临显著挑战。尽管如此,中国在存算一体架构、边缘智能等新兴方向上已开展积极探索,展现出一定的创新潜力。

关键词:人工智能算力;AI 芯片;存算一体;边缘计算;中美科技竞争

1 引言

随着大模型技术的迅猛发展,人工智能对算力的需求呈指数级增长。目前,美国在 AI 芯片硬件、基础软件生态及产业链完整性方面占据主导地位。相比之下,中国虽在应用层和部分算法领域取得进展,但在高端芯片制造、先进封装及核心工具链方面仍受制于外部技术封锁与供应链限制 [1, 2]。然而,国内科研机构与企业亦在新型计算架构与边缘部署等方向展开创新尝试 [3, 4],为突破现有瓶颈提供可能路径。

图 1:人工智能与芯片产业协同发展关系示意图 [1]

2 中美在 AI 算力领域的差距分析

2.1 硬件芯片与系统架构

当前主流 AI 训练依赖专用硬件加速器,主要包括通用图形处理器(GPU)与专用集成电路(ASIC)。

通用 GPU(如 NVIDIA H100)采用单指令多线程(SIMT)架构,支持 FP64 / FP32 / FP16 / FP8 及 INT8 等多种精度运算,具备高度灵活性,广泛应用于各类 AI 模型训练与推理任务。据市场统计,NVIDIA 在全球 AI 加速器市场的占有率超过 94%。相较之下,中国厂商受限于先进制程(如 7 nm 以下)产能与良率,产品多集中于 28 nm 及以上工艺节点,导致性能、能效与成本竞争力不足。

在 ASIC 领域,Google 的 TPU v4 采用 5 nm 工艺,并集成光学电路交换网络(OCS),可实现最多 4096 颗芯片的高效互联 [5]。其内置的 SparseCore 模块专门优化嵌入查找操作,在大模型训练中显著提升效率。反观国内同类产品,多数仍基于成熟制程,内存带宽与片间互连速度存在明显短板 [3]。

为直观对比主流 AI 加速器性能,整理关键指标如下:

指标 NVIDIA H100 [6] Google TPU v7 [7] Groq LPU [8]
FP8 算力 3958 TFLOPS 4614 TFLOPS 750 TOPS
FP16 算力 4 PFLOPS 12 PFLOPS
内存容量 80 GB HBM3 192 GB HBM3E 230 MB SRAM
内存带宽 3.35 TB/s 7.3 TB/s 80 TB/s
典型功耗 700 W ≈1200 W 300–500 W
能效比 基准 较 H100 高 1.4–2.0 倍 单 token 能耗 1–3 焦耳(H100 为 10–30 焦耳)
单卡价格 \$25,000–\$30,000 租用约 \$1.20–\$1.38/小时 ≈\$20,000

表 1:主流 AI 加速器关键性能参数对比

如表 1 所示,美国已在通用与专用 AI 加速器领域构建多层次技术壁垒。中国尚无公开产品能在算力密度、内存带宽或能效比等核心维度实现对标,且受制于制造与软件生态,短期内难以弥合全栈差距。

2.2 软件生态与开发工具

软件层面,NVIDIA 的 CUDA 平台已成为 AI 开发的事实标准,绝大多数深度学习框架(如 PyTorch、TensorFlow)均深度依赖其生态。中国虽推出华为 MindSpore、百度 PaddlePaddle 等国产框架,但用户基数小、第三方库支持有限,生态建设仍处早期阶段 [3]。

更为关键的是,先进芯片设计高度依赖电子设计自动化(EDA)工具。全球三大 EDA 厂商(Synopsys、Cadence、Siemens EDA)均来自美国,其工具覆盖从逻辑综合到物理验证的全流程。国产 EDA 工具目前仅能支持部分中低端设计流程,难以支撑 7 nm 以下先进工艺的芯片开发 [1]。

2.3 供应链安全与制造瓶颈

美国对华实施的出口管制严重制约了中国获取高端半导体制造能力。例如,荷兰 ASML 公司的极紫外(EUV)光刻机对中国禁售,同时高端光刻胶、12 英寸硅片等关键材料亦受限 [1]。华为曾因无法获得台积电代工服务而中断高端手机芯片供应,凸显“设计—制造”脱节的风险 [2]。即便具备先进芯片设计能力,若缺乏制造与材料支撑,亦难以实现量产与迭代。

图 2:传统半导体产业链关键环节分布 [2]

3 中国的创新探索与替代路径

3.1 存算一体架构

为突破“存储墙”瓶颈,国内研究团队正积极推进存算一体(Computing-in-Memory, CiM)技术。清华大学团队在 14 nm 工艺节点上成功集成阻变存储器(RRAM),实现数据存储与计算在同一物理单元内完成 [3]。该技术可在 28 nm 等成熟工艺下实现较高能效,适用于特定 AI 推理场景,有望绕过先进制程依赖。

图 3:HBM 三维堆叠架构与传统 2D 封装对比示意图 [3]

3.2 端侧与边缘人工智能

鉴于云端大模型对算力与带宽的高要求,部分研究转向终端设备部署轻量化模型。牛超越等人提出“大小模型协同”范式,通过多边缘设备协作完成大模型推理,有效降低延迟与通信开销 [4]。实验表明,EdgeShard 框架可将端侧推理速度提升近一倍 [9],为资源受限场景提供可行方案。

图 4:云—边—端协同的 AI 推理与训练架构 [4]

4 结语

综上所述,美国在 AI 算力的硬件、软件及产业链整合方面仍具显著优势,而中国受制于制造工艺、EDA 工具及关键材料,在高性能计算领域面临系统性挑战。然而,在存算一体、边缘智能等新兴方向上,中国已开展具有前瞻性的技术探索。尽管当前成果尚属初步,但这些非对称创新路径或将成为未来突破“卡脖子”困境的重要突破口。

参考文献

  1. 李传志. 我国集成电路产业链[J]. 山西财经大学学报, 2020(4): 65–76.
  2. 李巍. 解析美国对华为的“战争”[J]. 当代亚太, 2021(3): 35–58.
  3. 刘凯萌, 等. 如何制造 AI 芯片的最强大脑?[J]. 中国计算机学会通讯, 2025, 1(6): 28–36.
  4. 牛超越, 等. 大小模型协同的边缘智能[J]. 中国计算机学会通讯, 2025, 1(8): 70–78.
  5. Jouppi N P, et al. TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning[C]// Proceedings of the 50th Annual International Symposium on Computer Architecture (ISCA '23). 2023.
  6. NVIDIA. NVIDIA H100 Tensor Core GPU Architecture [R]. White Paper, 2022.
  7. Wikipedia. Tensor Processing Unit [EB/OL]. (2025-12-20) [2026-01-04]. https://en.wikipedia.org/wiki/Tensor_Processing_Unit
  8. Groq. LPU Architecture [EB/OL]. (2025) [2026-01-04]. https://groq.com/lpu-architecture
  9. Shen Y, et al. EdgeShard: Efficient LLM Inference on Edge Devices [J/OL]. arXiv preprint arXiv:2405.14371, 2024.