性能基准 · v0.9.0

MindQuantum 与八个量子框架同台对比。

同一套硬件、同一组电路、统一双精度。我们在所有框架上分别跑了随机电路模拟与端到端 QAOA，并覆盖 CPU 与单卡 NVIDIA V100 两种后端。下方四张图即为结果。

硬件

Intel Xeon E5-2620 v3 @ 2.40 GHz

16 线程并开启 SIMD；GPU 测试使用单卡 NVIDIA V100。

测试工具

pytest-benchmark

记录每次运行的端到端墙钟时间，取多次迭代的中位数。

数值精度

双精度 FP64

TensorFlow Quantum 仅支持单精度 FP32，框架本身未提供双精度路径。

九个框架，一套环境。

所有框架均安装其当前稳定版本，使用相同的线程配置，并接收完全一致的电路定义。

01 / 底层模拟性能

每个框架模拟同一条随机电路，门集合包含 X、Y、Z、H、CNOT、S、T、RX、RY、RZ、Rxx、Ryy、Rzz、SWAP 及其受控版本。比特数从 4 扩展到 27，使用 pytest-benchmark 计时，以对数坐标绘制中位数耗时随比特数的变化。

MindQuantum 与 Qulacs 在底层实现上的优化已接近极限。

02 / 端到端优化

对一个真实的变分工作负载进行端到端计时：用一阶 Trotter 分解构造 QAOA 拟设电路，再通过 scipy.optimize.minimize 的 BFGS 方法优化至收敛。问题规模从 5 个节点扩展到 23 个；各框架在自身时间预算耗尽时停止，因此曲线终止比特数不一致。

MindQuantum 至少比其他框架快一个数量级，这主要得益于其参数化电路梯度计算上经过优化的伴随方法与高效的电路演化实现。

本页所用的框架、电路与测试脚本均为开源代码。文中数据与文字摘自 MindSpore Quantum 技术报告；测试脚本与论文同仓库公开发布。